Você está na página 1de 106

Notas de Aula

Este material descreve de modo sintetizado, os tópicos a serem estudados nesta fase
da disciplina. São enfocados aqui alguns pontos, o que não exclui a utilização de bibliografias.

ESTATÍSTICA

Fonte: http://www.portalaction.com.br/incerteza-de-medicao/11-erros-efeitos-e-correcoes

Prof. Gerson Ulbricht


Dr. em Métodos Numéricos em Engenharia

Versão: 07 de fevereiro de 2023


SUMÁRIO

PARTE 1: ESTATÍSTICA DESCRITIVA .............................................................................................. 4


1. INTRODUÇÃO À ESTATÍSTICA ................................................................................................. 4
1.1 ASPECTOS GERAIS .............................................................................................................................. 4
1.2 VARIÁVEIS.......................................................................................................................................... 4
1.3 SÉRIES ESTATÍSTICAS ......................................................................................................................... 5
1.4.1 Tipos de Séries ........................................................................................................................... 5
1.5 GRÁFICOS ESTATÍSTICOS ................................................................................................................ 6
1.5.1 Alguns tipos de gráficos ....................................................................................................... 6
1.6 DIAGRAMA RAMO E FOLHAS E DIAGRAMA DE PONTOS ...................................................................... 7
2 SÉRIE DE DISTRIBUIÇÃO DE FREQUÊNCIA ....................................................................... 10
2.1 SÉRIE DE DISTRIBUIÇÃO DE FREQUÊNCIA SIMPLES ....................................................................... 11
2.2 SÉRIE DE DISTRIBUIÇÃO DE FREQUÊNCIA EM CLASSES................................................................. 11
2.3 REPRESENTAÇÃO GRÁFICA PARA A SÉRIE DE DISTRIBUIÇÃO DE FREQUÊNCIAS............................ 12
2.3.1 Histograma ......................................................................................................................... 12
2.3.2 Polígono de frequência ....................................................................................................... 12
2.4 NO EXCEL ..................................................................................................................................... 12
3 MEDIDAS DE TENDÊNCIA CENTRAL .................................................................................... 16
3.1 MÉDIA .......................................................................................................................................... 16
3.1.1 Para pequenas quantidades de dados (dados brutos) ........................................................ 16
3.1.2 Para dados agrupados em uma distribuição de frequência simples e em classes .............. 16
3.1.3 Média Aritmética Ponderada ............................................................................................. 18
3.2 MEDIANA ...................................................................................................................................... 18
3.2.1 Mediana para pequenas quantidades de dados (dados não tabelados) ............................. 18
3.3 MODA ........................................................................................................................................... 19
3.3.1 Para pequenas quantidades de dados (dados brutos) ........................................................ 19
3.4 NO EXCEL ..................................................................................................................................... 19
3.5 EXERCÍCIOS PROPOSTOS ............................................................................................................... 20
4 MEDIDAS SEPARATRIZES ........................................................................................................ 22
4.1 QUARTIS ....................................................................................................................................... 22
4.2 PERCENTIL .................................................................................................................................... 22
4.3 MEDIDAS SEPARATRIZES NO EXCEL ............................................................................................. 22
4.4 GRÁFICO BOXPLOT ........................................................................................................................... 23
5 MEDIDAS DE DISPERSÃO ......................................................................................................... 26
5.1 DISPERSÃO DA MÉDIA .................................................................................................................. 26
5.1.1 Amplitude total ................................................................................................................... 26
5.1.2 Desvio-padrão .................................................................................................................... 26
5.1.3 Variância ............................................................................................................................ 26
5.1.4 Coeficiente de variação ...................................................................................................... 26
5.2 CÁLCULO DAS MEDIDAS DE DISPERSÃO ....................................................................................... 27
5.2.1 Para pequenas quantidades de dados (dados não tabelados) ............................................ 27
5.3 NO EXCEL ..................................................................................................................................... 28
EXERCÍCIOS ............................................................................................................................................ 28
6. CORRELAÇÃO E REGRESSÃO ...................................................................................................... 32
6.1 ANÁLISE DE CORRELAÇÃO ............................................................................................................... 32
6.1.1 Diagrama de Dispersão ........................................................................................................... 32
6.1.2 Propriedade do Coeficiente de Correlação Linear r ( r de Pearson). ..................................... 33
6.2 ANÁLISE DE REGRESSAO .......................................................................................................... 33
6.2.1 Regressão Linear Simples ........................................................................................................ 34
6.2.2 Coeficiente de determinação R² ............................................................................................... 35
6.2.3 Regressão Linear Utilizando Excel.......................................................................................... 36
6.2.4 Regressão Polinomial .............................................................................................................. 38
PARTE 2: ESTATÍSTICA INFERENCIAL.......................................................................................... 44
7 PROBABILIDADE ............................................................................................................................... 44
7.1 INTRODUÇÃO .................................................................................................................................... 44
7.2 CONCEITOS BÁSICOS: ....................................................................................................................... 44

2
7.3 EVENTOS DEPENDENTES E INDEPENDENTES ...................................................................................... 44
7.4 CÁLCULO DE PROBABILIDADES ........................................................................................................ 44
7.5 REGRAS BÁSICAS ............................................................................................................................. 45
7.6 PROBABILIDADE CLÁSSICA............................................................................................................... 45
7.7 PROBABILIDADE EMPÍRICA ............................................................................................................... 45
7.8 PROBABILIDADE SUBJETIVA ............................................................................................................. 46
7.9 LEI DOS GRANDES NÚMEROS ........................................................................................................... 47
7.10 EXERCÍCIOS (LARSON E FARBER, P. 138) ........................................................................................ 47
8 DISTRIBUIÇÕES DE PROBABILIDADE ........................................................................................ 48
8.1 DISTRIBUIÇÃO BINOMIAL DE PROBABILIDADE ................................................................................. 49
8.2 EXERCÍCIOS: ..................................................................................................................................... 49
8.3 DISTRIBUIÇÃO NORMAL DE PROBABILIDADE ................................................................................... 50
8.3.1 Distribuição Normal Teórica ................................................................................................... 52
8.4 O TEOREMA DO LIMITE CENTRAL ..................................................................................................... 53
9 ESTIMAÇÃO DE PARÂMETROS ..................................................................................................... 57
9.1 INTERVALO DE CONFIANÇA PARA UMA PROPORÇÃO ..................................................... 57
9.1.1 Nível de 95% de confiança....................................................................................................... 58
9.1.2 Outros níveis de confiança....................................................................................................... 59
9.2 INTERVALO DE CONFIANÇA PARA UMA MÉDIA ................................................................ 61
9.3 EXERCÍCIOS .................................................................................................................................. 63
9.4 RESUMO SOBRE INTERVALOS DE CONFIANÇA: .................................................................. 64
10. TESTES DE HIPÓTESES ................................................................................................................. 65
10.1 HIPÓTESES ESTATÍSTICAS ............................................................................................................... 65
10.2 TESTES DE NORMALIDADE ............................................................................................................. 65
10.2.1 Teste de Normalidade de Shapiro-Wilk (Software: R-Project) .............................................. 66
10.2.2 Teste de Normalidade de Anderson-Darling (Software utilizado: Minitab) .......................... 66
10.2.3 Teste de Normalidade de Kolmogorov-Smirnov (Software utilizado: Minitab) ..................... 67
10.3 TESTE T DE STUDENT ...................................................................................................................... 68
10.3.1 Teste t para amostras pareadas ............................................................................................. 69
10.3.2 Teste de Variâncias ................................................................................................................ 74
10.3.3 Teste t para duas amostras independentes presumindo variâncias iguais ............................ 77
10.3.4 Teste t para duas amostras independentes presumindo variâncias diferentes....................... 77
11. ANÁLISE DE VARIÂNCIA – ANOVA ........................................................................................... 81
11.1 EXIGÊNCIAS PARA EXECUTAR A ANÁLISE DE VARIÂNCIA............................................................... 81
11.2 HIPÓTESES DO TESTE ...................................................................................................................... 81
11.3 FORMULAÇÃO MATEMÁTICA DA ANOVA ..................................................................................... 82
11.4 EXEMPLOS DE APLICAÇÃO PRÁTICA DA ANOVA........................................................................... 87
12 EXPERIMENTO FATORIAL (TIPO 2K) ......................................................................................... 94
12.1 ESTUDO EXPERIMENTAL................................................................................................................. 94
12.2 ESTRATÉGIAS PARA UM ESTUDO EXPERIMENTAL ........................................................................... 95
12.3 CONCEITOS BÁSICOS ...................................................................................................................... 95
13 APÊNDICES E ANEXOS ................................................................................................................. 101
14 BIBLIOGRAFIA ............................................................................................................................... 106

3
PARTE 1: ESTATÍSTICA DESCRITIVA
1. INTRODUÇÃO À ESTATÍSTICA

1.1 Aspectos Gerais


Definição de Estatística:
Estatística é a Ciência que se preocupa com a coleta, organização,
apresentação, interpretação e análise de dados amostrais extraídos de
uma certa população.
População: conjunto de indivíduos, objetos ou entes, tendo pelo menos uma
variável comum observável.
Amostra: qualquer subconjunto de elementos extraídos da população. Portanto
a amostra é uma parte da população.

1.2 Variáveis

Variáveis são características que podem ser observadas (ou medidas) em cada
elemento da população, sob as mesmas condições. Dependendo do tipo do dado, as
variáveis podem ser classificadas em qualitativas ou quantitativas.

Variáveis

Qualitativas Quantitativas

Discretas Contínuas

Variáveis Qualitativas: representam dados que se apresentam em forma de nomes ou


atributos.
Variáveis Quantitativas: representam dados expressos em forma numérica. Podem ser
classificadas em: discretas e contínuas.

4
1.3 Séries Estatísticas

Os resultados do levantamento estatístico são apresentados em quadros ou


tabelas.

1.4.1 Tipos de Séries

Série temporal: Varia a época, mas o local e a espécie permanecem fixos.


Série geográfica: Varia o local, mas a época e a espécie permanecem fixas.
Série específica: Varia a espécie, mas a época e o local permanecem fixos.

Séries conjugadas: Também chamadas de séries compostas ou mistas. São


séries formadas pela junção de duas ou mais séries, ou seja, várias séries simples dentro
de uma mesma série.

Exemplo:
Vendas das Seções A e B. Loja X. 1° Bimestre. 2022.
Unidades Vendidas
Meses
Seção A Seção B
Janeiro 22 102
Fevereiro 35 99
Março 24 250
Total 81 451
Fonte: Departamento de Vendas

5
1.5 Gráficos Estatísticos

Os gráficos comunicam as mesmas ideias das tabelas, porém produzem uma


impressão e compreensão mais rápida. Abrangem três características: simplicidade,
clareza e veracidade.

1.5.1 Alguns tipos de gráficos

Pictogramas:

6
1.6 Diagrama Ramo e Folhas e Diagrama de Pontos

Fonte: Larson e Faber, 2019

7
8
Exercícios
QUESTÃO 1: Construa um gráfico de colunas (verticais) para representar a tabela a seguir. Não
se esqueça de colocar os elementos que compõe o título e de citar a fonte dos dados.
Número de automóveis vendidos pela Concessionária
Brasil Multimarcas no mês de janeiro de 2022
Marcas Semi-Novos Novos
Fiat 32 23
Ford 20 24
Renault 25 15
Chevrolet 5 10
Total 82 72
Fonte: Dados Fictícios

QUESTÃO 2: Use um gráfico de pontos para representar os dados. Os dados correspondem às


pressões arteriais sistólicas (em milímetros de mercúrio) de 30 pacientes em um consultório
médico.
120 135 140 145 130 150 120 170 145 125
130 110 160 180 200 150 200 135 140 120
120 130 140 170 120 165 150 130 135 140

QUESTÃO 3: Use um gráfico de Pareto para retratar os dados. Eles representam o número de
vezes que foram detectados erros na composição de medicamentos, durante um estudo de 2
meses. (Fonte: PubMed Central.)

QUESTÃO 4: Fonte: Larson e Farber, 2016: p. 64.

QUESTÃO 5: Um gráfico enganoso? Um gráfico enganoso é um gráfico estatístico que não


está representado adequadamente. Esse tipo de gráfico pode distorcer os dados e levar a
conclusões equivocadas. Explique por que cada gráfico é enganoso. Fonte: Larson e Farber,
2016.

9
QUESTÃO 6:

Dados: Um teste foi aplicado em uma amostra de 30 estudantes. As pontuações são mostradas na
tabela a seguir:
44 51 11 90 76 36 64 37
43 72 53 62 36 74 51 72
37 28 38 61 47 63 36 41
22 37 51 46 85 13 - -

QUESTÃO 7:

10
2 SÉRIE DE DISTRIBUIÇÃO DE FREQUÊNCIA
Pode-se classificar as séries de distribuições de frequência em: simples e em
classes como veremos a seguir.

2.1 Série de Distribuição de Frequência Simples

Para dados provenientes de variáveis discretas que normalmente apresentam


uma taxa de repetição mais elevada e poucos dados distintos pode-se construir uma série
de distribuição de frequência simples.

Exemplo: Os dados abaixo representam o número de peças com defeito produzidas


durante 1 hora em um total de 60h verificadas.
4 2 1 2 4 3 3 3 4 5 4 1 5 4 4
3 4 4 4 4 1 3 3 4 2 2 1 2 5 2
3 2 4 1 4 4 3 4 5 4 2 4 2 4 2
4 3 1 4 2 3 3 2 5 2 4 1 5 4 4
Distribuição do número de peças com defeito
xi (Nº de Defeitos) fi (Número de peças)
1 7
2 13
3 11
4 23
5 6
Total 60

2.2 Série de Distribuição de Frequência em Classes


Neste tipo de série, a representação “a |--- b” significa que o intervalo contém os
valores de a inclusive até b excluído).

Exemplo: O quadro abaixo apresenta as idades, em anos, de um grupo de pessoas.


34 13 45 15 35 13 12 13
10 13 12 14 23 15 22 65
23 15 22 11 22 21 21 13
32 20 21 34 10 13 36 14
34 10 21 32 23 15 22 11
45 50 54 60 49 48 32 29
44 51 54 51 50 31 31 29
45 50 54 60 49 48 32 29
Informações iniciais:
Xmenor = 10 anos; Xmaior = 65 anos e A = 65 – 10 = 55 anos.

O número de classes pode ser aproximado pela fórmula de Sturges:


Nc = 1 + 3,3 . log(N)
Nc = 1 + 3,3  log(N) = 1 + 3,3  log(64) = 6,97 Nc = 7 classes

11
Amplitude da classe (h):
ℎ = = = 7,9 h = 8 anos.
Distribuição das idades em anos de um grupo de pessoas.
xi (anos) fi xi fr Fa
10 l— 18 19 14 0,2969 19
18 l— 26 12 22 0,1875 31
26 l— 34 9 30 0,1406 40
34 l— 42 5 38 0,0781 45
42 l— 50 8 46 0,1250 53
50 l— 58 8 54 0,1250 61
58 l— 66 3 62 0,0469 64
Total 64 - 1,0000 -

2.3 Representação Gráfica para a Série de Distribuição de Frequências


2.3.1 Histograma
Gráfico que representa todos os elementos da série. É uma área formada por
colunas justapostas de maneira contínua, na qual cada classe é uma coluna. No eixo x vão
as classes de frequência xi e no eixo y a frequência fi.
Exemplo:
Total de Pontos fi Fi
150 |- 154 4 4
154 |- 158 9 13
158 |- 162 11 24
162 |- 166 8 32
166 |- 170 5 37
170 |- 174 3 40
Total 40

2.3.2 Polígono de frequência


É um gráfico em linha, sendo as frequências marcadas sobre perpendiculares ao
eixo horizontal, levantadas pelos pontos médios dos intervalos de classe.
12

10

6
f

0
148 152 156 160 164 168 172 176
Estaturas [cm]

2.4 No Excel
A distribuição de frequência pode Exemplo: Distribuição de frequência
facilmente ser construída através da função simples da amostra: {1, 3, 3, 3, 5, 5, 5,
=FREQUÊNCIA(matriz_dados;matriz_ 4, 8, 2, 5, 1, 3, 6, 3, 4, 8, 7}.
bin) onde: matriz_dados é uma matriz ou
12
uma referência a um conjunto de valores
cujas frequências se deseja contar;
matriz_bin é uma matriz ou referência a
intervalos nos quais se deseja agrupar os
valores contidos em matriz_dados.

Exercícios

1. Construa uma distribuição de frequência: os dados abaixo representam o número de


horas paradas por dia em uma máquina durante um período de 60 dias de trabalho..

0 2 1 2 4 3 3 3 1 0 4 1 5 0 4
3 1 0 1 0 1 3 3 4 2 2 1 2 5 2
3 2 4 1 4 0 3 0 5 4 2 4 2 1 2
0 3 1 0 2 3 3 2 1 2 4 1 0 1 4

2. Construa uma distribuição de frequência e um histograma de frequência para o


conjunto de dados usando 5 classes.
Conjunto de dados: tempos de prova (em segundos) de todos os participantes
masculinos, com idade de 25 a 29 anos, em uma corrida de 5 quilômetros:
1595 1472 1820 1580 1804 1635
1959 2020 1480 1250 2083 1522
1306 1572 1778 2296 1445 1716
1618 1824

2.Durante 70 dias foram verificadas quantas peças um certo operador, em uma máquina
conseguia produzir. Construa uma tabela de distribuição de frequência (em classes).
Apresente na tabela a Fr%.
191 162 207 238 236 252 134 193 233 167
179 149 145 171 177 136 183 188 204 189
190 189 240 197 194 185 259 226 271 180
250 152 216 227 258 197 184 220 189 223
157 175 154 189 199 201 190 266 148 178
123 243 162 180 223 214 226 218 159 167
221 210 172 193 204 217 204 173 257 215

13
Mais exercícios: Construa uma tabela de distribuição de frequência e histograma. Fonte:
LARSON, Ron; FARBER, Betsy. Estatística aplicada. 6. ed. São Paulo: Pearson Prentice
Hall, 2016. p. 50:

14
No laboratório:

QUESTÃO 1: A tabela a seguir mostra os dados referentes à COVID19 no Brasil de 01/01/2021


até 27/09/2021. Para ver os dados você pode acessar:
https://www.tudocelular.com/tech/noticias/n154352/coronavirus-brasil-mundo-relatorio-covid-
19.html
Eu (prof. Gerson), organizei os dados num quadro, para facilitar, em ordem por coluna da
esquerda para a direita.

Número de mortes por COVID por dia (de 01/01/2021 até 27/09/2021)
445 1.316 1.330 1.641 1.383 1.803 2.656 2.215 2.504 2.081 1.424 411 298 935
331 1.096 1.351 1.910 3.251 1.480 1.202 1.899 2.216 2.029 1.424 1.211 266 244
293 1.202 1.288 1.699 1.999 3.808 983 860 2.037 1.857 1.412 975 839 203
466 592 1.043 1.800 2.787 3.459 2.966 790 1.129 1.635 1.324 1.148 737 485
1.248 627 713 1.555 3.650 3.560 2.811 2.173 827 830 1.108 966 764 876
925 1.214 528 1.086 3.438 3.305 2.550 2.398 2.468 695 476 926 756 648
1.841 1.283 1.167 987 1.656 2.929 2.165 2.245 2.997 1.780 578 270 692 699
962 1.386 1.150 1.972 1.660 1.657 2.202 2.371 2.311 1.648 1.333 434 266 537
1.171 1.119 1.367 2.286 3.780 1.347 1.024 2.012 2.495 1.639 1.344 1.106 182 243
469 1.279 1.308 2.233 3.869 3.321 889 874 2.301 1.509 1.318 1.064 361 210

480 559 1.212 2.216 3.769 3.472 2.311 860 1.025 1.205 963 979 250

1.110 595 527 1.986 2.922 2.027 2.494 2.408 761 595 910 870 753

1.274 1.210 639 1.138 1.987 2.914 2.383 2.507 2.131 745 464 698 672

1.131 1.254 1.386 1.057 1.240 3.076 2.211 1.682 2.392 1.605 389 318 712

1.038 1.232 1.428 2.340 1.319 1.305 2.087 1.454 2.032 1.556 1.209 321 293

1.163 1.279 1.541 3.149 4.195 1.139 1.036 1.689 2.001 1.548 1.175 894 215

551 978 1.337 2.724 3.829 3.086 786 873 1.593 1.456 1.099 903 731

452 522 1.386 2.815 4.249 3.163 2.513 1.010 739 868 1.056 920 800

1.192 636 721 2.438 3.693 3.001 2.641 2.378 618 948 990 761 643

1.340 1.350 778 1.290 2.616 2.595 2.403 2.723 1.893 542 399 684 333

Pede-se: Faça uma tabela de distribuição de frequência em classes, contendo entre 7 a 9


classes (7 a 9 linhas). Faça com auxílio do computador. Coloque colunas para frequência absoluta
(fi), frequência relativa (f%), e frequência acumulada (fa).

15
3 MEDIDAS DE TENDÊNCIA CENTRAL

São números que indicam o valor médio de uma distribuição de frequência,


procurando representar a distribuição.

3.1 Média

A média é o elemento representativo de série mais usado, procura uniformizar


os dados em torno do valor médio.
Simbologia: x : média de uma amostra;
: média de uma população.

3.1.1 Para pequenas quantidades de dados (dados brutos)


Nesta categoria colocamos a forma mais simples de cálculo da média. Dizemos
que os dados são brutos, não tabelados. Geralmente não estão ordenados.
n

x i
x i 1

n
Onde:
n: o número total de dados.
xi: valores (dados).
Exemplo: Imagine que na inspeção de um produto foram obtidas sete amostras de uma
substância cujas massas em gramas resultaram no seguinte conjunto: {3,2 - 3,3 - 3,4 - 3,4
- 3,6 - 3,5 - 3,4}.
3,2  3,3  3,4  3,4  3,6  3,5  3,4
x  3,4 g
7
Portanto a massa média das sete amostras é igual a 3,4 gramas.

3.1.2 Para dados agrupados em uma distribuição de frequência simples e em


classes
k

 x
i 1
i fi 
A média é calculada por x k

f
i 1
i

Onde:
k: número de linhas na tabela; fi: frequência simples; xi: valores da coluna indicadora.

16
Exemplo 1: Seja X o número de filhos dos empregados no setor de produção de uma
empresa:
Distribuição do número de filhos dos empregados no setor de produção
xi (Número de fi (Número de
xifi
Filhos) Empregados)
0 3 0
1 10 10
2 13 26
3 11 33
4 7 28
5 4 20
6 2 12
Total 50 129
k

 x i  fi 
129
 i 1
k
   2,58 filhos.
50
f
i 1
i

Exemplo 2: Seja X o salário semanal (U$) dos operários da Empresa X:

Distribuição do Salário Semanal dos Operários da Empresa X.


xi (Salário fi (Número de
Semanal) Operários)
xi x i fi
40 l— 60 7 50 350
60 l— 80 12 70 840
80 l— 100 14 90 1260
100 l— 120 18 110 1980
120 l— 140 10 130 1300
140 l— 160 6 150 900
160 l— 180 3 170 510
Total 70 - 7140
Para o cálculo da média devemos, inicialmente, obter os pontos médios de cada
classe e então proceder como no exemplo anterior.
k

 x i  fi 
 i 1
k
  = 102 reais.
f
i 1
i

17
3.1.3 Média Aritmética Ponderada
Neste tipo de média, os dados que a compõe podem apresentar pesos diferentes.

 x  P  i i
x i 1
n

Pi 1
i

Onde: xi: Dados; Pi: Pesos;

Exemplo: Um aluno obteve as seguintes notas em uma disciplina:


Prova 1: 6,0;
Prova 2: 3,0;
Trabalho: 10,0;
Apresentação de trabalho: 8,0;
Sabendo que os pesos são respectivamente: 5, 4, 2 e 1, calcule a média.

3.2 Mediana

A mediana é a medida de tendência central que divide a série ordenada


(crescente ou decrescente) exatamente ao meio, ou seja, em 2 partes iguais. 50%
antecedem e 50% da distribuição sucedem seu valor.
Dependendo de como os dados estão organizados a mediana tem uma forma
específica de ser calculada.

3.2.1 Mediana para pequenas quantidades de dados (dados não tabelados)


A mediana é o valor médio ou a média entre os valores centrais de um conjunto.
É essencial que os dados estejam ordenados (em um rol).

Exemplo: Voltando ao exemplo das sete amostras de uma substância dada em gramas. A
amostra é constituída pelos valores 3,2 - 3,3 - 3,4 - 3,4 - 3,6 - 3,5 - 3,4.

Ordenando os dados:
3,2 – 3,3 – 3,4 – 3,4 – 3,4 – 3,5 – 3,6.
Portanto a mediana é 3,4 gramas. Ou seja, a metade das amostras obteve até 3,4
gramas de massa.
Se o número de dados for par, a mediana é tomada como sendo a média dos dois
dados centrais.

18
3.3 Moda

A moda, representada por Mo, é o valor ou valores que ocorrem com maior
frequência, logo é uma medida de concentração. É o valor que mais repete. Numa tabela
de frequências, identifica-se através da ocorrência da maior frequência.
3.3.1 Para pequenas quantidades de dados (dados brutos)
Voltando ao exemplo das 7 amostras de uma substância cujas massas em gramas:
3,2 - 3,3 - 3,4 - 3,4 - 3,6 - 3,5 - 3,4.
Ordenam-se os dados para ter uma visão melhor:
3,2 – 3,3 – 3,4 – 3,4 – 3,4 – 3,5 – 3,6
Podemos afirmar que a moda é igual a 3,4 gramas, pois é o valor que mais ocorre.

3.4No Excel
As medidas de tendência central podem ser obtidas através das funções:
=MÉDIA(num1,num2,..) para a média; =MED(num1,num2,..) para a mediana e
=MODO(num1,num2,..) para a moda.

Conforme Larson e Farber, 2016:

19
3.5 Exercícios Propostos

1. Seja a seguinte amostra do valor em salários mínimos ganhos por 15 funcionários de


uma empresa:
{ 3, 5, 5, 5, 4, 8, 2, 5, 1, 5, 6, 3, 4, 8, 7}
a) Média: ....................
b) Mediana: ....................
c) Moda: ....................

2. Valores consumidos em kWh por 106 residências. Calcule a média.

Consumo em kWh No de Residências


050 | 100 10
100 | 150 15
150 | 200 18
200 | 250 35
250 | 300 16
300 | 350 12
Total 106

3. (Larson e Farber) Encontre a média, a mediana e a moda da amostra das idades dos
alunos de uma turma mostradas na tabela a seguir:

20
5

Determine:
a) Média: ....................
b) Mediana: ....................
c) Moda: ....................

6. Cálculo de médias:

a) Calcule a média dos dados da questão 1 da página 15 dessa apostila, que mosta os casos
de COVID. Para isso, cole os dados no Excel e utilize a função MÉDIA().

b) Agora, calcule a média manualmente, utilizando a tabela de distribuição de frequência


que você fez na questão 1. Para isso use a fórmula (foi estudado na aula 2 – Parte 2):
∑ (𝑥 ⋅ 𝑓 )
𝑥̄ =
∑ 𝑓

c) Houve diferença no resultado entre os itens (a) e (b)? Explique por quê.

21
4 MEDIDAS SEPARATRIZES

Neste capítulo serão apresentadas outras medidas de posição: os quartis, os decis


e os centis. Estas medidas serão chamadas de separatrizes.
As separatrizes são medidas de posição que dividem a série em partes iguais.

4.1 Quartis

O quartil inferior, o quartil mediano (ou mediana1) e o quartil superior são as


medidas que dividem a série em 4 partes iguais.

Q1 1 quartil
Q2 2 quartil (Me) 25% 25% 25% 25%
Q3 3 quartil
Q1 Q2 Q3

4.2 Percentil

Do mesmo que os Quartis, podem ser obtidos os Percentis que consistem na


divisão em 100 partes. Com os percentis pode-se calcular qualquer medida de posição.
Veja que: Mediana = Quartil 2 = Percentil 50.

4.3 Medidas Separatrizes no Excel

As separatrizes podem ser obtidas através das funções: =QUARTIL(matriz;


quarto) e =PERCENTIL(matriz;k). Os parâmetros são:
- matriz é a matriz ou intervalo de dados que define a posição relativa.
- quarto indica o valor a ser retornado (0 para o valor mínimo, 1 para o 1º quartil,
2 para o 2º quartil, 3 para o 3º quartil e 4 para o valor máximo).
- k é o valor do percentil no intervalo 0..1, inclusive.

Exemplo: Cálculo de algumas separatrizes da amostra: {1, 3, 3, 3, 5, 5, 5, 4, 8, 2, 5, 1, 3,


6, 3, 4, 8, 7}.

1
A mediana também pode ser considerada como uma separatriz e nos quartis recebe o nome de Q2.

22
Figura 4-1. Obtenção das separatrizes no Excel.

Exemplo: Senso da Educação Superior:

Fonte:
http://portal.inep.gov.br/documents/186968/484154/Resumo+T%C3%A9cnico+Censo+da+Educa%C3%A7%C3%A
3o+Superior+2015/dd2d280c-f644-4776-95ae-28029c928e20?version=1.0

4.4 Gráfico Boxplot

O Boxplot é um gráfico utilizado para avaliar a distribuição empírica do dados.


Os limites são calculados da seguinte forma:
A posição central é dada pela mediana e a dispersão pelo chamado desvio
interquartílico, denotado por dq = Q3 - Q1.

23
As posições dos quartis Q1, Q2 e Q3 fornecem evidência sobre o nível de
assimetria da distribuição dos dados.
Um ponto será considerado outlier quando estiver fora do intervalo denotado por
(LS ; LI), onde:
LS: Limite superior: .
LI: Limite inferior: .
Os pontos fora destes limites são considerados valores discrepantes (outliers) e
são denotados por asterisco (*).
As hastes inferiores e superiores se estendem, respectivamente, do quartil inferior
até o menor valor não inferior ao limite inferior e do quartil superior até o maior valor
não superior ao limite superior. (Fonte: http://www.portalaction.com.br/estatistica-
basica/31-boxplot)

Fonte da imagem: https://towardsdatascience.com/understanding-boxplots-5e2df7bcbd51?gi=d51dedb9625

O Boxplot pode ainda ser utilizado para uma comparação visual entre dois ou
mais grupos. Por exemplo, duas ou mais caixas são colocadas lado a lado e se compara a
variabilidade entre elas, a mediana e assim por diante.
Exemplo:
A seguir temos as medidas da altura de 16 peças e o Boxplot correspondente.
Medidas de algumas peças
903,88 1036,92 1098,04 1011,26
1020,70 915,38 1014,53 1097,79
934,52 1214,08 993,45 1120,19
860,41 1039,19 950,38 941,83

24
Exemplo de Box Plot

Fonte: https://i0.wp.com/statisticsbyjim.com/wp-content/uploads/2019/01/boxplot_teaching.png?resize=576%2C384

Exercícios: Boxplots.
1 Considere que 22 pessoas foram entrevistadas e forneceram a informação de idade,
conforme os dados a seguir. Construir um Boxplot.

2. Os dados a seguir representam as idades dos acadêmicos de uma turma de pós-graduação.


Construir um gráfico Boxplot, sabendo que Q1 = ..... e Q3 = ...... Represente também a média no
Boxplot.
35 28 30 60 47 33 34 45 44 21 36 37 31

25
5 MEDIDAS DE DISPERSÃO

As medidas de dispersão, de variabilidade indicam o grau de variabilidade, de flutuação


dos valores em torno do valor pré-determinado.

5.1 Dispersão da Média


5.1.1 Amplitude total
Amplitude ou campo de variação, indicado por A, é definida por A = Xmaior - Xmenor. Trata-
se de uma medida muito instável se ocorrer valor excepcional. Para uma análise da variabilidade
ela não é tão utilizada como as outras medidas.

5.1.2 Desvio-padrão
O desvio-padrão é apresentado em duas formas:  para população, s para amostra.
Também chamado afastamento médio quadrático, consiste em achar a média quadrática dos
desvios di = xi – x em relação à média. Dependendo de como os dados se apresentam, temos as
seguintes fórmulas para o cálculo do desvio-padrão.

Desvio-padrão Para dados brutos (não tabelados)


k

da população  (x i  x )²
  i 1

n
k

da amostra  (x i  x )²
s i 1

n 1
onde:
n: número de elementos
k: número de linhas na tabela
xi: valores da coluna indicadora (1ª coluna da tabela)
x: média da distribuição

5.1.3 Variância
A variância é o quadrado do desvio-padrão, ou seja, o desvio-padrão é a raiz quadrada da
variância. (2 para a população e s2 para a amostra).

5.1.4 Coeficiente de variação


O coeficiente de variação ou coeficiente de variabilidade CV é o desvio-padrão expresso
como percentagem da média. Utilizado para comparar grandezas de unidades iguais ou diferentes

26
quando os grupos são essencialmente diferentes; por exemplo: comparar notas com alturas ou
alturas de um grupo de crianças com alturas de um grupo de adultos1.

Exemplo: Comparação de variáveis de mesmo desvio-padrão e médias diferentes. Dois alunos em


Estatística obtiveram os seguintes resultados:
Aluno 1: x = 5,6 e s = 1,6  CV = 29%
Aluno 2: x = 7,2 e s = 1,6  CV = 22%
Neste caso há maior dispersão das notas do aluno 1 (O aluno 1 é mais heterogêneo, menos
regular) pois o percentual é maior.

Exemplo: Comparação de variáveis em unidades diferentes. Há maior dispersão em altura ou peso


entre os alunos da turma X?
Peso: x = 69,1 kg e s = 10,9 kg  CV = 15,77%.
Altura: x = 168,6 cm e s = 12,1 cm  CV = 7,18%.
Conclusão: Há maior dispersão no peso da turma, pois o CV é maior.

5.2 Cálculo das Medidas de Dispersão

5.2.1 Para pequenas quantidades de dados (dados não tabelados)


Exemplo: Imagine que na inspeção de um produto foram obtidas 7 amostras de uma substância
cujas massas em gramas resultaram no seguinte conjunto: 3,2 - 3,3 - 3,4 - 3,4 - 3,6 - 3,5 - 3,4.
Tem-se a média
3,2  3,3  3,4  3,4  3,6  3,5  3,4
x  3,4 g.
7
Com a média podem ser calculados os desvios simples. Cada dado tem um desvio que é
a diferença entre o seu valor e a média. É comum que existam dados mais próximos e outros mais
afastados da média, alguns acima (desvios positivos) e outros abaixo (desvio negativo) da média.
Existe ainda a possibilidade de que algum valor seja igual (desvio igual a zero) a média.

1
O coeficiente de variação tanto pode ser utilizado para fazer comparação entre duas ou mais distribuições bem
como para classificar uma distribuição.
27
xi ( xi  x ) ( xi  x ) 2

3,2 3,2 - 3,4 = -0,2 (-0,2)² = 0,04


3,3 3,3 - 3,4 = -0,1 (-0,1)² = 0,01
3,4 3,4 - 3,4 = 0 02 = 0
3,4 3,4 - 3,4 = 0 02 = 0
3,4 3,4 - 3,4 = 0 02 = 0
3,5 3,5 - 3,4 = 0,1 (0,1)² = 0,01
3,6 3,6 - 3,4 = 0,2 (0,2)²=0,04
Total 0 0,1

Agora pode ser calculada a dispersão aplicando as fórmulas vistas anteriormente.


Amplitude: A = Xmaior - Xmenor = 3,6 – 3,2 = 0,4 g
k

 (x i  x )²
0,1
Desvio-padrão: s i 1
  0,0167  0,1291g
n 1 7 1
k

 (x i  x )²
0,1
Variância: s 
2 i 1
  0,0167 g 2
n 1 7 1
s  100 0,1291  100
Coeficiente de variação: CV    3,8% (variação baixa)
x 3,4
5.3 No Excel
As medidas de dispersão podem ser obtidas através das fórmulas:
=DESVPAD(num1,num2,..) para o desvio-padrão; =VAR(num1,num2,..) para a variância.
Algumas medidas não têm fórmulas prontas, portanto devem ser criadas.

Exemplo:

É também possível usar uma ferramenta fornece várias estatísticas simultâneas de uma
amostra. Para acessá-la, vá pelo menu Ferramentas e selecione a opção Análise de dados2. Uma
lista de opções será apresentada. Entre estas, encontra-se uma denominada Estatística descritiva.

Exercícios
1. Os valores abaixo se referem a idade de um grupo de 6 pessoas.

2
Se não encontrar Análise de dados, você deverá antes habilitar a disponibilidade das duas formas de Ferramentas
de análise através do caminho de menu Ferramentas / Suplementos.
28
40 – 30 – 35 – 20 - 50 - 29
Calcule o desvio padrão amostral.

2.

4. (Use calculadora e apresente somente os resultados)


Peso de um grupo de adultos:

Dados:
74 76 76 79 80 80 80 80
82 84 84 85 85 85 85 89
89 90 90 93 94 95 96 98

Com base nesta amostra, calcule:


a) Média: ...................
b) Moda: ...................
c) Mediana: ...................
d) Amplitude: ...................
e) Desvio padrão: ...................
f) Variância: ...................
g) Coeficiente de variação: ...................

29
3. (Use calculadora e apresente somente os resultados)
Peso de um grupo de adultos:

Dados:

74 76 76 79 80 80 80 80

82 84 84 85 85 85 85 89

89 90 90 93 94 95 96 98

Com base nesta amostra, calcule:


a) Média: ...................
b) Moda: ...................
c) Mediana: ...................
d) Amplitude: ...................
e) Desvio padrão: ...................
f) Variância: ...................
g) Coeficiente de variação: ...................

4. Mostre manualmente, que o desvio padrão dos dados a seguir é aproximadamente 1,92,
conforme já calculado no Excel.

5. O gráfico a seguir expressa o número de animais doentes encontrados num levantamento de 350
propriedades rurais em MG, 2008:

Determine:
a) Desvio Padrão: .......................
b) Coeficiente de Variação: .......................

30
6.

7. Construa uma distribuição de frequência para os dados. A seguir, use a tabela para estimar a
média e o desvio padrão amostral do conjunto de dados.

8. Construa uma distribuição de frequência para os dados. A seguir, use a tabela para estimar a
média e o desvio padrão amostral do conjunto de dados.

31
6. CORRELAÇÃO E REGRESSÃO

Quando são consideradas observações de duas ou mais variáveis surge um novo


problema: as relações que podem existir entre as variáveis estudadas.
Uma vez caracterizada a relação, procuramos descrevê-la através de uma função
matemática. A regressão e o instrumento adequado para determinação dos parâmetros dessa
função.

6.1 Análise de Correlação

6.1.1 Diagrama de Dispersão

Como observa-se, duas ou mais variáveis podem expressar uma relação de causa e efeito,
estando assim correlacionadas. O grau de relacionamento para dados amostrais é dado pela
seguinte expressão:

32
Onde: n é o numero de observações;
r é o coeficiente de correlação linear para uma amostra (chamado r de Pearson).
EXEMPLO: Encontre o coeficiente de correlação para os dados da tabela a seguir, sendo
X a nota de Cálculo e Y a nota de Física de cada acadêmico.

6.1.2 Propriedade do Coeficiente de Correlação Linear r ( r de Pearson).

 O valor de r está sempre entre –1 e 1.


 O valor de r não varia se todos os valores de qualquer uma das variáveis são
convertidos para uma escala diferente.
 O valor de r não é afetado pela escolha de x ou y.
 O coeficiente “r” mede a intensidade, ou grau, de um relacionamento linear. Não
serve para medir a intensidade de um relacionamento não-linear

Se as variáveis x e y crescem no mesmo sentido, isto e, quando x cresce, y também cresce,


diz-se que as duas variáveis têm correlação positiva.
Se as variáveis x e y variam em sentido contrário, isto e, quando x cresce, em média y
decresce, diz-se que as duas variáveis têm correlação negativa.

6.2 ANÁLISE DE REGRESSAO

Para a análise de regressão interessam principalmente os casos em que a variação de um


atributo e sensivelmente dependente do outro atributo. O problema consiste em estabelecer a
função matemática que melhor exprime a relação existente entre as duas variáveis (Xi; Yi)..
Simbolicamente a relação e expressa por uma equação de regressão e graficamente por uma curva
de regressão.

33
6.2.1 Regressão Linear Simples

Modelo: 𝑌 = 𝑎𝑋 + 𝑏 + 𝜀 (𝜀: erro)

As estimativas dos parâmetros “a” e “b”, são obtidas a partir de uma amostra de n pares
de valores (xi, yi) que correspondem a n pontos no diagrama de dispersão.

Exemplo:

Resolvendo-se esse sistema, obtemos a estimativa para o cálculo de:

34
6.2.2 Coeficiente de determinação R²

É importante interpretar o coeficiente de determinação corretamente. Por exemplo, se o


coeficiente de correlação é r = 0,9, então o coeficiente de determinação é: R² = (0,9)² = 0,81.
Isso significa que 81% da variação em y pode ser explicada pelo modelo que relaciona x
e y. Os restantes 19% da variação não são explicados e são consequência de outros fatores, como
erro amostral, ou variáveis não consideradas.

Exercícios: ver livro Estatística para a Qualidade – Sônia Vieira – p. 75-77.

35
6.2.3 Regressão Linear Utilizando Excel

1º) Digitar a tabela com os dados e clicar em assistente de gráfico. Escolher gráfico: Dispersão
XY.

2º) Avançar e selecionar a tabela de dados.

3º) Clique em avançar, retire as linhas de grade e legendas e clique em concluir.


4º) Ajuste as dimensões do gráfico, escalas e layout.
5º) Depois de ajustado o gráfico, clique em um dos pontos com o botão direito e selecione a opção:
Adicionar linha de tendência.

36
6º) Escolha o modelo adequado, neste caso o modelo linear.

7º) Nesta mesma janela, clique na guia “Opções” e marque as opções: “Exibir equação do
gráfico” e “Exibir valor R-quadrado no gráfico”.

8º) Será demonstrada a equação de regressão linear no gráfico bem como o valor de R-
quadrado. O “R-quadrado” (R²: Coeficiente de Determinação) se refere ao ajustamento da reta aos
pontos. Esse valor varia de 0 a 1 (0% a 100%).

37
6.2.4 Regressão Polinomial

Para o procedimento computacional os passos são os mesmos da Regressão Linear, porém


escolhe-se no passo 6 (visto acima) a opção “Polinomial” ajustando-se o grau do polinômio.

Exercício: A tabela a seguir descreve o investimento em propaganda e o lucro líquido obtido


numa empresa de televendas em 15 períodos observados.

Investimento (x 1000) Lucro (x 1000)

1 2
3 4
5 10
6 14
8 15
10 18
10 16
12 19
16 17
18 14
20 15
20 12
22 8
25 6
28 3

Pede-se:
a) Construir o gráfico de dispersão xy. Observe o gráfico e verifique qual o modelo que mais
se adapta se é o linear ou o polinomial.
b) Calcular a equação de regressão: y = ax2 + bx + c, bem como o valor de R2
c) Calcular a melhor opção de investimento em propaganda. Use as fórmulas para vértices da
parábola: 𝑥 =
Calcule o vértice yv substituindo o valor na própria função. Isso evita o cálculo do valor
de delta.
d) Fazer um previsões para investimentos em propaganda no valor de R$ 15.000,00 e de R$
20.000,00.
e) Faça seus comentários para previsão de R$ 20.000,00 observando os valores na tabela
inicial.

38
Bibliografia: Ron Larson, Betsy Farber. Estatística Aplicada. São Paulo : Pearson, 2015:

Completando o quadro:

39
Exemplo:

40
41
EXERCÍCIOS

Questão 1: A seguir é mostrado o número de horas que 9 estudantes passaram estudando para um
teste e suas respectivas pontuações. Calcule o coeficiente de correlação linear.

X (Horas Y
de estudo) (Pontuação)
0 40
2 51
3 64
5 69
5 80
6 68
6 80
7 90
8 95
Totais: 42 637

Questão 2: Considerando os dados da questão anterior:


a) Faça o diagrama de dispersão e trace a linha de tendência.

b) Ache a equação de regressão linear do tipo 𝑌 = 𝑎𝑋 + 𝑏.


c) Faça uma predição de nota para um estudante que estuda durante 6h.

42
3. Os dados a seguir correspondem à variável renda familiar e gasto com alimentação (em unidades
monetárias). A amostra é pequena propositalmente, para facilitar os cálculos.

Renda Gasto com


Familiar (X) Alimentação
(Y)
3 1,5
5 2,0
10 6,0
20 10,0
30 8,0
50 20,0

Obtenha a equação de regressão do gasto com alimentação em função da renda familiar (para os
dados da questão anterior).

4. Construa o diagrama de dispersão da variável gasto com alimentação (Y) em função da renda
familiar (X) e plote a linha de tendência. Faça uma previsão do gasto com alimentação para renda
familiar igual a 30.

Questão 5: Os dados a seguir representam as idades (em anos) e as pressões sanguíneas sistólicas
(em mmHg) de 10 homens.

a) Represente os dados em um diagrama de dispersão xy.

b) A equação de regressão referente a esses dados é: y = 1,71x + 80,3. Com base nessa
equação, trace a linha de tendência no diagrama de dispersão acima desenvolvido.

c) O valor do coeficiente de correlação (r de Pearson) para os dados acima, resultou em 0,908


(90,8%). O que isso significa?

d) Faça uma previsão do valor da pressão arterial para uma pessoa de 40 anos.

43
PARTE 2: ESTATÍSTICA INFERENCIAL
7 PROBABILIDADE

7.1 Introdução
São encontrados na natureza dois tipos de fenômenos: determinísticos e aleatórios.
Os fenômenos determinísticos são aqueles em que os resultados são sempre os mesmos,
qualquer que seja o número de ocorrências.
Nos fenômenos aleatórios, os resultados não serão previsíveis, mesmo que haja um grande
número de repetições do mesmo fenômeno.

7.2 Conceitos Básicos:

 Ensaio ou Tentativa: é todo procedimento que envolve probabilidades. Por exemplo, jogar
uma moeda é um ensaio ou uma tentativa.
 Espaço Amostral (geralmente simbolizado por Ω ou S): é a lista de todos os resultados
possíveis.
 Evento (A): é cada resultado possível de um ensaio.
 Experimento aleatório: é o processo de coleta de dados relativos a um fenômeno que acusa
variabilidade em seus resultados.

Exercícios: nos exemplos a seguir, descreva o espaço amostral:


a) lançamento de uma moeda;
b) lançamento de um dado;
c) lançamento de duas moedas ao mesmo tempo;
d) lançamento de dois dados ao mesmo tempo;
e) determinação da vida útil (em segundos) de um componente eletrônico;

7.3 Eventos dependentes e independentes

Dois eventos são dependentes quando a probabilidade de ocorrer um deles modifica a


probabilidade de ocorrência do outro. Ex: Sorteio de uma bolinha sem reposição.
Dois eventos são independentes quando a probabilidade de ocorrer um deles não é
modificada pela ocorrência do outro. Ex: Sorteio de uma bolinha com reposição.

7.4 Cálculo de Probabilidades


Seja “A” um evento de um experimento aleatório, definimos a probabilidade de “A”,
denotada por P(A), que é a definição clássica de probabilidade.
𝒏(𝑨)
𝑷(𝑨) =
𝒏(𝑺)
EXEMPLOS:
1) Na jogada de um dado, qual a probabilidade de aparecer a face 6?
2) Na jogada de dois dados, qual a probabilidade de aparecer a face 6 nos dois dados?
3) Sabendo que numa sala há 40 pessoas e que 16 são do sexo feminino, qual a probabilidade
de ao se sortear uma pessoa, essa ser do sexo masculino?

44
7.5 Regras Básicas

Se A e B são dois eventos do espaço amostral W, então valem as seguintes regras básicas:
 0 ≤ P(A) ≤ 1
 P(A) = 0 o evento e impossível e P(A) = 1 o evento é certo.
 P(Ω) = 1
 P(A) = 1- P(A)
 P(A U B) = P(A) + P(B) - P(A ∩ B).

7.6 Probabilidade Clássica

7.7 Probabilidade Empírica

Quando um experimento e repetido muitas vezes, são formados padrões regulares. Esses
padrões permitem encontrar a probabilidade empírica, a qual pode ser usada mesmo quando cada
resultado de um evento não e igualmente provável de ocorrer.

45
7.8 Probabilidade Subjetiva

O terceiro tipo de probabilidade e a probabilidade subjetiva, que resulta de conjeturas e de


estimativas por intuição. Por exemplo, dada a saúde de um paciente e a extensão dos ferimentos,
um médico pode sentir que o paciente tem 90% de chance de recuperação total. Ou um analista de
negócios pode prever que a chance de os funcionários de certa empresa entrarem em greve e de
0,25.

Para refletir: Imagine se fizéssemos uma análise referente ao sorteio da Mega-Sena,


verificando quais os números mais sorteados até os dias atuais, e se estes possuem maior
probabilidade de serem novamente sorteados em um próximo concurso, sendo portanto, boas
opções de palpite. Verifique se isso seria uma boa ideia...

46
7.9 Lei dos Grandes Números

Como exemplo dessa lei, suponha que queiramos determinar a probabilidade de obter
uma cara com uma moeda honesta. Lançamos lança a moeda 10 vezes e obtém-se 3 caras. Dessa
forma obtemos uma probabilidade empírica de 3/10. Como lançamos a moeda apenas algumas
vezes, sua probabilidade empírica não é representativa da probabilidade teórica, que é 1/2. A lei
dos grandes números diz que a probabilidade empírica, após lançar a moeda algumas milhares de
vezes, será bem próxima da probabilidade teórica ou real.

O diagrama de dispersão a seguir mostra


os resultados da simulação do lançamento de
uma moeda 150 vezes. Note que, conforme o
número de lançamento aumenta, a probabilidade
de obter uma cara se torna cada vez mais próxima
da probabilidade teórica de 0,5.

7.10 Exercícios (Larson e Farber, p. 138)

47
8 DISTRIBUIÇÕES DE PROBABILIDADE

A distribuição de probabilidade é um modelo matemático que estabelece a relação entre


o valor da variável aleatória e a probabilidade de ocorrência desse valor na população.
Exemplo: Distribuição de probabilidade para o jogo de duas moedas:
EVENTO Nº DE CARAS PROBABILIDADE
coroa-coroa 0 0,25
coroa-cara
1 0,5
cara-coroa
cara-cara 2 0,25

Gráfico da Distribuição de probabilidade para o jogo de duas moedas:

Probabilidade
0,6
0,5
0,4
0,3
0,2
0,1
0
0 1 2
Nº de Caras

Quando a variável aleatória é discreta, a distribuição de probabilidade também é discreta.


e quando a variável aleatória é contínua, a distribuição de probabilidade também é contínua.

Exemplo de variável aleatória discreta: Dez unidades são selecionadas ao acaso numa
linha de produção. Essas unidades são inspecionadas e é anotado o número de produtos com
defeito. Esse número que indicaremos por X é uma variável aleatória discreta porque X só pode
assumir valores entre 0 e 10.

Exemplo de variável aleatória contínua: Foi obtida uma amostra aleatória de 5 unidades
de um produto. Essas unidades foram pesadas e os resultados foram anotados. O peso do produto
é uma variável aleatória contínua porque a exatidão dos resultados depende apenas da qualidade
da balança.

48
8.1 Distribuição Binomial de Probabilidade

Aplica-se a experimentos que satisfaçam as seguintes condições:


1) O experimento deve ser repetido, nas mesmas condições, um número finito de vezes, n.
2) As provas repetidas devem ser independentes, o resultado de uma não afeta o resultado da outra.
3) Tem-se apenas dois resultados possíveis: sucesso ou insucesso.
4) A probabilidade do sucesso em uma tentativa é p e a do insucesso é q = 1-p
A probabilidade de se obter sucesso k vezes durante n tentativas é determinado por:

8.2 Exercícios:

Exercício 1) Seis parafusos são escolhidos ao acaso da produção de uma certa máquina, que
apresenta 10% de peças defeituosas. Qual a probabilidade de serem defeituosos dois deles ? Resp:
p = 0,0984

Exercício 2) Dos estudantes de uma instituição, 41 % possuem CNH. Escolhem-se seis ao acaso
para darem uma opinião sobre o assunto. Determine a probabilidade de:
a) nenhum dos seis ter CNH
b) todos os seis terem CNH
c) ao menos a metade dos seis ter CNH.
Resp: a) p = 4,22% b) p = 0,48% c) 47,65%

49
8.3 Distribuição Normal de Probabilidade

Entre as distribuições teóricas de variável contínua, a mais empregada é a distribuição


normal.
O aspecto gráfico da curva normal é o seguinte:

 ( x   )² 
 1  


2 ² 
Área sob a curva Gaussiana: A  e dx

2 ²
Quando se tem em mão uma variável aleatória com distribuição normal, o principal
interesse é obter a probabilidade de essa variável aleatória assumir um valor em um determinado
intervalo. Essa probabilidade é representada pela área sob a curva dentro desse intervalo. A área
total sob a curva é 1. O cálculo desse valor é tabelado (Tabela disponível no final da apostila).

Exemplos:
Exemplo 1) Seja um teste aplicado a um grupo de 50 pessoas. Obteve-se uma distribuição Normal
com média 50 e desvio padrão 6. Pergunta-se qual a proporção de pessoas com notas superiores a
60 ?
Transformando a nota 60 em desvios reduzidos tem-se:

Consultando a tabela verifica-se:

Probabilidade da nota ser superior a 60 é 0,5 - 0,4525 = 0,0475 ou 4,75 %

50
Exemplo 2) Com os dados do problema anterior, averiguar o número de alunos com notas entre
35 e 45.
Calculando os desvios reduzidos tem-se:

Consultando a tabela verifica-se:

Probabilidade (área) entre 0 e 2,5 = 0,4938


Probabilidade (área) entre 0 e 0,83 = 0,2967
Então Probabilidade (área) entre 2,5 e 0,83 = 0,4938 - 0,2967 = 0,1971
O número de alunos é 0,1971 x 50 = 9,855= 10 pessoas

Exemplo 3) Com os dados do problema anterior, qual é a nota abaixo da qual estão 75% dos
alunos?
Consultando a tabela, a área é de 0,5 + 0,25 = 0,75
O valor de z correspondente a área de 0,2486 é 0,67
O valor de z correspondente a área de 0,2518 é 0,68
Pode-se adotar um valor médio z = 0,675

Exercícios
1) Achar a probabilidade de um valor escolhido ao acaso seja superior a 50 em uma distribuição
normal de média 35 e desvio padrão 8.
Resp: 0,0304 ou 3,04 %

2) Seja a distribuição normal de média 6,74 e desvio padrão de 2,3. Qual a probabilidade de
encontrar um valor inferior a 3,4 ?
Resp: 0,0735 ou 7,35 %

3) Um teste padronizado de escolaridade tem distribuição normal com média 100 e desvio padrão
25. Determine a probabilidade de um indivíduo submetido ao teste ter nota:
a) maior que 120
b) entre 75 e 125
c) entre 115 e 125
d) qual é a nota abaixo da qual estão 70% dos alunos
Resp: a) p = 21,19 % b) p = 68,26% c) p = 11,55% d) 113
51
8.3.1 Distribuição Normal Teórica

A grande vantagem de pressupor que uma variável tem distribuição normal, é o fato de ser
possível calcular as probabilidades relacionadas a essa variável. Essas probabilidades são dadas
pelas áreas sob a curva.
Na distribuição Normal, também chamada de Regra Empírica (ou Regra 68-95-99,7):
 68,26% dos dados estão entre (µ - σ) e (µ + σ), ou seja: média ± 1 desvio padrão.
 95,44% dos dados estão entre (µ - 2σ) e (µ + 2σ), ou seja: média ± 2 desvios padrão.
 99,74% dos dados estão entre (µ - 3σ) e (µ + 3σ), ou seja: média ± 3 desvios padrão.

Fonte: Larson e Farber (2016)

A Regra Empírica se aplica somente às distribuições em forma de sino (simétricas). Mas,


e se a distribuição não for em forma de sino, ou se a forma da distribuição for desconhecida? O
teorema a seguir fornece uma afirmação de desigualdade que se aplica a todas as distribuições.
Seu nome é em homenagem ao estatístico russo Pafnuti Chebyshev (1821–1894).

Fonte: Larson e Farber (2016)

52
8.4 O teorema do Limite Central

O teorema do limite central forma a base para o ramo inferencial da estatística. Esse
teorema descreve a relação entre a distribuição amostral das medias e a população da qual as
amostras são retiradas. O teorema do limite central e uma ferramenta importante que fornece a
informação que precisamos ao usar estatísticas amostrais para fazer inferências sobre a média de
uma população (Larson e Farber).

Obs: O desvio padrão da distribuição amostral das medias amostrais, também é chamado
de erro padrão da media.

53
Exemplos: Teorema do Limite Central (Larson e Farber 2016, p. 248-249):

EXERCÍCIOS
Exercício 1: Considere as curvas Normais apresentadas a seguir:

Responda:
a) Quais as médias das distribuições.
Média da distribuição A: ....................
Média da distribuição B: ....................
Média da distribuição C: ....................

b) Olhando a figura, determine um valor aproximado para o desvio padrão:


Desvio padrão da distribuição A: ....................
Desvio padrão da distribuição B: ....................
Desvio padrão da distribuição C: ....................

c) Qual das 3 distribuições é relativamente mais dispersa (calcule CV)? Resp: ..............................

54
Exercício 2: Dada a figura que representa distribuição Normal:
Qual curva normal tem a maior média?
Resp: ...............

Qual curva normal tem o maior desvio


padrão?
Resp: ......................

Calcule o desvio padrão aproximado da


curva A.
Resp: .....................

Exercício 3: Conforme uma pesquisa publicada por Bertagnon (2010), recém nascidos do estado
de São Paulo, nascidos com 37 a 41 semanas de gestação possuem média de peso de 3223g e
desvio padrão de 415g. Visto que os dados provém de uma distribuição Normal de probabilidade,
determine a probabilidade de um recém nascido possuir um peso maior ou igual a 3800g.
Fonte: Bertagnon, J. R. D. et al. Distribuição do peso ao nascer da população do Hospital Geral do Grajaú, comparada à população do Estado
de São Paulo. Revista Einstein v.8, 2010

Exercício 4: Sobre a distribuição Normal de probabilidade:


Desenhe num mesmo eixo x, Desenhe num mesmo eixo x, Estime a média e o desvio
duas curvas normais que duas curvas normais que padrão
tenham a mesma média, mas tenham médias diferentes,
desvios padrão diferentes. mas o mesmo desvio padrão.

Média = ..............
Desvio padrão = ...............

Exercício 5: Distribuição Normal de Probabilidade: Em uma pesquisa com mulheres norte-


americanas, as alturas na faixa etária de 20 a 29 anos eram normalmente distribuídas, com média
de 163cm e desvio padrão de 7,4cm. Calcule a probabilidade de que uma participante do estudo,
selecionada aleatoriamente, tenha altura maior que 179cm (Adaptado de: National Center for
Health Statistics).

55
Exercício 6: Distribuição Normal de Probabilidade: O tempo de espera (EUA, em dias) para
um transplante renal, para pessoas com idade entre 35 e 49 anos, pode ser aproximado por
uma distribuição normal, como pode ser visto na figura a seguir. (Adaptado de: Organ
Procurement and Transplantation Network.). Calcule a probabilidade de uma pessoa ter que
esperar mais de 2000 dias pelo transplante.

Exercício 7: Análise gráfica (Larson e Farber): Nos exercícios 13 a 16, um elemento é


selecionado aleatoriamente da população representada pelo gráfico. Calcule a probabilidade de
que o valor x do elemento pertença ao intervalo correspondente a área sombreada do gráfico.
Suponha que a variável x seja normalmente distribuída.

56
9 ESTIMAÇÃO DE PARÂMETROS

Capítulo retirado do livro:


Autor: Barbetta, Pedro Alberto.

Este capítulo aborda o problema de avaliar certas características dos elementos da


população, a partir de operações com os dados de uma amostra. É um raciocínío tipicamente
indutivo, em que se generalizam resultados da parte (amostra) para o todo (população). Este
procedimento é denominado estimação de parâmetros.
A estatística, quando usada com o objetivo de avaliar, ou estimar, o valor de algum
parâmetro, também é chamada de estimador.
O termo erro amostral, corresponde à diferença entre a estatística P e o parâmetro π.
Ao observar uma particular amostra, podemos calcular o valor da estatística que estamos
usando como estimador. O valor encontrado é chamado de estimativa. Por exemplo, se numa
amostra de n = 400 moradores encontrarmos 240 favoráveis, tem-se a seguinte estimativa para o
parâmetro π:
240
𝑃= = 0,60 (ou seja, 60%)
400
Contudo, não devemos esperar que este valor coincida com o valor do parâmetro π, pois
haverá uma variação devido ao que chamamos de erro amostral..

9.1 INTERVALO DE CONFIANÇA PARA UMA PROPORÇÃO

A Figura a seguir mostra a forma aproximada da distribuição amostral de P. Note que esta
distribuição está centrada no próprio valor do parâmetro de interesse, π.

P: é a proporção calculada na amostra (é um estimador de π).


π: é a verdadeira proporção da população (geralmente desconhecida).

57
Pela teoria da distribuição normal, sabemos que existe 95% de probabilidade, de um valor
ser observado a menos de 1,96 desvios padrão da média. Desta forma, se exigirmos nível de 95%
de confiança, podemos explicitar um limite superior provável para o erro amostral, considerando
a faixa de 1,96 desvios padrão, acima e abaixo do centro da distribuição.

9.1.1 Nível de 95% de confiança


Fixado o nível de confiança em 95%, como é usual na prática, o limite máximo para o erro
amostral fica em tomo de (l,96)Sp (Sp é o desvio padrão de uma proporção na amostra estudada),
pois, como ilustrado na figura anterior, temos, aproximadamente, 95% de probabilidade de o valor
de P cair a menos de 1,96 desvios padrão de π.

O desvio padrão da distribuição amostral de P, Sp, também conhecido como erro padrão
de P, pode ser estimado pelos dados da amostra, usando a expressão:

.( )
𝑆 = onde P é a proporção do atributo na amostra.

O intervalo centrado em P e com semi-amplitude (1,96) Sp, ou seja:

𝐼𝐶 = 𝑃 ± (1,96)𝑆

é dito um intervalo de confiança para o parâmetro π, com nível de confiança de 95%. O


esquema seguinte ilustra este intervalo sobre a reta de números reais:

58
9.1.2 Outros níveis de confiança

Arbitrado um nível de confiança, podemos obter o limite provável para o erro amostral,
multiplicando Sp por um determinado valor z da curva normal padrão. A figura a seguir mostra
uma tabela, construída a partir da tabela da distribuição normal padrão, que associa os níveis
de confiança mais usados, com valores de z.

Fixado o nível de confiança, podemos obter o correspondente valor de z, como ilustrado na


figura anterior e, a partir daí, calcular a estimativa do erro amostral máximo provável, 𝑧. 𝑆 , e o
intervalo de confiança para π.

𝐼𝐶 = 𝑃 ± 𝑧. 𝑆

O esquema seguinte ilustra os intervalos de confiança para π com níveis de confiança de


95% e de 99%, referente à amostra descrita no exemplo.

59
Observe que, ao exigir maior nível de confiança, o intervalo de confiança aumenta em
magnitude. Tente entender o porquê disto! Para um dado nível de confiança, dizemos que uma
estimativa é tão mais precisa quanto menor for a amplitude de seu intervalo de confiança.

Exercícios

3)

60
9.2 INTERVALO DE CONFIANÇA PARA UMA MÉDIA

Para estimar o parâmetro μ (média de alguma variável quantitativa), a partir de 𝑋 (média


da variável observada numa amostra aleatória simples), podemos seguir os mesmos princípios da
estimação de uma proporção, pois, para amostras grandes, a distribuição amostral de 𝑋, também
se aproxima de uma distribuição normal.
O erro padrão da média amostral pode ser estimado, a partir do desvio padrão amostral,
S, segundo a expressão:

𝑆
𝑆 =
√𝑛
onde:
S: desvio padrão da amostra
n: Número de elementos da amostra

O intervalo de confiança para uma média μ tem a seguinte expressão geral:

𝐼𝐶 = 𝑋 ± 𝑧. 𝑆

Ou seja, a partir do acompanhamento da amostra das cem crianças, chegamos à conclusão


de que o intervalo de 5,608 a 6,392 kg contém, com 95% de confiança, o ganho médio de peso, μ,
de todas as crianças da rede municipal de ensino.

61
9.2.1 Amostras Pequenas

Quando dispomos de uma amostra pequena (n < 30), não temos a garantia de que a
distribuição amostral da média se aproxime de uma distribuição Normal. Porém, se a variável em
estudo tiver uma distribuição razoavelmente simétrica, parecida com uma normal, a teoria
estatística mostra que é possível construir estimativas intervalares para a média populacional, μ,
utilizando a distribuição t de Student, que também é tabelada (ver final da apostila).
Para obter o valor t da distribuição t de Student, basta calcular os graus de liberdade: gl =
n - 1, fixar o nível de confiança desejado e usar a tabela da distribuição t de Student. Por exemplo,
para gl = 9 e nível de confiança de 95%, devemos usar a Tabela da distribuição t de Student, como
mostram as figuras a seguir:

Sendo assim, para uma amostra pequena (n < 30), o intervalo de confiança para uma média
μ tem a seguinte expressão geral: 𝐼𝐶 = 𝑋 ± 𝑡. 𝑆

62
9.3 EXERCÍCIOS
Exercício 1:

Exercício 2:

Exercício 3: Larson e Farber p. 297:

63
9.4 RESUMO SOBRE INTERVALOS DE CONFIANÇA:

Intervalo de Confiança (IC) Intervalo de Confiança (IC)


para uma Proporção para uma Média
𝑃. (1 − 𝑃) 𝑆
𝑆 = 𝑆 =
𝑛 √𝑛
Amostra de Amostra de Amostra de Amostra de
tamanho (n < 30) tamanho (n ≥ 30) tamanho (n < 30) tamanho (n ≥ 30)

Usar distribuição t Usar distribuição Usar distribuição t Usar distribuição


de Student Normal de Student Normal
𝐼𝐶 = 𝑃 ± 𝑡. 𝑆 𝐼𝐶 = 𝑋 ± 𝑡. 𝑆
𝐼𝐶 = 𝑃 ± 𝑧. 𝑆 𝐼𝐶 = 𝑋 ± 𝑧. 𝑆
graus de liberdade: graus de liberdade:
gl = n - 1 gl = n - 1

No caso de amostra de tamanho (n ≥ 30) usar a distribuição Normal (σ conhecido)

Valores mais utilizados na prática:


Nível de confiança de 95% fazer z = 1,96
Nível de confiança de 99% fazer z = 2,576

Distribuição t de Student (Utilize-a para calcular os intervalos de confiança quando o


tamanho da amostra for menor que 30 elementos).

64
10. TESTES DE HIPÓTESES

O objetivo dos testes de hipóteses é decidir se uma afirmação, em geral, sobre


parâmetros de uma ou mais populações é, ou não, apoiado pela evidência obtida de dados
amostrais. Tal afirmação é o que se chama Hipótese Estatística e a regra usada para decidir se
ela é verdadeira ou não, é o Teste de Hipóteses.

10.1 Hipóteses Estatísticas

Em experimentos comparativos, nos quais um novo produto ou nova técnica é comparado


com o padrão, para determinar se sua superioridade pode ser comprovada pela evidência
experimental, é necessário formular a:

 Hipótese nula (H0): Exemplo: μ1 = μ2



 Hipótese alternativa (H1): Exemplo: μ1 ≠ μ2 ou μ1 > μ2 ou μ1 < μ2 etc...
10.2 Testes de Normalidade

Os testes estatísticos paramétricos supõem que os dados seguem uma distribuição Normal,
portanto é necessário testar se esta suposição é verdadeira antes de aplicá-los. Uma forma empírica
de fazer isso é através da análise do histograma.

Existem vários testes estatísticos que têm por objetivo verificar se os dados seguem uma
distribuição Normal.

Exemplo: Verificar se os dados a seguir, referentes à concentração de contaminante no


solo em mg/kg vêm de uma distribuição Normal de probabilidade.

Alguns testes são:

65
10.2.1 Teste de Normalidade de Shapiro-Wilk (Software: R-Project)

Regra de decisão: Se P-Value (P-valor) for maior que o nível de significância (geralmente
α = 0,05) , os dados apresentam distribuição normal:

p-valor > α  Admite-se Distribuição Normal de Probabilidade

Exemplo usando software R-Project:


Níveis de ardência (em milhares de unidades na escala de Scoville) de 24
pimentas do tipo tabasco:
35 51 44 42 37 38 36 39 44 43 40 40 32 39 41 38 42 39 40 46 37 35 41 39

Para verificar se os dados pertencem a uma distribuição normal pode-se aplicar o teste
de Shapiro-Wilk.
Inserindo os dados no R-Project:

Aplicando o teste, tem-se o seguinte resultado:

shapiro.test(pimenta)

Para que os dados pertençam a uma distribuição normal de probabilidade tem que ser
satisfeita a seguinte proposição: p-Value > α. Assim, tem-se: 0,5494 > 0,05 (Verdadeiro). Portanto,
os dados provém de uma distribuição Normal.

10.2.2 Teste de Normalidade de Anderson-Darling (Software utilizado: Minitab)

Regra de decisão: Se P-Value (P-valor) for maior que o nível de significância (geralmente
α = 0,05) , os dados apresentam distribuição normal:

p-valor > α  Admite-se Distribuição Normal de Probabilidade

66
Interpretação da estatística: Conforme o teste de Anderson-Darling, os valores referentes
à concentração de contaminante no solo em mg/kg vêm de uma distribuição Normal de
probabilidade, pois p-valor = 0,731 é maior que α = 0,05.

10.2.3 Teste de Normalidade de Kolmogorov-Smirnov (Software utilizado: Minitab)

Regra de decisão: Se P-Value (P-valor) for maior que o nível de significância (geralmente
α = 0,05), os dados apresentam distribuição normal:

p-valor > α  Admite-se Distribuição Normal de Probabilidade

Interpretação da estatística: Conforme o teste de Kolmogorov-Smirnov, os valores


referentes à concentração de contaminante no solo em mg/kg vêm de uma distribuição Normal de
probabilidade, pois p-valor > 0,15 sendo portanto maior que α = 0,05.

67
10.3 Teste t de Student

O teste t de Student ou somente “teste t” é um teste de hipótese que usa


conceitos estatísticos para rejeitar ou não uma hipótese nula quando a estatística de teste (t) segue
uma distribuição t de Student.
Essa premissa é normalmente usada quando a estatística de teste, na verdade, segue
uma distribuição normal, mas a variância da população (σ²) é desconhecida. Nesse caso, é usada a
variância amostral (s²) e, com esse ajuste, a estatística de teste passa a seguir uma distribuição
chamada t de Student.
Se forem feitas inúmeras amostras de tamanho n a partir da mesma população e se fossem
tiradas as médias de uma variável dessa população que possui uma distribuição normal, a
distribuição dessas inúmeras médias seguiria uma distribuição t de Student. Por exemplo,
imaginemos que a altura das pessoas segue uma distribuição normal. Se selecionarmos diversas
amostras aleatórias de 100 pessoas e calculássemos a média da altura das pessoas de cada amostra,
essa média da altura das pessoas seguirá uma distribuição t de Student.
Perceba que, na distribuição t de Student, valores muito baixos ou muito altos tem menor
probabilidade de ocorrer, indicando que é menos provável que a média de uma amostra apresente
valores muito distantes da média da população.
O formato da distribuição t de Student depende do número de graus de liberdade. Quanto
maior o número de graus de liberdade, mais "concentrada" é a distribuição. Para valores muito
grandes de graus de liberdade, a distribuição t de Student se aproxima da distribuição normal.

Distribuição t de Student

Regra de decisão: Se P-Value (P-valor) for menor que o nível de significância (geralmente
α = 0,05), rejeita-se H0.

Se p-valor < α então: Rejeita-se H0.

68
Distribuição t de Student:

10.3.1 Teste t para amostras pareadas

Exemplo: A tabela mostra o valor da produtividade média dos funcionários antes e depois
de um programa de treinamento.
Funcionário Antes Depois
F1 22 25
F2 21 28
F3 28 26
F4 30 36
F5 33 32
F6 33 39
F7 26 28
F8 24 33
F9 31 30
F10 22 27

Testar as Hipóteses:
H0: A produtividade média dos funcionários não se altera com o programa de treinamento.
H1: A produtividade média dos funcionários se altera com o programa de treinamento.

Ou seja:
H0: μ depois = μ antes
H1: μ depois > μ antes

69
Observa-se na tabela uma tendência de ocorrer diferença positiva entre os valores “antes”
e “depois”. O teste t permite verificar se essa diferença não poderia ser explicada apenas por efeitos
casuais.

Se tcalculado > tcrítico: Rejeita-se H0.


O que equivale a dizer:
Se p-valor < α então: Rejeita-se H0.

Estatística do teste: baseia-se nos valores observados da variável D, definida pela


diferença de valores em cada par de dados.
D = (medida depois) – (medida antes)
Se a hipótese nula for correta, devemos esperar que os valores desta variável esteam em torno de
zero ou, ainda, que a média dessas diferenças 𝐷 esteja próxima de zero.
Estatística t para dados pareados:
𝐷 . √𝑛
𝑡=
𝑆
Onde:
 n: tamanho das amostras, que nesse caso corresponde ao número de pares observados;
 𝐷: média das diferenças dos pares;
 𝑆 : desvio padrão das diferenças dos pares.

Aplicando ao exemplo da produtividade média dos funcionário antes e depois de um


programa de treinamento tem-se:
.√ , .√
𝑡= → 𝑡= ,
= 2,82  Esse é o t calculado

Depois de calcular a estatística t é necessário compará-la com o valor t crítico, ou seja, o


t tabelado.

70
Nesse caso, o teste é unicaudal (μ depois > μ antes).
Obs: seria bicaudal se estivéssemos interessados em (μ depois ≠ μ antes).
Verificando na tabela (nível de confiança 95% o que implica em α=0,05.
(Usar g.l.= n - 1 = 10 – 1 = 9):

Esse é o t crítico

Obtêm-se assim t crítico = 1,83.

Comparando o t calculado com o t crítico:


Tem-se a Regra de decisão: Se tcalculado > tcrítico: Rejeita-se H0.
Nesse caso: 2,82 > 1,83.
Conclusão: Rejeita-se H0, ou seja, admite-se com 95% de confiança que μ depois > μ antes
mostrando que o treinamento aplicado aos funcionários foi eficiente.

Como calcular o Valor-p (p-Value) (Probabilidade de Significância)


´
Quando calculamos em softwares estatísticos, estes apresentam o valor-p, de modo que
basta compará-lo ao nível de significância α.
Aplicando ao exemplo do treinamento dos funcionários:
Temos o valor t calculado = 2,82.

Procurar o valor (aproximado pois a tabela ao contrário dos softwares é discretizada) 2,82
na tabela da distribuição t de Student para teste Unicaudal e g.l. = 9:

71
Nota-se que a probabilidade p é aproximadamente 1% (p-Value = 0,01)
Comparando o p-Valor com o α:
Tem-se a Regra de Decisão: Se p-Valor < α então: Rejeita-se H0
Nesse caso:
0,01 < 0,05
Conclusão: Rejeita-se H0, ou seja, admite-se com 95% de confiança que μ depois > μ antes
mostrando que o treinamento aplicado aos funcionários foi eficiente.

No Excel:

72
Exercícios – Testes t para amostras pareadas

Fonte: Larson e Farber

73
10.3.2 Teste de Variâncias

Um teste que pode ser feito para comparar variâncias é o Teste F, proposto por Snedecor,
em 1934, em homenagem a Fisher, em que:

F = razão entre a maior variância e a menor variância, ou seja:

𝑠
𝐹=
𝑠

Consulta-se a tabela de F, ao nível de 2,5%, (5% bicaudal) para encontrar Fc.


Usa-se o seguinte critério de decisão:

F < Fc: As variâncias não diferem significativamente.


F ≥ Fc: As variâncias diferem significativamente.
Utilizar g.l. = n-1 no numerador e g.l. = n-1 no denominador.

74
Exemplo: Os dados abaixo se referem aos dados da resistência à tensão de duas máquinas.
Verificar se as variâncias das peças produzidas pelas duas máquinas são iguais.
Máquina A: 145 127 136 142 141 137
Máquina B: 143 128 132 138 142 132
1º passo: Hipóteses do teste:
𝐻 :𝜎 =𝜎
𝐻 :𝜎 ≠ 𝜎

2º passo: Calcular a estatística F:

40
𝐹=  F   1,08
37

3º passo: Consultar a tabela:


Grau de liberdade do numerador = nA – 1, ou seja, número de elementos da máquina A, menos 1.
Grau de liberdade do denominador = nB – 1, ou seja, número de elementos da máquina B, menos 1.

F(5, 5) = 7,15 Esse é o Fcrítico: Fcrítico = 7,15

Conclusão:
Como F < Fcrítico, ou seja 1,08 < 7,15, as variâncias não diferem significativamente

No Excel:

Escolher alfa = 0,025 (α = 2,5% pois é bicaudal sendo α = 5% dividido por 2)


Se p < α: as variâncias são diferentes.
Nesse caso tem-se: p = 0,466
Como p > α, ou seja, 0,466 < 0,025, então a diferença entre as variâncias NÃO é
significativa (as variâncias são iguais).

75
Obs: Para instalar o Suplemento Análise de Dados, clicar em Arquivo:

76
10.3.3 Teste t para duas amostras independentes presumindo variâncias iguais

Este teste só deve ser usado quando podemos assumir que as duas distribuições
possuem a mesma variância.
A estatística t é calculada conforme a fórmula:

10.3.4 Teste t para duas amostras independentes presumindo variâncias diferentes

Este teste é usado quando as amostras possuem variâncias diferentes. Para confirmar se
as variâncias são realmente diferentes, é recomendável realizar um teste de variâncias.
A estatística t é calculada conforme a fórmula:

77
Resumo sobre testes de hipóteses

Teste t
(Verificar se os dados
vem de uma
distibuição Normal)

a) Formular hipóteses
b) Definir nível de confiança
c) Verificar: Uni ou bicaudal

Amostras
Amostras Pareadas
Independentes

Teste de Variâncias

Teste t para amostras Teste t para amostras


independentes e independentes e
variâncias IGUAIS variâncias DIFERENTES

Exercícios – Testes de Hipóteses: Teste t

Exercício 1 (Comentado): Dez cobaias foram submetidas ao tratamento de engorda com certa ração. Os
pesos em gramas, antes e após o teste são dados a seguir (supõe-se que provenham de distribuições
normais). A 5% de significância, podemos concluir que o uso da ração contribuiu para o aumento do peso
médio dos animais?
Cobaia 1 2 3 4 5 6 7 8 9 10
Antes 635 704 662 560 603 745 698 575 633 669
Depois 640 712 681 558 610 740 707 585 635 682

Resolução: Trata-se de uma situação em que queremos comparar as MÉDIAS DE DUAS


distribuições normais, supondo que se trata da MESMA população, mas em dois momentos diferentes:
antes e após um tratamento de engorda. Há interesse em verificar se a dieta contribuiu para o peso médio
dos animais: ou seja, queremos verificar se a média de peso antes do tratamento é MENOR do que a média
de peso após o tratamento (se a dieta fez efeito os animais estarão em média mais pesados ao final do
tratamento). Reparem que é exigido que se tome uma decisão, o que configura um problema de TESTE DE
HIPÓTESES.
Deve-se então aplicar um teste de diferenças entre médias populacionais, para dados pareados
(mesma população: antes e depois).

78
Exercício 2 (Comentado): Deseja-se saber se 2 máquinas de empacotar café estão fornecendo o mesmo
peso médio em kg. Extraem-se duas amostras, uma de cada máquina:

Máq. 1 488 494 499 505 503 510 501 489 497 491
Máq. 2 504 503 500 499 497 498 502 505 497 495
Qual é a sua conclusão a 5% de significância?

Resolução: Trata-se de uma situação em que queremos comparar as MÉDIAS DE DUAS


distribuições normais, supondo que se tratam de duas populações distintas, podemos supor que as
amostras são independentes: estão sendo avaliadas as produções de 2 máquinas DIFERENTES. Há
interesse em verificar simplesmente se há diferença entre as médias das duas populações: em qualquer
direção. Reparem que é exigido que se tome uma decisão, o que configura um problema de TESTE DE
HIPÓTESES.
Deve-se então aplicar um teste de diferenças entre médias populacionais, para dados não pareados
(populações distintas).

Exercício 3: Uma companhia distribuidora tem por hipótese que uma chamada telefônica é mais eficiente
que uma carta para acelerar s cobrança de contas atrasadas. Esta companhia fez uma experiência usando
duas amostras e obteve os resultados da tabela abaixo. Dê uma sugestão a respeito da tomada de decisão
mais viável para a companhia. Adote  =5%.(Não esqueça de elaborar as hipóteses estatísticas)

Método utilizado Nº de dias até o pagamento


Carta 10 8 9 11 11 14 10
Chamada telefônica 7 4 5 4 8 6 9

Exercício 4: Uma fábrica de pneus fez um estudo comparativo entre motoristas homens e mulheres com
respeito a durabilidade dos pneus por ela fabricados. Teste, usando um nível de significância de 5% e diga
a conclusão que o fabricante pode tirar com base nos resultados ( em Km rodado) apresentados a seguir.
Em quais as suposições que você se baseou?

Motorista homem Motorista mulher


20200 27400
23400 32400
22600 30100
27600 32200
16100 30600
21000 28900
26300 29300
22500 24900
18000 27800
19100 34500
23200
23700

79
Exercício 5: A distribuição abaixo representa os batimentos cardíacos de oito estudantes, escolhidos ao
acaso, antes e após esforço físico programado. Teste, ao nível de significância de 5%, a probabilidade desta
alteração de frequência ocorrer ao acaso.
Antes 80 76 84 72 68 76 64 88
Depois 88 96 100 92 88 92 80 104

Exercício 6: Um engarrafador de vinho tem duas máquinas funcionando e suspeita que a quantidade
média de vinho por garrafa que sai da máquina A seja maior do que a da máquina B .Para verificar se
realmente isto está ocorrendo colheu duas amostra de 5 garrafas, uma de cada máquina e mediu a
quantidade de vinho. Qual a conclusão do engarrafador utilizando um nível de significância de 5%?
Máquina A 990 995 998 1 004 1 000
Máquina B 975 990 1 002 980 985

Exercício7: Uma operação de montagem em um processo de fabricação requer cerca de um mês de treino
para que um empregado novo possa atingir o nível desejado de eficiência máxima. Sugeriu-se um novo
método de treinamento e um teste foi realizado, visando comparar o método antigo com o novo. Dois grupos
de novos empregados novos foram treinados durante três semanas, segundo o método novo e o antigo,
respectivamente. O tempo necessário, em minutos, para que cada novo empregado conseguisse montar as
peças de um dispositivo, foi anotado e está expresso abaixo. Será que estes dados permitem suficiente
evidência, ao nível de 5%, de que a média de rendimento do novo processo de três semanas é melhor (exige
menos tempo) do que o método antigo, que levava um mês ? Quais as suposições que devem ser feitas
Antigo 37 35 28 41 44 35 31 34 32
Novo 37 29 25 34 40 27 32 31 35

80
11. ANÁLISE DE VARIÂNCIA – ANOVA

ANOVA = Analysis of Variance

A Análise de Variância (ANOVA) é a técnica estatística que permite fazer afirmações


sobre médias de populações. A análise compara médias de diferentes populações para verificar se
essas populações possuem médias iguais ou não. Assim, essa técnica permite que vários grupos
sejam comparados a um só tempo.
A ANOVA é utilizada quando se quer decidir se as diferenças amostrais observadas são
reais (causadas por diferenças significativas nas populações observadas) ou casuais (decorrentes
da mera variabilidade amostral). Portanto, essa análise parte do pressuposto que o acaso só produz
pequenos desvios, sendo as grandes diferenças geradas por causas reais.

11.1 Exigências para executar a Análise de Variância

Os pressupostos básicos da análise de variância são:


 As amostras são aleatórias e independentes;
 As populações têm distribuição normal;
 As variâncias populacionais são iguais .
Na prática, esses pressupostos não precisam ser todos rigorosamente satisfeitos. Os
resultados são empiricamente verdadeiros sempre que as populações são aproximadamente
normais (isso é, não muito assimétricas) e têm variâncias próximas.

11.2 Hipóteses do teste

As hipóteses nula e alternativa da análise a serem testadas na análise de variância são:


H0 (Hipótese nula): as médias populacionais são iguais.
H1 (Hipótese alternativa): há pelo menos uma das médias diferente das demais.

A abordagem matemática da ANOVA exige um maior aprofundamento teórico. Aqui


neste curso será executada a ANOVA apenas utilizando softwares. Recomenda-se o uso do
Minitab, pois este além de resultar o valor p, que é a estatística procurada, também aplica o teste
de Tukey, para verificar quais dos grupos de amostras diferem ou não entre si.
Uma versão gratuita por 30 dias pode ser obtida em www.minitab.com. Escolher uso
acadêmico. É necessário criar uma conta no site.
Ao analisar os resultados da ANOVA, deve-se observar o valor p (p-value).
Geralmente é utilizado nível de confiança de 95%, neste caso tem-se nível de
significância de 5% (α = 0,05).

Assim:
 Se p < α: há pelo menos uma média, ou seja um grupo (ou tratamento) diferente dos demais.
 Se p ≥ α: não há diferença significativa entre as médias, dos grupos (ou tratamento) testados.

81
11.3 Formulação Matemática da ANOVA

ATENÇÃO: y(coluna, linha) = y(tratamento, caso)

Forma geral para a Análise de Variância (ANOVA)


Tratamento
Replicação
1 2 ... g
1 y11 y21 ... yg1
2 y12 y22 ... yg1
... ... ... ... ...
n y1n y2n ... ygn
Soma y1. y2. ... yg. 𝑦.. = 𝑦

1
Média 𝑦 . 𝑦 . ... 𝑦 .
𝑦.. = 𝑦.
𝑔
Onde:
n: Número de replicações
g: Número de tratamentos (nº de grupos diferentes)
N: Número de observações (N = n . g)

Cálculos básicos da ANOVA com um fator

Tabela 1: Análise de Variância (ANOVA)


Fonte de
SQ gl QM f
Variação
𝑦 𝑦.. 𝑆𝑄 𝑄𝑀
𝑆𝑄 = −
Entre 𝑛 𝑁 𝑄𝑀 = 𝑓=
𝑔−1 𝑔𝑙 𝑄𝑀
Tratamentos

Dentro dos 𝑆𝑄
𝑄𝑀 =
Tratamentos 𝑆𝑄 = 𝑆𝑄 − 𝑆𝑄 𝑁−𝑔 𝑔𝑙 -
(Erro)

𝑦..
Total 𝑆𝑄 = 𝑦 − 𝑁−1 - -
𝑁

Quadrado Médio do Tratamento (𝑸𝑴𝑻𝒓𝒂𝒕 ): é uma medida de variância entre as médias dos
grupos.
Quadrado Médio do Erro (𝑸𝑴𝑬𝒓𝒓𝒐 ): é uma medida de variância dentro dos grupos.

Hipóteses do teste:
H0: as médias dos vários tratamentos são iguais
H1: pelo menos uma das médias é diferente das demais.

82
Interpretação do valor f (esse é o f calculado)
Se f < fcrítico, então aceita H0
Se f ≥ fcrítico, então rejeita H0
(Obs: f tabelado e f crítico são sinônimos)

Exemplo: Considere o problema de comparar três tipos de redes de computadores, C1,


C2 e C3, em termos do tempo médio de transmissão de pacotes de dados entre duas máquinas.
Realizou-se um experimento com 8 replicações com cada tipo de rede, aleatorizando a ordem dos
24 ensaios e mantendo fixos os demais fatores controláveis. Deseja-se testar as hipóteses:
H0: os tempos esperados de transmissão são iguais para os 3 tipos de redes
H1: os tempos esperados de transmissão não são todos iguais (depende do tipo de rede)

Resultados do Experimento
Tipo de Rede
Replicação
C1 C2 C3
1 7,2 7,8 6,3
2 9,3 8,2 6,0
3 8,7 7,1 5,3
4 8,9 8,6 5,1
5 7,6 8,7 6,2
6 7,2 8,2 5,2
7 8,8 7,1 7,2
8 8,0 7,8 6,8
Soma 65,7 63,5 48,1
Média 8,21 7,94 6,01
Nesse caso:
Número de replicações: n = 8
Número de tratamentos: g = 3
Número de observações (N = n.g): N = 24

83
Cálculos:
 Soma global: 𝑦.. = 177,3

 Soma de quadrados dos tratamentos:

𝑦 . 𝑦..
𝑆𝑄 = −
𝑛 𝑁
(65,7) + (63,5) + (48,1)² (177,3)
𝑆𝑄 = − = 22,99
8 24

 Soma de quadrados Total:

𝑦..
𝑆𝑄 = 𝑦 −
𝑁
(177,3)
𝑆𝑄 = (7,2) + (9,3) + ⋯ + (6,8) − = 34,45
24

 Soma de quadrados do erro:

𝑆𝑄 = 𝑆𝑄 − 𝑆𝑄
𝑆𝑄 = 34,45 − 22,99 = 11,46

Resultando no quadro ANOVA:

Tabela 2: Análise de Variância (ANOVA)


Fonte de
SQ gl QM f
Variação
Entre grupos 22,99 2 11,50 21,07
Dentro dos
11,46 21 0,55 -
grupos
Total 34,45 23 - -

Adotando α= 0,05, temos o valor crítico fcrítico = 3,47 (ou seja, f tabelado). Como o valor
calculado (f calculado = 21,07) é superior ao valor crítico, então o teste rejeita H0 provando
estatisticamente que há diferença entre os 3 tipos de rede, em termos do tempo médio de
transmissão.
Quando se trabalha com softwares estatísticos, estes apresentam também o valor p
calculado. Desta forma, ao invés de comparar o valor f calculado com o fcrítico, basta comparar o
valor p com o valor α.
Considerando por exemplo α = 0,05 (95% de confiança) então:
Se p > α aceita-se H0, ou seja, não há evidência de diferença entre as médias dos grupos
testados (as médias são iguais).
Se p ≤ α rejeita-se H0, ou seja, há evidência de diferença entre as médias dos grupos
testados (a média de pelo menos um dos grupos é diferente das demais).
O valor p é a área à direita da estatística f na Distribuição F de Snedecor.

84
Em todo teste estatístico feito com abordagem do valor de p tem-se:
p > α  aceita H0
p ≤ α  rejeita H0

Para achar o valor de fcrítico =na Tabela F de Snedecor, utilize: grau de liberdade do
: ..
numerador e do denominador: : ..

Tabela 5: Distribuição F de Snedecor (para α = 0,05).

Teste de Tukey (proposto por Tukey (1953))

No quadro ANOVA, quando ocorrer p ≤ α, rejeita-se H0, ou seja, há evidência de


diferença entre as médias dos grupos testados. Porém, não há conhecimento sobre qual(is) grupo(s)
diferem entre si. Para isso, recomenda-se a aplicação do Teste de Tukey, utilizado para fazer essa
verificação.

𝑄𝑀𝐸
𝑑𝑚𝑠 = 𝑞 (𝑔, 𝑁 − 𝑔)
𝑛
onde:
 dms: diferença média significativa
 𝑞 (𝑔, 𝑁 − 𝑔): Obtido na tabela Tukey conforme 𝛼, número de tratamentos (g) e g.l. do erro, ou
seja , g.l. do 𝑁 − 𝑔.
 QME: quadrado médio do erro (ou seja, o QM dentro dos grupos)
 n: Número de replicações:

85
Objetivo do teste: calcular a diferença (em módulo) entre as médias dos grupos (de 2 a
dois) e comparar com dms. Se a diferença entre as médias dos 2 grupos testados for maior que a
dms, os 2 grupos diferem entre si. Fazer todas as combinações necessárias de testes.

Tabela Tukey: Valores da amplitude total studentizada (q), para uso no teste de Tukey
aos níveis de significância de 5% e 1%.
v t (número de tratamentos)
α
(gl erro) 2 3 4 5 6 7 8 9 10
0,05 3,64 4,60 5,22 5,67 6,03 6,33 6,58 6,80 6,99
5
0,01 5,70 6,98 7,80 8,42 8,91 9,32 9,67 9,97 10,24
0,05 3,46 4,34 4,90 5,30 5,63 5,90 6,12 6,32 6,49
6
0,01 5,24 6,33 7,03 7,56 7,97 8,32 8,61 8,87 9,10
0,05 3,34 4,16 4,68 5,06 5,36 5,61 5,82 6,00 6,16
7
0,01 4,95 5,92 6,54 7,01 7,37 7,68 7,94 8,17 8,37
0,05 3,26 4,04 4,53 4,89 5,17 5,40 5,60 5,77 5,92
8
0,01 4,75 5,64 6,20 6,62 6,96 7,24 7,47 7,68 7,86
0,05 3,20 3,95 4,41 4,76 5,02 5,24 5,43 5,59 5,74
9
0,01 4,60 5,43 5,96 6,35 6,66 6,91 7,13 7,33 7,49
0,05 3,15 3,88 4,33 4,65 4,91 5,12 5,30 5,46 5,60
10
0,01 4,48 5,27 5,77 6,14 6,43 6,67 6,87 7,05 7,21
0,05 3,11 3,82 4,26 4,57 4,82 5,03 5,20 5,35 5,49
11
0,01 4,39 5,15 5,62 5,97 6,25 6,48 6,67 6,84 6,99
0,05 3,08 3,77 4,20 4,51 4,75 4,95 5,12 5,27 5,39
12
0,01 4,32 5,05 5,50 5,84 6,1 6,32 6,51 6,67 6,81
0,05 3,06 3,73 4,15 4,45 4,69 4,88 5,05 5,19 5,32
13
0,01 4,26 4,96 5,40 5,73 5,98 6,19 6,37 6,53 6,67
0,05 3,03 3,70 4,11 4,41 4,64 4,83 4,99 5,13 5,25
14
0,01 4,21 4,89 5,32 5,63 5,88 6,08 6,26 6,41 6,54
0,05 3,01 3,67 4,08 4,37 4,59 4,78 4,94 5,08 5,20
15
0,01 4,17 4,84 5,25 5,56 5,8 5,99 6,16 6,31 6,44
0,05 3,00 3,65 4,05 4,33 4,56 4,74 4,90 5,03 5,15
16
0,01 4,13 4,79 5,19 5,49 5,72 5,92 6,08 6,22 6,35
0,05 2,98 3,63 4,02 4,30 4,52 4,70 4,86 4,99 5,11
17
0,01 4,10 4,74 5,14 5,43 5,66 5,85 6,01 6,15 6,27
0,05 2,97 3,61 4,00 4,28 4,49 4,67 4,82 4,96 5,07
18
0,01 4,07 4,70 5,09 5,38 5,60 5,79 5,94 6,08 6,20
0,05 2,96 3,59 3,98 4,25 4,47 4,65 4,79 4,92 5,04
19
0,01 4,05 4,67 5,05 5,33 5,55 5,73 5,89 6,02 6,14
0,05 2,95 3,58 3,96 4,23 4,45 4,62 4,77 4,90 5,01
20
0,01 4,02 4,64 5,02 5,29 5,51 5,69 5,84 5,97 6,09
0,05 2,92 3,53 3,90 4,17 4,37 4,54 4,68 4,81 4,92
24
0,01 3,96 4,55 4,91 5,17 5,37 5,54 5,69 5,81 5,92
0,05 2,89 3,49 3,85 4,10 4,30 4,46 4,60 4,72 4,82
30
0,01 3,89 4,45 4,80 5,05 5,24 5,40 5,54 5,65 5,76
0,05 2,86 3,44 3,79 4,04 4,23 4,39 4,52 4,63 4,73
40
0,01 3,82 4,37 4,70 4,93 5,11 5,26 5,39 5,50 5,60
0,05 2,83 3,40 3,74 3,98 4,16 4,31 4,44 4,55 4,65
60
0,01 3,76 4,28 4,59 4,82 4,99 5,13 5,25 5,36 5,45
0,05 2,80 3,36 3,68 3,92 4,10 4,24 4,36 4,47 4,56
120
0,01 3,70 4,20 4,50 4,71 4,87 5,01 5,12 5,21 5,30
0,05 2,77 3,31 3,63 3,86 4,03 4,17 4,29 4,39 4,47

0,01 3,64 4,12 4,40 4,60 4,76 4,88 4,99 5,08 5,16

86
11.4 Exemplos de Aplicação prática da ANOVA

EXEMPLO 1: Vários corpos de prova foram submetidos à soldagem em diferentes níveis de


corrente. Verificar se há diferença significativa entre os vários níveis nos grupos.

Solução (usando Excel – Ferramentas de Análise):

Para verificar se há diferença significativa entre os vários níveis de corrente a que os


corpos de prova foram submetidos, foi aplicada a análise de Variância (ANOVA).
A Análise de Variância foi realizada utilizando nível de significância 0,05 (5%), o que
significa um nível de confiança na análise de 95%.
A seguir é apresentada a tabela com os dados dos testes realizados com os 10 corpos de
prova.
Corpos de prova 50 A 55 A 60 A 65 A 70 A
CP1 315 298 283 320 304
CP2 220 297 280 307 300
CP3 277 246 271 303 232
CP4 284 298 286 290 254
CP5 282 304 279 303 330
CP6 280 252 346 287 278
CP7 287 313 286 299 282
CP8 284 276 274 313 306
CP9 308 281 293 287 328
CP10 244 298 290 285 302

Os resultados da ANOVA são apresentados a seguir:

Resumo:
Grupo Contagem Soma Média Variância
50 A 10 2781 278,1 773,6556
55 A 10 2863 286,3 498,4556
60 A 10 2888 288,8 449,9556
65 A 10 2994 299,4 144,0444
70 A 10 2916 291,6 953,6

ANOVA
Fonte da variação SQ gl MQ F valor-P F crítico
Entre grupos 2409,32 4 602,33 1,06807 0,383424 2,578739
Dentro dos grupos 25377,4 45 563,9422
Total 27786,72 49

Conclusão:
Verifica-se pela análise, que o valor-p calculado na ANOVA, é maior que o valor p
teórico (0,383 > 0,05), o que significa que a diferença entre os tratamentos, ou seja, entre os
diferentes tipos de corrente a que os corpos de prova foram submetidos não é significativa.
Isso pode ser explicado, pelo fato de haver variáveis externas não controladas, que podem
ser causa de variabilidade nos dados, como por exemplo, o comprimento do arco.

87
Observa-se ainda, que embora existam diferenças entre as médias encontradas (embora
essas diferenças não sejam significativas conforme demonstrado na ANOVA), a variância em
praticamente todos os tratamentos é alta, o que mostra que há grande variabilidade nas medições
encontradas nos diferentes corpos de prova.

Mesma análise Utilizando o Minitab:

ANOVA com um fator: 50 A; 55 A; 60 A; 65 A; 70 A

Método

Hipótese nula Todas as médias são iguais


Hipótese alternativa No mínimo uma média é diferente
Nível de significância α = 0,05

Assumiu-se igualdade de variâncias para a análise

Informações dos Fatores

Fator Níveis Valores


Fator 5 50 A; 55 A; 60 A; 65 A; 70 A

Análise de Variância

Fonte GL SQ (Aj.) QM (Aj.) Valor F Valor-P


Fator 4 2409 602,3 1,07 0,383
Erro 45 25377 563,9
Total 49 27787

Sumário do Modelo

S R2 R2(aj) R2(pred)
23,7475 8,67% 0,55% 0,00%
Médias

88
Fator N Média DesvPad IC de 95%
50 A 10 278,10 27,81 (262,97; 293,23)
55 A 10 286,30 22,33 (271,17; 301,43)
60 A 10 288,80 21,21 (273,67; 303,93)
65 A 10 299,40 12,00 (284,27; 314,53)
70 A 10 291,60 30,88 (276,47; 306,73)

DesvPad Combinado = 23,7475

EXEMPLO 2: Para verificar se as várias combinações de avanço e profundidade, produzem


variações significativas no nível de rugosidade, foi aplicada a análise de Variância (ANOVA).

Solução (usando Minitab):


A Análise de Variância foi realizada utilizando nível de significância 0,05 (5%), o que
significa um nível de confiança na análise de 95%.
A seguir é apresentada a tabela com os dados dos 6 tipos de combinações diferentes (são
combinações onde foram fixados certos valores para avanço e profundidade).

Peças e Combinação Combinação Combinação Combinação Combinação Combinação


medições 1 2 3 4 5 6
1,999 1,938 2,313 5,252 5,773 5,381
1,825 2,105 2,224 5,87 6,118 4,934
Peça 1 2,261 2,14 2,791 6,694 5,631 4,648
1,878 2,286 2,645 5,906 5,711 5,091
1,981 2,041 2,412 5,797 6,047 4,904
2,495 2,243 2,619 6,1 6,464 5,26
2,431 2,32 2,347 5,919 6,178 5,002
Peça 2 2,512 2,22 2,838 5,859 5,676 4,788
2,77 2,158 2,526 5,967 5,989 4,997
2,51 2,203 2,597 5,99 6,339 5,006
2,143 2,254 2,546 6,082 5,742 5,391
2,04 2,046 2,353 5,963 6,225 5,152
Peça 3 2,134 2,375 2,336 5,416 5,665 5,215
2,212 1,991 2,555 5,911 5,946 5,346
1,914 2,249 2,735 5,684 5,451 5,589
Obs: Para cada peça foram feitas 5 medições com o rugosímetro, em diferentes pontos.

89
No Minitab 17, aplicando a ANOVA One Way (ANOVA com um fator):

90
ANOVA utilizando Dois Fatores

Neste mesmo exemplo (Exemplo 2), é interessante verificar se as medidas das peças
diferem quanto à combinação utilizada, ou quanto ao tipo da peça. Nesse caso, aplica-se a ANOVA
Two Way.

Nesse caso, os dados devem ser colocados no Minitab da seguinte forma:

No Minitab 17, aplicando a ANOVA Two Way:

91
92
Verifica-se através do gráfico acima, as seguintes observações:
1) Nas combinações 1, 2 e 3, onde foi utilizado o mesmo avanço (0,2mm), percebe-se
que não houve diferença significativa entre as peças 1, 2 e 3. Raciocínio semelhante
para as combinações 4, 5 e 6 entre si.
2) Houve diferença entre dois grupos, o primeiro formado pelas combinações 1,2 e 3 e o
segundo por 4, 5 e 6.
3) Continuar as análises... podem ser feitos mais comentários...

93
12 EXPERIMENTO FATORIAL (Tipo 2k)
Bibliografia:
Um experimento fatorial é um tipo de experimento
planejado que permite estudar os efeitos de diversos fatores sobre
uma resposta. Ao realizar um experimento, variar os níveis de
todos os fatores ao mesmo tempo em vez de um de cada vez
permite estudar as interações entre os fatores.

12.1 Estudo Experimental

Chama-se de Estudo experimental o fato de manipular de forma planejada certas variáveis


independentes ou fatores (A, B, C, ...) para verificar o efeito que esta manipulação provoca numa
certa variável dependente ou resposta Y, para assim, obter informações suficientes (em termos dos
objetivos da pesquisa) com o menor número possível de ensaios.

Figura 13.1: Modelo geral para um estudo experimental

Exemplos de situações onde podem ser realizados estudos experimentais:

Situação 1: Verificar quais são os fatores que mais interferem na resistência à compressão
(Y) de um concreto.
A resposta Y será a resistência à compressão e os fatores a serem estudados podem ser:
− tempo de hidratação (A);
− Relação água/cimento (B);
− a qualidade do cimento (C) e
− o uso de aditivos (D).

Situação 2: Uma empresa de informática quer verificar o tipo de equipamento adequado


ao usuário. A resposta Y pode ser o tempo de resposta e os fatores podem ser:
– o processador (A);
– a quantidade de memória RAM (B);
– a quantidade de memória fixa (C) e
– o tipo de carga de trabalho a ser executada (D).

94
12.2 Estratégias para um Estudo Experimental

Antes de realizar um Estudo Experimental é importante dar atenção aos seguintes fatores:
 reconhecer, estabelecer e delimitar claramente o problema;
 identificar os possíveis fatores que podem afetar o problema em estudo;
 verificar quais fatores que poderão ser mantidos fixos e, portanto, não terão os seus
efeitos avaliados no estudo experimental;
 identificar, para cada fator, o intervalo de variação e os níveis que entrarão no estudo;
 escolher um projeto experimental adequado, isto é, saber como combinar os níveis dos
fatores de forma que se possa resolver o problema proposto com o menor custo possível;
 escolher a resposta adequada, ou seja, a variável Y que mede adequadamente o resultado
(a qualidade, o desempenho, etc.) do processo.

12.3 Conceitos Básicos


Fatores: São os fatores controláveis do processo, que podem afetar seu desempenho, por
exemplo, num experimento envolvendo um rede computacional, os fatores podem ser: Velocidade
de Transmissão (alta ou baixa), Tamanho do arquivo (grande, pequeno), Comprimento do cabo
serial (longo / curto).
Níveis: são os resultado aplicados aos fatores. Por exemplo, em um experimento com 2
níveis, cada fator é classificado com duas possibilidades de resposta: (alta ou baixa) ou (grande,
pequeno) ou (longo / curto), etc. Usa-se os sinais (+) ou (-) para (alta ou baixa) ou (grande,
pequeno), etc.
Tratamentos: são todas as combinações possíveis entre os diversos fatores nos seus
diferentes níveis
Replicações (repetições): Normalmente é realizado mais de um ensaio em cada condição
experimental (tratamento), ou seja, são realizadas replicações. Com as replicações e possível
avaliar o erro experimental, isto é, o efeito provocado pelos possíveis fatores que estão agindo no
processo, mas que não foram incluídos no estudo.

12.4 Um Exemplo de Experimento Fatorial com Dois Níveis e k = 3 fatores.

Um estudo foi desenvolvido para verificar os fatores que influenciam a qualidade de


transmissão dos dados através da porta serial de computadores. Propositalmente foram utilizados
cabos com comprimento bastante superior às especificações técnicas. Observou-se uma taxa de
falhas de transmissão em função dos fatores:

A) Velocidade de Transmissão (2400bauds / 9600 bauds)


B) Tamanho do arquivo (100 bytes/ 200 bytes)
C) Comprimento do cabo serial (15m / 20m)
Nesse caso tem-se 2 níveis (+ ou -) e (k = 3) fatores (A, B e C).

O experimento que foi realizado com duas replicações. Os resultados são apresentados na
Tabela 13.1:

95
Tabela 13.1: Resultados de duas replicadas para cada Condição Experimental
Condição
A B C Replicada 1 Replicada 2
Experimental
1 - - - 32,5 32,3
2 - - + 35,7 35,9
3 - + - 33,1 33,4
4 - + + 35,9 36,1
5 + - - 34,1 34,4
6 + - + 36,6 36,9
7 + + - 34,2 34,2
8 + + + 37,1 36,9

A Tabela 2, a seguir, inclui os sinais de todas as interações possíveis (AB, AC, BC, ABC).
Os sinais de cada interação correspondem aos sinais da multiplicação de elemento a elemento dos
fatores nela envolvidos. Nota-se que nesse caso há 16 ensaios, pois cada condição experimental
possui 2 replicações.

Tabela 13.2: Sinais de todas as interações possíveis para todos os ensaios


Condição
Ensaio Replicação A B C AB AC BC ABC y
Experimental
1 1 - - - + + + - 32,5
1
2 2 - - - + + + - 32,3
3 1 - - + + - - + 35,7
2
4 2 - - + + - - + 35,9
5 1 - + - - + - + 33,1
3
6 2 - + - - + - + 33,4
7 1 - + + - - + - 35,9
4
8 2 - + + - - + - 36,1
9 1 + - - - - + + 34,1
5
10 2 + - - - - + + 34,4
1 1 + - + - + - - 36,6
6
12 2 + - + - + - - 36,9
13 1 + + - + - - - 34,2
7
14 2 + + - + - - - 34,2
15 1 + + + + + + + 37,1
8
16 2 + + + + + + + 36,9

96
12.5 Análise do Experimento Fatorial

Passo 1: Calcular a Soma de Quadrados:

Soma de Quadrados
Soma de quadrados total (𝑆𝑄 ):
1
𝑆𝑄 = 𝑦 − 𝑦
𝑁

Soma de quadrados do efeito j 𝑆𝑄 ): Nesse caso tem-se 7 efeitos j: A, B, C, AB,


AC, BC e ABC.
1
𝑆𝑄 = 𝑐 .𝑦
𝑁

Soma de quadrados do erro (𝑺𝑸𝑬𝒓𝒓𝒐 ): Veja que o somatório refere-se a j=1,..., 2k-
1. Como temos k=3 fatores, vai de j=1,..., 7, ou seja, a soma de todos os 7 𝑆𝑄 .

𝑆𝑄 = 𝑆𝑄 − 𝑆𝑄

Fazendo os cálculos da Soma de Quadrados nesse exemplo, têm-se:

Soma de quadrados total (𝑺𝑸𝑻𝒐𝒕𝒂𝒍 ):


1
𝑆𝑄 = 𝑦 − 𝑦
𝑁
1
𝑆𝑄 = 19590,67 − . (32,5 + 32,3 + 35,7 + ⋯ + 37,1 + 36,9)
16
(559,3)
𝑆𝑄 = 19590,67 − = 39,639
16

Soma de quadrados dos efeitos j.


1
𝑆𝑄 = 𝑐 .𝑦
𝑁
𝑐 : é o sinal do fator A (na coluna A da Tabela 2)

1
𝑆𝑄 = (−32,5 − 32,3 − 35,7 − 35,9 − 33,1 − 33,4 − 35,9 − 36,1 + 34,1 + 34,4 + 36,6
16
+ 36,9 + 34,2 + 34,2 + 37,1 + 36,9) = 5,641
1
𝑆𝑄 = (−32,5 − 32,3 − 35,7 − 35,9 + 33,1 + 33,4 + 35,9 + 36,1 − 34,1 − 34,4 − 36,6
16
− 36,9 + 34,2 + 34,2 + 37,1 + 36,9) = 0,391

97
1
𝑆𝑄 = (−32,5 − 32,3 + 35,7 + 35,9 − 33,1 − 33,4 + 35,9 + 36,1 − 34,1 − 34,4 + 36,6
16
+ 36,9 − 34,2 − 34,2 + 37,1 + 36,9) = 32,776
1
𝑆𝑄 = (+32,5 + 32,3 + 35,7 + 35,9 − 33,1 − 33,4 − 35,9 − 36,1 − 34,1 − 34,4 − 36,6
16
− 36,9 + 34,2 + 34,2 + 37,1 + 36,9) = 0,181
1
𝑆𝑄 = (+32,5 + 32,3 − 35,7 − 35,9 + 33,1 + 33,4 − 35,9 − 36,1 − 34,1 − 34,4 + 36,6
16
+ 36,9 − 34,2 − 34,2 + 37,1 + 36,9) = 0,181
1
𝑆𝑄 = (+32,5 + 32,3 − 35,7 − 35,9 − 33,1 − 33,4 + 35,9 + 36,1 + 34,1 + 34,4 − 36,6
16
− 36,9 − 34,2 − 34,2 + 37,1 + 36,9) = 0,031
1
𝑆𝑄 = (−32,5 − 32,3 + 35,7 + 35,9 + 33,1 + 33,4 − 35,9 − 36,1 + 34,1 + 34,4 − 36,6
16
− 36,9 − 34,2 − 34,2 + 37,1 + 36,9) = 0,226

Soma de quadrados do erro (𝑺𝑸𝑬𝒓𝒓𝒐 ):

𝑆𝑄 = 𝑆𝑄 − 𝑆𝑄

𝑆𝑄 = 39,639 − (5,641 + 0,391 + 32,776 + 0,181 + 0,181+0,031 + 0,226) = 0,212

Passo 2: Calcular o Grau de Liberdade (gl):


Todas as Somas de Quadrados (𝑆𝑄 ) , (𝑗 = 1, 2, … , 2 ) tem apenas um grau de liberdade
cada uma, enquanto que a 𝑆𝑄 tem 𝑁 − 2 graus de liberdade.
Nesse caso fazendo 𝑁 − 2 têm-se: 16 − 2 que dá 16 − 8 = 8.

Passo 3: Calcular o Quadrado Médio (QM):


A divisão das Somas de Quadrados (SQ) pelos correspondentes Graus de Liberdade (gl),
leva aos chamados Quadrados Médios (QM).
𝑆𝑄
𝑄𝑀 =
𝑔𝑙
Interpretação do Quadrado Médio (QM):
Quadrado Médio do Tratamento (𝑸𝑴𝑻𝒓𝒂𝒕 ) (nesse caso, 𝑸𝑴𝑨 , 𝑸𝑴𝑩 , … , 𝑸𝑴𝑨𝑩𝑪 ): é uma
medida de variância entre as médias dos grupos.
Quadrado Médio do Erro (𝑸𝑴𝑬𝒓𝒓𝒐 ) (nesse caso, 𝑸𝑴𝑨 , 𝑸𝑴𝑩 , … , 𝑸𝑴𝑨𝑩𝑪 ): é uma medida de
variância dentro dos grupos.

Passo 4: Calcular o Valor f (f calculado):


Valor f (f calculado): É o resultado da divisão do Quadrado Médio do respectivo tratamento pelo
Quadrado Médio do Erro (𝑄𝑀 ).
𝑄𝑀
𝑓=
𝑄𝑀

98
Passo 5: Achar o Valor f Tabelado (também chamado de f Crítico)
Para Achar o Valor f Tabelado, deve-se verificar na tabela F de Snedecor. Usar:
gl do numerador = 1 (é o gl das fontes de variação)
gl do denominador = gl do erro

Achar na tabela F de Snedecor, o valor crítico da distribuição F com gl = 1 no numerador


e gl = 8 no denominador (nesse exemplo). Note que o gl do numerador será sempre igual a 1 e o
gl do denominador será o gl do erro. Usar α = 0,05 (95% de confiança).

Nesse caso tem-se 𝑓 = 5,32.

Passo 6: Construção da Tabela ANOVA


Tabela 13.3: Análise de Variância (ANOVA)
Fonte de
SQ gl QM f
Variação
A 5,641 1 5,641 208,9
B 0,391 1 0,391 14,5
C 32,776 1 32,776 1213,9
A*B 0,181 1 0,181 6,7
A*C 0,181 1 0,181 6,7
B*C 0,031 1 0,031 1,1
A*B*C 0,226 1 0,226 8,4
Erro 0,212 8 0,027 -
Total 39,639 15 - -

Passo 7: Interpretação dos Resultados


Para testar a significância de cada efeito, comparamos os valores calculados de f com o
valor crítico da distribuição F (F de Snedecor).
Interpretação: Se 𝒇𝒄𝒂𝒍𝒄𝒖𝒍𝒂𝒅𝒐 > 𝒇𝒕𝒂𝒃𝒆𝒍𝒂𝒅𝒐 a hipótese nula é rejeitada, ou seja, a ação dos
efeitos é significativa.
Nesse caso apenas a variação causada pela interação B*C não é significativa (pois 1,1 <
5,32, ou seja 𝑓 não é maior que 𝑓 .
Os demais efeitos são todos significativos.

99
Tabela 13.4: Distribuição F de Snedecor (para α = 0,05).

Bibliografia:

BARBETTA, Pedro Alberto; REIS, Marcelo Menezes; BORNIA, Antonio Cezar. Estatística: para cursos
de Engenharia e Informática. 3. ed. São Paulo: Atlas, 2010.

100
13 APÊNDICES E ANEXOS

APÊNDICE 1: CÁLCULO DO TAMANHO DA AMOSTRA


(Base Teórica para Cálculo de Tamanho de Amostras)

I. TAMANHO DA AMOSTRA PARA ESTIMAR MÉDIAS


(Considerando Tamanho da População Desconhecido)

𝑍∝ . 𝜎
𝑛=
𝐸
Onde:
n: Número de indivíduos da amostra
𝑍∝ : Valor crítico correspondente ao grau de confiança. Geralmente utiliza-se 95% de
confiança, logo 𝑍∝ = 1,96.
𝜎: desvio padrão populacional da variável estudada.
E: Margem de erro ou erro máximo de estimativa. Identifica a diferença máxima entre a média
amostral e a verdadeira média populacional.

Obs: Quando 𝜎 não for conhecido, pode-se usar 𝜎 ≅ 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒/4. Ou ainda, pode-se
realizar estudo piloto com pelo menos 31 indivíduos (valores amostrais) e calcular o desvio padrão
amostral (s), e usá-lo no valor de 𝜎.

Exemplo: Na soldagem de peças, estimar a medida média, da dissipação do eletrodo na chapa


a ser soldada.
Foi feita amostra piloto e constatado desvio padrão amostral s=5mm.
Deseja-se erro máximo de +/-1mm (esse é o erro entre a estatística calculada, e o verdadeiro
parâmetro populacional)

Logo:
, .
𝑛=  n=96,04. Amostra deverá ser de tamanho n=97.

101
II. TAMANHO DA AMOSTRA PARA ESTIMAR UMA PROPORÇÃO
(Considerando Tamanho da População Desconhecido)

𝑍²∝ . 𝑝 . 𝑞
𝑛=
𝐸²
Onde:
n: Número de indivíduos da amostra
𝑍∝ : Valor crítico correspondente ao grau de confiança. Geralmente utiliza-se 95% de
confiança, logo 𝑍∝ = 1,96.
p: proporção de indivíduos que pertencem à categoria que estamos interessados em estudar.
q=1- p
E: margem de erro em percentual (%)

Obs: Quando p e q não forem conhecidos, usa-se p = q = 0,5, pois usando esse valor para
esses parâmetros, o tamanho da amostra é máximo.

Exemplo: Calcular o percentual (proporção) de itens defeituosos na soldagem de peças.


Como não foi feito estudo anterior, usar p = q = 0,5.
Utilizaremos erro máximo de 3%.

Logo:
, ². , . ,
𝑛= , ²
 n = 1067,11. Amostra deverá ser de tamanho n = 1068.

102
III. TABELA
Tabela com graus de confiança mais utilizados (geralmente usa-se 95%).
GRAU DE CONFIANÇA (ALFA) VALOR CRÍTICO 𝒁∝
𝟐

90% 0,10 1,645


95% 0,05 1,96
99% 0,01 2,575

103
ANEXO 1: TABELA DISTRIBUIÇÃO NORMAL PADRÃO

104
ANEXO 2: TABELA DISTRIBUIÇÃO t DE STUDENT (95% de confiança)

105
14 BIBLIOGRAFIA

BARBETTA, Pedro Alberto; REIS, Marcelo Menezes; BORNIA, Antonio Cezar. Estatística:
para cursos de engenharia e informática. 3. ed. São Paulo: Atlas, 2010.

BARBETTA, P. A. Estatística Aplicada às Ciências Sociais. Florianópolis: Ed. da UFSC, 2006.

DINIZ, M. G. Desmistificando o controle estatístico de processo. São Paulo: Artliber, 2006.

LARSON, R; FARBER, B. Estatística Aplicada. São Paulo: Person- Prentice Hall, 2016.

VIEIRA, Sonia. Estatística para a qualidade. 2. ed. Rio de Janeiro: Elsevier, 2012.

Site: http://www.portalaction.com.br/

106

Você também pode gostar