Você está na página 1de 67

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL

PROF. RICARDO MONTEIRO

NOTAS DE AULA: ESTATÍSTICA BÁSICA

CHAPECÓ, 29 de setembro de 2022


LISTA DE GRÁFICOS

Gráfico 1: Altura x peso............................................................................................................12


Gráfico 2: Covid-19 – Jan 2022 – Chapecó..............................................................................13
Gráfico 3: Aprovados por curso – Estatística – 2021 – UFFS – Chapecó................................14
Gráfico 4: Resultados................................................................................................................15
Gráfico 5: Gráfico de frequências ‒ variável qualitativa ordinal..............................................18
Gráfico 6: Gráfico de frequências: variável quantitativa discreta.............................................19
Gráfico 7: Histograma...............................................................................................................23
Gráfico 8: Polígono de frequência............................................................................................23
Gráfico 9: Ogiva........................................................................................................................23
Gráfico 10: Quartis....................................................................................................................33
Gráfico 11: Boxplot da tabela 16..............................................................................................34
Gráfico 12: Histograma das alturas...........................................................................................38
Gráfico 13: Histograma das idades...........................................................................................40
Gráfico 14: Histograma da notas..............................................................................................41
Gráfico 15: Histograma das notas.............................................................................................42
Gráfico 16: Curtose...................................................................................................................44
Gráfico 17: Curva normal padrão.............................................................................................47
Gráfico 18: Área entre dois pontos...........................................................................................48
Gráfico 19: Curva de Student....................................................................................................49
Gráfico 20: Distribuição de probabilidades..............................................................................57
LISTA DE TABELAS

Tabela 1: Altura x Peso dos alunos............................................................................................11


Tabela 2: Casos de Covid-19 – Janeiro de 2022 – Chapecó.....................................................12
Tabela 3: Alunos aprovados em Estatística – 2021 – UFFS – Chapecó...................................13
Tabela 4: Resultados de Estatística – Agronomia – 2021 – UFFS – Chapecó..........................14
Tabela 5: Respostas da pesquisa sobre o uso de máscara facial...............................................15
Tabela 6: Distribuição de frequência discreta – variável qualitativa não ordinal.....................15
Tabela 7: Respostas da pesquisa sobre o uso de máscara facial...............................................16
Tabela 8: Distribuição de frequência discreta – variável qualitativa ordinal............................16
Tabela 9: Notas dos alunos........................................................................................................17
Tabela 10: Distribuição de frequência discreta – variável quantitativa....................................17
Tabela 11: Notas dos alunos......................................................................................................20
Tabela 12: Distribuição de frequência por classes....................................................................21
Tabela 13: Medidas de tendência central..................................................................................26
Tabela 14: Notas dos alunos......................................................................................................29
Tabela 15: Notas dos alunos......................................................................................................31
Tabela 16: Notas dos alunos......................................................................................................34
Tabela 17: Altura dos alunos.....................................................................................................37
Tabela 18: Idades dos alunos.....................................................................................................38
Tabela 19: Notas dos alunos......................................................................................................39
Tabela 20: Coeficientes e estatísticas da tabela 16....................................................................41
Tabela 21: Notas dos alunos de estatística................................................................................50
Tabela 22: Notas dos alunos de estatística................................................................................56
Tabela 23: Notas dos alunos de estatística do curso de administração.....................................59
Tabela 24: Notas dos alunos de estatística do curso de ciências sociais...................................59
Tabela 25: Notas de um aluno em algumas disciplinas.............................................................60
Tabela 26: Notas dos alunos em duas provas diferentes...........................................................62
Tabela 27: Notas dos alunos......................................................................................................62
SUMÁRIO

1 INTRODUÇÃO......................................................................................................................6
1.1 O que é arredondamento....................................................................................................6
1.1.1 Regras de arredondamento.................................................................................................6
1.1.2 Regras utilizadas no nosso curso.......................................................................................7

2 AMOSTRA.............................................................................................................................8
2.1 Exercício: amostra..............................................................................................................8

3 HISTÓRIA DA ESTATÍSTICA............................................................................................9

4 VARIÁVEIS, TABELAS E GRÁFICOS............................................................................10


4.1 Tabelas:..............................................................................................................................10
4.2 Gráficos..............................................................................................................................11
4.2.1 Gráfico de dispersão ou Gráfico XY:...............................................................................11
4.2.2 Gráfico de linha:...............................................................................................................12
4.2.3 Gráfico de barras:.............................................................................................................13
4.2.4 Gráfico de setores (pizza):...............................................................................................14

5 DISTRIBUIÇÃO DE FREQUÊNCIA DISCRETA:.........................................................15


5.1 Exemplo de distribuição de frequência discreta – variável qualitativa:......................15
5.1.1 Exemplo de variável qualitativa não ordinal....................................................................15
5.1.2 Exemplo de variável qualitativa ordinal..........................................................................16
5.1.3 Exemplo de distribuição de frequência discreta – variável quantitativa:.........................17
5.1.4 Exercício: Distribuição de frequência discreta................................................................18

6 DISTRIBUIÇÃO DE FREQUÊNCIAS POR CLASSES.................................................19


6.1.1 Exemplo de distribuição frequências por classes:............................................................20
6.2 Histograma........................................................................................................................21
6.3 Polígono de frequências absolutas e acumuladas...........................................................22
6.3.1 Exercício: Distribuição de frequência por classes e histograma......................................23

7 MEDIDAS DE TENDÊNCIA CENTRAL.........................................................................24


7.1 Média:................................................................................................................................24
7.2 Mediana:............................................................................................................................25
7.3 Moda:.................................................................................................................................25
7.3.1 Exemplo de medidas de tendência central:......................................................................26
7.3.2 Quando usar a média, mediana ou moda?........................................................................27
7.3.3 Exercício: Medidas de tendência central..........................................................................27

8 MEDIDAS DE DISPERSÃO..............................................................................................28
8.1 Desvio médio:.....................................................................................................................28
8.1.1 Exemplo:..........................................................................................................................29
8.1.2 Exercícios: Desvio médio................................................................................................29
8.2 Variância............................................................................................................................29
8.3 Desvio padrão:...................................................................................................................30
8.4 Coeficiente de variação.....................................................................................................30
8.4.1 Exemplo:..........................................................................................................................31
8.4.2 Exercício: variância e desvio padrão...............................................................................31

9 MEDIDAS SEPARATRIZES..............................................................................................32
9.1 Quartis................................................................................................................................32
9.1.1 Boxplot.............................................................................................................................33
9.2 Percentis.............................................................................................................................34
9.2.1 Exemplo:..........................................................................................................................34
9.2.2 Exercício: quartil e percentil............................................................................................35

10 ASSIMETRIA.....................................................................................................................36
10.1 Métodos de definição e cálculo da assimetria...............................................................36
10.2 Assimetria nula................................................................................................................37
10.3 Assimetria positiva..........................................................................................................38
10.4 Assimetria negativa.........................................................................................................39
10.5 Conclusão.........................................................................................................................40
10.5.1 Exemplo.........................................................................................................................41
10.5.2 Exercício: assimetria......................................................................................................41

11 CURTOSE...........................................................................................................................43

12 PROBABILIDADES..........................................................................................................44
12.1 Probabilidade...................................................................................................................44
12.2 Distribuições teóricas de probabilidade........................................................................45
12.3 Distribuição normal........................................................................................................45
12.4 Distribuição de Student (distribuição t)........................................................................48

13 INFERÊNCIA ESTATÍSTICA: INTERVALOS DE CONFIANÇA.............................49


13.1 Intervalo de confiança para a média.............................................................................49
13.1.1 Exemplo:........................................................................................................................50
13.2 Intervalo de confiança para proporção populacional..................................................51
13.2.1 Exemplo:........................................................................................................................51
13.2.2 Exercício: intervalo de confiança...................................................................................52

14 TESTES DE HIPÓTESES................................................................................................53
14.1 Hipóteses:.........................................................................................................................53
14.2 Tipos de erros e parâmetros:..........................................................................................53
14.3 Passos do teste de hipótese:............................................................................................54
14.4 Teste de média populacional...........................................................................................54
14.4.1 Exemplo: teste de hipótese para média..........................................................................56
14.4.2 Exercício: teste de média...............................................................................................57

15 TESTE PARA DIFERENÇA DE MÉDIAS.....................................................................58


15.1 Teste para diferença de média de amostras independentes.........................................58
15.1.1 Exemplo:........................................................................................................................59
15.1.2 Exercício: teste de diferença de médias – independentes..............................................60

16 TESTE PARA DIFERENÇA DE MÉDIAS – DEPENDENTES....................................61


16.1 Teste para diferença de média de amostras dependentes............................................61
16.1.1 Exemplo:........................................................................................................................61
16.1.2 Exercício: teste de diferença de médias – dependentes.................................................62

REFERÊNCIAS......................................................................................................................63

ANEXO A – TABELA T.........................................................................................................64

ANEXO B: TABELA Z NEGATIVO....................................................................................65

ANEXO C: TABELA Z POSITIVO......................................................................................66


Versão: 29 de setembro de 2022 – pag. 6

1 INTRODUÇÃO

A estatística ensinada nos cursos de graduação é uma pequena parte desta área do
conhecimento, mas constitui um item importante para a compreensão dos fatos sociais,
auxiliando o processo de decisão e informação, mesmo que o aluno não vá trabalhar diretamente
com a disciplina. Os conceitos básicos aqui expostos permitem que se avance em futuros estudos.
A estatística trabalha com medidas, que podem ser quantitativas (numéricas) ou
qualitativas, e nos cálculos efetuados a precisão é importante, podendo alterar a decisão, por isto
vamos expor o conceito de arredondamento a seguir.
A fonte de todas as tabelas e gráficos é o autor, a não ser quando citada a fonte.

1.1 O que é arredondamento

Arredondamento é modificar uma medida para a precisão desejada. Isto pode ser feito
pela definição do número de dígitos significativos ou pelo número de casas decimais depois da
vírgula.
Toda medida tem uma certa precisão, dependendo de como foram feitas. Por exemplo se
medirmos o comprimento de um objeto usando uma régua (marcada de 1 em 1 mm), a menor
medida a ser feita tem a precisão de 1 mm. Podemos dizer que o objeto tem 23 mm ou 24 mm,
mas não podemos dizer que o objeto tem 23,3 mm porque a régua não tem esta precisão.
Quando arredondamos estamos modificando a medida feita para a precisão desejada ou
conhecida, seguindo as regras de arredondamento.
No nosso curso estamos utilizando como amostra para os exemplos e exercícios notas que
estão entre zero (0,0) e dez (10,0), com uma casa decimal. Quando eu escrevo 9,0 estou dizendo
que eu sei que este número tem uma casa decimal de precisão, e que é diferente de 9 (precisão de
zero casas decimais). A precisão mínima para os cálculos é duas casas decimais.

1.1.1 Regras de arredondamento

Existem muitas regras de arredondamento, no Brasil são regulamentadas pelo IBGE 1 e


pela ABNT2. Algumas utilizadas são:
– Aproximar para o número inteiro mais próximo;
– Aproximar para o número inteiro inferior;

1 Instituto Brasileiro de Geografia e Estatística


2 Associação Brasileira de Normas Técnicas
Versão: 29 de setembro de 2022 – pag. 7

– Aproximar para o número inteiro superior;


– Utilizar os procedimentos do IBGE ou da ABNT;
– Arredondamento científico (pelo número de dígitos significativos);
– Específicos para o cálculo contábil e financeiro;
– Padrão utilizado pelas planilhas e máquinas de calcular (mais usado).
– Truncar: as casas decimais são cortadas sem utilizar nenhuma regra de arredondamento.

1.1.2 Regras utilizadas no nosso curso

Será utilizada o padrão das planilhas e máquinas de calcular, que é a regra mais utilizada
para aplicações não científicas ou que não exigem uma grande precisão de cálculo.
1) O primeiro passo é definir quantas casas decimais serão usadas;
2) A casa decimal que está depois do número de casas decimais utilizadas é o valor de
referência. Por exemplo: Se eu quero duas casas decimais, e o número é 7,348 a terceira
casa decimal (número 8) é o valor de referência;
3) Os números que estiverem depois do valor de referência são ignorados: Se o número for
7,34875693 os valores depois da terceira casa decimal (valor de referência) são
ignorados;
4) Se o valor de referência for menor que 5 (0, 1, 2, 3 ou 4) o número não é modificado.
Por exemplo se o número for (7,342), e como queremos duas casas decimais a terceira
casa decimal (2) é o valor de referência. Como ele é menor que 5 o número não e
alterado, ficando 7,34;
5) Se o valor de referência for maior ou igual a 5 (5, 6, 7, 8 ou 9), é somado 1 a última casa
decimal desejada. Por exemplo se o número for (7,348), e como queremos duas casas
decimais a terceira casa decimal (8) é o valor de referência. Como ele é maior que 5 é
somado 1 a segunda casa decimal, ficando 7,35;
Quando utilizamos duas casas decimais, a segunda casa é chamada de digito duvidoso. Se
a resposta certa for (7,33), dependendo da precisão de cálculo a resposta calculada pode ser
(7,35) ou (7,33) ou valores próximos disto (é considerado que a resposta está correta). Se a
resposta calculada for diferente na primeira casa decimal normalmente implica que o cálculo está
errado. Se a resposta calculada for (7,47), normalmente implica que o cálculo está errado.
Versão: 29 de setembro de 2022 – pag. 8

2 AMOSTRA

A estatística trabalha com valores (dados) que foram medidos ou pesquisados, e após uma
análise estes dados são colocados em uma tabela que é conhecida como a amostra a ser analisada.
A amostra é considerada como parte de uma população a qual não temos acesso, por ser
impossível (vai acontecer no futuro), por ser muito grande e dispersa (o que leva tempo e
aumenta o custo da pesquisa) ou não temos necessidade de pesquisar toda a população, já que
uma amostra é suficiente para tomar a decisão.

2.1 Exercício: amostra

Para o acompanhamento do curso o aluno deve criar uma amostra composta de no


máximo 30 e no mínimo 10 das médias ou notas que o aluno teve no curso, em outras disciplinas.
Podem ser usadas as notas do ensino médio. As notas desta amostra têm que estar entre zero (0,0)
e dez (10,0).
Todo sistema de notas tem uma nota mínima, uma máxima e, quando numérico, o número
de casas decimais. Na UFFS a nota mínima é 0,0, a máxima é 10,0 e tem uma casa decimal.
Existem sistemas em que a nota mínima é 0, a máxima é 20 e não tem nenhuma casa
decimal, são números inteiros.
Caso as notas dos alunos estejam em outra base diferente da UFFS ela tem que ser
transformadas. Considerando que a menor nota é zero (0,0), para a transformação faça:
Nota transformada = nota antiga / nota máxima da nota antiga × 10
Por exemplo, se a nota do aluno foi atribuída em uma base que a nota máxima é 200, e a
nota for 45, a transformação fica:
45 / 200 × 10 = 2,25
A nota na base 10 fica então 2,25, arredondando para uma casa decimal fica 2,3.
Versão: 29 de setembro de 2022 – pag. 9

3 HISTÓRIA DA ESTATÍSTICA

A estatística, como conhecemos hoje, começou na metade do século XVII com o avanço
dos cálculos matemáticos e a criação da probabilidade. A probabilidade apareceu como um
estudo do jogos e apostas, com Pascal e Fermat, depois sistematizados por Huygens. No século
XVIII houve a contribuição de Bernoulli e Moivre. A consolidação da probabilidade veio com
Laplace, no século XIX com o estudo sobre a probabilidade de ganhar na roleta. Gauss criou os
fundamentos do que hoje é a análise estatística, além da contribuição com a probabilidade
O termo estatística foi criado na Alemanha (Statistik) pelos órgãos da estrutura de
gerenciamento do Estado Alemão, e era considerada com uma maneira de descrever o seu
funcionamento. A estatística como usamos hoje foi uma reunião da estatística descritiva com a
probabilidade, e aconteceu na Inglaterra na passagem do século XIX para o século XX, com,
entre outros, Galton, Pearson, Gosset, Yule e Fischer.
Os principais conceitos da estatística foram elaborados entre 1880 e 1950, sendo
definidas suas características principais:
– É uma região “cinza” entre a matemática e as ciências sociais;
– Os problemas de pesquisa da estatística são definidos socialmente;
– Trabalha com conjunto de dados, e não com dados individuais;
– Estes dados são sempre considerados como uma amostra da verdadeira população de
dados, a qual não é possível ter acesso.
A definição do que é desemprego, como exemplo, muda conforma a época e lugar. O
emprego apareceu como a revolução industrial inglesa, sendo seu elemento definidor, mas o que
é desemprego apareceu bem depois. As pessoas que não trabalhavam eram consideradas
vagabundas, que não queriam trabalhar. Depois se observou que mesmo que a pessoa
procurando, não havia emprego disponível. No Brasil a definição usada hoje tem três aspectos: A
pessoa que não tem nenhuma fonte de renda e está procurando emprego, a pessoa que tem um
fonte precária de renda e está procurando emprego e quem desistiu de procurar emprego. Para
mais informações procurem o IBGE3.

3 Instituto Brasileiro de Geografia e Estatística, responsável pela pesquisa do desemprego


Versão: 29 de setembro de 2022 – pag. 10

4 VARIÁVEIS, TABELAS E GRÁFICOS

Na estatística, a característica que se que estudar é chamada de variável, que podem ser
de vários tipos:
a) Variável qualitativa ou nominal: por tipo ou atributo. Por exemplo: cor do olhos dos
alunos; causa da morte de uma pessoa; tipo de bebida preferido etc.
b) Variável quantitativa: expressa em números, sendo divididas em:
• Discretas: só pode assumir alguns valores. Por exemplo: número de filhos de um
casal; quantidade de carteiras em uma sala de aula; quantidade de alunos que foram
aprovados em uma disciplina etc.
• Contínuas: pode assumir qualquer valor. Por exemplo: peso, idade, altura etc.
As variáveis quantitativas são ordenadas, pela própria definição do que é um número, mas
as variáveis qualitativas podem ser ordenadas ou não, dependendo de sua definição.
A bebida favorita não pode ser ordenada, não se pode afirmar que suco de laranja vem
antes (é menor) que suco de limão, mas os conceitos de ruim, médio e bom podem ser ordenados,
dependendo de como foi feita a pesquisa (se está claro para a pessoa pesquisada que o conceito
de ruim vem antes que médio).
Existem outras classificações, mas estas bastam para o nosso curso.

4.1 Tabelas:

Os dados obtidos são colocados em uma tabela, que pode ser ordenada ou não.
As tabelas podem mostrar várias de séries de dados: temporais quando mostra a variável
no tempo; geográfica quando mostra a variável no espaço físico (por cidades, por exemplo) e
específica quando mostra os valores de uma variável (usada no nosso curso). Toda tabela tem que
ter três atributos, onde foi feita a pesquisa que gerou os dados da tabela, quando foi feita e o que
foi pesquisado. Normalmente uma tabela tem dois destes atributos fixos e o terceiro varia. Por
exemplo: Uma pesquisa feita em Chapecó (onde) no mês de agosto de 2021 (quando) sobre o uso
da máscara facial (o que). Neste caso o local e data são fixos, e o que varia são as respostas sobre
o uso da máscara. Podem ser colocadas até dois destes atributos em uma tabela, um nas linhas e o
outro nas colunas, ficando o terceiro fixo. Por exemplo: uso de máscara facial (varia) em
Chapecó (fixo) nos meses de janeiro, fevereiro e março (varia). Nos gráficos apresentados a
seguir estão vários exemplos de tabelas.
Versão: 29 de setembro de 2022 – pag. 11

4.2 Gráficos

O uso de gráficos ajuda na compreensão dos dados de uma tabela, sendo um componente
essencial de qualquer análise estatística e com o uso de planilhas e aplicativos estatísticos eles
podem ser feitos facilmente. Embora existam muitos tipos de gráficos, no nosso curso veremos
os mais importante para a estatística.

4.2.1 Gráfico de dispersão ou Gráfico XY:

As variáveis X e Y são numéricas (podem ser discretas ou contínuas) e o gráfico é feito


colocando os pares de pontos x; y, sem unir com linhas. Utilizado para observar como as duas
variáveis se relacionam. Utilizados nas análises de regressão e correlação. Temos um exemplo no
Gráfico 1, que utilizando os dados da tabela 1:
Tabela 1: Altura x Peso dos alunos
Altura 1,93 1,89 1,80 1,70 1,82 1,75 1,65 1,86 1,87 1,79 1,78 1,78 1,69 1,81 1,73 1,65 1,65 1,59 1,64 1,66
Peso 81 80 70 60 65 65 60 86 68 81 77 72 70 77 60 50 65 53 50 55

Gráfico 1: Altura x peso


Versão: 29 de setembro de 2022 – pag. 12

4.2.2 Gráfico de linha:

A variável X é contínua, normalmente uma medida de tempo, e a variável Y é numérica.


Este tipo de gráfico permite interpolação entre dois pontos do eixo x. O Gráfico 2 foi feito
utilizando os dados da tabela 2:
Tabela 2: Casos de Covid-19 – Janeiro de 2022 – Chapecó
dia 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
casos 104 113 109 163 213 311 561 864 998 1138 1378 1732 1967 2435 2547 2861
dia 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
casos 2856 2951 3110 3252 3465 3729 3874 3463 3349 3713 3837 3817 4144 4160 3789
Fonte: Boletim epidemiológico covid-19 – Prefeitura de Chapecó

Gráfico 2: Covid-19 – Jan 2022 – Chapecó


Versão: 29 de setembro de 2022 – pag. 13

4.2.3 Gráfico de barras:

A variável X é discreta, podendo ser qualitativa (nominal) e pode ser ordenada ou não. A
variável Y é numérica, normalmente uma frequência (contagem). O Gráfico 3 foi feito com os
dados da tabela 3. A tabela mostra a quantidade de alunos aprovados em estatística em vários
cursos. A variável X não pode ser ordenada (um curso não é menor ou maior que outro).
As barras têm que ter a mesma largura, tendo um espaço entre elas.
Tabela 3: Alunos aprovados em Estatística – 2021 – UFFS – Chapecó
Curso Computação Geografia Letras Agronomia História
Aprovados 32 25 28 29 18

Gráfico 3: Aprovados por curso – Estatística – 2021 – UFFS – Chapecó


Versão: 29 de setembro de 2022 – pag. 14

4.2.4 Gráfico de setores (pizza):

Utilizado quando se quer visualizar a proporção de uma parte com o todo, sendo a
proporção percebida como a área do setor, enquanto no gráfico de barras a percepção é pela
altura (não pela área) da barra. O gráfico 4 foi feito usando os dados da tabela 4, com as
quantidades de alunos aprovados, reprovados e que trancaram uma disciplina
Tabela 4: Resultados de Estatística – Agronomia – 2021 – UFFS – Chapecó
Aprovou Reprovou Trancou Trancou
Alunos 27 12 6

Gráfico 4: Resultados
Versão: 29 de setembro de 2022 – pag. 15

5 DISTRIBUIÇÃO DE FREQUÊNCIA DISCRETA:

Frequência discreta é a contagem que quantas vezes uma resposta aparece em uma tabela,
e é o primeiro passo de uma análise estatística, aplicada em variáveis discretas e qualitativas
(nominais). A distribuição de frequência é uma tabela com os dados ordenados (quando ordinais)
não repetidos e a contagem de quantas vezes cada dado aparece na amostra.
a) Tamanho da amostra (n): Quantidade de valores em uma amostra;
b) Frequência absoluta (F): Contagem de quantas vezes a resposta aparece;
c) Frequência absoluta acumulada (Fac): Contagem da quantidade de respostas da primeira
até uma determinada resposta;
F
d) Frequência relativa f = n

e) Frequência relativa acumulada (fac): soma das frequências relativas da primeira até uma
determinada resposta;
f) Frequência relativa em porcentagem f = f x 100
g) Pode ser feito um gráfico de barra para a distribuição de frequência discreta, no eixo x
ficam os valores da variável e no eixo ficam as frequências absolutas (F)

5.1 Exemplo de distribuição de frequência discreta – variável qualitativa:

5.1.1 Exemplo de variável qualitativa não ordinal

Uma pesquisa foi feita para verificar se uma amostra da população segue diretiva do uso
de máscara facial em local público, sendo as respostas colocadas na tabela 5. Foram aplicados 10
questionários (Q1 a Q10) em 10 pessoas escolhidas aleatoriamente:
Tabela 5: Respostas da pesquisa sobre o uso de máscara facial
Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 Q9 Q10
sim não não não sim não sim não não não
A resposta sim significa que usa a máscara facial, a resposta não que não usa. As
respostas são qualitativas e não podem ser ordenadas, porque não podemos dizer que sim é
menor que não, ou vice-versa. A distribuição de frequência discreta da tabela 5 está na tabela 6:
Tabela 6: Distribuição de frequência discreta – variável qualitativa não ordinal
F f f (%)
sim 3 0,3 (3/10) 30% (0,3 x 100)
não 7 0,7 (7/10) 70% (0,7 x 100)
soma 10 1 100%
Versão: 29 de setembro de 2022 – pag. 16

Não tem sentido as frequências acumuladas porque os valores não podem ser ordenados.
Está indicada na tabela como calcular, como exemplo.

5.1.2 Exemplo de variável qualitativa ordinal

Outra pesquisa colocou 5 respostas possíveis sobre o uso da máscara facial: nunca uso;
uso pouco; uso médio; uso bastante; uso sempre. Neste caso as respostas poderiam ser
ordenadas. O resultado desta pesquisa feita com estas opções de respostas está na tabela 7:
Tabela 7: Respostas da pesquisa sobre o uso de máscara facial
Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 Q9 Q10 Q11 Q12 Q13 Q14 Q15
pouco médio pouco nunca nunca médio pouco pouco sempre bastante nunca pouco médio pouco nunca

A distribuição de frequência ficaria (tabela 8):


Tabela 8: Distribuição de frequência discreta – variável qualitativa ordinal
F Fac f fac f(%)
nunca 4 4 0,27 0,27 27%
pouco 6 10 0,40 0,67 40%
médio 3 13 0,20 0,87 20%
bastante 1 14 0,07 0,94 7%
sempre 1 15 0,07 1,01 7%
soma 15 1,01 101%

– Como as respostas podem ser ordenadas (por exemplo: médio pode ser considerado
menor que bastante), o uso das outras frequências além da absoluta fica mais claro.
– Como exemplo do calculo da Fac: o valor da resposta médio é 13, que corresponde à
soma dos valores de F anteriores, 4+6+3=13.
– A soma de todos os valores de F é igual ao total de respostas (n), que é 15.
– O último valor da Fac deve ser igual a n.
– O último valor da fac deve ser 1. Neste caso existe uma pequena diferença, a soma dos f
é 1,01 (que é o último valor da fac) devido ao arredondamento.
4
– O primeiro valor de f é calculado como: 15 = 0,26667 , que foi arredondado para 0,27.

– Pela inspeção das respostas podemos verificar que 40% dos pesquisados usam pouco a
máscara, e 7% usam bastante.
– Pode ser feita a porcentagem da fac, multiplicando por 100. Neste caso podemos ver que
67% (27% + 40%) usam pouco ou nunca a máscara.
O gráfico de barras para a distribuição da tabela 8 fica:
Versão: 29 de setembro de 2022 – pag. 17

Gráfico 5: Gráfico de frequências ‒ variável


qualitativa ordinal

6
5
4
3
2
1
0

nunca pouco médio bastante sempre

5.1.3 Exemplo de distribuição de frequência discreta – variável quantitativa:

A distribuição de frequência da tabela 10 usa os dados da tabela 9.


Tabela 9: Notas dos alunos
3,0 7,0 7,7 2,0 7,0 9,7 2,5 2,5 9,7 4,5 7,0 8,3 4,0 7,0 7,7 4,0 7,0 7,7 1,0 9,0 6,7

Tabela 10: Distribuição de frequência discreta – variável quantitativa


notas F Fac f fac f (%)
1,0 1 1 0,05 0,05 5%
2,0 1 2 0,05 0,10 5%
2,5 2 4 0,10 0,20 10%
3,0 1 5 0,05 0,25 5%
4,0 2 7 0,10 0,35 10%
4,5 1 8 0,05 0,40 5%
6,7 1 9 0,05 0,45 5%
7,0 5 14 0,24 0,69 24%
7,7 3 17 0,14 0,83 14%
8,3 1 18 0,05 0,88 5%
9,0 1 19 0,05 0,93 5%
9,7 2 21 0,10 1,03 10%
soma 21 1,03

Embora a variável nota seja discreta, com 101 valores possíveis para uma casa decimal
(0,0 a 10,0), A distribuição da tabela 10 não auxilia muito na compreensão das notas dos alunos,
já que elas se repetem pouco, não podemos identificar claramente uma concentração em uma
nota. Este é um comportamento típico de uma variável contínua.
Versão: 29 de setembro de 2022 – pag. 18

O gráfico de barras da distribuição de frequência discreta da tabela 10 fica:


Gráfico 6: Gráfico de frequências: variável quantitativa discreta
5
4
3
2
1
0

1 2 2.5 3 4 4.5 7 7.7 9 9.7

5.1.4 Exercício: Distribuição de frequência discreta

Faça uma tabela com a amostra das notas utilizadas e determine as frequências absoluta,
relativa e acumulada, bem como a porcentagem, como no exemplo da apostila de teoria.
Faça uma outra tabela mudando as notas pela aprovação ou não na matéria. Neste caso
ficaria com 3 respostas: passou; reprovou e trancou. Determine as frequências absolutas e
relativa em porcentagem.
Escreva uma análise do seu desempenho, utilizando os resultados das frequências
calculadas.
Versão: 29 de setembro de 2022 – pag. 19

6 DISTRIBUIÇÃO DE FREQUÊNCIAS POR CLASSES

Para o exercício do capítulo 4 foram construídas duas tabelas, uma com as notas e a outra
com os resultados da disciplina.
As notas da primeira tabela constituem uma variável contínua, não tanto pelo valor (pode
assumir 101 valores, de 0,0 até 10,0) mas pelo “comportamento”. Pela definição formal seria
uma variável discreta (só pode assumir 101 valores, e não existem valores intermediários) mas
pode ser observado que poucos valores se repetem. Este é o comportamento típico de uma
variável contínua.
A outra tabela só tinha 3 valores (passou, reprovou e trancou), mas com um valor de
frequência mais alto que a tabela com as notas, na qual a frequência da maioria das notas foi 1.
Para quase todos os alunos foi assim. A tabela descreve melhor o desempenho do aluno, e é
conhecida como distribuição de frequência discreta.
Já a tabela com as todas as notas não descreve bem o desempenho do aluno, e somente
com alguma transformação das notas para analisar o resultado. Para melhorar a análise deste tipo
de variável, considerada como contínua, pode ser feita uma outra distribuição de frequência, a
distribuição de frequência por classes (ou por grupos ou categorias). Para isto definimos algumas
classes, conforme o objetivo da análise, e colocamos as notas dentro de cada classe. A frequência
absoluta será a quantidade de notas dentro de cada classe.
Se definirmos as classes em três, com a primeira contendo as notas de 0,0 até 6,0 a
segunda com as notas de 6,0 até 10,0, e a terceira com as disciplinas sem notas teremos a
segunda tabela. Quanto vocês fizeram a segunda tabela foi esta operação que foi feita. Como
pode ser observado existe um problema com as notas 6,0 e precisamos definir em qual classe ela
pertence. Para isto vale lembrar que o objetivo da análise é separar as disciplinas com aprovação
das com reprovação. Aí fica fácil, já que 6,0 significa aprovação ela entra na classe de 6,0 a 10,0.
Se o aluno tiver uma nota 5,9999 (como exemplo) ela entraria na classe de 0,0 até 6,0.
Embora isto seja uma distribuição correta de classes, em estatística usamos normalmente
classes do mesmo tamanho (mesma amplitude) e vamos definir alguns critérios para construir
estas classes.
a) Tamanho da amostra: n = número total de valores presentes na amostra;
b) Quantidade de classes: k = √ n (existem outras formas de calcular este valor);
c) Amplitude total: R = maior valor – o menor valor;
Versão: 29 de setembro de 2022 – pag. 20

R
d) Amplitude de cada classe: h =
k
e) Quantidade mínima de classes = 5 e máxima = 10.
f) Todos os valores têm que ser contados, e nenhum pode ser contado duas vezes;
g) Ponto médio: é a média do limite superior com o limite inferior de cada classe.
Existem várias formas de definir a quantidade de classes, o critério usado nas planilhas e
aplicativos normalmente é a fórmula de Sturges (não veremos aqui, mas o resultado é bem
próximo do nosso critério). As classes têm que ter uma definição mais precisa quando elas são
utilizadas para fazer outros cálculos em estatística, como era comum antes dos computadores,
quando o uso de classes simplificava o cálculo, mas introduzia um erro que era menor que o erro
cometido com o calculo manual. Usaremos a definição de k proposta para fins de aprendizagem
no nosso curso, e quando as amostras são pequenas a quantidade definida por qualquer método é
igual. Não usaremos as classes para outros cálculos (média, mediana, desvio padrão etc). O ponto
médio pode ser calculado mas não será usado no nosso curso.
A quantidade mínima de classe é 5 porque menos que isto introduz um erro maior nos
cálculos, e o número máximo será 10, porque mais que isto não ajuda na descrição dos dados.
Estes limites não são rígidos, e podem ser mudados dependendo do objetivo da análise.

6.1.1 Exemplo de distribuição frequências por classes:

Na tabela 11 temos as notas dos alunos de uma turma de estatística. Construir a


distribuição de frequência por classes.
Tabela 11: Notas dos alunos
3,0 7,0 7,7 2,0 7,0 9,7 2,5 2,5 9,7 4,5 7,0 8,3 4,0 7,0 7,7 4,0 7,0 7,7 1,0 9,0 6,7
5,0 8,0 5,5 4,0 6,7 3,0 9,0 6,8 4,0 7,5 10,0 5,0 10,0 9,3 3,5 10,0 7,5 4,5 10,0 8,3 5,0
O primeiro passo é contar quantas notas têm:
n = 42
Definir a quantidade de classes:
k= √ 42 = 6,48 (arredondar para 6 classes, tem que ser inteiro)
Definir a amplitude total:
R = maior nota – menor nota: 10,0 – 1,0 = 9,0
Definir a amplitude de cada classe:
9
h= = 1,5 (Pode ser arredondado)
6
Definir o valor do limite inferior da primeira classe:
Versão: 29 de setembro de 2022 – pag. 21

Embora a menor nota seja 1,0, podemos usar qualquer valor menor ou igual a este, desde
que ajude a análise. Vamos usar o 1,0 mesmo.
Vamos construir as classes, lembrando que o limite superior de uma classe é igual ao
limite inferior da próxima, e temos que definir se um valor que seja igual a este limite pertence a
classe inferior ou superior (não pode pertencer as duas). Esta definição vale para todas as classes.
Cada classe tem somente um dos limites fechado (pertence a classe), o outro tem que ser aberto
(não pertence a classe). Se o limite inferior de uma classe é fechado, os limites inferiores de todas
as outras classes têm que ser também. Como escolhemos começar a primeira classe com 1,0 ela
tem que ser fechada na parte inferior, para que as notas 1,0 da tabela 11 não fiquem de fora.
Tabela 12: Distribuição de frequência por classes
Classe F Fac f fac F(%) Médio Observações
1,0 ≤ x < 2,5 2 2 0,05 0,05 5% 1,75 As notas 2,5 não são contadas nesta classe, mas na seguinte
2,5 ≤ x < 4,0 5 7 0,12 0,17 12% 3,25 As notas 4,0 não são contadas nesta classe, mas na seguinte
4,0 ≤ x < 5,5 9 16 0,21 0,38 21% 4,75 As notas 5,5 não são contadas nesta classe, mas na seguinte
5,5 ≤ x < 7,0 4 20 0,10 0,48 10% 6,25 As notas 7,0 não são contadas nesta classe, mas na seguinte
7,0 ≤ x < 8,5 13 33 0,31 0,79 31% 7,75 As notas 8,5 não são contadas nesta classe, mas na seguinte
8,5 ≤ x < 10,0 5 38 0,12 0,91 12% 9,25 As notas 10,0 não são contadas nesta classe, mas na seguinte
10,0 ≤ x < 11,5 4 42 0,10 1,01 10% 10,75 Classe criada para conter a nota 10,0
n= 42 1,01 101% A soma das frequências absolutas (F) tem que ser igual a n
O limite superior de cada classe é definido somando a amplitude de classe (1,5) ao limite
inferior. Como a última classe tem o limite superior aberto (a nota 10,0 não pertence a esta
classe), temos que criar outra classe (a sétima) para incluir estes valores. Não é necessário que o
limite inferior ou superior de cada classe seja igual a uma nota da tabela 11.

6.2 Histograma

As distribuições de frequência foram usadas para facilitar o calculo de algumas


estatísticas antes do computador. É uma ferramenta importante para a análise estatística, usando
suas frequências (absoluta, relativa, acumulada etc).
Outro uso importante das distribuições de frequência por classes é o gráfico feito a partir
dela, o histograma. Histograma é o nome de qualquer gráfico que tenha frequências no eixo y.
O gráfico 7 é o histograma feito a partir da distribuição da tabela 12. É um gráfico de
coluna com as colunas sem espaço entre elas, assim como as classes não têm espaço entre elas.
O eixo x é definido pelos limites das classes, e o eixo y pelas frequências absolutas. Cada
coluna, que representa uma classe, tem a altura da frequência absoluta daquela classe, e as
larguras de todas as colunas são iguais a amplitude de classe (1,5).
Versão: 29 de setembro de 2022 – pag. 22

Gráfico 7: Histograma

6.3 Polígono de frequências absolutas e acumuladas

O polígono de frequências é feito unindo com uma reta os pontos médios superiores do
histograma. São criadas duas classes com frequência nula no começo e fim do gráfico (Gráfico
8). Quando é feito o gráfico de linha das frequências absolutas acumuladas é conhecido como
gráfico de ogiva (Gráfico 9), pela suposta semelhança com a trajetória de uma bala de canhão.

Gráfico 8: Polígono de frequência Gráfico 9: Ogiva


Histograma e Poligono de frequência Gráfico da frequência acumulada (ogiva)
15

40
30
10
Frequências

Fac

20
5

10
0
0

1.0 2.5 4.0 5.5 7.0 8.5 10.0 11.5


−0.5 1.0 2.5 4.0 5.5 7.0 8.5 10.0 13.0
Classes
Classes
Versão: 29 de setembro de 2022 – pag. 23

6.3.1 Exercício: Distribuição de frequência por classes e histograma

Utilizando a amostra das notas, faça a distribuição de frequência por classe e histograma.
A distribuição por classes tem que ter no mínimo 25 valores. Mas quem não tem os 25, e
como isto é um exercício, faça a distribuição mesmo assim.
O histograma pode ser feito a mão, mantendo as proporções das barras (barra com maior
frequência tem que ser maior que a de menor frequência). Nas planilhas não existe histograma,
mas ele pode ser feito a partir do gráfico de barras para quem tem conhecimento de como ajustar
os parâmetros do gráfico. Os aplicativos de estatística tem o histograma, pode ser usado para
quem tem acesso (existem gratuitos).
Versão: 29 de setembro de 2022 – pag. 24

7 MEDIDAS DE TENDÊNCIA CENTRAL

Na história da estatística o primeiro passo quando se tinha um grande número de dados


foi tentar resumir estes dados de uma forma que fosse mais fácil interpretar. Uma destas medidas
que ajuda a resumir foi localizar o ponto central de uma série de dados, o que fica no meio. Com
o avanço da estatística a localização deste ponto foi melhorada, e hoje temos três grupos de
medidas: a média, a mediana e a moda.

7.1 Média:

Podemos calcular vários tipos de médias: aritmética, geométrica, harmônica, ponderada


etc. Destas, a aritmética é a mais importante e a ponderada uma variação dela. Ela define o ponto
central de uma série de dados, o ponto que “equilibraria” os dados.
Média aritmética: é a soma de todos os elementos numéricos de uma amostra dividido
pela quantidade de elementos. Quando é feita uma distribuição de probabilidade discreta pode ser
utilizado a frequência absoluta para o calculo. Equação (7.1).
n

∑ xi F i (7.1)
i=1
x=
n
– x : média aritmética;
– xi: os elementos da amostra;
– Fi: frequências absolutas de cada elemento;
– n: o número de elementos da amostra (tamanho da amostra).
A média aritmética simples é calculada sem o uso da frequência absoluta, com todos os
elementos da amostra e considerando que Fi = 1 para todos.
O uso da distribuição de frequência para o calculo da média é conveniente quando temos
muitos valores de uma variável discreta e não temos acesso a um aplicativo computacional para o
cálculo. Caso os dados possam ser colocados em uma planilha, calculadora com funções
estatísticas ou aplicativo de estatística, estes deve ser priorizados. A distribuição por classes não
deve ser utilizada para este cálculo, pois produz um erro, e seu uso só é discutido na bibliografia
por razões históricas.
Propriedades da média:
– A média de um só valor é o próprio valor;
Versão: 29 de setembro de 2022 – pag. 25

– Multiplicando ou dividindo cada valor de uma amostra por uma constante, a média fica
multiplicada por essa constante;
– Somando ou subtraindo cada valor de uma amostra por uma constante, a média fica
somada ou subtraída da mesma constante.
– A soma da subtração de cada valor da amostra pela média é nula: ∑ ( x−x)=0

7.2 Mediana:

É o elemento da amostra que a divide em duas partes iguais, depois de ordenada. As duas
partes devem ser iguais quanto à quantidade de elementos. Não tem equação. O elemento central
é localizado por inspeção. A mediana de uma amostra com n ímpar é o elemento central. Por
exemplo em uma amostra com 5 elementos ordenados o terceiro está no meio (tem dois antes e
dois depois).
Em uma amostra com n par usaremos como mediana a média dos elementos centrais. Por
exemplo um amostra com 6 elementos não tem nenhum elemento exatamente no meio, por isto
usaremos a média dos elemento na terceira e quarta posição. O terceiro elemento tem dois antes
dele, e o quarto tem dois depois, portanto eles são os elementos centrais.

7.3 Moda:

É o elemento que em uma distribuição de frequência tem a maior frequência absoluta.


Pode ser:
– Uma moda ou modal;
– Amodal: todos os elementos têm a mesma frequência absoluta;
– Bimodal: dois elementos têm a maior frequência absoluta, normalmente indica que a
amostra é composta de duas amostras diferentes, ou que existe alguma anomalia na
pesquisa;
– Polimodal: vários elementos têm a maior frequência absoluta.
Versão: 29 de setembro de 2022 – pag. 26

7.3.1 Exemplo de medidas de tendência central:

Tabela 13: Medidas de tendência central


Amostra Distribuição de frequência Verif.
Notas x x ord. x F xF Fac (x-5,952)
1 3,0 1,0 1,0 1 1,0 1 -4,950
2 7,0 2,0 2,0 1 2,0 2 -3,952
3 7,7 2,5 2,5 2 5,0 4 -3,452
4 2,0 2,5 3,0 1 3,0 5 -3,452
5 7,0 3,0 4,0 2 8,0 7 -2,952
6 9,7 4,0 4,5 1 4,5 8 -1,952
7 2,5 4,0 6,7 1 6,7 9 -1,952
8 2,5 4,5 7,0 5 35,0 14 med. -1,452
9 9,7 6,7 7,7 3 23,1 17 0,748
10 4,5 7,0 8,3 1 8,3 18 1,048
11 7,0 7,0 med. 9,0 1 9,0 19 1,048
12 8,3 7,0 9,7 2 19,4 21 1,048
13 4,0 7,0 1,048
14 7,0 7,0 1,048
15 7,7 7,7 1,748
16 4,0 7,7 1,748
17 7,0 7,7 1,748
18 7,7 8,3 2,348
19 1,0 9,0 3,048
20 9,0 9,7 3,748
21 6,7 9,7 3,748
Soma 125 125 ------- 21 125 0,008
– x: notas
– x ord.: notas ordenadas
– F: frequência absoluta
– Tamanho da amostra: n = ΣF = 21
– Soma das notas: Σx = 125 (pode ser ordenado ou não, a soma é mesma)
A média pode ser calculado tanto por:
n

x =
∑x =
125
= 5,952 ou:
∑ x i F i = 125 = 5,952
n 21 x=
i=1 21
n
Versão: 29 de setembro de 2022 – pag. 27

A média calculada é (5,952). Foi feita uma verificação do valor da média na tabela 13. O
valor da soma das diferenças se o cálculo da média estiver correto deveria ser nulo, o valor
encontrado (0,008) é devido aos erros de arredondamento da média.
Mediana: Para definir o valor da mediana precisamos localizar o valor que está no meio
da lista ordenada. Como temos 21 notas, o valor que está na posição 11ª, está no meio, tem 10
valores antes e 10 depois. Na amostra ordenada o valor que está nesta posição é a nota 7,0. Pode
ser utilizada a frequência absoluta acumulada (Fac) para localizar a mediana, com o mesmo
resultado.
Moda: É valor que com a maior frequência absoluta: 7,0 (F = 5).
Os valores da média e mediana normalmente são próximos. A notas da tabela 13 foram
retirados das provas feitas por alunos de estatísticas desta universidade. A diferença da média
(5,952) para a mediana (7,0) é porque esta amostra não é simétrica, conceito que veremos depois.

7.3.2 Quando usar a média, mediana ou moda?

– Para amostras pequenas (menores que 30 valores) a moda não dever ser utilizada;
– A média é afetada por valores extremos, quando existem valores que são bem maiores
ou bem menores que os outros valores da amostra, deve-se usar a mediana;
– Quando os valores estão concentrados no meio da amostra a média é igual à mediana, e
deve-se usar a média, por ser mais conhecida;
– Quando os valores estão concentrados na parte inferior da amostra, ou na parte superior,
deve-se usar a mediana;
– Quando a média, a mediana e a moda são diferentes, a mediana está sempre entre a
média e a moda;
– A mediana pode ser usada em variáveis quantitativas ou qualitativas (nominais). Na
tabela 8 (variável qualitativa ordinal) a mediana está na 8ª posição (n = 15), e a mediana
é pouco;
– A moda deve ser usada em variáveis qualitativas (nominais). Na tabela 8 temos um
exemplo: a resposta pouco tem a maior frequência (6) e é a moda.

7.3.3 Exercício: Medidas de tendência central

Utilizando a amostra das notas, calcule a média aritmética, a mediana e a moda.


Versão: 29 de setembro de 2022 – pag. 28

8 MEDIDAS DE DISPERSÃO

Além da medida de tendência central é necessário um índice da dispersão dos dados em


torno do centro da distribuição. Precisamos de uma medida da variabilidade ou espalhamento.
A dispersão mede quanto os valores estão agrupados ou distantes do ponto central.
Existem várias medidas: a amplitude total, a amplitude interquartil, o desvio médio, variância,
desvio padrão etc. A amplitude total (R) já foi vista para a determinação da distribuição de
frequências por classe e é pouco utilizado para medida de dispersão porque só usa dois valores e
são os valores extremos, que em uma pesquisa são os valores mais problemáticos, muitas vezes
são erros de medida.
As medidas de dispersão são importantes para caracterizar nossas amostras, e muito do
que vamos ver no nosso curso depende delas, particularmente quando trabalhamos com amostras
retiradas da mesma população, porque cada amostra terá uma medida de tendência central
diferente, mas a mesma medida de dispersão. O conceito de população (objeto da análise
estatística) e amostra (conjunto de dados retirados da população) fica cada vez mais importante.
A amplitude interquartilica será vista depois da definição de quartil.

8.1 Desvio médio:

A amplitude total usa só dois valores da amostra, a amplitude interquartil também, e se


quisermos calcular a dispersão usando todos os elementos da amostra podemos usar o desvio
médio.
Em estatística desvio é a diferença entre dois valores, e o desvio médio será a média das
diferenças de todos os valores da amostra em relação a média aritmética (fórmula 8.1). Sendo
|x − x| o valor absoluto (sem sinal) da diferença.

DM =
∑ |x−x| (8.1)
n
Versão: 29 de setembro de 2022 – pag. 29

8.1.1 Exemplo:

Tabela 14: Notas dos alunos


Amostra Distribuição de frequência
Notas x x |x – x| x |x – x| F |x – x| F
1 3,0 5,95 2,95 1,0 4,95 1 4,95
2 7,0 5,95 1,05 2,0 3,95 1 3,95
3 7,7 5,95 1,75 2,5 3,45 2 6,90
4 2,0 5,95 3,95 3,0 2,95 1 2,95
5 7,0 5,95 1,05 4,0 1,95 2 3,90
6 9,7 5,95 3,75 4,5 1,45 1 1,45
7 2,5 5,95 3,45 6,7 0,75 1 0,75
8 2,5 5,95 3,45 7,0 1,05 5 5,25
9 9,7 5,95 3,75 7,7 1,75 3 5,25
10 4,5 5,95 1,45 8,3 2,35 1 2,35
11 7,0 5,95 1,05 9,0 3,05 1 3,05
12 8,3 5,95 2,35 9,7 3,75 2 7,50
13 4,0 5,95 1,95
14 7,0 5,95 1,05
15 7,7 5,95 1,75
16 4,0 5,95 1,95
17 7,0 5,95 1,05
18 7,7 5,95 1,75
19 1,0 5,95 4,95
20 9,0 5,95 3,05
21 6,7 5,95 0,75
Soma 125 48,25 21 48,25
O cálculo da primeira linha é |3,0 – 5,95| = 2,95 (sem sinal). As outras linhas são
calculadas de forma semelhante. A amostra tem 21 valores (n=21), a média (x) com duas casas
decimais é 5,95. O uso de, pelo menos, duas casas decimais é necessário para este cálculo. O
cálculo pode ser feito também utilizando a distribuição de frequência discreta, com mostrado na
tabela, a soma das diferenças multiplicadas pela frequência é a mesma.
48,25
O desvio médio é: DM = = 2,30
21

8.1.2 Exercícios: Desvio médio

Utilizando sua amostra das notas, calcule a média com duas casas decimais e o desvio
médio. Utilize o método deste capítulo, inclusive com a tabela de cálculos.

8.2 Variância

É a medida de dispersão mais utilizada, sendo a soma das diferenças dos valores em
relação a média elevado ao quadrado. Isto elimina o problema dos sinais negativos.
Versão: 29 de setembro de 2022 – pag. 30

O símbolo utilizado é a letra grega sigma minúscula elevada ao quadrado, N é o tamanho


da população. Esta variância (fórmula 8.2) é conhecida como variância populacional, por ser
dividida pelo tamanho da população em análise. Como a população, para fins de análise
estatística, raramente é conhecida, esta definição é pouco utilizada. A definição mais utilizada é
da variância amostral (fórmula 8.3):

σ = 2 ∑ (x − x )2
(8.2)
N

2
2
s =
∑( x− x) (8.3)
n − 1
A divisão agora é por n−1, sendo n o tamanho da amostra.

8.3 Desvio padrão:

Para o cálculo em estatística fica mais fácil o uso do desvio padrão, que é a raiz quadrada
da variância (fórmula 8.4). A variância tem a definição acima, e o desvio padrão é derivado dela.
Uma das vantagens do uso do desvio padrão é que ele tem a mesma unidade dos valores da
amostra, e a variância tem a unidade da amostra ao quadrado. Por exemplo: uma amostra do peso
dos alunos tem como unidade de medida o quilograma, mas a variância teria como unidade
quilograma ao quadrado, o que não tem sentido. O desvio padrão tem como unidade o
quilograma, assim como a amostra. No nosso curso só usaremos o desvio padrão amostral, que é
a raiz quadrada da variância amostral. O símbolo utilizado será s.

s = √ s2 (8.4)

8.4 Coeficiente de variação

É uma medida do grau de dispersão em torno da média. Como é adimensional pode ser
usado para comparar amostras diferentes. O coeficiente de variação é expresso em porcentagem e
é calculado pela fórmula 8.5:
s
CV = ×100 (8.5)

Sendo s o desvio padrão amostral e x̄ a média aritmética. Pode ser considerado que:
– Baixa dispersão: CV ≤ 15%
– Média dispersão: 15% < CV < 30%
– Alta dispersão: CV ≥ 30%
Versão: 29 de setembro de 2022 – pag. 31

8.4.1 Exemplo:

Usaremos as mesmas notas da tabela 14, com a média já calculada (5,95)


Tabela 15: Notas dos alunos
Amostra Distribuição de frequência
Notas x x– x (x – x )² x (x – x )² F (x – x )² F
1 3,0 -2,95 8,70 1,0 24,50 1 24,50
2 7,0 1,05 1,10 2,0 15,60 1 15,60
3 7,7 1,75 3,06 2,5 11,90 2 23,8
4 2,0 -3,95 15,60 3,0 8,70 1 8,70
5 7,0 1,05 1,10 4,0 3,80 2 7,60
6 9,7 3,75 14,06 4,5 2,10 1 2,10
7 2,5 -3,45 11,90 6,7 0,56 1 0,56
8 2,5 -3,45 11,90 7,0 1,10 5 5,50
9 9,7 3,75 14,06 7,7 3,06 3 9,18
10 4,5 -1,45 2,10 8,3 5,52 1 5,52
11 7,0 1,05 1,10 9,0 9,30 1 9,30
12 8,3 2,35 5,52 9,7 14,06 2 28,12
13 4,0 -1,95 3,80
14 7,0 1,05 1,10
15 7,7 1,75 3,06
16 4,0 -1,95 3,80
17 7,0 1,05 1,10
18 7,7 1,75 3,06
19 1,0 -4,95 24,50
20 9,0 3,05 9,30
21 6,7 0,75 0,56
Soma (Σ) 125 140,48 21 140,48
O cálculo da primeira linha é: (3,0 – 5,95 = - 2,95) e (- 2,95)² = 8,70. As outras linhas são
calculadas de forma semelhante. Os valores da amostra (notas) não precisam estar ordenados,
mas se estiverem o resultado é o mesmo. A amostra tem 21 valores (n = 21), e a média ( x ) com
duas casas decimais é 5,95. O uso de, pelo menos, duas casas decimais é necessário para este
cálculo. Pode ser utilizada a distribuição de frequência discreta com o mesmo resultado.
2 140,48
– Variância amostral (fórmula 8.3): s = =7,02
20
– Desvio padrão amostral (fórmula 8.4): s = √ 7,02=2,65
2,65
– Coeficiente de variação (fórmula 8.5): CV = ×100=44,5 % (alta dispersão)
5,95

8.4.2 Exercício: variância e desvio padrão

Utilizando a amostra das notas, calcule a variância amostral, desvio padrão amostral e
coeficiente de variação. Utilize a tabela de cálculos como no exemplo da tabela 15. Todos os
cálculos devem ser feitos com duas casas decimais.
Versão: 29 de setembro de 2022 – pag. 32

9 MEDIDAS SEPARATRIZES

São valores de uma amostra que dividem a sequência ordenada dos dados em partes que
contêm uma determinada quantidade de elementos. Já foi vista a mediana, que divide a sequência
ordenada em dois grupos, cada um deles contendo 50% dos valores da sequência.
Além da mediana existem outras medidas separatrizes: quartis, decis, percentis e quintis
etc. Veremos somente os quartis e percentis, por serem os mais usados.

9.1 Quartis

Se dividirmos a série ordenada em quatro partes, cada uma ficará com 25% de seus
elementos. Os elementos que separam estes grupos são chamados de quartis.
Assim, o primeiro quartil (Q1), separa a sequência ordenada deixando 25% de seus
valores à esquerda (abaixo) e 75% de seus valores à direita (acima). O segundo quartil, que
indicaremos por Q2, separa a sequência ordenada deixando 50% de seus valores à esquerda

(abaixo) e 50% de seus valores à direita (acima). O Q2 é a mediana da série. O terceiro quartil Q3

obedece à mesma regra dos anteriores, e o Q4 é o maior valor da amostra. Os quartis são
elementos que pertencem a amostra, e em amostras pequenas a divisão não é exata, porque cada
quartil tem que ter um número inteiro de elementos. Ver o gráfico 10.
Gráfico 10: Quartis

25% 75%

Q1

50% 50%

Q2
25% 75%

Q3
Versão: 29 de setembro de 2022 – pag. 33

Existem várias maneiras de definir o quartil, usaremos as equações 9.1 e 9.2) para definir
a posição do Q1 e o Q3. Q2 é a mediana e é definida de outra maneira, e o Q4 é o maior valor da
amostra. Após definida a posição localizamos na amostra ordenada o elemento que está naquela
posição e este é o quartil. Não confundir a posição do quartil com o quartil, que é um valor da
amostra. Os resultados das posições devem ser arredondados para o inteiro mais próximo.
1n
PQ1 = (9.1)
4
n = tamanho da amostra;
PQ1 = posição do Q1 na amostra ordenada.

3n
PQ3 = (9.2)
4
n = tamanho da amostra;
PQ3 = posição do Q3 na amostra ordenada.

9.1.1 Boxplot

Os quartis podem ser representados pelo gráfico boxplot, ou gráfico de caixa. O gráfico
11 apresenta o boxplot da tabela 16, com os quartis, a mediana e os valores máximos e mínimos
da amostra. O quadrado central representa 50% dos valores da amostra, e sua posição em relação
aos valores máximo, mínimo e mediana mostra se existe uma concentração de valores na parte
superior, inferior ou no meio da amostra ordenada.
Gráfico 11: Boxplot da tabela 16
10

max
8

Q3
mediana
6

Q1
4
2

min
Versão: 29 de setembro de 2022 – pag. 34

9.2 Percentis

Divide uma amostra em porcentagens dos elementos. Existem 100 percentis, mas os mais
utilizados são o décimo (P10) e o nonagésimo (P90). O P50 é a mediana, o P25 é o Q1 e o P75 é o

Q3.

O P10 é o valor da amostra que tem 10% da quantidade de elementos da amostra

ordenada abaixo dele. O P90 é o valor da amostra que tem 10% da quantidade de elementos da
amostra ordenada acima dele. O conceito é o mesmo que para os quartis, e a fórmula que pode
ser usada para definir a posição dos percentis é a equação 9.3. Os resultados das posições devem
ser arredondados para o inteiro mais próximo.
in
PP i = (9.3)
100
n = tamanho da amostra;
PPi = posição do Pi na amostra ordenada.

i = percentil a ser definido (inteiro de 1 a 100)


10 n
Para localizar a posição do P10 seria: PP 10 =
100

9.2.1 Exemplo:

Usaremos as notas da tabela 16:


Tabela 16: Notas dos alunos
Notas x x ord. Q P
1 3,0 1,0
2 7,0 2,0 P10
3 7,7 2,5
4 2,0 2,5
5 7,0 3,0 Q1
6 9,7 4,0
7 2,5 4,0
8 2,5 4,5
9 9,7 6,7
10 4,5 7,0
11 7,0 7,0
12 8,3 7,0
13 4,0 7,0
14 7,0 7,0
15 7,7 7,7
16 4,0 7,7 Q3
17 7,0 7,7
18 7,7 8,3
19 1,0 9,0 P90
20 9,0 9,7
Versão: 29 de setembro de 2022 – pag. 35

21 6,7 9,7
Para definir a posição do Q1 (n = 21 (tamanho da amostra):
1 ×21
PQ1 = = 5,25; arredondamos para 5 (5º elemento).
4
Para definir a posição do Q3:
3 × 21
PQ1 = = 15,75; arredondamos para 16 (16º elemento).
4
Portanto Q1 = 3,0 e Q3 = 7,7.

Significa que 25% dos alunos tem nota menor que 3,0 e 75% tem nota menor que 7,7.
Para definir a posição do P10:
10×21
PP 10 = = 2,1; arredondamos para 2 (2º elemento).
100
Para definir a posição do P90:
90×21
PP 10 = = 18,9; arredondamos para 19 (19º elemento).
100
Portanto P10 = 2,0 (coincidência com o 2º elemento) e P90 = 9,0 (também coincidência).

Significa que 10% dos alunos tem nota menor que 2,0 e 90% tem nota menor que 9,0.
Obs.: Existem pelo menos 7 maneiras que eu conheço de calcular estes valores, podem
existir outras, no nosso curso usaremos esta. Caso o aluno procure outras referências para estudar
use a forma proposta nesta apostila para resolver a lista de exercícios.

9.2.2 Exercício: quartil e percentil

Utilizando a amostra das notas, determine o primeiro quartil, o terceiro quartil, o décimo
percentil e o nonagésimo percentil.
Utilize o método de calculo da apostila de teoria, mostrando a tabela (como na apostila de
teoria) com os valores utilizados, os valores ordenados, as posições na lista de valores ordenados
das medidas separatrizes e os valores das medidas separatrizes. Não confundir a posição com o
valor da medida separatriz.
Versão: 29 de setembro de 2022 – pag. 36

10 ASSIMETRIA

A última das estatísticas descritivas que será vista é a assimetria. Este conceito é fácil de
observar mas difícil de definir.
A assimetria é mais fácil de observar usando os histogramas ou boxplot, e é definida
como assimetria nula, assimetria positiva e assimetria negativa. Vamos usar um exemplo para
definir os conceitos.
A definição da assimetria tem importância na etapa seguinte do nosso curso, porque para
utilizar os métodos de inferência que serão vistos a amostra tem que ser aproximadamente
simétrica.
Outro uso é na interpretação de algumas pesquisas, por exemplo a distribuição salarial da
população, que tem assimetria positiva. Isto significa que a maior parte da população tem salário
baixo e poucos tem altos salários.

10.1 Métodos de definição e cálculo da assimetria

a) Pela observação do histograma ou boxplot;


b) Comparando o valor da média com a mediana. Não usaremos a comparação com a moda
porque, quando a amostra é pequena, o valor não é muito preciso, ou podem existir
várias modas;
c) Cálculo do coeficiente de assimetria usando quartis, equação 10.1:
(Q3 − Q 2 ) − (Q 2 − Q 1)
As = (10.1)
(Q 3 − Q1)
d) Cálculo do segundo coeficiente de Pearson, equação 10.2:
3 (x −mediana)
As = (10.2)
s
e) Coeficiente de assimetria usando momentos. Este é o calculo mais preciso, mas não será
utilizado por ser trabalhoso e é utilizado em planilhas e aplicativos de estatística, mas foi
calculado para o nosso exemplo e os resultados estão nas tabelas.
Existem outras formas de calculo de assimetria, mas não serão vistos. O importante é
saber se a assimetria é nula positiva ou negativa, mas o valor exato da assimetria não precisa ser
utilizado. Os valores dos coeficientes de assimetria para uma mesma amostra tem valores
numéricos diferentes, mas a interpretação é a mesma.
Versão: 29 de setembro de 2022 – pag. 37

10.2 Assimetria nula

O exemplo utilizado foi retirado de uma pesquisa feita em sala de aula com os alunos de
estatística de vários curso, anos e instituições diferentes. Foram utilizadas 1031 respostas sobre a
altura dos alunos, e foi feito o histograma (Gráfico 12) da distribuição de probabilidade contínua.
Quando a assimetria é nula os coeficientes são nulos e a média é igual à mediana. A tabela
17 tem os resultados para a amostra das alturas dos alunos.
Tabela 17: Altura dos alunos
Coeficientes de assimetria (As) Estatísticas
n Quartis Pearson Momentos Desvio padrão Média Mediana Moda
1031 0,00 0,11 0,08 8,93 172,34 172 170

Gráfico 12: Histograma das alturas

Podemos observar que se traçarmos uma linha vertical no meio do histograma os lados à
direita e à esquerda desta linha tem o mesmo formato aproximado. Este é um exemplo retirado de
uma pesquisa real, portanto os valores não são exatos. A linha contínua que foi traçada sobre o
histograma é uma previsão de como ficaria o histograma se tivéssemos infinitos valores. Por esta
linha a assimetria nula é mais fácil de observar.
A média (172,34) é próxima da mediana (172), mas a moda (170) é diferente, mas não
deve ser utilizada em amostras pequenas.
Versão: 29 de setembro de 2022 – pag. 38

O coeficiente de assimetrias dos quartis (0,00) indica uma assimetria nula, mas o segundo
coeficiente de Pearson (0,11), bem como o coeficiente dos momentos (0,08) indicam uma leve
assimetria positiva (são valores positivos). Quando a assimetria é nula a média é igual à mediana,
mas no nosso caso é um pouco maior que a mediana indicando uma assimetria positiva.
O coeficiente dos quartis é o mais fácil de ser utilizado, mas para amostras pequenas pode
ter resultados incorretos, por utilizar somente quatro valores da amostra.
Neste nosso exemplo a amostra tem uma leve assimetria positiva, mas para efeito de
análise pode ser considerada como assimetria nula (simétrica), o que significa que não existe uma
concentração de pessoas com altura maior nem com altura menor.
Esta amostra poderia ser utilizada para fazer as inferências estatísticas que veremos mais
adiante no nosso curso.

10.3 Assimetria positiva

O exemplo utilizado foi retirado de uma pesquisa feita em sala de aula com os alunos de
estatística de vários curso, anos e instituições diferentes. Foram utilizadas 1031 respostas sobre a
idade dos alunos, e foi feito o histograma (Gráfico 13) da distribuição de probabilidade contínua.
Quando a assimetria é positiva os coeficientes são positivos e a média é maior que a
mediana. A tabela 18 tem os resultados para a amostra das idades dos alunos.
Tabela 18: Idades dos alunos
Coeficientes de assimetria (As) Estatísticas
n Quartis Pearson Momentos Desvio padrão Média Mediana Moda
1031 0,20 0,84 2,41 6,44 23,80 22 19 e 20
Versão: 29 de setembro de 2022 – pag. 39

Gráfico 13: Histograma das idades

A observação do Gráfico 13 mostra uma maior concentração de idades na parte inferior,


com menor idade, e o gráfico “estica” para cima, para as idades maiores, indicando uma
assimetria positiva (a direção para a qual o histograma estica indica a assimetria da amostra).
Quando a assimetria é positiva a média é maior que a mediana. Neste caso a média
(23,80) é maior que a mediana (22) indicando assimetria positiva.
Os três coeficientes são positivos, indicando também uma assimetria positiva. Podemos
concluir que a amostra tem assimetria positiva, com maior quantidade de idades menores.

10.4 Assimetria negativa

O exemplo foi elaborado com uma amostra das notas dos alunos de estatística de vários
cursos diferentes, em semestres diferentes da matéria de estatística. Foram 233 notas
consideradas e foi feito o histograma (Gráfico 14) da distribuição de probabilidade contínua.
Quando a assimetria é negativa os coeficientes são negativos e a média é menor que a
mediana. A tabela 19 tem os resultados para a amostra das notas dos alunos.
Tabela 19: Notas dos alunos
Coeficientes de assimetria (As) Estatísticas
n Quartis Pearson Momentos Desvio padrão Média Mediana Moda
233 0,00 -1,00 -2,00 2,40 8,20 9,00 10,00
Versão: 29 de setembro de 2022 – pag. 40

Gráfico 14: Histograma da notas

A observação do Gráfico 14 mostra uma maior concentração de notas na parte superior,


com maior nota e o gráfico “estica” para baixo, para as notas menores, indicando uma assimetria
negativa.
Quando a assimetria é negativa a média é menor que a mediana. Neste caso a média
(8,20) é menor que a mediana (9,20) indicando assimetria negativa.
O coeficiente dos quartis é nulo, indicando uma assimetria nula. Os outros dois
coeficientes são negativos, indicando uma assimetria negativa. Este é um caso em que o
coeficiente dos quartis não é confiável, porque a observação do histograma indica claramente
uma assimetria negativa, com maior concentração de notas na parte superior (notas altas).

10.5 Conclusão

O coeficiente dos quartis é pouco confiável, podendo ser utilizado em amostras grandes.
O coeficiente dos momentos é o mais confiável, mas o cálculo é trabalhoso sem planilhas ou
aplicativos estatísticos. A comparação da média e da mediana, junto com a observação do
histograma é o mais confiável para o nosso caso. O segundo coeficiente de Pearson é uma
Versão: 29 de setembro de 2022 – pag. 41

comparação da média e mediana adimensional, e pode ser utilizado para comparar a assimetria
de amostras de variáveis diferentes, como idade e peso.

10.5.1 Exemplo

Os coeficientes de assimetria e as estatísticas (calculadas antes) para a tabela 16 estão na


tabela 20:
Tabela 20: Coeficientes e estatísticas da tabela 16
Coeficientes de assimetria (As) Estatísticas
n Quartis Pearson Momentos s Média Q1 Q2 Q3
21 -0,70 -1,19 -0,39 2,65 5,95 3,0 7,0 7,7
(7,7 − 7) − (7 − 3)
Coeficiente de assimetria usando quartis: As = =−0,70
(7,7 − 3,0)
3 (5,95−7,0)
Segundo coeficiente de Pearson: As = =−1,19
2,65
Os coeficientes de assimetria indicam uma assimetria negativa, com maior concentração
de valores mais altos, o que pode ser visto no histograma (Gráfico 15) da distribuição de
frequência que “estica” para baixo, para os valores menores. O boxplot do Gráfico 11 mostra
também esta assimetria.
Gráfico 15: Histograma das notas
Histograma − Exemplo
8
6
Frequência

4
2
0

0 2 4 6 8 10

Notas

10.5.2 Exercício: assimetria

Utilizando a amostra das notas, analise a assimetria.


Os quartis, média, mediana, desvio padrão e histograma necessários para esta análise já
foram calculados nos exemplos anteriores. Mostre a tabela com os valores utilizados.
Versão: 29 de setembro de 2022 – pag. 42

Faça a análise do histograma, compare a média com a mediana, calcule os coeficientes de


assimetria dos quartis e o segundo coeficiente de Pearson e faça a conclusão.
Versão: 29 de setembro de 2022 – pag. 43

11 CURTOSE

Curtose é o grau de achatamento do gráfico da distribuição da amostra (pouco utilizada).


Existem três tipos:
– Mesocúrtica: definida como a curva normal em probabilidade, é o padrão;
– Leptocúrtica: mais delgada que a mesocúrtica;
– Platicúrtica: mais achatada que a mesocúrtica.
Os gráficos destas três curvas só podem ser comparados se estiverem na mesma escala,
como no gráfico 16.
Gráfico 16: Curtose

A curtose só é definida para distribuições simétricas e pode ser medida por:


Q3 −Q 1
K= (11.1)
2 (P90 − P10)
– Mesocúrtica: K = 0,263;
– Leptocúrtica: K < 0,263;
– Platicúrtica: K > 0,263.
7,7−3,0
Para a tabela 16 a curtose fica: K = =0,34 , portanto é platicúrtica.
2 (9,0 −2,0)
A curtose também pode ser medida pelos momentos, não veremos aqui.
Versão: 29 de setembro de 2022 – pag. 44

12 PROBABILIDADES

Vamos começar uma segunda etapa do curso de estatística, que é o estudo da inferência
estatística. Esta é a parte mais importante da estatística, onde ela contribui para análise de
pesquisas e produção de novos conhecimentos dentro da ciência. Inferência, no sentido amplo, é
quando prevemos alguma coisa utilizando as informações que temos.
Inferência estatística é quando, a partir de uma amostra que foi retirada de uma
população, prevemos ou inferimos qual seriam alguns parâmetros ou comportamento da
população. Existem dois conceitos importantes quando a estatística é utilizada para fazer
inferências:
– População: objeto de estudo, definido pelo pesquisador. No nosso caso sempre vamos
considerar que não se tem acesso à população, e tentaremos determinar seus parâmetros
utilizando uma amostra;
– Amostra: uma parte da população a que se tem acesso, e que é utilizada para fazer as
inferências, ou suposição sobre um valor de um parâmetro populacional.

12.1 Probabilidade

Para fazermos a inferência precisamos utilizar probabilidades, cuja teoria foi proposta no
séc. XIX, principalmente por Laplace, embora houvessem muitos outros. A teoria da
probabilidade usa o método dedutivo de análise, no qual a partir de um axioma ou vários axiomas
(pressuposto que não tem comprovação) são deduzidos todo os teoremas e regras.
O axioma fundamental da probabilidade afirma que a probabilidade de um evento ocorrer
é a razão entre o número de possibilidades favoráveis que interessam sobre total de
possibilidades.
Um exemplo clássico é a probabilidade de sair cara em um lançamento de moeda. O
número de possibilidade que interessam é 1 (cara), e o número total de possibilidades é 2 (cara
ou coroa). Portanto a probabilidade de sair cara em um lançamento de moeda é 1/2 = 0,5.
Usamos também em porcentagem, ou 50%. Isto é para o lançamento de uma moeda, se forem
lançadas duas ou mais moedas temos que usar algumas regras da probabilidade para chegar ao
resultado. Para um número grande de eventos ou populações de resultados possíveis muito
grandes pode ficar bem complexo o cálculo. Para resolver isto são usadas distribuições teóricas
de probabilidade, que têm uma formulação matemática que pressupomos que representa as
características da população. A probabilidade é sempre positiva e varia entre 0 e 1.
Versão: 29 de setembro de 2022 – pag. 45

12.2 Distribuições teóricas de probabilidade

A inferência é feita para o parâmetro de uma variável, como média, desvio padrão,
diferença de médias etc. Para que isto seja feito é necessário supor qual que é a distribuição de
probabilidade desta variável na população. Temos duas famílias de distribuições teóricas de
probabilidade: as distribuições discretas e as distribuições contínuas.
Existem muitas distribuições discretas, e a mais importante é a distribuição binomial, que
pode ser utilizada quando só temos dois resultados possíveis e uma caracterização que não
veremos neste curso, nem as outras. Esta é a distribuição que pode ser utilizada para calcular a
probabilidade de eventos em lançamentos de moedas. As distribuições discretas são de difícil
aplicação para amostras grandes, mas podem ser obtidos resultados aproximados usando as
distribuições contínuas, de mais fácil aplicação.
Outra família de distribuições são as contínuas, nas quais temos um intervalo contínuo de
eventos possíveis. A distribuição mais comum é a normal, e a normal padrão.

12.3 Distribuição normal

A distribuição normal, também é conhecida como curva de Gauss (que foi quem estudou
esta curva) ou curva de sino, é definida por uma fórmula (consulte as referências caso tenha
interesse), e tem como parâmetros a média e o desvio padrão. Para cada par de média e desvio
padrão temos uma curva normal. Para facilitar o uso foi definida a distribuição normal padrão
com média 0 e desvio padrão 1 (Gráfico 17). Algumas características importantes são:
– Área total entre a curva e o eixo x é 1;
– Simétrica em torno da média (0), com área igual a 0,5 para cada lado da média;
– O eixo x da curva é a variável normal padronizada z;
– z está definido entre - ∞ e + ∞;
Versão: 29 de setembro de 2022 – pag. 46

Gráfico 17: Curva normal padrão

A probabilidade de ocorrer um evento na distribuição normal é nula, e podemos somente


ter a probabilidade de um evento ocorrer em um intervalo, e esta probabilidade é definida como a
área deste intervalo sob a curva. Como exemplo a probabilidade de z ser 2 é nula, mas a
probabilidade de z estar entre 0 e 2 é a área sob a curva entre o ponto 0 e o ponto 2. Esta área
pode ser calculada pela fórmula da distribuição normal, mas a vantagem deste curva é que
existem tabelas com estas áreas, de fácil consulta.
A leitura da área da normal padrão é feita obrigatoriamente entre dois pontos, z 1 e z2, e
esta área é a probabilidade de que um número sorteado em uma população com distribuição
normal esteja entre estes dois pontos. Esta distribuição é a mais importante em análise estatística,
porque, embora seja uma distribuição teórica, a maioria dos eventos reais que ocorrem na
natureza tem distribuição aproximadamente normal, fato observado empiricamente e que
possibilitou este tipo de ferramente para obter resultados. Existem testes para a normalidade, mas
se o histograma de uma amostra puder ser colocado aproximadamente sob uma curva normal, se
a amostra for simétrica (se a média for igual à mediana) e tiver uma moda, pode ser suposto que
a população de onde a amostra foi retirada tem distribuição normal.
Uma amostra dificilmente vai ter média 0 e desvio padrão 1, mas a vantagem da curva
normal é que podemos converter os valores de uma amostra qualquer, com média x e desvio
Versão: 29 de setembro de 2022 – pag. 47

padrão s. Para a conversão utilizamos a conversão para a variável normal padrão, formula 12.1. x
é o valor que queremos converter para a variável padronizada z.
(x− x)
z= (12.1)
s
Na aula passada vimos o histograma das alturas de 1031 alunos dos cursos de estatística,
e podemos verificar que a curva é simétrica, e podemos assumir que esta amostra de alunos foi
retirada de uma população que tem distribuição normal de probabilidade.
A média da amostra é 1,72 e o desvio padrão 0,089. Queremos saber qual a probabilidade
de um aluno sorteado desta amostra ter entre 1,70 e 1,80 de altura. Para isto vamos usar a
distribuição de probabilidade normal padrão. Para ler a tabela da distribuição normal padrão
temos que converter para a variável padronizada z. Como temos dois pontos temos que fazer
duas conversões.
(1,70 −1,72) (1,80 − 1,72)
z1 = = - 0,22 z 2= = 0,90
0,0892 0,0892
Utilizando a tabela normal padrão (Anexo B e C), temos que ler duas áreas, que são as
probabilidades. A tabela utilizada fornece a área a esquerda do ponto z, portanto temos para z 1 a
área de 0,4129, e para z 2 a área de 0,8159. A área entre os dois pontos é a diferença das áreas, que
é 0,8159 – 0,4129 = 0,4030 (área é sempre positiva). Portanto a probabilidade de um aluno
sorteado desta amostra ter entre 1,70 e 1,80 de altura é 0,40 (arredondando), ou 40%. A área total
sob a curva é sempre 1. O gráfico 18 apresenta este resultado.

Gráfico 18: Área entre dois pontos


Versão: 29 de setembro de 2022 – pag. 48

12.4 Distribuição de Student (distribuição t)

Existe uma outra distribuição, derivada da normal, que é mais utilizada quando a amostra
é pequena (menos de 30 elementos), e que se aproxima da normal para amostras grandes, que é a
distribuição de Student (proposta por Gosset no início do séc. XX). Esta distribuição é mais
utilizada. Ela é derivada da normal, sendo mais precisa quando as amostras são menores que 30.
Ela é definida pelo grau de liberdade, que é definido para cada tipo de teste (Anexo A).
Assim como a normal a distribuição de Student fornece a área sob a curva entre dois
pontos, e é tabelada pelo grau de liberdade e a área desejada.
No gráfico 19 temos um exemplo da curva t, com a leitura do valor t que define uma área
de 0,025 entre o ponto t e infinito positivo e negativo, com soma 0,05. A curva foi traçada para
um grau de liberdade de valor 20. A área central (0,95) somada com as áreas externas é igual a 1,
sempre. O ponto 2,086 pode ser obtido da tabela t. O valor t da tabela só será utilizada quando o
grau de liberdade for menor que 30. A partir deste grau de liberdade usaremos o valor da tabela
normal, que em algumas tabelas t está na última linha, e não depende mais do grau de liberdade.
A curva de Student é assintótica, e por definição nunca encosta no eixo t, mas a partir de
t = 4 o valor da curva é bem próximo de zero. A curva do gráfico 19 foi traçada a partir da
equação, e é proporcional aos valores reais.
Gráfico 19: Curva de Student
Versão: 29 de setembro de 2022 – pag. 49

13 INFERÊNCIA ESTATÍSTICA: INTERVALOS DE CONFIANÇA

Inferência estatística é dividida em duas áreas: Estimação pontual e intervalar e testes de


hipóteses. A inferência é feita a partir de uma amostra, que foi retirada de uma população. A
partir desta amostra é feita uma inferência (suposição, previsão) sobre o valor de um parâmetro
populacional. A estimação intervalar é feito com intervalos de confiança, que pode ser para a
média populacional ou para proporção populacional. Existem outros, que não serão vistos.

13.1 Intervalo de confiança para a média

Intervalo de confiança (IC) é o intervalo que contém o parâmetro populacional com uma
determinada probabilidade de que esteja correto, esta probabilidade é conhecida como nível de
confiança (NC). O nível de confiança é escolhido antes do intervalo ser construído.
NC = 1 – α (nível de confiança, probabilidade do intervalo estar correto);
α = nível de significância, probabilidade de estar errado.
O valor de α mais utilizado é 0,05, que significa que temos 5% de probabilidade de
estarmos errado. Este valor será utilizado durante todo o nosso curso.
Conhecendo a média aritmética da amostra ( x ) e o desvio-padrão da amostra (s),
podemos estimar que o parâmetro média populacional está centrado na média aritmética da
amostra mais ou menos um erro de estimativa.
Definimos um valor para α (geralmente 0,05), e calculamos o grau de liberdade (GL) para
definir o valor de t crítico (tc), lido na tabela t, sempre bilateral.
GL = n – 1, sendo n o tamanho da amostra.
Quando a amostra for maior que 30 elementos, e α = 0,05, usaremos o valor da normal
padrão, que neste caso será sempre 1,96.
Calculamos o erro de estimativa e:
s
e=t c (13.1)
√n
O intervalo de confiança será:
IC=x±e (13.2)
Sendo ( x + e) o limite superior do intervalo e ( x − e) o limite inferior.
Versão: 29 de setembro de 2022 – pag. 50

Quando se conhece o tamanho da população o erro de estimativa pode ser multiplicado

por
√ (N −n)
(N −1)
, sendo N o tamanho da população. Esta correção deve ser usada quando a

população é pequena e com tamanho conhecido

13.1.1 Exemplo:

Temos na tabela 21 a relação de notas de uma prova feita com os alunos de estatística.
Utilizando ela como amostra faça o intervalo de confiança para a média final do curso.
Tabela 21: Notas dos alunos de estatística
9,0 5,0 4,0 9,0 7,5 10,0 1,0 8,0 7,0 3,0
Calculamos a média e o desvio padrão:
x = 6,35;
s = 2,96;
α=0,05; bicaudal;
n=10 (tamanho da amostra);
GL = n – 1; GL = 9 (graus de liberdade);
tc = 2,262 (coluna 0,05, bicaudal tabela A3);
2,96
e = 2,262 ;
√10
e = 2,12;
Limite superior do IC = 6,35 + 2,12 = 8,47
Limite inferior do IC = 6,35 – 2,12 = 4,23
IC = {8,47; 4,23} (existem várias formas de apresentar o IC, esta é uma delas)
Análise: com 5% de chances de errar, podemos prever que a média final do curso dos
alunos da tabela 21 ficará entre 4,23 e 8,47. (Quanto menor a amostra, maior o intervalo).
Considerando que este curso terá três provas e que todos os alunos farão todas as provas a

população tem tamanho 30 (N = 30). A correção fica


√ (30−10)
(30−1)
=0,83 e o erro de estimativa é

2,12 * 0,83 = 1,76; e o IC = {8,11; 4,59}.


Versão: 29 de setembro de 2022 – pag. 51

13.2 Intervalo de confiança para proporção populacional

Outro intervalo de confiança que pode ser construído é para a proporção na população.
Grosso modo, a proporção na população pode ser entendida como a porcentagem de uma
determinada característica de uma variável.
Por exemplo: qual a porcentagem de alunos que foram aprovados em estatística. Se eu
tenho os resultados finais do curso basta dividir o número de aprovados pelo total de alunos e
multiplicar por 100.
Quando não temos acesso a toda população, usamos uma amostra para fazer uma
estimativa da proporção na população.
O estimador da proporção neste caso é a frequência relativa na amostra (f), e como esta é
uma variável discreta, com distribuição de probabilidades binomial, usaremos a chamada
aproximação da binomial pela normal porque a distribuição binomial é de cálculo difícil para
amostras grandes. Como não existe aproximação da binomial pela distribuição t, este intervalo de
confiança só pode ser calculado para amostras maiores que 30 elementos.
Como já vimos, quando a amostra é maior que 30 elementos, e α=0,05, usaremos o valor
da normal padrão, que neste caso será sempre 1,96, que chamaremos de z crítico (zc).
Calculamos o erro de estimativa e:

e=z c
√ f (1−f ) (13.3)
√n
O intervalo de confiança será:
IC=f ±e (13.4)
Sendo (f + e) o limite superior do intervalo e (f − e) o limite inferior.
A correção do erro de estimativa visto no intervalo de confiança para média também pode
ser usado quando a população for pequena.

13.2.1 Exemplo:

Uma pesquisa eleitoral com 2100 eleitores sobre a intenção de voto em um determinado
candidato teve como resultado 478 eleitores declarando o voto no candidato. Qual o resultado
provável na eleição, utilizando IC.
α = 0,05; bicaudal; zc=1,96; (5% de probabilidade de errar a estimativa)
478
f= = 0,23
2100
Versão: 29 de setembro de 2022 – pag. 52

e = 1,96
√ 0,23 ( 1− 0,23 )
√2100
e = 0,018 ou 1,8%
Limite superior do IC = 0,23+0,018 = 0,248
Limite inferior do IC = 60,23-0,018 = 0,212
IC = {0,248; 0,212}
Análise: com 5% de chances de errar, podemos prever que o candidato terá entre 24,8% e
21,2% de votos na eleição.

13.2.2 Exercício: intervalo de confiança

a) Utilizando a amostra das nota, construa o intervalo de confiança para a média


populacional. Isto pode ser considerado uma estimativa de qual vai ser a média final
desta disciplina, usando como amostra as médias das disciplinas já cursadas. Para isto
ser correto temos que considerar que você estudou da mesma forma e que as disciplinas
tiveram o mesmo grau de dificuldade que o curso de estatística.
b) Construa o intervalo de confiança para a proporção de notas que estão acima de sete
(7,0). Conte também as notas sete (7,0). Embora este intervalo só possa ser feita com
amostras maiores que 30, construa o intervalo com as notas usadas na lista 9, sem
acrescentar nenhuma nota a mais. Se a quantidade de notas usadas for menor que 30 o
erro será maior, mas o objetivo da lista é mostrar a compreensão da teoria.
Versão: 29 de setembro de 2022 – pag. 53

14 TESTES DE HIPÓTESES

Outra família de ferramentas de inferência estatística são os testes de hipóteses.


As hipóteses são propostas pelo pesquisador a partir de pesquisas anteriores, experiência
na área da pesquisa, similaridade com outras pesquisas ou outro critério. A hipótese é anterior a
pesquisa e é feita antes da coleta dos dados, e a partir de sua elaboração é definida a variável a
ser pesquisada.
Esta família de testes é bem extensa, e foi uma das primeiras ferramentas propostas por
Fischer, no começo da estatística (aproximadamente a partir do ano de 1900).
A hipótese é uma afirmação sobre o valor de um parâmetro populacional, e esta afirmação
será testada utilizando uma amostra, retirada da população a ser testada. O resultado do teste é se
podemos rejeitar a hipótese, ou não temos elementos para isto. Outra interpretação, quando da
rejeição da hipótese, é que a amostra não faz parte da população testada. O teste não determina se
a hipótese pode ser aceita, mas somente se ela pode ser rejeitada, ou que não se pode rejeitar.
Para uma explicação mais detalhada consultar as referências do plano de ensino.

14.1 Hipóteses:

– H0: Hipótese nula, que será testada utilizando a amostra, pode ser rejeitada ou não ter
elementos para rejeitar (não se aceita a hipótese, mas usualmente usaremos este termo
pela facilidade). Definida como uma igualdade;
– H1: Hipótese alternativa, será aceita quando H0 for rejeitada, também conhecida como
hipótese de pesquisa. Definida como uma desigualdade. No nosso curso será sempre
uma diferença, o que implica que usaremos o valor crítico bicaudal retirado da
distribuição de probabilidade.

14.2 Tipos de erros e parâmetros:

– Erro tipo I: erro que se comete ao rejeitar H0, quando ela é verdadeira;
– Erro tipo II: erro que se comete ao aceitar H0, quando ela é falsa;
– Nível de significância do teste (α): probabilidade de cometer o erro tipo I;
– Poder do teste (β): probabilidade de rejeitar H0, quando ela é falsa. Não será usado no
nosso curso.
Versão: 29 de setembro de 2022 – pag. 54

Estes tipos de erros não serão usados diretamente no nosso curso, mas fazem parte da
teoria. Só utilizaremos o nível de significância do teste α, o uso do poder do teste β é mais
complicado, porque se a nossa hipótese é falsa, não podemos saber seu verdadeiro valor. É usado
em testes que a certeza do resultado é necessária, como testes de medicamentos, tratamentos
médicos e outros.

14.3 Passos do teste de hipótese:

6) Definir a hipótese;
7) Definir o nível de significância do teste (α). Usaremos sempre 0,05;
8) Definir qual distribuição de probabilidade será usada;
9) Com o valor de α e a tabela da distribuição de probabilidade definir os valores críticos;
10) Calcular as estatísticas da amostra;
11) Calcular a estatística de teste;
12) Comparar a estatística de teste com o valor crítico;
13) Concluir se rejeita ou não se tem elementos para rejeitar a hipótese nula H0.
Como só vamos ver o teste de média usaremos a distribuição t no nosso curso. Outros
testes podem utilizar outras distribuições.
Existe uma outra forma de fazer o teste de hipótese, através do valor p. Calculamos a
estatística de teste, e achamos a área a direita desta estatística na distribuição utilizada (para uma
estatística de teste positiva). Quando o teste for bicaudal multiplicamos a área por dois (2) e
comparamos com o valor de α, se a área encontrada for maior que α aceitamos H0, se for menor
rejeitamos. Esta forma é utilizada por aplicativos de estatística e planilhas. Não utilizaremos esta
forma do teste porque a tabela utilizada só tem 6 valores de α.
Veremos agora o teste de média como um exemplo da aplicação do teste de hipótese, os
passos para os outros testes são similares.

14.4 Teste de média populacional

Temos uma amostra que supomos que foi retirada de uma determinada população. Para
nosso caso supomos que a variância da amostra e da população são iguais, mas desconhecidas, e
que a distribuição de probabilidade da população é normal. Usaremos a distribuição t, e para
amostras acima de 30 elementos o valor crítico (tc) será 1,96. O teste será sempre bicaudal, o que
implica que a nossa hipótese alternativa (H1) será sempre uma diferença.
Versão: 29 de setembro de 2022 – pag. 55

O nível de significância do teste (α) é a probabilidade de erramos o resultado da nossa


análise, e quando definimos α = 0,05 estamos afirmando que temos 95% de probabilidade de
estarmos certos. O valor crítico tc delimita uma área de 0,95 da distribuição de probabilidade, e se
o nosso valor calculado da estatística de teste estiver dentro desta área aceitamos a hipótese nula
H0 e podemos afirmar, com 95% de chance de estarmos certos, que a média da amostra é igual à
média da população, ou que a amostra foi retirada ou pertence a esta população.
– Estatística de teste: tcalc (equação 14.1)

– Média populacional: μ
– Valor da hipótese nula: μo
– Média amostral: x
– Desvio padrão amostral: s
– Tamanho da amostra: n
(x−μ 0 )
t calc = (14.1)
s/ √ n
A equação 14.2 é outra forma de escrever a equação 14.1 e fica mais fácil para calcular.

(x−μ 0 )×√ n
t calc = (14.2)
s
As hipóteses devem ser definidas antes do teste ser feito e antes de se conhecer as
estatísticas da amostra, senão pode influenciar o resultado.

H 0 : μ =μ 0
H 1 : μ ≠μ 0
Versão: 29 de setembro de 2022 – pag. 56

Por exemplo: no gráfico 20 temos uma distribuição de probabilidade de Student


(distribuição t). Para um tc de 2,262 temos a área de 0,025 a direita e a esquerda de −2,262. A

Gráfico 20: Distribuição de probabilidades

soma das duas áreas é 0,05, que é o valor de α. Caso tcalc fique dentro de uma destas duas áreas H0
é rejeitado, caso fique entre −2,262 e +2,262 a hipótese nula é aceita. As áreas são divididas em
duas partes por ser bicaudal (a hipótese alternativa H1 é uma diferença).

14.4.1 Exemplo: teste de hipótese para média

Na tabela 22 temos uma amostra de notas dos alunos de estatística. Sabemos que a média
das notas das turmas anteriores é 7,0 e vamos utilizar este valor como a média populacional.
Vamos testar se a nota final da turma será 7,0, o que é a mesma coisa que afirmar que o
desempenho desta turma será igual ao das outras turmas.
Tabela 22: Notas dos alunos de estatística
9,0 5,0 4,0 9,0 7,5 10,0 1,0 8,0 7,0 3,0

H 0 : μ =7,0
H 1 : μ ≠7,0

– x = 6,35;
– s = 2,96;
– α = 0,05; bicaudal;
– n = 10 (tamanho da amostra);
Versão: 29 de setembro de 2022 – pag. 57

– GL = n-1; GL = 9 (graus de liberdade);


– tc = 2,262 (coluna 0,05, bicaudal tabela A3);

6,35−7,0 (6,35−7,0) √ 10
– t calc = ou: t calc =
2,96/ √ 10 2,96
– tcalc = 0,694
Como este valor está entre −2,262 e 2,262 não temos elementos para rejeitar H0, e
afirmar, com 95% de certeza, que o desempenho deste turma será igual aos das outras anteriores.

14.4.2 Exercício: teste de média

A média das turmas de estatística foi oito (8,0). Faça um teste de hipótese para verificar se
a sua média pode ser considerada como igual às das turmas anteriores (8,0), utilizando a amostra
das suas notas.
Coloque todos os cálculos, escreva as hipóteses e escreva a conclusão explicando como
você chegou a ela.
Versão: 29 de setembro de 2022 – pag. 58

15 TESTE PARA DIFERENÇA DE MÉDIAS

Vimos na aula anterior o teste de média, vamos ver o teste de diferença de médias entre
duas populações. Este teste é mais usado que o teste de média, porque não é preciso definir um
valor para a hipótese, o que pode ser difícil e impreciso quando não se conhece bem a área de
pesquisa.
No teste de diferença de médias comparamos as médias de duas amostras conhecidas.
Quando se tem uma pesquisa já em andamento uma das amostras pode ser o total das amostras
anteriores, usado como se fosse a população. Neste caso o que estamos testando é se a nova
amostra apresenta diferença em relação às amostras anteriores, ou se os resultados mudaram. É
importante notar que toda pesquisa tenta medir uma mudança, ou seja, se a alteração feita nos
fatores da pesquisa tiveram efeito. Como no teste de hipótese a rejeição da hipótese nula é segura
e a hipótese nula é uma igualdade (significando que não houve mudança), a hipótese alternativa
(houve uma mudança) é o resultado esperado. A hipótese alternativa é chamada de hipótese de
pesquisa, porque sua validação significa que houve uma mudança e ela é segura pela mecânica
do teste de hipótese. Maiores explicações podem ser encontradas nas referências do plano de
ensino.

15.1 Teste para diferença de média de amostras independentes

Vamos usar duas amostras retiradas de forma independente da população. Por exemplo:
se sorteamos 10 alunos de uma sala de aula e depois sorteamos mais 8 alunos de outra sala.
Existem várias formas deste teste, com pressupostos diferentes, utilizaremos a mais
comum e mais usada. Os outros casos não serão vistos nem utilizados. Se o aluno usar outro
material, verifique se tem os mesmos pressupostos.
Pressupostos:
c) As variâncias das duas populações são iguais, mas desconhecidas;
d) Serão utilizadas as variâncias das amostras como estimador da variância populacional
e) As populações têm distribuição normal
f) As duas amostras são independentes entre si
Continuamos a teoria da aula passada, mas agora com duas amostras x e y, com:
– Médias populacionais: μx e μy (para cada população)
– Hipótese nula: as médias populacionais são iguais
– Médias amostrais: x̅; y̅
Versão: 29 de setembro de 2022 – pag. 59

– Desvios padrão amostrais: sx e sy


– Será calculado um desvio padrão composto (scp): fórmula (15.1)
– Tamanho das amostras: nx e ny
– Estatística de teste (tcalc): fórmula (15.2)
– Grau de liberdade (GL): nx + ny – 2
– Nível de significância (α) = 0,05; (mais usado)
– valor crítico (tc): da tabela t, com GL, bicaudal
– GL > 29 usar tc = 1,96

H0 : μ x =μ y
Hipótese: H : μ ≠ μ
1 x y


2 2
((n x −1) s x +(n y−1) s y )
s cp = (15.1)
( n x +n y −2 )
Dica: como scp é a média ponderada dos desvios padrão, ele tem que ficar entre sx e sy.

x− y
t calc =


scp (

Critério de decisão: é o mesmo do teste de média.


1 1
+ )
nx nx
(15.2)

a) Se tcalc estiver entre −tc e +tc aceita a hipótese nula (H0) e podemos dizer que as duas
amostras são da mesma população.
b) Se tcalc for menor que −tc ou maior que +tc rejeita a hipótese nula (H0) e podemos
afirmar que as duas amostras não são da mesma população.

15.1.1 Exemplo:

Na tabela 23 temos uma amostra de notas dos alunos de estatística. Na tabela 24 temos as
notas dos alunos de outro curso. Teste a hipótese que as duas turmas têm o mesmo desempenho,
ou que são da mesma população.
Tabela 23: Notas dos alunos de estatística do curso de administração
9,0 5,0 4,0 9,0 7,5 10,0 1,0 8,0 7,0 3,0
Tabela 24: Notas dos alunos de estatística do curso de ciências sociais
5,0 6,8 8,7 2,5 7,0 3,2 6,1 6,0
Vamos considerar que a tabela 23 é a amostra da variável x, e a tabela 24 é a amostra da
variável y. x e y podem ser trocados, só altera o sinal do tcalc mas não o resultado do teste.
Versão: 29 de setembro de 2022 – pag. 60

H0 : μ x =μy
H 1 : μx ≠ μ y

– x = 6,35; y = 5,66
– sx = 2,96; sy = 2,04

– nx = 10; ny = 8
– α = 0,05 (bicaudal)
– GL = 10 + 8 − 2 = 16
– tc = 2,120 (ler na tabela t, com GL = 16 e α = 0,05)


2 2
– s = ((10 −1) 2,96 + (8 −1) 2,04 )
cp ( 10 + 8− 2 )
– scp = 2,60 (está entre sx = 2,96 e sy = 2,04)

(6,35 −5,66)
t calc =


– 1 1 = 0,56
2,60 ( + )
10 8
Como 0,56 está entre −2,120 e +2,120, aceitamos H0: as duas turmas têm o mesmo
desempenho, quanto à média.

15.1.2 Exercício: teste de diferença de médias – independentes

A tabela 25 apresenta as notas de um aluno em algumas disciplinas.


Teste a hipótese que o seu desempenho quanto a média pode ser considerado igual ao
aluno com as notas da tabela 25, se não consideramos os efeitos do acaso, o que é a mesma coisa
que dizer que estamos testando se vocês pertencem a mesma população. Use a amostra das
notas .
Escreva as hipóteses e a conclusão. Utilize o formato da apostila para os cálculos,
mostrando os resultados intermediários.
Utilize pelo menos 3 casas decimais para o cálculo, de preferência usando calculadora ou
planilha. As equações utilizadas são muito sensíveis à precisão do cálculo.
Tabela 25: Notas de um aluno em algumas disciplinas
9,0 5,0 4,0 9,0 7,5 10,0 1,0 8,0 7,0 3,0 5,0 6,8 8,7 2,5 7,0 3,2 6,1 6,0
Versão: 29 de setembro de 2022 – pag. 61

16 TESTE PARA DIFERENÇA DE MÉDIAS – DEPENDENTES

Vimos na aula anterior o teste de média para amostras independentes, vamos ver o teste
de diferença de médias entre duas populações para amostras dependentes.
Como nos testes de hipóteses anteriores a rejeição da hipótese nula é segura e a hipótese
nula é uma igualdade (significando que não houve mudança), a hipótese alternativa (houve uma
mudança) é o resultado esperado. A hipótese alternativa é chamada de hipótese de pesquisa,
porque sua validação significa que houve uma mudança e ela é segura pela mecânica do teste de
hipótese. Maiores explicações podem ser encontradas nas referências do plano de ensino.

16.1 Teste para diferença de média de amostras dependentes

Quando as amostras são do mesmo objeto, em dois momentos diferentes, dizemos que as
amostras são dependentes. Por exemplo: a mesma pessoa é pesada em duas datas diferentes para
verificar se um regime alimentar está funcionando. Quando temos uma primeira amostra com
várias pessoas que foram pesadas em uma determinada data, e uma segunda amostra com as
mesmas pessoas pesadas em uma data posterior, e podemos relacionar a mesma pessoa nas duas
amostras, dizemos que as amostras são dependentes ou emparelhadas.
Neste caso podemos fazer o teste de igualdade de médias para amostras dependentes.
Pode ser feito também o teste considerando que as amostras são independentes, quando não se
tem certeza que a amostra é emparelhada.
Para o teste fazemos a diferença do valor da variável no momento anterior com o valor da
variável no momento posterior, e fazemos o teste de média para o valor da diferença, com a
hipótese nula que a média das diferenças é nula. O teste de média foi visto na aula 11.
A hipótese nula é que a diferença de médias é zero, e a hipótese alternativa é que a
diferença de médias é diferente de zero. As amostras têm que ser do mesmo tamanho.

16.1.1 Exemplo:

Na tabela 26 temos duas amostras com as notas dos alunos em duas provas diferentes.
Teste se podemos dizer que os alunos tiveram o mesmo desempenho nas duas provas
considerando que estas provas são uma amostra do total de provas que o aluno fez ou vai fazer.
A diferença pode ser (P1−P2) ou (P2−P1), não muda o resultado da análise, só o sinal do
tcalc.
Versão: 29 de setembro de 2022 – pag. 62

Tabela 26: Notas dos alunos em duas provas diferentes


Aluno A B C D E F G H I J
P1 9,0 5,0 4,0 9,0 7,5 10,0 1,0 8,0 7,0 3,0
P2 5,0 6,8 8,7 2,5 7,0 3,2 6,1 6,0 10,0 5,0
(P1 − P2) 4,0 −1,8 −4,7 6,5 0,5 6,8 −5,1 4,0 −3,0 −2,0

H 0 : μ d =0
H 1 : μd ≠ 0

– Médias das diferenças (P1 − P2): x̅d = 0,52


– Desvio padrão das diferenças (P1 − P2): sd = 4,50
– n = 10
– α = 0,05; bicaudal
– GL = 10 − 1 = 9
– tc = 2,262

– t calc =0,52 √10 = 0,37


4,50
Como 0,37 está entre −2,262 e +2,262, aceitamos H0: a turma teve o mesmo desempenho
nas duas provas, ou que as turmas são da mesma população.

16.1.2 Exercício: teste de diferença de médias – dependentes

Considere que a tabela 27 apresenta as notas de vários alunos na primeira prova (P1) em
uma determinada disciplina.
Use a amostra das notas como sendo as notas destes mesmos alunos na segunda prova
(P2). Como as duas provas não terão a mesma quantidade de valores retire as notas da lista com
maior número de notas até que ela fique do mesmo tamanho da lista com menor número de
notas. Por exemplo, se o número de notas utilizadas na última lista for 6, só utilize as 6 primeiras
notas da prova 1.
Teste a hipótese que o desempenho quanto as notas dos alunos nas duas provas podem ser
considerados iguais, se não consideramos os efeitos do acaso. Utilize o teste de hipótese para a
diferença de médias para amostras dependentes.
Escreva as hipóteses, mostre os cálculos intermediários e escreva o resultado do teste.
Tabela 27: Notas dos alunos
Aluno A B C D E F G H I J K L M N O P Q R
P1 9,0 5,0 4,0 9,0 7,5 10,0 1,0 8,0 7,0 3,0 5,0 6,8 8,7 2,5 7,0 3,2 6,1 6,0
P2
Versão: 29 de setembro de 2022 – pag. 63

REFERÊNCIAS

AUBERT, Henri. Manuel de statistique. Paris: Ellipses. 2011.

BARBETTA, P. A. Estatística aplicada às ciências sociais. 7. ed. Florianópolis: UFSC, 2007.

BORNIA, Antônio Cezar; REIS, Marcelo Menezes; BARBETTA, Pedro Alberto. Estatística
para cursos de engenharia e informática. 3. ed. São Paulo: Atlas, 2010.

COSTA NETO, Pedro Luiz de Oliveira. Estatística. 2. ed. rev. São Paulo: Edgard Blucher, 2002.

FERREIRA, Daniel furtado. Estatística básica. 2. ed. rev. Lavras: Ed. UFLA, 2009.

FONSECA, Jairo Simon da; MARTINS, Gilberto de Andrade. Curso de Estatística. 6. ed. 12.
reimpr. São Paulo: Atlas, 2009.

KACHIGAN, Sam Kash. Statistical Analysis: an interdisciplinary introduction to univariate &


multivariate methods. New York: Radius Press. 1986.

LAPPONI, Juan Carlos. Estatística usando excel. 4. ed. rev. Rio de Janeiro: Campus, 2005.

LEVIN, Jack; FOX, James Alan. Estatística para ciências humanas. 9. ed. São Paulo: Prentice
Hall. 2004.

MIALARET, Gaston. Statistiques appliquées aux sciences humaines. Paris: PUF, 1991.

MORETTIN, Luiz Gonzaga. Estatística básica: Probabilidade. 7. ed. São Paulo: Makron Books,
1999. Vol. 1.

SCHAUM, Seymor Lipschutz. Probabilidade. 4. ed. rev. São Paulo: Makron Books, 1993.

SPIEGEL, M. R. Estatística. 3. ed. São Paulo: Makron Books, 1993.

TRIOLA, Mario F. Introdução à estatística. 10. ed. Rio de Janeiro: LTC, 2008.

WONNACOTT, Thomas H.; WONNACOTT, Ronald J. Introductory statistics. 5. ed. New


York: Wiley 1990.
Versão: 29 de setembro de 2022 – pag. 64

ANEXO A – Tabela t

TABELA A-3 Valores Críticos t da Distribuição t


Área em Uma Cauda
0,005 0,01 0,025 0,05 0,10

Graus de Área em Duas Caudas


Liberdade 0,01 0,02 0,05 0,10 0,20

1 63,657 31,821 12,706 6,314 3,078


2 9,925 6,965 4,303 2,920 1,886
3 5,841 4,541 3,182 2,353 1,638
4 4,604 3,747 2,776 2,132 1,533
5 4,032 3,365 2,571 2,015 1,476
6 3,707 3,143 2,447 1,943 1,440
7 3,499 2,998 2,365 1,895 1,415
8 3,355 2,896 2,306 1,860 1,397
9 3,250 2,821 2,262 1,833 1,383
10 3,169 2,764 2,228 1,812 1,372
11 3,106 2,718 2,201 1,796 1,363
12 3,055 2,681 2,179 1,782 1,356
13 3,012 2,650 2,160 1,771 1,350
14 2,977 2,624 2,145 1,761 1,345
15 2,947 2,602 2,131 1,753 1,341
16 2,921 2,583 2,120 1,746 1,337
17 2,898 2,567 2,110 1,740 1,333
18 2,878 2,552 2,101 1,734 1,330
19 2,861 2,539 2,093 1,729 1,328
20 2,845 2,528 2,086 1,725 1,325
21 2,831 2,518 2,080 1,721 1,323
22 2,819 2,508 2,074 1,717 1,321
23 2,807 2,500 2,069 1,714 1,319
24 2,797 2,492 2,064 1,711 1,318
25 2,787 2,485 2,060 1,708 1,316
26 2,779 2,479 2,056 1,706 1,315
27 2,771 2,473 2,052 1,703 1,314
28 2,763 2,467 2,048 1,701 1,313
29 2,756 2,462 2,045 1,699 1,311
30 2,750 2,457 2,042 1,697 1,310
31 2,744 2,453 2,040 1,696 1,309
32 2,738 2,449 2,037 1,694 1,309
33 2,733 2,445 2,035 1,692 1,308
34 2,728 2,441 2,032 1,691 1,307
35 2,724 2,438 2,030 1,690 1,306
36 2,719 2,434 2,028 1,688 1,306
37 2,715 2,431 2,026 1,687 1,305
38 2,712 2,429 2,024 1,686 1,304
39 2,708 2,426 2,023 1,685 1,304
40 2,704 2,423 2,021 1,684 1,303
45 2,690 2,412 2,014 1,679 1,301
50 2,678 2,403 2,009 1,676 1,299
60 2,660 2,390 2,000 1,671 1,296
70 2,648 2,381 1,994 1,667 1,294
80 2,639 2,374 1,990 1,664 1,292
90 2,632 2,368 1,987 1,662 1,291
100 2,626 2,364 1,984 1,660 1,290
200 2,601 2,345 1,972 1,653 1,286
300 2,592 2,339 1,968 1,650 1,284
400 2,588 2,336 1,966 1,649 1,284
500 2,586 2,334 1,965 1,648 1,283
1000 2,581 2,330 1,962 1,646 1,282
2000 2,578 2,328 1,961 1,646 1,282
Grande 2,576 2,326 1,960 1,645 1,282
Versão: 29 de setembro de 2022 – pag. 65

ANEXO B: Tabela z negativo

Escores z NEGATIVOS z 0

TABELA A-2 Distribuição Normal Padrão (z): Área Acumulada à ESQUERDA


z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

–3,50
ou
menor 0,0001
-3,4 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
-3,3 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
-3,2 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005
-3,1 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007
-3,0 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010
-2,9 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
-2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
-2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
-2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
-2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 * 0,0049 0,0048
-2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
-2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
-2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
-2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
-2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
-1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
-1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
-1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
-1,6 0,0548 0,0537 0,0526 0,0516 0,0505 * 0,0495 0,0485 0,0475 0,0465 0,0455
-1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
-1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
-1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
-1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
-1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
-1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
-0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
-0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867
-0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148
-0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
-0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776
-0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
-0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
-0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
-0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247
-0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641

NOTA: Para valores de z abaixo de –3,49, use 0,0001 para a área.


* Use esses valores comuns que resultam de interpolação:

Escore z Área
- 1,645 0,0500
- 2,575 0,0050
Versão: 29 de setembro de 2022 – pag. 66

ANEXO C: Tabela z positivo

0 z
Escores z POSITIVOS
TABELA A-2 (continuação) Área Acumulada à ESQUERDA
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 * 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 * 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,50 0,9999
e acima
NOTA: Para valores de z acima de 3,49, use 0,9999 para a área. Valores Críticos Comuns
* Use esses valores comuns que resultam de interpolação: Nível de Valor
Escore z Área Confiança Crítico
1,645 0,9500 0,90 1,645
2,575 0,9950 0,95 1,96
0,99 2,575

Você também pode gostar