Você está na página 1de 160

ESTATÍSTICA PARA CURSOS

DE NÍVEL SUPERIOR
Vol. I

Prof Msc Gilbert Queiroz dos Santos

Fortaleza - CE
2022
SUMÁRIO

ESTATÍSITICA DESCRITIVA

1. Definição de Estatística 4

2. Método Estatístico 5

3. Divisão da Estatística 5

4. População e amostra 6

5. Parâmetro e estatística 7

6. Variável 8

7. Níveis de mensuração dos dados 10

8. Obtenção dos dados 11

9. Amostragem 11

10. Apresentação Tabular 16

11. Séries estatísticas 18

12. Representação gráfica das séries estatísticas 33

13. Características numéricas de uma distribuição de freqüências 41

13.1.1 Medidas de Tendência Central 41

13.1.2 Separatrizes 57

13.2 Medidas de Dispersão 66

13.3 Momentos de uma distribuição 73

13.4 Medidas de forma de uma distribuição 74

INFERÊNCIA ESTATÍSTICA

14. Estatística Indutiva 84

15. Testes de Hipótese 108

16. Análise da Variância: ANOVA 115


RELACIONAMENTO ENTRE VARIÁVEIS

17. Análise de dados categorizados 126

18. Correlação 132

19. Método dos Mínimos Quadrados 136

20. Análise de Regressão 141

21. Determinação do Tamanho da Amostra 149

Bibliografia 150

Tabelas (Dist. Normal, Qui-quadrado, t-Student e F-Snedecor) 151

Dados 160
1 Definição

"Ciência que se preocupa com a organização, descrição, análise e interpretação dos dados
experimentais, com base em um conjunto de métodos que se destina a possibilitar a tomada de
decisões, face às incertezas." (Wallis).
Ou ainda:
"É um ramo do conhecimento científico que consta de um conjunto de processos que têm por
objeto a observação, a classificação formal e a análise dos fenômenos coletivos ou de massa
(finalidade descritiva) e também investigar a possibilidade de fazer inferências indutivas válidas a
partir dos dados observados por meio de métodos capazes de permitir esta inferência (finalidade
indutiva)".
Montgomery e Runger definem Estatística como sendo a ciência que nos ajuda a tomar decisões
e tirar conclusões na presença de variabilidade. O campo da Estatística lida com a coleta,
apresentação, análise e uso dos dados para tomar decisões, resolver problemas e planejar produtos
e processos. Em termos simples, Estatística é a ciência de dados.
Logo, o Estatístico é o verdadeiro Cientista dos Dados.
Levine et al definem Estatística como sendo "um conjunto de métodos que ajudam a transformar
dados em informações úteis para tomadores de decisões."

Pode-se dizer que:

“Estatística é a ciência do aprendizado a partir dos dados.”

Mas o que são os dados???

Podemos dizer que dados são coleções de evidências relevantes sobre um fato observado.

Eles podem ser:

Dados primários: quando são publicados pela própria pessoa ou organização que os haja
recolhido. Ex: tabelas do censo demográfico do IBGE.
Dados secundários:quando são publicados ou comunicados por outro pesquisador ou outra
organização. Ex: quando determinado jornal publica estatísticas referentes ao censo
demográfico extraídas do IBGE.

OBS: É mais seguro trabalhar com fontes primárias. O uso da fonte secundária traz o
grande risco de erros de transcrição.

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 4


2 Método Estatístico

Tem por finalidade estruturar e a organizar as fases ou etapas que devem ser estabelecidas na
abordagem de uma observação estatística.

Suas fases ou etapas principais são:

- Definição do problema;
- Planejamento;
- Coleta de dados;
- Apuração de dados;
- Apresentação de dados;
- Análise e interpretação dos dados.

1º - DEFINIÇÃO DO PROBLEMA: Saber exatamente aquilo que se pretende pesquisar é


o mesmo que definir corretamente o problema.
2º - PLANEJAMENTO: Como levantar informações ? Que dados deverão ser obtidos?
Qual levantamento a ser utilizado? Censitário? Por amostragem? E o cronograma de
atividades? Os custos envolvidos? etc
3º - COLETA DE DADOS: Fase operacional. É o registro sistemático de dados, com um
objetivo determinado.
Coleta Direta: quando é obtida diretamente da fonte. Ex: Empresa que realiza uma
pesquisa para saber a preferência dos consumidores pela sua marca.
A coleta direta pode ser :
Contínua (registros de nascimento, óbitos, casamentos, etc.),
Periódica (recenseamento demográfico, censo industrial) e
Ocasional (registro de casos de dengue).
Coleta Indireta: É feita por deduções a partir dos elementos conseguidos pela coleta direta,
por analogia, por avaliação, indícios ou proporcionalização.
4º - APURAÇÃO DOS DADOS: Resumo dos dados através de sua contagem e
agrupamento. É a condensação e tabulação de dados.
5º - APRESENTAÇÃO DOS DADOS: Há duas formas de apresentação, que não se
excluem mutuamente. A apresentação tabular, ou seja é uma apresentação numérica dos
dados em linhas e colunas distribuídas de modo ordenado, segundo regras práticas
fixadas pelo Conselho Nacional de Estatística. A apresentação gráfica dos dados numéricos
constitui uma apresentação geométrica permitindo uma visão rápida e clara do fenômeno.
6º - ANÁLISE E INTERPRETAÇÃO DOS DADOS: A última fase do trabalho estatístico é a
mais importante e delicada. Está ligada essencialmente ao cálculo de medidas e
coeficientes, cuja finalidade principal é descrever o fenômeno (estatística descritiva). Na
estatística indutiva, a interpretação dos dados se fundamenta na Teoria das
Probabilidades.
Levine et al criaram uma estrutura, ou um plano, para minimizar possíveis erros de raciocínio e
análise. Esta estrutura foi chamada de DCOVA e constitui-se das seguintes etapas:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 5


a) Definir os dados que se deseja estudar, no intuito de solucionar um problema ou atender a um
objetivo;
b) Coletar os dados a partir das fontes apropriadas;
c) Organizar os dados coletados por meio do desenvolvimento de tabelas;
d) Visualizar os dados por meio do desenvolvimento de gráficos;
e) Analisar os dados coletados de modo a tirar conclusões e apresentar os respectivos resultados.

3. Divisão da Estatística

A Estatística divide-se em :

1) Estatística Descritiva:

Que se preocupa com a organização, sumarização e descrição dos dados experimentais. Consiste
num conjunto de métodos que ensinam a reduzir uma quantidade de dados bastante numerosa em
um número pequeno de medidas, substitutas e representantes daquela massa de dados.

2) Estatística Indutiva:

Que se preocupa com a análise e interpretação dos dados. Consiste em inferir propriedades de um
universo a partir de uma amostra com resultados conhecidos.

3) Probabilidade:

Que trata da medição da ocorrência de eventos sujeitos ao aspecto de aleatoriedade.

4. População e Amostra

Objetivando o estudo quantitativo e qualitativo dos dados (ou informações) obtidas nos vários
campos da atividade cientifica, a Estatística manipula dois tipos de conjuntos de dados: a
população e a amostra:

a) População- (ou universo) é o conjunto de elementos com pelo menos uma característica comum.

Ex: população de um país, população de um estado, população de município, população de um


bairro etc

b) Amostra- é um subconjunto de uma população, necessariamente finito, pois todos os seus


elementos serão examinados para efeito da realização do estudo estatístico desejado.

Ex: O Brasil possui 27 unidades federativas (UF), sendo 26 Estados e 1 Distrito Federal. Uma
amostra destas unidades poderia ser de 5 UF.
Ou ainda, se estivéssemos interessado em retirar uma amostra de municípios brasileiros, de um total
de 5570 municípios, poderíamos escolher 100 municípios, por exemplo.

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 6


5. Parâmetro e Estatística

Com relação aos dois tipos de conjuntos de dados : população e amostra, temos os seguintes
conceitos na Estatística:

a) Parâmetro - é uma medida que se refere à população, ou seja, é obtida com base nos valores da
população.
Ex: média ( µ), proporção ( π), variância ( σ2) e desvio-padrão (σ)

b) Estatística – é uma medida que se refere à amostra, ou seja, é obtida com base nos valores da
amostra.
Ex: média( x ), proporção (p), variância (s2) e desvio-padrão (s).

Na prática, usamos uma estatística para se estimar um parâmetro populacional, que em geral é
desconhecido. Ou seja, realizamos um processo de amostragem, que significa retirar uma amostra
da população de estudo. Ao fazer isto, estamos cometendo um erro, chamado de erro amostral - ε.
O erro amostral (ε) é expresso na unidade da variável de estudo. Ele representa a máxima diferença
admitida entre o verdadeiro parâmetro populacional (θ) e o seu estimador ( θˆ ), conhecido como
estatística. Então:
θ − θˆ ≤ ε

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 7


6. Variável

Variável é uma característica que pode ser observada ou medida em cada elemento da população ou
da amostra, sob as mesmas condições.
`
O estudo das variáveis ocupa um lugar primordial no processo de pesquisa científica. Elas podem
ser classificadas de acordo com diferentes critérios:

Critério de classificação Classes de variáveis


Nominal
Qualitativas
Ordinal
Medição
Discreta
Quantitativa
Contínua
Independente (X)
Metodológico Dependente (Y)
Interveniente (Z)
Estímulo (X)
Teórico-explicativo Resposta (Y)
Intermediárias (Z)
Aleatórias
Controle
Controladas

Conforme o critério da medição, uma variável pode ser classificada em variável qualitativa ou
variável quantitativa.

Variável qualitativa (categórica): é a que se refere a uma classificação por tipos, categorias ou
atributos, ex.: sexo, cor dos olhos, estado civil etc; conseqüentemente, temos as “estatísticas de
atributos”, ou seja, nas variáveis categóricas resumem-se os dados por determinar a freqüência de
cada uma das categorias observadas e apresentá-las em uma tabela ou gráfico.
Variável quantitativa (numérica): quando seus valores são expressos em números, ex.: idade,
peso, altura, renda etc; conseqüentemente, temos as “estatísticas de variáveis”, ou seja, além de
verificar freqüências, podemos também calcular médias e realizar outras operações.

De acordo com o tipo de variável empregada em uma pesquisa ou estudo, os dados podem ser
classificados em:

a) Dados Nominais ou categóricos: são aqueles que se referem ao agrupamento e classificação de


elementos para a formação de conjuntos distintos (categorias).
Por exemplo: sexo (masculino e feminino)

b) Dados ordinais: são aqueles que se referem à avaliação de um fenômeno em termos de sua
situação dentro de um conjunto de patamares ordenados, variando desde um patamar mínimo até
um patamar máximo.
Por exemplo: Nível de escolaridade (fundamental, médio e superior)

c) Dados discretos : são aqueles que podem assumir apenas valores pertencentes a um conjunto
enumerável, ou seja, a escala numérica se refere ao conjunto dos números inteiros (N).
Por exemplo número de filhos, o ponto obtido em cada jogada, número de defeitos por unidade etc.

d) Dados contínuos: são aqueles que assumem quaisquer valores num certo intervalo razoável de
variação, ou seja a escala numérica é o conjunto dos números reais (R).

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 8


Por exemplo: temperatura, pressão, idade, diâmetro etc.

Qualitativa Quantitativa

Nominal Ordinal Discreta Contínua


(classificação) (classificação) (contagem) (mensuração)

sexo, raça, Classe Número de Peso,


região, grupo social: acidentes, altura,
sangüíneo Baixa, número de pressão
Média e filhos sangüínea
Alta

Quanto à organização, os dados podem ser classificados em:

a) Dados Brutos - são os dados originais, que ainda não se encontram prontos para análise, pois não
foram numericamente organizados

b) Rol – é um arranjo de dados numéricos em ordem crescente ou decrescente de grandeza.

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 9


7. Níveis de Mensuração dos Dados

Na aplicação da Estatística a problemas reais, o nível de mensuração dos dados é um fator de


grande importância na determinação de qual procedimento usar, ou seja, quais as possíveis
operações aritméticas serão utilizadas e quais técnicas estatísticas serão permitidas para análise.

a) Nível Nominal de Mensuração

É caracterizado pelo ato de nomear ou rotular um objeto, pessoa ou alguma característica. Os dados
são classificados em categorias distintas nas quais não está implícita nenhuma ordem. Neste nível
de mensuração, não são possíveis operações aritméticas, apenas a contagem de valores, pois
verifica-se uma relação de equivalência (=, ≠) em relação à característica de interesse.
Ex: sexo (Masculino e Feminino), religião, filiação partidária, estado civil, raça, profissões etc.

b) Nível Ordinal de Mensuração

Neste nível, os dados, além de apresentarem as propriedades inerentes da escala nominal, são postos
em ordem do menor ao maior, de forma significante. A relação de ordem (>, <) vale para todos os
dados, e com isto temos uma escala ordinal.
Ex: status socioeconômico, grau de escolar, hierarquização funcional etc.

c) Nível Intervalar de Mensuração

Neste nível, observam-se que os dados, além de apresentarem as propriedades inerentes da escala
ordinal, apresentam intervalos iguais de medição, ou seja, em uma unidade de medida fixa, embora
não envolva um verdadeiro ponto zero. Esta escala permite inferir diferenças entre unidades a serem
medidas, porém, não se pode afirmar que um valor em um intervalo específico da escala seja
múltiplo de outro. Por exemplo, suponha dois objetos medidos a uma temperatura de 15°C e 30°C,
respectivamente. A mensuração da temperatura permite determinar o quanto um objeto é mais
quente que o outro; porém, não se pode afirmar que o objeto com 30°C está duas vezes mais quente
que o outro com 15°C.

d) Nível de Razão

Neste nível, observam-se que os dados, além de apresentarem as propriedades inerentes da escala
intervalar, apresentam um quociente significativo entre dois valores, ou seja, uma razão entre os
pares de valores no conjunto ordenado. A origem(ou ponto zero) é única e considerado como
ausência total da característica medida. Desta forma, é possível saber se um valor em um intervalo
específico da escala é múltiplo de outro.

Temos o seguinte resumo para os níveis de mensuração:

Níveis Tipo de dados Operações


Nominal Não numéricos Contagem, Proporção

Ordinal Não numéricos Contagem, Proporção

Intervalar Numéricos Contagem, proporção, médias


Razão Numéricos Contagem, proporção, médias

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 10


8. Obtenção dos Dados

Podemos obter os dados da seguinte forma:

1) Realizando um censo, ou seja, realizando a coleção de dados obtidos de todos os membros da


população. Sua execução, porém, é complexa e envolve muitos recursos e tempo.
2) Por meio de uma pesquisa por amostragem (survey), ou seja, realizando o dimensionamento, os
critérios para composição e seleção de uma amostra. Sua execução é mais prática.
3) Executando um experimento, ou seja, aplicando um determinado tratamento a uma parte da
população (amostra) e observando os resultados.
4) Por meio de simulação, ou seja, usando um modelo matemático ou físico para reproduzir as
condições de uma situação ou processo.

9. Amostragem

Dentre as diversas maneiras de coletar dados, a amostragem é mais freqüente, particularmente nas
pesquisas sobre fenômenos sociais e econômicos,
Uma amostra pode ser probabilística, ou seja, quando os elementos amostrais são escolhidos com
probabilidades conhecidas.
Uma amostra não-probabilística é aquela em que os elementos amostrais não são escolhidos com
probabilidades, ou seja, a escolha dos elementos amostrais é feita de forma deliberada.

9.1 Métodos de Amostragem Probabilística

Os métodos de amostragem probabilísticas mais conhecidos são:


- Amostragem Aleatória Simples (AAS)
- Amostragem Sistemática
- Amostragem Aleatória Estratificada (AAE)
- Amostragem por Conglomerado (em um estágio ou em estágios múltiplos)

Os métodos de amostragem não-probabilísticas são:


-Amostragem de Conveniência
-Amostragem por julgamentos
-Amostragem por Cotas
-Bola de Neve

9.2 Determinação Inicial do Tamanho da Amostra

Antes de se escolher qual o método de amostragem a ser utilizado, devemos ter uma noção do
tamanho inicial da amostra. Neste caso, teremos como base o erro amostral, dado por:
θ − θˆ ≤ ε
E o tamanho N da população alvo do estudo. Usa-se a seguinte expressão para a determinação
inicial do tamanho da amostra:

n0
n=
n
1+ 0
N
1
Onde: n0 =
ε2

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 11


n0 – primeira aproximação da amostra
ε - erro amostral
N – tamanho da população

Por exemplo: se ε = 0,05 e N = 200.000, temos:

1 1 1
n0 = = = = 400
ε 2 ( 0, 05) 2 0,0025
n0 400 400
n= = = = 399, 20 ≅ 399
n0 400 1,002
1+ 1+
N 200000

Se aumentarmos o erro, por exemplo, para ε = 0,10, teremos:


1 1 1
n0 = = = = 100
ε 2 (0,10) 2 0,01
n0 100 100
n= = = = 99,95 ≅ 100
n0 100 1,0005
1+ 1+
N 200000

É necessário considerar que amostra deve ser representativa da população, ou seja:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 12


Por exemplo:

Ou seja, o que influência o tamanho da amostra é o tamanho da população em estudo e o erro


amostral admitido.

9.3 Processo de sorteio dos elementos da amostra

Uma vez determinado o tamanho inicial da amostra, deve-se realizar o sorteio dos elementos que
irão compô-la. Este processo depende do Método de Amostragem a ser adotado.

a) Amostragem Aleatória Simples

Neste método, todos os elementos da população têm a mesma chance (probabilidade – 1/n) de
serem selecionados. Atribui-se a cada elemento da população um número distinto. Efetuam-se
sucessivos sorteios até completar o tamanho da amostra n. Para realizar o sorteio, utilizar a Tabela
de Números Aleatórios - TNA (anexo) que consistem em tabelas que apresentam dígitos de 0 à 9
distribuídos aleatoriamente.

Por exemplo:

Suponha uma população com 500 elementos, que numeramos de 000 a 499 para selecionar
uma amostra aleatória de n=50 elementos.
O processo termina quando for sorteado o elemento 50. A probabilidade de cada elemento ser
selecionado é p=1/50

b) Amostragem Sistemática

Conveniente quando a população está ordenada segundo algum critério como fichas, lista telefônica
etc.

Procedimento:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 13


( de 1 até k)

Exemplo:
Se N = 5.000 é o tamanho da população e precisamos de uma amostra de n = 250, dividimos N/n =
20. Selecionamos ao acaso um número de 1 à 20. Suponha que saiu o número 7:
1a unidade a ser selecionada 7a
2a unidade a ser selecionada 20 + 7 = 27a
3a unidade a ser selecionada 27 + 20 = 47a
67a, 87a,..., 4987a dando um total de 250 unidades.

c) Amostragem Estratificada

Neste caso, os elementos da população estão agrupados em subpopulações mais ou menos


homogêneas denominadas estratos, e distintos entre si. Os estratos são mutuamente exclusivos, ou
seja N1 + N2 + ...+ Nk = N.
Após a determinação dos estratos, seleciona-se uma amostra aleatória simples de cada estrato.
Existem dois tipos de amostragem estratificada:
1) De mesmo tamanho ou Uniforme;
2) Proporcional.
No primeiro tipo sorteia-se igual número de elementos em cada estrato. Esse processo é utilizado
quando o número de elementos por estrato for aproximadamente o mesmo, ou seja, n1 = n2 = ...=
nk e n1 + n2 + ...+ nk = n
No outro caso, utiliza-se proporção para determinar o número de elementos de cada estrato
que irão compor a amostra, ou seja, n1 ≠ n2 ≠ ...≠ nk, mas n1 + n2 + ...+ nk = n

As varáveis de estratificação mais comuns são: classe social, idade, sexo, profissão.

Exemplo: Numa localidade com 150 000 habitantes, 45 000 têm menos de 20 anos de idade, 75 000
têm idades entre 30 e 50 anos e 30 000 têm mais de 50 anos de idade. Extrair uma amostra de 30
habitantes desta população pelo processo de amostragem estratificada com partilha proporcional.

N = 150 000, N1 = 45 000, N2 = 75 000, N3 = 30 000 e n = 30

45 000 75 000 30 000


n1 = 30 ∴ n1 = 9 ; n 2 = 30 ∴ n1 = 15 ; n 3 = 30 ∴ n1 = 6
150000 150000 150000
Peso 1 = w1 Peso 2 = w2 Peso 3 = w3

A amostra deverá conter 9 habitantes com menos de 20 anos, 15 com idades entre 20 e 50 anos 6
com mais de 50 anos.

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 14


d) Amostragem por conglomerados

Neste tipo de amostragem, a população total é subdividida em grupos, ou seja, em M


conglomerados (C1, C2, ..., CM), de tamanhos não necessariamente iguais. Usando AAS, sorteiam-se
m conglomerados (m < M). Os elementos destes constituirão a amostra, no processo chamado de
Amostragem por conglomerados em um estágio.
Quando se sorteiam elementos dentro dos conglomerados selecionados, temos uma Amostragem
por conglomerados em dois estágios: no primeiro estágio sorteiam-se os conglomerados e, no
segundo, sorteiam-se os elementos.

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 15


10. Apresentação Tabular

Um dos métodos usados para a apresentação de dados estatísticos que consegue expor os resultados
sobre determinado assunto num só local, sinteticamente, de tal modo que se tenha uma visão mais
globalizada daquilo que se vai analisar.

A apresentação tabular dos dados estatísticos se faz mediante tabelas (ou quadros), resultantes da
disposição dos respectivos dados em linhas e colunas distribuídas de modo ordenado, seguindo
regras práticas adotadas pelos diversos sistemas estatísticos. No Brasil, essas regras foram fixadas
pelo Conselho Nacional de Estatística, por meio da Resolução nº 886, de 26 de outubro de 1966.

10.1 Tabela

Define-se tabela como um conjunto de dados estatísticos associados a um fenômeno, dispostos em


uma ordem de classificação, em uma organização racional e prática de apresentação.
Uma tabela pode ser simples ou de dupla entrada.

10.1.1 Tabela simples

É aquela composta de uma coluna matriz, também chamada coluna indicadora, onde vão inscritos
os valores ou modalidades de ordem de classificação e da coluna em que aparecem os valores que
representam as ocorrências ou intensidades do fenômeno em causa.

10.1.2 Tabela de dupla entrada

É aquela própria à apresentação das distribuições de dois atributos, qualitativos ou quantitativos, em


que existem duas ordens de classificação: uma horizontal e outra em coluna indicadora; nos
cruzamentos formados pelas linhas com as colunas encontra-se a freqüência dos indivíduos que
apresentam conjuntamente as alternativas correspondentes à linha e à coluna que sobre ela se
cruzam.

10.2 Elementos de uma Tabela

No Brasil, a apresentação tabular é regida pelas Normas de Apresentação Tabelar do IBGE


(1993)/NBR 14724 da ABNT. As tabelas estatísticas compõem-se de elementos essenciais e
elementos complementares.

a) Elementos essenciais:

Os elementos essenciais de uma tabela são: título, corpo, cabeçalho e coluna-indicadora.

b) Elementos complementares:

Os elementos complementares de uma tabela estatística são: fonte, notas e chamadas, todos situados
no rodapé da tabela.

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 16


Coluna
Coluna numéricas
Indicadora Titulo
Categorias Qtde em cada categoria ou
ou variável
Cabeçalho
Variáveis f (unidades) fr ou %

Corpo

Linhas
Total

Rodapé

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 17


11. Séries Estatísticas

Denomina-se série estatística a um conjunto de valores numéricos associados a um fenômeno e que


expressa suas variações no tempo, no local e na espécie.

As séries podem ser divididas em dois grupos:

- Séries homógradas;
- Séries heterógradas.

11.1 Séries homógradas

Aplicadas no caso em que a variável é discreta.

As séries temporais, geográficas e específicas formam as principais séries homógradas.

a) Séries temporais (cronológicas, evolutivas, históricas ou marchas)

São séries em que a variável de estudo varia em função da época ou do tempo, permanecendo fixos
a região ou o local e o fenômeno.

Exemplo: Produção de Petróleo Bruto – Brasil (1000 m³)


Anos Produção
1976 9.702
1977 9.332
1978 9.304
1979 9.608
1980 10.562
Fonte: Conjuntura Econômica, fev/83

b) Séries geográficas (espaciais ou de localização, territoriais)

São séries em que a variável de estudo varia em função da região, do local ou do espaço,
permanecendo fixos a época ou o tempo e o fenômeno.

População Estimada por Estado - 2007

Estados População
Rio de Janeiro 15.420.375
São Paulo 39.827.570
Ceará 8.185.286
Amazonas 3.221.939
Minas Gerais 19.273.506

Fonte: IBGE

c) Séries específica (categóricas, qualitativas)

São séries em que a variável de estudo varia em função do fenômeno, permanecendo fixos a época
ou o tempo e a região ou local.

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 18


Produção Agrícola no Brasil – 1974
(Produtos Selecionados)

Especificações Produção em 1.000 t


Algodão em caroço 1.959
Cacau 165
Café 3.220
Cana de açúcar 96.412
Soja 7.876
Fonte: Revista Comércio e Mercado, mar/76

Freqüentemente, são usadas séries estatísticas conjugadas, onde são cruzados dois ou mais tipos de
séries; pode-se ter as conjugações geográfico-temporal (ou espaço-temporal), geográfico-
especificativa, especificativo-temporal, especificativo-geográfico-temporal etc.

Exemplos:

a) Série geográfico-temporal (espaço-temporal)

Agências do Banco do Brasil - 2011 a 2012


Estados 2011 2012
Rio de Janeiro 10 15
Ceará 12 20
Amazonas 5 10
Minas Gerais 20 30
Fonte: IBGE

b) Série geográfico-específica

Produção das principais lavouras do Nordeste


Estados Produção (1.000 t)
Arroz Arroz
Maranhão 11 16
Ceará 13 21
Bahia 6 12
Pernambuco 21 32
Fonte: IBGE

c) Série específico-temporal

Evolução do corpo docente do


Sistema Educacional (2010 – 2011)
Nível Anos
2010 2011
Básico 10.000 15.000
Fundamental 12.000 20.000
Superior 20.000 30.000
Fonte: INEP

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 19


11.2 Séries heterógradas

Mais comumente chamadas de Distribuições de Freqüências, mantendo fixos a época, a região e o


fenômeno.

11.2.1 Distribuições de Freqüência (série de freqüências)

É uma série em que o fenômeno, a época e a região permanecem fixos, porém o fenômeno pode ser
subdividido em grupos de classes que têm a finalidade de tornar mais cômodo o estudo.

Defini-se freqüência (ou freqüência simples) de um dado valor de uma variável (qualitativa ou
quantitativa) como o número de vezes que esse valor foi observado.
Denota-se a freqüência do i-ésimo valor observado por fi.

Define-se freqüência total ft como a soma de todos os elementos observados nas freqüências
simples. Sendo o n o número total de valores observados, verifica-se imediatamente que:

n
ft = ∑ fi = n
i =1

Define-se freqüência relativa fri (ou freqüência relativa simples), ou proporção, de um dado valor
de uma variável (qualitativa ou quantitativa), como o quociente de sua freqüência pelo número total
de elementos observados, da seguinte forma:
fi
fri =
n
n

Lembrando que: ∑f
i =1
i =n

Define-se freqüência absoluta acumulada F (ou Fac) como a soma das freqüências simples das
classes inferiores com a da classe considerada, da seguinte forma:
j≤k
Fj = ∑ fi
i =1

Define-se freqüência relativa acumulada Fri (ou Fra) como o quociente da freqüência absoluta
acumulada (F) pelo total de dados observados (n), ou seja:
Fi
Fri =
n
Estas freqüências são condensadas em uma única tabela, de fácil manejo, denominada Tabela de
Distribuição de Freqüências.

Dependendo da variável de estudo (qualitativa ou quantitativa), as tabelas de distribuição de


freqüências serão classificadas em:

- Tabelas de Freqüência para Dados não Agrupados ou não Tabulados em Classe;


- Tabelas de Freqüência de Dupla Entrada para Dados não Agrupados ou não Tabulados em
Classe;
- Tabelas de Freqüência para Dados Agrupados ou Tabulados em Classe.

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 20


1) Tabela de Freqüência para Dados não Agrupados ou não Tabulados em Classe

a) Variável qualitativa

Neste caso, usamos uma tabela simples, onde em um coluna são apresentadas as categorias, em
outra as freqüências e em uma terceira as freqüências relativas, conforme exemplo abaixo:
Título:
Freqüências
Categorias f (unidades) F fr ou ( %) Fra ou (%)

n
Total
∑f
i =1
i =n
Fonte:

Exemplo:

Distribuição dos fundos relativos por Estados


Freqüências
Categorias f (unidades) F fr ou ( %) Fra ou (%)

São Paulo 38 38 0,281 ou 28,1% 0,281 ou 28,1%


Rio de Janeiro 30 68 0,222 ou 22,2% 0,503 ou 50,3%
Rio Grande do 35 103 0,259 ou 25,9% 0,762 ou 76,2%
Sul
Minas Gerais 15 118 0,111 ou 11,1% 0,873 ou 87,3%
Demais Estados 17 135 0,127 ou 12,7% 1 ou 100%
Total 135 1 ou 100%

Exemplo usando o R:

a) Seja a variável qualitativa (categórica) Sexo, da planilha de dados do Anexo "Dados", da


apostila:

Vamos fazer a entrada de dados pelo R e selecionar esta variável, da seguinte forma:

library(readxl) # pacote de leitura de dados de uma planilha do Excel

# Leitura com `readxl`####


df <- read_excel("dados_alunos1.xls",
col_names = TRUE,
sheet = 1)

df %>% select(SEXO)

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 21


O R apresenta a seguinte saída:
> df %>% select(SEXO)
# A tibble: 45 x 1
SEXO
<chr>
1 MASCULINO
2 FEMININO
3 FEMININO
4 FEMININO
5 MASCULINO
6 MASCULINO
7 MASCULINO
8 FEMININO
9 FEMININO
10 MASCULINO
# ... with 35 more rows

Então, temos aí 45 observações desta variável. Mesmo sendo uma quantidade pequena, é
muito para fazer a contagem manual. Para reduzir este tempo, vamos utilizar o R com os seguintes
comando:

library(tidyverse) # conjunto de pacotes para Ciência de Dados


library(dplyr) # pacote para manipular os dados
library(flextable) # pacote para fazer tabelas

df %>% group_by(SEXO) %>% summarise(f = n()) %>%


mutate(Fac = cumsum(f)) %>%
mutate(fr = round(f / sum(f) *100 , digits = 2)) %>%
mutate(Fra = cumsum(fr)) %>%
flextable() %>% fit_to_width(max_width = 7) %>%
colformat_double(big.mark=".", decimal.mark = ",", na_str = "N/A") %>%
set_caption(("Tabela de distribuição de frequências da Variável Sexo"), style = "Table
Caption")

O que gera a seguinte tabela:

b) Variável quantitativa discreta

Neste caso, usamos uma tabela simples, onde em uma coluna são apresentados os valores da
variável, e nas outras as freqüências, conforme exemplo abaixo:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 22


Título
Freqüências
Variável Discreta f (unidades) F fr ou ( %) Fra ou (%)

Valor 1

Valor n
n
Total
∑f
i =1
i =n
Fonte:

Exemplo:
Seja o número de defeitos por unidade, obtidos a partir de aparelhos retirados de uma linha de
montagem:
2, 4, 2, 1, 2, 3, 1, 0, 5,1, 0, 1, 1, 2, 0, 1, 3, 0, 1, 2

Para montar um tabela com estes dados, fazemos:

Freqüências
Nr de defeitos f (unidades) F fr ou ( %) Fra ou (%)

0 4 4 20 20
1 7 11 35 55
2 5 16 25 80
3 2 18 10 90
4 1 19 5 95
5 1 20 5 100
Total 20

Exemplo usando o R:

# Cria-se um dataframe###
dat <- data.frame(Defeitos = c(2, 4, 2, 1, 2, 3, 1, 0, 5,1, 0, 1, 1, 2, 0, 1, 3, 0, 1, 2))

# Faz-se a tabela###
dat %>% count(Defeitos) %>% mutate(Defeitos = as.character(Defeitos),
f = n,
Fac = cumsum(f),
fr = round(f / sum(f) *100 , digits = 2),
Fr = cumsum(fr)
) %>% select(-n) %>%
flextable() %>% fit_to_width(max_width = 7) %>%
colformat_double(big.mark=".", decimal.mark = ",", na_str = "N/A") %>%
set_caption(("Tabela de distribuição do Nr de Defeitos"), style = "Table Caption")

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 23


A tabela seria:

2) Tabela de Freqüência Dupla Entrada para Dados não Agrupados ou não Tabulados em Classe

Este tipo de tabela se aplica quando estamos trabalhando com duas ou mais variáveis. Neste
caso, estaremos interessados em realizar uma análise conjunta das variáveis escolhidas. A tabela de
dupla entrada, tem seguinte forma:
Título:
Variável 2
Variável 1
Catg. 1 ... Catg n Total
Catg. 1
...
Catg. n
Total
Fonte:

Exemplo:

Exemplo usando o R:
Por exemplo: vamos selecionar dos dados da planilha no anexo "Dados", a variável "SEXO" e a
variável "Cor dos Olhos", da seguinte maneira:

df %>% select(SEXO, `COR DOS OLHOS`)

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 24


O que resulta:

> df %>% select(SEXO, `COR DOS OLHOS`)


# A tibble: 45 x 2
SEXO `COR DOS OLHOS`
<chr> <chr>
1 MASCULINO CASTANHOS
2 FEMININO CASTANHOS
3 FEMININO VERDES
4 FEMININO CASTANHOS
5 MASCULINO AZUIS
6 MASCULINO CASTANHOS
7 MASCULINO CASTANHOS
8 FEMININO CASTANHOS
9 FEMININO CASTANHOS
10 MASCULINO CASTANHOS ESCUROS
Desta forma, temos que contar os pares (Sexo, Cor dos Olhos). Assim, vamos poder
construir uma tabela de dupla entrada. Fazendo:

brd <- fp_border_default(color = "black", style = "solid", width = 2)

df %>% select(SEXO, `COR DOS OLHOS`) %>% group_by(SEXO, `COR DOS OLHOS`)
%>% summarise(f = n(), .groups = 'drop') %>% pivot_wider(names_from = `COR DOS
OLHOS`, values_from = f) %>% flextable() %>% fit_to_width(max_width = 7) %>%
colformat_num(big.mark=".", decimal.mark = ",", na_str = 0) %>%
set_caption(("Tabela de Distribuição por Sexo e Cor dos Olhos"), style = "Table Caption")%>%
add_header_row( values = c("SEXO", "COR DOS OLHOS"),
colwidths = c(1, 5), top = T) %>% align(align = "center", part = "header") %>%
hline_top(part = "header", border = brd) %>%
vline(j = 1, part = "all", border = brd) %>%
merge_at(i = c(1:2),j = 1, part = "header") %>%
hline(part = "header", border = brd)

Que resulta em:

3) Tabela de Freqüências para Dados Agrupados ou Tabulados em Classe

É utilizada quando temos uma variável quantitativa (contínua ou discreta em grande quantidade – n
≥ 25). Neste caso, a Tabela de Distribuição de Freqüências é composta por intervalo de classes,
freqüências, freqüências relativas, freqüências acumuladas e freqüências relativas acumuladas.
Sua construção é bastante simples e segue o roteiro abaixo:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 25


1. Determina-se o maior e o menor número dos dados brutos;
2. Calcula-se a Amplitude Total AT, dado por AT = Xmaior – Xmenor;
3. Determina-se o nº de intervalos de classe k, dado por k = 1 + 3,322 (log10 n) (Fórmula de
Sturges)
AT
4. Determina-se a amplitude do intervalo de classe h, dado por: h =
5. Determina-se os limites dos intervalos de classe; k
6. Determina-se o número de observações que caem dentro de cada intervalo, para com isto,
determinar as freqüências de classe.
Observação:
Pode-se usar, também, para determinar o número de classe k, a regra da raiz dada por k = n ,
sendo o n a quantidade de dados.

Observe a comparação entre os dois métodos:

Seu formato é o seguinte:

Título:
Fri
Xi Fi fri
Ordem da Intervalos fi Freqüência
(Ponto Freqüência Freqüência
Classe i de classe Freqüência Relativa
médio) Acumulada Relativa
Acumulada
l+L
1 Linf |-- LSup f1 F1 fr1 Fr1
2
...
...
K
n n
Total ∑f
i =1
i =n ∑ fr i
i =1
Fonte:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 26


Onde:

a) Ordem dos Intervalos de Classes:


São representadas simbolicamente por i , sendo i = 1, 2, 3,..., k, onde k é o número total de classes.

b) Intervalos de classes

Os intervalos são compostos pelo extremos de cada classe e pela amplitude dos intervalos de classe.
Para determinada classe i, limite inferior é simbolizado por li e o limite superior por Li. De acordo
com o IBGE, as classes devem ser escritas empregando-se os símbolos "|---", "---" ou "|---|",
conforme o caso.
A amplitude dos intervalos de classes hi é o tamanho do intervalo que define a classe. Para cada
classe i , a amplitude do intervalo é simbolizado por hi e é obtido pela diferença entre os seus
limites, ou seja
hi = Li − li
d) Ponto médio de uma classe
É o ponto que divide a classe no meio. O ponto médio da classe i é simbolizado por Xi e calculado
por l + Li
Xi = i
2
O ponto médio é o valor representativo da classe.

e) Freqüências

Freqüência simples ou absoluta (fi)


Freqüência relativa (fri)
Freqüência acumulada (Fi)
Freqüência relativa acumulada (Fra i)

Obs:
1) Na construção da tabela de distribuição de freqüências, podem ser usado os seguintes
símbolos:
a) "|---": indica que o intervalo irá conter o valor que se encontra à esquerda deste símbolo
(limite inferior - l), mas não irá conter o valor que está à direita (limite superior -L),
equivalente ao seguinte intervalo [a, b[;
b) "---": que indica que tanto o valor da sua esquerda (l) quando o valor da sua direita (L)
não serão incluídos no intervalo, equivalente ao intervalo ]a, b[; e
c) "|---|": que indica que ambos valores (l e L) serão incluídos no intervalo, equivalente ao
intervalo [a, b].

2) O valor de k deve ser sempre arredondado, independente do tipo de variável numérica


(discreta ou contínua), para o número inteiro imediatamente superior a k ou o número inteiro
imediatamente inferior a k, conforme as regras de arredondamento;
3) O valor de h deve ser arredondado, seguindo as regras de arredondamento, quando a
variável numérica for discreta (exemplo: idade, notas de teste, ou outra qualquer);
quando for contínua não é necessário fazer este arredondamento, pois são permitidos,
aqui, valores fracionados, desde que, no final do processo, todos os dados sejam distribuídos
na tabela;
4) Verifique após os cálculos de AT, k e h se AT < k.h, e nesse caso empregue o símbolo
"|---", na tabela; caso AT = k.h, pode-se usar o símbolo "|---|" na construção da tabela, deste
que todos os dados sejam distribuídos na mesma; caso isso não aconteça, o valor de h deve
ser arredondado para o maior inteiro, no caso discreto, e para o numero fracionado

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 27


maior do que o valor de h calculado anteriormente, no caso contínuo, obedecendo o
número de casas decimais da variável em estudo.;

5) O primeiro valor a ser inserido na tabela de distribuição de freqüências deve ser o menor
valor do rol de dados, ou seja, o Xmenor;

Exemplo: sejam 25 valores da variável diâmetro de peças produzidas por uma máquina em
milímetros:
21,5 21,4 21,8 21,5 21,6
21,7 21,6 21,4 21,2 21,7
21,3 21,5 21,7 21,4 21,4
21,5 21,9 21,6 21,3 21,5
21,4 21,5 21,6 21,9 21,5

Seguindo o roteiro, temos:


1. n = 25
2. Maior: 21,9; Menor: 21,2
3. AT = 21,9 – 21,2 = 0,70
4. K = 1 + 3,322Log n = 1 + 3,322 log(25) = 5,61 ≅ 6
5. h = AT / k → h = 0,70 / 6 = 0,12
6. AT < k.h → 0,70 < (6 * 0,12 = 0,72) → Ok

Para montar a tabela de distribuição de freqüências, devemos antes fazer o ordenamento dos dados,
da seguinte forma:
21,2 21,3 21,3 21,4 21,4

21,4 21,4 21,4 21,5 21,5

21,5 21,5 21,5 21,5 21,5

21,6 21,6 21,6 21,6 21,7

21,7 21,7 21,8 21,9 21,9

A tabela de Distribuição de Freqüências fica assim:

"Distribuição de Freqüências do diâmetro de peças produzidas"


Classe Intervalos de classe X f F Fr Fra
1 21,20 |-- 21,32 21,26 3 3 0,12 0,12
2 21,32 |-- 21,44 21,38 5 8 0,20 0,32
3 21,44 |-- 21,56 21,50 7 15 0,28 0,60
4 21,56 |-- 21,68 21,62 4 19 0,16 0,76
5 21,68 |-- 21,80 21,74 3 22 0,12 0,88
6 21,80 |-- 21,92 21,86 3 25 0,12 1,00
25

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 28


Exemplo usando o R:

Os cálculos anteriores poderiam ser obtidos com o auxílio do R, por meio dos seguintes comandos:

# criando a variável "df" e colocando os valores observados nela

df<-c(21.5, 21.4, 21.8, 21.5, 21.6, 21.7, 21.6, 21.4, 21.2, 21.7, 21.3, 21.5, 21.7, 21.4,
21.4, 21.5, 21.9, 21.6, 21.3, 21.5, 21.4, 21.5, 21.6, 21.9, 21.5)
df # verificando os resultados
[1] 21.5 21.4 21.8 21.5 21.6 21.7 21.6 21.4 21.2 21.7 21.3 21.5 21.7 21.4 21.4
[16] 21.5 21.9 21.6 21.3 21.5 21.4 21.5 21.6 21.9 21.5

####Menor e maior valores###


menor = df %>% min()
menor
maior = df %>% max()
maior

###Amplitude Total###
AT = maior - menor
AT

###Nr de intervalos####
k = ceiling(1 + 3.322*log(n, 10))
k
[1] 6

####Amplitude dos intervalos de classe####


h<-AT/k # calculando h
>h
[1] 0.1166667

h<-round(h, 2) # arredondando para 2 casas


>h
[1] 0.12

###Teste para verificar se está tudo certo####


AT < k*h # verificando AT < k*h
[1] TRUE # resposta verdadeira

###Ordem dos intervalos####


Ord <- seq(1,k, 1)
Ord

####Criando os limites####
ini <- menor
br <- 0
for(i in 1:(k+1)){
br[i] <- round(ini, 3)
ini <- ini + h
}

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 29


br
[1] 21.20 21.32 21.44 21.56 21.68 21.80 21.92

Limites <- cut(df, dig.lab = 4, breaks = br, right = F, include.lowest = F)

table(Limites)

Limites
[21.2,21.32) [21.32,21.44) [21.44,21.56) [21.56,21.68) [21.68,21.8) [21.8,21.92)
3 5 7 4 3 3

###Usando o pacote fdth com o flextable####

dist <- fdt(df,start=menor,end=maior+h,h=h) # cria a tabela com o pacote "fdth"

glimpse(dist)

dist <- cbind(Ord, dist$table)

dist <- cbind(dist, PM)

dist %>% flextable() %>%


fit_to_width(max_width = 7) %>%
colformat_double(j = c(1,3), big.mark=".", digits = 0, decimal.mark = ",", na_str = "N/A") %>%
colformat_double(j =c(4:8), big.mark=".", digits = 2, decimal.mark = ",", na_str = "N/A") %>%
autofit() %>%
set_caption(("Tabela de distribuição de frequências da Variável Diâmetro"), style = "Table
Caption")

O que resulta:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 30


###Usando o comando "transform" e flextable####

dist <- cbind(Ord, transform(table(Limites)))


dist <- transform(dist, Rel_freq = prop.table(Freq), Cum_freq = cumsum(Freq))
dist <- transform(dist, Cum_rel_freq = cumsum(Rel_freq))

dist <- cbind(dist, PM)

dist %>% flextable() %>%


fit_to_width(max_width = 7) %>%
colformat_double(j = c(1,3), big.mark=".", digits = 0, decimal.mark = ",", na_str = "N/A") %>%
colformat_double(j =c(4:7), big.mark=".", digits = 2, decimal.mark = ",", na_str = "N/A") %>%
autofit() %>%
set_caption(("Tabela de distribuição de frequências da Variável Diâmetro"), style = "Table
Caption")

O que resulta em:

##Usando o dplyr e flextable####

dist <- data.frame(Limites)


dist <- dist %>% count(Limites) %>% mutate(f = n,
Fac = cumsum(f),
fr = round(f/sum(f)*100, 3),
Fr = cumsum(fr)) %>% select(-n)

dist <- cbind(Ord, dist, PM)

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 31


dist %>% flextable() %>%
fit_to_width(max_width = 7) %>%
colformat_double(j = c(1,3), big.mark=".", digits = 0, decimal.mark = ",", na_str = "N/A") %>%
colformat_double(j =c(4:7), big.mark=".", digits = 2, decimal.mark = ",", na_str = "N/A") %>%
autofit() %>%
set_caption(("Tabela de distribuição de frequências da Variável Diâmetro"), style = "Table
Caption")

O que resulta em:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 32


12. Representação gráfica das séries estatísticas

Uma vez montada a tabela com as devidas freqüências, os dados podem ser representados de
diversas formas. Toda representação gráfica deve obedecer aos seguintes requisitos:
- Simplicidade;
- Clareza; e
- Veracidade.
Os principais tipos de representação gráfica são:
- Diagramas;
- Estereogramas;
- Cartogramas;
- Pictogramas.

12.1 Diagramas

São representações geométricas no espaço bidimensional. Os principais diagramas são:


- Gráfico em colunas;
- Gráfico em barras;
- Gráfico em setores;
- Gráfico de porcentagens complementares;
- Gráfico polar;
- Diagrama de ramo-e-folhas;
- Diagrama de pontos;
- Histograma
- Polígono de freqüências;
- Gráficos lineares ou de linhas.

Gráficos em colunas e em barras


a) Gráfico em colunas b) Gráfico em Barras

c) Gráfico em colunas duplas


c) Gráfico em colunas duplas d) Gráfico em colunas empilhadas

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 33


Gráfico em setores e porcentagens complementares

a) Gráfico em setores b) Porcentagens complementares

Gráfico polar

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 34


Diagrama de ramo-e-folha Ramo Folha
4 | 06
5 | 37
Representa um conjunto de dados quantitativos separando 6 | 379
cada valor em duas partes: ramo (como o dígito mais à 7 | 446
esquerda) e a folha( como o dígito mais à direita). 8 | 157
Ex: sejam os seguintes valores: 9 | 01488
10 | 58
11 | 16
4.00 4.56 5.25 5.73 6.26 6.66 6.86 7.39 7.44 7.59 8.12 12 | 08
8.46 8.74 8.95 9.13 9.35 9.77 9.80 10.53 10.76 11.06 13 | 269
11.59 12.00 12.79 13.23 13.60 13.85 14.69 14.71 15.99 14 | 77
16.22 16.61 17.26 18.75 19.40 23.30 15 |
16 | 026
17 | 3
18 | 8
19 | 4
20 |
21 |
22 |
23 | 3

Diagrama de Pontos

É útil para avaliar se há ou parece haver alguma estrutura no processo de observação dos dados.

Histograma

A representação gráfica da Tabela de Distribuição de Freqüências é o histograma, que é formado


por um conjunto de retângulos justapostos cujas bases se localizam no eixo horizontal, de tal modo
que seus pontos médios coincidam com os pontos médios dos intervalos de classe e seus limites
coincidam com os limites das classes.
Por exemplo:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 35


Juntamente com o histograma, também é apresentado o Polígono de Freqüências, conforme o
gráfico abaixo:
`

Alguns programas estatísticos apresentam o histograma com a curva da Distribuição Normal,


conforme o gráfico abaixo:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 36


E para as freqüências absolutas acumuladas, podemos construir o Gráfico de Freqüências
Acumuladas:

Além dos gráficos vistos anteriormente, são usados também os seguintes gráficos para representar
dados estatísticos:

Gráfico de linha

São amplamente empregados para representar fenômenos contínuos no tempo (série temporal)
Neste gráfico, temos no eixo x a variável tempo, que é a principal característica de uma série
temporal.

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 37


Gráfico de dispersão

Onde representamos o comportamento da relação entre a variável x e a variável y.

Boxplot

Este gráfico mostra como está o comportamento da distribuição dos dados. É utilizado para avaliar
a distribuição empírica do dados. Ele será detalhado mais adiante.

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 38


12.2 Estereogramas

São representações geométricas no espaço tridimensional. Os volumes dos sólidos geométricos


devem ser proporcionais aos valores da série que procura representar.
Ex.:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 39


12.3 Cartogramas

São ilustrações em cartas geográficas. Neste tipo de representação se relacionam os valores da série
(que é sempre geográfica ou espacial) com seus respectivos locais de ocorrência.
Ex.:

12.4 Pictogramas

São gráficos construídos a partir de figuras ou conjunto de figuras representativas da intensidade do


fenômeno. Têm a vantagem de despertar a atenção do público leitor.
Ex.:

Exercício: com base nas tabelas geradas anteriormente, construa os gráficos apropriados.

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 40


13. Características numéricas de uma distribuição de freqüências

13.1 Medidas de Posição ou Localização

Essas medidas fornecem valores que caracterizam o comportamento de uma série de dados,
indicando a posição ou a localização dos dados em relação ao eixo dos valores assumidos pela
variável ou característica em estudo.
As medidas de posição ou localização são subdivididas em medidas de tendência central (média,
mediana e moda) e medidas separatrizes (quartis, quintis, decis e percentis).

13.1.1 Medidas de Tendência Central

São indicadores que permitem que se tenha uma primeira idéia ou resumo, do modo como se
distribuem os dados de uma variável aleatória.

Sevem para localizar a distribuição de freqüências sobre o eixo de variação da variável em questão.

13.1.1.1 Média Aritmética ou simplesmente Média

E o valor representativo de um conjunto de valores que corresponde ao centro de gravidade da


distribuição de freqüências.

Podemos obter a média da seguinte forma:

Para dados simples Para dados com freqüência


n k

∑ Xi ∑X i fi k
X = i =1
X = i =1
, onde n = ∑ f i
n n i =1

Sendo xi , com i = 1, 2,..., n, o conjunto de dados sem freqüências ou não agrupados.

No caso em que os dados foram distribuídos em intervalos de classes de freqüências, podemos


calcular a média utilizando a expressão acima (2º caso), mas substituindo os xi pelos pontos médios
das classes.

Propriedades da média

a) a soma algébrica dos desvios tomados em relação à média é nula.

∑ ( x − X ) = 0.
i

b) a soma algébrica dos quadrados dos desvios (em relação à média) é mínima.

∑ (x − X ) ≤ ∑ (x − y ) ,
i
2
i i
2
onde X ≠ yi .

c) somando ou subtraindo uma constante a todos valores de uma variável, a média ficará acrescida
ou subtraída dessa constante.

∑ ( x + k ) = ∑ x + ∑ k = ∑ x + nk = X + k .
i i i

n n n

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 41


d) multiplicando (ou dividindo) todos os valores de uma variável por uma constante, a média ficará
multiplicada ou dividida por essa constante.

∑ kx i
=
k ∑ xi
= kX .
n n
Obs: além da média aritmética, temos outras médias a saber:

13.1.1.2 Média Geométrica:

Quando os dados crescem de forma exponencial, a média aritmética pode não representar bem os
dados. Neste caso, utiliza-se a média geométrica.

Podemos obter a média geométrica por:

Para dados simples Para dados com freqüência


∏x
k
G=n i G=n ∏ X i fi , onde n = ∑ f i
i =1

Quando o número de observações for muito grande, é aconselhável o emprego de logaritmos


(decimal ou neperiano)
1
G=n ∏ xi = ∏ xin
Aplicando o logaritmo decimal em G, temos:
 1
1 1 ∑ log xi
log G = log ∏ xi  = log[∏ xi ] = ∑ log xi =
n
  n n n

Para obter G, temos que calcular o antilog da seguinte maneira:

Para dados simples Para dados com freqüência


 ∑ log xi   ∑ f i log xi  k
G = anti log 
 n


G = anti log 
 n


, onde n = ∑
i =1
fi

13.1.1.3 Média harmônica

É utilizada quando estamos trabalhando com grandezas inversamente proporcionais ou quando


temos situações em que a média de taxas é desejada.

A média harmônica pode ser calculada da seguinte forma:

Para dados simples Para dados com freqüência


k
n n
H= H= , onde n = ∑ f i
1 f
∑x ∑ Xi i =1

i i

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 42


Relação entre a média aritmética, geométrica e harmônica

A média geométrica é menor do que ou igual à média aritmética, mas é maior do que ou igual à
média harmônica, ou seja,

H ≤G≤ X

13.1.1.4 Média Quadrática ou Raiz Média Quadrática (RMQ)

Ë um tipo de média que é calculada com base nos valores de x elevados ao quadrado. É definida
por:

Para dados simples Para dados com freqüência

∑X ∑X
2 2
f k
RMQ = X =
2
RMQ = X = 2
, onde n = ∑ f i
n n i =1

Exemplo:
a) Valores sem freqüência ou não agrupados

x = 2, 2, 3, 5, 6, 8, 8, 8, 10
n

∑X i
2 + 2 + 3 + 5 + 6 + 8 + 8 + 8 + 10 52
X = i =1
= = = 5,78
n 9 9

G=n ∏x i = 9 2 * 2 * 2 * 5 * 6 * 8 * 8 * 8 * 10 = 9 18432000 = 4,97


 ∑ log xi   log 2 + log 2 + log 3 + log 5 + log 6 + log 8 + log 8 + log 8 + log 10 
G = anti log   = anti log   =
 n   9
 0.301 + 0.301 + 0.477 + 0.699 + 0.778 + 0.903 + 0.903 + 0.903 + 1.000 
= anti log   =
 9
 6.266 
= anti log   = anti log(0,696) = 10 0,696 = 4,97
 9 
n 9
H= = =
1 1 1 1 1 1 1 1 1 1
∑ x 2 + 2 + 3 + 5 + 6 + 8 + 8 + 8 + 10
i

9 9
= = = 4,14
0.50 + 0.50 + 0.333 + 0.200 + 0.167 + 0.125 + 0.125 + 0.125 + 0.100 2,175

Verificamos que : H ≤ G ≤ X , pois 4,14 < 4,97 < 5,78

Usando o R, teríamos o seguinte:

#######Entrada de Dados######
x <- c(2, 2, 3, 5, 6, 8, 8, 8, 10)

#######Transformação em Dataframe####
dist <- data.frame(x)

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 43


######Criação da Tabela#####
dist <- dist %>% mutate(`log x` = round(log(x, 10), 3),
`1/x` = round(1/x, 3))

Ord <- seq(1: nrow(dist))

dist <- cbind(Ord, dist)

total <- matrix(c("Total", sum(x), sum(dist$`log x`), sum(dist$`1/x`)), 1, ncol(dist))

colnames(total) <- names(dist)

total <- total %>% as_tibble()

total$x <- as.numeric(total$x)


total$`log x` <- as.numeric(total$`log x`)
total$`1/x` <- as.numeric(total$`1/x`)

new_row <- as.list(total)

dist %>% flextable() %>%


fit_to_width(max_width = 7) %>%
add_footer(values = new_row) %>%
align(part = "footer", align = "right", j = 1:4) %>% autofit() %>%
colformat_double( j = c(1,2), big.mark=".", digits = 0, decimal.mark = ",", na_str = "N/A") %>%
colformat_double( j = c(3, 4), big.mark=".", digits = 3, decimal.mark = ",", na_str = "N/A") %>%
set_caption(("Exemplo de Cálculo de Médias"), style = "Table Caption")

O que resulta em:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 44


Aplicando as fórmulas, temos os mesmos resultados anteriores:

####Cálculos####
n = length(x)

# Média Aritmética
Xbar = round(dist %>% select(x) %>% sum() / n, 2)

# Média Geométrica

Geo = round(prod(x)^(1/n),2)

Geo2 = round(10^round(dist %>% select(`log x`) %>% sum() / n, 3), 2)

# Média harmônica

Har = round(n / dist %>% select(`1/x`) %>% sum(), 2)

# Resultados

res <- data.frame(Xbar, Geo, Geo2, Har)

res %>% flextable() %>%


fit_to_width(max_width = 7) %>%
colformat_double(big.mark=".", digits = 2, decimal.mark = ",", na_str = "N/A") %>%
set_caption(("Resultado do Cálculo de Médias"), style = "Table Caption")

b) Para dados com freqüência, mas não agrupados

Nr de defeitos f
0 4
1 7
2 5
3 2
4 1
5 1
Total 20

Vamos usar a fórmula:


k

∑X i fi
X = i =1
k

∑f i =1
i

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 45


Para isto, vamos criar uma coluna na tabela e chamá-la de "Xf". Nesta coluna, vamos incluir os
valores de X*f de cada linha, da seguinte forma:

Nr de defeitos f Xf

0 4 0
1 7 7
2 5 10
3 2 6
4 1 4
5 1 5
Total 20 32

∑X i fi
32
X= i =1
= = 1,60
k
20
∑f i =1
i

Para o cálculo da Média Geométrica(G) e da Média Harmônica (H), devemos adicionar mais coluna
na tabela acima:

f
Nr de defeitos f Xf log x f*log x
x
0 4 0 - - -
1 7 7 0 0 7
2 5 10 0,301 1,505 2,500
3 2 6 0,477 0,954 0,667
4 1 4 0,602 0,602 0,250
5 1 5 0,699 0,699 0,200
Total 20 32 - 3,76 10,617
Usando as fórmulas abaixo, temos:

 ∑ f i log xi   3,76 
G = anti log   = anti log   = anti log(0,188) = 10 0,188 = 1,54
 n   20 
n 16
H= = = 1,51
f i 10,617
∑X
i
(Obs: aqui tivemos que considerar como valores de f, os valores 7, 5, 2, 1,1, que dá um total de 16,
isto porque na primeira linha não foi possível calcular o log e a divisão f/x, em virtude do valor
x = 0; isto não acontece quando todos os valores de x são válidos, ou seja, xi ≠ 0)

Verificamos que : H ≤ G ≤ X , pois 1,51 < 1,54 < 1,60

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 46


Usando o R temos:

####Entrada de Dados####

df <- tibble(Defeitos = c(0,1,2,3,4,5), f = c(4,7,5,2,1,1))

####Contrução da Tabela####

dist <- df %>% mutate(Xf = Defeitos * f,


`log x` = log(Defeitos, 10),
`f*log x` = f*`log x`,
`f/x` = f/Defeitos)

total <- matrix(c("Total", sum(dist$f), sum(dist$Xf), NA,


round(sum(dist$`f*log x`[-1]), 3), round(sum(dist$`f/x`[-1]), 3)), 1, ncol(dist)) %>%
as_tibble()

names(total) <- names(dist)


new_row <- as.list(total)

dist %>% flextable() %>%


fit_to_width(max_width = 7) %>%
add_footer(values = new_row) %>%
align(part = "footer", align = "right", j = 1:6) %>% autofit() %>%
colformat_double( j = c(2,3), big.mark=".", digits = 0, decimal.mark = ",", na_str = "N/A") %>%
colformat_double( j = c(4,5,6), big.mark=".", digits = 3, decimal.mark = ",", na_str = "N/A") %>%
set_caption(("Exemplo de Cálculo de Médias com Freqüências"), style = "Table Caption")

Que gera a seguinte tabela:

Usando o R para os cálculos, temos:

###Início dos Cálculos####

n = dist %>% select(f) %>% sum()

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 47


#Média artitmética

Xbar = dist %>% select(Xf) %>% sum() / n

#Média geomátrica

Geo = round(10 ^ (round(dist %>% select(`f*log x`) %>% filter(`f*log x` != -Inf) %>% sum(),
3)/n), 2)

# Média harmônica

Har = round((n - 4) / round(dist %>% select(`f/x`) %>% select(`f/x`) %>% filter(`f/x` != Inf) %>%
sum(), 3), 2)

###Resultados####

res <- tibble(Xbar, Geo, Har)

res %>% flextable() %>%


fit_to_width(max_width = 7) %>%
colformat_double(big.mark=".", digits = 2, decimal.mark = ",", na_str = "N/A") %>%
set_caption(("Resultado do Cálculo de Médias com Freqüências"), style = "Table Caption")

Que gera:

c) Para dados agrupados

Vamos usar como exemplo, a tabela de distribuição de freqüências abaixo:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 48


Para calcular as médias (Média Aritmética, Geométrica e Harmônica) precisamos incluir na tabela
acima os Pontos Médios de cada intervalo, e as mesmas colunas do exemplo anterior:

Vamos usar as seguintes fórmulas:


k

∑X i i f
538,46
X = i =1
= = 21,54
k
25
∑f
i =1
i

 ∑ f i log xi   33,329 
G = anti log   = anti log   = anti log(1,333) = 101,333 = 21,53
 n   25 
n 25
H= = = 21,53
f i 1,161
∑X
i

Verificamos que : H ≤ G ≤ X , pois 21,53 ≤ 21,53 < 21,54

Usando o R, teríamos:

####Início dos cálculos####

# Média aritmética
n <- dist %>% select(f) %>% sum()

Xbar = round(dist %>% select(xf) %>% sum() / n , 2)

# Média geométrica
Geo = round(10 ^ (round(dist %>% select(`f*log x`) %>% sum(), 3)/n), 2)

# Média harmônica

Har = round(n / round(dist %>% select(`f/x`) %>% select(`f/x`) %>% sum(), 3), 2)

###Resultados####

res <- tibble(Xbar, Geo, Har)

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 49


res %>% flextable() %>%
fit_to_width(max_width = 7) %>%
colformat_double(big.mark=".", digits = 2, decimal.mark = ",", na_str = "N/A") %>%
set_caption(("Resultado do Cálculo de Médias para Dados Agrupados"), style = "Table Caption")

Que gera:

13.1.1.5 Mediana

É o valor que divide a distribuição de freqüências em duas partes iguais.

a) Para dados simples:

PM d =
(n + 1)
I) Se n for ímpar, a mediana será o elemento de ordem
2
n n
II) Se n for par, a mediana será o valor médio entre os elementos de ordem P1M d = e P2M d = + 1
2 2
Exemplo:

n ímpar: 2, 2, 3, 5, 6, 8, 8, 8, 10 aqui o n = 9, usando PM d =


(n + 1) temos, PM d =
(9 + 1) = 5
2 2
logo a mediana será o valor de ordem 5, que no caso é Md = 6, pois ocupa a 5ª posição no rol.

n n
n par: 5, 5, 7, 9, 11, 12, 15, 18 aqui o n = 8, usando P1M d = e P2M d = + 1 temos:
2 2
8 8
P1Md = = 4 e P2Md = + 1 = 5
2 2
ou seja, vamos usar o valor que está na posição 4 e o valor que está na posição 5, que correspondem
P1Md + P 2 Md
aos valores 9 e 11. Daí, tiramos uma média destes valores que é igual a Md =
2
9 + 11
= 10 , esta é a mediana.
2

Observe que os dados devem estar em rol, ou seja devem estar ordenados em ordem de grandeza.

b) Para dados que apresentam freqüência, mas não estão agrupados em intervalos de classe, deve-se
seguir a idéia acima.

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 50


Exemplo:
Nr de defeitos f
0 4
1 7
2 5
3 2
4 1
5 1
Total 20

20 20
Como n é par, temos: P1Md = = 10 e P2Md = + 1 = 11
2 2
Aqui, é necessário determinar a freqüência acumulada. Logo:

Nr de defeitos f F
0 4 4
1 7 11
2 5 16
3 2 18
4 1 19
5 1 20
Total 20

Verificando na tabela, percebemos que o valor 0 se repete 4 vezes, e o valor 1 se repete 7 vezes.
Juntos temos 11 valores acumulados. Ou seja, a décima posição é ocupada pelo valor "1", e a
décima primeira é ocupada pelo valor "1", também.

Então, a mediana será:

P1Md + P 2 Md 1 + 1
Md = = =1
2 2

c) Para os dados agrupados em intervalos de classe devemos usar a seguinte fórmula:

 (n 2 ) − FantMd 
Md = linf Md +   hMd
 f Md 

onde:
linf Md - Limite Inferior da classe que contém a Md
Fant Md = Σf ant Md - Soma das freq. anterior à classe da Md (Freqüência acumulada anterior à
classe da Md)
fMd - Freqüência da classe da Md
hMd - Amplitude da classe da Md

Exemplo:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 51


Classes f F n 20 n 20
2 |--- 4 3 3 Neste caso, vamos começar por = = 10 e + 1 = + 1 = 11 ,
2 2 2 2
4 |--- 6 5 8
ou seja, a mediana é o valor que ocupa a 10ª e a 11ª posição.
6 |--- 8 7 15
Estes valores estão no intervalo de 6 a 8, porque até o anterior
8 |--- 10 4 19
temos 8 elementos. Identificamos assim a classe da mediana.
10 |--- 12 1 20
Vamos agora usar a fórmula:
Total 20
 (n 2 ) − Fant Md  10 − 8  4
Md = linf Md +   hMd = 6 +   2 = 6 + = 6,57 . Esta
 f Md   7  7
é a mediana para os dados da tabelados.

Existe uma forma mais rápida para este cálculo, que usa a seguinte relação:
hMd X
= Md
f Md Dif Md

Md = l inf Md + X Md

Onde:
XMd – é o valor que se quer achar
hMd – é a amplitude do intervalo da mediana
fMd – é a freqüência do intervalo da mediana
n
DifMd – é a diferença entre e a soma das freqüências anteriores ao intervalo da mediana.
2

Então, pelo exemplo temos:


hMd X 2 X Md 2 X 4
= Md ⇒ = ⇒ = Md ⇒ X Md = = 0,57
f Md Dif Md 7 20 7 2 7
( − 8)
2
Md = l inf Md + X Md ⇒ Md = 6 + 0,57 = 6,57
Exemplo:
Usando os dados do "Diâmetro", temos:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 52


Usando o R, temos:

###Cálculo da Mediana####

n <- dist %>% select(f) %>% sum() #tamanho da amostra

metade <- n / 2 # posição da mediana

class.md <- (dist %>% filter(Fac < metade) %>% nrow()) + 1 # intervalo de classe da Md

linf.md <- br[class.md] # limite inferio do intervalo de classe da Md

freq.ant <- dist %>% select(Fac) %>% filter(Ord == (class.md - 1)) # Fac anterior ao intervalo Md

freq.md <- dist %>% select(f) %>% filter(Ord == class.md) # Freqüência do intervalo da Md

Md <- round(linf.md + ((metade - freq.ant[,1]) / freq.md[,1])*h, 2)


Md

E o valor da Mediana é 21,52

13.1.1.6 Moda

É o valor que ocorre com a maior freqüência, ou de máxima freqüência.

Para dados simples: valor (ou valores) de máxima freqüência.

Para dados agrupados:

1) Moda Bruta:

Neste caso, verifica-se o intervalo com a maior freqüência. A moda bruta será o ponto médio
deste intervalo.

2) Método de King

Neste método, usa-se a seguinte fórmula:

 f post 
Mo = l inf Mo +  hMo
f + f 
 ant post 

Onde:
linf Mo: é o limite inferior do intervalo onde está a moda;
fant: é a freqüência do intervalo anterior ao da moda
fpost: é a freqüência do intervalo posterior ao da moda
hMo: é a amplitude do intervalo da moda

3) Método de Czuber
 d1 
É o método considerado mais preciso. É definido por: Mo = linf Mo +  hMo
 d1 + d 2 

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 53


Onde:
linf Mo: é o limite inferior do intervalo onde está a moda;
d1 - diferença entre a freqüência da classe modal e a imediatamente anterior.
d2 - diferença entre a classe modal e a imediatamente posterior.
hMo: é a amplitude do intervalo da moda

Exemplos:

a) Dados simples (não tabelados) : 2, 2, 3, 5, 6, 8, 8, 8, 10 Mo = 8

b) Dados tabelados discretos:

Nr de defeitos f

0 4
1 7 Mo = 1
2 5
3 2
4 1
5 1
Total 20

c) Dados agrupados em intervalos de classe

Moda bruta

Classes f F Neste caso, verifica-se a maior freqüência, no caso o intervalo de


2 |--- 4 3 3 6 a 8. A moda será o ponto médio deste intervalo, ou seja
4 |--- 6 5 8
6 |--- 8 7 15 6+8
=7
8 |--- 10 4 19 2
10 |--- 12 1 20
Total 20

Método de King

Classes f F  f post 
2 |--- 4 3 3 Neste caso, usa-se a fórmula Mo = l inf Mo +  h , então
 f + f  Mo
4 |--- 6 5 8  ant post 

 
h = 6 +  4 2 = 6 + 8 = 6,89
6 |--- 8 7 15 f post
Mo = l inf Mo + 
8 |--- 10 4 19  f + f  Mo 5+ 4 9
 ant post 
10 |--- 12 1 20
Total 20

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 54


Método de Czuber
 d1 
Classes f F Neste caso, usa-se a fórmula Mo = linf Mo +  hMo , então
2 |--- 4 3 3  d1 + d 2 
4 |--- 6 5 8  d1   (7 − 5)  2 4
6 |--- 8 7 15 Mo = l inf Mo +  hMo = 6 +  2 = 6 +  2 = 6 + = 6,80
8 |--- 10 4 19  d1 + d 2   (7 − 5) + (7 − 4)  5 5
10 |--- 12 1 20
Total 20

O método de Czuber pelo R seria:

###Cálculo da Moda####

maior.freq <- dist %>% select(f) %>% max() # Maior freqüência

class.mo <- dist %>% filter(f == maior.freq) %>% select(Ord) # Intervalo da Moda

linf.mo <- br[class.mo[,1]] # Limite inferior do intervalo da Moda

f.ant <- dist %>% filter(Ord == (class.mo[,1] - 1)) %>% select(f) # Freq. anterior a Moda

f.pos <- dist %>% filter(Ord == (class.mo[,1] + 1)) %>% select(f) # Frq. posterior a Moda

d1 <- maior.freq - f.ant[,1]


d2 <- maior.freq - f.pos[,1]

Mo <- round(linf.mo + (d1/(d1 + d2))*h, 3)


Mo

E o valor da Moda é 21,49

Relação entre a média, a mediana e a moda

A relação entre a média, a mediana e a moda é a seguinte:

x − mo ≅ 3( x − md )

Por meio dela, é possível ter uma noção inicial de como está a distribuição dos dados, com relação à
assimetria, ou seja:

X < Md < Mo , indica que a Assimetria é Negativa;

X = Md = Mo ,que indica que existe simetria na distribuição.

Mo < Md < X , que indica que a Assimetria é positiva.

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 55


X < Md < Mo

Mo < Md < X

X = Md = Mo

No caso da variável Diâmetro, temos: Média = 21,54, Mediana = 21,52, Moda = 21,49, ou seja:

Mo < Md < X

Ass. Positiva

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 56


13.1.2 Separatrizes

São valores que dividem uma série ordenada de dados ou uma distribuição de freqüência em partes
iguais.

Principais separatrizes:

QUARTIL (Qi) : divide a série ou a distribuição em quatro partes iguais.


QUINTIL (Ki): divide a série ou distribuição em cinco partes iguais.
DECIL (Di) : divide a série ou a distribuição em dez partes iguais.
PERCENTIL (Pi) ou CENTIL (Ci) : divide a série ou a distribuição em cem partes iguais.

13.1.2.1 Quartil

a) Para dados simples:


Neste caso usamos:

Onde n é o
( n) ( n + 1) 3( n) tamanho do
PQ1 = PQ2 = PQ3 =
4 2 4 conjunto de
dados
Uma vez encontrada a posição, utilizar:

Qi = X ant pq + ( PQi − Pant pq )( X post pq − X ant pq )

O resultado dado pela expressão acima indica a posição que estará o valor do conjunto de dados que
representa o quartil considerado.
Por exemplo: seja o seguinte rol de dados 1, 2, 5, 5, 5, 8, 10, 11, 12, 12, 13, 15
i ( n) 1(12)
Para determinar o Q1, sabendo que n = 12, faremos PQi = ⇒ PQ1 = = 3 . Então o Q1 é o
4 4
terceiro elemento do rol, no caso 5.
Qi = X ant pq + ( PQi − Pant pq )( X post pq − X ant pq ) ⇒ Q1 = 2 + (3 − 2)(5 − 2) = 2 + 3 = 5

i ( n) 3(12)
Para determinar o Q3: PQi = ⇒ PQ3 = = 9 . Então o Q3 é o nono elemento do rol, no
4 4
caso 12.
Q3 = 11 + (9 − 8)(12 − 11) = 11 + 1 = 12

Para dados agrupados em intervalos de classe, temos:


 i ( 25%) n − Fant Q i 
Qi = linf Q i +   hQ
 fQi  i
 
Para cada i = 1, 2, 3, temos:

 25%n − Fant Q1   50%n − Fant Q 2   75%n − Fant Q3 


Q1 = l inf Q1 +  hQ Q2 = l inf Q 2 +  hQ Q3 = l inf Q3 +  hQ
 f Q1  1  f Q2  2  f Q3  3
     

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 57


Onde:
Linf Q – Limite inferior da classe de Q
Fant Q = ∑fant Q – Soma das freqüências anteriores a classe de Q (Freqüência Acumulada anterior)
fQ – Freqüência da classe de Q
hQ – Amplitude do intervalo de classe de Q

Exemplo:

Vamos calcular o quartil Q1 e Q3, da distribuição abaixo:

(n) 25
Para achar Q1, primeiro temos que achar PQ1 = = = 6,25 . Isto significa que Q1 está na posição
4 4
6,25, que se encontra no segundo intervalo, que vai de 21,32 a 21,44. A freqüência acumulada
anterior Fant = 3, a freqüência deste intervalo f = 5, e h = 0,12, pois 21,44 - 21,32 = 0,12. Então,
temos:
 25%n − Fant Q1 
Q1 = linf Q1 +  hQ = 21,32 +  6,25 − 3  * 0,12 = 21,32 + 0,078 = 21,398 ≅ 21,40
 f Q1  1  5 
 
3( n) 3(25)
Para achar Q3, primeiro temos que achar PQ3 = 4 = 4 = 18,75 . Isto significa que Q3 está na
posição 18,75, que se encontra no quarto intervalo, que vai de 21,56 a 21,68. A freqüência
acumulada anterior Fant = 15, a freqüência deste intervalo f = 4, e h = 0,12, pois 21,68 - 21,56 =
0,12. Então, temos:
 75%n − Fant Q 3 
Q3 = linf Q3 +  hQ = 21,56 +  18,75 − 15  * 0,12 = 21,56 + 0,1125 = 21,6725 ≅ 21,67
f Q3  3  4 
 
Usando o R, temos:

###Cálculo da Q1####

n <- dist %>% select(f) %>% sum() # Tamanho da amostra

PQ1 <- 0.25*n # Posição de Q1

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 58


class.q1 <- (dist %>% filter(Fac < PQ1) %>% nrow()) + 1 # Intervalo de Q1

linf.q1 <- br[class.q1] # Limite inferior do intervalo


freq.ant <- dist %>% select(Fac) %>% filter(Ord == (class.q1 - 1)) # Fac anterior a Q1
freq.q1 <- dist %>% select(f) %>% filter(Ord == class.q1) # Freq. do intervalo de Q1

Q1 <- round(linf.q1 + ((PQ1 - freq.ant[,1]) / freq.q1[,1])*h, 2)


Q1

E o valor de Q1 é 21,40

Para Q3, temos:

###Cálculo da Q3####

n <- dist %>% select(f) %>% sum()# Tamanho da amostra

PQ3 <- 0.75*n # Posição de Q3

class.q3 <- (dist %>% filter(Fac < PQ3) %>% nrow()) + 1 # Intervalo de Q3

linf.q3 <- br[class.q3] # Limite inferior do intervalo


freq.ant <- dist %>% select(Fac) %>% filter(Ord == (class.q3 - 1)) # Fac anterior a Q1
freq.q3 <- dist %>% select(f) %>% filter(Ord == class.q3) # Freq. do intervalo de Q1

Q3 <- round(linf.q3 + ((PQ3 - freq.ant[,1]) / freq.q3[,1])*h, 2)


Q3

E o valor de Q3 é 21,67

13.1.2.3 Quintil (K)

Para dados simples:


Encontrar a posição do quintil utilizando: Pk i = i ( n, ) onde i = 1,..., 4 e n é o tamanho do conjunto
de dados. 5

Uma vez encontrada a posição, utilizar:

k i = X ant + ( Pk i − Pant )( X post − X ant )

Por exemplo: seja o seguinte rol de dados 1, 2, 5, 5, 5, 8, 10, 11, 12, 12, 13, 15
i ( n) 1(12)
Para determinar o K1, sabendo que n = 12, faremos PK i = ⇒ PK1 = = 2,4 . Então o K1 é
5 5
o elemento do rol, entre o da posição 2 e o da posição 3. Vamos determiná-lo:
K i = X ant pk + ( PK i − Pant pk )( X post pk − X ant pk ) ⇒ K1 = 2 + (2,4 − 2)(5 − 2) = 2 + 1,2 = 3,2
i (n) 4(12)
Para determinar o K4, sabendo que n = 12, faremos PK i = ⇒ PK 4 = = 9,6 .
5 5

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 59


Então o K4 é o elemento do rol, entre o da posição 9 e o da posição 10. Vamos determiná-lo:

K 4 = 12 + (9,6 − 9)(12 − 12) = 12 + 0 = 12

Para dados agrupados:

 (20i )% n − Fant k i 
k i = linf k i +   hk
 f  i
 ki 
Onde:
Linf k – Limite inferior da classe de k
Fant k – Freqüência acumulada anterior a classe de k
fk – Freqüência da classe de k
hk – Amplitude do intervalo de classe de k

Exemplo: vamos calcular K1 para a distribuição abaixo

i ( n) 1(25)
Para achar K1, primeiro temos que achar Pki = 5 ⇒ PK1 = 5 = 5 . Isto significa que K1 está
na posição 5, que se encontra no segundo intervalo, que vai de 21,32 a 21,44. A freqüência
acumulada anterior Fant = 3, a freqüência deste intervalo f = 5, e h = 0,12, pois 21,44 - 21,32 =
0,12. Então, temos:
 PK1 − Fant k1  5 − 3
K1 = linf k 1 +  hk 1 = 21,44 +   * 0,12 = 21,32 + 0,048 = 21,368 ≅ 21,37
 f k1   5 

13.1.2.4 Decil

Para dados simples:


i ( n)
Neste caso usamos PDi = , onde i = 1 a 4 e de 5 a 9 e n é o tamanho do conjunto de dados.
Para i = 5, utilizar 10 ( n + 1)
PD5 =
2
Uma vez encontrada a posição, utilizar:

Di = X ant + ( PDi − Pant )( X post − X ant )


Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 60
Para dados agrupados em intervalos de classe, temos:

 (10i )% n − Fant D i 
Di = l inf D i +   hD
 f Di  i
 
Onde:
Linf D – Limite inferior da classe de D
Fant D = ∑fant D – Soma das freqüências anteriores a classe de D(Freqüência Acumulada anterior)
fD – Freqüência da classe de D
hD – Amplitude do intervalo de classe de D

Exemplo: vamos calcular D1 para a distribuição abaixo

i ( n) 1(25)
Para achar D1, primeiro temos que achar PDi = ⇒ PD1 = = 2,5 . Isto significa que D1 está
10 10
na posição 2,5, que se encontra no primeiro intervalo, que vai de 21,2 a 21,32. A freqüência
acumulada anterior Fant = 0, a freqüência deste intervalo f = 3, e h = 0,12, pois 21,32 - 21,2 = 0,12.
Então, temos:
 PD1 − Fant D1 
D1, = linf D1 +  hD1 = 21,2 +  2,5 − 0  * 0,12 = 21,2 + 0,10 = 21,30
 f D1   3 
 

13.1.2.5 Percentil ou Centil

Para dados simples:


i ( n)
Neste caso usamos PPi = , onde i = 1 a 49 e de 51 a 99 e n é o tamanho do conjunto de dados.
Para i = 50, utilizar:` 100
( n + 1)
PP50 =
2
Uma vez encontrada a posição, utilizar:
Pi = X ant + ( PPi − Pant )( X post − X ant )

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 61


Para dados agrupados em intervalos de classe, temos:

 i % n − F ant P 
Pi = linf Pi +  i h
 f Pi  Pi
 

Onde:
Linf P – Limite inferior da classe de P
Fant P – Freqüência acumulada anterior a classe de P
fP – Freqüência da classe de P
hP – Amplitude do intervalo de classe de P

Exemplo: Calcule o valor do vigésimo percentil ( P20 ).

Nºtel. f F fr Fr  i % n − F ant P 
Pi = linf Pi +  i h
7|--12 3 3 10,00% 10,00%  f  Pi
 Pi 
12|--17 10 13 33,33% 43,33%
17|--22 8 21 26,67% 70,00%  20%(30) − 3 
P20 = 12 +  5
22|--27 5 26 16,67% 86.67%  10 
27|--32 2 28 6,67% 93.34%
32|--37 2 30 6,66% 100%  6−3
P20 = 12 +  5
30  10 

P20 = 12 + 1,50

P20 = 13,50

Graficamente, temos:

k1 k2 k3 k4

Md = Q2 = D5 = P50

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 62


13.1.3 Esquema de Cinco Números e Boxplot (ou Gráfico Box-and-Whisker)

Após estudar as principais medidas de posição dos dados numéricos, é importante identificar e
descrevê-los em um formato resumido.

1) Esquema de Cinco Números

Um esquema de cinco números consiste em determinar:

Xmenor Q1 Mediana Q3 Xmaior

Se os dados são perfeitamente simétricos, temos:


a) A distância de Q1 até a mediana é igual à distância da mediana até Q3;
b) A distância de Xmenor até a Q1 é igual à distância de Q3 até Xmaior;

2) Boxplot

O boxplot (gráfico de caixa) é um gráfico utilizado para avaliar a distribuição empírica do dados.
Ele serve como representação gráfica do esquema de Cinco Números. a utilização do gráfico
permite avaliar a simetria e distribuição dos dados. O boxplot é formado pelo primeiro e terceiro
quartil e pela mediana. As hastes inferiores e superiores se estendem, respectivamente, do quartil
inferior até o menor valor não inferior ao limite inferior e do quartil superior até o maior valor não
superior ao limite superior. Os limites são calculados da forma abaixo:

Limite inferior: Q1 − 1,5(Q3 − Q1 )

Limite superior: Q1 + 1,5(Q3 − Q1 )

Q3 + 1,5(Q3 − Q1 )
Maior valor
que não é
um outiler

1,5(Q3 − Q1 )

Q3

Mediana IRQ = Q3 – Q1

Q1

Menor 1,5(Q3 − Q1 )
valor que
não é um
outiler
Q1 − 1,5(Q3 − Q1 )

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 63


Uma outra utilização do boxplot refere-se a identificação de pontos de discrepância ou observações
discrepantes, os famosos "outliers". Estes valores podem afetar de forma substancial o resultado
das análises estatísticas. A existência destas observações discrepantes estão relacionadas com erros
de medição, erros de execução e variabilidade inerente aos elementos da população. Para
identificação de um outlier, fazemos o seguinte: seja xº um valor da variável de estudo; compara-se
este valor xº com Q1 − 1,5(Q3 − Q1 ) e com Q1 + 1,5(Q3 − Q1 ) . O valor xº será um outiler se:

x 0 < Q1 − 1,5(Q3 − Q1 )
ou
x 0 > Q1 + 1,5(Q3 − Q1 )

Uma vez identificado o outlier, o pesquisador poderá eliminá-lo, caso seja apenas um valor, ou
trocá-los pela média da variável de estudo, calculada sem os referidos valores. Porém, deve-se
investigar as razões que levaram ao surgimento destes valores.
Como exemplo, temos os mesmos valores apresentados para o cálculo de Q1 e Q3, ou seja:
1, 2, 5, 5, 5, 8, 10, 11, 12, 12, 13, 15. O valor de Q1 para estes dados foi igual a 5 e de Q3 foi igual
a 12. A mediana foi igual a 9. O boxplot para estes dados fica assim:

Percebe-se que este caso, não há valores discrepantes.

Usando os dados da variável Diâmetro, temos:

###Box-plot####

dat <- tibble(df)

dat %>% ggplot(aes(y = df)) + scale_x_discrete() + geom_boxplot(fill = "blue") +


scale_y_continuous(breaks=br) +
labs(title = paste0("Box-plot da Variável Diâmetro"), y = "Diâmetro")+
theme(plot.title = element_text(hjust = 0.5, size = 12))

Que resulta em:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 64


É possível fazer a comparação do Boxplot com a distribuição Normal. A seguir temos esta
comparação:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 65


13.2 Medidas de dispersão

São medidas que traduzem a variação de um conjunto de dados em torno da média, ou seja, da
maior ou menor variabilidade dos resultados obtidos. Permitem identificar até que ponto os
resultados se concentram ou não ao redor da tendência central de um conjunto de observações.
Quanto maior for a dispersão, menor é a concentração e vice-versa. As medidas de dispersão podem
ser absolutas e relativas.

13.2.1 Medidas de Dispersão Absolutas

13.2.1.1 Amplitude Total

É a diferença entre o maior e o menor valores do conjunto de dados.

R = X max − X min

13.2.1.2 Amplitude Interquartílica - AI

É a diferença entre o terceiro quartil Q3 e o primeiro quartil Q1


AI = Q3 − Q1

13.2.1.3 Amplitude entre os Percentis 10-90 – AP10-90

É a diferença entre o Percentil 90 e o Percentil 10.


AP10−90 = P90 − P10
13.2.1.4 Variância

É a média dos quadrados dos desvios em relação a média.


Para dados simples Para dados com freqüência

∑ (X − X) ∑ (X − X ) fi
n n
2 2
i i
s2 = i =1
s2 = i =1

n −1 n −1

É possível calcular a variância de outra maneira. Sabendo que:

Para dados simples Para dados com freqüência


2 2
 n   n 
∑ Xi   ∑ X i fi 
∑ (X − X) (X i − X )2 f i = ∑ X i 2 f i −  i =1 
n n n n
= ∑ X 2 −  i =1  ∑
2
i
i =1 i =1 n i =1 i =1 n

Temos:

Para dados simples Para dados com freqüência


2 2
 n   n 
n
∑ Xi  n
 ∑ X i fi 
∑ X 2 −  i =1  ∑ X 2 f i −  i =1 
n n
s 2 = i =1 s 2 = i =1
n −1 n −1

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 66


Propriedades da variância

1) Se X = k, onde k é uma constante, Var(X) = 0


2) Se Y = X + k, onde k é uma constante, Var (Y) = Var (X)
3) Se Y = kX, onde k é uma constante, Var (Y) = k²Var(X).

A variância é uma medida de dispersão extremamente importante na Teoria Estatística. Do ponto de


vista prático, ela tem o inconveniente de se expressar numa unidade quadrática em relação à
variável em questão. Esse inconveniente é sanado com a definição do desvio-padrão.

13.2.1.5 Desvio-padrão

Define-se desvio-padrão como a raiz quadrada da variância.

s = s2

O desvio-padrão se expressa na mesma unidade da variável, sendo, por isso, de maior interesse que
a variância nas aplicações práticas.
É comum apresentar a média e o desvio-padrão para indicar a amplitude da dispersão da amostra,
da seguinte forma:
X ±s

13.2.1.6 Desvio Absoluto Médio - DAM

É a média dos valores absolutos das diferenças entre as observações e a média.

Para dados simples Para dados com freqüência


n n

∑ Xi − X ∑X i − X fi
DAM = i =1
DAM = i =1

n n

13.2.1.7 Desvio Quartílico – DQ


Q3 − Q1
DQ =
2

13.2.1.8 Relações empíricas entre as medidas de dispersão absolutas:

4 2 6
DMA = s DQ = s DMA = DQ
5 3 5

13.2.1.9 Desvio Absoluto ao redor da Mediana (MAD)

O MAD é uma medida robusta da variabilidade de uma variável. É calculado por:

MAD = mediana( xi − mediana( xi ) )

O MAD é um consistente estimador do desvio-padrão. Então, se os dados possuem uma distribuição


Normal, temos que: σˆ = 1,4826 MAD

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 67


13.2.2 Medidas de Dispersão Relativas

13.2.2.1 Coeficiente de variação

Define-se coeficiente de variação como o quociente entre o desvio-padrão e a média.


 s 
CV =  100
X
Sua vantagem é caracterizar a dispersão dos dados em valores relativos a seu valor médio. Assim,
uma pequena dispersão absoluta pode ser, na verdade, considerável quando comparada com a
ordem de grandeza dos valores da variável e vice-versa. Quando consideramos o coeficiente de
variação, enganos de interpretação desse tipo são evitados.

Existe uma escala para a verificação do grau de dispersão, em função do coeficiente de variação:

CV ≤ 10%, grau de dispersão baixo;


10% < CV ≤ 20%, grau de dispersão médio;
20% < CV ≤ 30%, grau de dispersão alto;
CV > 30%, grau de dispersão muito alto.

13.2.2.2 Coeficiente de Variação de Thorndike

s
CVt = ⋅ 100
Md

13.2.2.3 Coeficiente de Variação pelo Intervalo Quartil ou Coeficiente de Variação Quartílico

Q3 − Q1
C Vq = ⋅ 100
Q3 + Q1

13.2.2.4 Desvio Quartil Reduzido (DSR)

Por definição é a amplitude semi-interquartílica sobre a mediana.

Q3 − Q1
DQR = 2 ⋅ 100 = Q3 − Q1 ⋅ 100
Md 2 Md

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 68


Como exemplo, temos:

a) para valores não tabelados

∑X i −X
22,22
DAM = i =1
= = 2,469
n 9

∑ (X − X)
n
2
i
69,556
s2 = i =1
= = 8,6945
n −1 9 −1

s = s 2 = 8.6945 = 2,9486

Q3 − Q1 8 − 3
DQ = = = 2,50
2 2

 s  2,9486
CV =  100 = 100 = 51,0138%
X 5,78

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 69


Md = 6

s 2,9486
CV t = ⋅100 = 100 = 49,1433%
Md 6

Q3 − Q1 8−3
CV q = ⋅ 100 = 100 = 45,45%
Q3 + Q1 8+3

Q3 − Q1
DQR = 2 ⋅ 100 = Q3 − Q1 ⋅ 100 = 8 − 3 100 = 38,07%
Md 2 Md 2*6

b) para valores tabelados

Com base nos cálculos anteriores para médias, moda e mediana, usando a tabela abaixo, temos:

Devemos acrescentar algumas colunas após a última coluna f/x. Para efeito didático, vamos retirar
as colunas log x, f*log x e f/x, e em seu lugar vamos digitar outras colunas. Sabendo que
Desvio = X i − X e fazendo os cálculos, temos:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 70


n

∑X i −X *f
3,792
DAM = i =1
= = 0,16
n 25

∑ (X − X) * f
n
2
i
0,8271
s2 = i =1
= = 0,0345
n −1 25 − 1

s = s 2 = 0,0345 = 0,1857

Q3 − Q1 21,67 − 21,40
DQ = = = 0,137
2 2

 s  0,204
CV =  100 = 100 = 0,95%
X 21,54

s 0,204
CV t = ⋅ 100 = 100 = 0,95%
Md 21,52

Q3 − Q1 21,67 − 21,40
CV q = ⋅ 100 = 100 = 0,64%
Q3 + Q1 21,67 + 21,40

Q3 − Q1
DQR = 2 ⋅ 100 = Q3 − Q1 ⋅ 100 = 21,67 − 21,40 100 = 0,64%
Md 2Md 2 * 21,52

Adotando-se as expressões abaixo, para o cálculo da variância, temos:

Para dados simples Para dados com freqüência


2 2
 n
  n 
n


∑ X i 

n


∑ X i f i 

∑ X −
2 i =1

n
∑ X fi −
2 i =1

n
s 2 = i =1 s 2 = i =1
n −1 n −1

Então, montamos as tabelas da seguinte forma:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 71


a) para valores não tabelados

2
 n 
∑ Xi 
(52) 2
n

∑ X 2 −  i =1  370 −
s 2 = i =1
n
= 9 = 370 − 300,4444 = 8,6945
n −1 9 −1 8

b) para valores tabelados

2
 n 
 ∑ X i f i 
(538,46) 2
n
 
∑ X fi −
2 i =1

n
11598,394 −
25 11598,394 − 11597,5669
s 2 = i =1 = = = 0,0345
n −1 25 − 1 24
Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 72
13.3 Momentos de uma distribuição

São quantidades numéricas ou valores de uma distribuição de uma variável X, usadas para a
caracterização de determinadas medidas, tais como a média aritmética e a variância, além de
medidas do formato da distribuição como a assimetria e a curtose.
São determinados por meio do valor esperado (média) das potencias de X. As esperanças das
sucessivas potencias de X constituem o conceito de momentos dessa variável aleatória.

Momento de ordem r

Para dados simples Para dados agrupados em intervalos de classe


n n

∑ X ir ∑X i
r
fi
mr = i =1
mr = i =1
n n

Momento de ordem r centrado na média

Para dados simples Para dados agrupados em intervalos de classe

∑ (X − X) ∑ (X − X ) fi
n n
r r
i i
µr = i =1
µr = i =1

n n

Momentos Importantes de uma Distribuição

Momento de ordem r = 1 : média

Para dados simples Para dados agrupados em intervalos de classe


n n

∑ Xi ∑X i fi
m1 = i =1
m1 = i =1

n n

Momento de ordem r = 2 centrado na média - σ̂ 2

Para dados simples Para dados agrupados em intervalos de classe

∑ (X i − X) ∑ (X − X ) fi
n n
2 2
i
µ2 = i =1
µ2 = i =1
n n

Momento de ordem r = 3 centrado na média

Para dados simples Para dados agrupados em intervalos de classe

∑ (X − X) ∑ (X − X ) fi
n n
3 3
i i
µ3 = i =1
µ3 = i =1

n n

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 73


Momento de ordem r = 4 centrado na média

Para dados simples Para dados agrupados em intervalos de classe

∑ (X − X) ∑ (X − X ) fi
n n
4 4
i i
µ4 = i =1
µ4 = i =1

n n

Relação entre os momentos

µ 2 = m2 − m12

µ3 = m3 − 3m1m2 + 2m13

µ 4 = m 4 − 4 m1 m 3 + 6 m12 m 2 − 3 m14

13.4 Medidas de forma de uma distribuição

13.4.1 Assimetria

É o grau de desvio, ou afastamento da simetria, de uma distribuição.

13.4.1.1 Critério de Pearson

Pelo critério de Pearson, à medida que a distribuição deixa de ser simétrica, a média, a moda e a
mediana vão se afastando, aumentando cada vez mais a diferença existente entre elas.

Seu cálculo pode ser definido por:


X − Mo
As = Primeiro coeficiente de assimetria de Pearson
s

3( X − Md )
As = Segundo coeficiente de assimetria de Pearson
s
Podemos verificar a assimetria de uma distribuição comparando os resultados com:

Se AS < 0 - ass. Negativa


Se AS = 0 - simétrica
Se AS > 0 - ass. Positiva

13.4.1.2 Critério de Bowley

Pelo critério de Bowley, à medida que a distribuição deixa de ser simétrica, os quartis deixam de
serem eqüidistantes da mediana.

Seu cálculo pode ser definido por:

Q3 − 2 Md + Q1 Coeficiente quartílico de assimetria


As =
Q3 − Q1

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 74


13.4.1.3 Critério de Kelley

O critério de Bowley despreza 50% das ocorrências. Para evitar isso, Kelley aconselha o uso de
percentis eqüidistantes da mediana, tais como o P10 e P90, surgindo daí a seguinte fórmula:

P90 − 2 Md + P10 Coeficiente percentílico de assimetria


As =
P90 − P10

13.4.1.4 Critério de Fisher

Esta medida de assimetria utiliza o 2º e o 3º momento centrado na média, ou seja:

Sendo o momento de ordem r = 2 centrado na média

Para dados simples Para dados agrupados em intervalos de classe

∑ (X −X) ∑ (X − X ) fi
n n
2 2
i i
µ2 = i =1
µ2 = i =1
n n

E o momento de ordem r = 3 centrado na média

Para dados simples Para dados agrupados em intervalos de classe

∑ (X − X) ∑ (X − X ) fi
n n
3 3
i i
µ3 = i =1
µ3 = i =1

n n

É calculado da seguinte forma:

n µ3
α3 = quando n < 25
(n − 1)(n − 2) ( µ2 )
3

µ3
α3 = , quando n ≥ 25
µ 23

Se α 3 < 0 - ass. Negativa - +


Se α 3 = 0 - simétrica
Se α 3 > 0 - ass. Positiva - +

Ex: Para dados simulados temos:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 75


X ≅ Md

Simétrica

Min. 1st Qu. Median Mean 3rd Qu. Max.


1.984 4.928 6.078 6.119 7.358 10.320

Md < X

Ass. Positiva

Min. 1st Qu. Median Mean 3rd Qu. Max.


0.3108 1.4840 2.5430 2.8080 3.8950 7.7600

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 76


X < Md

Ass. Negativa

Min. 1st Qu. Median Mean 3rd Qu. Max.


3.093 7.411 8.266 7.939 9.020 9.904

13.4.2 Curtose

É o grau de achatamento de uma distribuição, considerado usualmente em relação a uma


distribuição Normal.
Graficamente, identificamos a curtose da seguinte forma:

13.4.2.1 Coeficiente Percentílico de Curtose

Um dos coeficientes mais utilizados para medir o grau de achatamento ou curtose de uma
distribuição. É calculado a partir do intervalo interquartil, além dos percentis P10 e P90, da seguinte
forma:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 77


Q3 − Q1
2 Q3 − Q1
k= =
P90 − P10 2( P90 − P10 )

Se k > 0,263 – dizemos que a distribuição é platicúrtica


Se k = 0,263 – dizemos que a distribuição é mesocúrtica
Se k < 0,263 – dizemos que a distribuição é leptocúrtica

Obs: a fórmula acima também pode ser escrita em função dos Decis 1 e 9, uma vez que D1 = P10 e
D9 = P90. Então a expressão fica:

Q3 − Q1
2 Q3 − Q1
k= =
D9 − D1 2( D9 − D1 )

13.4.2.2 Coeficiente de Curtose de Fisher

Esta medida de curtose utiliza o 2º e o 4º momento centrado na média, ou seja:

Sendo o momento de ordem r = 2 centrado na média

Para dados simples Para dados agrupados em intervalos de classe

∑ (X i − X) ∑ (X − X ) fi
n n
2 2
i
µ2 = i =1
µ2 = i =1
n n

E o momento de ordem r = 4 centrado na média

Para dados simples Para dados agrupados em intervalos de classe

∑ (X − X) ∑ (X − X ) fi
n n
4 4
i i
µ4 = i =1
µ4 = i =1

n n

É calculado da seguinte forma:

n(n + 1) µ4 3(n − 1) 2
α4 = − quando n < 25
(n − 1)(n − 2)(n − 3) µ 22 (n − 2)(n − 3)
µ4
α4 = − 3 , quando n ≥ 25
µ 22

Podemos verificar a curtose de uma distribuição comparando os resultados com:

Se α 4 < 0 – dizemos que a distribuição é platicúrtica


Se α 4 = 0 – dizemos que a distribuição é mesocúrtica
Se α 4 > 0 – dizemos que a distribuição é leptocúrtica

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 78


Exemplos para dados simulados:

Leptocúrtica

Platicúrtica

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 79


Exemplos:

a) Usando dados sem freqüência temos:

∑ (X − X)
n
2
i
69,5556
µ2 = i =1
= = 7,7284
n 9

∑ (X − X)
n
3
i
− 21,5772
µ3 = i =1
= = −2,3975
n 9
O Coeficiente de Assimetria fica:
n µ3 9 − 2,3975
α3 = = = −0,0166
(n − 1)(n − 2) ( µ2 )
3
( )
(9 − 1)(9 − 2) 7,7284 3
Ou seja, temos uma Assimetria Negativa

E o de Curtose fica:

∑ (X − X)
n
2
i
69,5556
µ2 = i =1
= = 7,7284
n 9

∑ (X −X)
n
4
i
858,2496
µ4 = i =1
= = 95,3611
n 9

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 80


n(n + 1) µ4 3(n − 1) 2 9(9 − 1) 95,3611 3(9 − 1) 2
α4 = − = − = −4,1437
(n − 1)(n − 2)(n − 3) µ 22 (n − 2)(n − 3) (9 − 1)(9 − 2)(9 − 3) (7,7284)^ 2 (9 − 2)(9 − 3)
Ou seja, temos uma distribuição platicúrtica.

Apesar de não haver freqüências neste conjunto de dados, e também por ser de uma
quantidade que não seja possível elaborar uma Tabela de Distribuição de Freqüências, é possível
identificar a Assimetria por meio do uso de Box-plot:

Observe que o traço central é a Mediana. A distância dele até o menor valor (lado esquerdo)
é maior que a distância até o maior valor (lado direito) indicando assim a Assimetria Negativa.
A curtose, contudo, fica mais difícil de identificar graficamente, pois não há como elaborar
um histograma com estes dados.
Contudo, forçando um pouco o R, temos:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 81


a) Usando dados com freqüência temos:

∑ (X − X) f
n
2
i
0,8272
µ2 = i =1
= = 0,0331
n 25

∑ (X − X) f
n
3
i
0,0376
µ3 = i =1
= = 0,0015
n 25
O Coeficiente de Assimetria fica:
µ3 0,0015
α3 = = = 0,1360
(µ) ( 2
3
0,0331 )3

Ou seja, temos uma Assimetria Positiva

E o de Curtose fica:

∑ (X − X) f
n
2
i
0,8272
µ2 = i =1
= = 0,0331
n 25

∑ (X −X) f
n
4
i
0,0582
µ4 = i =1
= = 0,0023
n 25

µ4
α4 = − 3 = 2,0993 − 3 = −0,9007 Ou seja, temos uma distribuição platicúrtica.
µ 22

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 82


Recuperando o histograma da pag 56, e sabendo que : Média = 21,54, Mediana = 21,52,
Moda = 21,49, temos:

Mo < Md < X

Ass. Positiva

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 83


14 Estatística Indutiva

14.1 Introdução

Estatística Indutiva (ou Estatística Inferencial ou Inferência Estatística, ou ainda Indução


Estatística), cuida da análise e interpretação dos dados experimentais.

Dois conceitos fundamentais devem ser apresentados:

1. população (ou universo): conjunto de elementos com pelo menos uma


característica comum;
2. amostra: subconjunto da população, necessariamente finito, pois todos seu
elementos serão examinados para efeito da realização do estudo estatístico
desejado.

O objetivo da Estatística Indutiva é o de tirar conclusões sobre as populações com base


nos resultados observados em amostras extraídas dessas populações.

Este termo “indutiva” decorre da existência de um processo de indução, isto é, um


processo de raciocínio em que, partindo-se do conhecimento de uma parte, procura-se
tirar conclusões sobre a realidade, no todo.
Este processo de indução não pode ser exato, pois ao induzir, estamos sempre sujeitos a
erro. A Estatística Indutiva irá nos dizer até que ponto poderemos estar errado em nossas
induções, e com que probabilidade.

População Amostra

Antes de iniciar qualquer análise dos dados através dos métodos da Estatística Indutiva, é
preciso organizar os dados da amostra, o que é feito com técnicas de Estatística
Descritiva.
Uma outra ferramenta utilizada em Estatística Indutiva, e que surge paralelamente, é a
amostragem, onde certos cuidados básicos devem ser tomados no processo de obtenção
das amostras.

Em resumo, um estudo estatístico completo que recorra às técnicas da Estatística


Indutiva irá envolver também, direta e indiretamente, tópicos de:
- Estatística Descritiva;
- Cálculo das Probabilidade;
- Amostragem.

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 84


Amostragem

Cálculo das
Estatística
Probabilidades
Descritiva

Estatística
Indutiva

14.2 Amostragem

É o processo pelo qual obtêm-se amostras, que contenham informações a respeito de


valores populacionais desconhecidos.

A amostra ou amostras selecionadas devem ser representativas da população. Isto


significa que, a menos de certas pequenas discrepâncias inerentes à aleatoriedade
sempre presente, em maior ou menor grau, no processo de amostragem, a amostra deve
possuir as mesmas características básicas da população, no que diz respeito à(s)
variável(is) que desejamos pesquisar.

14.2.1 Tipos de Amostragem

Existem dois tipos de amostragem: a probabilística e a não-probabilística.

Amostragem probabilística

Neste tipo, todos os elementos da população possuem probabilidade conhecida e não


nula de pertencer a amostra.

É a melhor recomendação que se deve fazer no sentido de se garantir a


representatividade da mostra, pois o acaso será o único responsável por eventuais
discrepâncias entre população e amostra, o que é levado em consideração pelos métodos
de análise Estatística Indutiva.

Os métodos de amostragem probabilísticas mais conhecidos são:

• Amostragem Aleatória Simples (AAS)


• Amostragem Sistemática
• Amostragem Aleatória Estratificada (AAE)
• Amostragem por Conglomerado (em um estágio ou em estágios múltiplos)

Amostragem não-probabilística

É um processo de amostragem subjetivo e seu rendimento depende do conhecimento que


possui o pesquisador a respeito da estrutura das populações e a mostra é uma parcela
proporcional desta estrutura.
Ela é empregada, muitas vezes, por simplicidade ou pela impossibilidade de se obter uma
amostragem probabilística.
Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 85
Os métodos de amostragem não-probabilísticas são:

• Amostragem de Conveniência
• Amostragem por Julgamentos
• Amostragem por Cotas
• Bola de Neve

14.3 Distribuição amostral das Estatísticas

Seja uma população de tamanho N com média μ, variância σ² e proporção π. Ao


retirarmos várias amostras desta população, teremos:

Amostras
População
µˆ1
σˆ12
pˆ 1

μ
µˆ k
σ² σˆ k 2
π p̂k

µˆ 3
σˆ 3 2
µˆ 2
pˆ 3
σˆ 2 2
pˆ 2

14.3.1 Distribuição amostral da média

Seja uma população de tamanho N e X uma variável aleatória dessa população com E[X]
= μ e Var[X] = σ², logo X~N(μ,σ²).
Seja uma amostra aleatória (X1, X2,...,Xn) retirada desta população, onde se tem:

∑X i
X= i =1
n
Podemos calcular E [X ] e Var [X ] da seguinte forma:

 n 
 ∑ Xi 
E [X ] = E  i =1  = 1 E  X  = 1 E [ X ] = 1 nµ = µ
n n

 n  n ∑ i =1
i ∑ i n
 n i =1
 
 

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 86


 n

 ∑ Xi 
σ 2
Var [X ] = Var   = 1 Var 
n
 1 n
1
i =1
∑ Xi = 2 ∑ Var [ X i ] = 2 n σ 2
=
 n  n 2
 i =1  n i =1 n n
 
 
σ2
Então, E [X ] = µ e Var [X ] =
n
Com isto, podemos dizer que a média amostral é um estimador justo e consistente da
média populacional

14.3.2 Distribuição amostral da variância

Seja uma população de tamanho N e X uma variável aleatória dessa população com E[X]
= μ e Var[X] = σ², logo X~N(μ,σ²).
Seja uma amostra aleatória (X1, X2,...,Xn) retirada desta população, onde se tem:

∑ (X − X)
n
2
i
S2 = i =1

n −1

[ ] [ ]
Podemos calcular E S 2 e Var S 2 , mas primeiro devemos saber que:
X −µ
a) Se X i ≈ N ( µ , σ 2 ) , então z = i tem distribuição Normal com N(0, 1), ou seja:
σ
 X − µ  E( X i ) − µ µ − µ
E ( z) = E i = = =0 e
 σ  σ σ
 X −µ 1
 = 2 [Var ( X i ) − Var ( µ )] = 2 [σ − 0] = 1 ;
1
Var ( z ) = Var  i 2

 σ  σ σ
b) A distribuição de Qui-quadrado, representada por χ 2 , tem E (χ n2 ) = n e Var (χ n2 ) = 2n ,
n
pois: χ n2 = ∑ z i2 . Aplicando o valor esperado temos:
i =1

 n  n n n
E ( χ n2 ) = E  ∑ z i2  = ∑ E ( z i2 ) = ∑ Var ( z i ) = ∑1 = n . Aqui, devemos recordar que:
 i =1  i =1 i =1 i =1

( )
Var ( X ) = E X − ( E ( X )) . Substituindo por z, temos:
2 2

Var ( z ) = E ( z 2 ) − ( E ( z )) 2 = E ( z 2 ) − 0 = E ( z 2 )

Aplicando a variância, temos:


 n  n
[ ]
n n n
Var ( χ n2 ) = Var  ∑ z i2  = ∑Var ( z i2 ) = ∑ E ( z i4 ) − ( E ( z i2 )) 2 = ∑ (3 − 1) = ∑ 2 = 2n . Aqui, se deve
 i =1  i =1 i =1 i =1 i =1

ao fato de que, para n ∈ ℵ , temos:


- E ( z 2 n +1 ) = 0
(2n)!
- E ( z 2n ) =
n!2 n

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 87


4! 4.3.2!
então para E ( z i4 ) = 2
= = 3 , visto que 2n = 4 →n = 2
2!2 2!4
2! 2 * 1
Para E ( z i2 ) = 1 = = 1 , visto que 2n = 2 → n = 1
1!2 2

n
Xi − µ
Então, vimos que χ n2 = ∑ z i2 . Mas Sabemos que z = , então:
i =1 σ

2
n n
 Xi − µ 
χ n2 = ∑ z i2 = ∑   . Incluindo neste último termo (− X + X ) , temos:
i =1 i =1  σ 

2 2
n
 Xi − X + X − µ 
n n
 (X i − X ) + (X − µ) 
χ = ∑ z = ∑
2

2

 = ∑   . Aplicando o quadrado, nos
σ σ
n i
i =1 i =1   i =1  
termos do somatório, temos:
2
 (X − X ) + (X − µ) 
n n
 ( X − X ) 2 + 2( X i − X )( X − µ ) + ( X − µ ) 2 
χ = ∑  i
2
 = ∑  i  . Aplicando o

σ σ2
n
i =1   i =1  
somatório, temos:
 n n n

 ∑ ( X i − X ) 2 + 2( X − µ ) ∑ ( X i − X ) + ∑ ( X − µ ) 2 
χ n2 =  i =1 i =1 i =1  . O termo do meio fica zerado pois
 σ 2 
 
 
n

∑(X
i =1
i − X ) = 0 , de acordo com as propriedades da média. Então:

 n n
  n n
  n 
∑ i ( X − X ) 2
+ ∑ (X − µ)2  ∑ i ( X − X ) 2
∑ ( X − µ)2   ∑ ( X i − X )2 2
n
X −µ 
χ n2 =  i =1 i =1  =  i =1 + i =1  =  i =1 + ∑  
 σ 2   σ 2
σ2   σ 2
i =1  σ  
     
     

Voltando a equação da variância amostral, podemos fazer o seguinte:

∑ (X − X)
2
(n − 1) S 2
=
i

σ2 σ2
2
 
2 2  
 X −µ
n
 X −µ  X −µ
Então, o termo ∑   = n  = = z 2 , de acordo com a distribuição
i =1  σ   σ   σ 
 
 n 
amostral da média, visto anteriormente.

Da distribuição de Qui-quadrado, temos que " o quadrado de uma variável aleatória


normal reduzida "Z" tem distribuição Qui-quadrado com 1 grau de liberdade", ou seja:

Z 2 ≈ χ 12

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 88


Então, temos:

 n 
 ∑ (X i − X )2 2
n
 X − µ    (n − 1) S 2 
χ n2 =  i =1 + ∑   =   + χ 12
 σ2 i =1  σ   σ 2
   
 
 (n − 1) S 2
Que resulta em:   = χ n2 − χ 12 = χ n2−1 , pois a soma de variáveis aleatórias Qui-
 σ 2

quadrado com 1, 2,...,n graus de liberdade é uma variável aleatória Qui-quadrado com a
soma dos graus de liberdade, ou seja:
sendo χ 12 , χ 22 ,..., χ n2 , todas Qui-quadrado, fazendo Y = χ12 + χ 22 + ... + χ n2 , então Y = χ 2n .
∑i
i =1

(n − 1) S 2
Ou seja,
σ 2
( ) (
≈ χ n2−1 , onde E χ n2−1 = n − 1 e Var χ n2−1 = 2(n − 1) , pois: )

( ) ( ) ( )
E χ n2−1 = E χ n2 − E χ12 = n − E ( Z 2 ) = n − Var ( Z 2 ) = n − 1
Var (χ ) = Var (χ ) − Var (χ ) = 2n − Var ( Z
2
n −1
2
n 1
2 2
[ (
) = 2n − E ( Z 4 ) − E ( Z 2 ) ] = 2n − [3 − 1] = 2n − 2 = 2(n − 1)
2

Então: σ2
S2 = χ n2−1
n −1

Logo:

 σ2 2  σ2 σ2
E ( S 2 ) = E  χ n−1  = E χ n2−1 = (
(n − 1) = σ 2 )
 n −1  n −1 n −1
 σ2 2  σ4 σ4 2σ 4
Var ( S 2 ) = Var  χ n −1  = Var ( χ 2
n −1 ) = [2 ( n − 1) ] =
 n −1  (n − 1) (n − 1) 2 n −1
2

2σ 4
Também podemos demonstrar que E ( S ) = σ 2 2
e Var ( S ) =
2
, da seguinte forma:
n −1

∑ (X − X)
n
2
i
σ2
Sabendo que S 2 = i =1
e que E ( X ) = µ e Var ( X ) = , e lembrando que
n −1 n
V ( X ) = E ( X ) − ( E ( X )) , temos que aplicando E em S2, temos:
2 2

 n 2  n 
(  n
)

E  ∑ (X i − X )  E  ∑ X i2 − 2 X i X − X 2  E  ∑ X i2 − 2 X ∑ X i + ∑ X 2 
n n

E ( S 2 ) =  i =1  =  i =1  =  i =1 i =1 i =1 
n −1 n −1 n −1

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 89


n

∑X i n
Só que X = i =1

n
, que resulta em ∑X
i =1
i = nX . Substituindo, temos:

 n n n
  n   n 
E  ∑ X i2 − 2 X ∑ X i + ∑ X 2  E  ∑ X i2 − 2 XnX + nX 2  E  ∑ X i2 − nX 2 
E ( S 2 ) =  i =1 i =1 i =1  =  i =1  =  i =1 =
n −1 n −1 n −1
n

∑ E( X i
2
) − nE ( X 2 )
= i =1

n −1
Lembrando V ( X ) = E ( X 2 ) − ( E ( X )) 2 , então, E ( X 2 ) = V ( X ) + ( E ( X )) 2 = σ 2 + µ 2 . Para X ,
σ2
temos: V ( X ) = E ( X 2 ) − ( E ( X )) 2 , logo: E ( X 2 ) = V ( X ) + ( E ( X )) 2 = + µ 2 . Substituindo,
n
temos:
n σ 2  n

∑ σ + µ
∑ E ( X i2 ) − nE ( X 2 )
( 2 2
) − n  + µ 
 = (nσ + nµ ) − (σ + nµ )
2 2 2 2
E ( S 2 ) = i =1 =
i =1  n
n −1 n −1 n −1
(nσ + nµ ) − (σ + nµ ) nσ + nµ − σ − nµ
2 2 2 2 2 2 2 2
nσ − σ
2 2
(n − 1)σ 2
E(S ) =
2
= = = =σ 2
n −1 n −1 n −1 n −1

Para a variância, vamos fazer antes o seguinte:

∑ (X − X) ∑ (X −µ +µ − X) ∑ (( X − µ ) − ( X − µ ))
n n n
2 2 2
i i i
S2 = i =1
= i =1
= i =1
=
n −1 n −1 n −1

∑ (( X ) ∑(X
n n n

i − µ ) 2 − 2( X i − µ )( X − µ ) + ( X − µ ) 2 i − µ ) 2 − 2( X − µ ) ∑ ( X i − µ ) + n ( X − µ ) 2
= i =1
= i =i i =1
=
n −1 n −1

n n n
 n n

∑ ( X i − µ ) 2 − 2( X − µ ) ∑ ( X i − µ ) + n ( X − µ ) 2 ∑ (X
i =i
i − µ ) 2 − 2( X − µ )  ∑ X i + ∑ µ  + n ( X − µ ) 2
 i =1 i =1 
= i =i i =1
= =
n −1 n −1

∑ ( X i − µ ) 2 −2( X − µ )(nX + nµ ) + n( X − µ ) 2
n n

∑(X i − µ ) 2 − 2n ( X − µ ) 2 + n( X − µ ) 2
= i =i
= i =i

n −1 n −1
n

∑(X i − µ ) 2 −n( X − µ ) 2
S2 = i =i

n −1
σ2
multiplicando por , temos:
σ2
n

∑(X i − µ ) 2 −n( X − µ ) 2
σ2 σ 2  n  Xi − µ   X − µ) 
2 2

S = 2 i =i
× 2 = ∑   − n  
n −1 σ n − 1  i =1  σ   σ  

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 90


Xi − µ  σ2  X −µ X −µ
Lembrando que Z = , e que X ≈ N  µ ,  , então Z = = n , elevando
σ  n  σ σ
n
2
X −µ  X −µ
isto ao quadrado, ou seja: Z = n → Z = n2
 , temos:
σ  σ 
σ2   σ2  n 2
2 2
X −µ
n
 X − µ)  
S =
2
∑  i  − n  =  ∑ Zi − Z 2 
n − 1  i =1  σ   σ   n − 1  i =1 

Agora, aplicando Var, temos:

σ2  n 2 2  σ4   n 2 2 
Var ( S 2 ) = Var 
n − 1 

∑ Z i − Z 

 =
( n − 1) 2 Var 

∑ Z i 

− Var ( Z )
 i =1   i = 1 
n

 i =1

 i =1
n n

i =1
[ 2
]
Var  ∑ Z i2  = ∑ Var ( Z i2 ) = ∑ E ( Z i4 ) − (E ( Z i2 ) = ∑ [3 − 1] =∑ 2 = 2n
 n

i =1
n

i =1

[ (
Var ( Z ) = E ( Z ) − E ( Z = 3 − 1 = 2
2 4 2
)]
Lembrando que, para n ∈ ℵ , temos:
- E ( z 2 n +1 ) = 0
(2n)!
- E ( z 2n ) =
n!2 n
4! 4.3.2!
então para E ( z i4 ) = 2
= = 3 , visto que 2n = 4 →n = 2
2!2 2!4
2! 2 * 1
Para E ( z i2 ) = 1 = = 1 , visto que 2n = 2 → n = 1
1!2 2
Então:
σ4   n 2 2  σ4 2σ 4 2σ 4
Var ( S 2 ) = Var  ∑ i
Z  − Var ( Z )  = [2 n − 2 ] = ( n − 1) =
(n − 1) 2   i =1  (n − 1)
2
(n − 1) 2 ( n − 1)

Com isto, podemos dizer que a variância amostral é um estimador justo e consistente da
variância populacional

14.3.3 Distribuição amostral da proporção

Seja uma população de tamanho N e X uma variável aleatória dessa população com E[X]
= π e Var[X] = π(1-π), logo X~Be(π, π(1-π),).
Seja uma amostra aleatória (X1, X2,...,Xn) retirada desta população, onde se tem:
n
Y = ∑ X i e Y ≈ Bin(n, π ) , logo E (Y ) = nπ e V (Y ) = nπ (1 − π )
i =1
Então, Y conta o número de vezes que um certo evento de interesse A ocorre na amostra.
Assim:
Y
p=
n

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 91


Podemos calcular E [ p ] e Var [ p ] , da seguinte forma:

Y  1 1
E [ p ] = E   = E [Y ] = nπ = π
n n n
Y  1 1 π (1 − π )
Var [ p ] = Var   = 2 Var [Y ] = 2 n[π (1 − π )] =
n n n n

Com isto, podemos dizer que a proporção amostral é um estimador justo e consistente da
proporção populacional

Resumindo:

Estimador E(.) Var(.)

µ
n

∑X i
σ2
X= i =1
n
n
∑ (X −X)
n
2
i σ2 2σ 4
S2 = i =1
n −1
n −1
nS π π (1 − π )
p=
n n

14.3.4 Erro-padrão

O desvio-padrão da distribuição amostral das estatísticas é freqüentemente denominado


de erro-padrão da estatística.

Erro-padrão - EP
Estimador
n

∑X i σ
X= i =1
n
n
∑ (X −X)
n
2
i 2
S2 = i =1 σ2
n −1 n −1

p=
nS π (1 − π )
n n

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 92


A variância do estimador depende sempre dos parâmetros populacionais, que são, em
geral, desconhecidos. Neste caso, pode-se substituí-lo pelo erro-padrão estimado,
usando, neste caso, os valores obtidos pela amostra. Assim,

EP
Estimador Erro-padrão - EP
estimado
n

∑X i σ S
X= i =1
n n
n
∑ (X −X)
n
2
2 2
i
σ2 S2
S2 = i =1
n −1 n −1
n −1

p=
nS π (1 − π ) p(1 − p )
n n n

14.4 Definição de Estimador e Estimativa

a) Estimador ( θˆ)

Chamamos estimador à quantidade, calculada em função dos elementos da amostra, que será usada
no processo de estimação do parâmetro desejado. O estimador é, como vemos, uma estatística..
Será, portanto, uma variável aleatória caracterizada por uma distribuição de probabilidade e seus
respectivos parâmetros próprios.

b) Estimativa

Chamaremos estimativa a cada particular valor assumido por um estimador.

14.4.1 Propriedades dos Estimadores

a) Justeza ou não-tendenciosidade

Diremos que um estimador θˆ é justo (ou não-tendencioso, ou não-viciado, ou não-viesado), se sua


média (ou expectância) for o próprio parâmetro que se pretende estimar, isto é,

E (θˆ) = θ

Isso significa que os valores aleatórios de θˆ ocorrerão em torno do valor do parâmetro θ , o que é,
obviamente, desejável.

b) Consistência

Diremos que um estimador θˆ é consistente se

(
lim P θ − θˆ ≥ ε = 0
n →∞
)

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 93


para todo ε > 0. Isso significa, em termos práticos, que, sendo o estimador consistente, pode-se com
amostras suficientemente grandes tornar o erro de estimação tão pequeno quanto se queira. Por
outro lado, se o estimador for justo, a condição de consistência equivale a dizer que sua variância
tende a zero quando o tamanho da amostra tende a infinito, isto é,

lim Var (θˆ) = 0


n →∞

Vemos que, para estimadores justos e consistentes, podemos obter estimativas tão próximas quanto
desejamos do valor real do parâmetro, desde que aumentemos suficientemente o tamanho da
amostra. Nessas condições, supondo o caso-limite de uma amostra infinitamente grande, a
estimativa obtida iria coincidir exatamente com o parâmetro estimado.

c) Eficiência

Dados dois estimadores, θˆ1 e θˆ2 , a serem usados na estimação de um mesmo parâmetro θ ,
diremos que θˆ é mais eficiente que θˆ como estimador de θ se para o mesmo tamanho de amostra,
1 2


( 2
)
 
2
(
E  θˆ1 − θ  < E  θˆ2 − θ  .

)
Se θˆ1 e θˆ2 forem estimadores justos de θ , essa condição indicará que a variância de θˆ1 é menor que
a variância de θˆ . 2

Se θˆ1 é mais eficiente que θˆ2 como estimador do parâmetro θ , podemos definir a relação:
[
E (θ1 − θ )
2
] <1
E [(θ −θ ) ]
2
2

como sendo a eficiência de θˆ2 em relação a θˆ1 como estimador de θ . Se os estimadores θˆ1 e
θˆ forem ambos justos, a eficiência relativa se reduzirá ao quociente das respectivas variâncias.
2
Uma medida absoluta da eficiência pode ser conseguida por meio da comparação com o estimador
mais eficiente do parâmetro em questão. Logicamente, o estimador mais eficiente possível terá
eficiência absoluta igual a 1, ou 100 %. Tal estimador será dito simplesmente "eficiente".

d) Suficiência

Dizemos ser um θˆ um estimador suficiente do parâmetro θ se o conhecimento do valor que θˆ


assume para dada amostra fornecer toda a informação possível a respeito de θ , independente do
auxílio de qualquer outra estimativa.

Definição. Diremos que Θ̂ é a melhor estimativa não-tendenciosa linear de Θ se:

(a) E( Θ̂ ) = Θ .
n
ˆ = a X . Isto é, Θ̂ é uma função linear da amostra.
b) Θ ∑ i i
i =1
ˆ ) ≤ V (Θ ∗ ) , onde Θ * é qualquer outra estimativa de Θ que satisfaça a (a) e (b), acima.
(c) V (Θ

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 94


14.5 Métodos de Estimação

Um problema importante da inferência estatística é a estimação dos parâmetros


populacionais θ, ou, abreviadamente, parâmetros (tais como a média, a variância e a
proporção populacionais), deduzidos da estatística amostral correspondente θˆ , ou
abreviadamente, estatística (tais como a média, a variância e a proporção amostrais).
Os tipos de estimação são:
a) Estimação pontual
b) Estimação por intervalos

14.5.1 Estimação Pontual

É aquela realizada quando, a partir de uma amostra, procura-se tomar o valor do


parâmetro populacional desconhecido θ por um único número, geralmente
correspondente ao valor da estatística amostral θˆ , ou seja, de uma estimativa.

Ex: deseja-se tomar as percentagens de pessoas do sexo masculino em uma dada


universidade (π) pela porcentagem calculada em uma amostra convenientemente
selecionada (p).

14.5.2 Estimação por intervalos - Intervalo de confiança

Já foi visto que, na prática, usamos uma estatística ( θˆ ) para se estimar um parâmetro populacional
( θ ), que em geral é desconhecido. Ou seja, realizamos um processo de amostragem, que significa
retirar uma amostra da população de estudo. Ao fazer isto, estamos cometendo um erro, chamado de
erro amostral - ε.

O erro amostral (ε) é expresso na unidade da variável de estudo. Ele representa a máxima diferença
admitida entre o verdadeiro parâmetro populacional (θ) e o seu estimador ( θˆ ), conhecido como
estatística. Então:

θ − θˆ ≤ ε
Se θˆ é um estimador consistente, então:
(
lim P θ − θˆ ≥ ε = 0
n →∞
)
Digamos que esta probabilidade P seja igual a α, então, para uma determinada amostra
de tamanho n, então:
(
P θ − θˆ > ε = α )
O valor α será a probabilidade de erro de estimação, isto é, a probabilidade de errarmos
ao afirmar que a distância entre o valor do parâmetro populacional e o seu estimador, ou
seja o desvio, seja maior que ε, normalmente chamada de nível de significância.

Utilizando o complementar, temos:


( ) (
P θ − θˆ ≤ ε = 1 − P θ − θˆ > ε = 1 − α )
Desenvolvendo este intervalo, em função do módulo, temos:
( ) ( ) ( )
P θ − θˆ ≤ ε = 1 − α → P − ε ≤ θ − θˆ ≤ ε = 1 − α → P θˆ − ε ≤ θ ≤ θˆ + ε = 1 − α
Ou seja, este é o intervalo que, com probabilidade conhecida, deverá conter o valor real
do parâmetro populacional.

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 95


A probabilidade, que é obtida por 1 – α, é chamada de nível de confiança do respectivo
intervalo.
A estrutura de um intervalo de confiança é dada por:

P(θˆ − ε ≤ θ ≤ θˆ + ε ) = 1 − α

Onde: θˆ – é o estimador; θ é o parâmetro a ser estimado; 1 – α é a probabilidade de o


valor estar no intervalo; α é a probabilidade de erro; ε é o erro de estimação

14.5.2.1 Intervalos de Confiança para uma Amostra

14.5.2.1.1 Intervalo de confiança para média

Caso I – o desvio-padrão populacional é conhecido

 σ  X −µ
Sabendo que X ≈ N  µ ,  , então Z = . Aqui o estimador é X e o parâmetro
 n σ
n
verdadeiro é µ, logo ε = X − µ .

Disto, podemos reescrever Z da seguinte forma:

X −µ σ
Z= →ε = Z .
σ n
n

Substituindo em P(θˆ − ε ≤ θ ≤ θˆ + ε ) = 1 − α , temos:

 σ σ 
IC  X − Z ≤µ ≤ X +Z  = 1 − α
 n n

Aqui, Z é tabelado em função de α/2.

Caso II – o desvio-padrão populacional é desconhecido

σ2 Z
Inicialmente, devemos levar em consideração que S 2 = χ n2−1 e que t = tem
n −1 χ n2
n
distribuição t-student com n graus de liberdade.

X −µ
Mas, sabemos que Z = . Fazendo algumas operações, temos:
σ
n

X −µ X −µ X −µ Z X −µ X −µ S
Z= = = → = → t n −1 = → ε = t n −1
σ σ2 S 2 (n − 1) χ n2−1 S2 S n
n n nχ n2−1 n −1 n n

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 96


Substituindo em P(θˆ − ε ≤ θ ≤ θˆ + ε ) = 1 − α , temos:

 S S 
IC  X − t n −1 ≤ µ ≤ X + t n−1  = 1 − α
 n n

Aqui, tn-1 é tabelado em função de α/2 e de n – 1 (graus de liberdade).

Obs: caso a amostra seja superior a 30 ( n ≥ 30 ), podemos substituir t n −1 por Z na


expressão acima, logo:

 S S 
IC  X − Z ≤µ ≤ X +Z  = 1 − α
 n n
Com Z tabelado em função de α/2.

14.5.2.1.2 Intervalo de confiança para a variância

Neste caso, vamos trabalhar com a mesma relação:

σ2
S2 = χ n2−1
n −1

Fazendo uma pequena adaptação:

S 2 (n − 1)
= χ n2−1
σ2
O intervalo fica da seguinte forma:

( )
IC χ 12 ≤ χ 2 ≤ χ 22 = 1 − α
Com algumas adaptações:

 S 2 (n − 1) S 2 (n − 1) 
IC  ≤ σ 2
≤ = 1−α
 χ2 χ 2 
 Sup inf 

Onde: χ Inf
2
= χ (21−α ) e χ Sup
2
= χα2
2 2

Ambos com n – 1 graus de liberdade

Intervalo de confiança para o desvio-padrão

Com base no intervalo de confiança da variância, temos:


IC  S
(n − 1) ≤ σ ≤S
(n − 1)  = 1 − α
 χ Sup
2
χ Inf
2 
 

Onde: χ Inf
2
= χ (21−α ) e χ Sup
2
= χα2
2 2

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 97


Ambos com n – 1 graus de liberdade

14.5.2.1.3 Intervalo de confiança para a proporção

 p (1 − p ) 
Neste caso, sabendo que pˆ ≈ N  p,  , temos:

 n 
pˆ − p
Z=
p (1 − p )
n

Lembrando que ε = pˆ − p , então:


p(1 − p)
ε =Z
n
ˆ ˆ
Substituindo em P(θ − ε ≤ θ ≤ θ + ε ) = 1 − α , temos:

 p (1 − p ) p (1 − p ) 
IC  pˆ − Z ≤ p ≤ pˆ + Z  = 1−α
n n 
 
Aqui, Z é tabelado em função de α/2.

Obs: Quando o produto p(1-p) for menor ou igual a 1 , temos o intervalo de confiança
4
conservativo para p ao nível de 1 - α, dado por:
 1 1 
IC  pˆ − Z ≤ p ≤ pˆ + Z  = 1 − α
 2 n 2 n
Resumidamente, temos

Estimador Intervalo de Confiança


Caso I - Desvio padrão conhecido
 σ σ 
IC  X − Z ≤µ ≤ X +Z  = 1 − α
 n n
Caso II p Desvio padrão desconhecido
Média Amostral ( X )  S S 
IC  X − t n −1 ≤ µ ≤ X + t n−1  = 1 − α , p/ n < 30
 n n
 S S 
IC  X − Z ≤µ ≤ X +Z  = 1 − α , p/ n ≥ 30
 n n
 S 2 (n − 1) S 2 (n − 1) 
Variância amostral (S²) IC  ≤ σ 2
≤ = 1−α
 χ2 χ inf2 
 Sup

 p (1 − p ) p (1 − p ) 
IC  pˆ − Z ≤ p ≤ pˆ + Z  = 1−α
n n 
 
Proporção populacional ( p )  1 1 
IC  pˆ − Z ≤ p ≤ pˆ + Z  = 1 − α , quando
 2 n 2 n
1
p (1 − p ) ≤
4

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 98


14.5.2.2 Intervalos de Confiança para duas Amostras

Em algumas situações em uma pesquisa, deseja-se verificar se existem diferenças


entre as amostras que estão sendo estudas. Ou seja, deseja-se verificar se as amostras
são oriundas de populações diferentes, ou não.
Em tais comparações, podem se observadas diferenças significativas entre as
amostras, e que podem surgir por vários motivos.
Uma pergunta que aparece freqüentemente em Ciência é a seguinte: O método A é
melhor do que o método B? Em termos estatísticos, isto equivale a comparar dois
conjuntos de informações, resultantes das medidas obtidas da aplicação dos dois
métodos a dois conjuntos de objetos ou indivíduos.
Para a realização dos cálculos, temos que conhecer o seguinte:
Sejam duas populações representadas por X e Y e sejam X 1 , X 2 ,..., X n e Y1 , Y2 ,..., Yn
amostras aleatórias simples de tamanho n X e nY retiradas dessas populações.
Com isto, podemos ter:
a) Amostras independentes;
b) Amostras emparelhadas.

14.5.2.2.1 Amostras Independentes e Emparelhadas

Amostra independentes ocorrem quando o processo de seleção dos indivíduos ou


objetos da amostra X não têm qualquer efeito sobre, ou qualquer relação com, a seleção
de indivíduos ou objetos da amostra Y.
Amostras dependentes é o caso contrário das amostra independentes.
Amostras emparelhadas ocorrem quando cada indivíduo ou objeto da amostra X
está associado com um indivíduo ou objeto semelhante na amostra Y. Experimentos que
envolvem medidas tipo "antes e depois" de cada indivíduo ou objeto resultam em dados
emparelhados - cada observação antes é associada a, ou emparelhada com uma
observação depois.
Semelhante significa que os indivíduos ou objetos compartilham alguma
característica fundamental, comum, podendo, ou não, ser o mesmo indivíduo ou objeto.
Desta forma, temos:

Denominação Parâmetros Estatísticas


População X População Y Amostra X Amostra Y
Média µX µY X Y
Variância σX σY SX2
S Y2
Proporção πX πY PX PY

14.5.2.2.2 Intervalos de Confiança para duas Médias

1º Caso - Variâncias populacionais conhecidas

 σ   σ 
Seja X ≈ N ( µ X , σ X2 ) e Y ≈ N ( µY , σ Y2 ) . Desta forma, X ≈ N  µ X , X  e Y ≈ N  µ Y , Y .
 
nX   nY 
  
Fazendo a diferença X − Y e aplicando o valor esperado "E" e a variância "Var", temos:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 99


 ∑ Xi
 − E ∑ i ∑ E ( X ) − ∑ E (Y ) = n
  Y  µX nY µY
E ( X − Y ) = E ( X ) − E (Y ) = E  = − = µ X − µY
i i X
  n 
 nX   Y  nX nY nX nY

Aplicando a variância, temos:


 ∑ Xi
 + Var  ∑ i ∑Var ( X ) + ∑Var (Y ) = n
  Y  σ X2 nY σ Y2
Var ( X − Y ) = Var ( X ) + Var (Y ) = Var  = + =
i i X
 n   n  n X2 nY2 n X2 nY2
 X   Y 
σ X2 σ Y2
+
nX nY2

 σ2 σ2 
Então X − Y ≈ N  µ X − µY , X + Y2 
 n X nY 
( X − Y ) − ( µ X − µY )
Assim, Z α = ≈ N (0,1)
2 σ X2 σ Y2
+
n X nY2
O intervalos de confiança ficaria assim:
 
 
 ( X − Y ) − ( µ X − µY ) 
P − Z α ≤ ≤ Zα  = 1−α
 2 σ X2 σ Y2 2 
 + 2 
 n X nY 
Que nos dá:

 σ X2 σ Y2 σ X2 σ Y2 
P ( X − Y ) − Z α + 2 ≤ ( µ X − µY ) ≤ ( X − Y ) + Z α + 2 = 1−α
 n n n nY 
 2 X Y 2 X

Existe um caso em particular aqui, quando consideramos que σ X2 = σ Y2 = σ 2 . Neste caso,


temos:
σ2 σ2  1 1 
Var (X − Y ) = X + Y2 = σ 2  + 
nX nY  nX nY 
  1 1 
Assim: X − Y ≈ N  µ X − µ Y , σ 2  +  
 n n 
  X Y 

Então:
( X − Y ) − (µ X − µY ) ( X − Y ) − (µ X − µY )
Zα = = ≈ N (0,1)
2  1 1   1 1 
σ 2  + 2  σ  + 2 
 n X nY   n X nY 
Logo:

 1 1 1 1 
P ( X − Y ) − Z α σ + 2 ≤ ( µ X − µY ) ≤ ( X − Y ) + Z α σ + 2  = 1 − α
 2
n X nY 2
n X nY 

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 100
2º Caso - Variâncias populacionais desconhecidas, mas supostas iguais

 σ 
Seja agora X ≈ N (µ X ,σ 2 ) e Y ≈ N (µY ,σ 2 ) . Desta forma, X ≈ N µX , e
 n X 

 σ 
Y ≈ N  µY , . Fazendo a diferença X − Y e aplicando o valor esperado "E", temos:
 n 
 Y 
 ∑ Xi 
 − E ∑ i  = ∑
 Y  E ( X i ) ∑ E (Yi ) n X µ X nY µY
E ( X − Y ) = E ( X ) − E (Y ) = E    n  − = − = µ X − µY
 n X   Y  n X nY n X n Y

Com relação à variância, neste caso, temos as variâncias amostrais S X2 e S Y2 que são,
ambas, um estimador não enviesado para σ 2 .
Quando temos k grupos, temos S i2 , com i = 1 a k variâncias amostrais e ni observações,
podemos calcular uma variância chamada de "Variância pooled", com símbolo S p2 , por
meio da seguinte expressão:
k

∑ (n i − 1) S i2
S p2 = i =1
k

∑ (ni =1
i − 1)

Este termo "pooled" vem do inglês "pool" que pode ser traduzido como "quantidade" ou
"conjunto".

Pode se provar que S p2 é um estimador não tendencioso de σ 2 , pois:


 k  k
 ∑ (ni − 1) S i2  ∑ (n i − 1) E ( S i2 )
E ( S p2 ) = E  i =1k = i =1
  k

 ∑ (ni − 1)  ∑ (n i − 1)
 i =1  i =1

Como
 σ2 2  σ2 σ2
E(S ) = E
2
 χ n−1  =
 E χ n−1 =
2
( )
(n − 1) = σ 2 , então:
 n −1  n −1 n −1

 k  k k
 ∑ (ni − 1) S i2  ∑ (ni − 1) E ( S i2 ) ∑ (ni − 1)σ 2
E ( S p2 ) = E  i =1k  = i =1 = i =1 k =σ 2
  k

 ∑ (ni − 1)  ∑ (ni − 1) ∑ (ni − 1)


 i =1  i =1 i =1

Aplicando a variância, temos:


 ∑ Xi 
 + Var  ∑ i  = ∑ 2 i + ∑ 2 i = n X σ2 X + nY σ2 Y =
 Y  Var ( X ) Var (Y ) 2 2
Var ( X − Y ) = Var ( X ) + Var (Y ) = Var 
 n   n  nX nY nX nY
 X   Y 
σ X2 σ Y2
+
nX nY2
E como σ X2 = σ Y2 = σ 2 , temos:
σ X2 σ Y2  1 1 
Var (X − Y ) = Var ( X ) + Var (Y ) = + 2  . Mas vimos que E ( S p ) = σ , então:
2 2
+ = σ 2 
2
nX n Y  n X nY 

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 101
 1 1   1 1  (n X − 1) S X2 + (nY − 1) S Y2
Var ( X − Y ) = σ 2  + 2  , onde S p =
2
+ 2  = S p2 
 n X nY   n X nY  n X + nY − 2
  1 1 
Assim: X − Y ≈ N  µ X − µ Y , S p2  + 2  
 
  n X nY  
Então:
( X − Y ) − (µ X − µY ) ( X − Y ) − ( µ X − µY )
tα = = ≈ t n X + nY − 2
2  1 1   1 1 
S p2  +  Sp  + 
 n X nY   n X nY 
Logo:

 1 1 1 1 
P ( X − Y ) − t α Sp + ≤ (µ X − µY ) ≤ ( X − Y ) + t α Sp +  = 1−α
n X + nU − 2 ; n n n X + nU − 2 ; n n
 2 X Y 2 X Y 

3º Caso - Variâncias populacionais desconhecidas e diferentes


 σ   σ 
Seja X ≈ N ( µ X , σ X2 ) e Y ≈ N ( µY , σ Y2 ) . Desta forma, X ≈ N  µ X , X  e Y ≈ N  µ Y , Y  .
 n X   nY 
 
Fazendo a diferença X − Y e aplicando o valor esperado "E" e a variância "Var", temos:
 ∑ Xi 
 − E ∑ i  = ∑
 Y  E ( X i ) ∑ E (Yi ) n X µ X nY µ Y
E (X − Y ) = E ( X ) − E (Y ) = E  − = − = µ X − µY
 n   n  nX nY nX nY
 X   Y 

Aplicando a variância, temos:


 ∑ Xi
 + Var  ∑ i ∑Var ( X ) + ∑Var (Y ) = n
  Y  σ X2 nY σ Y2
Var ( X − Y ) = Var ( X ) + Var (Y ) = Var  = + =
i i X
 n   n  n X2 nY2 n X2 nY2
 X   Y 
σ X2 σ Y2
+
nX nY2
Mas como sabemos que E ( S X2 ) = σ X2 e E ( S Y2 ) = σ Y2 , temos que
σ X2 σ Y2 S X2 S Y2
Var (X − Y ) = Var ( X ) + Var (Y ) = + = +
nX nY2 nX nY2
 S2 S2 
Assim: X − Y ≈ N  µ X − µ Y , X + Y2 
 n X nY 
Então:
( X − Y ) − (µ X − µY ) ( w X + wY ) 2 S X2 S Y2
tα = ≈ t w , onde w = − 2 , sendo w = e w =
w X2 wY2
X Y
 S X2 S X2  nX nY
2
 + 2  +
n X − 1 nY − 1
 nX nY 
Logo:

 S X2 S Y2 S X2 S Y2 
P ( X − Y ) − t α + ≤ (µ X − µY ) ≤ ( X − Y ) + t α + = 1−α
 w; n X nY w; n X nY 
 2 2

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 102
4º Caso - Amostras emparelhadas

Amostras emparelhadas (ou pareadas) correspondem ao levantamento de dados da


mesma população, porém em duas situações nas quais se tenha interferido algum fator
cujo efeito se quer avaliar. As amostras emparelhadas de "n" observações, antes e depois
da intervenção de um fator, pode ser representada da seguinte forma:

Antes do Fator (A) Depois do Fator(D) Diferença entre as amostras(d)


X A1 X D1 d1 = X A1 − X D1
X A2 X D2 d 2 = X A2 − X D 2
X A3 X D3 d 3 = X A3 − X D 3
: : :
Total n

∑d
i =1
i

A estimativa da média das diferença entre as situações pode se avaliada por:


n

∑d i
Xd = i =1

n
Uma estimativa da variabilidade da diferença é dada por:
n n

∑ (d i − d ) 2 ∑d i
2
− nd 2
S d2 = i =1
= i =1

n −1 n −1

Se X A ~ N ( µ A , σ A2 ) e X D ~ N ( µ D , σ D2 ) , então:
 n  n n

 ∑ d i  ∑ E (d i ) ∑ E ( X A − X D ) nE ( X − X )
E[ X d ] = E  i =1  = i =1 = i =1 = A D
= E( X A − X D ) = E( X A ) − E( X D ) =
 n  n n n
 
E[ X d ] = E ( X A ) − E ( X D ) = µ A − µ D = µ d
 n  n n

∑ i  ∑
d Var ( d i ) ∑ Var ( X A − X D )
nVar ( X A − X D ) Var ( X A − X D )
i =1 i =1 i =1
Var[ X d ] = Var  = 2
= 2
= = =
 n  n n n2 n
 
 
Var ( X A ) Var ( X D ) σ A2 + σ D2 − 2Cov ( X A X D ) σ A2 + σ B2 − 2 ρσ Aσ D
Var[ X d ] = + = =
n n n n
σ + σ B − 2 ρσ Aσ D σ 2 + σ 2 − 2 ρσ 2 2σ 2 (1 − ρ )
2 2
Supondo σ A2 = σ D2 = σ 2 , temos: Var[ X d ] = A = = ,
n n n
onde ρ é o coeficiente de correlação linear. Desta forma ficaria um pouco complicado de
 σ2 
demonstrar. Então, assume-se que X d ~ N  µ d , d  , logo:
 n 
X − µd
Zα = d ~ N (0,1)
2
σd
n
Desta forma, para n ≥ 30, temos:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 103
 σ σ 
P X d − Z α d ≤ µ d ≤ X d + Z α d  = 1 − α
 2 n 2 n
Contudo, normalmente, não conhecemos σ d2 . Um estimador muito utilizado para aquele
parâmetro populacional é a variância amostral, dada por:
n n

∑ (d i − d )2 ∑d i
2
− kd 2
S d2 = i =1
= i =1

n −1 n −1
 S 2

Com isto, temos: X d ~ N  µ d , d
 , então:
 n 

X d − µd
tα = ~ t n −1
2
Sd
n
Assim:
 S S 
P X d − t α d ≤ µ d ≤ X d − t α d  = 1 − α
 2 n 2 n

14.5.2.2.3 Intervalos de Confiança para duas Proporções

Considere que se queira estimar a diferença entre duas proporções p X e pY associadas


a duas populações independentes. Sabendo-se que:
 p (1 − p X )   p (1 − pY ) 
pˆ X ≈ N  p X , X  e pˆ Y ≈ N  pY , Y 
 n X   n Y 
X Y
onde pˆ X = e , pˆ Y = sendo X e Y a soma das características observadas na
nX nY
amostra.

Temos:

E ( pˆ X − pˆ Y ) = E ( pˆ X ) − E ( pˆ Y ) = p X − pY
p (1 − p X ) pY (1 − pY )
Var ( pˆ X − pˆ Y ) = Var ( pˆ X ) + Var ( pˆ Y ) = X +
nX nY
 p (1 − p X ) pY (1 − pY ) 
Logo: pˆ X − pˆ Y ≈ N  p X − pY , X + 
 nX nY 
( pˆ X − pˆ Y ) − ( p X − pY )
Assim: Z α = ≈ N (0,1)
p (1 − p ) p (1 − p )
2 X X
+ Y Y

nX nY
Então:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 104
 p X (1 − p X ) pY (1 − pY )
P ( pˆ X − pˆ Y ) − Z α + ≤ ( p X − pY ) ≤
 nX nY
 2

p X (1 − p X ) pY (1 − pY ) 
( pˆ X − pˆ Y ) + Z α +  = 1−α
nX nY 
2 

Caso as amostras n1 e n2 sejam grandes, devemos então fazer:

X Y
p= +
n X nY
Então:

  1 1   1 1  
P ( pˆ X − pˆ Y ) − Z α p (1 − p ) +  ≤ ( p X − pY ) ≤ ( pˆ X − pˆ Y ) + Z α p (1 − p ) +  = 1 − α
  n X nY   n X nY  
 2 2

14.5.2.2.4 Intervalos de Confiança para duas Variâncias

Neste caso, não faremos a diferença entre duas variâncias e sim a razão entre elas.
Seja uma amostra aleatória x1 , x 2 ,..., x n de uma população X, com distribuição N ( µ X , σ X2 )
e uma amostra aleatória y1 , y 2 ,..., y n de uma população Y, com distribuição N ( µ Y , σ Y2 ) .
Sabe-se que:
(n − 1) S 2 (n − 1) S 2
Q X = x 2 X ≈ χ n2X −1 e QY = Y 2 Y ≈ χ n2Y −1
σX σY

Ou seja Qx e Qy têm distribuição Qui-quadrado com nx - 1 e ny - 1 graus de liberdade,


respectivamente.

Fazendo o quociente entre Qy e Qx, cada uma dividida pelos seus graus de liberdade,
teremos uma distribuição F-Snedecor com nx - 1 e ny - 1 graus de liberdade, ou seja:

QX S X2
n X − 1 σ X2 S X2 σ Y2 σ Y2 S X2
= 2 = 2 × 2 = 2 × 2 ≈ F(n X −1nY −1)
QY SY σ X SY σ X SY
nY − 1 σ Y 2

Fazendo o seguinte intervalo:


 
P F α ≤ F ≤ Fα  = 1−α

 1− 2 2 
Uma vez que:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 105
1−α

F α Fα
1−
2 2
Temos:

 σ 2 S2  S2
P F α ≤ Y2 × X2 ≤ Fα  = 1 − α . Passando X2 para o termo da esquerda e da direita, e

 1− 2 σ X S Y 2  SY
dividindo, temos:

 
 
 1 σY2
1   S2 σ 2 S2 
P F α 2 ≤ 2 ≤ Fα 2  = 1 − α ⇒ P F α Y2 ≤ Y2 ≤ Fα Y2  = 1 − α
1− S σX SX  1− 2 S X σ X SX 
 2 X2 2  2
 SY 2 
SY 

Contudo, a distribuição F-Snedecor, tem a seguinte propriedade:

"Se X ~ F (n1 ; n2 ) , então X −1 ~ F (n 2 ; n1 ) ". Então, invertendo tudo temos:

 
   
 1 1 1 1 1   1 S X2 σ X2 1 S X2 
P 2
≥ 2 ≥
σY Fα S Y2  = 1 − α ⇒ P F 2
≥ 2 ≥  = 1−α .
σ Y Fα S Y2 
F S
 1−α Y2   α SY
 2 S σ X2 2
S X2   1− 2 2 
 X 

 
 1 S X2 σ X2 1 S X2 
Colocando em ordem: P ≤ 2 ≤  = 1−α
2
 Fα S Y σ Y F α S Y2 
1−
 2 2 

1 1
Pelo gráfico acima: F α < Fα , e lembrando que: F α = e Fα =
1− 1− Fα F α
2 2 2 2
1−
2 2

 2
S σ 2
S 2

P F α X
≤ X
≤ Fα X  = 1−α
2
σ 2 2 
 1− 2 S
Y Y 2
S Y 
1 1
Na prática, em termos de tabela, temos que F α = e Fα =
1− Fα Fα
2 2
; n X −1; nY −1 ; nY −1; n X −1
2 2

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 106
Resumo:

Operação Intervalo de Confiança


entre
Estimadores
Caso I - Variâncias populacionais conhecidas
 σ X2 σ Y2 σ X2 σ Y2 
P ( X − Y ) − Z α + ≤ ( µ X − µY ) ≤ ( X − Y ) + Z α + = 1−α
 n n n n 
 2 X Y 2 X Y 
Caso particular: Variâncias populacionais conhecidas e iguais
 1 1 1 1 
P ( X − Y ) − Z α σ + ≤ (µ X − µY ) ≤ ( X − Y ) + Z α σ + = 1−α
 2
n X nY 2
n X nY 
Caso II - Variâncias populacionais desconhecidas
 1 1 1 1 
P ( X − Y ) − t α Sp + ≤ (µ X − µY ) ≤ ( X − Y ) + t α Sp +  = 1−α ,
n X + nU − 2 ; n n n X + nU − 2 ; n n
 2 X Y 2 X Y 
Diferença (n − 1) S X + (nY − 1) S Y
2 2

entre Onde: S p2 = X
Médias n X + nY − 2
Amostrais Caso III - Variâncias populacionais desconhecidas e diferentes

 S X2 S Y2 S X2 S Y2 
P ( X − Y ) − t α + ≤ (µ X − µY ) ≤ ( X − Y ) + t α + = 1−α
 w; n X nY w; n X nY2 
 2 2

Caso IV - Amostras Emparelhadas


 S S 
P X d − t α d ≤ µ d ≤ X d − t α d  = 1 − α , para n < 30
 2 n 2 n
 S S 
P X d − Z α d ≤ µ d ≤ X d + Z α d  = 1 − α , para n ≥ 30.
 2 n 2 n
 S2 σ 2 S2 
P F α X2 ≤ X2 ≤ Fα X2  = 1 − α ,
Razão de  1− 2 S Y σ Y 2
SY 
Variâncias 1
amostrais onde F α = , ou seja, basta apenas encontrar Fα
1− Fα
2 2
2

 p X (1 − p X ) pY (1 − pY )
P ( pˆ X − pˆ Y ) − Z α + ≤ ( p X − pY ) ≤
 nX nY
 2
para nX e nY < 30
Diferença p X (1 − p X ) pY (1 − pY ) 
entre ( pˆ X − pˆ Y ) + Z α +  = 1−α
nX nY 
Proporções 2 
Amostrais   1 1   1 1  
P ( pˆ X − pˆ Y ) − Z α p (1 − p ) +  ≤ ( p X − pY ) ≤ ( pˆ X − pˆ Y ) + Z α p (1 − p ) +  = 1 − α ,
  n X nY  n
 X nY 

 2 2 
X Y
para nX e nY ≥ 30, onde p = +
n X nY

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 107
15. Testes de Hipótese

Seja H0 a hipótese existente a ser testada e H1 a hipótese alternativa.


O teste irá levar a rejeição ou a não rejeição da hipótese H0, o que corresponde,
respectivamente, à negação ou afirmação de H1.
Em um teste de hipótese, podem ocorrer dois tipos de erros:
Erro tipo I: rejeitar H0, sendo H0 verdadeira.
Erro tipo II: aceitar H0, sendo H0 falsa.
As probabilidades destes dois tipos de erros serão designadas, respectivamente, por α e
β.
A probabilidade α do erro tipo I é denominada nível de significância do teste.

Deve-se notar que as probabilidades α e β são probabilidades condicionadas à realidade.

As faixas de valores da variável de teste que leva à rejeição de H0 é denominada região


crítica (RC). A faixa restante constitui a região de aceitação (RA), ou não rejeição.
Um resultado experimental obtido pode ser ou não significante, dependendo do α fixado.
Um resultado significativo a um determinado nível α nos levará à rejeição da hipótese H0,
pois admitiremos que, a menos de um risco pré-fixado α, ele seja incompatível com a
hipótese H0.

Por outro lado, se o valor experimental da variável de teste cair na região de aceitação,
não terá havido, no nível α considerado, evidência significativa suficiente para a rejeição
da hipótese H0, a qual deverá ser aceita. Note-se que neste caso, estaríamos sujeitos a
cometer o erro tipo II, cuja a probabilidade é β.

Se providências não tiverem sido tomadas no sentido de controlar a probabilidade β do


erro tipo II, então a aceitação da hipótese H0 será acompanhada de uma avaliação
probabilística da possibilidade do erro, conforme sempre ocorre no caso de chegar-se à
rejeição de H0 (pois o nível de significância α será sempre pré-fixado). A aceitação de H0
corresponde à insuficiência da evidência experimental, no nível de significância desejado,
para chegar à sua rejeição. Essa aceitação, como o próprio termo sugere, não deve ser
entendida como uma afirmação de H0.

15.1 Poder do teste

É a capacidade do teste em rejeitar H0, sendo H0 falsa, logo o valor de p será dado por 1
-β.
Os estatísticos aplicados dão cada vez mais preferência ao poder do teste p, em lugar
aos testes clássicos, porque um teste clássico envolve a fixação arbitrária de α
(usualmente em 5%). Ao invés de introduzir tal elemento arbitrário, muitas vezes é
preferível indicar o poder do teste p, deixando-se a tarefa de formular o julgamento sobre
H0. (Formalmente, determinado o nível de α que se julgue adequado aos seus propósitos,
pode-se chegar a uma decisão individual).
O poder está relacionado com a natureza do teste escolhido e , de modo geral, o poder
aumenta com o tamanho n da amostra.

15.2 Procedimentos

Basicamente, os procedimentos para o teste de hipótese são os seguintes:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 108
1. Enunciar as hipóteses, sendo:
H0: θ = θ0
H1: θ < θ0 ou θ ≠ θ0 ou θ > θ0
2. Estabelecer o nível de significância α;
3. Calcular a variável de teste, de acordo com a distribuição amostral da estatística do
teste;
4. Decidir sobre a rejeição ou não de H0, comparando o valor da variável de teste com o
valor tabelado da distribuição teórica correspondente.
Graficamente, temos:

Teste de Hipótese Bilateral

1- α
H1: θ ≠ θ0

α/2 α/2

-V crítico V crítico

Rejeitar H0 Não rejeitar H0 Rejeitar H0

Testes de Hipótese Unilateral à direita


1- α
H1: θ > θ0

V crítico

Não rejeitar H0 Rejeitar H0

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 109
Testes de Hipótese Unilateral à esquerda

H1: θ < θ0 1- α

-V crítico

Rejeitar H0 Não rejeitar H0

15.3 Testes de hipóteses para uma amostra

15.3.1 Teste de uma média populacional

1. σ² conhecida
A) Estabelecer as hipóteses C) calcular a variável de teste, dada por
H o : µ = µ0 x − µ0  σ 
z= , pois x ≈ N  µ ; 
σ  n
 µ < µ0
H1 :  µ ≠ µ0
n
 µ > µ 0

B) estabelecer o nível de significância α; D) Rejeita-se H0 se


 z < − zα , p/ µ < µ 0
 z < − z ou z > z , p/ µ ≠ µ
α α
 0
2 2

 z > zα , p/ µ > µ 0

2. σ² desconhecida

A) Estabelecer as hipóteses C) calcular a variável de teste, dada por


H o : µ = µ0 x − µ0  s 
t= , pois x ≈ t  µ ; 
s  n
 µ < µ0
H1 :  µ ≠ µ0
n
 µ > µ 0

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 110
B) estabelecer o nível de significância α; D) Rejeita-se H0 se


t < −t n −1;α tab , p/ µ < µ 0
t < −t ; ou t > t
 n −1 α α , p/ µ ≠ µ 0
n −1;
 2 2

t > t n −1;α , p/ µ > µ 0

15.3.2 Teste de uma variância populacional

A) Estabelecer as hipóteses C) calcular a variável de teste, dada por


H 0 :σ 2 = σ 20 χ2 =
(n − 1)s 2 , que tem distribuição χ 2
n −1
2
σ0
σ 2 < σ 2 o

H1 : σ 2 ≠ σ 2 o
σ 2 > σ 2 o

B) estabelecer o nível de significância α; D) Rejeita-se H0 se

 2
 χ < χ n −1;(1−α ) , p/ σ < σ o
2 2 2

 2
 χ < χ n −1;(1−α 2 ) ou χ > χ n −1;α , p/σ ≠ σ o
2 2 2 2 2

 2

 χ > χ n−1;α , p/σ > σ o


2 2 2 2

15.3.3 Teste de uma proporção populacional

A) Estabelecer as hipóteses C) calcular a variável de teste, dada por


p − P0  P (1 − P ) 
H 0 : P = P0 z= , pois p ≈ N  P, 
P0 (1 − P0 )  n 
 P < P0 n
H1 :  P ≠ P0
 P > P0

B) estabelecer o nível de significância α; D) Rejeita-se H0 se


 z < − zα , p/ P < P0
 z < − z ou z > z , p/ P ≠ P
α α
 0
2 2

 z > zα , p/ P > P0

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 111
15.4 Testes de hipóteses para duas amostras

15.4.1 Testes de hipóteses para duas médias

Caso I: variâncias populacionais conhecidas

A) Estabelecer as hipóteses C) calcular a variável de teste, dada por


H o : µ1 − µ 2 = 0 ⇒ µ1 = µ 2 (X − Y )
Z= ≈ N (0,1)
 µ 1 − µ 2 < 0 ⇒ µ1 < µ 2 σ X2 σ Y2
+
H 1 :  µ1 − µ 2 ≠ 0 ⇒ µ1 ≠ µ 2 nX nY2
 µ1 − µ 2 > 0 ⇒ µ1 > µ 2

B) estabelecer o nível de significância α; D) Rejeita-se H0 se


 z < − zα , p/ µ1 − µ 2 < 0
 z < − z ou z > z , p/ µ − µ ≠ 0
α α
 1 2
2 2

 z > zα , p/ µ1 − µ 2 > 0

Caso II: variâncias populacionais desconhecidas, mas supostas iguais

A) Estabelecer as hipóteses C) calcular a variável de teste, dada por


H o : µ1 − µ 2 = 0 (X − Y )
t= ≈ t n X + nY − 2
µ 1 − µ 2 < 0 ⇒ µ 1 < µ 2 2 1 1 
S p  + 
H 1 :  µ 1 − µ 2 ≠ 0 ⇒ µ 1 ≠ µ 2  n X nY 
 µ 1 − µ 2 > 0 ⇒ µ 1 > µ 2 (n X − 1) S X2 + (nY − 1) S Y2
onde S p2 =
n X + nY − 2
B) estabelecer o nível de significância α; D) Rejeita-se H0 se


t < −tα , p/ µ1 − µ 2 < 0
t < −t ou t > t , p/ µ − µ ≠ 0
α α
 1 2
2 2

t > tα , p/ µ1 − µ 2 > 0

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 112
Caso III: variâncias populacionais desconhecidas e diferentes:

A) Estabelecer as hipóteses C) calcular a variável de teste, dada por


H o : µ1 − µ 2 = 0 ( X − Y ) − (µ X − µY )
t= ≈ tw , onde
µ 1 − µ 2 < 0 ⇒ µ 1 < µ 2  S X2 S X2 
 + 2 
H 1 :  µ 1 − µ 2 ≠ 0 ⇒ µ 1 ≠ µ 2 n
 X nY 
 µ 1 − µ 2 > 0 ⇒ µ 1 > µ 2 ( w X + wY ) 2
w= −2,
w X2 wY2
+
n X − 1 nY − 1
S X2 S2
sendo w X = e wY = Y
nX nY

B) estabelecer o nível de significância α; D) Rejeita-se H0 se



t < −tα , p/ µ1 − µ 2 < 0
t < −t ou t > t , p/ µ − µ ≠ 0
α α
 1 2
2 2

t > tα , p/ µ1 − µ 2 > 0

Caso IV: Amostras emparelhadas

A) Estabelecer as hipóteses C) calcular a variável de teste, dada por


Ho : µ A − µD = 0 ⇒ µA = µD X − µd
t= d ~ t n −1
Sd
µ A − µ D < 0 ⇒ µ A < µ D
H 1 :  µ A − µ D ≠ 0 ⇒ µ A ≠ µ D n
 µ A − µ D > 0 ⇒ µ A > µ D

B) estabelecer o nível de significância α; D) Rejeita-se H0 se


t < −tα , p/ µ1 − µ 2 < 0
t < −t ou t > t , p/ µ − µ ≠ 0
α α
 1 2
2 2

t > tα , p/ µ1 − µ 2 > 0

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 113
15.4.2 Testes de hipóteses para duas proporções

A) Estabelecer as hipóteses C) calcular a variável de teste, dada por


( pˆ X − pˆ Y ) − ( p X − pY )
H 0 : P1 − P2 = 0 Z= ≈ N (0,1)
p X (1 − p X ) pY (1 − pY )
+
 P1 − P2 < 0 nX nY
H 1 :  P1 − P2 ≠ 0
 P1 − P2 > 0

B) estabelecer o nível de significância α; D) Rejeita-se H0 se


 z < − zα , p/ P1 − P2 < 0
 z < − z ou z > z , p/P − P ≠ 0
α α
 1 2
2 2

 z > zα , p/ P1 − P2 > 0

15.4.3 Testes de hipóteses para duas variâncias

A) Estabelecer as hipóteses C) calcular a variável de teste, dada por


S2
F = 12 ≈ F( n1 −1;n2 − 2)
σ 12 S2
H 0 : 2 = 1 ⇒ σ1 = σ 2
2 2

σ2

 σ 12
 2 < 1 ⇒ σ1 < σ 2
2 2

σ 2
 2
σ
H1 :  1 2 ≠ 1 ⇒ σ 1 ≠ σ 2
2 2

σ 2
 2
σ1
σ 2 > 1 ⇒ σ 1 > σ 2
2 2

 2

B) estabelecer o nível de significância α; D) Rejeita-se H0 se


 1
 F < Fn −1;(1−α ) = F , p/ σ 12 < σ 22
n −1;α

F < F ou F > F α , p/σ 12 ≠ σ 22
 α
 n −1; 1−
 2
 n −1;
2

 F > Fn−1;α , p/σ 1 > σ 2
2 2

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 114
16. Análise da Variância: ANOVA

Segundo Martins, trata-se de um método estatístico, desenvolvido por Fisher, que, por
meio de teste de igualdade de médias, verifica se fatores (variáveis independentes)
produzem mudanças sistemáticas em alguma variável de interesse (variável dependente).
Os fatores propostos podem ser variáveis quantitativas ou qualitativas, enquanto a
variável dependente deve ser quantitativa e observada dentro das classes dos fatores -
também chamados de tratamentos.

Por exemplo, podemos estar interessado em descobrir variáveis que causam um aumento
no consumo de combustível dos automóveis. Podemos supor que a marca do veículo,
idade etc. são potenciais fatores. Por meio da análise da variância, é possível verificar se
marca, idade - ou uma combinação destes fatores - produzem efeitos apreciáveis sobre o
consumo, ou concluir que tais fatores não têm influência sobre o consumo.

16.1 Modelo de classificação única ou Experimento com um fator ou One-Way


ANOVA

O modelo de Modelo de classificação única também é conhecido como modelo


completamente aleatório.
Vamos considerar que temos k amostras de tamanho n, retiradas de k populações cujas
as médias µ i , i = 1, 2, ..., k, queremos comparar. Vamos testar a hipótese:
H 0 : µ1 = µ 2 = ... = µ k ,
contra a alternativa:
H1: pelo menos uma das médias populacionais seja diferente.

Caso o teste estatístico indique a rejeição de H0, podemos concluir, com probabilidade α,
de que o fator considerado tem influência sobre a variável de estudo.

O nível de significância α deve ser estabelecido, ele servirá para definir o valor do Fcrítico =
Fα ;k −1;n − k , que é tabelado.
S e2 SQE
A estatística de teste é dada por F = 2 , onde S e2 = é a variância entre os
Sr k −1
SQR
tratamentos, e S r2 = é a variância residual. Nestas expressões temos
n−k
  ni  
2

 ∑ X ij 
 
k
  j =1  
SQE = ∑    − C , que é a Soma dos Quadrados entre os tratamentos, e SQR,

i =1  ni 
 
 
que corresponde à Soma dos Quadrados dos Resíduos, que é obtida por
k ni
SQR = SQT − SQE , onde SQT = ∑∑ xij2 − C é a Soma dos Quadrados Totais. Temos
i =1 j =1

ainda, k - 1 que corresponde aos graus de liberdade referentes aos tratamentos e n - k

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 115
que corresponde aos graus de liberdade referente aos resíduos. E por fim o termo
2
 k ni 
 ∑∑ xij 
 
C=  , que é a média dos valores ao quadrado, sendo n = n
k
i =1 j =1

n

i =1
i

Estas expressões são resultante do desenvolvimento da Soma dos Quadrados Total,


dada por:
k ni
SQT = ∑∑ ( xij − x ) 2
i =1 j =1

Com i variando de 1 a k e j variando de 1 a ni.

Somando e subtraindo xi , que corresponde a média de cada tratamento, temos:


k ni k ni
SQT = ∑∑ ( xij − xi + xi − x ) = ∑∑ ([ xij − xi ] + [ xi − x ]) 2
2

i =1 j =1 i =1 j =1

Aplicando o quadrado, temos:


k ni k ni
SQT = ∑∑ ([ xij − xi ] + [ xi − x ]) 2 = ∑∑ ([ xij − xi ]2 + 2[ xij − xi ][ xi − x ] +[ xi − x ] 2 )
i =1 j =1 i =1 j =1

Aplicando o somatório:

k ni k ni k ni
SQT = ∑ ∑ [ xij − xi ] 2 + 2∑∑ [ xij − xi ][ xi − x ] + ∑∑ [ xi − x ] 2
i =1 j =1 i =1 j =1 i =1 j =1

O termo do meio fica igual a zero, pois:


k ni k  ni  k  ni 
2∑∑ [ xij − xi ][ xi − x ] = 2∑ [ xi − x ] ∑ [ xij − xi ]  = 2∑ [ xi − x ] ∑ xij − ni xi  =
i =1 j =1 i =1  j =1  i =1  j =1 
 ni

k


n i ∑ x ij


k  ni ni

= 2∑ [ xi − x ] ∑ xij − ni i =1
= 2 ∑ [ x − x ]
 ∑ x − ∑ x  =0

ni 
i ij ij
i =1

j =1

i =1  j =1 i =1 
 
Então:
k ni k ni
SQT = ∑ ∑ [ xij − xi ] 2 + ∑∑ [ xi − x ] 2 = SQR + SQE , onde:
i =1 j =1 i =1 j =1
k ni k ni k ni k ni
SQT = ∑∑ ( xij − x ) 2 = ∑∑ ( xij2 − 2 xij x + x ) 2 = ∑∑ xij2 − 2 x ∑∑ xij + nx =
i =1 j =1 i =1 j =1 i =1 j =1 i =1 j =1
k
Lembrando que n = ∑ ni
i =1
2
 k ni
  k ni 
 ∑∑ xij   ∑∑ xij 
k ni
 i =1 j =1 k i  i =1 j =1 
n
= ∑∑ xij2 − 2 ∑∑ xij + n  =
i =1 j =1 n n
  i =1 j =1  
   
   

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 116
2 2 2
 k ni   k ni   k ni 
 ∑∑ xij   ∑∑ xij   ∑∑ xij 
k n     k n   k ni
i

= ∑∑ xij − 22  i =1 j =1  +  i =1 j =1  = ∑∑ xij −
i
2  i =1 j =1  = ∑∑ xij2 − C ,
i =1 j =1 n n i =1 j =1 n i =1 j =1
2
 k ni 
 ∑∑ xij 
 
onde C =  
i =1 j =1

k ni k ni k  ni ni ni

SQR = ∑∑ [ xij − xi ] 2 = ∑∑ [ xij2 − 2 xij xi + xi ]2 = ∑ ∑ xij2 − 2 xi ∑ xij + ∑ xi  =
i =1 j =1 i =1 j =1 i =1  j =1 j =1 j =1 
  ni   ni  
2   ni 
2
 ni  
2

∑ ij n ∑ ij  ∑ ij   ∑ ij  
  x   x     x   x  
 i 2  j =1  i  j =1   k  i 2
k n n
 j =1   j =1  =
∑ ∑ xij − 2 n ∑ xij + ni  n   = ∑ ∑ xij − 2
i =1  j =1 ni
+
ni

i =1
 j =1
 i
 j =1
 i
  
      
      
  ni  
2
  ni  
2

  ∑ xij     ∑ xij 
k
 ni 2  j =1   k ni 2 k   j =1  
∑ ∑ xij −
i =1  j =1 ni
 = ∑ ∑ xij −∑ 
 n


 i = 1 j =1 i = i i
  
 
   
k ni k ni k  ni ni ni

SQE = ∑∑ [ xi − x ]2 = ∑ ∑ [ xi2 − 2 xi x + x 2 ] =∑ ∑ xi2 − 2 x ∑ xi + ∑ x 2  =
i =1 j =1 i =1 j =1 i =1  j =1 j =1 j =1 
  ni 
2
 ni     ni 
2

  ∑ xij   ∑ xij   k  ∑ ij 
  x  
k
  j =i   j =i    
 − 2x  x  + n x 2  =
ni

+ ni x 2  = ∑  
=
= ∑  ni   ∑ ij  i 
j i
 − 2 x ni  
n n ni  j =i 
i =1
  i   i   i =1  
       
     
  ni    k ni
2
  k ni 
2   ni  
2
 k ni 
2
 k ni 
2

  ∑ xij    ∑∑ xij   ∑∑ xij    ∑ xij    ∑∑ xij   ∑∑ xij 


k
  j =i    i =1 j =i  k i
n
  i =1 j =i  k
  j =i      
= ∑    +  i =1 j =i  =
= =
 ∑∑ xij  + n ∑
i 1 j i
 − 2  =   − 2
ni n n ni n n
i =1     i =1 j =i    i =1  
   




  
   

  ni    k ni
2

2
  ni  
2
 k ni 
2

  ∑ xij    ∑∑ xij    ∑ xij    ∑∑ xij 


k
  j =i    i =1 j =i  k
  j =i    
= ∑ = ∑  i =1 j =1 
−  − C , onde C =
i =1  ni  n i =1  ni  n
   
   

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 117
Logo, temos que:
  ni 2
   ni  
2
  x  
k ni k 
∑ ij 
 k  ∑
  xij  
  k ni
SQR + SQE = ∑ ∑ xij −∑   j =1   + ∑ 
j =i  −C =
2

i =i  ni  i =1  ni
 ∑∑ xij2 − C = SQT
i =1 j =1  i =1 j =1
   
   

Para realizar os cálculos, vamos utilizar a seguinte tabela:

Tratamentos
Observações
T1 T2 ... Tk
1
2
3
:
n
Total ΣT
ni Σ ni
Total 2 Total 2
ni
∑ n
i

Tratamentos ao
Observações Quadrado
T12 T22 ... T K2
1
2
3
:
n
Total ΣQ

2
 k ni 
 ∑ ∑ xij 
 i = 1 j =1 
  (∑ T ) 2

C= =
n ∑n i
k ni
SQT = ∑∑ xij2 − C = ∑ Q − C
i =1 j =1

  ni  
2

  ∑ X ij  
k
  j =1   2
SQE = ∑    − C = Total − C
 ∑ n
i =1  ni  i
 
 

SQR = SQT - SQE

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 118
Exemplo:
O resultado das vendas efetuadas por três vendedores de uma indústria durante certo
período é dado a seguir. Deseja-se saber, ao nível de significância de 5%, se há diferença
de eficiência entre os vendedores:

Tratamentos
Observações
A B C
1 29 27 30
2 27 27 30
3 31 30 31
4 29 28 27
5 32 29
6 30

Usando a tabela, temos:

Tratamentos
Observações
A B C
1 29 27 30
2 27 27 30
3 31 30 31
4 29 28 27
5 32 29
6 30
Total 178 112 147 ΣT 437
ni 6 4 5 Σ ni 15
Total 2 Total 2
ni
5280,67 3136,00 4321,80 ∑ n 12738,47
i

Calculando o quadrado dos valores:

Tratamentos
Observações
A B C
1 841 729 900
2 729 729 900
3 961 900 961
4 841 784 729
5 1024 841
6 900
Total 5296 3142 4331 ΣQ 12769
Assim, temos:
2
 k ni 
 ∑∑ xij 

 i =1 j =1

 = (∑ T ) 2
437 2
C= = = 12731,27
n ∑n i 15

k ni
SQT = ∑∑ xij2 − C = ∑ Q − C = 12769 − 12731,27 = 37,73
i =1 j =1

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 119
  ni  2 
  ∑ xij  
k
  j =1   Total 2
SQE = ∑   − C = ∑ n − C = 12738,47 − 13731,27 = 7,20
ni
i =1
  i

 
 

SQR = SQT - SQE = 37,73 - 7,20 = 30,53

Uma vez calculado os valores de SQT, SQE e SQR, eles devem ser dispostos numa
tabela, conhecida como Quadro da Análise de Variância - QAV, da seguinte forma:

Quadro de Análise de Variância - QAV


Fonte de variação Soma dos Quadrados gl Quadrados médios F
SQE S e2
Entre SQE k-1 S e2 = F=
k −1 S r2
SQR
Residual SQR n-k S r2 =
n−k
Total SQT n-1

No caso do exemplo dado, temos:

Quadro de Análise de Variância - QAV


Fonte de variação Soma dos Quadrados gl Quadrados médios F
Entre 7,20 2 3,60 1,41
Residual 30,53 12 2,54
Total 37,73 14

O valor de F5%; 2;12 = 3,89, tirado da tabela F-Snedecor de 5%. Então, como F < F5%; 2;12 não
se rejeita a H0, concluindo-se com nível de significância de 5% que não há diferenças na
eficiência dos vendedores.

16.2 Modelo de classificação dupla ou Experimento com dois fatores ou Two-way


ANOVA

Este modelo é conhecido também como modelo em Blocos Aleatório.


Vamos imaginar que os elementos observados tenham sido classificados segundo dois
critérios, no caso, dois fatores. O primeiro critério possui n níveis e o segundo k níveis.
Então, temos um total de nk observações. Desta forma, podemos dispor os valores
observados na seguinte tabela:

Segundo Fator - B
X11 X12 X13 .... X1k
Primeiro X21
Fator - A X31
:
Xn1

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 120
A análise da variância permitirá testar simultânea e independentemente as seguintes
hipóteses:
H 0 A : µ1. = µ 2. = ... = µ n.
H 0 B : µ.1 = µ.2 = ... = µ.k
A não rejeição de H0A significa a não-comprovação de diferenças significativas entre as
médias devida à classificação segundo o critério das linhas (Fator A), e a não rejeição de
H0B significa a não-comprovação de diferenças significativas entre as médias devida à
classificação segundo o critério das colunas (Fator B).
O nível de significância α deve ser estabelecido, ele servirá para definir os valores críticos
de F, dados por:
Fcrítico L = Fα ;k −1;( k −1)( n −1) ,
Fcrítico C = Fα ;n−1;( k −1)( n −1) ,

Sendo ambos tabelados.


S L2 SQL
A primeira estatística de teste é dada por FL = , onde S L2 = é a variância entre as
Sr 2
ni − 1
SQR
linhas (Fator A), e S r2 = é a variância residual. A segunda estatística de teste
(k − 1)(ni − 1)
S C2 SQC
é dada por FC = 2 , onde SC2 = é a variância entre as colunas (Fator B), e
Sr k −1
SQR
S r2 = é a variância residual.
(k − 1)(ni − 1)

Nestas expressões temos:


 k  
2

n i   ∑ ij  
k ni
x
SQL = ∑∑ ( x j − x ) = ∑
2   i =1   −C
i =1 j =1 j =1
 k 
 
 

  ni  2 
  ∑ xij  
k ni k
  j =1  
SQC = ∑∑ ( xi − x ) 2 = ∑    −C
ni
i =1 j =1 i =1
 
 
 
SQR = SQT − SQC − SQL , onde:
2
 k ni 
 ∑∑ xij 
k n  
i

SQT = ∑∑ xij − C é a Soma dos Quadrados totais. E C =


2  i =1 j =1  , a média dos
i =1 j =1 n
k
valores ao quadrado, sendo n = ∑ ni
i =1
k ni
A decomposição da Variação Total é dada por: SQT = ∑∑ ( xij − x ) 2
i =1 j =1

Com i variando de 1 a k e j variando de 1 a ni.

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 121
O desenvolvimento da Soma dos Quadrados Total é feito somando e subtraindo xi , x j e x
então, temos:
k ni k ni
SQT = ∑∑ ( xij − xi + xi − x j + x j − x + x − x ) 2 = ∑∑ ([ xi − x ] + [ x j − x ] + [ xij − xi − x j + x ])2
i =1 j =1 i =1 j =1

Fazendo a = [ xi − x ] , b = [ x j − x ] e c = [ xij − xi − x j + x ] e aplicando o quadrado, temos:


(a + b + c )2 = [(a + b ) + c]2 = [(a + b)2 + 2(a + b)c + c 2 ] = [(a 2 + 2ab + b 2 ) + 2ac + 2bc + c 2 ] =
= a 2 + b 2 + c 2 + 2ab + 2ac + 2bc .
Considerando que os termos cruzados sejam iguais a zero, então:
k ni k ni k ni
SQT = ∑ ∑ [ xi − x ]2 + ∑∑ [ x j − x ]2 + ∑∑ [ xij − xi − x j + x ]2
i =1 j =1 i =1 j =1 i =1 j =1

Onde:
 k  
2

n i   ∑ ij  
k ni
x
SQL = ∑∑ ( x j − x ) = ∑
2   i =1   −C
i =1 j =1 j =1
 k 
 
 
  ni  2 
  ∑ xij  
k ni k
  j =1  
SQC = ∑∑ ( xi − x ) 2 = ∑    −C
ni
i =1 j =1 i =1
 
 
 
k ni
SQR = ∑∑ [ xij − xi − x j + x ]2
i =1 j =1

Para realizar os cálculos, vamos utilizar a seguinte tabela:

Tratamentos Total 2
Blocos T1 T2 ... Tk Total ki
ki
1 Σ B1 k1 (∑ B ) 1
2

k1
2 Σ B2 k2 (∑ B ) 2
2

k2
3 Σ B3 k3 (∑ B ) 3
2

k3
: : : :
n Σ Bn kn (∑ B ) n
2

kn
Total ΣT1 ΣT2 ... ΣTk ΣT=ΣB Σ ki TotalL2
∑ k
i

ni n1 n2 ... nk Σ ni
TotalC2 (∑ T ) 1
2
(∑ T ) 2
2 ... (∑ T ) k
2
TotalC2
∑ n
ni n1 n2 nk i

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 122
Valores ao Quadrado
Tratamentos
Blocos Total
T1 T2 ... TK
1 2
x11 2
x12 ... x12k B1
2 2
x21 B2
3 2
x31 B3
: : :
n xn21 Bn
n n ... n
ΣQ
Total ∑ x 2j1
j =1
∑ x 2j 2
j =1
∑x
j =1
2
jk

2
 k ni 
 ∑ ∑ xij 
 i = 1 j =1 
  (∑ T ) 2

C= =
n ∑n i
k ni
SQT = ∑∑ xij2 − C = ∑ Q − C
i =1 j =1

 k  
2

n i   ∑ ij  
x 2
SQL = ∑     − C = Total L − C
j =1

i =1

k  ∑ k
 
 
  ni  2 
  ∑ xij  
k
  j =1   TotalC2
SQC = ∑    − C = ∑ n −C
ni
i =1
  i

 
 

SQR = SQT - SQL - SQC

Exemplo:
Os dados da tabela seguinte referem-se à pureza de um determinado produto por um
dado método. O fator A corresponde ao tio de solvente que foi aplicado ao produto, e o
Fator B corresponde ao tempo de ebulição aplicado para cada solvente. Ao nível de
significância de 1% pede-se:
a) a pureza é afetada pelo tipo de solvente?
b) e sobre o tempo de ebulição, o que pode ser dito?

Solventes Tempo de Ebulição


1 2 3 4
1 3,1 2,7 3,3 3,0
2 4,7 3,5 3,9 3,6

Utilizando a tabela-modelo para os cálculos temos:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 123
Tempo de Ebulição TotalL2
Solventes 1 2 3 4 TotalL ki
k
1 3,1 2,7 3,3 3,0 12,1 4 36,603
2 4,7 3,5 3,9 3,6 15,7 4 61,622
Totalc 7,8 6,2 7,2 6,6 27,8 8 98,225
ni 2 2 2 2 8
TotalC2 30,42 19,22 25,92 21,78 97,34
ni

Valores ao Quadrado
Tempo de Ebulição
Solventes
1 2 3 4
1 9,61 7,29 10,89 9,00
2 22,09 12,25 15,21 12,96
Total 31,70 19,54 26,10 21,96 99,30
2
 k ni 
 ∑∑ xij 
C=

 i =1 j =1(∑ T ) = 27,8 = 96,605

 =
2 2

n ∑n 8 i
k ni
SQT = ∑∑ x − C = ∑ Q − C = 99,30 − 96,605 = 2,695
2
ij
i =1 j =1

 k  
2

n i   ∑ ij  
x 2
SQL = ∑     − C = Total L − C = 98,225 − 96,605 = 1,62
j =1

i =1

k  ∑ k
 
 
  ni  2 
  ∑ xij  
k
  j =1   TotalC2
SQC = ∑   − C = ∑ − C = 97,34 − 96,605 = 0,735
ni ni
i =1
 
 
 
SQR = SQT - SQL - SQC = 2,695 - 1,62 - 0,735 = 0,34

Uma vez calculado os valores de SQT, SQL, SQC e SQR, eles devem ser dispostos
numa tabela, conhecida como Quadro da Análise de Variância - QAV, da seguinte forma:

Quadro de Análise de Variância - QAV


Fonte de variação Soma dos Quadrados Gl Quadrados médios F
SQL S L2
Entre linhas SQL ni -1 S L2 = FL =
ni − 1 S r2
SQC SC2
Entre colunas SQC k-1 SC2 = FC =
k −1 S r2
SQR
Residual SQR (ni − 1)(k − 1) S R2 =
(ni − 1)(k − 1)
Total SQT n-1

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 124
No caso do exemplo dado, temos:
Quadro de Análise de Variância - QAV
Fonte de Soma dos Quadrados
variação Quadrados Gl médios F
1,62 1,62
Entre linhas 1,62 2 -1=1 S L2 = = 1,62 FL = = 14,34
1 0,113
0,735 0,245
Entre colunas 0,735 4 - 1=3 SC2 = = 0,245 FC = = 2,17
3 0,113
0,34
Residual 0,34 (ni − 1)(k − 1) =3 S R2 = = 0,113
3
Total 2,695 8 - 1=7

O primeiro valor crítico de F é F1%;1;3 = 34,12, tirado da tabela F-Snedecor de 1%. Então,
como F < F1%;1;3 não se rejeita a H0, concluindo-se com nível de significância de 1% que
não há evidências de que a pureza seja afetada pelo tipo de solvente.
Para o segundo valor crítico de F, temos F1%;3;3 = 29,46, também tirado da tabela F-
Snedecor de 1%. Então, como F < F1%;3;3 não se rejeita a H0, concluindo-se com nível de
significância de 1% que, também, não há evidências de que a pureza seja afetada pelo
tempo de ebulição.

16.3 Pressupostos da ANOVA

A análise da variância de um conjunto de dados exige que sejam verificados alguns


pressupostos importantes sobre os erros, sem os quais os resultados da análise não são
válidos. Os pressupostos são:

a) ausência de dados discrepantes (resíduos discrepantes);


b) os erros são independentes (não correlacionados);
c) a variância é constante (homocedasticidade); e
d) a distribuição dos erros é Normal, ou seja ε ij ≈ N (0,σ 2 )

Isto porque para cada tipo de ANOVA: one-way ou two-way, temos os seguintes modelos
matemáticos:
- One-way Anova: xˆij = µ + α i + ε ij , onde:
x̂ij - é o valor estimado pelo modelo;
µ - é o efeito médio;
α i - é o efeito específico do tratamento;
ε ij - é o efeito aleatório, ou erro residual.
- Two-way Anova: xˆij = µ + α i + β i + ε ij , onde:
x̂ij - é o valor estimado pelo modelo;
µ - é o efeito médio;
α i - é o efeito específico devido à linha (Blocos);
βi - é o efeito específico devido à coluna (Tratamentos);
ε ij - é o efeito aleatório, ou erro residual.
O erro residual pode ser obtido pela diferença entre xij e x̂ij , ou seja ε ij = xij − xˆij

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 125
17. Análise de dados categorizados

Segundo Barbetta, grande parte das variáveis estudadas nas Ciências não são
mensuradas numericamente, mas indicam certas qualidades, ou atributos, de tal forma
que podemos alocar cada elemento numa categoria preestabelecida, resultando em
dados categorizados. Por exemplo, ao observar a variável "sexo" em cada indivíduo
pesquisado, deve-se alocar ou categoria "masculino" ou na categoria "feminino". È
importante ser lembrado que as variáveis devem estar bem definidas, tal que cada
elementos pesquisado se encaixe em uma e apenas uma categoria.

17.1 Teste de qui-quadrado

É um dos testes estatísticos mais utilizado. Ele pode ser empregado nas seguintes situações:

a) Como teste de aderência, para verificar o grau de correspondência entre o número de observações
e uma determinada resposta ou objeto e número esperado destas respostas ou objetos em cada
categoria que se está pesquisando;
b) Como teste de independência entre 2 ou mais amostras, principalmente quando os dados
consistem de freqüências de categorias discretas.

17.1.1 Teste de Aderência ou bondade do ajustamento

Este é o caso quando está se trabalhando apenas com uma amostra, mas que apresenta k categorias.
O pesquisador observa as Oi freqüências em cada categoria. contudo, dependendo do valor das n
observações, pode calcular as Ei freqüências esperadas, também em cada categoria. Utilizando a
estatística:
k
(Oi − Ei )2
χ =∑
2

i =1 Ei
Pode-se testar a hipótese nula H0: não há diferença significante entre as k categorias contra a
hipótese alternativa H1: há pelo menos uma diferença significativa entre as k categorias.
O valor das freqüências esperadas pode ser obtido por:
n
Ei =
k
Onde n é o numero total de elementos da amostra e k o número de categorias existentes nesta
amostra. A estatística χ 2 ≈ χ α2 ;k −1 , ou seja, ele tem distribuição Qui-quadrado com k - 1 graus de
liberdade, e o teste é realizado segundo o nível de significância α .

Exemplo: fãs de corrida de cavalo frequentemente sustentam que uma corrida em torno de um pista
circular proporciona significante vantagem inicial para os cavalos colocados em certas posições no
local de largada. Cada posição do cavalo corresponde ao posto atribuído no começo do
alinhamento. Em uma corrida de 8 cavalos, a posição 1 é a mais próxima da raia no lado interno da
pista; a posição 8 está no lado externo, mais distante da raia. Pode-se testar o efeito da posição no
local de largada analisando os seguintes dados:
Posições do local de largada
Total
1 2 3 4 5 6 7 8
Número de vitórias 29 19 18 25 17 10 15 11 144
a) Hipóteses: H0: não há diferença no número de vitórias em cada uma das posições do local de
largada.
H1: há pelo menos uma diferença significativa entre número de vitórias em cada uma
das posições do local de largada.

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 126
b) Nível de significância: α = 5%
c) Estatística de Teste:

k
(Oi − Ei )2 n 144
χ =∑
2
, onde Ei = , logo Ei = = 18 . Devemos calcular as diferenças entre Oi e
i =1 Ei k 8
Ei , então:

Posições dos postos


1 2 3 4 5 6 7 8
Freqüências
29 19 18 25 17 10 15 11 Soma
observadas Oi
Freqüências
18 18 18 18 18 18 18 18
esperadas Ei
(Oi − Ei )2
6,7222 0,0556 0 2,7222 0,0556 3,5556 0,5000 2,7222 16,3334
Ei

k
(Oi − Ei )2
Ou seja, χ 2 = ∑ = 16,3334 . Agora, vamos procurar na tabela da distribuição de Qui-
i =1 Ei
quadrado o valor correspondente para χ α2 ;k −1 = χ 02, 05;8−1 = χ 02, 05;7 , já que o nível de significância é de
5% e o grau de liberdade gl = k - 1 = 8 - 1 = 7. Então χ 02,05;7 = 14,07 .
d) Decisão: como o valor de χ 2 = 16,3334 > χ 02, 05;7 = 14,07 , então rejeita-se H0.

Observações:
a) Se tivermos apenas 2 categorias na amostra, ou seja k = 2 (gl = 1), cada freqüência esperada Ei
deve ser pelo menos 5;
b) Se tivermos k > 2 categorias (gl > 1), o teste não deve ser usado se mais de 20% das freqüências
esperadas Ei forem menores que 5 ou se qualquer freqüência esperada é menor do que 1.
c) Poderíamos ter visto o resultado acima em função do p-valor para χ 2 = 16,3334 . Observando na
tabela de Qui-quadrado, este valor 16,3334 na linha onde gl = 7, está entre 16,01 (p = 0,025) e
18,48 (p = 0,01), ou seja, o p-valor dele está 0,025 < p < 0,01 que corresponde a um valor menor do
que 0,05, que foi o nível de significância adotado. Observe abaixo:
p de 16,01 p de 18,48

gl = 7

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 127
Podemos, também, realizar uma interpolação linear para descobrir qual o p-valor referente a
χ 2 = 16,3334 , da seguinte maneira:
Valor de χ 2 p-valor
16,01 0,025
16,3334 X
18,48 0,010

Então, temos:
16,3334 − 16,01 x − 0,025 0,3234 x − 0,025
= ⇒ = ⇒ −0,0049 = 2,47( x − 0,025) ⇒
18,48 − 16,01 0,010 − 0,025 2,4700 − 0,0150
⇒ −0,0049 = 2,47 x − 0,0618 ⇒ 2,47 x = 0,0569 ⇒ x = 0,0230

Ou seja, o p-valor de χ 2 = 16,3334 é igual a 0,0230, valor este menor do que 0,05 (nível de
significância), logo rejeita-se H0.

17.1.2 Teste de Independência entre 2 ou mais amostras

Quando os dados experimentais consistem de freqüências em categorias discretas (variáveis


qualitativas - nominais ou ordinais), o teste de qui-quadrado pode ser usado para se chegar à
significância de diferenças entre k grupos ou amostras independentes.
Neste caso, o pesquisador está interessado em saber se 2 ou mais grupos ou amostras são
independentes.
Para aplicar o teste de qui-quadrado, é necessário organizar as freqüências observadas O ij nas
amostras em uma tabela de dupla entrada, conforme a dada a seguir:

Variável 1 Variável 2(Colunas)


(Linhas) C1 C2 ... Ck Total
L1 O11 O12 O1k ΣL1
L2 ΣL2
... ... ... ... ...
Lr Or1 Or2 Ork ΣLr
Total ΣC1 ΣC2 ΣCk N

A hipótese nula é H0: as amostras são independentes e a hipótese alternativa é H1: as amostras não
são independentes. A estatística de teste é dada por:
r k (O − E )2
χ = ∑∑
2 ij ij

i =1 j =1 Eij
Onde, as freqüências esperadas Eij são calculadas por:

Eij =
∑ L ∑C i j

N
A estatística χ tem distribuição Qui-quadrado com (r - 1)(k - 1) graus de liberdade. Ou seja:
2

χ 2 ≈ χ α2 ;( r −1)( k −1)
Exemplo: Uma empresa tem que escolher um entre três planos de saúde. A gerência deseja saber se
a preferência por um dos planos é independente da classe dos empregados a um nível de 5% de
significância. As opiniões dos empregados foram coletadas em uma amostra de 500 pessoas com os
seguintes resultados:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 128
Classe dos Planos de Saúde
Total
empregados 1 2 3
Trabalhador
160 140 40 340
assalariado
Trabalhador
40 60 60 160
horista
Total 200 200 100 500

a) Hipóteses: H0: a escolha do plano de saúde é independente da classe do empregado


H1: a escolha do plano de saúde não é independente da classe do empregado
b) Nível de significância: α = 5%
r k (O − E )2
c) Estatística de teste: χ = ∑∑
2 ij ij

i =1 j =1 Eij

Devemos então calcular os Eij utilizando Eij =


∑ L ∑Ci j
. então temos:
N
Classe dos Planos de Saúde
Total
empregados 1 2 3
Trabalhador 200 * 340 200 * 340 100 * 340
assalariado = 136 = 136 = 68 340
500 500 500
Trabalhador 200 * 160 200 * 160 100 * 160
horista = 64 = 64 = 32 160
500 500 500
Total 200 200 100 500

Aplicando a fórmula, temos:

Oij Eij Oij - Eij (O ij − Eij )


2

Eij
160 136 24 4,2353
140 136 4 0,1176
40 68 -28 11,5294
40 64 -24 9
60 64 -4 0,2500
60 32 28 24,5000
500 500 - 49,6353

r k (O − Eij )
2

Então, χ = ∑∑
2
= 49,6353 . Agora, vamos procurar na tabela da distribuição de Qui-
ij

i =1 j =1 Eij
quadrado o valor correspondente para χ α2;( r −1)( k −1) = χ 02,05;( 2−1)( 3−1) = χ 02, 05; 2 , já que o nível de
significância é de 5% e o grau de liberdade gl =(r - 1)(k - 1) = (2-1)(3-1) = 2. Então χ 02,05; 2 = 5,99 .
d) Decisão: como o valor de χ 2 = 49,6353 > χ 02, 05; 2 = 5,99 , então rejeita-se H0.
Observações:
a) Se tivermos r ou k > 2 categorias (gl > 1), o teste não deve ser usado se mais de 20% das
freqüências esperadas Ei forem menores que 5 ou se qualquer freqüência esperada é menor do que
1. Neste caso, o pesquisador deve combinar as categorias para aumentar os Eij nas diversas células.

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 129
b) Poderíamos ter visto o resultado acima em função do p-valor para χ 2 realizando a interpolação
linear. Contudo deve ser observado o limite dos p-valores em cada linha correspondente aos graus
de liberdade dado por gl = =(r - 1)(k - 1). O menor p-valor tabelado é 0,005. Caso o valor calculado
da estatística χ 2 seja superior aos valores tabelados na coluna 0,005 da tabela de Qui-quadrado
então deve-se utilizar a função DIST.QUI(x, gl) do Excel ou do Calc, onde x é o valor calculado, no
caso 49,6353, e gl é o grau de liberdade, no caso gl =(r - 1)(k - 1) = (2-1)(3-1) = 2. Então,
DIST.QUI(49,6353, 2) = 1,6666 E -11, quase zero. No R, deve-se usar o comando pchisq(q, df,
lower.tail = FALSE), onde q é o valor calculado, no caso 49,6353, e df é o valor de gl dado por gl
=(r - 1)(k - 1), que no caso é gl = 2. Então pchisq(49,6353, 2, lower.tail = FALSE) = 1,666601e-11.

17.2 Associação entre Variáveis Categóricas

Quando estamos estudando a relação entre duas variáveis categóricas, não usamos o termo
"correlação". Neste caso, fala-se em “medida de associação”. Usa-se, então, o Coeficiente de
Contigência C, dado por:
χ2
C=
χ2 + n

r k (O − Eij )
2

Onde: χ = ∑∑ 2 ij
é o valor de Qui-quadrado, calculado a partir de uma tabela de
i =1 j =1 Eij
dupla entrada.
r k

∑ Li ∑ C j
i =1 j =1
é a freqüência esperada da linha i da coluna j
Eij =
N
Oij é a freqüência observada na linha i da coluna j

Estes cálculos são feitos a partir de uma tabela de dupla entrada abaixo:

Variável 1 Variável 2(Colunas)


(Linhas) C1 C2 ... Ck Total
L1 O11 O12 O1k ΣL1
L2 ΣL2
... ... ... ... ...
Lr Or1 Or2 Ork ΣLr
Total ΣC1 ΣC2 ΣCk N

Observações:
• para o caso 2x2 (gl=1), quando N > 40, utilizar no cálculo de χ2 a correção de continuidade,
2
ou seja:  N
N  AD − BC − 
 2
χ =
2
( A + B )(C + D )( A + C )( B + D )
• quando 20≤N≤40, a prova de χ2 , pode ser empregada com a correção de continuidade, desde
que nenhuma freqüência esperada seja inferior a 5

• se a menor freqüência esperada for inferior a 5, utilizar a prova de Fisher

• quando N<20, utilizar a prova de Fisher em qualquer caso.

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 130
Para gl>1 (c>2 e r >2), a prova pode ser aplicada somente se o número de células com
freqüência esperada inferior a 5 é inferior a 20% do total de células e se nenhuma célula tem
freqüência esperada inferior a 1. As freqüências esperadas podem ser aumentadas
combinando-se as categorias adjacentes.

Porém, o coeficiente descrito acima não varia entre 0 e 1. O valor máximo de C depende do número
de linhas e colunas da tabela de dupla entrada. Para evitar este inconveniente, costuma-se empregar
o Coeficiente de Contingência Modificado, dado por:

Onde j = min(r, c), sendo "r" o número de linhas e "c" o número de


( jχ 2 ) colunas da tabela
C′ =
[
( j − 1)( χ 2 + n) ]
O Coeficiente de Contingência Modificado satisfaz 0 ≤ C ′ ≤ 1 .

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 131
18. Correlação

Interpretação:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 132
Graficamente:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 133
Para o cálculo do coeficiente de correlação, usamos a seguinte expressão:

n ∑ XY − (∑ X )(∑ Y )
r=
[n∑ X 2
− (∑ X ) 2 ] [n∑ Y 2
− (∑ Y ) 2 ]
Onde n é o número de pares de dados amostrais.

Os cálculos ficam facilitados com o auxílio da tabela abaixo:

X Y XY X2 Y2
... ... ... ... ...
... ... ... ... ...
... ... ... ... ...
ΣX ΣY ΣXY ΣX2 ΣY2

Exemplo:

Considerando os dados abaixo, verifique se há uma relação linear entre as variáveis X =


despesas com propaganda e Y = vendas de certo produto.

X (milhões de reais) Y (milhares de unidades)


1,5 120
5,5 190
10,0 240
3,0 140
7,5 180
5,0 150
13,0 280
4,0 110
9,0 210
12,5 220
15,0 310

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 134
Primeiramente, devemos fazer o seguinte:

X (milhões de reais) Y (milhares de unidades) XY X² Y²


1,5 120 180 2,25 14400
5,5 190 1045 30,25 36100
10,0 240 2400 100 57600
3,0 140 420 9 19600
7,5 180 1350 56,25 32400
5,0 150 750 25 22500
13,0 280 3640 169 78400
4,0 110 440 16 12100
9,0 210 1890 81 44100
12,5 220 2750 156,25 48400
15,0 310 4650 225 96100
Total 86 2150 19515 870 461700

Usando a fórmulas dada, temos:

n ∑ XY − (∑ X )(∑ Y ) 11(19515) − (86)(2150)


r= = =
[n∑ X 2
− (∑ X ) 2 ] [n∑ Y 2
− (∑ Y ) 2 ] (11)(870) − (86 2 ) (11)(461700) − (2150 2 )
29765 29765
= = = 0,945
2174 456200 46,626 × 675,426

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 135
19 Método dos Mínimos Quadrados - MMQ

O Método dos Mínimos Quadrados (MMQ), ou Mínimos Quadrados Ordinários (MQO) ou OLS
(do inglês Ordinary Least Squares) é uma técnica de otimização matemática que procura encontrar
o melhor ajuste para um conjunto de dados tentando minimizar a soma dos quadrados das
diferenças entre o valor estimado Yˆi e os dados observados Y Yi (tais diferenças são chamadas
resíduos - ε ).

Graficamente, temos, para o caso de uma reta:

19.1 Ajuste a uma reta

Imaginem um seqüência de pontos ( xi , y i ) da seguinte forma:

O objetivo de ajuste é encontrar uma reta Yˆ = a + bX , estimada a partir dos dados, que minimiza o
parâmetro ε, de Y = α + βX + ε , conhecido como erro aleatório ou ruído branco. O que se deseja
é:
∑ ε 2 = ∑ (Y − Yˆ ) 2 = mínimo
Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 136
Fazendo:

E derivando parcialmente e igualando a zero, temos:

O termo -2 vai sumir, porque passaremos dividindo o zero, logo teremos

Desenvolvendo o somatório, temos:

Obtemos assim, um sistema de equações, cujas as incógnitas são a e b da equação Yˆ = a + bX , da


seguinte forma:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 137
19.2 Ajuste a um polinômio

Dado por:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 138
Substituindo os valores da ultima linha no sistema de equações acima, temos:

 40 = 5a0 + 15a1 + 55a 2



 165 = 15a0 + 55a1 + 225a 2
724 = 55a + 225a + 979a
 0 1 2

Cuja a solução é a 0 = 1,5 , a1 = −1,5 e a 2 = 1


Logo,

A estimativa para x = 6 é:

E para x = 7:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 139
19.3 Ajuste de funções linearizáveis

Existem funções que são não-lineares. Estas funções podem ser linearizadas por transformação. São
elas:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 140
20. Análise de Regressão

Conjunto de métodos e técnicas para o estabelecimento de fórmulas empíricas que interpretem a


relação funcional entre variáveis com boa aproximação.
Deseja-se encontrar alguma forma de medir a relação entre as variáveis de cada conjunto, de tal
modo que essa medida pudesse mostrar:
a) se há relação entre as variáveis e, caso afirmativo, se é fraca ou forte;
b) que, se essa relação existir, estabeleceremos um modelo que interprete a relação funcional
existente entre as variáveis;
c) que construindo o modelo, usá-lo-emos para fins de predição.

Suponhamos que Y seja uma variável que nos interessa estudar e prever o seu comportamento. É de
se esperar que os valores da variável Y (dependente) sofram influências dos valores de um número
infinito de variáveis X1, X2, ..., XN (independentes) e que exista uma função g que expresse tal
dependência, ou seja
Y = g ( X 1 , X 2 ,..., X N )
É impraticável a utilização das N variáveis ou por desconhecimento dos valores de algumas ou pela
dificuldade de mensuração e tratamento de outras, logo se usa um número menor de variáveis (k) e
o modelo fica
Y = f ( X 1 , X 2 ,..., X k ) + h( X k +1 , X k + 2 ,..., X N )
Todas as influências das variáveis Xk+1, Xk+2, ..., XN , sobre as quais não exercemos controle, serão
consideradas como casuais, e associaremos uma variável aleatória U, obtendo o seguinte modelo:

Y = f ( X 1 , X 2 ,..., X k ) + U

onde f ( X 1 , X 2 ,..., X k ) é a componente funcional do modelo e U a parte aleatória.

Problemas na análise de regressão:

a) o problema da especificação do modelo


Consiste em determinar qual o tipo de função f que melhor explique a relação entre Y e X1, X2,
..., Xk
b) o problema da estimação dos parâmetros
Consiste em estimar o valor dos diversos parâmetros que aparecem na especificação adotada.
c) o problema da adaptação e significância do modelo adotado
Consiste em verificar se a especificação adotada na primeira etapa se adapta a
convenientemente aos dados observados.

20.1 Modelo de regressão linear simples

Quando a função f que relaciona X e Y é da seguinte forma:


Yi = α + βX i + U i
onde: - α + βX i é a componente funcional, que representa a influência da variável independente X
sobre o valor de Y e define o eixo da nuvem de pontos, que nesse caso será uma reta;
- U i é a componente aleatória, que representa a influência de outros fatores.
Sobre U i temos:
a) tem distribuição Normal;
b) é uma variável aleatória com média igual a 0 e variância igual a σ2, ou seja
E (U i ) = 0 e Var (U i ) = σ 2 , logo U i ≈ N (0; σ 2 )

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 141
c) a Cov(U i ;U j ) = σ 2 para i = j e Cov(U i ;U j ) = 0 para i ≠ j

20.1.1 O modelo matemático

Quando desejamos fazer inferências sobre a população da qual foi extraída uma amostra, devemos
considerar o modelo matemático que vai nos permitir construir intervalos de confiança e testar
hipóteses.

- Hipóteses simplificadoras
São as hipóteses básicas sobre a regularidade da população:
1ª as distribuições de probabilidade P(Yi | X i ) possuem a mesma variância σ2 para todo Xi;
2ª as médias E (Yi ) = µ i = α + βX i se dispõem sobre uma linha reta, conhecida como a verdadeira
reta de regressão (da população); os parâmetros α e β que especificam esta reta devem ser
estimados a partir da informação da amostra;
3ª as variáveis aleatórias Yi são estatisticamente independentes, com E (Yi ) = µ i = α + βX i e
Var (Yi ) = σ 2

20.1.2 Estimação de parâmetros

Seja Yˆi = a + bX i uma estimativa de Yi = α + βX i + U i , onde a e b são os estimadores de α e β e


( )
seja ei = Yi − Yˆi o erro de estimação ou desvio.
Deseja-se minimizar a soma dos desvios ao quadrado, ou seja minimizar ∑e i
2
(
= ∑ Yi − Yˆi )
2
.

Usando o Método dos Mínimos ao Quadrado, encontramos

∑ X ∑ Y e S = X 2 − (∑ X )
2
S
b = XY , onde S XY = ∑ XY − XX ∑
S XX n n

a = Y − bX , onde X =
∑X eY =
∑Y
n n

20.1.3 Teorema de Gauss-Markov

A justificativa principal para utilizarmos o Método dos Mínimos Quadrados para estimar os
parâmetros de Yi = α + βX i + U i é a seguinte:
“Na classe dos estimadores lineares não-tendenciosos, o estimador b de mínimos quadrados tem
variância mínima (é o mais eficiente). Analogamente, o estimador a também tem variância
mínima”.
Aplica-se somente a estimadores simultaneamente lineares e não-tendenciosos.

20.1.4 Significância das estimativas

Prova-se que:

 α + β X ; σˆ 2  1 + ( X − X )  
 1 X 2   σˆ 2  ˆ   2

a ≈ N  α ; σˆ 2  +  , b ≈ N  β ;
 S   e Y ≈ N
  n S XX    XX 
  n S XX  

onde σˆ 2 é a variância homoscedástica e desconhecida

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 142
S YY − b 2 S XX S YY − bS XY
Um estimador não-viesado de σ2 é σˆ 2 = S 2 = ou σˆ 2 = S 2 = , onde
n−2 n−2
∑ X ∑Y , S (∑ X )2
(∑ Y ) 2

S XY = ∑ XY − XX =∑X 2
− e S YY = ∑Y − 2

n n n

20.1.5 Teste de hipóteses

I) Para os coeficientes:

a) Hipóteses são H0 : para α̂ → αˆ = 0 e H1: αˆ > 0 ou αˆ < 0 ou αˆ ≠ 0


para β̂ → βˆ = 0 e H1: βˆ > 0 ou βˆ < 0 ou βˆ ≠ 0

b) Nível de significância: α

c) Variável de teste:

αˆ
Para α̂ , t =
1 X2
σˆ +
n S XX
b
Para β̂ , t =
σˆ
S XX
Em ambos os casos, t tem distribuição t-Student com n - 2 graus de liberdade.

d) Decisão: rejeita-se H0 se t > t a;n − 2

II) Para a regressão:

a) Hipóteses: H0: não existe regressão entre os dados observados


H1: existe a regressão

b) Nível de significância: α

c) Variável de teste:
SQM E
Para o modelo como um todo, se usa a variável de teste F = , que tem distribuição F de
SQM R
Snedecor com α fixado e 1 grau de liberdade no numerador e n-2 graus de liberdade no
denominador.

d) Decisão: Caso F > Ftabelado rejeita-se H0

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 143
Quadro de Análise de variância

Fonte de Soma dos Graus de Quadrados F


variação quadrados liberdade médios
Explicada VE = b S XX
2 1 VE SQM E
(devido a Ou VE = bS SQM E = F=
1 SQM R
regressão) XY

Residual VR = VT − VE n–2 VR
SQM R =
n−2
Total VT = S YY n-1

Uma vez que


∑ (Y i (
− Y ) = ∑ Yi − Yˆ + ∑ Yˆ − Y
2 2
) ( ) 2
- VT = VR + VE
2

VT = ∑ (Yi − Y ) = ∑ Yi − 2Yi Y + Y ( ) = ∑Y − 2Y ∑ Yi + ∑ Y =∑ Yi
∑Y  ∑ Yi 

2 2 2 2 2 2
−2 Yi + n  =
i
i
n  n 
 
(∑ Y ) (∑ Y ) 2 2
(∑ Y ) 2

∑Y 2
−2 + = ∑ Yi 2
− = S YY
i i i
i
n n n
VR = ∑ (
Yi − Yˆ ) = ∑ (Y − [a + bX ]) =∑ (Y − [(Y − bX ) + bX ]) =∑ (Y − [Y − bX + bX ])
2
i i
2
i i
2
i i
2
=

∑ (Y − [Y + b(X − X )]) =∑ (Y − Y − b(X − X )) =∑ ((Y − Y ) − b(X − X )) =


2 2 2
i i i i i i

∑ ((Y − Y ) − 2b(X − X )(Y − Y ) + b (X − X ) ) =∑ (Y − Y ) − 2b∑ (X − X )(Y − Y ) + b 2 (X i − X ) =


2 2 2 2 2
i i i i i i i

S YY − 2bS XY + b 2 S XX = S YY − 2b(bS XX ) + b 2 S XX = S YY − b 2 S XX = S YY − bS XY

VE = ∑ Yˆi − Y ( ) = ∑ ([a + bX ] − [a + bX ]) =∑ (b(X


2
i
2
i − X )) =b 2 ∑ ( X i − X ) = b 2 S XX = bS XY
2 2

20.1.6 Coeficiente de Explicação ou determinação

Explica a relação entre a variação explicada VE e a variação total VT e é dado por


VE b 2 S XX
R2 = = , onde 0 ≤ R 2 ≤ 1 e se R 2 = 0 o modelo adotado não explica nada da realidade
VT S YY
S
e se R 2 = 1 o modelo adotado explica a realidade com perfeição. Sendo b = XY , temos:
S XX
(S )2
2
b 2 S XX  S XY  S XX
R = =   = XY 2

S YY  S XX  S YY S XX S YY
O R² indica quantos por cento a variação explicada pela regressão representa da variação total do
modelo.
O valor da raiz quadrada de R 2 representa o coeficiente de correlação linear
O R 2 ajustado é dado por
n −1 
2
Rajustado

= 1−  1− R2 (
n − k − 1 
)
, onde k é número de variáveis independentes

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 144
20.1.7 Previsão

Uma vez encontrado os valores de a e b podemos fazer a previsão usando Yˆ = a + bX , e prova-se


que

1) a previsão média tem distribuição


( )
E Yˆi | X = α + βX
( )
Var Yˆi | X = Var (a + bX ) = Var (Y − bX + bX ) = Var (Y + b[X − X ]) = Var (Y ) + ( X − X ) Var (b) =
2

σ2 2 σ
2
(
2 1 )
X −X2 
∑Var (Y ) + (X − X ) ( )
1 2 1
= = n σ 2
+ X − X = σ  + 
n2 S XX n2 S XX n S XX 


  1 ( X − X )2  
2 1 ( X − X) 
2 

P Yˆi − t α σˆ 2  +  ≤ Yi ≤ Yˆ
i + t α σˆ  +   = 1−α
 
 n S 
 
 n S  
 2 XX 2 XX

2) a previsão individual tem distribuição


( )
E Yˆ0 | X = α + βX
 1 ( X − X )2 
ˆ ( )
Var Y0 | X = σ 1 + +
2

 n S XX 

  1 ( X − X )2   1 (X − X )2  
P Yˆi − t α σˆ 2 1 + +  ≤ Yi ≤ Yˆ
i + t α σˆ 2
1 + +   = 1−α
 
 n S 
 
 n S  
 2 XX 2 XX

Exemplo:

Suponha que exista uma relação linear entre as variáveis X = despesas com propaganda
e Y = vendas de certo produto. Considerando os dados abaixo, determine a reta de
mínimos quadrados, os testes e o coeficiente de explicação:

X (milhões de reais) Y (milhares de unidades)


1,5 120
5,5 190
10,0 240
3,0 140
7,5 180
5,0 150
13,0 280
4,0 110
9,0 210
12,5 220
15,0 310

Graficamente, temos:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 145
Primeiramente, devemos fazer o seguinte:

X (milhões de reais) Y (milhares de unidades) XY X² Y²


1,5 120 180 2,25 14400
5,5 190 1045 30,25 36100
10,0 240 2400 100 57600
3,0 140 420 9 19600
7,5 180 1350 56,25 32400
5,0 150 750 25 22500
13,0 280 3640 169 78400
4,0 110 440 16 12100
9,0 210 1890 81 44100
12,5 220 2750 156,25 48400
15,0 310 4650 225 96100
Total 86 2150 19515 870 461700

Usando as fórmulas dadas, temos:

Y =
∑Y =
2150
= 195,45 X =
∑X =
86
= 7,82
n 11 n 11

S XY = ∑ XY −
∑ X ∑Y = 19515 −
86(2150)
= 2705,91
n 11

(∑ X ) 2
(86)2
S XX = ∑ X 2
− = 870 − = 197,64
n 11

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 146
(∑ Y ) 2
(2150 )
2
S YY = ∑Y − 2
= 461700 − = 41472,73
n 11
S XY 2705,91
b= = = 13,69
S XX 197,64
a = Y − bX = 195,45 − 13,69(7,82) = 88,39
Então, o modelo Yˆ = a + bX , fica Yˆ = 88,39 + 13,69 X
i i i i

Teste dos coeficientes do modelo

i) hipótese
H0: α e β = 0
H1 α e β ≠ 0

ii) para α = 5%, temos t, com n – 2 g. l. igual a 2,2622

iii) cálculo da variável de teste


b−β 13,69
t= = = 8,71
S 22,18
S 197,64
XX

S YY − b 2 S XX S YY − bS XY 41472,73 − 13,69(2705,91)
Onde: S 2 = = → S2 = = 492,06
n−2 n−2 9

S = S 2 = 492,06 = 22,18

Como o valor da variável de teste é maior que valor de t tabulado, rejeitamos H0.

Teste F para a regressão

i) hipótese
H0: não existe regressão
H1 : existe regressão

ii) para α = 5%, temos F, com 1 e n – 2 g. l. igual a 5,12.

iii) cálculo da variável de teste


SQM E VE bS XY 13,69(2705,91)
F= = = 2 = = 75,28
SQM R S 2 S 492,06

Como o valor da variável de teste é maior que valor de F tabulado, rejeitamos H0.

VE bS XY (13,69)(2705,91)
O Coeficiente de explicação é dado por: R 2 = = = = 0,89 ou 89%.
VT S YY 41472,73

Este resultado indica que o modelo explica 89% da variação total de Y

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 147
Saída de um Pacote Estatístico - R

Call:
lm(formula = dados$Y ~ dados$X)

Residuals:
Min 1Q Median 3Q Max
-39.555 -8.984 10.513 14.136 26.284

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 88.413 14.027 6.303 0.00014 ***
dados$X 13.691 1.577 8.680 1.15e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 22.17 on 9 degrees of freedom


Multiple R-squared: 0.8933, Adjusted R-squared: 0.8814
F-statistic: 75.35 on 1 and 9 DF, p-value: 1.147e-05

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 148
21. Determinação do Tamanho da Amostra

Para determinar o tamanho da amostra, devemos saber qual é a dimensão da população que servirá
de base para o estudo, ou seja, o valor de N.

Uma população é dita finita quando se consegue enumerar todos os elementos que a formam.
Refere-se a um universo limitado em uma dada unidade de tempo. Exemplificando pode-se dizer
que a quantidade de automóveis produzidos por uma fábrica em um mês, a população de uma
cidade e o número de alunos de uma sala de aula são exemplos de uma população finita.

Uma população é dita infinita quando os elementos não podem ser contados. Refere-se a um
universo não delimitado. Os resultados (cara ou coroa) obtidos em sucessivos lances de uma moeda,
o conjunto dos números inteiros, reais ou naturais são exemplos de populações infinitas.

Então, temos o seguinte:

Para média:

População Finita População Infinita

Z 2 .σ 2 . N  Z .σ 
2
n= n= 
ε 2 ( N − 1) + Z 2σ 2  ε 

Para a proporção:

População Finita População Infinita


Z 2 . P.Q. N
n= Z 2 .P.Q
ε 2 ( N − 1) + Z 2 .P.Q n=
ε2
Onde:
Z = abscissa da distribuição normal padrão, fixado um nível de (1 – α)% de confiança para a
construção de um intervalo de confiança; Z pode assumir os seguintes valores:
Se o nível for de 95,5%, Z = 2
Se o nível for de 95%, Z = 1,96
Se o nível for de 99%, Z = 2,57
σ = desvio padrão da população; quando não sabemos este valor, substituímos por s, ou seja, o
desvio padrão amostral
ε = é o erro amostral admitido
N = tamanho da população
P = proporção populacional; quando não sabemos este valor, substituímos por p, ou seja, o valor da
proporção amostral
Q = 1 – P; quando não temos este valor, substituímos por q =1 – p

Quando não se conhecem os valores populacionais σ2, P e Q, utilizam-se os valores amostrais s2, p
e q, nas fórmulas acima.

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 149
Bibliografia:

Bussab, Wilton de O., Morettin, Pedro A. Estatística Básica. 8. Ed. São Paulo: Saraiva, 2013.

Morettin, Luiz Gonzaga. Estatística Básica: Probabilidade e Inferência. Volume único. São Paulo:
Ed. Pearson, 2011.

Belfiore, Patrícia, Estatística Aplicada a Administração, Contabilidade e Economia com Excel e


SPSS. 1. Ed. Rio de Janeiro: Elsevier, 2015.

Pinheiro, João Ismael D. et al. Estatística Básica: a arte de trabalhar com dados. 2. Ed. Rio de
Janeiro: Elsevier, 2015

Martins, Gilberto de Andrade. Estatística Geral e Aplicada. 3. Ed. São Paulo: Atlas, 2008.

Costa Neto, Pedro Luis de Oliveira. Estatística. São Paulo: Edgard Blücher, 1977.

Lista completa: https://www.conre6.org.br/referencias-bibliograficas

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 150
Tabelas
I - Tabela Distribuição Normal

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 151
Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 152
II - Tabela Distribuição Qui-quadrado

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 153
III - Tabela Distribuição t-Student

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 154
IV - Tabela Distribuição F-Snedecor

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 155
Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 156
Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 157
Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 158
Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 159
Dados

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 159

Você também pode gostar