Introdução à Análise de Dados

Apostila de Introdução a Análise
de Dados
André Luiz Carvalhal da Silva

Prof. Titular COPPEAD/UFRJ
andrec@coppead.ufrj.br
Apostila resumida de estatística para cursos de graduação e pós-graduação ministrados pelo

Coppead. Para os leitores interessados em uma obra completa e detalhada, recomenda-se o livro:
Carvalhal, A., “Introdução à Análise de Dados”, Ed. E-Papers, 2. ed., 170p, 2011,
disponível em versão impressa e eletrônica em http://www.e-papers.com.br.
Direitos autorais reservados. É proibida a reprodução, total ou parcial, do conteúdo sem prévia
autorização escrita do autor da obra (Lei 9.610/98).
Introdução a Análise de Dados Prof. André Carvalhal
Capítulo 1 - Medidas de Tendência Central
1.1 O Que é Estatística?
A Estatística é a ciência que se preocupa com a coleta, apresentação, organização, descrição, análise e
interpretação de dados e sua utilização para tomada de decisões. Nesse contexto, a Estatística pode ser
classificada em duas partes: Estatística Descritiva e Indutiva.
A Estatística Descritiva se preocupa com a coleta, apresentação, organização e descrição dos dados,
enquanto a Estatística Indutiva (ou Inferencial) cuida da análise e interpretação dos dados, permitindo
a tomada de decisão. Em geral, a Estatística Descritiva trabalha com dados relativos a uma população,
enquanto a Estatística Indutiva trabalha com dados de uma amostra.
1.2 Conceitos Básicos
Uma população (ou universo) é um conjunto total de elementos com pelos menos uma característica
comum, que delimita quais os elementos que pertencem e quais não pertencem à população. A população
pode ser finita (por exemplo, a produção mensal de computadores de uma determinada empresa) ou infinita
(por exemplo, os astros existentes no Universo). Em geral, nos estudos estatísticos, nosso objetivo é
pesquisar uma ou mais características de uma população.
No entanto, em muitas ocasiões, não é possível ou conveniente levantar os dados de todos os elementos da
população. Nesses casos, devemos limitar nossas observações a uma parte da população, ou seja, a uma
amostra proveniente da população. Uma amostra é um subconjunto de uma população, necessariamente
finito, cujos elementos são examinados para realizar estudos estatísticos. O objetivo da Estatística Indutiva é
tirar conclusões sobre populações a partir de resultados baseados em amostras extraídas dessas populações.
As características de interesse de uma população podem ser qualitativas (atributos) ou quantitativas

(variáveis). Os atributos são as características da população que não podem ser medidas (religião, cor,
estado civil, nacionalidade, etc.). As variáveis são as características da população que podem ser medidas
e podem ser divididas em discretas e contínuas.
As variáveis discretas podem assumir somente valores pertencentes a um conjunto enumerável (número
de filhos, número de automóveis, número de gols em uma partida de futebol, etc.). As variáveis
contínuas podem assumir quaisquer valores em um intervalo de observação (idade, peso, altura, taxa de
inflação, etc.). Normalmente, os valores das variáveis discretas são obtidos através de um processo de
contagem, enquanto os valores das variáveis contínuas resultam de um processo de medição.
1
1.3 Medidas de Tendência Central
As medidas de tendência central sintetizam os valores e indicam o centro da distribuição de freqüências.

A média e mediana indicam o centro da distribuição de freqüências, enquanto a moda indica a região de
maior concentração de freqüências na distribuição.
1.3.1 Média
Existem vários tipos de médias, entre eles, média aritmética, geométrica e harmônica.
1.3.1.1 Média Aritmética
A média aritmética pode ser obtida somando-se os valores da variável e dividindo pelo número de
observações. A fórmula da média aritmética é mostrada a seguir.
Fórmula da Média Aritmética
x
i =1
i
x1 + x2 + ... + xn
x= =
n n
onde xi é a variável observada e n é o número de observações.
Exemplo 1.1: Calcular a média aritmética do seguinte conjunto de dados: 2, 4, 5, 7, 8, 9, 12, 15.
Solução:
2 + 4 + 5 + 7 + 8 + 9 + 12 + 15
x= = 7,75
8
Propriedades da Média Aritmética
A média aritmética possui as seguintes propriedades:
a) A média aritmética é um valor contido entre o menor e o maior valor observado.
b) A soma dos desvios em relação à média é igual a zero.
c) Multiplicando-se ou dividindo-se todos os elementos de um conjunto de dados por uma constante, a

média aritmética fica multiplicada ou dividida por essa constante.
d) Somando-se ou subtraindo-se uma constante de todos os elementos de um conjunto de dados, a média

aritmética fica aumentada ou subtraída dessa constante.
2
Exemplo 1.2: Verifique as quatro propriedades da média aritmética usando o conjunto de dados do
Exemplo 1.1: 2, 4, 5, 7, 8, 9, 12, 15.
Solução:
2 + 4 + 5 + 7 + 8 + 9 + 12 + 15
x= = 7,75
8
a) A média aritmética (7,75) é maior do que 2 e menor do que 15.
b) (2 - 7,75) + (4 - 7,75) + (5 - 7,75) + (7 - 7,75) + (8 - 7,75) + (9 - 7,75) + (12 - 7,75) + (15 - 7,75) = 0
c) Multiplicando-se todos os valores por 2, a média aritmética fica multiplicada por 2.
2 × 2 + 4 × 2 + 5 × 2 + 7 × 2 + 8 × 2 + 9 × 2 + 12 × 2 + 15 × 2
x= = 15,50
8
d) Somando-se 1 a todos os valores, a média aritmética fica aumentada de 1.
(2 + 1) + (4 + 1) + (5 + 1) + (7 + 1) + (8 + 1) + (9 + 1) + (12 + 1) + (15 + 1)
x= = 8,75
8
1.3.1.2 Média Geométrica
A média geométrica pode ser obtida multiplicando-se os valores da variável e tirando a raiz de ordem n
do produto desses números. A fórmula da média geométrica é mostrada a seguir.
Fórmula da Média Geométrica
n
xg = n ∏xi =1
i = n x1 × x 2 × ... × x n
Exemplo 1.3: Calcular a média geométrica do conjunto de dados do Exemplo 1.1: 2, 4, 5, 7, 8, 9, 12, 15.
Solução:
x g = 8 2 × 4 × 5 × 7 × 8 × 9 × 12 × 15 = 6,61
Vale notar que a média geométrica (6,61) é inferior à média aritmética encontrada no Exemplo 1.1 (7,75).
3
1.3.1.3 Média Harmônica
A média harmônica pode ser obtida dividindo o número de observações pela soma do inverso dos valores
da variável. A fórmula da média harmônica é mostrada a seguir.
Fórmula da Média Harmônica
n n
xh = n
=
1 1 1 1
x
i =1
+ + ... +
x1 x2 xn
i
Exemplo 1.4: Calcular a média harmônica do conjunto de dados do Exemplo 1.1: 2, 4, 5, 7, 8, 9, 12, 15.
Solução:
8
xh = = 5,41
1 1 1 1 1 1 1 1
+ + + + + + +
2 4 5 7 8 9 12 15
Vale notar que a média harmônica (5,41) é inferior às medias geométrica (6,61) e aritmética (7,75).
1.3.1.4 Relação entre as Médias Aritmética, Geométrica e Harmônica
Para um conjunto de números positivos, vale a relação a seguir:
xh ≤ x g ≤ x
Vale notar que a igualdade só é válida se todos as médias forem iguais. Nos exemplos anteriores,
observamos que a média harmônica é inferior à média geométrica, que, por sua vez, é inferior à média
aritmética.
A média aritmética é mais utilizada do que as médias geométrica e harmônica. Normalmente, usamos a
média geométrica quando os dados estão organizados em uma progressão geométrica, isto é, uma
seqüência numérica em que cada termo é igual ao termo anterior multiplicado por uma constante. Por
exemplo, a média geométrica é muito utilizada para calcular retornos de ativos financeiros.
A média harmônica é muito útil em diversas situações práticas, em especial quando temos variáveis
inversamente proporcionais, tais como velocidade e tempo ou custo médio de produtos comprados com uma
quantia fixa.
4
1.3.1.5 Uso do Microsoft Excel para Cálculo das Médias
Podemos usar as funções do Microsoft Excel para calcular as médias aritmética, geométrica e harmônica.
Essas três funções estatísticas básicas do Microsoft Excel são mostradas a seguir. Elas podem ser acionadas
através do menu “INSERIR”, “FUNÇÃO”, “ESTATÍSTICA”, conforme pode ser visto nas figuras abaixo.
Menu de Funções do Microsoft Excel
Menu de Funções Estatísticas do Microsoft Excel
5
O cálculo das médias aritmética, geométrica e harmônica de 2, 4, 5, 7, 8, 9, 12, 15 poderia ser feito com as
funções “MÉDIA”, “MÉDIA.GEOMÉTRICA” e “MÉDIA.HARMÔNICA” do Microsoft Excel. Essas três funções
calculam as respectivas médias do conjunto de dados informado no argumento “NÚM1”. As figuras a seguir
mostram o uso dessas funções. Repare que os valores coincidem com os apresentados nos Exemplos 1.1,
1.3 e 1.4.
Cálculo da Média Aritmética do Exemplo 1.1 no Microsoft Excel
Cálculo da Média Geométrica do Exemplo 1.3 no Microsoft Excel
6
Cálculo da Média Harmônica do Exemplo 1.4 no Microsoft Excel
1.3.2 Mediana
Assim como a média, a mediana também visa caracterizar o centro da distribuição de freqüências, mas com
um critério diferente. A mediana é o termo que ocupa a posição central de um conjunto de n dados
ordenados.
O primeiro passo é ordenar os dados do menor para o maior. Se n for ímpar, a mediana é igual ao termo de
ordem (n+1)/2 do conjunto de dados. Se n for par, a mediana pode ser definida como qualquer valor
situado entre os termos de ordem n/2 e (n/2 +1). Para simplificar, quando n é par, a mediana normalmente
é calculada como a média aritmética dos termos de ordem n/2 e (n/2 +1).
Exemplo 1.5: Calcular a mediana do conjunto de dados: 11, 1, 3, 8, 6, 2, 7.
Solução:
Como os dados não estão ordenados, o primeiro passo é ordenar os dados do menor para o maior.
1 2 3 6 7 8 11
Termo
central
Como n é ímpar (7), a mediana é igual ao termo de ordem (n+1)/2, isto é, a mediana é igual a 6 (termo de
ordem 4).
Esse cálculo também pode ser feito com a função “MED” do Microsoft Excel, conforme pode ser visto na
figura a seguir. Essa função calcula a mediana do conjunto de dados informado no argumento “NÚM1”. Vale
7
observar que não precisamos ordenar os dados no Microsoft Excel, uma vez que o mesmo faz isso
automaticamente.
Cálculo da Mediana do Exemplo 1.5 no Microsoft Excel
Exemplo 1.6: Calcular a mediana do conjunto de dados do Exemplo 1.1: 2, 4, 5, 7, 8, 9, 12, 15.
Solução:
Se os dados não estivessem ordenados, o primeiro passo seria ordená-los do menor para o maior.
2 4 5 7 8 9 12 15
Termos centrais
Como n é par (8), a mediana é a média aritmética dos termos de ordem n/2 e (n/2 +1), ou seja, termos de
ordem 4 e 5. Logo, a mediana é 7,5 (média aritmética entre 7 e 8).
Esse cálculo também pode ser feito com a função “MED” do Microsoft Excel, conforme pode ser visto na
figura abaixo.
Cálculo da Mediana do Exemplo 1.6 no Microsoft Excel
8
1.3.2.1 Propriedades da Mediana
A mediana possui as seguintes propriedades:
a) A mediana pode ou não coincidir com um elemento da série. No Exemplo 1.5, a mediana coincidiu com
um elemento da série, mas o mesmo não ocorreu no Exemplo 1.6.
b) A mediana pode ou não coincidir com a média aritmética. Podemos perceber que a mediana do Exemplo
1.6 não coincide com a média aritmética do Exemplo 1.1. Iremos estudar ainda neste capítulo quando os
valores da mediana e da média aritmética são iguais.
c) Ao contrário da média, a mediana não sofre a influência de valores extremos, pois depende da posição e
não dos valores dos elementos da série. Por causa dessa característica, em muitos casos, o uso da mediana
é mais conveniente do que a média.
Exemplo 1.7: Refaça o Exemplo 1.6, trocando o último valor da série de dados para 100.
Solução:
Trocando o último valor de 15 para 100, temos a seguinte série de dados.
2 4 5 7 8 9 12 100
Termos centrais
A média aritmética passa a ser:
2 + 4 + 5 + 7 + 8 + 9 + 12 + 100
x= = 18,38
8
A mediana continua a ser 7,5 (média aritmética entre 7 e 8).
Logo, podemos perceber que a média aritmética é muito influenciada por valores extremos. Quando o
conjunto de dados possui muitos outliers (valores extremos), a mediana é mais representativa do que a
média aritmética.
1.3.3 Moda
A moda é o valor mais freqüente em uma série de dados. Podemos encontrar séries sem moda (amodal),
com 1 moda (unimodal), 2 modas (bimodal), 3 modas (trimodal) e assim por diante. Quando a série de
dados possui mais de uma moda, ela é chamada de plurimodal.
Exemplo 1.8 Calcular a moda do conjunto de dados do Exemplo 1.1: 2, 4, 5, 7, 8, 9, 12, 15.
Solução:
A série não possui moda (amodal).
Esse cálculo também pode ser feito com a função “MODO” do Microsoft Excel, conforme pode ser visto na
figura a seguir. Essa função calcula a moda do conjunto de dados informado no argumento “NÚM1”.
9
Cálculo da Moda do Exemplo 1.8 no Microsoft Excel
Exemplo 1.9: Calcular a moda do seguinte conjunto de dados: 2, 2, 4, 5, 5, 7, 7, 7, 8, 9, 12, 15.
Solução:
A moda é 7 (unimodal). Esse cálculo também pode ser feito com a função “MODO” do Microsoft Excel,
conforme pode ser visto na figura abaixo.
10
Exemplo 1.10: Calcular a moda do seguinte conjunto de dados: 2, 2, 4, 5, 5, 5, 7, 7, 7, 8, 9, 12, 15.
Solução:
As modas são 5 e 7 (bimodal).
figura abaixo. No entanto, embora existam duas modas, o Microsoft Excel retorna somente a moda de
menor valor (5).
Exemplo 1.11: Calcular a moda do seguinte conjunto de dados: 2, 2, 2, 4, 5, 5, 5, 7, 7, 7, 8, 9, 12, 15.
Solução:
As modas são 2, 5 e 7 (trimodal).
figura a seguir. No entanto, embora existam três modas, o Microsoft Excel retorna somente a moda de
menor valor (2).
11
1.3.4 Relação entre a Média Aritmética, Mediana e Moda
Se a distribuição de freqüências for simétrica, os valores das três medidas de tendência central (média
aritmética, mediana e moda) são iguais. No entanto, se a distribuição de freqüências for assimétrica, os
valores não coincidem e a diferença entre eles será uma função crescente do grau de assimetria.
As figuras a seguir ilustram a relação entre as três medidas de tendência central no caso de distribuição
simétrica, assimétrica negativa e assimétrica positiva, respectivamente. Podemos notar que:
• Se a distribuição for simétrica, x = Md = Mo

• Se a distribuição for assimétrica negativa (à esquerda), x ≤ Md ≤ Mo
• Se a distribuição for assimétrica positiva (à direita), x ≥ Md ≥ Mo
Relação entre a Média, Mediana e Moda em Distribuições Simétricas
Média = Md = Mo 12
Relação entre a Média, Mediana e Moda em Distribuição Assimétrica Negativa (à Esquerda)
Média Md Mo
Relação entre a Média, Mediana e Moda em Distribuição Assimétrica Positiva (à Direita)
Mo Md Média
1.4 Exercício Proposto
Calcular as médias aritmética, geométrica, harmônica, mediana e moda do seguinte conjunto de dados: 12,
4, 8, 9, 5, 2, 13, 22, 25, 34, 12, 13, 12.
1.5 Gabarito do Exercício Proposto
13,15; 10,35; 7,63; 12,00; 12,00.
13
Capítulo 2 - Medidas Separatrizes e de Dispersão

Este capítulo continua o estudo da Estatística Descritiva, abordando as medidas separatrizes (quartis, decis e
percentis) e de dispersão (amplitude total, desvio médio, variância, desvio padrão, coeficiente de variação e
desvio-quartil).
2.1 Medidas Separatrizes
As medidas separatrizes dividem a série de dados ou distribuição de freqüência em partes que contêm a
mesma quantidade de elementos. De modo geral, dada uma proporção p (0 ≤ p ≤ 1), chamamos de
separatrizes de ordem p o número xp que tem a propriedade de possuir 100p% das observações menor do
que ele.
A mediana, vista no Capítulo 1, é a separatriz que divide a série em 2 partes iguais, pois 50% (p = 0,50) das
observações são menores do que ela. Além da mediana, existem as seguintes separatrizes: quartis, decis e
percentis.
2.1.1 Quartis
Os quartis (Qi) dividem a série ou distribuição de freqüência em 4 partes iguais. Existem, portanto, três
quartis:
• Primeiro quartil (Q1): valor situado de tal modo que 25% (p = 0,25) dos dados são menores que ele.
• Segundo quartil (Q2): valor situado de tal modo que 50% (p = 0,50) dos dados são menores que ele; o
segundo quartil coincide com a mediana.
• Terceiro quartil (Q3): valor situado de tal modo que 75% (p = 0,75) dos dados são menores que ele.
O primeiro passo é ordenar os dados do menor para o maior. Em seguida, podemos calcular o quartil
através da localização do termo de ordem p x n. Por exemplo, o primeiro quartil é o termo de ordem 0,25 x
n, ou seja, 25% dos dados são menores que ele. Por analogia, o segundo e terceiros quartis são os termos
de ordem 0,50 x n e 0,75 x n, respectivamente.
Exemplo 2.1: Calcular os quartis do conjunto de dados: 11, 1, 3, 8, 6, 2, 7.
Solução:
Como os dados não estão ordenados, o primeiro passo é ordenar os dados do menor para o maior.
1 2 3 6 7 8 11
Intervalo do 1º Quartil 2º Quartil Intervalo do 3º Quartil
Como n é igual a 7, o primeiro quartil é o valor situado de tal modo que 25% dos dados (25% x 7 = 1,75
observações) são menores que ele. Portanto, o primeiro quartil é um valor entre 2 e 3.
Esse cálculo pode ser feito com a função “QUARTIL” do Microsoft Excel, conforme pode ser visto na figura a
seguir. Essa função calcula o quartil do conjunto de dados informado no argumento “MATRIZ”. Essa função
possui ainda um outro argumento chamado “QUARTO”, em que devemos informar o quartil que desejamos
14
calcular (1, 2 ou 3). Vale observar que não precisamos ordenar os dados no Microsoft Excel, uma vez que o
mesmo faz isso automaticamente.
O Microsoft Excel calcula a separatriz de ordem p (xp) da seguinte maneira:

1) Calcula (n-1) x p, nesse caso, (7-1) x 0,25 = 1,50
2) Do número encontrado acima, separa a parte inteira i (1) da parte fracionária f (0,50)
3) Localiza os dois valores do conjunto de dados situados após a parte inteira i, ou seja, xi+1 e xi+2. Nesse
caso, x2 = 2 e x3 = 3.
4) Calcula xp = (1-f) x xi+1 + f x xi+2 = (1-0,50) x 2 + 0,50 x 3 = 2,50
Cálculo do Primeiro Quartil do Exemplo 2.1 no Microsoft Excel
O segundo quartil coincide com a mediana. Como n é ímpar (7), a mediana é igual ao termo de ordem
(n+1)/2, isto é, a mediana é igual a 6 (termo de ordem 4). Esse cálculo também pode ser feito com a
função “QUARTIL” do Microsoft Excel, conforme pode ser visto na figura a seguir.

2) Do número encontrado acima, separa a parte inteira i (3) da parte fracionária f (0)
caso, x4 = 6 e x5 = 7.
4) Calcula xp = (1-f) x xi+1 + f x xi+2 = (1-0) x 6 + 0 x 7 = 6
15
Cálculo do Segundo Quartil do Exemplo 2.1 no Microsoft Excel
O terceiro quartil é o valor situado de tal modo que 75% dos dados (75% x 7 = 5,25 observações) são
menores que ele. Portanto, o terceiro quartil é um valor entre 7 e 8. Esse cálculo pode ser feito com a
função “QUARTIL” do Microsoft Excel, conforme pode ser visto na figura a seguir.

caso, x5 = 7 e x6 = 8.
Cálculo do Terceiro Quartil do Exemplo 2.1 no Microsoft Excel
16
Exemplo 2.2: Calcular os quartis do conjunto de dados do Exemplo 1.1: 2, 4, 5, 7, 8, 9, 12, 15.
Solução:
2 4 5 7 8 9 12 15
Intervalo do 1º Quartil Intervalo do 2º Quartil Intervalo do 3º Quartil
Como n é igual a 8, o primeiro quartil é o valor situado de tal modo que 25% dos dados (25% x 8 = 2
observações) são menores que ele. Portanto, o primeiro quartil é um valor entre 4 e 5. Esse cálculo pode ser
feito com a função “QUARTIL” do Microsoft Excel, conforme pode ser visto na figura a seguir.

caso, x2 = 4 e x3 = 5.
Cálculo do Primeiro Quartil do Exemplo 2.2 no Microsoft Excel
O segundo quartil coincide com a mediana. Como n é par (8), a mediana é a média aritmética dos termos
de ordem n/2 e (n/2 + 1), ou seja, termos de ordem 4 e 5. Logo, o segundo quartil é 7,5 (média aritmética
entre 7 e 8). Esse cálculo também pode ser feito com a função “QUARTIL” do Microsoft Excel, conforme
pode ser visto na figura a seguir.

caso, x4 = 7 e x5 = 8.
17
Cálculo do Segundo Quartil do Exemplo 2.2 no Microsoft Excel
O terceiro quartil é o valor situado de tal modo que 75% dos dados (75% x 8 = 6 observações) são
menores que ele. Portanto, o terceiro quartil é um valor entre 9 e 12. Esse cálculo pode ser feito com a
função “QUARTIL” do Microsoft Excel, conforme pode ser visto na figura abaixo.

caso, x6 = 9 e x7 = 12.
Cálculo do Terceiro Quartil do Exemplo 2.2 no Microsoft Excel
18
2.1.2 Decis
Os decis (Di) dividem a série ou distribuição de freqüência em 10 partes iguais. Existem, portanto, 9 decis:
• Primeiro decil (D1): valor situado de tal modo que 10% (p = 0,10) dos dados são menores que ele.
• Segundo decil (D2): valor situado de tal modo que 20% (p = 0,20) dos dados são menores que ele.
• ...
• Oitavo decil (D8): valor situado de tal modo que 80% (p = 0,80) dos dados são menores que ele.
• Nono decil (D9): valor situado de tal modo que 90% (p = 0,90) dos dados são menores que ele.
Vale ressaltar que o quinto decil (D5) coincide com a mediana. O primeiro passo é ordenar os dados do
menor para o maior. Em seguida, podemos calcular o decil através da localização do termo de ordem p x n.
Por exemplo, o primeiro decil é o termo de ordem 0,10 x n, ou seja, 10% dos dados são menores que ele.
Exemplo 2.3: Calcular o terceiro decil do conjunto de dados do Exemplo 1.1: 2, 4, 5, 7, 8, 9, 12, 15.
Solução:
2 4 5 7 8 9 12 15
Intervalo do 3º Decil
Como n é igual a 8, o terceiro decil é o valor situado de tal modo que 30% dos dados (30% x 8 = 2,4
observações) são menores que ele. Portanto, o terceiro decil é um valor entre 5 e 7.
Esse cálculo pode ser feito com a função “PERCENTIL” do Microsoft Excel, conforme pode ser visto na figura
abaixo. Essa função calcula o decil do conjunto de dados informado no argumento “MATRIZ”. Essa função
possui ainda um outro argumento chamado “K”, em que devemos informar a ordem p (0,1 a 0,9) do decil
que desejamos calcular. Vale observar que não precisamos ordenar os dados no Microsoft Excel, uma vez
que o mesmo faz isso automaticamente.

caso, x3 = 5 e x4 = 7.
Cálculo do Terceiro Decil do Exemplo 2.3 no Microsoft Excel
19
2.1.3 Percentis
Os percentis (Pi) dividem a série ou distribuição de freqüência em 100 partes iguais. Existem, portanto, 99
percentis:
• Primeiro percentil (P1): valor situado de tal modo que 1% (p = 0,01) dos dados são menores que ele.
• Segundo percentil (P2): valor situado de tal modo que 2% (p = 0,02) dos dados são menores que ele.
• ...
• Nonagésimo oitavo percentil (P98): valor situado de tal modo que 98% (p = 0,98) dos dados são menores
que ele.
• Nonagésimo nono percentil (P99): valor situado de tal modo que 99% (p = 0,99) dos dados são menores
que ele.
Vale ressaltar que o 25º percentil (P25) coincide com o primeiro quartil; o 50º percentil (P50) coincide com o
segundo quartil (mediana); e o 75º percentil (P75) coincide com o terceiro quartil.
O primeiro passo é ordenar os dados do menor para o maior. Em seguida, podemos calcular o percentil
através da localização do termo de ordem p x n. Por exemplo, o primeiro percentil é o termo de ordem 0,01
x n, ou seja, 1% dos dados é menor que ele. Por analogia, podemos calcular os demais percentis.
Exemplo 2.4: Calcular o 45º percentil do conjunto de dados do Exemplo 1.1: 2, 4, 5, 7, 8, 9, 12, 15.
Solução:
2 4 5 7 8 9 12 15
Intervalo do 45º Percentil
Como n é igual a 8, o 45º percentil é o valor situado de tal modo que 45% dos dados (45% x 8 = 3,6
observações) são menores que ele. Portanto, o 45º percentil é um valor entre 7 e 8.
Esse cálculo também pode ser feito com a função “PERCENTIL” do Microsoft Excel, conforme pode ser visto
na figura abaixo Essa função calcula o percentil do conjunto de dados informado no argumento “MATRIZ”.
Essa função possui ainda um outro argumento chamado “K”, em que devemos informar a ordem p (0,01 a
0,99) do percentil que desejamos calcular. Vale observar que não precisamos ordenar os dados no Microsoft
Excel, uma vez que o mesmo faz isso automaticamente.

caso, x4 = 7 e x5 = 8.
20
Cálculo do 45º Percentil do Exemplo 2.4 no Microsoft Excel
2.2 Medidas de Dispersão
As medidas de dispersão apresentam a variação dos valores de uma variável em torno de uma medida de
tendência central (média, mediana e moda). As principais medidas de dispersão são: amplitude total, desvio
médio, variância, desvio padrão, coeficiente de variação e desvio-quartil.
As medidas de dispersão são importantes na análise estatística de dados, uma vez que as medidas de
tendência central não são suficientes para descrever completamente um conjunto de dados. Por exemplo,
dois conjuntos de dados podem apresentar a mesma média, mediana e moda, mas serem diferentes em
relação à dispersão dos dados (um deles pode ser mais concentrado e outro mais disperso em relação à
medida de tendência central).
2.2.1 Amplitude Total
A amplitude total é a diferença entre o mínimo e o máximo valor da variável. Se os dados estiverem
grupados por intervalos, a amplitude total é a diferença entre o limite superior da última classe e o limite
inferior da primeira classe. Portanto, pode-se notar que a amplitude total é afetada somente pelos valores
extremos (mínimo e máximo).
Exemplo 2.5: Calcular a amplitude total do conjunto de dados do Exemplo 1.1: 2, 4, 5, 7, 8, 9, 12, 15.
Solução:
Primeiro, precisamos encontrar os valores mínimo (2) e máximo (15). Se os dados não estivessem
ordenados, o primeiro passo seria ordená-los do menor para o maior. A amplitude total é igual a 13 (15 –
2).
O cálculo dos valores mínimo e máximo também pode ser feito com as funções “MÍNIMO” e “MÁXIMO” do
Microsoft Excel, conforme pode ser visto na figura a seguir. Vale observar que não precisamos ordenar os
21
dados no Microsoft Excel, uma vez que o mesmo faz isso automaticamente. Em seguida, calculamos a
amplitude total através da subtração desses dois valores.
Cálculo da Amplitude Através dos Mínimos e Máximos no Microsoft Excel
2.2.2 Desvio Médio
O desvio médio é a média aritmética dos desvios absolutos (módulos) em relação à média aritmética (ou
outra medida de tendência central). O uso do desvio médio é preferível em relação à amplitude total, uma
vez que considera todos os valores do conjunto de dados e não somente os valores extremos (mínimo e
máximo). A fórmula do desvio médio é:
Fórmula do Desvio Médio
x
i =1
i −x
DM =
n
onde xi é a variável observada, x é a média aritmética e n é o número de observações.
Exemplo 2.6: Calcular o desvio médio do conjunto de dados do Exemplo 1.1: 2, 4, 5, 7, 8, 9, 12, 15.
Solução:
Primeiro, precisamos calcular a média aritmética. Conforme vimos no Exemplo 1.1, a média aritmética é
igual a 7,75. Em seguida, calculamos o desvio médio.
22
2 - 7,75 + 4 - 7,75 + 5 - 7,75 + 7 - 7,75 + 8 - 7,75 + 9 - 7,75 + 12 - 7,75 + 15 - 7,75

DM = = 3,25
8
O cálculo do desvio médio também pode ser feito com a função “DESV.MÉDIO” do Microsoft Excel, conforme
pode ser visto na figura abaixo. Vale observar que não precisamos calcular antes a média aritmética, uma
vez que o Microsoft Excel faz isso automaticamente.
Cálculo do Desvio Médio no Microsoft Excel
2.2.3 Variância e Desvio Padrão
A variância é a média aritmética dos quadrados dos desvios em relação à média aritmética. Assim como o
desvio médio, a variância também considera todos os valores do conjunto de dados. Como a variância é
calculada a partir dos quadrados dos desvios, ela possui uma dimensão diferente dos dados originais. Por
causa disso, usamos normalmente o desvio padrão, que é a raiz quadrada da variância.
Fórmula do Desvio Padrão
 (x − x)
2
i
i =1
σ=
n
onde xi é a variável observada, x é a média aritmética e n é o número de observações.
Exemplo 2.7: Calcular a variância e o desvio padrão do conjunto de dados do Exemplo 1.1: 2, 4, 5, 7, 8, 9,
12, 15.
23
Solução:
igual a 7,75. Em seguida, calculamos a variância.
σ2 =
(2 - 7,75)2 + (4 - 7,75)2 + (5 - 7,75)2 + (7 - 7,75)2 + (8 - 7,75)2 + (9 - 7,75)2 + (12 - 7,75)2 + (15 - 7,75)2 = 15,94
8
O cálculo da variância também pode ser feito com a função “VARP” do Microsoft Excel, conforme pode ser
visto na figura abaixo. Vale observar que não precisamos calcular antes a média aritmética, uma vez que o
Microsoft Excel faz isso automaticamente.
Cálculo da Variância no Microsoft Excel
Conforme vimos, o desvio padrão é a raiz quadrada da variância.
σ = 15,94 = 3,99
O cálculo do desvio padrão também pode ser feito com a função “DESVPADP” do Microsoft Excel, conforme
pode ser visto na figura a seguir. Vale observar que não precisamos calcular antes a média aritmética, uma
vez que o Microsoft Excel faz isso automaticamente.
24
Cálculo do Desvio Padrão no Microsoft Excel
2.2.3.1 Correção da Fórmula da Variância e Desvio Padrão para o Caso de Amostras
É importante notar que, quando analisamos dados provenientes de uma amostra e não de toda a população,
devemos substituir n por n-1 no denominador das fórmulas da variância e desvio padrão. Obviamente, para
amostras grandes, é praticamente indiferente usar n ou n-1 no denominador.
Exemplo 2.8: Calcular a variância e o desvio padrão amostral do conjunto de dados do Exemplo 1.1: 2, 4,
5, 7, 8, 9, 12, 15.
Solução:
igual a 7,75. Em seguida, calculamos a variância amostral.
σ2 =
(2 - 7,75)2 + (4 - 7,75)2 + (5 - 7,75)2 + (7 - 7,75)2 + (8 - 7,75)2 + (9 - 7,75)2 + (12 - 7,75)2 + (15 - 7,75)2 = 18,21
7
O cálculo da variância amostral também pode ser feito com as funções “VAR” ou “VARA” do Microsoft Excel,
conforme pode ser visto na figura a seguir. Vale observar que não precisamos calcular antes a média
aritmética, uma vez que o Microsoft Excel faz isso automaticamente.
25
Cálculo da Variância Amostral no Microsoft Excel
Conforme vimos, o desvio padrão amostral é a raiz quadrada da variância amostral.
σ = 18,21 = 4,27
O cálculo do desvio padrão amostral também pode ser feito com as funções “DESVPAD” ou “DESVPADA” do
Microsoft Excel, conforme pode ser visto na figura abaixo. Vale observar que não precisamos calcular antes
a média aritmética, uma vez que o Microsoft Excel faz isso automaticamente.
Cálculo do Desvio Padrão Amostral no Microsoft Excel
26
2.2.3.2 Propriedades da Variância e Desvio Padrão
A variância e o desvio padrão possuem as seguintes propriedades:
a) Multiplicando-se ou dividindo-se todos os elementos de um conjunto de dados por uma constante, a

variância fica multiplicada ou dividida pelo quadrado dessa constante e o desvio padrão fica multiplicado ou
dividido por essa constante
b) Somando-se ou subtraindo-se uma constante de todos os elementos de um conjunto de dados, a

variância e o desvio padrão não se alteram.
2.2.4 Coeficiente de Variação
O coeficiente de variação é uma medida de dispersão relativa. Ela é calculada dividindo-se o desvio
padrão pela média aritmética. Sua utilidade reside no fato de que o desvio padrão pode não trazer muita
informação quando visto isoladamente. Por exemplo, um desvio padrão de 10 pode ser considerado
pequeno para um conjunto de dados cuja média aritmética é 500; mas pode ser considerado elevado se a
média aritmética for 20. Como o coeficiente de variação é calculado a partir da média aritmética e desvio
padrão, ele possui uma dimensão igual a dos dados originais.
Fórmula do Coeficiente de Variação
σ
CV =
x
Exemplo 2.9: Calcular o coeficiente de variação do conjunto de dados do Exemplo 1.1: 2, 4, 5, 7, 8, 9, 12,
15.
Solução:
Conforme vimos nos exemplos anteriores, a média aritmética é igual a 7,75 e o desvio padrão é igual a 3,99.
Portanto, podemos calcular o coeficiente de variação.
3,99
CV = = 0,52
7,75
2.3 Boxplot e Identificação de Outliers
O desvio-quartil (ou amplitude inter-quartílica) é a diferença entre o terceiro e o primeiro quartil.

Trata-se de uma medida de dispersão que não é afetada por valores extremos.
Fórmula do Desvio-Quartil
AIQ = Q3 − Q1
Uma das utilidades do desvio-quartil é a construção de boxplots, que permitem a identificação de

assimetrias e outliers. Um boxplot é um gráfico que possibilita representar a distribuição de um conjunto de
27
dados com base em alguns de seus parâmetros descritivos, quais sejam: mediana (Q2), quartil inferior (Q1),
quartil superior (Q3) e amplitude inter-quartílica (AIQ).
A linha central da caixa do boxplot marca a mediana do conjunto de dados. A parte inferior da caixa é
delimitada pelo quartil inferior (Q1) e a parte superior pelo quartil superior (Q3). As hastes inferiores e
superiores se estendem, respectivamente, do quartil inferior até o menor valor não inferior a Q1 – 1,5 x AIQ
e do quartil superior até o maior valor não superior a Q3 + 1,5 x AIQ. Os valores inferiores a Q1 – 1,5 x AIQ
e superiores a Q3 + 1,5 x AIQ são representados individualmente no gráfico sendo estes valores
caracterizados como outliers. A figura abaixo ilustra um modelo de boxplot.
Modelo de Boxplot
O boxplot permite avaliar a simetria dos dados, sua dispersão e a existência ou não de outliers, sendo
especialmente adequado para a comparação de dois ou mais conjuntos de dados.
Exemplo 2.10: Calcular o desvio-quartil do conjunto de dados do Exemplo 1.1 (2, 4, 5, 7, 8, 9, 12, 15) e
construir um boxplot para identificar potenciais outliers.
Solução:
Conforme vimos no Exemplo 2.2, o primeiro, segundo e terceiro quartis (calculados via função “QUARTIL”
do Microsoft Excel) são iguais a 4,75, 7,50 e 9,75. Portanto, o desvio-quartil é igual a 5. Para construir o
boxplot, precisamos calcular antes os limites das hastes inferior e superior.
Limite da haste inferior = 4,75 – 1,5 x 5 = -2,75.

Limite da haste superior = 9,75 + 1,5 x 5 = 17,25.
Como -2,75 é inferior ao menor valor do conjunto de dados (2), o limite inferior do boxplot é igual a 2. O
mesmo raciocínio vale para 17,25, que é superior ao maior valor do conjunto de dados (15), fazendo com
que o limite superior do boxplot seja igual a 15. A figura a seguir mostra o boxplot do conjunto de dados.
28
Boxplot do Exemplo 2.10
Pode-se notar que não existem outliers, uma vez que todos os dados estão contidos no limites das hastes do
boxplot. Além disso, podemos concluir que existe uma assimetria positiva (à direita), dado que a média
aritmética (7,75) é superior a mediana (7,50), conforme vimos no Capítulo 1.
2.4 Exemplo Final Integrador
Exemplo 2.11: Um determinado gerente financeiro calculou o índice de liquidez (ativo de curto prazo
dividido pelo passivo de curto prazo) de 100 empresas brasileiras. O gerente financeiro mostrou os dados
individuais de cada empresa na tabela abaixo. Calcule os três quartis, 1º decil, 85º percentil, amplitude total,
desvio médio, variância amostral, desvio padrão amostral, coeficiente de variação e desvio-quartil. Construa
um boxplot e analise a simetria dos dados e a existência de outliers.
Índices de Liquidez de 100 Empresas Brasileiras
1,00 1,08 1,20 1,32 1,42 1,49 1,62 1,80 2,01 2,36
1,00 1,09 1,21 1,33 1,43 1,50 1,64 1,83 2,04 2,39
1,01 1,09 1,21 1,33 1,43 1,50 1,66 1,85 2,13 2,48
1,02 1,09 1,21 1,33 1,43 1,50 1,68 1,87 2,15 2,50
1,03 1,13 1,25 1,35 1,45 1,52 1,70 1,89 2,17 2,55
1,04 1,18 1,30 1,35 1,45 1,52 1,72 1,90 2,18 2,59
1,04 1,19 1,31 1,36 1,46 1,53 1,74 1,91 2,19 2,63
1,06 1,20 1,32 1,37 1,47 1,54 1,76 1,92 2,22 2,73
1,07 1,20 1,32 1,37 1,47 1,62 1,78 1,93 2,27 2,79
1,08 1,20 1,32 1,42 1,49 1,62 1,79 1,97 2,32 2,98
29
Solução:
Como os dados não são grupados, podemos fazer grande parte dos cálculos usando as funções do Microsoft
Excel, entre elas, “QUARTIL”, “PERCENTIL”, “DESV.MÉDIO”, “VAR” e “DESVPAD”. A figura abaixo ilustra o
cálculo dessas estatísticas no Microsoft Excel.
Cálculo das Estatísticas do Exemplo 2.11 no Microsoft Excel
A amplitude total é igual a 1,98 (2,98 – 1,00), o coeficiente de variação é 0,29 (0,47 / 1,61) e o desvio-
quartil é igual a 0,60 (1,89 – 1,29). Para construir o boxplot, precisamos calcular antes os limites das hastes
inferior e superior.
Limite da haste inferior = 1,29 – 1,5 x 0,60 = 0,39.

Limite da haste superior = 1,89 + 1,5 x 0,60 = 2,79.
Como 0,39 é inferior ao menor valor do conjunto de dados (1,00), o limite inferior do boxplot é igual a 1,00.
Como 2,79 é inferior ao maior valor do conjunto de dados (2,98), o limite superior do boxplot é igual a 2,79
e os números superiores a 2,79 são considerados outliers. A figura a seguir mostra o boxplot do conjunto de
dados.
30
Boxplot do Exemplo 2.11
Nesse exemplo, existe apenas um outlier (2,98). Além disso, podemos concluir que existe uma assimetria
positiva (à direita), dado que a média aritmética (1,61) é superior a mediana (1,49).
2.5 Exercícios Propostos
1) Calcule os três quartis, 2º decil, 55º percentil, amplitude total, desvio médio, variância amostral, desvio
padrão amostral, coeficiente de variação e desvio-quartil do seguinte conjunto de dados: 12, 4, 8, 9, 5, 2,
13, 22, 25, 34, 12, 13, 12.
2) Construa um boxplot e identifique os outliers do conjunto de dados do exercício anterior.
3) Um empresário, interessado em avaliar o desempenho de seus negócios, anotou as vendas (em $

milhões) de cada uma de suas 10 lojas em um determinado ano: 10, 26, 7, 29, 33, 28, 38, 32, 57, 65.
Identifique os outliers.
2.6 Gabarito dos Exercícios Propostos
1) 8,00; 12,00; 13,00; 6,20; 12,00; 32,00; 6,39; 81,31; 9,02; 0,69; 5,00.
2) 22; 25; 34.
3) 7; 10; 57; 65.
31
Capítulo 3
Estimação de Parâmetros e Testes de Hipóteses
O presente capítulo inicia o estudo da Estatística Indutiva, abordando os diferentes tipos de amostragem, a
estimação de parâmetros por ponto e por intervalo, o cálculo do tamanho ideal da amostra e os testes de
hipóteses.
3.1 Amostragem
Na realização da maioria dos estudos estatísticos não é possível ou conveniente levantar os dados de todos
os elementos da população. Nesses casos, estudamos uma amostra proveniente da população e buscamos,
através da Estatística Indutiva, tirar conclusões sobre a população. Portanto, um ponto crucial para
obtermos resultados satisfatórios é que a amostra seja representativa da população. Para ser
representativa, uma amostra deve possuir as mesmas características da população.
O processo usado para selecionar a amostra (amostragem) deve ser usado com bastante cuidado, uma
vez que, se errarmos no momento de selecionar os elementos da amostra, os resultados finais podem ser
incorretos, mesmo que dominemos perfeitamente as técnicas estatísticas. Existem diversos tipos de
amostragem, que, em geral, são classificados em probabilísticos e não-probabilísticos.
A amostragem probabilística ocorre quando o processo de escolha da amostra é de alguma forma

aleatório, e todos os elementos da população tiverem probabilidade conhecida (e diferente de zero) de
pertencer à amostra. A amostragem não-probabilística não envolve aleatoriedade na seleção dos
elementos da amostra.
Em geral, a amostragem probabilística é preferida, uma vez que a aleatoriedade permite que a amostra seja
mais representativa e que os erros envolvidos no processo de inferência sejam calculados. As técnicas da
Estatística Indutiva pressupõem que as amostras utilizadas sejam probabilísticas.
3.2 Estimação
3.2.1 Estimação por Ponto
Na estimação por ponto, o parâmetro populacional é estimado com um único valor. Podemos estimar
diversos parâmetros populacionais, entre eles, média, variância (ou desvio padrão), proporção, entre outros.
Para proceder à estimação por ponto, devemos escolher o melhor estimador possível. Nesse texto, iremos
apresentar e analisar apenas o melhor estimador da média da população.
O melhor estimador da média populacional (µ) é a média amostral:
x
i =1
i
x1 + x2 + ... + xn
x= =
n n
32
Como em uma amostra aleatória, as variáveis x1, x2, ..., xn são independentes e cada uma delas tem a
mesma distribuição da população. Então, designando µ a média populacional temos:
E ( xi ) = µ
Como x é uma variável aleatória, podemos calcular sua média (valor esperado) e variância:
1 1 1 nµ
E( x) = E (x1 + x2 + ... + xn ) = (E ( x1 ) + E ( x2 ) + ... + E ( xn ) ) = (µ + µ + ... + µ ) = =µ
n n n n
1 2 1 2 1 nσ 2 σ 2
σ 2 (x) =
n2
σ ( x1 + x 2 + ... + x n ) =
n2
(σ ( x1 ) + σ 2
( x 2 ) + ... + σ 2
()x n ) =
n2
(σ 2
+ σ 2
+ ... + σ 2
) =
n2
=
n
Podemos concluir que a média amostral é um estimador não tendencioso de µ, isto é:
E (x ) = µ
A média amostral também é consistente, pois a variância do estimador tende a zero quando o tamanho da
amostra tende a infinito:
σ2
lim n→∞ σ 2 ( x ) = lim n→∞ =0
n
A média amostral também é eficiente, ou seja, existem até outros estimadores para µ, porém todos têm
menor eficiência do que a média amostral. A demonstração da eficiência da média amostral foge ao escopo
desse texto.
Exemplo 3.1: Realize uma estimação por ponto da média da população a partir da amostra do Exemplo
1.1: 2, 4, 5, 7, 8, 9, 12, 15.
Solução:
O melhor estimador da média populacional é a média amostral:
2 + 4 + 5 + 7 + 8 + 9 + 12 + 15
x= = 7,75
8
Conforme vimos nos capítulos anteriores, o cálculo da média amostral também pode ser feito com a função
“MÉDIA” do Microsoft Excel.
3.2.2 Estimação por Intervalo
Na estimação por ponto, estimamos o parâmetro populacional com um único valor. Como os estimadores
são variáveis aleatórias, existem erros de estimação, fazendo com que as estimativas obtidas sejam distintas
do valor do parâmetro da população. Portanto, muitas vezes, calculamos um intervalo em torno da
33
estimativa por ponto, de modo que esse intervalo tenha uma probabilidade conhecida de conter o
verdadeiro valor do parâmetro populacional.
Sejam então x1, x2, ..., xn uma amostra aleatória de uma população e θ o parâmetro populacional de
interesse. Sejam θˆl e θˆs estatísticas tais que:
P(θˆl < θ < θˆs ) = 1 − α
O intervalo θˆl a θˆs é chamado de intervalo de confiança de nível 1-α para o parâmetro θ. Normalmente,
usamos 1-α como 0,95 ou 0,99. Chamamos de nível ou grau de confiança do respectivo intervalo a
probabilidade 1-α de que o intervalo de confiança contenha o valor do parâmetro. Pode-se notar que α é a
probabilidade de erro na estimação por intervalo.
Vamos dividir o estudo da estimação por intervalo da média da população em dois casos: quando σ (desvio
padrão da população) é conhecido e quando σ é desconhecido. Nossa suposição é que a distribuição do
estimador x é normal. Essa suposição é válida se a população for normalmente distribuída ou, com boa
aproximação, se a amostra for suficientemente grande (teorema do limite central). O estudo das
distribuições de probabilidade (normal, t de Student, qui-quadrado, entre outras) bem como a demonstração
do teorema do limite central fogem ao escopo desse texto.
3.2.2.1 Desvio Padrão da População (σ) Conhecido
O intervalo que desejamos construir será da forma x ± e0 . Necessitamos determinar e0 de modo que esse
intervalo tenha nível de confiança 1-α. Podemos encontrar e0 através da determinação da variável zα/2, de
tal forma que a probabilidade de x ser maior ou menor do que zα/2 é α, distribuída simetricamente, ou seja,
a probabilidade de x ser maior do que zα/2 é α/2 e a probabilidade de x ser menor do que -zα/2 é α/2. A
figura a seguir ilustra graficamente a distribuição amostral de x e a determinação de zα/2.
Distribuição Amostral da Média
1-α
α/2 α/2
-zα/2 µ zα/2
A tabela a seguir ilustra os valores de zα/2 para os casos mais freqüentes.
34
Valores de zα/2
zα/2 α/2 α
2,58 0,50% 1,00%
2,33 1,00% 2,00%
1,96 2,50% 5,00%
1,64 5,00% 10,00%
1,28 10,00% 20,00%
Vale observar que os valores de zα/2 estão arredondados com 2 casas decimais. Em tese, existem mais casas
decimais, mas os cálculos nesse texto consideram apenas 2 casas decimais.
O valor da variável zα/2 pode ser obtido no Microsoft Excel através da função “INV.NORMP”, que possui um
argumento: “PROBABILIDADE” (no caso α/2). A figura a seguir mostra o uso dessa função no caso de α
igual a 5%, isto é, α/2 igual a 2,5%.
Cálculo da Estatística z para α Igual a 5%
O desvio padrão amostral de x é σ n . Portanto, a expressão para o intervalo de confiança para a média µ
da população, ao nível de confiança 1-α, é dada por:
σ
x ± zα / 2
n
 σ σ 
P x − zα / 2 ≤ µ ≤ x + zα / 2  = 1 − α
 n n
35
3.2.2.2 Desvio Padrão da População (σ) Desconhecido
As fórmulas anteriores pressupõem que o desvio padrão populacional (σ) é conhecido. Se ele for
desconhecido, devemos estimar seu valor com base na amostra, calculando o desvio padrão amostral (s):
 (x
i =1
i − x)
2
s=
n −1
Para amostras grandes, o intervalo de confiança pode ser obtido substituindo-se s como estimativa de σ.
s
x ± zα / 2
n
 s s 
P x − zα / 2 ≤ µ ≤ x + zα / 2  = 1 − α
 n n
Se a amostra for pequena (n < 30), devemos usar a variável tn-1, proveniente da distribuição t de Student,
ao invés de z, proveniente da distribuição normal. A grandeza n-1 é o número de graus de liberdade da
distribuição, quando o tamanho da amostra é n. A distribuição t de Student é parecida com a normal; ela
também é simétrica, mas apresenta caudas mais “grossas”. Aumentando-se n, a distribuição t tende para a
normal.
s
x ± t n −1,α / 2
n
 s s 
P x − t n −1,α / 2 ≤ µ ≤ x + t n −1,α / 2  = 1 − α
 n n
Assim, o fato de sermos obrigados a usar o desvio padrão da amostra ao invés do desvio padrão
populacional nos leva a trabalhar com tn-1 ao invés de z. Vale ressaltar que esse procedimento é correto para
amostras grandes ou pequenas. Para amostras grandes, como t se aproxima de z, pode-se substituir
simplesmente σ por s e usar a expressão com z. O valor da variável t pode ser obtido no Microsoft Excel
através da função “INVT”.
Exemplo 3.2: Calcule um intervalo de 95% de confiança para a média da população a partir da amostra do
Exemplo 1.1: 2, 4, 5, 7, 8, 9, 12, 15. Vamos assumir que o desvio padrão da população é conhecido e igual
a 5.
Solução:
2 + 4 + 5 + 7 + 8 + 9 + 12 + 15
x= = 7,75
8
Como conhecemos o desvio padrão populacional, podemos usar zα/2, que é igual a 1,96 para o nível de
confiança de 95%. O intervalo de confiança pode ser obtido com a seguinte fórmula:
36
σ σ
x − zα / 2 ≤ µ ≤ x + zα / 2
n n
5 5
7,75 − 1,96 ≤ µ ≤ 7,75 + 1,96
8 8
7 ,75 − 3,46 ≤ µ ≤ 7 ,75 + 3, 46
4,29 ≤ µ ≤ 11,21
Exemplo 3.3: Calcule um intervalo de 99% de confiança para a média da população a partir da amostra do
Exemplo 1.1: 2, 4, 5, 7, 8, 9, 12, 15. Vamos assumir que não conhecemos o desvio padrão da população.
Solução:
2 + 4 + 5 + 7 + 8 + 9 + 12 + 15
x= = 7,75
8
O melhor estimador do desvio padrão populacional é o desvio padrão amostral:
s=
(2 - 7,75)2 + (4 - 7,75)2 + (5 - 7,75)2 + (7 - 7,75)2 + (8 - 7,75)2 + (9 - 7,75)2 + (12 - 7,75)2 + (15 - 7,75)2 = 4,27
7
Como não conhecemos o desvio padrão populacional e a amostra é pequena (n < 30), devemos usar a
variável tn-1,α/2, ou seja, t7,0,5%, que é igual a 3,50. O valor da variável t pode ser obtido no Microsoft Excel
através da função “INVT”, que possui dois argumentos: “PROBABILIDADE” (nesse caso α, ou seja, 1%) e
“GRAUS_LIBERDADE” (nesse caso 7). A figura a seguir mostra o uso dessa função.
Cálculo da Estatística t do Exemplo 3.3 no Microsoft Excel
37
O intervalo de confiança pode ser obtido com a seguinte fórmula:
s s
x − t n −1,α / 2 ≤ µ ≤ x + t n −1,α / 2
n n
4,27 4,27
7,75 − 3,50 ≤ µ ≤ 7,75 + 3,50
8 8
7,75 − 5,28 ≤ µ ≤ 7,75 + 5,28
2,47 ≤ µ ≤ 13,03
3.2.3 Cálculo do Tamanho da Amostra
A partir das fórmulas dos intervalos de confiança vistas anteriormente, podemos determinar o tamanho da
amostra para se realizar a estimação por intervalo com confiança e precisão desejadas. Por exemplo, vimos
que, no caso da média, podemos construir o seguinte intervalo:
σ σ
x − zα / 2 ≤ µ ≤ x + zα / 2
n n
σ
Fixado α e usando a fórmula do erro máximo que estamos dispostos a aceitar, e0 = z α / 2 , podemos
n
determinar o tamanho da amostra n:
2
z σ 
n =  α / 2 
 e0 
Essa expressão é válida quando conhecemos o desvio padrão populacional (σ). Caso contrário, devemos
substituir σ pelo desvio padrão amostral (s) e usar a t de Student. No entanto, para usar a t de Student,
precisamos do número de graus de liberdade (n-1), que depende do tamanho da amostra. Nesses casos,
geralmente, utilizamos o valor z da distribuição normal junto com o desvio padrão amostral (s):
2
z s
n =  α / 2 
 e0 
Dado que estamos determinando o tamanho n da amostra, não possuímos ainda os elementos da amostra.
Portanto, não é possível calcular s. Como calcular n então? Nesses casos, usamos o desvio padrão de uma
amostra piloto de tamanho n’ para, com base nela, obtermos uma estimativa de s. Se n ≤ n ′ , o tamanho da
amostra piloto foi suficiente para a estimação; senão, precisamos coletar os elementos necessários para
atingir o tamanho mínimo da amostra.
38
Exemplo 3.4: Calcule o tamanho mínimo da amostra para construir um intervalo de 95% de confiança da
média, com erro máximo de 2,50. Assuma duas hipóteses: a) o desvio padrão da população é conhecido e
igual a 5; b) não conhecemos o desvio padrão da população e obtemos uma amostra piloto com os dados
do Exemplo 1.1: 2, 4, 5, 7, 8, 9, 12, 15.
Solução:
Conforme visto anteriormente, o valor de zα/2 é 1,96 para o nível de confiança de 95%.
No caso de desvio padrão da população conhecido (igual a 5) e erro máximo igual a 2,50, o tamanho da
amostra pode ser obtido com a seguinte fórmula:
2 2
z σ   1,96 × 5 
n =  α / 2  =   = 15,37
 e0   2,50 
Portanto, a amostra deve ser composta de no mínimo 16 elementos.
No caso de desvio padrão da população desconhecido, usamos o desvio padrão de uma amostra piloto de
tamanho n’ para, com base nela, obtermos uma estimativa de s. Se usarmos os dados do Exemplo 1.1 como
amostra piloto, encontramos o seguinte desvio padrão com 8 elementos (n’ = 8):
s=
(2 - 7,75)2 + (4 - 7,75)2 + (5 - 7,75)2 + (7 - 7,75)2 + (8 - 7,75)2 + (9 - 7,75)2 + (12 - 7,75)2 + (15 - 7,75)2 = 4,27
7
Em seguida, podemos determinar o tamanho da amostra usando o desvio padrão da amostra piloto (4,27) e
erro máximo igual a 2,50:
2 2
 z s  1,96 × 4,27 
n =  α / 2  =   = 11,20
 e0   2,50 
Portanto, para obtermos um erro máximo de 2,50, a amostra deve ser composta de no mínimo 12
elementos. Nesse caso, o tamanho da amostra do Exemplo 1.1 é insuficiente e precisamos coletar pelo
menos mais 4 elementos.
3.3 Testes de Hipóteses
Conforme vimos anteriormente, o campo de estudo da Estatística Indutiva pode ser dividido em 2 grupos:
estimação de parâmetros e testes de hipóteses. Esses dois campos possuem muitas características em
comum. No entanto, ao contrário da estimação de parâmetros, nos testes de hipóteses, vamos supor que
existe uma hipótese, que será considerada válida até prova em contrário. Essa hipótese será testada com
base em resultados amostrais, podendo ser aceita ou rejeitada.
39
3.3.1 Conceitos
Na estimação de parâmetros, analisamos os procedimentos de amostragem e as propriedades dos

estimadores. Esses mesmos conceitos serão aplicados nos testes de hipóteses. Os testes de hipóteses são
procedimentos que visam avaliar afirmações sobre os valores dos parâmetros populacionais.
Chamamos de H0 a hipótese existente a ser testada e H1 a hipótese alternativa. O teste de hipótese nos
leva à aceitação ou rejeição de H0, que corresponde à rejeição ou aceitação de H1 respectivamente.
Geralmente, os resultados dos testes de hipóteses se referenciam a H0, ou seja, a conclusão diz respeito a
aceitar ou rejeitar H0.
A estrutura de um teste de hipótese consiste em:
i) Formulação de H0 e H1;
ii) Escolha da distribuição amostral adequada;
iii) Escolha do nível de significância e definição do valor crítico;
iv) Cálculo da estatística de teste;
v) Comparação da estatística de teste com o valor crítico;
vi) Rejeitar H0 se a estatística de teste exceder o valor crítico ou aceitar H0 caso contrário.
Em um teste de hipóteses, podem ocorrer dois tipos de erros:
• Erro Tipo I: rejeitar H0, sendo H0 verdadeira; também chamado de nível de significância e
representado por α;
• Erro Tipo II: aceitar H0, sendo H0 falsa; representado por β.
A tabela a seguir ilustra os resultados possíveis de um teste de hipóteses e suas respectivas probabilidades.
Resultados Possíveis de um Teste de Hipóteses e Suas Probabilidades
Realidade
H0 Verdadeira H0 Falsa
Aceitar H0 Decisão correta (1-α) Erro Tipo II (β)
Decisão
Rejeitar H0 Erro Tipo I (α) Decisão correta (1-β)
3.3.2 Teste da Média da População
Assim como na estimação de parâmetros, vamos dividir o estudo do teste de hipótese da média da
população em dois casos: quando σ (desvio padrão da população) é conhecido e quando σ é desconhecido.
3.3.2.1 Desvio Padrão da População (σ) Conhecido
O primeiro passo é a formulação de H0 e H1. Normalmente, os testes da média populacional assumem H0 da

seguinte forma:
H0: µ = µ0
40
A hipótese a ser testada (H0) é que a média populacional (µ) é igual a um determinado valor µ0. Por sua
vez, podemos ter três hipóteses alternativas (H1):
H1: µ < µ0 (teste unilateral à esquerda)

H1: µ > µ0 (teste unilateral à direita)
H1: µ ≠ µ0 (teste bilateral)
O segundo passo é a escolha da distribuição amostral adequada. Nossa suposição é que a distribuição do
estimador x é normal. Vimos anteriormente que essa suposição é válida se a população for normalmente
distribuída ou, com boa aproximação, se a amostra for suficientemente grande.
Em seguida, devemos escolher o nível de significância (α) e calcular o valor crítico: zα (teste unilateral) e
zα/2 (teste bilateral). A determinação do valor crítico é feita de forma análoga à estimação de parâmetros. A
tabela a seguir ilustra os valores críticos para diferentes valores de α e para testes unilaterais e bilaterais.
Valores de z para Teste Unilateral e Bilateral
Teste Unilateral Teste Bilateral

zα α zα/2 α/2 α
2,58 0,50% 2,58 0,50% 1,00%
2,33 1,00% 2,33 1,00% 2,00%
1,96 2,50% 1,96 2,50% 5,00%
1,64 5,00% 1,64 5,00% 10,00%
1,28 10,00% 1,28 10,00% 20,00%
Os valores de zα e zα/2 podem ser obtidos no Microsoft Excel através da função “INV.NORMP”, que possui
um argumento: “PROBABILIDADE” (α para teste unilateral e α/2 para teste bilateral).
Após a determinação do valor crítico (zα ou zα/2), devemos calcular a estatística de teste e compará-la com o
valor crítico. O desvio padrão amostral de x é σ n . Portanto, a estatística de teste para a média µ da
população é dada por:
x − µ0
z=
σ n
Se a estatística de teste exceder o valor crítico, rejeitamos H0; caso contrário, aceitamos H0. As regras de
aceitação e rejeição de H0 para testes unilaterais e bilaterais são mostradas na tabela a seguir.
Teste de Hipótese da Média Populacional com σ Conhecido
Hipóteses Rejeita-se H0 se
H0: µ = µ0
z < -zα
H1: µ < µ0
H0: µ = µ0
z > zα
H1: µ > µ0
H0: µ = µ0
z < -zα/2 ou z > zα/2
H1: µ ≠ µ0
As figuras a seguir ilustram a região crítica dos testes unilaterais e bilaterais.

41
Região Crítica do Teste Unilateral à Esquerda
1-α
-zα µ
Região Crítica ←
Região Crítica do Teste Unilateral à Direita
1-α
µ zα
→ Região Crítica
Região Crítica do Teste Bilateral
1-α
α/2 α/2
-zα/2 µ zα/2
Região Crítica ← → Região Crítica
42
3.3.2.2 Desvio Padrão da População (σ) Desconhecido
As fórmulas anteriores pressupõem que o desvio padrão populacional (σ) é conhecido. Se ele for
desconhecido, devemos estimar seu valor com base na amostra, calculando o desvio padrão amostral (s).
Nesse caso, a estatística de teste para a média µ da população é dada por:
x − µ0
t n−1 =
s n
Portanto, devemos usar a variável tn-1, proveniente da distribuição t de Student, ao invés de z, proveniente
da distribuição normal. Se a estatística de teste exceder o valor crítico (tα ou tα/2), rejeitamos H0; caso
contrário, aceitamos H0. Os valores críticos de t podem ser obtidos no Microsoft Excel através da função
“INVT”. Os demais procedimentos são semelhantes aos do teste com σ conhecido. As regras de aceitação e
rejeição de H0 para testes unilaterais e bilaterais são mostradas na tabela a seguir.
Teste de Hipótese da Média Populacional com σ Desconhecido
Hipóteses Rejeita-se H0 se
H 0 : µ = µ0
tn-1 < -tn-1,α
H 1 : µ < µ0
H 0 : µ = µ0
tn-1 > tn-1,α
H 1 : µ > µ0
H 0 : µ = µ0
tn-1 < -tn-1,α/2 ou tn-1 > tn-1,α/2
H 1 : µ ≠ µ0
Exemplo 3.5: Realize um teste unilateral com nível de significância de 5% para verificar se a média da
população é igual ou menor do que 8. Utilize os dados amostrais do Exemplo 1.1: 2, 4, 5, 7, 8, 9, 12, 15.
Vamos assumir que o desvio padrão da população é conhecido e igual a 5.
Solução:
Estamos interessados no seguinte teste de hipótese sobre a média populacional (µ):
H0: µ = 8
H1: µ < 8
2 + 4 + 5 + 7 + 8 + 9 + 12 + 15
x= = 7,75
8
Como conhecemos o desvio padrão populacional, podemos usar zα que é igual a 1,64 para o nível de
significância de 5%. A estatística de teste para a média µ da população é dada por:
x − µ0 7,75 − 8
z= = = −0,14
σ n 5 8
43
Como a estatística de teste (-0,14) não excede o valor crítico (-1,64), aceitamos H0, ou seja, aceitamos que
a média da população é igual a 8.
Exemplo 3.6: Realize um teste bilateral com nível de significância de 1% para verificar se a média da
população é igual ou diferente de 7. Utilize os dados amostrais do Exemplo 1.1: 2, 4, 5, 7, 8, 9, 12, 15.
Vamos assumir que não conhecemos o desvio padrão da população.
Solução:
H0: µ = 7
H1: µ ≠ 7
2 + 4 + 5 + 7 + 8 + 9 + 12 + 15
x= = 7,75
8
O melhor estimador do desvio padrão populacional é o desvio padrão amostral:
s=
(2 - 7,75)2 + (4 - 7,75)2 + (5 - 7,75)2 + (7 - 7,75)2 + (8 - 7,75)2 + (9 - 7,75)2 + (12 - 7,75)2 + (15 - 7,75)2 = 4,27
7
Como não conhecemos o desvio padrão populacional, devemos usar a variável tn-1,α/2, ou seja, t7,0,5%, que é
igual a 3,50. O valor da variável t pode ser obtido no Microsoft Excel através da função “INVT”, conforme
vimos anteriormente. A estatística de teste para a média µ da população é dada por:
x − µ0 7,75 − 7
t n−1 = = = 0,50
s n 4,27 8
Como a estatística de teste (0,50) está entre os dois valores críticos (-3,50 e 3,50), aceitamos H0, ou seja,
aceitamos que a média da população é igual a 7.
dividido pelo passivo de curto prazo) de 100 empresas brasileiras. O gerente financeiro mostrou os dados
individuais de cada empresa na tabela a seguir.
a) Calcule uma estimação por ponto da média da população;

b) Calcule um intervalo de confiança de 90% para a média da população;
c) Calcule o tamanho mínimo da amostra para construir um intervalo de 90% de confiança para a média,
com erro máximo de 0,02;
d) Realize um teste bilateral com nível de significância de 5% para verificar se a média da população é igual
ou diferente de 1,50;
44
1,00 1,08 1,20 1,32 1,42 1,49 1,62 1,80 2,01 2,36
1,00 1,09 1,21 1,33 1,43 1,50 1,64 1,83 2,04 2,39
1,01 1,09 1,21 1,33 1,43 1,50 1,66 1,85 2,13 2,48
1,02 1,09 1,21 1,33 1,43 1,50 1,68 1,87 2,15 2,50
1,03 1,13 1,25 1,35 1,45 1,52 1,70 1,89 2,17 2,55
1,04 1,18 1,30 1,35 1,45 1,52 1,72 1,90 2,18 2,59
1,04 1,19 1,31 1,36 1,46 1,53 1,74 1,91 2,19 2,63
1,06 1,20 1,32 1,37 1,47 1,54 1,76 1,92 2,22 2,73
1,07 1,20 1,32 1,37 1,47 1,62 1,78 1,93 2,27 2,79
1,08 1,20 1,32 1,42 1,49 1,62 1,79 1,97 2,32 2,98
Solução:
Item a
O melhor estimador da média populacional é a média amostral. Podemos usar a função “MÉDIA” do
Microsoft Excel para encontrar a média (1,61) amostral, conforme calculado anteriormente.
Item b
Para calcular o intervalo de confiança de 90% para a média da população, como não conhecemos o desvio
padrão populacional, devemos usar a variável tn-1,α/2, ou seja, t99,5%, que é igual a 1,66. O valor da variável t
pode ser obtido no Microsoft Excel através da função “INVT”, que possui dois argumentos:
“PROBABILIDADE” (nesse caso α, ou seja, 10%) e “GRAUS_LIBERDADE” (nesse caso 99). A figura a seguir
mostra o uso dessa função.
Cálculo da Estatística t do Exemplo 3.7 no Microsoft Excel
45
Vale observar que, como a amostra é grande (n > 30), podemos usar, ao invés de t99,5% (1,66), z5% (1,64,
conforme visto anteriormente) como boa aproximação. O intervalo de confiança para a média pode ser
obtido com a seguinte fórmula:
s s
x − t n−1,α / 2 ≤ µ ≤ x + t n−1,α / 2
n n
0,22 0,22
1,61 − 1,66 ≤ µ ≤ 1,61 + 1,66
100 100
1,61 − 0,08 ≤ µ ≤ 1,61 + 0,08
1,53 ≤ µ ≤ 1,69
Item c
Como não conhecemos a variância da população, devemos usar a variância de uma amostra piloto de
tamanho n’ para, com base nela, obtermos uma estimativa de s2. Se usarmos como amostra piloto as 100
empresas coletadas pelo gerente financeiro, podemos determinar o tamanho da amostra usando a variância
da amostra piloto (0,22), o erro máximo desejado (0,02) e z5% (1,64):
2 2
 z s   1,64 × 0,22 
n =  α / 2  =   = 1.479,28

 e0   0,02 
Portanto, para obtermos um erro máximo de 0,02, a amostra deve ser composta de no mínimo 1.480
empresas. Nesse caso, o tamanho da amostra piloto (100) é insuficiente e contém um erro de 0,08 (ver item
b). Se desejarmos diminuir o erro de estimação para 0,02, precisamos coletar mais 1.380 empresas.
Item d
H0: µ = 1,50
H1: µ ≠ 1,50
Como não conhecemos o desvio padrão populacional, devemos usar a variável tn-1,α/2, ou seja, t99,2,5%, que é
igual a 1,98. O valor da variável t pode ser obtido no Microsoft Excel através da função “INVT”. A estatística
de teste para a média µ da população é dada por:
x − µ0 1,61 − 1,50
t n−1 = = = 2,35
s n 0,22 100
Como a estatística de teste (2,35) excede o valor crítico (1,98), rejeitamos H0, ou seja, aceitamos que a
média da população é diferente de 1,50.
46
1) Calcule um intervalo de 95% de confiança para a média da população a partir de uma amostra de 50
observações, sabendo-se que a média amostral é 20 e o desvio padrão da população é igual a 5.
2) Calcule um intervalo de 98% de confiança para a média da população a partir de uma amostra de 10
observações, sabendo-se que a média amostral é 10 e o desvio padrão da amostra é igual a 2,5.
3) Quantos carros devem ser observados para construir um intervalo de 95% de confiança da velocidade
média em uma rua, com erro máximo de 5 km/h, sabendo-se que o desvio padrão é 10 km/h?
4) Suponha que um determinado fabricante de pneus afirme que seus pneus duram 40.000 km em média. O
desvio padrão do tempo de duração dos pneus é suposto igual a 2.000 km. Uma montadora de automóveis
deseja verificar se um grande lote de pneus recebidos deve ser considerado satisfatório. Para tal, seleciona
uma amostra aleatória de 10 pneus e realizar um teste unilateral com nível de significância de 5% para
verificar se a duração média dos pneus é igual ou inferior a 40.000 km. Os resultados indicam que a duração
média dos 10 pneus da amostra é igual a 39.000 km. Calcule a estatística de teste e verifique se a empresa
montadora deve aceitar H0.
1) 18,61 a 21,39.
2) 7,77 a 12,23.
3) 16 carros.
4) -1,58 (aceita H0).
47
Capítulo 4 - Correlação e Regressão
Nosso último capítulo apresenta o conceito de correlação, bem como uma introdução aos principais
conceitos da regressão linear, entre eles, estimação dos parâmetros, construção de intervalos de confiança,
realização de testes de hipóteses e determinação do poder explicativo do modelo.
Nos capítulos anteriores, consideramos a existência de apenas uma variável. No estudo da correlação e
regressão, passamos a examinar mais de uma variável de forma conjunta. Essa situação é bastante comum
em muitas situações do cotidiano, em que estamos interessados em estudar como duas variáveis estão
associadas.
4.1 Correlação
O grau de associação entre duas variáveis pode ser mensurado pela correlação. Esta estatística mede o
sinal (positivo ou negativo) e a magnitude (intensidade) da associação entre duas variáveis.
As correlações populacional e amostral entre duas variáveis x e y podem ser calculadas através das
seguintes fórmulas, respectivamente:
σ x2, y
ρ x, y = (correlação populacional)
σ xσ y
s x2, y
rx , y = (correlação amostral)
sx s y
onde:
xi e yi são variáveis aleatórias, com médias x e y , e n é o número de observações.
σx e σy são os desvios-padrão populacionais de xi e yi
sx e sy são os desvios-padrão amostrais de xi e yi
2
 (x
i =1
i − x ) × ( yi − y )
σ x, y =
n
n
 (x
i =1
i − x ) × ( yi − y )
s x2, y =
n −1
A correlação é adimensional, ou seja, não é afetada pelas unidades de medida de x e y. Ela pode variar
entre -1 (correlação negativa perfeita) e +1 (correlação positiva perfeita). O fato de apresentar valores
mínimo (-1) e máximo (+1) facilita a interpretação do coeficiente de correlação.
48
Vale ressaltar que a correlação mede o grau de associação entre x e y, mas não implica qualquer relação de
causa e efeito entre x e y. Por exemplo, uma elevada correlação entre duas variáveis sinaliza que as
mesmas tendem a andar na mesma direção, mas não podemos concluir que x causa y ou vice-versa.
As figuras a seguir ilustram gráficos de dispersão de x e y para os casos de correlação negativa, positiva e
nula, respectivamente.
Correlação Negativa
y
*
* *
* * *
* *
* * *
* *
* *
* *
* *
Correlação Positiva
y
*
* *
* * *
* *
* * *
* *
* *
* *
* *
x
Correlação Nula
*
* *
* * *
* * * *
* * * *
* * *
* * * *
* * * *
* * *
x 49
Exemplo 4.1: As notas nas disciplinas de Marketing e Finanças de 10 alunos de MBA foram coletadas e
encontram-se na tabela abaixo. As notas estão em uma escala de 0 a 100 e os alunos foram sorteados
aleatoriamente para compor a amostra. Calcular a correlação entre as notas das duas disciplinas.
Notas de Marketing e Finanças de Alunos de MBA
Nota em Nota em
Aluno Marketing Finanças
(x) (y)
1 55 93
2 89 66
3 53 82
4 40 82
5 51 86
6 48 74
7 69 75
8 62 80
9 58 82
10 66 73
Solução:
O cálculo da correlação pode ser feito com as função “CORREL” do Microsoft Excel, conforme pode ser visto
na figura abaixo. Essa função possui os argumentos “MATRIZ1” e “MATRIZ2”, em que devemos informar os
dados das duas variáveis. Vale observar que o Microsoft Excel calcula a correlação amostral (mas não a
populacional). Ao contrário da variância e desvio padrão, que possuem funções para população (“VARP” e
“DESVPADP”) e amostra ( “VAR” ou “VARA” e “DESVPAD” ou “DESVPADA”), o Microsoft Excel só possui uma
função “CORREL” (para amostra).
Cálculo da Correlação no Microsoft Excel
50
A correlação entre as notas nas disciplinas de Marketing e Finanças é negativa (-0,65).
Além da função “CORREL”, existe outra maneira de calcular a correlação no Microsoft Excel. Podemos usar
as “FERRAMENTAS DE ANÁLISE DE DADOS”. Essas ferramentas podem ser acionadas através do menu
“FERRAMENTAS”, “ANÁLISE DE DADOS”, “CORRELAÇÃO”, conforme pode ser visto nas figuras abaixo.
Menu de Ferramentas do Microsoft Excel
Menu de Análise de Dados do Microsoft Excel
51
Para calcular a correlação, precisamos informar: as células dos dados no campo “INTERVALO DE ENTRADA”;
se os dados estão agrupados por linha ou colunas no campo “AGRUPADO POR”; se existem rótulos (nomes
das variáveis) na primeira linha ou coluna; e a forma de saída dos dados (própria planilha, nova planilha ou
nova pasta).
O Microsoft Excel retorna o mesmo valor obtido com a função “CORREL” (-0,65), ou seja, a correlação
amostral. Conforme o esperado, a correlação entre as notas de Marketing (Finanças) e elas mesmas é 1.
Cálculo da Correlação pelo Menu de Análise de Dados do Microsoft Excel
Resultado da Correlação pelo Menu de Análise de Dados do Microsoft Excel
52
4.2 Regressão
4.2.1 Estimação dos Parâmetros
A análise de regressão tem por objetivo descrever a relação entre x e y através de um modelo
matemático. Supondo y a variável dependente (explicada) e x a variável independente (explicativa),
desejamos determinar a variável y em função de x, ou seja, y = f(x). Supondo que y é uma variável
aleatória, o mais correto é escrever a relação entre y e x da seguinte maneira: y = f(x) + ε, em que ε é
uma variável que captura as influências em y não decorrentes de x.
Existem diversas funções f(x) que podem ser estimadas para descrever a relação entre y e x, desde
modelos lineares até não lineares. Neste livro, estudamos apenas os modelos lineares com duas variáveis
(regressão linear simples), que buscam determinar a equação da reta que descreve a relação entre y e
x. Essa reta é chamada de reta de regressão e possui a seguinte forma:
y = a + bx + ε
em que a é o coeficiente linear (intercepto), b é o coeficiente angular (inclinação) e ε é o erro.
A reta anterior é chamada de função de regressão populacional (ou teórica). Como, na prática, estamos
diante de amostras a partir das quais estimamos o valor dos parâmetros populacionais, estimamos a função
de regressão amostral:
y = aˆ + bˆx + εˆ
onde aˆ e bˆ são estimadores dos parâmetros populacionais a e b e εˆ é o resíduo (estimador do erro ε).
As figuras a seguir ilustram graficamente a reta de regressão linear para os casos de coeficiente angular
negativo, positivo e nulo, respectivamente.
Reta da Regressão Linear com Coeficiente Angular Negativo
a b
*
* *
* * *
* *
* * *
* *
* *
* * *
* *
x
53
Reta da Regressão Linear com Coeficiente Angular Positivo
y
*
* *
* * *
* *
* * *
* *
* *
b * *
a * *
Reta da Regressão Linear com Coeficiente Angular Nulo
y
*
* *
* * *
* * * *
a * * * *
* * *
* * * *
* * * *
* * *
Existem diversos métodos para obter a reta que descreve a relação entre y e x. O mais simples de todos é o
“ajuste visual”, pelo qual traçamos diretamente a reta da melhor maneira possível para ela passar por entre
os pontos. Embora intuitivo e simples, esse procedimento não é razoável do ponto de vista estatístico.
A “melhor” reta é aquela que minimiza a soma dos quadrados das distâncias da reta aos pontos, ou seja,
devemos procurar a reta que minimiza a soma dos quadrados dos resíduos. Usamos os quadrados, pois os
resíduos podem ser positivos ou negativos, e a soma pura e simples dos resíduos seria distorcida pelos
sinais. Esse método é chamado de mínimos quadrados ordinários (OLS – “ordinary least squares”) e
pode ser descrito pela seguinte fórmula:
n n
εˆ =  (y )
2
i
2
i − aˆ − bˆxi
i =1 i =1
A obtenção dos estimadores aˆ e bˆ é realizada usando os conceitos de cálculo diferencial e infinitesimal, em

que calculam-se as derivadas em relação a aˆ e bˆ e igualam-se as derivadas a zero. A aplicação de tais
54
conceitos foge ao escopo desse texto. Daremos os resultados, portanto, sem dedução. Os estimadores
aˆ e bˆ que minimizam a soma dos quadrados dos resíduos são dados por:
n
 (x i − x ) × ( yi − y )
bˆ = i =1
n
 (x
i =1
i − x)
2
aˆ = y − bˆx
Lembrando das fórmulas da covariância e variância, podemos também calcular o estimador b̂ por:
ˆ s x2, y
b= 2
sx
2
onde s x , y e s x2 são as covariância amostral entre y e x e variância amostral de x, respectivamente.
4.2.2 Intervalos de Confianças e Testes de Hipóteses dos Parâmetros
Os estimadores aˆ e bˆ , calculados por mínimos quadrados ordinários, são não tendenciosos, consistentes e
eficientes, com os seguintes valores esperados e variância:
E (aˆ ) = a
E (bˆ) = b
x 2
i
s a2ˆ = n
i =1
s r2
n  ( xi − x )
2
i =1
s r2
sb2ˆ = n
 (x − x)
2
i
i =1
onde s r2 é chamada de variância residual, ou variância em torno da reta de mínimos quadrados da

população, e pode ser calculada da seguinte forma:
n
 εˆ i
2
s r2 = i =1
n−2
55
A grandeza n-2 é o número de graus de liberdade da regressão. Vale observar que os graus de liberdade
são o número de observações (n) menos o número de estimadores (2). A partir das fórmulas das variâncias
dos estimadores, podemos calcular intervalos de confiança para aˆ e bˆ :
aˆ ± t n − 2,α / 2 s aˆ
P(aˆ − t n − 2,α / 2 s aˆ ≤ a ≤ aˆ + t n − 2,α / 2 s aˆ ) = 1 − α
bˆ ± t n− 2,α / 2 s bˆ
( )
P bˆ − t n − 2,α / 2 sbˆ ≤ b ≤ bˆ + t n − 2,α / 2 sbˆ = 1 − α
Podemos realizar também testes de hipóteses com a e b. Um dos principais testes é verificar se b = 0, ou
seja, se existe ou não relação entre as variáveis y e x. Normalmente, os testes assumem H0 da seguinte
forma:
H0: a = a0 ou b = b0
A hipótese a ser testada (H0) é que os parâmetros (a e b) são iguais a um determinado valor (a0 e b0). Por
sua vez, podemos ter três hipóteses alternativas (H1):
H1: a < a0 ou b < b0 (teste unilateral à esquerda)

H1: a > a0 ou b > b0 (teste unilateral à direita)
H1: a ≠ a0 ou b ≠ b0 (teste bilateral)
As estatísticas de teste para os estimadores aˆ e bˆ são dadas por:
aˆ − a0
t n− 2 =
s aˆ
bˆ − b 0
t n− 2 =
sbˆ
Se a probabilidade (“valor-p”) da estatística de teste for inferior ao nível de significância do teste de hipótese
(chamado de “α” e usualmente estabelecido em 1% ou 5%), rejeitamos H0; caso contrário, aceitamos H0.
4.2.3 Poder Explicativo do Modelo
O poder explicativo do modelo visa avaliar a qualidade do ajuste da reta, ou seja, qual é a proporção da
variação total da variável dependente y que é explicada pela variável independente x. O coeficiente de
determinação (R2) é uma medida do poder explicativo do modelo e pode ser calculado da seguinte forma:
56
bˆ 2 × s x2
R2 =
s y2
onde bˆ, s y
2
e s x2 são o coeficiente angular e as variâncias amostrais de y e x, respectivamente.
O coeficiente de determinação (R2) pode variar de 0 a 1. Quando R2=0, a variação de y explicada por x é
0%, ou seja, a qualidade do ajuste da reta é nula. Quando R2=1, a variação de y explicada por x é 100%,
ou seja, o ajuste da reta é perfeito. Por exemplo, um R2 de 0,80 significa que 80% da variação de y é
explicada por x e 20% é atribuída a causas aleatórias não incluídas no modelo.
No caso da regressão linear simples, em que existem apenas duas variáveis (y e x), o coeficiente de
determinação (R2) pode ser calculado também pelo quadrado do coeficiente de correlação entre y e x
(rx , y ).
R 2 = (rx , y ) 2
Exemplo 4.2: Estime uma regressão linear simples com os dados do Exemplo 4.1, utilizando como variável
dependente as notas de Finanças e como variável independente as notas de Marketing. Calcule os
estimadores, suas variâncias e o poder explicativo do modelo. Calcule um intervalo de 95% de confiança
para ambos os estimadores e realize um teste bilateral com nível de significância de 5% para verificar se os
mesmos são iguais ou diferentes de zero.
Solução:
No Microsoft Excel existe uma maneira simples de calcular os estimadores da regressão, bem como suas
variâncias, intervalos de confiança e testes de hipóteses. Podemos usar as “FERRAMENTAS DE ANÁLISE DE
DADOS”. Essas ferramentas podem ser acionadas através do menu “FERRAMENTAS”, “ANÁLISE DE DADOS”,
“REGRESSÃO, conforme pode ser visto nas figuras a seguir.
Menu de Ferramentas do Microsoft Excel
57
Menu de Análise de Dados do Microsoft Excel
Conforme pode ser visto na figura a seguir, para estimar a regressão precisamos informar: os dados da
variável dependente no campo “INTERVALO Y DE ENTRADA”; os dados da variável independente no campo
“INTERVALO X DE ENTRADA”; se existem rótulos (nomes das variáveis); o nível de confiança no campo
“NIVEL DE CONFIANÇA” (o nível padrão é 95%); e a forma de saída dos dados (própria planilha, nova
planilha ou nova pasta).
Estimação da Regressão Linear pelo Menu de Análise de Dados do Microsoft Excel
58
Resultado da Regressão Linear pelo Menu de Análise de Dados do Microsoft Excel
Conforme podemos ver na última figura acima, os valores dos estimadores aˆ e bˆ (100,85 e -0,36)
encontram-se nas células B17 e B18, respectivamente. Nas células C17 e C18, o Microsoft Excel mostra o
desvio padrão (ou erro padrão) dos estimadores aˆ e bˆ (9,06 e 0,15). Os coeficientes de correlação rx , y (0,65
em módulo) e determinação R2 (0,43) encontram-se nas células B4 e B5, respectivamente.
Os intervalos de confiança de a (79,95 a 121,76) e b (-0,71 a -0,02) encontram-se nas células F17-G17 e
F18-G18, respectivamente. Finalmente, as estatísticas de teste para a e b (11,13 e -2,43) encontram-se nas
células D17 e D18, respectivamente, e o valor-p das estatísticas de teste para a e b (0,00 e 0,04)
encontram-se nas células E17 e E18, respectivamente. A análise dos demais elementos da figura foge ao
escopo desse livro.
Estamos interessados no seguinte teste de hipótese sobre a e b:
H0: a = 0
H1: a ≠ 0
H0: b = 0
H1: b ≠ 0
Como os valores-p das estatísticas de teste para a e b (0,00 e 0,04) são inferiores ao nível de significância
de 5% (0,05), rejeitamos H0, ou seja, aceitamos que a e b são diferentes de zero.
59
dividido pelo passivo de curto prazo) e o retorno sobre o patrimônio líquido (lucro líquido dividido pelo
patrimônio líquido; expresso em %) de 100 empresas brasileiras. O gerente financeiro mostrou os dados
individuais de cada empresa nas tabelas abaixo. Os dados estão organizados de tal forma que as empresas
estão na mesma célula de cada tabela. Por exemplo, a empresa com índice de liquidez igual a 1,00 possui
retorno sobre o patrimônio líquido igual a 22,00%; a empresa com índice de liquidez igual a 2,27 possui
retorno sobre o patrimônio líquido igual a 42,70%; e assim por diante.
1,00 1,08 1,20 1,32 1,42 1,49 1,62 1,80 2,01 2,36
1,00 1,09 1,21 1,33 1,43 1,50 1,64 1,83 2,04 2,39
1,01 1,09 1,21 1,33 1,43 1,50 1,66 1,85 2,13 2,48
1,02 1,09 1,21 1,33 1,43 1,50 1,68 1,87 2,15 2,50
1,03 1,13 1,25 1,35 1,45 1,52 1,70 1,89 2,17 2,55
1,04 1,18 1,30 1,35 1,45 1,52 1,72 1,90 2,18 2,59
1,04 1,19 1,31 1,36 1,46 1,53 1,74 1,91 2,19 2,63
1,06 1,20 1,32 1,37 1,47 1,54 1,76 1,92 2,22 2,73
1,07 1,20 1,32 1,37 1,47 1,62 1,78 1,93 2,27 2,79
1,08 1,20 1,32 1,42 1,49 1,62 1,79 1,97 2,32 2,98
Retornos sobre o Patrimônio Líquido de 100 Empresas Brasileiras
22,00 -0,20 -6,00 -0,80 4,20 30,90 19,20 29,00 37,10 39,60
28,00 9,90 27,10 1,30 18,30 34,00 4,40 17,30 11,40 26,90
29,10 27,90 -5,90 -5,70 31,30 31,00 0,60 16,50 21,30 39,80
19,20 -9,10 -2,90 18,30 -4,70 1,00 1,80 11,70 5,50 25,00
1,30 -7,70 31,50 -3,50 25,50 5,20 37,00 -0,10 10,70 17,50
29,40 5,80 14,00 24,50 -2,50 -0,80 26,20 6,00 37,80 24,90
6,40 5,90 6,10 3,60 0,60 29,30 13,40 20,10 7,90 22,30
8,60 27,00 26,20 23,70 28,70 2,40 1,60 22,20 28,20 12,30
9,70 8,00 4,20 23,70 28,70 25,20 14,80 8,30 42,70 30,90
22,80 13,00 10,20 34,20 4,90 14,20 1,90 37,70 34,20 45,80
Estime uma regressão linear simples, utilizando como variável dependente o retorno sobre o patrimônio
líquido e como variável independente o índice de liquidez. Calcule os estimadores, seus desvios padrão e o
poder explicativo do modelo. Calcule um intervalo de 95% de confiança para ambos os estimadores e realize
um teste bilateral com nível de significância de 5% para verificar se os mesmos são iguais ou diferentes de
zero.
60
Solução:
Resolvemos diretamente no Microsoft Excel através do menu “FERRAMENTAS”, “ANÁLISE DE DADOS”,

“REGRESSÃO, conforme pode ser visto na figura abaixo. Os valores dos estimadores aˆ e bˆ são -1,35 e 10,74
e seus desvios padrão são 4,58 e 2,72, respectivamente. Os intervalos de confiança são -10,44 a 7,73 (para
a) e 5,34 a 16,15 (para b).
O valor-p de a (0,77) é superior ao nível de significância de 0,05, enquanto o valor-p de b (0,00) é inferior a
0,05. Portanto, podemos concluir que a é igual a zero (aceitamos H0) e b é diferente de zero (rejeitamos
H0). O coeficiente de determinação R2 indica que o modelo explica 14% da variação de y.
Resultado da Regressão Linear do Exemplo 4.3 pelo Microsoft Excel
61
1) Calcule o coeficiente de correlação e os estimadores da regressão linear entre o peso de um determinado

indivíduo em kg (y) e sua respectiva altura em cm (x).
x y
172 71
159 64
168 62
178 92
180 77
162 70
154 60
166 62
174 88
173 79
2) Calcule o coeficiente de correlação e um intervalo de 95% de confiança para ambos os estimadores da

regressão linear entre as vendas de um determinado produto (y) e seus respectivos gastos com propaganda
(x).
Mês x y
Jan 20 2
Fev 28 4
Mar 35 6
Abr 48 8
Mai 54 10
Jun 58 12
Jul 60 14
Ago 61 16
Set 60 18
Out 62 20
62
3) Calcule o coeficiente de correlação e um intervalo de 95% de confiança para ambos os estimadores da

regressão linear entre o número de filhos de uma determinada família (y) e sua renda (x).
x y
10 8
15 6
12 5
70 1
80 2
100 2
20 3
30 2
10 6
60 1
4) A tabela a seguir mostra, para 10 países, o consumo de cigarros per capita (x) e as mortes por 1.000.000
de habitantes 20 anos depois, causadas por câncer no pulmão (y). Calcule o coeficiente de correlação e as
estatísticas do teste bilateral, com nível de significância de 5%, para verificar se os estimadores são iguais
ou diferentes de zero.
País x y
Islândia 250 60
Noruega 260 110
Suécia 350 150
Dinamarca 385 170
Canadá 420 180
Austrália 480 250
Holanda 500 280
Suíça 1.100 350
Inglaterra 1.200 450
EUA 1.290 250
1) 0,77; -101,84; 1,03.
2) 0,92; -12,95 a -0,14; 0,23 a 0,49.
3) -0,76; 3,85 a 7,86; -0,09 a -0,02.
4) 0,80; 1,85 (a é igual a zero) e 3,83 (b é diferente de zero).

63

Introdução à Análise de Dados

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Introdução à Análise de Dados

Enviado por

Direitos autorais:

Formatos disponíveis

Apostila de Introdução a Análise

André Luiz Carvalhal da Silva

Apostila resumida de estatística para cursos de graduação e pós-graduação ministrados pelo

Capítulo 1 - Medidas de Tendência Central

1.1 O Que é Estatística?

1.2 Conceitos Básicos

As características de interesse de uma população podem ser qualitativas (atributos) ou quantitativas

1.3 Medidas de Tendência Central

As medidas de tendência central sintetizam os valores e indicam o centro da distribuição de freqüências.

1.3.1.1 Média Aritmética

Fórmula da Média Aritmética

onde xi é a variável observada e n é o número de observações.

Propriedades da Média Aritmética

A média aritmética possui as seguintes propriedades:

a) A média aritmética é um valor contido entre o menor e o maior valor observado.

b) A soma dos desvios em relação à média é igual a zero.

c) Multiplicando-se ou dividindo-se todos os elementos de um conjunto de dados por uma constante, a

d) Somando-se ou subtraindo-se uma constante de todos os elementos de um conjunto de dados, a média

a) A média aritmética (7,75) é maior do que 2 e menor do que 15.

c) Multiplicando-se todos os valores por 2, a média aritmética fica multiplicada por 2.

d) Somando-se 1 a todos os valores, a média aritmética fica aumentada de 1.

1.3.1.2 Média Geométrica

Fórmula da Média Geométrica

onde xi é a variável observada e n é o número de observações.

1.3.1.3 Média Harmônica

Fórmula da Média Harmônica

onde xi é a variável observada e n é o número de observações.

1.3.1.4 Relação entre as Médias Aritmética, Geométrica e Harmônica

Para um conjunto de números positivos, vale a relação a seguir:

1.3.1.5 Uso do Microsoft Excel para Cálculo das Médias

Menu de Funções do Microsoft Excel

Menu de Funções Estatísticas do Microsoft Excel

Cálculo da Média Aritmética do Exemplo 1.1 no Microsoft Excel

Cálculo da Média Geométrica do Exemplo 1.3 no Microsoft Excel

Cálculo da Média Harmônica do Exemplo 1.4 no Microsoft Excel

Exemplo 1.5: Calcular a mediana do conjunto de dados: 11, 1, 3, 8, 6, 2, 7.

Cálculo da Mediana do Exemplo 1.5 no Microsoft Excel

Cálculo da Mediana do Exemplo 1.6 no Microsoft Excel

1.3.2.1 Propriedades da Mediana

A mediana possui as seguintes propriedades:

Trocando o último valor de 15 para 100, temos a seguinte série de dados.

A média aritmética passa a ser:

A mediana continua a ser 7,5 (média aritmética entre 7 e 8).

A série não possui moda (amodal).

Cálculo da Moda do Exemplo 1.8 no Microsoft Excel

Exemplo 1.9: Calcular a moda do seguinte conjunto de dados: 2, 2, 4, 5, 5, 7, 7, 7, 8, 9, 12, 15.

Cálculo da Moda do Exemplo 1.9 no Microsoft Excel

Exemplo 1.10: Calcular a moda do seguinte conjunto de dados: 2, 2, 4, 5, 5, 5, 7, 7, 7, 8, 9, 12, 15.

As modas são 5 e 7 (bimodal).

Cálculo da Moda do Exemplo 1.10 no Microsoft Excel

Exemplo 1.11: Calcular a moda do seguinte conjunto de dados: 2, 2, 2, 4, 5, 5, 5, 7, 7, 7, 8, 9, 12, 15.

As modas são 2, 5 e 7 (trimodal).

Cálculo da Moda do Exemplo 1.11 no Microsoft Excel

1.3.4 Relação entre a Média Aritmética, Mediana e Moda

• Se a distribuição for simétrica, x = Md = Mo

Relação entre a Média, Mediana e Moda em Distribuições Simétricas

Relação entre a Média, Mediana e Moda em Distribuição Assimétrica Negativa (à Esquerda)

Relação entre a Média, Mediana e Moda em Distribuição Assimétrica Positiva (à Direita)

1.4 Exercício Proposto

1.5 Gabarito do Exercício Proposto

13,15; 10,35; 7,63; 12,00; 12,00.

Capítulo 2 - Medidas Separatrizes e de Dispersão

2.1 Medidas Separatrizes