Escolar Documentos
Profissional Documentos
Cultura Documentos
Capítulo 1
Estatística Descritiva
Sumário
1.1 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Definições importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Tabelas Estatísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Série Cronológica ou Temporal . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.2 Série Geográfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.3 Série Específica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Distribuição de Frequência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.1 Construção de uma distribuição de frequência . . . . . . . . . . . . . . . . 5
1.4 Gráficos Estatísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.1 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.2 Polígono de Frequência . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.3 Gráfico de Linhas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.4 Gráfico de Colunas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4.5 Gráfico em Barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.6 Gráfico de Setores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5 Medidas de Posição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5.1 Média Aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5.2 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.3 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.6 Medidas de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.6.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.6.2 Desvio Médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.6.3 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.6.4 Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.6.5 Coeficiente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.7 Atividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Probabilidade e Estatística 2 / 139
O BJETIVOS DO CAPÍTULO
Ao final deste capítulo você deverá ser capaz de:
A Estatística é a ciência voltada para a construção de técnicas e métodos que permitem tomar decisões
nos mais deferentes setores do conhecimento. O que hoje se conhece por Estatística, é justamente
esse conjunto de ferramentas de pesquisa que envolve, entre outros, o planejamento do experimento
a ser realizado, a coleta qualificada dos dados, os processos de inferência estatística, bem como a
análise e o processamento das informações coletadas.
• População: Qualquer conjunto de informação que tenha entre si uma característica comum que
delimite os elementos pertencentes a ela.
• Variável: Dados referêntes a uma característica de interesse, coletados a partir de uma amostra.
Amostra
População
Variável
8
<Discreta :
> número de filhos.
Quantitativa
>
:Continua : altura, peso, salário.
Probabilidade e Estatística 4 / 139
Na estatística é fundamental aprendermos a representar os dados que serão analisados por meio de
tabelas.
Uma tabela deve apresentar a seguinte estrutura:
• Cabeçalho;
• Corpo;
• Rodapé.
Além disso, a tabela é um quadro que resume um conjunto de dados dispostos segundo linhas e
colunas de maneira sistemática.
Um exemplo muito comum e muito útil de tabela é dado pelas séries temporais. Uma série temporal
consiste em uma sequência numérica cujos valores variam com o tempo.
Abaixo vemos como inserir os dados de uma série temporal em uma tabela:
Vendas da Companhia Alfa: 2007-2009
Anos Vendas em R$ 1.000,00
2007 11.425
2008 18.258
2009 15.798
Fonte: Departamento de Marketing.
Muitas vezes o dado de interesse pode depender a posição geográfica de onde foram coletados. As-
sim, uma série geográfica consiste em uma sequência numérica obtidas em diferentes regiões em um
determinado instante do tempo.
Empresas Fiscalizadas em 2008
Regiões Número de Empresas
Norte 11.425
Nordeste 18.258
Sudeste 28.157
Sul 15.798
Centro-Oeste 9.236
Fonte: Mensário Estatístico.
Probabilidade e Estatística 5 / 139
Uma série importante é formada por dados agrupados por alguma espécie ou característica comum.
Assim, uma série específica é uma série numérica agrupada por tipo. Temos o exemplo abaixo:
Matrículas na Pós-graduação da UFPB - 2008
Uma distribuição de frequência é uma tabela que contém um resumo dos dados obtido em uma amos-
tra.
A distribuição é organizada em formato de tabela, e cada entrada da tabela contém a frequência dos
dados em um determinado intervalo, ou em um grupo.
Abaixo vemos um exemplo simplificado de tabela de distribuição de frequência:
Altura dos Alunos da UFPB - 2008
Alturas em metros Número dos Alunos
1,50 | 1,60 5
1,60 | 1,70 15
1,70 | 1,80 17
1,80 | 1,90 3
Fonte: Serviço de Saúde.
Na próxima subseção aprenderemos a construir uma distribuição de frequência completa.
Para ilustrar como se constrói uma distribuição de frequência, nós vamos considerar um exemplo
específico.
Assim, suponha que uma pesquisa foi feita, e o seguinte conjunto de dados foi obtido:
• Dados Brutos:
24-23-22-28-35-21-23-33-34-24-21-25-36-26-22-30-32-25-26-33-34-21-31-25-31-26-25-35-33-31.
A primeira coisa que fazemos é ordenar os dados do menor para o maior, formando o rol de dados:
• Rol de dados:
21-21-21-22-22-23-23-24-25-25-25-25-26-26-26-28-30-31-31-31-32-33-33-33-34-34-34-35-35-36.
Em seguida, calculamos a amplitude total, ou seja, o maior valor obtido na amostra subtraído do
menor valor obtido na amostra:
Probabilidade e Estatística 6 / 139
• Amplitude Total R:
R = 36 21 = 15.
Vamos agora definir as variáveis de interesse, ou seja, para cada valor distinto obtido na amostra,
atribuiremos uma variável diferente:
• Variável Xi :
• Frequência Absoluta Fi
• Tamanho Amostral n:
n = 30.
Queremos, agora, dividir a amostra em uma quantidade de grupos que formarão os intervalos. Cada
grupo é chamado de classe, assim, queremos definir o número de classes a ser considerado na tabela
de distribuição de frequência:
• Número de Classes K:
p
– K = 5 para n 25 e K ⇡ n, para n > 25.
– Fórmula de Sturges K ⇡ 1 + 3, 22 log n.
p
Logo, pela primeira regra temos K = 30 ⇡ 5, 48 ⇡ 6, e pela segunda regra K ⇡ 1 + 3, 22 log 30 ⇡
5, 75 ⇡ 6. Desta forma, em ambos os casos temos K = 6, que será o valor considerado.
O próximo passo é saber o comprimento de cada intervalo a ser considerado, ou seja, calcular a
amplitude de cada classe. Queremos que todas as classes tenham a mesma amplitude e portanto,
temos:
R
h= .
K
15
Daí, para o nosso caso, h = 6 = 2, 5 ⇡ 3.
Vamos agora definir os limites das classes. Ou seja, definir os intervalos propriamente ditos. Para
tanto, começamos com o menor valor obtido da amostra, ou equivalentemente, o primeiro valor do
rol de dados, e vamos somando a amplitude para definir cada limite de intervalo:
Probabilidade e Estatística 7 / 139
21| 24
24| 27
27| 30
30| 33
33| 36
36| 39
Em seguida, calculamos os pontos médios das classes, que nada mais é que a média aritmética entre
os limites das classes:
21 + 24 24 + 27
pm1 = = 22, 5, pm2 = = 25, 5, , etc.
2 2
Agora, calculamos as frequências dos dados em cada intervalo e, chamada de frequência absoluta, e
também a frequência acumulada, chamada de frequência absoluta acumulada, que considera a soma
das frequências dos intervalos anteriores até o intervalo considerado:
Em seguida, inclui-se as frequências relativas dos dados, ou seja, para cada intervalo calcula-se fi =
Fi /n. A frequência relativa, nos informa a proporção dos dados que pertencem a um determinado
intervalo.
• Frequência Relativa fi :
Para finalizar, calculamos a frequência acumulada relativa, ou seja, calculamos para cada intervalo
fac = Fac /n:
Probabilidade e Estatística 8 / 139
1.4.1 Histograma
0 5 10 15 20 25 30 35
Classes
O polígono de frequência é uma representação gráfica obtida após ligar os pontos médios de cada
classe entre si. Se já tivermos um histograma, basta ligar os pontos médios das bases superiores dos
retângulos.
Probabilidade e Estatística 9 / 139
8
6
Fi
4
2
0
5 10 15 20
Classes
6 8 10 12 14 16 18
Classes
Suponha que temos duas variáveis, por exemplo, podemos ter os dados de uma série temporal, donde
uma variável seria o valor obtido, e a outra variável seria a data em que o valor foi obtido. Outra
Probabilidade e Estatística 10 / 139
possibilidade seria colocar dados de uma série geográfica, onde uma variável seria formada pelos
dados e a outra seria a localização geográfica.
O gráfico de linhas então é formado construindo pontos no plano (a partir das duas variáveis) e, em
seguida, estes pontos são ligados por segmentos de retas.
Abaixo vemos um exemplo de gráfico de linhas de uma série temporal
100
60
Rendimento
0 20
−40
Um gráfico de colunas é formado por uma coleção de colunas, com bases de mesmo comprimento, e
igualmente espaçados. O eixo horizontal do gráfico consiste das diferentes categorias consideradas, e
o eixo vertical é proporcional ao valor do dado.
Abaixo vemos um exemplo de gráfico de colunas:
Probabilidade e Estatística 11 / 139
14
8 10
6
4
2
0
3 4 5
Categorias
O gráfico em barras pode ser entendido como uma variação do gráfico de colunas. De fato, o gráfico
em barras é formado por uma coleção de barras, de mesma altura e igualmente espaçadas. Entre-
tanto, neste caso o eixo vertical representa as diferentes categorias consideradas e o eixo horizontal é
proporcional ao valor dado.
Abaixo vemos um exemplo de gráfico em barras:
0 2 4 6 8 10 12 14
O gráfico de setores, que também é popularmente conhecido como gráfico pizza, é um gráfico em
que um círculo é dividido em setores (que podem ser pensados como as fatias da pizza), onde cada
setor representa uma categoria considerada pelo conjunto de dados, e os ângulos dos setores são
proporcionais aos valores dos dados em cada categoria. Assim, quanto maior o valor obtido, maior
será o ângulo do setor (e assim, maior será a fatia da pizza).
Abaixo vemos um exemplo de gráfico de setores:
Sudeste
Centro−Oeste
Sul
Nordeste
Norte
As medidas de posição são valores que representam a tendência de concentração dos dados observa-
dos.
As mais importantes são as medidas de tendência central. As três medidas de tendência central mais
utilizadas são: média aritmética, moda e mediana.
É um valor que representa uma característica do conjunto de dados. Essa característica é tal que a
soma dos dados é preservada. A média é obtida a partir de todos os elementos da distribuição e do
tamanho da amostra n.
Notação: representamos a média de um conjunto de dados por X (lê-se x barra).
Cálculo da Média Aritmética +
No caso de uma lista de dados não-agrupados, calculamos a média aritmética pela fórmula:
n
Xi
X=Â .
i=1 n
No caso em que temos os dados agrupados, ou seja, sabemos a frequência de cada observação, o
cálculo da média aritmética pode ser simplificado. Assim, a média aritmética pode ser cálculada pela
fórmula:
n
Xi · Fi
X=Â .
i=1 n
No caso em que temos os dados agrupados em intervalos, utilizamos a média aritmética ponderada,
onde os pesos são dados pelo ponto médio do intervalo. Assim, a média aritmética é calculada pela
fórmula:
n
Xi · pmi
X=Â ,
i=1 n
1.5.2 Moda
Definimos a moda de um conjunto de dados como o valor mais frequente deste conjunto.
Notação: representamos a moda de um conjunto de dados por Mo.
• 2, 2, 3, 7 e 8 - Mo = 2 (Unimodal).
• 1, 1, 10, 5, 5, 8, 7, 2 - Mo = 1 e 5 (Bimodal).
• Dados agrupados - Neste caso, a moda é definida como “classe modal”, isto é, a classe com a
maior frequencia.
• h é a amplitude intervalar,
1.5.3 Mediana
Definimos a mediana de um conjunto de dados como o valor que divide um conjunto de dados (orde-
nados) em duas partes com a mesma quantidade de dados.
Notação: representamos a mediana de um conjunto de dados por Md.
O elemento mediano (EMd ) aponta o local (nos dados) onde a mediana está localizada. A mediana
será o valor assumido na posição EMd .
– No caso de dados brutos, se o tamanho amostral (n) é ímpar, temos que EMd = (n + 1)/2.
– Note que no caso tamanho amostral é par, teremos dois valores possíveis para o elemento medi-
ano: n/2 e n/2 + 1. Neste caso a mediana será a média dos valores assumidos nestas posições.
• 2, 2, 3, 7, 8 e 10. Aqui n é par, assim EMd,1 = 6/2 = 3 e EMd,2 = 6/2 + 1 = 4. Daí Md = (3 + 7)/2 =
5.
• Dados agrupados
• Caso 1: n ímpar.
Probabilidade e Estatística 16 / 139
Exemplo 1.8 Exemplo de cálculo de mediana com dados agrupados para n ímpar
Considere a seguinte tabela:\vfill
Faltas (Xi ) Fi Fac
2 1 1
3 7 8
4 3 11
Total 11 -
Como n = 11, temos que EMd = (11 + 1)/2 = 6. Daí Md = 3. Note que a frequência acumulada
indica que nas posições de 2 até 8 temos o valor 3.
• Caso 2: n par.
Exemplo 1.9 Exemplo de cálculo de mediana com dados agrupados para n par
Considere a seguinte tabela:
Neste caso n = 18, daí temos EMd,1 = 18/2 = 9 e EMd,2 = 18/2 + 1 = 10. Portanto Md = (8 + 8)/2 =
8. Note, novamente, que a frequência acumulada indica que nas posições de 9 até 18 temos o valor 8.
onde,
• h é a amplitude do intervalo,
• Amplitude,
• Desvio Médio,
• Variância,
• Desvio Padrão,
• Coeficiente de Variação.
Probabilidade e Estatística 18 / 139
1.6.1 Amplitude
A amplitude nos fornece uma idéia do campo de variação dos elementos. Mais precisamente, ela
fornece a maior variação possível dos dados.
A amplitude é dada pela fórmula
A = Xmax Xmin .
Nota
A amplitude não mede bem a dispersão dos dados porque, usam-se apenas os valores
extremos, ao invés de utilizar todos os elementos da distribuição.
Desejando-se medir a dispersão dos dados em relação a média, parece interessante a análise dos
desvios em torno da média. Isto é, análise dos desvios:
di = (Xi X).
Logo, será preciso encontrar uma maneira de se trabalhar com os desvios sem que a soma dê zero.
Dessa forma, define-se o desvio médio.
Nota
Veja que os desvios foram considerados em módulo, evitando-se assim que a soma fosse
nula.
• Dados agrupados:
Probabilidade e Estatística 19 / 139
n n
|di | · Fi |Xi X| · Fi
DM = Â =Â .
i=1 n i=1 n
Nota
Xi representa um valor individual, no caso de uma distribuição de frequência simples, ou o
ponto médio da classe ( pmi ), no caso de uma distribuição de frequência em classes.
Importante
• O desvio médio é mais vantajoso que a amplitude, visto que leva em consideração todos
os valores da distribuição.
• No entanto, não é tão frequentemente empregado, pois não apresenta propriedades ma-
temáticas interessantes.
1.6.3 Variância
A variância é a medida de dispersão mais utilizada. É o quociente entre a soma dos quadrados dos
desvios e o número de elementos. Assim, temos a seguinte definição de variância populacional:
• Dados agrupados:
Nota
s 2 indica a variância populacional e lê-se sigma ao quadrado ou sigma dois. Neste caso,
X e N da formúla representam a média populacional e o tamanho populacional, respectiva-
mente.
• Dados agrupados:
Nota
Xi representa um valor individual, no caso de uma distribuição de frequência simples, ou o
ponto médio da classe ( pmi ), no caso de uma distribuição de frequência em classes.
Importante
Fórmulas práticas para os cálculos das variâncias são dadas a seguir:
1h N 2 (ÂN
i=1 Xi · Fi )
2i
s = 2
 Xi · Fi
N i=1 N
ou
1 h n 2 (Âni=1 Xi · Fi )2 i
S = 2
 Xi · Fi
n 1 i=1 n
que foram obtidas por transformações nas respecitivas fórmulas originais.
Temos também outra medida de dispersão, que é a raiz quadrada da variância, chamada de desvio
padrão. Assim, p
s = s 2 é o desvio desvio padrão populacional
e p
S= S2 é o desvio desvio padrão amostral.
Nota
Para o cálculo do desvio padrão deve-se primeiramente determinar o valor da variância e,
em seguida, extrair a raiz quadrada desse resultado.
Xi Fi
5 2
7 3
8 5
9 4
11 2
Total 16
Probabilidade e Estatística 21 / 139
• Cálculo da amplitude:
A = Xmax Xmin = 11 5 = 6.
• Cálculo do desvio médio:
Primeiramente é preciso do valor da média. Assim,
Xi Fi Xi · Fi
5 2 10
7 3 21
8 5 40
9 4 36
11 2 22
Total 16 129
n
Xi · Fi 129
X=Â = = 8, 06.
i=1 n 16
Para o cálculo do DM são abertas novas colunas:
Xi Fi Xi · Fi |Xi X| = |di | |di | · Fi
5 2 10 |5 8, 06| = 3, 06 6,12
7 3 21 |7 8, 06| = 1, 06 3,18
8 5 40 |8 8, 06| = 0, 06 0,30
9 4 36 |9 8, 06| = 0, 94 3,76
11 2 22 |11 8, 06| = 2, 94 5,88
Total 16 129 - 19,24
Portanto,
n
|di | 19, 24
DM = Â = = 1, 20.
i=1 n 16
• Cálculo do variância amostral:
Observe que o cálculo será facilitado, pois sabe-se que: n = 16; Â Xi · Fi = 129. Resta encontrar
 Xi2 · Fi . Para tanto, uma nova coluna é considerada na tabela.
Xi Fi Xi · Fi Xi2 · Fi
5 2 10 50
7 3 21 147
8 5 40 320
9 4 36 324
11 2 22 242
Total 16 129 1083
Portanto,
1 h n 2 (Âni=1 Xi · Fi )2 i
S2 =
n 1 i=1 Â Xi · Fi n
1 h (129) 2 i 1h 16641 i
= 1083 = 1083
16 h 1 16i 15 16
1 17328 16641 687
= = = 2, 86.
15 16 15 · 16
Logo, a variância amostral S2 = 2, 86.
Probabilidade e Estatística 22 / 139
Trata-se de uma medida relativa de dispersão útil para a comparação em termos relativos do grau de
concentração em torno da média de séries distintas. É dado por
S
CV = ⇥ 100.
X
onde, S é o desvio padrão amostral e X é a média amostral.
O coeficiente de variação é expresso em porcentagens.
• Para os homens:
1.500
CV = ⇥ 100 = 37, 5%.
4.000
• Para as mulheres:
1.200
CV = ⇥ 100 = 40%.
3.000
Logo, podemos concluir que os salários da mulheres apresenta maior dispersão relativa do que o dos
homens.
Diz-se que a distribuição possui pequena variabilidade, ou dispersão, quando o coeficiente der até
10%; média dispersão quando estiver acima de 10% até 20%; e grande dispersão quando superar
20%. Alguns analistas consideram:
1.7 Atividades
R ESPOSTAS
3. 41,8 4. 13,8 5. 41 6. 9 7. 41 8. 14 9. 6,33 10. 5,52 11. Variância
amostral = 67,75. Variância populacional = 65,81. 12. Variância amostral = 76,83.
Variância populacional = 73,76. 13. 19,69%. 14. 63,52%.