Escolar Documentos
Profissional Documentos
Cultura Documentos
ESTATÍSTICA DESCRITIVA
SUMÁRIO
INTRODUÇÃO ......................................................................................................................04
1 CONCEITOS FUNDAMENTAIS E DEFINIÇÕES...............................................05
2 TABELA......................................................................................................................06
2.1 ELEMENTOS DA TABELA.......................................................................................07
2.2 DISTRIBUIÇÃO DE FREQÊNCIA ............................................................................08
2.2.1 Conceitos Básicos.........................................................................................................09
3 GRÁFICOS .................................................................................................................13
3.1 GRÁFICOS PARA VARIÁVEIS QUANTITATIVAS CONTÍNUAS.......................14
3.1.1 Histograma ...................................................................................................................14
3.1.2 Polígono de Frequência ................................................................................................15
3.1.3 Gráfico da Frequência Acumulada Ou Ogiva ..............................................................15
3.1.4 Ramo – e – Folhas ........................................................................................................16
3.2 GRÁFICOS PARA VARIÁVEIS QUANTITATIVAS DISCRETAS........................17
3.2.1 Gráfico de Bastões........................................................................................................17
3.2.2 Gráfico da Frequência Acumulada Ou Ogiva ..............................................................17
3.3 GRÁFICOS PARA VARIÁVEIS QUALITATIVAS..................................................18
3.3.1 Gráfico de Barras..........................................................................................................18
3.3.2 Gráfico de Colunas .......................................................................................................18
3.3.3 Gráfico de Setores ........................................................................................................19
3.3.4 Gráfico de Linhas .........................................................................................................19
4 MEDIDAS DESCRITIVAS.......................................................................................20
4.1 MEDIDAS DE TENDÊNCIA CENTRAL ..................................................................20
4.1.1 Média Aritmética..........................................................................................................21
4.1.2 Moda.............................................................................................................................23
4.1.3 Mediana ........................................................................................................................24
4.2 MEDIDAS SEPARATRIZES ......................................................................................25
4.3 MEDIDAS DE DISPERSÃO.......................................................................................28
4.3.1 Amplitude Total............................................................................................................29
3
INTRODUÇÃO
A estatística trabalha com dados, os quais podem ser obtidos por meio de uma população ou
de uma amostra, definida como:
População: conjunto de elementos que tem pelo menos uma característica em comum.
Esta característica deve delimitar corretamente quais são os elementos da população, que podem
ser animados ou inanimados.
Amostra: subconjunto de elementos de uma população. Este subconjunto, obviamente
deve ter dimensão menor que a população e seus elementos devem ser representativos. A seleção
dos elementos que irão compor a amostra pode ser feita de várias maneiras e irá depender do
conhecimento que se tem da população e da quantidade de recursos disponíveis. A tecnologia da
amostragem faz parte da estatística inferencial.
Em se tratando de conjuntos, estes podem ser:
Finitos: possuem um número limitado de elementos. Ex: A={ 1,2,3,4,5}.
Infinitos: possuem um número ilimitado de elementos, podendo ser numeráveis ou não.
Segundo Medronho (2003), elemento significa cada uma das unidades observadas no
estudo. Após a determinação dos elementos pergunta-se: o que fazer com eles? Pode-se medi-los,
observá-los, contá-los, surgindo um conjunto de respostas que receberá a denominação de
variável.
Variável: é a característica que vai ser observada, medida ou contada nos elementos da
população ou da amostra e que pode variar assumir um valor diferente para cada elemento do
conjunto de dados.
Existem dois tipo de variáveis:
b) Variáveis Qualitativas (ou categóricas): são variáveis quem assumem como valores
possíveis, qualidades ou atributos. As variáveis qualitativas são classificadas em:
• Variável nominal: as categorias não apresentam ordenação natural
Exemplo: Sexo: masculino ou feminino
Cor dos olhos: castanhos, verdes, azuis e outras.
• Variável ordinal: as categorias possuem ordenação natural.
Exemplo: Escolaridade: 1- ensino fundamental 2 - ensino médio 3 - ensino superior
Classe social: 1 – baixa 2 – média 3 - alta.
6
2- TABELA
É muito comum nos dias de hoje, devido ao uso de computadores, realizarem pesquisas em
que a coleta de dados resulta em grandes coleções (quantidades) de dados para análise e torna-se
quase impossível entendê-los, quanto ao(s) particular (es) objetivo(s) de estudo, se estes dados
não estiverem resumidos. Em outras palavras, os dados na forma em que foram coletados não
permitem, de maneira fácil e rápida, que se extraiam informações. Torna-se difícil detectar a
existência de algum padrão. A tabela é um procedimento muito útil para guardar informações.
Hoje em dia ,devido às grandes quantidades de dados, o uso de planilhas eletrônicas são de
fundamental importância na organização dos dados. Com o auxilio de uma planilha, todas as
variáveis podem ser resumidas através de uma tabela.
Tabela 01: Informação sobre sexo, idade (anos), altura (metros), peso (Kg),
estado civil, número de irmãos e meio de transporte dos alunos da disciplina Inferência
Estatística do curso de Estatística da UEM - 21/03/2005
A disposição de uma tabela pode ser generalizada como mostra a Tabela a seguir.
Célula
Conteúdo da linha
Coluna
→ Traço Facultativo
Destaca-se que as tabelas devem ser numeradas em ordem crescente ou em que aparecem
no texto, como é o caso de trabalhos científicos; as bordas superiores e inferiores devem ser
fechadas com traços horizontais enquanto às da esquerda e direita não, podendo ou não ser
fechadas por traços verticais a separação das colunas no corpo da tabela. É conveniente também
que o número de casas decimais seja padronizado.
Uma tabela contém as diferentes categorias observadas de uma variável qualitativa e suas
respectivas contagens, denominadas frequências absolutas. A contagem refere-se ao número de
ocorrências de cada categoria.
Quanto à classificação, uma tabela pode ser temporal, quando as observações são feitas
levando-se em consideração o tempo; geográfica, quando os dados referem-se ao local de
ocorrência; específica (ou categórica), quando tempo e local são fixos e comparativa, quando a
8
Segundo Barbetta et. al. (2004), as frequências relativas em percentual são úteis ao se
comparar tabelas ou pesquisas diferentes. Por exemplo, quando amostras (ou populações) têm
números de elementos diferentes, a comparação através das frequências absolutas pode resultar
em afirmações errôneas enquanto que pelas frequências relativas em percentual não, pois os
percentuais totais são os mesmos.
Como já foi mencionado no início deste capítulo, dependendo do volume de dados, torna-se
difícil ou impraticável tirar conclusões a respeito do comportamento das variáveis e, em
particular, de variáveis quantitativas.
9
Pode-se, no entanto, colocar os dados brutos (obtidos após a coleta dos dados) de cada uma
das variáveis quantitativas em uma ordem crescente ou decrescente, denominado rol. A
visualização de algum padrão ou comportamento continua sendo de difícil observação ou até
mesmo cansativa, mas torna-se rápido identificar maiores e menores valores ou concentrações de
valores no caso de variáveis quantitativas. Estes números (menor e maior valor observado)
servem de ponto de partida para a construção de tabelas para estas variáveis. Vale destacar que
para as variáveis qualitativas, pode-se também construir um rol em ordem temporal ou alfabética,
por exemplo.
A – Dados Brutos
B – Rol
A = xmax − xmin
Para o nosso exemplo, A = 35 − 22 = 13
i xi Fi
1 22 2
2 23 2
3 24 1
4 25 1
5 28 2
6 34 1
7 35 1
7
∑ F = 10
i =1
i
xi Fi fi
2
22 2 = 0,2
12
23 2 0,2
24 1 0,1
25 1 0,1
28 2 0,2
34 1 0,1
35 1 0,1
7 7
∑ F = 10
i =1
i ∑f
i =1
i = 1, 0
7
2
Observe que ∑f
i =1
i = 1, 0 . Note também que
10
= 0,2 , ou 20% das pessoas que trabalham
Faci
A frequência relativa acumulada também pode ser obtida como: faci =
n
Para o nosso exemplo temos:
xi F i fi Faci faci
22 2 0,2 2 0,2
23 2 0,2 4 0,4
24 1 0,1 5 0,5
25 1 0,1 6 0,6
28 2 0,2 8 0,8
34 1 0,1 9 0,9
35 1 0,1 10 1,0
∑ 10 1,0
Assim, podemos dizer quem 5 empregados, ou 50% dos empregados têm idade menor ou
igual a 24 anos.
Uma tabela contendo as frequências absolutas, relativas e acumuladas é dita uma
distribuição de frequências completa.
Segundo Milone (2004), em se tratando das frequências relativas em percentuais,
arredondamentos se fazem necessários e devem ser feitos de maneira convencional. Neste tipo de
aproximação opta-se sempre pelo menor erro. Por exemplo, se for necessário aproximar o
número 0,483 para a ordem do centésimo, erra-se menos subtraindo 0,003 que adicionando 0,007
ao valor 0,483, portanto a aproximação correta é 0,48. Se a aproximação for do número 0,4853
para a ordem do centésimo, então o erro menor será para a adição de 0,0047 e não para a
subtração de 0,0053, e a aproximação adequada é 0,49. Já no caso do número 0,485, o tamanho
do erro de aproximação é o mesmo que se obtém quando feita para mais ou para menos (0,005), e
neste caso, cabe ao usuário decidir qual aproximação é mais conveniente.
A soma de todas as frequências relativas percentuais deve ser igual a 1,0. Entretanto,
quando são feitas aproximações, tal fato pode não ocorrer. Para o caso em que a soma das
frequências relativas for menor que 1,0, soma-se uma unidade ao dígito de interesse das maiores
frequências relativas até que a soma seja 1,0. Se for maior que 1,0, deve-se subtrair uma unidade
das maiores frequências relativas. Agora, se ocorrem empates ou se as maiores frequências forem
números inteiros, é conveniente trabalhar com as outras frequências. O importante é que a
distribuição dos dados não seja alterada.
a) li |---- Li, onde o limite inferior da classe é incluído na contagem da frequência absoluta,
mas o superior não;
b) li ------| Li, onde o limite superior da classe é incluído na contagem, mas o inferior não;
c) li |-----| Li, onde tanto o limite inferior quanto o superior são incluídos na contagem;
d) li ------ Li, onde os limites não fazem parte da contagem.
Pode-se escolher qualquer uma destas opções, sendo o importante tornar claro no texto ou
na tabela qual está sendo usada. A forma expressa em a) é a mais usada.
Exemplos:
a) a |---- b x ∈ classe ⇔ a ≤ x < b
b) a ----| b x ∈ classe ⇔ a < x ≤ b
c) a |----| b x ∈ classe ⇔ a ≤ x ≤ b
d) a ---- b x ∈ classe ⇔ a < x < b
Se houver muitos intervalos, o resumo não constituirá grande melhoria com relação aos
dados brutos. Se houver poucos, um grande volume de informação se perderá. Embora não seja
necessário, os intervalos são frequentemente construídos de modo que todos tenham amplitudes
iguais, o que facilita as comparações entre as classes.
Não há uma fórmula exata para o cálculo do número de classes. Eis algumas sugestões:
a) Para n ≤ 25 , k = 5 ; para n > 25, k = n
b) Fórmula de Sturges: k ≅ 1 + 3,22 log n
c) k ≅ −1 + 2 ln(n)
Onde n é o número de elementos da amostra.
Deve-se lembrar que sendo k o número de classes, o resultado obtido por cada um dos
critérios deve ser o maior número inteiro obtido.
Milone (2004) acrescenta ainda que, adotando o princípio de que os agrupamentos devem
ter no mínimo cinco e no máximo 20 classes, o critério da raiz é valido para 25≤ n ≤400, o do log
para 16 ≤ n ≤ 572.237 e o do ln para 20 ≤ n ≤ 36.315.
Por outro lado, o pesquisador pode definir o número de classes baseando-se em sua
experiência.
A
h=
k
E assim todas as classes terão a mesma amplitude, o que permitirá a construção de gráficos
e cálculo de medidas descritivas.
13
O ponto médio da classe i é a média aritmética entre o limite inferior e o limite superior da
classe, ou seja:
li + L i
xi = , i = 1, 2 , ..., k
2
Exemplo: Seja a Classe
10 + 12
10 |---- 12 então xi = = 11
2
Obs.: tanto h, quanto k devem ser aproximados para o maior inteiro mais próximo.
3- GRÁFICOS
Gráfico é um recurso visual da Estatística utilizado para representar um fenômeno. Sua
utilização em larga escala nos meios de comunicação social, técnica e científica, devem-se tanto à
sua capacidade de refletir padrões gerais e particulares do conjunto de dados em observação,
como à facilidade de interpretação e a eficiência com que resume informações dos mesmos.
Embora os gráficos forneçam menor grau de detalhes que as tabelas, estes apresentam um
ganho na compreensão global dos dados, permitindo que se aperceba imediatamente da sua forma
geral sem deixar de evidenciar alguns aspectos particulares que sejam de interesse do
pesquisador.
A escolha da representação gráfica e, conseqüentemente, a escolha do tipo de gráfico mais
adequado para representar um conjunto de dados deve ser feita com base nas respostas de
questões como:
- Um gráfico realmente é a melhor opção?
- Qual é o público-alvo?
- Qual é o objetivo do gráfico?
- Que tipo de gráfico deve ser usado?
- Como o gráfico deve ser apresentado?
- Que tamanho o gráfico deve ter?
- Deverá ser usado apenas um gráfico?
- A qual meio técnico se deve recorrer?
Existem diversos tipos de gráficos. Porém, nesta monografia serão destacados aqueles de
maior interesse pedagógico na representação das variáveis qualitativas e quantitativas.
3.1.1 Histograma
12
10
8
6
fi
4
2
0
0 5 10 15 20 25 30 35 40 45
C las s es
É um gráfico que permite descrever dados quantitativos por meio da frequência acumulada.
A ogiva é um gráfico de linha que une os pontos cujas abscissas são os limites superiores das
classes, e, ordenadas suas respectivas frequências acumuladas. Convém observar que o ponto
inicial desse gráfico é o limite inferior do primeiro intervalo, com frequência acumulada zero,
pois não existe qualquer valor inferior a ele.
Quando os dados contidos em cada classe são distribuídos uniformemente, pode-se estimar,
a partir da ogiva, o número de elementos pertencentes a qualquer uma das classes que compõe a
distribuição de frequência dos dados e a quantidade ou porcentagem de elementos que estão
abaixo de certo valor pertencente ao conjunto de dados.
Pela Figura 03, nota-se que não existem alunos com idade inferior a 18 anos enquanto que
abaixo de 34 anos existem vinte alunos.
Observe que também poderíamos ter usado a frequência relativa acumulada para construir
um gráfico semelhante à ogiva.
16
3.1.4 Ramo-e-Folhas
É uma forma simples de visualização dos dados, quando a quantidade de dados não for
muito grande. O Ramo-e-Folhas alem de fornecer uma distribuição de frequências ainda preserva
a magnitude dos valores. O diagrama Ramo-e-Folhas, criado por John Tukey, é um procedimento
utilizado para armazenar os dados sem perda de informação. É utilizado para se ter uma ideia
visual da distribuição dos dados. Cada valor observado, xi, da variável X, deve consistir de no
mínimo dois dígitos e a variável pode ser tanto quantitativa discreta como contínua.
Para construí-lo, divide-se cada número em duas partes. A primeira é denominada ramo e a
segunda, folhas. O ramo consistirá de um ou mais dígitos iniciais se o valor da variável for um
número inteiro e do número inteiro, se o valor da variável for um número com decimais. Nas
folhas, colocam-se os dígitos restantes se o valor observado for número inteiro, ou os decimais,
caso contrário.
Considere o conjunto de dados: 09, 10, 10, 11, 11, 18, 22, 23, 24, 32, 33, 64; para cada
valor o primeiro algarismo é colocado do lado esquerdo do traço vertical (ramo). O segundo
algarismo é colocado do lado direito do traço vertical (folhas). Assim o valor “32” fica
representado por 3 | 2. Os dados devem estar ordenados. Assim o ramo e folhas para o conjunto
de dados é:
0|9
1|018
2|234
3|23
4|
5|
6|4
Este gráfico é formado por segmentos de retas perpendiculares ao eixo horizontal (eixo da
variável), cujo comprimento corresponde à frequência absoluta ou relativa de cada elemento da
distribuição. Suas coordenadas não podem ser unidas porque a leitura do gráfico deve tornar
claro que não há continuidade entre os valores individuais assumidos pela variável em estudo.
É um gráfico que permite descrever dados quantitativos por meio da frequência acumulada.
A ogiva é um gráfico de linha que une os pontos cujas abscissas são os limites superiores das
classes e, ordenadas, suas respectivas frequências acumuladas. O ponto inicial do gráfico é limite
inferior do primeiro intervalo, com frequência igual a zero.
É um gráfico formado por retângulos horizontais de larguras iguais, onde cada um deles
representa a intensidade de uma modalidade ou atributo.
É recomendável que cada coluna conserve uma distância entre si de aproximadamente 2/3
da largura da base de cada barra, evidenciando deste modo, a não continuidade na seqüência dos
dados.
O objetivo deste gráfico é de comparar grandezas e é recomendável para variáveis cujas
categorias tenham designações extensas.
Fem
Sexo
Masc
4000
3500
3000
freqüência
2500
2000
1500
1000
500
0
Masc Fem
Sexo
Tipo de gráfico onde a variável em estudo é projetada num círculo, de raio arbitrário,
dividido em setores com áreas proporcionais às frequências das suas categorias. São indicados
quando se deseja comparar cada valor da série com o total. Recomenda-se seu uso para o caso em
que o número de categorias não é grande e não obedecem a alguma ordem específica.
A Figura 06 mostra um gráfico de setores para a variável município de procedência que
constam na Tabela 01. O procedimento para o cálculo do ângulo correspondente a cada categoria
é feito por meio de simples proporções: 360º que corresponde a um círculo completo está para o
total de alunos entrevistados, 22, assim como x está para o total de alunos que pertencem à
categoria desejada. Por exemplo, os 54% dos alunos (12) que residem no município de Maringá
corresponderá a um ângulo x resultante da expressão
360 º _________ 22
x __________ 12
Assim, x=196°
Sua aplicação é mais indicada para representações de séries temporais sendo por tal razão,
conhecidos também como gráficos de séries cronológicas. Sua construção é feita colocando-se no
eixo vertical (y) a mensuração da variável em estudo e na abscissa (x), as unidades da variável
numa ordem crescente. Este tipo de gráfico permite representar séries longas, o que auxilia
detectar suas flutuações, tanto quanto analisar tendências. Também podem ser representadas
várias séries em um mesmo gráfico.
20
160
pessoas
130
120
110
100
1935 1940 1945 1950 1955 1960 1965
Ano
Figura 07: Taxa de mortalidade por câncer (mortes por 100 mil
pessoas), de 1940 a 1960
4- MEDIDAS DESCRITIVAS
Outra maneira de se resumir os dados de uma variável quantitativa, além de tabelas e
gráficos, é apresentá-los na forma de valores numéricos, denominados medidas descritivas. Estas
medidas, se calculadas a partir de dados populacionais, são denominadas parâmetros e se
calculadas a partir de dados amostrais são denominadas estimativas ou estatísticas.
As medidas descritivas auxiliam a análise do comportamento dos dados e Classificam-se
em: medidas de posição (tendência central e separatrizes), medidas de dispersão, medidas de
assimetria e curtose.
__ ∑x i
X= i =1
Para dados provenientes de uma amostra. Se x1, x2, ..., xn representam todos os valores de
uma população, de tamanho n, então usamos para representar a media populacional:
∑x i
μ= i =1
,
n
μ é chamado de parâmetro.
Se os dados estiverem classificados em uma distribuição de frequências com K classes, se xi
(i =1, 2, ..., k) são os pontos médios das classes, ou os diferentes valores observados (no caso de
uma variável discreta) e se Fi são as respectivas frequências absolutas, a media aritmética é dada
por:
k k
__ ∑x i ⋅ Fi ∑x i ⋅ Fi k
X = i =1
k
= i =1
n
, pois ∑F i =n
∑F
i =1
i
i =1
Observe que no caso de dados agrupados a média é obtida a partir de uma ponderação, onde
os pesos são as frequências absolutas de cada classe e xi é o ponto médio da classe i.
Propriedades da média aritmética:
∑ x ⋅c i
Exemplo: i =1
= c⋅ X
n
5. a soma da diferença de cada valor observado em relação à média é zero, ou seja, a soma
dos desvios em relação à media aritmética é zero.
n
n __ n __ n ∑x i
∑ (x
i =1
i − X ) = ∑ xi − n ⋅ X = ∑ xi − n ⋅
i =1 i =1
i =1
n
=0
Figura 08
Exemplo 01:
As trincas em aço e ferro causadas por fadiga de corrosão cáustica estudada em decorrência
de falhas em rebites de caldeiras em aço e em rotores a vapor. Considere as observações a seguir
sobre x = comprimento da trinca ( μ m ) como resultado de testes de fadiga por corrosão devido a
cargas constantes em amostras de barras de tração lisas durante um período de tempo fixo. (Os
dados são consistentes com um histograma e as quantidades-resumo do artigo “On the Role of
23
Phosphorus in the Caustic Stress Corrosion Cracking of Low Alloy Steels”, Corrosion Science,
1989: 53-68 ).
16.1 09.6 24.9 20.4 12.7 21.2 30.2 25.8 18.5 10.3 25.3
23.3 24.2 14.6 08.9 32.4 11.8 28.5 14.0 27.1 45.0
__
16.1 + 09.6 + 24.9 + 20.4 + ... + 45.0 444.8
X= = = 21.18
21 21
4.1.2 Moda
A moda (Mo) é o valor que apresenta a maior frequência da variável entre os valores
observados. Para o caso de valores individuais, a moda pode ser determinada imediatamente
observando-se o rol ou a frequência absoluta dos dados. Por outro lado, em se tratando de uma
distribuição de frequência de valores agrupados em classes, primeiramente é necessário
identificar a classe modal, aquela que apresenta a maior frequência, e a seguir a moda é calculada
aplicando-se a fórmula:
h( Fi − Fi −1 ) h( Fi − Fi −1 )
Mo = li + ou Mo = li + .
( Fi − Fi −1 ) + ( Fi − Fi +1 ) 2 Fi − Fi −1 − Fi +1
Onde:
É relevante salientar que um conjunto de dados pode apresentar todos seus elementos com a
mesma frequência absoluta, e neste caso não existirá um valor modal, o que significa que a
distribuição será classificada como amodal. Podem ocorrer, também, casos em que a seqüência
de observações apresente vários elementos com frequência iguais, implicando numa distribuição
plurimodal.
O uso da moda é mais indicado quando se deseja obter, rapidamente, uma medida de
tendência central. Outro aspecto que favorece a utilização da moda é que seu valor não é afetado
pelos valores extremos do conjunto de dados analisado.
24
Exemplo 02: A moda da idade dos alunos da disciplina Inferência Estatística do curso de
Estatística da UEM, determinada pontualmente, é Mo= 20 anos. Isto significa que a idade mais
freqüente entre estes alunos é de 20 anos.
Ao considerar a distribuição apresentada na Tabela 01, a moda é
h( Fi − Fi −1 ) 4 ⋅ (11 − 0) 44
Mo = l i + = 18 + 18 + = 18 + 2,75 = 20,75.
( Fi − Fi −1 ) + ( Fi − Fi +1 ) (11 − 0) + (11 − 6) 16
4.1.3 Mediana
A mediana (Med) é o valor que ocupa a posição central da série de observações de uma
variável, em rol, dividindo o conjunto em duas partes iguais, ou seja, a quantidade de valores
inferiores à mediana é igual à quantidade de valores superiores a mesma. Para o cálculo da
mediana , os dados devem estar ordenados de forma crescente.
Exemplo 03: Exemplo com número de filhos por famílias. Verifica-se que:
Se o número de dados é par (n é par) a mediana é a média aritmética dos dois valores
xn + xn
+1
centrais, ou seja: M ed = 2 2
2
Para o caso de oito famílias, n= 8, a mediana é determinada como a seguir:
x x1 x2 x3 x4 x5 x6 x7 x8
Valor Observado 0 1 1 2 x 4 + x5 2 2 3 4
2
x x1 x2 x3 x4 x5 x6 x7 x8 x9
Valor Observado 0 1 1 2 2 2 3 4 10
Observe que nos dois casos, por coincidência, a mediana manteve-se a mesma, Med = 2,
significando que 50% das famílias possuem menos de 2 filhos ou 50% possuem mais de 2 filhos
observe que a mediana não é influenciada por valores extremos.
Este procedimento pode tornar-se inadequado quando o conjunto de dados for composto
por muitos elementos. Os passos a seguir indicam uma forma para o cálculo da mediana,
independentemente do tamanho da amostra.
Ordenar as observações em ordem crescente ou decrescente (rol).
Calcular a posição que a mediana ocupa no conjunto de dados.
25
h n
Med = li + ( − Faci −1 ) , onde
Fi 2
h: é a amplitude da classe.
n: é o tamanho da amostra.
i: é a classe da mediana.
i −1
Faci −1 = ∑ Fj é a soma das frequências absolutas das classes inferiores à classe da mediana
j =1
i Classes Fi Fai
1 157|----162 5 5
2 162|----167 15 20
3 167|----172 46 66
4 172|----177 24 90
5 177|----182 10 100
A classe da mediana é aquela que contém o elemento x100 = x50 , que pertence à terceira
2
classe, pois na primeira classe temos os elementos x1 até x5 ; na segunda, x6 até x 20 e na terceira,
x 21 até x66 , portanto x50 pertence a essa classe.
5 100
Assim, M ed = 167 + ( − 20) = 170.26
46 2
Q 2 = Med: é o valor que divide o conjunto de dados, de modo que 50% das observações são
menores ou iguais a esse valor.
Q 3 : é o valor que divide o conjunto de dados, de modo que 75% das observações são
menores ou iguais a esse valor.
⎛ kn ⎞
h ⎜ − Faci −1 ⎟
Qk = li + ⎝ ⎠ , para k =1, 2, 3.
4
Fi
i: é a classe do quartil k.
li: é o limite inferior da classe i.
h: é a amplitude da classe do quartil k.
Fi: é a frequência absoluta da classe do quartil k.
n: é o numero de observações.
i −1
Faci −1 = ∑ F j é a frequência acumulada da classe anterior à classe do quartil k.
j =1
i Classes Fi Fai
1 7 |---- 17 6 6
2 17 |---- 27 15 21 ⎯
⎯→ classe de Q1
3 27 |---- 37 20 41 ⎯
⎯→ classe de Q2 = Med
4 37 |---- 47 10 51 ⎯
⎯→ classe de Q3
5 47 |---- 57 5 56
n = 56
3 ⋅ 56
10( − 41)
Q3 = 37 + 4 = 38 .
10
Assim, 25% dos dados ≤ 22,33
50% dos dados ≤ 30,50
75% dos dados ≤ 38 ou 25% dos dados ≥ 38.
DECIS:
k ⋅n
h( − Faci −1 )
O Decil DK é dado por: Dk = li + 10 , para k = 1, 2, 3, ..., 9.
Fi
i: é a classe do decil k, e é aquela que contém o elemento x k ⋅n , para k = 1, 2, ..., 9.
10
Neste caso, a mediana corresponde ao decil 5, D5. A interpretação é a mesma quem a dos
quartis, por exemplo, para o decil 3, D3, temos quem 30% das observações são inferiores a esse
valor, e obrigatoriamente, 70% são superiores.
PERCENTIS:
k ⋅n
h( − Faci −1 )
O percentil Pk é dado por: Pk = li + 100 para k = 1, 2, ..., 99.
Fi
i: é a classe do percentil k, e é aquela q contém o elemento x k ⋅n , para k = 1, 2, 3, ..., 99.
100
S k = x I P + F p ( x I P +1 − x I P )
28
18 18 19 20 20 20 20 20 20 21 21 22 23 24 25 25 25 26 29 30 35 37
3
Q3 = S3 ; p = (22 + 1) = 17, 25 , assim I p = 17 e Fp = 0, 25 , logo
4
Desta forma, pode-se dizer que 75% das observações é inferior a 25,25.
40
P40 = S40 ; p= (22 + 1) = 9, 2 , assim I p = 9 e Fp = 0, 20
100
De acordo com Toledo (1985), fenômenos que envolvem análises estatísticas caracterizam-
se por suas semelhanças e variabilidades. As medidas de dispersão auxiliam as medidas de
tendência central a descrever o conjunto de dados adequadamente. Indicam se os dados estão, ou
não, próximos uns dos outros.
Considere os seguintes conjuntos de dados
A={5,5,5,5,5} → X = 5
29
__
B={3,4,5,6,7} → X = 5
__
C={13,14,15,16,17} → X = 15
__
D={1,3,5,7,9} → X = 5
__
E={3,5,5,5,7} → X = 5
__
F={3,3,4,4,5,5,6,6,7,7} → X = 5
30
Note que a média aritmética dos elementos do conjunto c é 15 e para todos os demais
conjuntos a media aritmética é 5.
Com base no simples exame desses conjuntos, podemos fazer as seguintes afirmativas,
relativas à dispersão dos valores dos elementos de cada conjunto.
1) O conjunto A apresenta dispersão nula;
2) Os conjuntos B e C apresentam a mesma dispersão, só diferindo quanto à média.
3) A dispersão de D é maior do que a dispersão de B e ainda, como para o conjunto D a
diferença entre dois valores consecutivos é sempre igual a 2 e para o conjunto B é
sempre igual a 1, pode-se dizer que a dispersão de D é, em certo sentido igual ao dobro
da dispersão de B.
4) A dispersão de E é maior do que a dispersão de A e menor do que a dispersão de B.
5) O conjunto F apresenta a dispersão igual à de B, pois esses conjuntos só diferem quanto
ao numero de elementos (F é uma duplicação de B).
Assim, para caracterizar um conjunto de dados, devemos associar a uma medida de
tendência central uma medida de dispersão. Uma medida de dispersão é uma indicação da
aglomeração das medidas dos dados em torno do centro da distribuição.
d q = Q3 − Q1
Exemplo 05: A amplitude interquartílica da idade dos alunos que cursam a disciplina
Inferência Estatística do curso de Estatística da UEM considerando-se a Tabela 01 é:
d q = 25,67 − 20 = 5,67
4.3.3 Desvio-médio
Outra medida de dispersão poderia ser a soma das diferenças dos valores dos conjuntos de
dados em relação à sua média. Entretanto, para um conjunto de dados, x1, ..., xn, temos que:
__ __ __ n __
( x1 − X ) + ( x 2 − X ) + ... + ( x n − X ) = ∑ ( xi − X ) = 0.
i =1
Portanto, a soma dos desvios não serve como uma medida de dispersão. Desta forma,
vamos considerar os desvios absolutos xi − X , mas se o numero de dados for grande o desvio
também será grande, assim uma medida adequada é a média dos desvios absolutos, que iremos
chamar de desvio médio, Dm. Assim,
n
∑ x −X i
Dm = i =1
n
Caso os dados estejam apresentados segundo uma distribuição de frequência, tem-se:
n __
∑| x i −X|
Dm = i =1
n
__
Para o conjunto B={3,4,5,6,7}, X = 5
__
xi __
xi - X xi − X
3 -2 2
4 -1 1
5 0 0
6 1 1
7 2 2
∑ 0 6
6
Dm =
= 1,2
5
O desvio médio, apesar de fácil de entender, não é muito usado como medida de dispersão,
porque não apresenta boas propriedades matemáticas (devido à função módulo).
32
4.3.4 Variância
Uma medida de dispersão que tem propriedades matemáticas melhores que o desvio médio
é a variância.
No cálculo da variância, os desvios são tomados ao quadrado e não em módulos, ou seja,
n __
∑ (x
i =1
i − X )²
A soma dos quadrados dos desvios também cresce com o número de dados. Assim
tomamos a variância (S²) como,
n __
∑ ( xi − X )
S² = i =1
n −1
No caso dos dados estarem agrupados em uma distribuição de frequências, a cada valor
distinto ou valor central da classe (xj com j=1, ..., k) deve ser ponderado pela respectiva
frequência, assim,
k __
∑ (x
j =1
j − X )² ⋅ F j
S² =
n −1
Note:
2
⎛ n ⎞
n n __ n n n n ⎜ ∑ xi ⎟
( xi − X )² = ∑ xi ² − 2 X ∑ xi + n( X )² = ∑ xi ² − 2n( X )² + n( X )² = ∑ xi ² − n( X )² = ∑ xi ² − ⎝ i =1 ⎠
__ __ __ __ __
∑
i =1 i =1 i =1 i =1 i =1 i =1 n
∑
i =1
x − ∑ xi
n ⎜⎝ i =1 ⎟⎠
2
i
S² =
n −1
Da mesma forma, para dados agrupados em uma distribuição de frequências com k classes
2
k
1⎛ k ⎞
∑ x F 2
j
j − ⎜ ∑ x j Fj ⎟
n ⎝ j =1
S² =
j =1 ⎠
n −1
No caso do conjunto de dados ser formado por todos os elementos de uma população, a
n
∑ (x i − μ )²
média é denominada μ e a variância é dada por σ ² = i =1
, onde n é o tamanho da
n
população. As outras expressões para a variância seguem de forma análoga.
xi __ __ __
X ( xi − X ) ( xi − X )²
2 6 -4 16
4 6 -2 4
6 6 0 0
8 6 2 4
10 6 4 16
5 __
∑ (x i − X )²
40
Assim, S ² = i =1
= = 10
5 −1 4
Desvio Padrão
S = S²
Note que o desvio padrão tema mesma unidade dos dados, o que facilita sua interpretação,
ao contrario da variância cujas unidades são quadradas.
Para o exemplo anterior, S = 10 ≅ 3,16
Exemplo 07: Calcule a variância do seguinte conjunto de dados
Classe xi Fi
0 |--- 10 5 2
10 |--- 20 15 1
20 |--- 30 25 5
30 |--- 40 35 8
40 |--- 50 45 4
20
k k
Vamos calcular ∑ xi Fi e
i =1
∑x F
i =1
2
i i
2
5
1⎛ 5 ⎞
∑ xi ²Fi − ⎜ ∑
n ⎝ i =1
xi Fi ⎟
⎠ =
1
21300 − (610)²
Assim, S ² = i =1 20 = 141,84 ⇒ S = 141,84 = 11,91
n −1 19
Comentários:
34
Exemplo 08: Considere três alunos cujas notas em uma disciplina estão apresentadas na
Tabela abaixo.
Observa-se que as médias das notas dos três alunos são iguais, porém, seus desvios em
torno da média são diferentes. Isto quer dizer que seus desempenhos são diferentes. O aluno A é
constante em seu desempenho, o segundo vai progredindo aos poucos e o terceiro diminui
abruptamente seu desempenho. Em outras palavras, apesar dos três alunos terem o mesmo
desempenho médio, a variabilidade difere.
Exemplo 09: Retomando a idade dos alunos apresentada na Tabela 01, temos:
Variância: S 2
= = 23, 63 anos
22 − 1
O coeficiente de variação representa uma forma de verificar o quanto o desvio padrão está
afastado da média, corresponde a uma medida de dispersão relativa, definida como a razão entre
o desvio padrão e a média:
S
CV =
X
Exemplo 10: Numa empresa, o salário médio dos homens é de R$ 4.000,00 com desvio
padrão de R$ 1.500,00 e o das mulheres é, em média, de R$ 3.000,00 e com desvio padrão de R$
1.200,00 . Compare os salários dos homens e o das mulheres.
Notamos que o salário médio das mulheres é inferior ao salário médio dos homens. Vamos
verificar a dispersão.
1500
- Para os homens: CVh = = 0,375 = 37,5%
4000
1200
- Para as mulheres: CVm = = 0,40 = 40%
3000
Conclusão: os salários das mulheres são em media menos e apresentam maior dispersão
relativa que o dos homens.
Comentário: alguns analistas consideram que:
- CV ≤ 15% indica baixa dispersão, com boa representatividade da media.
- 15% ≤ CV ≤ 30% indica média dispersão
- CV ≥ 30% indica alta dispersão
Quanto menor for o CV maior será a representatividade da média.
xi Fi
1 1
2 2
3 5
4 2
5 1
___
Observe que X = 3 , Mo = 3 , M ed = 3
___
Em uma distribuição simétrica X = M ed = Mo
Considere agora a seguinte distribuição de frequência
xi Fi
1 5
2 3
3 2
4 1
5 1
37
6 1
___
Onde X = 2,5 , Mo = 1 , M ed = 2, 0
O gráfico associado a essa distribuição de frequência é:
Dizemos nesse caso que a distribuição é assimétrica à direita, pois a distribuição possui a
___
extremidade à direita mais alongada. Em uma distribuição assimétrica à direita, Mo < M ed < X .
Essa distribuição às vezes é denominada positivamente assimétrica.
Considere ainda outro conjunto de dados com a seguinte distribuição de frequência
xi Fi
1 1
2 1
3 1
4 2
5 3
6 5
___
Aqui, X = 4,5 , M ed = 5 , Mo = 6
O gráfico associado a essa distribuição de frequência é:
Dizemos nesse caso que a distribuição é assimétrica à esquerda, pois a distribuição tem a
extremidade à esquerda mais alongada. Em uma distribuição assimétrica à esquerda
___
X < M ed < Mo . Essa distribuição também é chamada de negatividade assimétrica.
38
No caso de termos uma variável continua as relações entre a média, moda e mediana são as
mesmas. Neste caso termos que o histograma pode ser simétrico, assimétrico à direita ou à
esquerda.
Coeficientes de Assimetria
Platicúrtica: quando a distribuição apresenta uma curva de frequência mais aberta, com os
dados fracamente concentrados em torno de seu centro.
O gráfico Box-Plot (ou desenho esquemático) é uma analise gráfica que utiliza cinco
medidas estatísticas, e por isso é conhecido como esquema dos cinco números: xmin, Q1, Med, Q3,
xmáx. O diagrama em caixa (Box-Plot) é uma representação gráfica que descreve simultaneamente
varias características importantes de um conjunto de dados, tais como centro (posição), dispersão,
desvio da simetria, identificação de pontos discrepantes (aoutliers) e para detectar diferenças
descritivas no comportamento de grupos de variáveis.
Para a construção do Box-Plot, traça-se dois retângulos, um representando o espaço entre
Q1 e a mediana e outro entre a mediana e Q3.
Estes dois retângulos, em conjunto, representam a faixa dos 50% valores mais típicos da
distribuição. Entre os quartis e os extremos traça-se uma linha. A linha é traçada até o ultimo
valor não-discrepante. Caso existam valores discrepantes, alem de Q3 + 1,5dq ou antes de
Q1 − 1,5dq , esses valores devem ser indicados por pontos no gráfico.
A Figura 09 mostra o desenho esquemático do Box-Plot. Note que existem dois pontos
discrepantes, xm,e xmáx e que a linha vertical (traço) é traçada até o último valor não-discrepante
xmín e xk.
Comentários:
41
a) Distribuição simétrica
Exemplo 11:A construção do gráfico Box Plot pode ser exemplificada tomando-se a
variável idade da Tabela 01. Sua elaboração segue os seguintes passos:
Ordenar os dados em seqüência crescente.
N=22;
Med=21,50;
Q1=20;
Q3=25,25;
dq=Q3 – Q1=25,25 – 20=5,25
Li=Q1 – 1,5dq= 20 – 1,5. 5,25 =12,125
Ls = Q3 + 1,5dq = 25,25 + 1,5. 5,25 = 33,125
Construir uma escala com valores que incluam os valores máximo e mínimo dos dados.
Construir uma caixa (retangular) estendendo-se de Q1 a Q3, e trace uma linha na caixa no
valor da mediana.
Traçar uma linha paralela à reta, com uma das extremidades alinhada ao limite inferior Li e
a outra no centro do lado do retângulo correspondente ao primeiro quartil. Trace outra linha
43
paralela à reta, com uma extremidade no centro do lado do retângulo correspondente ao terceiro
quartil e a outra alinhada com o limite máximo Ls.
BIBLIOGRAFIA
BARBETTA, P. A. Estatística Aplicada às Ciências Sociais. Florianópolis: Editora da UFSC,
1998.
BARBETTA, Pedro A.; REIS, Marcelo M. e BORNIA, Antonio C. Estatística para cursos de
Engenharia e informática. São Paulo: Editora Atlas S.A., 2004
BUSSAB, W. O. e MORETTIN, P. A. Estatística Básica. São Paulo: Editora Saraiva, 2003.
MAGALHÃES, M. N. e LIMA, A. C. P.de. Noções de Probabilidade e Estatística. São Paulo:
IME-USP, 2000.
MEDRONHO, R. A., CARVALHO, D.M.de, BLOCH K.V., LUIZ, R.R. E WERNECK, G.L.
Epidemiologia. São Paulo: Editora Atheneu, 2003.
MILONE, Giuseppe. Estatística Geral e Aplicada. São Paulo: Pioneira Thomson Learning,
2004.
MONTGOMERY, D.C. e RUNGER, G.C. Estatística Aplicada e Probabilidade para
Engenheiros. Rio de Janeiro: Livros Técnicos e Científicos Editora S.A., 2003.
MÜLLER, Mary S.; CORNELSEN, Julce M. Normas e padrões para teses, dissertações e
monografias. Londrina: Eduel, 2003.
Normas para apresentação de documentos científicos. Vol. 10, Gráficos. Curitiba: Editora da
UFPR, 2001.
PAGANO, Marcello ; GAUVREAU, Kimberlee. Princípios de Bioestatística. Tradução da 2ª
edição norte-americana. São Paulo: Pioneira Thomson Learning, 2004
REIS, Elizabeth. Estatística descritiva. Lisboa: Silabo, ed. 4, 1998.
SOARES, José F.; Alfredo A. FARIAS e CESAR, Cibele C. Introdução à Estatística. Rio de
Janeiro: Livros Técnicos e Científicos Editora S.A., 1991.