Você está na página 1de 19

SÉRIES ESTATÍSTICAS

Apresentação de Dados Estatísticos

Quando lidamos com poucos valores numéricos, o trabalho estatístico fica


sensivelmente reduzido. No entanto, normalmente teremos que trabalhar com
grande quantidade de dados.

Um dos objetivos da Estatística Descritiva neste caso, é obter uma


significativa redução na quantidade de dados com os quais devemos operar
diretamente. Isto pode ser conseguido modificando-se a forma de apresentação
destes dados.

Suponha que observamos as notas de 30 alunos em uma prova e


obtivemos os seguintes valores:

3,5 5 4,5 4 4,5 5 3,5 4 4 5


2 3 4,5 3,5 4 4,5 3 4 3 4
3,5 3,5 3,5 4 4 3 4 4 5 3

Se entendermos como frequência simples de um elemento o número de


vezes que este elemento figura no conjunto de dados, podemos reduzir
significativamente o número de elementos com os quais devemos trabalhar.

Para isto, organiza-se o conjunto de dados na forma de uma série


estatística chamada variável discreta.

Distribuição de Frequência – Variável Discreta

É uma representação tabular de um conjunto de valores em que


colocamos na primeira coluna em ordem crescente apenas os valores distintos
da série e na segunda coluna colocamos os valores das frequências simples
correspondentes.

Se usarmos f para representar frequência simples, a sequência dada no


item anterior pode ser representada pela tabela:
xi fi
2 1
3 5
3,5 6
4 10
4,5 4
5 4

OBSERVAÇÕES:

1) Note que a colocação de um índice I para x e para f tem a finalidade


de referência. Deste modo, x1 representa o primeiro valor distinto
da série, x2 representa um segundo valor distinto da série, f1
representa frequência simples do primeiro valor distinto da série, f2
representa frequência simples do segundo valor distinto da série e
assim sucessivamente.
2) Note que conseguimos reduzir de 30 elementos que constituíam a
série original para apenas 12 elementos.
3) Note também que a variável discreta só é uma forma eficiente de
redução dos dados, quando o número de elementos distintos da
série for pequeno.

Devemos optar por uma variável discreta na


representação de uma série de valores quando o número
de elementos distintos da série for pequeno.

Distribuição de Frequência – Variável Contínua

Suponha que observamos as notas de 30 alunos em uma prova e


obtivemos os seguintes valores:

3 4 2,5 4 4,5 6 5 5,5 6,5 7


7,5 2 3,5 5 5,5 8 8,5 7,5 9 9,5
5 5,5 4,5 4 7,5 6,5 5 6 6,5 6
Observando estes valores notamos grande número de elementos
distintos, o que significa neste caso a variável discreta não é aconselhável na
redução dos dados.

Nesta situação é conveniente agrupar os dados por faixas de valores,


ficando a série com a seguinte apresentação:

Classe Notas fi
1 2 |----- 4 4
2 4 |----- 6 12
3 6 |----- 8 10
4 8 |----- 10 4

Esta apresentação da série de valores é denominada variável contínua.

Devemos optar por uma variável contínua na


representação de uma série de valores quando o número
de elementos distintos da série for grande.

Construção da Variável Discreta

A construção de uma variável discreta é bastante simples. Basta observar


quais são os elementos distintos da sequência, ordená-los, e colocá-los na
primeira coluna da tabela. Em seguida, computar a frequência simples de cada
elemento distinto e colocá-la na segunda coluna da tabela.

Exemplo de construção de uma variável discreta: a sequência abaixo


representa a observação do número de acidentes por dia, em uma rodovia,
durante 20 dias.

X: 0 2 0 1 1 0 0 0 3 2
1 0 1 2 0 1 3 2 2 0

Os valores distintos da sequência são: 0, 1, 2, 3.

As frequências simples respectivas são: 8, 5, 5, 2.


Portanto, a variável discreta representativa desta sequência é:

xi fi
0 8
1 5
2 5
3 2

Construção da Variável Contínua

A construção de uma variável contínua requer o conhecimento de alguns


conceitos que vamos estabelecer aproveitando a tabela abaixo como
exemplificação:

Classe Notas fi
1 2 |----- 4 4
2 4 |----- 6 12
3 6 |----- 8 10
4 8 |----- 10 4

1. AMPLITUDE TOTAL DE UMA SEQUÊNCIA é a diferença entre o


maior e o menor elemento de uma sequência.
Representando a amplitude total por At, o maior elemento da
sequência X por Xmáx e o menor elemento por Xmín, a amplitude total é
denotada por:
At = Xmáx - Xmín
No exemplo da sequência que deu origem a tabela acima, Xmáx = 9,5
e Xmín = 2, portanto:
At = 9,5 – 2 = 7,5
A amplitude total representa o comprimento total da sequência e é
dada na mesma unidade de medida dos dados da sequência.

2. INTERVALO DE CLASSE é qualquer subdivisão da amplitude total de


uma série estatística.
No exemplo da tabela, subdividimos a amplitude total em quatro
classes, obtendo os intervalos de classe 2 |--- 4, 4 |--- 6, 6 |--- 8, 8 |---
10.
Note que na realidade não trabalhamos com At = 7,5 e sim com a
amplitude total ajustada para 8 como justificaremos adiante.

3. LIMITE DE CLASSE: cada intervalo de classe fica caracterizado por


dois números reais. O menor valor é chamado limite inferior da classe
e será indicado por l. O maior valor é chamado limite superior da classe
e será indicado por L. Por exemplo, na classe 2 |--- 4, l = 2 e L = 4.

4. AMPLITUDE DO INTERVALO DE CLASSE: é a diferença entre o


limite superior e o limite inferior da classe. Se usarmos h para
representar a amplitude do intervalo de classe, podemos estabelecer:

h = L– l

OBSERVAÇÕES:

a) Na realidade, as classes não precisam necessariamente ter a


mesma amplitude como no exemplo acima. Porém, sempre que
possível, devemos trabalhar com classes de mesma amplitude.
Isto facilita sobremaneira os cálculos posteriores.
b) Note que usamos para representar as classes, intervalos reais
semiabertas na direita. Isto significa que o intervalo contém o limite
inferior, mas não contém o limite superior, ou seja, o intervalo de
classe 2 |--- 4 contém os valores reais maiores ou iguais a 2 e
menores que 4.
Desta forma, o último intervalo da série que é 8 |--- 10 não contém
o valor 10. É por isso que não utilizamos amplitude 7,5, pois se isto
fosse feito, o limite superior da última classe seria 9,5 e como limite
superior não deve pertencer à classe, o elemento 9,5 da sequência
estatística original ficaria sem classificação.
Como vamos utilizar este critério, precisaremos ajustar sempre o
valor máximo da série ao definir a amplitude total.
Outros critérios poderiam ser adotados como o intervalo real
semiaberto à esquerda ou mesmo o intervalo real aberto, mas
nenhum destes critérios é melhor que o critério adotado.

5. NÚMERO DE CLASSE: o número de classes a ser utilizado depende


muito da experiência do pesquisador e das questões que ele pretende
responder com a variável contínua.
Isto pode ser verificado facilmente pelo próprio interessado ao longo
desta exposição.

Para feito de nossos exemplos, utilizaremos o critério da raiz para a


determinação do número de classes.

O CRITÉRIO DA RAIZ

Se a sequência estatística contém n elementos e se indicarmos por K o


número de classes a ser utilizado, então pelo critério da raiz:

K = √𝑛

Como o número K de classes deve ser necessariamente um número


inteiro e como dificilmente √𝑛 é um número inteiro, deixaremos como opção para
o valor de K o valor inteiro mais próximo de √𝑛 , uma unidade a menos ou a mais
que este valor.

No exemplo da tabela, n = 30 e consequentemente K = √30 = 5,477,


portanto o valor inteiro mais próximo de √30 é 5. As opções para K então são 4
ou 5 ou 6.

A amplitude do intervalo de classe que designamos por h é determinada


da seguinte forma:

𝐴𝑡
h =
𝐾

8
e portanto h = = 2.
4
Observe que a opção por quatro classes, foi feita em função de um valor
de h mais fácil de se operar.

Se tivéssemos optado por cinco classes, o valor de h seria 8/5 = 1,6; se


tivéssemos optado por seis classes, o valor de h seria 8/6 = 1,3333...

Veja que o melhor valor para se trabalhar em cálculos é o h = 2. Foi por


isto que optamos por quatro classes.

Conhecendo-se o valor Xmín= 2 e amplitude de classe h = 2, concluímos


que o limite superior da primeira classe é 4. Portanto, a primeira classe é o
intervalo 2 |--- 4. O limite inferior da segunda classe é 4. Somando-se a amplitude
de classe obteremos 6. Portanto a segunda classe é 4 |--- 6. A terceira classe
por analogia é 6 |--- 8 e a quarta classe é 8 |--- 10.

6. FREQUENCIA SIMPLES DE UMA CLASSE fi: chama-se frequência


simples de uma classe ao número de elementos da sequência que são
maiores ou iguais ao limite inferior desta classe e menores que o limite
desta classe.
No exemplo 2, a frequência simples da primeira classe é o número de
elementos da sequência que são maiores ou igual a do 2 e menores
que 4.
Note que os valores da sequência nestas condições são os valores 3,
2,5, 2, 3,5.
Portanto, a frequência simples da primeira classe é 4.
Da mesma forma determinamos as frequências simples das demais
classes, completando o quadro representativo da variável contínua.

COMENTÁRIO: existem outros critérios para a determinação do


número de classes, como por exemplo, a fórmula de Sturges.
Segundo Sturges o número K de classes é dado por:
K = 1 + 3,3 log n
para valores de n muito grandes esta fórmula representa mais
vantagens que o critério da raiz embora apresente o mesmo problema
de aproximação do valor de k.
Como acreditamos que na prática a experiência do pesquisador é que
na verdade vai determinar o número de classes, optamos pelo método
mais simples que é o critério da raiz.

EXEMPLO DE CONSTRUÇÃO DE UMA VARIÁVEL CONTÍNUA

Um teste para aferir o Quociente de inteligência em determinada classe


de alunos de uma Faculdade deu origem à sequência de valores

X: 111 90 121 105 122 61 128 112 128 93


108 138 88 110 112 112 97 128 102 125
87 119 104 116 96 114 107 113 80 113
123 95 115 70 115 101 114 127 92 103
78 118 100 115 116 98 119 72 125 109
79 139 75 109 123 124 108 125 116 83
94 106 117 82 122 99 124 84 91 130

Para a construção da variável contínua, devemos determinar o número de


elementos da sequência. Verificamos que a sequência possui n = 70 elementos.

Pelo critério da raiz, K = √70 = 8,37. O valor inteiro mais próximo é 8.


Portanto, temos opção para construir a variável contínua com 7 ou 8 ou 9
classes.

O maior valor da sequência é Xmáx= 139 e o menor valor da sequência é


Xmín= 61.

Portanto, a amplitude total da sequência é At = 139 – 61 = 78. No entanto,


sabemos que pelo fato de o critério adotado do intervalo de classe ser
semiaberto à direita, devemos ajustar o valor Xmáx. Se ajustássemos Xmáx para
140, a amplitude ajustada passaria a ser At = 140 – 61 = 79. Este valor não é
divisível de forma inteira nem por 7 nem por 8 e nem por 9, que são nossas
opções de classes.
Nesta situação devemos ajustar Xmáx para 141 obtendo a At = 141 – 61 =
80, que é divisível exatamente por 8, obtendo-se uma amplitude do intervalo de
classe h dada por:

𝐴𝑡 80
h = = = 10
𝐾 8

Observe que o ajuste do valor Xmáx foi de duas unidades, passando de


139 para 141.

A experiência do pesquisador, nesta situação, o levaria a distribuir este


erro de duas unidades, iniciando a representação da série em 60 e terminando
em 140. A amplitude total ajustada para a série é At = 140 – 60 = 80.

O comprimento do intervalo de classe é h = 10 e o número de classes é


K = 8.

Computando as frequências simples de cada classe, construímos a


variável continua representativa desta série.

Classe Intervalo de classe fi


1 60 |--- 70 1
2 70 |--- 80 5
3 80 |--- 90 6
4 90 |--- 100 10
5 100 |--- 110 12
6 110 |--- 120 19
7 120 |--- 130 14
8 130 |--- 140 3

A variável contínua é conceituada como uma representação tabular em


que colocamos na primeira coluna os intervalos de classe e na segunda coluna
os valores das frequências simples correspondentes.

A coluna “classe” tem a finalidade apenas de facilitar a referência às


classes não fazendo parte da variável contínua.
A tabela final tanto na variável discreta como da variável contínua recebe
o nome de distribuição de frequência.

Distribuição de Frequências – Variável Discreta

Uma vez que o interessado tenha colocado os dados na forma de uma


distribuição de frequências, ele poderá rapidamente obter algumas informações
adicionais e úteis para a compreensão da série, se considerar os seguintes
conceitos:

FREQUÊNCIA RELATIVA DE UM ELEMENTO DA SÉRIE - fr

É a divisão da frequência simples deste elemento pelo número total de


elementos da série.

𝑓𝑖
fri =
𝑛

Exemplo: Considere a variável discreta:

xi fi
2 3
3 7
4 8
6 6
7 1

O total de elementos desta série é 25. Portanto, a frequência relativa do


primeiro elemento distinto da série, que é 2, vale:

𝑓1 3
fr1 = = = 0,12 ou 12%
𝑛 25

A frequência relativa do segundo elemento distinto, que é 3, vale:

𝑓2 7
fr2 = = = 0,28 ou 28%
𝑛 25
Da mesma forma determinamos a frequência relativa dos elementos
seguintes da série:

𝑓3 8
fr3 = = = 0,32 ou 32%
𝑛 25

𝑓4 6
fr4 = = = 0,24 ou 24%
𝑛 25

𝑓5 1
fr5 = = = 0,04 ou 4%
𝑛 25

Note que estes valores representam a participação percentual de cada


elemento distinto na série. Assim, podemos fazer a interpretação: 12% dos
valores da série são iguais a 2; 28% dos valores da série são iguais a 3; 32%
dos valores da série são iguais a 4; 24% dos valores da série são iguais a 6; e
4% dos valores da série são iguais a 7.

FREQUÊNCIA ACUMULADA DE UM ELEMENTO DA SÉRIE - Fr

É a soma da frequência simples deste elemento com as frequências


simples dos elementos que o antecedem.

Fi = f1 + f2 + ... + fi

Desta forma, a frequência acumulada para os elementos 2, 3, 4, 6 e 7


valem respectivamente:

F1 = f1 = 3

F2 = f1 + f2 = 3 + 7 = 10

F3 = f1 + f2 + f3 = 3 + 7 + 8 = 18

F4 = f1 + f2 + f3 + f4 = 3 + 7 + 8 + 6 = 24, e

F5 = f1 + f2 + f3 + f4 + f5 = 3 + 7 + 8 + 6 +1 = 25

Estes valores podem ser interpretados da seguinte forma:

- 3 elementos componentes da série são valores menores ou iguais a 2.


- 10 elementos componentes da série são valores menores ou iguais a 3.

- 18 elementos componentes da série são valores menores ou iguais a 4.

- 24 elementos componentes da série são valores menores ou iguais a 6.

- 25 elementos componentes da série são valores menores ou iguais a 7.

FREQUÊNCIA ACUMULADA RELATIVA DE UM ELEMENTO DA SÉRIE – FRi

É a divisão da frequência acumulada deste elemento, pelo número total


de elementos da série:

𝑭
FRi = 𝒏𝒊

Assim, a frequência acumulada relativa dos elementos 2, 3, 4, 6, 7 valem


respectivamente:

𝐹1 3
FR1 = = = 0,12 ou 12%
𝑛 25

𝐹1 10
FR2 = = = 0,40 ou 40%
𝑛 25

𝐹1 18
FR3 = = = 0,72 ou 72%
𝑛 25

𝐹1 24
FR4 = = = 0,96 ou 96%
𝑛 25

𝐹1 25
FR5 = = = 1 ou 100%
𝑛 25

Estes valores podem ser interpretados da seguinte forma:

- 12% dos valores da série são valores menores ou iguais a 2.

- 40% dos valores da série são valores menores ou iguais a 3.

- 72% dos valores da série são valores menores ou iguais a 4.

- 96% dos valores da série são valores menores ou iguais a 6.

- 100% dos valores da série são valores menores ou iguais a 7.


Quando acrescentamos estes valores à tabela original, esta passa a se
chamar distribuição de frequências. Para o exemplo estabelecido, a distribuição
de frequências é:

xi fi fri % Fi FRi %

2 3 12 3 12
3 7 28 10 40
4 8 32 18 72
6 6 24 24 96
7 1 4 25 100

Distribuição de Frequências – Variável Contínua

No caso da variável contínua, pelo fato de termos utilizado intervalos de


classe, semiaberto à direita, as interpretações são diferentes. Portanto,
redefinirmos estes tipos de frequência.

FREQUÊNCIA RELATIVA DE UM ELEMENTO DA SÉRIE - fri

É a divisão da frequência simples desta classe pelo número total de


elementos da série.

𝑓𝑖
fri =
𝑛

Exemplo: Considere a distribuição de frequência:

Classe Notas fi
1 2 |----- 4 6
2 4 |----- 6 18
3 6 |----- 8 10
4 8 |----- 10 6

O total de elementos desta série é 40. Portanto, a frequência relativa da


primeira classe é:
𝑓1 6
fr1 = = = 0,15 ou 15%
𝑛 40

A frequência relativa do segunda classe é:

𝑓2 18
fr2 = = = 0,45 ou 45%
𝑛 40

Da mesma forma, determinamos a frequência relativa das classes


seguintes da série:

𝑓3 10
fr3 = = = 0,25 ou 25%
𝑛 40

𝑓4 6
fr4 = = = 0,15 ou 15%
𝑛 40

Observe que estes valores representam a participação percentual dos


elementos por classe. A interpretação para estes valores é:

- 15% dos valores da série são valores maiores ou iguais a 2 e menores


que 4.

- 45% dos valores da série são valores maiores ou iguais a 4 e menores


que 6.

- 25% dos valores da série são valores maiores ou iguais a 6 e menores


que 8.

- 15% dos valores da série são valores maiores ou iguais a 8 e menores


que 10.

FREQUÊNCIA ACUMULADA DE UM ELEMENTO DA SÉRIE – Fi

É a soma da frequência simples desta classe com as frequências simples


das classes anteriores.

Fi = f1 + f2 + ... + fi

Desta forma, as frequências acumuladas para estas classes são:

F1 = f1 = 6
F2 = f1 + f2 = 6 + 18 = 24

F3 = f1 + f2 + f3 = 6 + 18 + 10 = 34

F4 = f1 + f2 + f3 + f4 = 6 + 18 + 10 + 6 = 40

Estes valores podem ser interpretados da seguinte forma, lembrando que


são todos maiores ou iguais a 2:

- 6 elementos da série são valores menores que 4.

- 24 elementos da série são valores menores que 6.

- 34 elementos da série são valores menores que 8.

- 40 elementos da série são valores menores que 10.

FREQUÊNCIA ACUMULADA RELATIVA DE UM ELEMENTO DA SÉRIE – FRi

É a divisão da frequência acumulada desta classe, pelo número total de


elementos da série:

𝑭
FRi = 𝒏𝒊

Assim, a frequência acumulada relativa para cada classe é:

𝐹1 6
FR1 = = = 0,15 ou 15%
𝑛 40

𝐹1 24
FR2 = = = 0,60 ou 60%
𝑛 40

𝐹1 34
FR3 = = = 0,85 ou 85%
𝑛 40

𝐹1 40
FR4 = = = 1 ou 100%
𝑛 40

Estes valores podem ser interpretados da seguinte forma, lembrando que


são todos maiores ou iguais a 2:

- 15% dos valores da série são valores menores que 4.

- 60% dos valores da série são valores menores que 6.


- 85% dos valores da série são valores menores que 8.

- 100% dos valores da série são valores menores que 10.

Quando acrescentamos estes valores à tabela original, esta passa a se


chamar distribuição de frequências. Para o exemplo estabelecido, a distribuição
de frequências é:

Classe Notas fi fri % Fi FRi %

1 2 |----- 4 6 15 6 15
2 4 |----- 6 18 45 24 60
3 6 |----- 8 10 25 34 85
4 8 |----- 10 6 15 40 100

Representação Gráfica de Séries Estatísticas

Existem muitas formas de se representar graficamente uma série


estatística.

Podemos citar entre elas: gráfico em linhas; em colunas; em barras; em


setores; em porcentagens complementares; gráficos polares; gráficos pictóricos;
cartogramas etc.

No entanto, a maioria deles são simplesmente gráficos de apresentação,


que o interessado com pequeno esforço poderá facilmente compreender.

Nosso interesse estará completamente voltado para os gráficos de análise


da série estatística que são: Histograma, Polígono de Frequência e a curva
polida de frequência.

Estas representações gráficas assumem aspectos diferenciados para


variável discreta e variável contínua.

HISTOGRAMA – VARIÁVEL DISCRETA

É um conjunto de hastes, representadas em um sistema de coordenadas


cartesianas que tem por base os valores distintos da série (xi) e por altura,
valores proporcionais as frequências simples correspondentes destes elementos
(fi).

Exemplo: Se considerarmos a série:

xi fi
2 1
3 4
5 8
6 6
7 2

Então o histograma assume a forma:

HISTOGRAMA – VARIÁVEL CONTÍNUA

É um conjunto de retângulos justapostos, representados em um sistema


de coordenadas cartesianas, cujas bases são os intervalos de classe e cujas
alturas são valores proporcionais às frequências simples correspondentes.

Exemplo: Se considerarmos a série:


Classe Notas fi
1 0 |----- 2 3
2 2 |----- 4 6
3 4 |----- 6 8
4 6 |----- 8 5
5 8 |----- 10 2

Então o histograma assume a forma:

• Observe que não colocamos o zero no eixo horizontal na origem


do sistema por uma questão de clareza da representação gráfica.

Deixamos, intencionalmente, um espaço igual a um intervalo de classe no


início e no final da representação gráfica.

Se considerarmos este espaçamento inicial e final como sendo classes


fictícias com frequência zero e unirmos os pontos médios das bases superiores
destes retângulos, obtemos uma nova figura chamada polígono de frequência.
• Observe que a área do polígono de frequência é a mesma área do
histograma.
• Quando estamos lidando com um censo, o histograma representa
diretamente a distribuição de frequência da população, mas
quando estamos lidando com uma amostra, a histograma
representa apenas a distribuição de frequência da amostra e não
da população.

No entanto, se imaginarmos o número n de elementos da amostra


aumentando progressivamente e a amplitude do intervalo de classe iria
diminuindo, o que transformaria o polígono de frequência praticamente em uma
figura polida, chamada curva polida de frequência.

Esta figura nos dará uma noção da distribuição de frequência da


população.

Você também pode gostar