Você está na página 1de 17

Estatística:

Estatística é uma parte da Matemática Aplicada que fornece métodos para a


coleta, organização, descrição, análise e interpretação de dados para a
utilização dos mesmos na tomada de decisões.
A coleta, organização e a descrição dos dados estão a cargo da Estatística
Descritiva. A análise e a interpretação dos dados ficam a cargo da
Estatística Inferencial.
A estatística descritiva tem como fase colocar dados brutos em rol. O rol é o
arranjo dos dados brutos numéricos em ordem crescente de decrescente. A
diferença entre o maior e menor numero de dados se chama amplitude total
dos dados.

A frequência, é o numero dos valores que se repetem na tabela.

A variável continua, é o agrupamento em vários intervalos.


Classe, é cada um dos grupos ou intervalos obtidos a partir do agrupamento
ou do conjunto de dados.

Limites de classe são os extremos de cada classe. O menor número é o


limite inferior da classe ( inf l ) e o maior número, o limite superior da classe
( sup l ). Na segunda classe, por exemplo, temos: linf =154 e sup l =158.

Amplitude de um intervalo de classe:


Ou simplesmente, intervalo de classe é a medida do intervalo que define a
classe. É obtida pela diferença entre os limites superior e inferior dessa classe
e designamos por h. h = L sup – L inf.

Amplitude total da Distribuição:


Amplitude total da distribuição (AT) é a diferença entre o limite superior da
última classe (limite superior máximo) e o limite inferior da primeira classe
(limite inferior mínimo). At = Li max – Li mínimo 174 – 150 = 24.
Se as classes possuem o mesmo intervalo, At = k x h, como exemplo 6
classes com amplitude igual a 4, a at = 6x4 = 24.

Ponto Médio: O ponto médio da classe é a soma do limite inferior mais o


limite superior da classe, dividido por 2, ou seja a média aritmética dos limites
da classe: x = L infer. + L super.
2
O ponto médio de uma classe é o valor que a representa.
Se as amplitudes dos intervalos de classes forem constantes (como
aconteceu no nosso exemplo), podemos calcular os pontos médios das
classes da seguinte maneira:
i) Calculamos o primeiro ponto médio.
ii) Para calcular os próximos pontos médios, basta adicionar a amplitude de
cada classe ao ponto médio da classe anterior. Dessa forma, como o primeiro
ponto médio é 152 cm, o próximo ponto médio é 152 + 4 = 156. O terceiro
ponto médio é 156 + 4 = 160 cm.

Estaturas (cm) Xi
150 154 152
154⊢158 156
158 162 160
162 166 164
166⊢170 168
170 174 172

TIPOS DE FREQUÊNCIA

Frequências simples ou absolutas ( i f )


São os valores que realmente representam o número de dados de cada
classe. A soma das frequências simples é igual ao número total dos dados.

6
∑ fi = significa que o índice i varia de 1 a 6
i =1

6
∑ fi = f1 + f2 + f3 + f4 + f5 + f6 = 4 + 9 + 11 + 8 + 5 + 3 = 40
i=1

Frequências relativas ( i fr )
São os valores das razões entre as frequências simples e a frequência total,
normalmente expressas em porcentagem.

Fr = fi
n
Lembre-se que para transformar qualquer fração para a forma percentual
devemos multiplicá-la por 100%. No nosso exemplo, a freqüência relativa da
terceira classe é:

fr3 = f3_ = 11 = 0,275 x 100 = 27,5%


n 40
Evidentemente o somatório das frequências relativas é igual a 1 (100%). O
propósito das frequências relativas é o de permitir a análise ou facilitar as
comparações de cada classe com o total de observações.
Frequência absoluta acumulada crescente – fac
É o total das frequências de todos os valores inferiores ao limite superior do
intervalo de uma dada classe.
faci = f1 + f2 +...+ fi
O procedimento para o cálculo desta frequência é o seguinte:
i) Repete-se a frequência absoluta da primeira classe.
ii) Para calcular a próxima frequência acumulada, devemos somar a
frequência acumulada anterior com a frequência absoluta da classe
correspondente.

Estatura Fi Fac
(cm)
150 – 154 4 4
154 – 158 9 13
158 – 162 11 24
162 – 166 8 32
166 – 170 5 37
170 – 174 3 40
Total 40
O que significa existirem 24 alunos com estatura abaixo de 162 cm (limite
superior da terceira classe).

Frequência absoluta acumulada decrescente – fad

É o total das frequências de todos os valores superiores ao limite inferior do


intervalo de uma dada classe.
Fad i = fi + f i +1...k
O procedimento para o cálculo desta frequência é o seguinte:
i) Repete-se a frequência absoluta da última classe.
ii) Para calcular a próxima frequência acumulada (de baixo para cima),
devemos somar a frequência acumulada anterior com a frequência absoluta
da classe correspondente.

Estatura Fi Fad O que significa - que


(cm) existirem 27 alunos
150 – 154 4 40 com estatura igual ou
154 – 158 9 36 superior a 158 cm
158 – 162 11 27
162 – 166 8 16 Podemos representar essas frequencias
acumuladas na forma percentual
166 – 170 5 8 (frequencia relativa acumulada) dividindo
170 – 174 3 3 pelo total de observacoes (n) e
multiplicando por 100%.
Total 40
Medidas de Posição
As medidas de posição, são valores que representam a tendência de
concentração dos dados observados um valor médio ou central e um valor
indicativo do grau de variabilidade ou dispersão em torno do valor central.
Como valores centrais vamos estudar a média, a mediana (e outras medidas
separatrizes (quantis) como o decil, quartil, percentil, etc) e a moda.

Média

A média é a média aritmética, ou seja a soma de todos os valores divididos


pelo o numero de dados.
Exemplo: x = 10 + 14 + 13 + 15 + 16 + 18 + 12 = 98 = 14
7 7

_
X = 14

_
X = ∑xi
n
Dados agrupados sem intervalo de classe

Consideramos a distribuição relativa a 34 famílias de quatro filhos, tomando


para variável o número de filhos do sexo masculino.
Nº Fi
menino
s
0 2
1 6
2 10
3 12
4 4
Neste caso, como as frequências são números indicadores da intensidade de
cada valor da variável, elas funcionam como fatores de ponderação, o que
nos leva a calcular a média aritmética ponderada, dada pela fórmula:
_
X = ∑xi . fi
n A primeira linha nos diz que existem 2 familias
com nenhum filho homem, totalizando 0 filhos.
Nº de Fi Xi . fi A segunda linha nos diz que existem 6 familias
meninos com 1 filho homem, totalizando 6 filhos homens.
0 2 0 A terceira linha nos diz que existem 10 familias
com 2 filhos homens, totalizando 20 filhos
1 6 6 homens. E assim sucessivamente. No total,
2 10 20 essas 34 familias, possuem juntas 78 filhos
3 12 36 homens.
4 4 16 Temos, então:
Total 34 78 x = ∑xifi = 78 = 2,3 meninos
n 34
Observação: Sendo x uma variável discreta, como interpretar o resultado
obtido, 2 meninos e 3 décimos de menino? O valor médio 2,3 meninos
sugere, neste caso, que o maior número de famílias tem 2 meninos e 2
meninas, sendo, porém, a tendência geral de uma leve superioridade
numérica em relação ao número de meninos.
● Com intervalos de classe Neste caso, convencionamos que todos os
valores incluídos em um determinado intervalo de classe coincidem com o seu
ponto médio, e determinamos a média aritmética ponderada por meio da
fórmula:
_
x= ∑xi . fi
n
Quando temos dados distribuídos em classes perdemos informações. Não
temos mais a altura exatas de cada um dos alunos.

Estatura Frequência
(cm) Sabemos que temos 9 alunos
150–154 4 com alturas de 154-158, mas
154–158 9 não sabemos a altura de cada
158–162 11 um dos 9 anos. Convenhamos
162–166 8 que os 9 anos possuem a
166–170 5 altura em 156 cm, que é o
170–174 3 ponto médio de 154-158.
Total 40

Vamos, inicialmente, abrir uma coluna para os pontos médios e outra para os
produtos xi.fi.

Estatura Frequênci Ponto Média


(cm) a médio (xi) ponderada
(fi) (fi.xi)
150–154 4 152 608
154–158 9 156 1.404
158–162 11 160 1.760
162–166 8 164 1.312
166–170 5 168 840
170–174 3 172 516
Total 40 6440
_
X = ∑fi.xi = 6440 = 161
n 40

Propriedades da média aritmética


i) A média aritmética sempre existe e é única.
ii)Somando-se (ou subtraindo-se) uma constante c de todos os valores de
uma variável, a média do conjunto fica aumentada (ou diminuída) dessa
constante.
iii) Multiplicando-se (ou dividindo-se) todos os valores de uma variável por
uma constante c , a média do conjunto fica multiplicada (ou dividida) por essa
constante.
iv) A soma algébrica dos desvios tomados em relação à média é nula.
v) A soma dos quadrados dos desvios tomados em relação à média aritmética
é um valor mínimo.

Vamos verificar essas propriedades através de exemplos.


Consideremos a sequência de dados (2,4,6,8,10,10,12,12), calculemos sua
média e verifiquemos as propriedades acima:
_
X = 2+4+6+8+10+10+12+12 = 8
8

Consideremos uma constante c=2. Adicionando essa constante a todos os


valores da sequência acima, temos a sequência (4,6,8,10,12,12,14,14).
E a nova média será:
_
X = 4+6+8+10+12+12+14+14 = 10
8
Observe que x = x+2

Multipliquemos agora a constante c=2 e obtemos a sequência


(4,8,12,16,20,20,24,24) cuja média é:
_
X = 4+8+12+16+20+20+24+24 = 16
8
Observe que x = x.2

Ainda trabalhando na sequência (2,4,6,8,10,10,12,12).


Sabemos que a média aritmética desse conjunto de dados é x = 8 .
Denominamos desvio ou resíduo em relação à média em relação à média a
diferença entre cada elemento de um conjunto de valores e a média
aritmética. Para o exemplo dado, temos:
_ _ _
d1 = x1 – x = -6 d4 = x4 – x = 0 d7 = x7 – x = 4
_ _ _
d2 = x2 – x = -4 d5 = x5 – x = 2 d8 = x8 – x = 4
_ _
d3 = x3 – x = -2 d6 = x6 – x = 2
A soma dos valores do desvio é igual a zero ∑ di = -6-4-2+0+2+2+4+4 = 0
Calculemos a soma dos quadrados dos desvios em relação à média
aritmética:
∑di² = (-6)²+(-4)²+(-2)²+(0)²+(2)²+(2)²+(4)²+(4)² = 96

A propriedade nos diz que, para este conjunto A, o valor 96 e um valor


mínimo. Isso porque, se construirmos um conjunto dos desvios ' i d formado
pela diferença entre os elementos i x do conjunto e uma constante que não
seja a media, ou seja, um conjunto dos desvios em torno de um valor
qualquer diferente da média e, feito isso, acharmos o conjunto 2 ( ') i d e em
seguida calcularmos o seu somatório Σ(di ')2 , este último valor será maior do
que 96.
Por exemplo, calculemos a soma dos quadrados dos desvios em relação
ao número 5 (diferente da média aritmética 8).

_
X = 2+4+6+8+10+10+12+12 = 8
8
_ _ _
d1 = x1 – x = -3 d4 = x4 – x = 3 d7 = x7 – x = 7
_ _ _
d2 = x2 – x = -1 d5 = x5 – x = 5 d8 = x8 – x = 7
_ _
d3 = x3 – x = 1 d6 = x6 – x = 5

∑di² = (-3)²+(-1)²+1²+3²+5²+5²+7²+7² = 168

Assim ∑di²>∑di²

Mediana (md)

A mediana é outra medida de posição definida como número que se encontra


no centro de uma série de números, estando estes dispostos segundo uma
ordem. Em outras palavras, a mediana de um conjunto de valores, ordenados
segundo uma ordem de grandeza, é o valor situado de tal forma no conjunto
que o separa em dois subconjuntos de mesmo número de elementos.

Dada uma série de valores, como, por exemplo:


5,10,13,12,7,8,4,3,9.
De acordo com a definição de mediana, o primeiro passo a ser dado é o da
ordenação (colocar os dados brutos em rol) dos valores. 3,4,5,7,8,9,10,12,13.
Em nosso exemplo, esse valor é o número 8, já que, nessa série, há 4
elementos acima dele e quatro abaixo. Temos então, Md=8.
Se por outro lado estivemos numérico pares, temos que tirar o ponto médio
dos dois números ao centro para descobrirmos a mediana.
Como exemplo: 2,6,7,10,12,13,18,21, o conjunto tem 8 elementos, então para
descobrimos a mediana teremos que tirar o ponto médio dos 2 algarismos ao
centro.
Med:10+12 = 11 é a mediana.
2

Verificamos que, estando ordenados os valores de uma série e sendo n


o número de elementos da série, o valor mediano será:

- o temo da ordem n+1, se n e ímpar.


2
- a média aritmética dos termos de ordem n e n +1, se n for par
2 2
Observações:
i) O valor da mediana pode coincidir ou não com um elemento da série.
Quando o número de elementos da série é ímpar, há coincidência. O mesmo
não acontece, porém, quando esse número é par.
ii) A mediana depende da posição e não dos valores dos elementos na série
ordenada. Essa é uma das diferenças marcantes entre a mediana e a média
(que se deixa influenciar, e muito, pelos valores extremos).
iii) A mediana é também designada por valor mediano.

Dados Agrupados sem intervalo de classe

Neste caso, é o bastante identificar a frequência acumulada imediatamente


superior à metade da soma das freqüências. A mediana será aquele valor da
variável que corresponde a tal frequência acumulada.

Xi Fi Fac
2 2 2
4 6 8
6 10 18
8 12 30
10 9 39

∑fi = 39 = 7,5
5
Posição central = 39+1 = 20
2
Temos então que a mediana será o termo da 20ª posição. Através da
frequência acumulada temos que Md=8.

Xi Fi Fac
2 2 2
4 6 8
6 10 18
8 12 30
10 10 40

∑fi = 40 = 8
5
Neste segundo exemplo, o número de elementos da distribuição é par, e,
como vimos, teremos duas posições centrais: 40 + 1 = 20 + 1 = 21
2
Novamente, através da frequência acumulada verificamos que as duas
posições centrais são iguais a 8.
Assim, Md = 8+8 = 8
2

Xi Fi Fac
2 2 2
4 6 8
6 10 18
8 12 30
10 6 36

∑fi = 36 = 7,2 está entre 6ª e 8º Med = 6+8


5 7
Posição central = 36 + 1 = 18+1 = 19. A posição 18ª é 6 e a posição 19ª é 8
2
Med = 6+8 = 7
2

A tabela abaixo apresenta os pesos de um grupo de pessoas e suas


respectivas frequências. Não há observações coincidentes com os extremos
das classes

Classe em Fi Fac
(kgf)
40 – 50 2 2
50 – 60 5 7
60 – 70 7 14
70 – 80 8 22
80 – 90 3 25

Posição central = 25 = 12,5


2

Estamos prontos para aplicarmos a fórmula da mediana.


L inf – limite inferior da classe
n = classe da mediana
2

Fac ant – frequência acumulada anterior a classe


fi – frequência absoluta da mediana
h – amplitude da classe mediana. ( limite superior menos limite inferior)

Md =60 + 12,5 – 7 . 10 = 67,85 ou 68


7

Terceiro quartil

O método para calcular o terceiro quartil (e as outras medidas separatrizes


como decis, percentis e os outros quartis) é muito parecido com o da
mediana. Em tempo: os decis dividem a distribuição em 10 partes de mesma
frequência. Os percentis dividem a distribuição em 100 partes de mesma
frequência. Os quartis dividem a distribuição em 4 partes de mesma
frequência. A mediana divide a distribuição em 2 partes de mesma frequência.
A diferença é ao invés de calcular n para descobrir a classe da mediana,
2
devemos calcular 3n, 3 por que é o terceiro e 4 por que se trata de quartil.
4
A formula do 3º quartil é:

Moda

A moda é aquele que mais aparece num rol ou a frequência de maior valor,
um conjunto de valores podem apresentar mais uma moda, quando isso
ocorre dizemos que se trata de uma plurimodal, caso contrário será unimodal.
Amodal é quando não ocorre a moda.

Para dados não agrupados em intervalo de classe


Para dados agrupados e não agrupados em classe, para verificar a moda é
imediato basta verificar a maior frequência.

Nessa tabela vista acima a moda 1,70 m visto que ela tem a maior frequência
20 vezes.

Dados agrupados em classe

Para dados agrupados em classe a identificação da moda não é percebida


facilmente, como nos casos anteriores, mas qualquer que seja o método
usado o primeiro passo é identificar o moda através da classe com maior
frequência.
Os métodos para identificar a moda em si tratando de dados agrupados são:
moda bruta, método czuber e método king. Se a questão não especificar
qual o método para encontrar a moda, utilizaremos o método czuber. O
método king somente será empregada quando solicitada.

Moda Bruta

Calcular o ponto médio da classe modal, nessa tabela


verificamos que existe apenas uma classe modal 4-6 e
o ponto médio dela é 5 que é conhecida como classe
modal.
Moc = 4+ 34-16_____ . 2 = 5.0285
(34-16) + (34-17)

Processo King

O processo king, considera a influencia sobre as frequência das classe


anterior e posterior. Este processo não leva em consideração a frequência da
classe modal.
Propriedade da moda

Somando-se (ou subtraindo-se) uma constante c de todos os valores de uma


variável, a moda do conjunto fica aumentada (ou diminuída) dessa constante.
Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma
constante c, a moda do conjunto fica multiplicada (ou dividida) por essa
constante.

Medidas de dispersão ou variabilidade

Discutimos diversas maneiras de obter um valor mais próximo que


representam os demais dados do conjunto. Apenas os cálculos não são
suficientes para representar um valor específico para um conjunto qualquer ou
representa-los numa distribuição.
O grau de no qual o dados tendem a si dispersar (afastar) em torno de um
valor chama-se variação da dispersão e variabilidade. As medidas de
dispersão mais importantes são: Desvio Absoluto médio – DM, Desvio
padrão e variância.

Desvio Absoluto Médio

Também chamado de desvio médio ou desvio absoluto, desvio médio é a


média aritmética dos valores absolutos dos desvios da distribuição, em
relação a uma medida de tendência central: média ou mediana. Na presente
aula limitar-nos-emos apenas em relação à média aritmética.

2,4,6,8,10,10,12,12

_
x=2+4+6+8+10+10+12+12 = 8
8
Vejamos um exemplo do cálculo do desvio absoluto médio em uma
distribuição de frequências. O primeiro passo é calcular a média aritmética da
distribuição (se possível utilizando o método simplificado). Em seguida,
devemos calcular cada desvio em relação à média, tomar seus valores
absolutos, multiplicar cada resultado pela frequência da classe, somar todos
os valores e dividir por n.

Classe Frequência
29,5 – 39,5 4
39,5 – 49,5 8
49,5 – 59,5 14
59,5 – 69,5 20
69,5 – 79,5 26
79,5 – 89,5 18
89,5 – 99,5 10

O primeiro passo, como foi dito, é calcular a média aritmética da distribuição.


Já que as amplitudes são constantes (iguais a 10), então poderemos utilizar o
método breve. Lembrando que devemos abrir uma coluna para a variável
transformada y, que é formada pela sequência dos números naturais.
Classe Fi Yi
29,5 – 39,5 4 0
39,5 – 49,5 8 1
49,5 – 59,5 14 2
59,5 – 69,5 20 3
69,5 – 79,5 26 4
79,5 – 89,5 18 5
89,5 – 99,5 10 6

Para calcular a média aritmética, devemos multiplicar os valores da variável


transformada pelas suas respectivas frequências. Somar os valores e dividir
por “n”.

Classe Fi Yi Fi.Yi
29,5 – 39,5 4 0 0
39,5 – 49,5 8 1 8
49,5 – 59,5 14 2 28
59,5 – 69,5 20 3 60
69,5 – 79,5 26 4 104
79,5 – 89,5 18 5 90
89,5 – 99,5 10 6 60
100 350

y = 350 = 3,5
100

Essa é a média da variável transformada. Para calcular a média da variável


original, devemos multiplicar a média aritmética encontrada pela amplitude e
somar o ponto médio da primeira classe.
_ _
x = y.h+x1 = 3,5.10+34,5 = 69,5
x1 = o ponto médio da 1ª classe ou seja 29,5+39,5 = 34,5
2
Para calcular o desvio absoluto médio, devemos calcular o módulo da
diferença entre cada ponto médio e a média aritmética. Calculamos o primeiro
ponto médio, que é a média aritmética entre 29,5 e 39,5. Logo, o primeiro
ponto médio é igual a 34,5. Para calcular os próximos pontos médios, basta
adicionar a amplitude das classes. Ou seja, o próximo ponto médio é igual a
34,5 + 10 = 44,5.

Classe fi Xi
29,5 – 39,5 4 34,5
39,5 – 49,5 8 44,5
49,5 – 59,5 14 54,5
59,5 – 69,5 20 64,5
69,5 – 79,5 26 74,5
79,5 – 89,5 18 84,5
89,5 – 99,5 10 94,5

A média aritmética é igual a 69,5. O desvio da primeira classe é 34,5 – 69,5 =


- 35. O módulo desse desvio é 35. Faremos da mesma maneira o cálculo nas
próximas classes.

Classe fi Xi Xi –X
29,5 – 39,5 4 34,5 35
39,5 – 49,5 8 44,5 25
49,5 – 59,5 14 54,5 15
59,5 – 69,5 20 64,5 5
69,5 – 79,5 26 74,5 5
79,5 – 89,5 18 84,5 15
89,5 – 99,5 10 94,5 25

O próximo passo é multiplicar cada desvio pela sua respectiva frequência.

Classe fi Xi Xi –X [Xi-X].f
29,5 – 39,5 4 34,5 35 140
39,5 – 49,5 8 44,5 25 200
49,5 – 59,5 14 54,5 15 210
59,5 – 69,5 20 64,5 5 100
69,5 – 79,5 26 74,5 5 130
79,5 – 89,5 18 84,5 15 270
89,5 – 99,5 10 94,5 25 250
100 1300
Estamos prontos para calcular o desvio absoluto médio. Basta somar os
valores da última coluna e dividir por n.
Desvio Padrão e Variância

De todas as medidas de dispersão vistas, o desvio padrão é o mais utilizado,


que é a raiz quadrada da média aritmética dos quadrados dos desvios.
O desvio padrão está intimamente ligado ao estudo da variância. Essas duas
medidas de dispersão apresentam peculiaridade: teremos que prestar
atenção se a questão será com amostra ou população.
Os valores que serão apresentados como amostras são: média salarial,
desvio do percentual da intensão de voto – essa população é determinada de
elementos, de tal modo que seria muito difícil pesquisar o valor correto, pois
seria inviável pesquisar todos os elementos.
Seja qual for o caso, o fato é que, em muitas situações, precisamos obter as
informações de uma amostra. O valor da população, chamado de parâmetro
populacional, é desconhecido. O que é possível de se obter é um valor da
amostra, que supostamente nos dá uma ideia do valor correto (populacional)
do parâmetro. Esse valor amostral é chamado de estimador do parâmetro
populacional.

Você também pode gostar