Você está na página 1de 29

Universidade Federal de Alagoas

Curso de Contabilidade

Estatı́stica

Prof. Lucas David Ribeiro Reis

Santana do Ipanema - AL, 2023.

Prof. Lucas David Estatı́stica Semestre 2023.1 1 / 29


Sumário

1 Análise descritiva de dados


Medidas de posição
Medidas de dispersão

Prof. Lucas David Estatı́stica Semestre 2023.1 2 / 29


Medidas de posição
Muitas vezes queremos resumir os dados de uma amostra, com base em um
ou mais valores que sejam representativos da amostra. A média, a moda, a
mediana são medidas muitos usadas para representar um determinado
conjunto de dados.
Definição 1
A média de um determinado conjunto de dados é definida como a soma de
todas as observações dividido pelo tamanho da amostra. Seja uma amostra
x1 , x2 , . . . , xn , então segue que a média desta amostra é dada por
n
1X
X̄ = xm .
n
m=1

Por exemplo, seja uma amostra {2, 4, 4, 7, 8}, temos então que a média é
1 1 25
X̄ = (2 + 4 + 4 + 7 + 8) = (25) = = 5.
5 5 5
Prof. Lucas David Estatı́stica Semestre 2023.1 3 / 29
Definição 2
A moda é o valor que mais se repete numa determinada amostra. Se a
maior frequência é igual a 1, então nenhum valor se repete mais de uma vez.
Nesse caso a moda não existe, ou simplesmente os dados são amodais.

Por exemplo, considere os valores {1, 2, 6, 6, 9, 3, 3, 3, 4}. Vemos que o valor


que aparece com maior frequência é o 3. Logo, a moda é 3. Note que se
tivermos um 6 a mais na nossa amostra, o valor 3 e 6 se repetiriam com a
mesma frequência, e então a moda passaria a ser 3 e 6. Nesse caso, a moda
dos dados é bimodal. Seja agora nossa amostra {1, 2, 3, 6, 9}. Vemos que
nenhum valor tem frequência maior que 1, pois cada valor aparece apenas
uma vez. Nesse caso, a moda não existe ou simplesmente os dados são
amodais.

Prof. Lucas David Estatı́stica Semestre 2023.1 4 / 29


Definição 3
Colocando os dados em forma crescente, a mediana é definida como o valor
que ocupa a posição central, ou seja, ela divide os dados ao meio. Se o
número de observações for par, a mediana será definida como a média das
duas observações centrais.

Por exemplo, colocando o conjunto de dados anteriormente na forma


crescente, temos que {1, 2, 3, 3, 3, 4, 6, 6, 9}. Logo, vemos que o 3 ocupa a
posição central, e então, será a mediana dos dados. Se como antes,
acrescentamos o valor 6 na amostra, teremos {1, 2, 3, 3, 3, 4, 6, 6, 6, 9}.
Aqui, temos um número par de observações. Logo, a mediana será a média
das duas observações centrais, de modo que a mediana será
(3 + 4)/2 = 7/2 = 3.5.

Prof. Lucas David Estatı́stica Semestre 2023.1 5 / 29


Os valores amostrais de uma variável X colocados em formas crescentes são
chamados de estatı́sticas de ordem, e são denotados por x(i) . Assim,
temos que as estatı́sticas são dadas como

x(1) ≤ x(2) ≤ . . . ≤ x(n−1) ≤ x(n) .

Assim, a definição de mediana, baseado nas estatı́sticas de ordem, passa a


ser 
x n+1 , se n é ı́mpar,
 ( 2 )


md(X ) = h i

1 x n + x n
( 2 +1) , se n é par.

2 (2)
Para a nossa amostra {1, 2, 3, 3, 3, 4, 6, 6, 9}, temos que as estatı́sticas de
ordem são
1 ≤ 2 ≤ 3 ≤ 3 ≤ 3 ≤ 4 ≤ 6 ≤ 6 ≤ 9.

Prof. Lucas David Estatı́stica Semestre 2023.1 6 / 29


Logo, x(1) = 1, x(2) = 2, x(3) = 3, x(4) = 3, x(5) = 3, x(6) = 4, x(7) = 6,
x(8) = 6 e x(9) = 9. Uma vez que n = 9 é ı́mpar, temos que a mediana será

md(X ) = x( 9+1 ) = x( 10 ) = x(5) = 3,


2 2

como obtido antes.


Se como antes, acrescentarmos o valor 6 na nossa amostra
{1, 2, 3, 3, 3, 4, 6, 6, 9}, teremos que as estatı́sticas de ordem passam a ser

1 ≤ 2 ≤ 3 ≤ 3 ≤ 3 ≤ 4 ≤ 6 ≤ 6 ≤ 6 ≤ 9,

de modo que x(1) = 1, x(2) = 2, x(3) = 3, x(4) = 3, x(5) = 3, x(6) = 4,


x(7) = 6, x(8) = 6, x(9) = 6 e x(10) = 9.

Prof. Lucas David Estatı́stica Semestre 2023.1 7 / 29


Notamos que agora n = 10 é par. Então, a mediana será
1h i
md(X ) = x( 10 ) + x( 10 +1)
2 2 2
1 
= x(5) + x(5+1)
2
1 
= x(5) + x(6)
2
1
= [3 + 4]
2
7
=
2
= 3.5,

mesmo valor de antes. O cálculo da mediana baseado na definição pela


estatı́stica de ordem é mais fácil, basta ficar atento se n é par ou ı́mpar, e
então usar a fórmula.

Prof. Lucas David Estatı́stica Semestre 2023.1 8 / 29


Existe uma outra medida de posição que é a média ponderada, e é definida
como Pn
m=1 pm xm
X̄P = P n ,
j=1 pj
em que pm são os pesos de xm . Se denotarmos wm = pm / nj=1 pj a nossa
P
média ponderada se torna
n
X
X̄P = wm xm .
m=1

Nesse caso, temos que as soma dos pesos somam 1, ou seja, nm=1 wm = 1.
P
Já vimos que a média da amostra {2, 4, 4, 7, 8} é X̄ = 5. Se considerarmos
wm como sendo a frequência relativa de cada observação, a tabela abaixo
apresenta xm com seus respectivos pesos wm .
xm wm = nm /n
1
2 5
2
4 5
1
7 5
1
8 5

Prof. Lucas David Estatı́stica Semestre 2023.1 9 / 29


Na tabela acima, temos 4 grupos diferentes, com seus respectivos pesos.
Daı́, segue que a média ponderada é dada por
4
X
X̄P = wm xm
m=1
1 2 1 1
=2× +4× +7× +8×
5 5 5 5
2 8 7 8
= + + +
5 5 5 5
2+8+7+8
=
5
25
=
5
= 5,

que é a mesma média obtida antes.

Prof. Lucas David Estatı́stica Semestre 2023.1 10 / 29


Exemplo 1
A tabela abaixo apresenta os valores referentes às notas de uma
determinada turma do ensino médio, na disciplina de Fı́sica.

nota frequência
2.5 5
4.5 7
5.5 3
7.0 10
8.0 12
9.0 6
10.0 4
Total 47

Qual a moda, a mediana e a média das notas?


Vemos que a nota 8.0 é a que apresenta a maior frequência, e tem uma
frequência igual à 12. Logo, a moda é 8.

Prof. Lucas David Estatı́stica Semestre 2023.1 11 / 29


Continuação do Exemplo 1...
Como vemos n = 47. Logo, a mediana será md(X ) = x(24) . Note que as
notas na tabela, já estão na forma crescente, então, se somarmos na coluna
das frequências 5 + 7 + 3 + 10 = 25, então a 24ª estatı́stica de ordem estará
com valor 7.0. Logo, a mediana das notas é 7.0.
Utilizando a média ponderada, vamos calcular a média das notas dos alunos.
Desse modo, a média das notas, será a média ponderada dada por

(2.5)(5) + (4.5)(7) + (5.5)(3) + (7)(10) + (8)(12) + (9)(6) + (10)(4)


X̄ =
47
12.5 + 31.5 + 16.5 + 70 + 96 + 54 + 40
=
47
320.5
=
47
=6.8191.

Daı́, temos que a média das notas na disciplina de Fı́sica é de


aproximadamente 6.82.

Prof. Lucas David Estatı́stica Semestre 2023.1 12 / 29


Imagine que queremos avaliar os dados das notas do Exemplo 1 por
intervalos de classe. Por exemplo, quantos alunos tiraram nota menor do
que 2.5? Quantos alunos tiraram nota maior ou igual à 2.5 e menor do que
5? E assim, sucessivamente. Nesse caso, o agrupamento será dado de
acordo com a Tabela 1.

Tabela 1: Notas do Exemplo 1 agrupadas por classe.


classe frequência (pesos)
0.0 ⊢ 2.5 0
2.5 ⊢ 5.0 12
5.0 ⊢ 7.5 13
7.5 ⊢ 10.0 22
Total 47

Baseados nos dados da Tabela 1, como podemos obter a moda, a mediana


e a média das notas dos alunos?

Prof. Lucas David Estatı́stica Semestre 2023.1 13 / 29


Uma observação!!!
Neste caso, a moda, a mediana e a média serão agora uma aproximação dos
seus verdadeiros valores, uma vez que perdemos informações sobre as
observações. Por exemplo, sabemos dos dados originais que não temos nota
igual à 3. Contudo, olhando apenas para a Tabela 1 nós não descartamos a
possibilidade de algum ter tirado nota 3, pois na classe 2.5 ⊢ 5.0 se têm 12
alunos. O mesmo raciocı́nio vale para outras notas. Por exemplo, sabemos
dos dados originais que não se têm nota de valor 8.5 e 9.5. Porém, com os
dados conforme mostrado na Tabela 1, nós não descartamos a hipótese de
alguns alunos terem tirado notas 8.5 e 9.5.

Prof. Lucas David Estatı́stica Semestre 2023.1 14 / 29


Uma aproximação razoável é supor que todos os valores dentro de uma
classe tenham seus valores iguais ao ponto médio (ou média) desta classe.
A classe 0.0 ⊢ 2.5 terá como ponto médio valor igual a 1.25; a classe
2.5 ⊢ 5.0 terá como ponto médio valor igual a 3.75; a classe 5.0 ⊢ 7.5 terá
ponto médio de 6.25; e a classe 7.5 ⊢ 10.0 terá como ponto médio 8.75.
Isso está feito, como mostra a Tabela 2.

Tabela 2: Notas do Exemplo 1 agrupadas por classe e com o ponto médio.


classe ponto médio frequência (pesos)
0.0 ⊢ 2.5 1.25 0
2.5 ⊢ 5.0 3.75 12
5.0 ⊢ 7.5 6.25 13
7.5 ⊢ 10.0 8.75 22
Total — 47

Prof. Lucas David Estatı́stica Semestre 2023.1 15 / 29


Uma vez que temos o ponto médio, encaramos esse valor como sendo a
“verdadeira” nota e então calculamos a média, mediana e moda do jeito que
fizemos anteriormente. Vemos na Tabela 2 que a maior frequência é 22,
correspondendo ao ponto médio 8.75. Logo, 8.75 é a moda das notas. Vale
lembrar que esse valor difere da moda obtida anteriormente, que teve moda
igual à 8, com os dados originais.
A mediana corresponde à 24ª estatı́stica de ordem, igual antes, uma vez que
temos a mesma quantidade n = 47 de observações. Se somamos
0 + 12 + 13 = 25. Assim, temos que x(24) cai na classe 5.0 ⊢ 7.5, que tem
como ponto médio valor de 6.25. Logo, 6.25 é a mediana das notas. A
mediana verdadeira foi de 7. Assim, vemos que a mediana aproximada
difere um pouco da verdadeira mediana.

Prof. Lucas David Estatı́stica Semestre 2023.1 16 / 29


A média por sua vez, pode ser dada de acordo com a média ponderada,
igual antes. A diferença é que agora, é considerado o ponto médio das
classes, como uma aproximação para os verdadeiros valores. Assim, temos
que a média das notas é

(1.25)(0) + (3.75)(12) + (6.25)(13) + (8.75)(22)


X̄ =
47
0 + 45 + 81.25 + 192.5
=
47
318.75
=
47
=6.7819.

Note que essa média difere um pouco da média obtida anteriormente. Com
os valores originais, a média foi de 6.8191, como já vimos no Exemplo 1.

Prof. Lucas David Estatı́stica Semestre 2023.1 17 / 29


Medidas de dispersão

Acontece que a informação da média não diz muito sobre a variabilidade do


conjunto de observações. Por exemplo, para as variáveis definidas abaixo

V = {1, 2, 5, 5, 7},
W = {1, 2, 4, 6, 7},
X = {0, 3, 4, 5, 8},
Y = {0, 2, 3, 4, 5, 6, 8},

vemos que todas as variáveis possuem médias iguais a 4, isto é

V̄ = W̄ = X̄ = Ȳ = 4.

Prof. Lucas David Estatı́stica Semestre 2023.1 18 / 29


Medidas de dispersão

Assim, a informação de todas essas variáveis por sua média, não diz nada
sobre a variabilidade das observações. Por exemplo, não conseguimos dizer
qual das variáveis apresenta menor variabilidade, ou de outro modo, que se
apresenta de maneira mais homogênea. Daı́, vemos a necessidade de se ter
uma medida que nos informe sobre a variabilidade e que permita fazer a
comparação entre diferentes conjuntos de dados.
Uma medida de desvio pode ser utilizada para esta finalidade. O desvio
representa o desvio de cada observação em relação à media. Por exemplo,
para a variável V , temos que os desvio são: {−3, −2, 1, 1, 3}. Note, que se
somarmos os desvios, teremos
5
X
(Vm − V̄ ) = −3 − 2 + 1 + 1 + 3 = 0,
m=1

que é igual a zero.

Prof. Lucas David Estatı́stica Semestre 2023.1 19 / 29


Na verdade, seja qual for o conjunto de dados, a soma dos desvios será
sempre igual a zero. Note que, a soma dos desvios é
n
X
(Xm − X̄ ) = (X1 − X̄ ) + . . . + (Xn − X̄ )
m=1
= (X1 + . . . + Xn ) − nX̄
Xn
= Xm − nX̄
m=1
n
n X
= Xm − nX̄
n
m=1
= nX̄ − nX̄
= 0.

Prof. Lucas David Estatı́stica Semestre 2023.1 20 / 29


Então, vemos que a soma dos desvios não é uma boa medida para fazer a
comparação entre diferentes variáveis. Pois, todas as variáveis terão valor
zero para essa medida. Uma solução para isso é considerar a soma dos
desvios absolutos ou dos desvios ao quadrado. Os desvios absolutos e
desvios ao quadrado para a variável V são {3, 2, 1, 1, 3} e {9, 4, 1, 1, 9},
respectivamente. Então, segue que a soma dos desvios absolutos é
5
X
|Vm − V̄ | = 3 + 2 + 1 + 1 + 3 = 10
m=1

e a soma dos desvios ao quadrado é


5
X
(Vm − V̄ )2 = 9 + 4 + 1 + 1 + 9 = 24.
m=1

Prof. Lucas David Estatı́stica Semestre 2023.1 21 / 29


Contudo, o uso destas medidas não é muito adequado quando o tamanho
dos conjuntos de dados que estamos comparando são diferentes. Como por
exemplo, os conjuntos X e Y , mostrados acima. Assim, é conveniente
tomar essas medidas como médias, dando nome de desvio absoluto médio e
desvio ao quadrado médio. O desvio ao quadrado médio tem um nome
especial na Estatı́stica, ele é chamado de variância. Então, temos que o
desvio absoluto médio e a variância são dados por
n
1X
dam(X ) = |Xm − X̄ |
n
m=1

e
n
1X
var(X ) = (Xm − X̄ )2 ,
n
m=1

respectivamente.

Prof. Lucas David Estatı́stica Semestre 2023.1 22 / 29


Considerando as variáveis W e Y de antes, a Tabela 3 apresenta seus
desvios, desvios absolutos e desvios ao quadrado.

Tabela 3: Diferentes desvios de W e Y em relação à média.

obs W Y d(W ) da(W ) dq(W ) d(Y ) da(Y ) dq(Y )


1 1 0 −3 3 9 −4 4 16
2 2 2 −2 2 4 −2 2 4
3 4 3 0 0 0 −1 1 1
4 6 4 2 2 4 0 0 0
5 7 5 3 3 9 1 1 1
6 6 2 2 4
7 8 4 4 16
Total 20 28 0 10 26 0 14 42
Nota: d(Z )= Zm − Z̄ ;
da(Z )= |Zm − Z̄ |;
dq(Z )=(Zm − Z̄ )2 .

Prof. Lucas David Estatı́stica Semestre 2023.1 23 / 29


Vemos assim que o desvio absoluto médio e a variância de W são
5
1X 10
dam(W ) = |Wm − W̄ | = =2
5 5
m=1

e
5
1X 26
var(W ) = (Wm − W̄ )2 = = 5.2,
5 5
m=1

respectivamente. Por sua vez, o desvio absoluto médio e a variância de Y


são
7
1X 14
dam(Y ) = |Ym − Ȳ | = =2
7 7
m=1
e
7
1X 42
var(Y ) = (Ym − Ȳ )2 = = 6,
7 7
m=1

respectivamente.

Prof. Lucas David Estatı́stica Semestre 2023.1 24 / 29


Se considerarmos o desvio absoluto médio, vemos que as variáveis W e Y
possuem a mesma variabilidade. Ou seja, são igualmente homogêneas. Por
outro lado, se considerarmos a variância, vemos que W possui uma menor
variabilidade do que Y , uma vez que sua medida de variância foi menor.
Logo, com base na variância, podemos dizer que W é mais homogênea do
que Y .
Note ainda, a importância de usarmos os desvios médios. Se considerarmos
as somas brutas dos desvios absolutos, dirı́amos que a variável Y tem uma
maior variabilidade do que a variável W , uma vez que a soma dos desvios
absolutos de Y foi 14 e a soma dos desvios absolutos de W foi 10.
Contudo, fazendo a média destas medidas, vimos que Y e W possuem os
mesmos valores, ou seja, o mesmo desvio absoluto médio.

Prof. Lucas David Estatı́stica Semestre 2023.1 25 / 29


Uma outra medida que é muito utilizada é o desvio-padrão. O
desvio-padrão é a raiz quadrada positiva da variância. Assim, o
desvio-padrão padrão é dado por
p
dp(X ) = var(X ).

Então, os desvios-padrão de W e Y são de


√ √
dp(W ) = 5.2 = 2.28 e dp(Y ) = 6 = 2.45,

respectivamente. O desvio-padrão mostra que Y tem maior variabilidade


que W . Isso já era esperado, uma que o desvio-padrão é apenas a raiz
quadrada da variância. E como já vimos, a variância de Y é maior do que a
variância de W .

Prof. Lucas David Estatı́stica Semestre 2023.1 26 / 29


Uma outra maneira, que é até mais fácil, de calcular a variância é utilizando
a fórmula
n
1X 2
var(X ) = Xm − X̄ 2 . (1)
n
m=1

Note que por essa fórmula não é necessário calcular o desvio de cada
observação e elevar ao quadrado este desvio, basta apenas elevar os valores
ao quadrado da variável, somar esses valores e depois fazer uma única
subtração do quadrado da média.
Vamos usar esta equação para calcular as variâncias de W e Y , que fizemos
antes. A Tabela 4 apresenta os valores originais e os valores ao quadrado
destas variáveis.

Prof. Lucas David Estatı́stica Semestre 2023.1 27 / 29


Tabela 4: Valores ao quadrado de W e Y .
obs W Y W2 Y2
1 1 0 1 0
2 2 2 4 4
3 4 3 16 9
4 6 4 36 16
5 7 5 49 25
6 6 36
7 8 64
Total 20 28 106 154
Utilizando a fórmula (1), temos que as variâncias de W e Y são
5
1X 2 106
var(W ) = Wm − W̄ 2 = − 42 = 21.2 − 16 = 5.2
5 5
m=1
e
7
1X 2 154
var(Y ) = Ym − Ȳ 2 = − 42 = 22 − 16 = 6.
7 7
m=1
Prof. Lucas David Estatı́stica Semestre 2023.1 28 / 29
Notamos que esses valores para as variâncias são os mesmos são os mesmos
obtidos anteriormente. Obtemos então os mesmos valores, a partir de uma
fórmula mais simples de se trabalhar.

Prof. Lucas David Estatı́stica Semestre 2023.1 29 / 29

Você também pode gostar