Você está na página 1de 37

Universidade Federal de Minas Gerais

Instituto de Ciências Exatas


Departamento de Estatística

Princípios de Bioestatística

Aula 3
Análise Descritiva:
Medidas de Tendência Central
Medidas de Variabilidade
Como resumir os dados de uma
variável quantitativa?

Identificam o elemento
Medidas de
típico da variável.
Tendência Central
Síntese
Númerica
Quantificam a dispersão
Medidas de (variabilidade) dos
Variabilidade valores.
Medidas de Tendência Central

Se todas as seis pessoas


tivessem o mesmo peso, qual
deveria ser este valor para não
exceder a carga máxima
permitida ?

O peso médio deve ser de 70 Kg.

Média Aritmética
Medidas de Tendência Central

Qual é o valor de peso que


separa a metade mais leve da
metade mais pesada no
98
elevador? 60 40
40 55 60 70 75 98

O peso mediano é 65 Kg
55 75 70

Mediana
Medidas de Tendência Central

Qual é peso mais frequente


dentre os ocupantes do
elevador?
55 98
40

A moda de peso é 55 Kg

60 75 55
Moda
Média Aritmética Simples

Alguma Notação

n número de indivíduos no conjunto de dados


valor da i-ésima observação do conjunto de dados,
xi i = 1, 2, 3,..., n
soma de todas as observações da amostra
∑ xi (a letra grega Σ é o símbolo que indica soma).
é o símbolo usado para representar a média aritmética
X simples.

X=
Soma de todas as observações da amostra
=
∑ xi
tamanho da amostra n
Média Aritmética Simples

No conjunto de dados ( 3 ; 4.5 ; 5.5 ; 2.5 ; 1.3 ; 6 ), temos n = 6,

x1 = 3 x2 = 4.5 x3 = 5.5 x4 = 2.5 x5 = 1.3 x6 = 6

∑ xi = 3 + 4.5 + 5.5 + 2.5 + 1.3 + 6 = 22.8 e

22.8
X= = 3.8
6

Identifica qual seria contribuição típica de cada elemento do


conjunto de dados se todos contribuíssem igualmente.
Mediana
Dados ( 2 ; 3.3 ; 2.5 ; 5.6 ; 5 ; 4.3 ; 3.2 ).
Existe um só Ordenando os valores
n é ímpar “valor do (2 ; 2.5 ; 3.2 ; 3.3 ; 4.3 ; 5 ; 5.6).
meio” O valor do meio é o 3.3 .
A mediana é o valor 3.3.

Dados ( 3 ; 4.5 ; 5.5 ; 2.5 ; 1.3 ; 6 ).


Existem dois Ordenando os valores
n é par “valores do (1.3 ; 2.5 ; 3 ; 4.5 ; 5.5 ; 6)
meio” Os valores do meio são 3 e 4.5.
A mediana é (3 + 4.5)/2 = 3.75.
Valor que divide o conjunto de dados ordenados em duas
partes com o mesmo número de observações.
1,8

1,3

Moda 0,8
1 2 3 4 5

Conjunto de dados unimodal

1,8

1,3
Valor mais frequente do
conjunto de dados 0,8
1 2 3 4 5 6 7 8 9

Conjunto de dados bimodal

1,6
1,5
1,4
1,3
1,2
1,1
1
1 2 3 4 5 6 7 8 9

Conjunto de dados amodal


Média versus Mediana

A Média Aritmética é muito influenciada pela presença


de valores extremos no conjunto de dados

A Mediana é mais robusta à presença destes


valores discrepantes

Exemplo: conjunto de dados (2 , 2.25 , 3.5 , 3.75 , 4 , 9).


A média é 4.08 e a mediana é 3.63 .
Sem o valor 9, a média é 3.10 e a mediana é 3.5 .
Média versus Mediana

Representação gráfica do salário dos funcionários de uma


empresa (em salários-mínimos) [Reis e Reis, 2001]

Situação I: dados completos: Situação II: sem os quatro valores mais


altos:
Média = 24.6 SM Média = 9.8 SM
Mediana = 4 SM Mediana = 3 SM
Moda versus Mediana e Média

Exemplo: Considere uma pesquisa de opinião na qual foi perguntado


a 26 pessoas de baixa renda:

“Incluindo crianças e adultos, que tamanho de família você acha ideal?”


Tamanho ideal da família 1 2 3 4 5 6 7 8 9 10
Freqüência da resposta 1 2 6 2 1 2 3 6 2 1

10

Média = Mediana = 6 pessoas


Modas = 3 e 8 pessoas [Reis e Reis, 2001]
Forma da distribuição de frequências e as posições
relativas das medidas de tendência central.

Simétrica
moda = mediana = média

Assimétrica com
concentração à
esquerda moda < mediana < média

Assimétrica com
concentração à
direita
moda > mediana > média
Resumindo:
Medidas de Tendência Central

Identifica qual seria contribuição


típica de cada elemento do
Média Aritmética conjunto de dados se todos
contribuíssem igualmente.

Valor que divide o conjunto de


Mediana dados em duas partes com o
mesmo número de observações.

Valor mais frequente do


Moda conjunto de dados
Medidas de Variabilidade
Identificar o elemento típico (tendência central) de um
conjunto de dados não é suficiente para caracterizá-lo.

Dois conjuntos de dados podem ter a mesma


tendência central, mas serem diferentes um do outro.

É necessário quantificar a dispersão em torno do


elemento típico, ou seja, quantificar a variabilidade
de um conjunto de dados.
O experimento das balanças:
duas balanças pesam repetidamente uma
esfera de 1000 gramas

Balança A

Balança B

900 950 1000 1050 1100


Peso (em gramas) [Reis e Reis, 2001]
Como quantificar as diferenças entre
as medições das duas balanças?

Alternativa: diferença entre o valor máximo e o


mínimo das medições.

Balança A: 1040g – 945g = 95g


Balança B: 1095g – 895g = 200g.

AT = Máximo – Mínimo

Amplitude Total
A Amplitude Total é uma medida simples de
variabilidade, porém é muito grosseira.

AT1 = 100 – 2 = 98

AT2 = 100 – 2 = 98

Só considera os extremos do conjunto de dados.

Precisamos de uma medida de dispersão que considere


todos os elementos do conjunto de dados.
Idéia: Calcular a distância de cada valor do conjunto de
dados até o elemento típico desse conjunto.

( xi − x ) Medida de distância mais simples entre dois valores

∑ (x − x )
i =1
i Distância “típica” de cada elemento até o valor médio

n
Coluna 1 Coluna 2 Coluna 3
Xi
1
1.5
2
3.5
4
4
4.5
6
6.5
7
Soma  40
Média  40/10 = 4
n
Problema: ∑ ( x − x ) é sempre zero
i =1
i

Coluna 1 Coluna 2 Coluna 3


Xi ( xi − x )
1 -3
Solução: eliminar o 1.5 -2.5
sinal dos desvios 2 -2
negativos 3.5 -0.5
4 0
4 0
Como: elevando 4.5 0.5
todos os desvios 6 2
ao quadrado 6.5 2.5
7 3
Soma  40 0
Média  40/10 = 4 0/10 = 0
Coluna 1 Coluna 2 Coluna 3
Xi ( xi − x ) ( xi − x ) 2
1 -3 9
1.5 -2.5 6.25
Nova medida de 2 -2 4
dispersão 3.5 -0.5 0.25
4 0 0
n

∑ ( xi − x )
i =1
2 4
4.5
0
0.5
0
0.25
6 2 4
n −1 6.5 2.5 6.25
7 3 9
variância Soma  40 0 39
Média  40/10 = 4 0/10 = 0 39/9 = 4.3
n
Problema: ∑ i
( x − x ) 2
(n − 1)
i =1
é uma média de desvios ao quadrado

cm  cm2
 Unidade de medida foi alterada pessoas  pessoas2 (!!)
toneladas  toneladas2 (!!)

Solução: voltar às unidades originais usando a


operação inversa  raiz quadrada

∑ i
( x − x ) 2
 Desvio-Padrão
i =1

n −1
O Desvio-Padrão representa o desvio típico
dos elementos do conjunto de dados até seu
centro (a média)

No exemplo anterior:
(1.0 , 1.5 , 2.0 , 3.5 , 4.0 , 4.0 , 4.5 , 6.0 , 6.5 , 7.0)
Média = 4.0
39
Desvio-Padrão: s = = 4.3 = 2.1
10 − 1

O Desvio-Padrão (s) será usado como “padrão de desvio”


s=0 s = 0.2

s = 1.0 s = 1.5

s = 2.1 s = 2.7
Mesmo valor da Amplitude Total, mas variabilidades diferentes:

s = 1.5

s = 1.9
Voltando ao exemplo das balanças …

10 medições da balança A
999.6 983.0 1018.4 990.0 1004.4 1009.9 991.8 1001.9 999.9 1003.0

10 medições da balança B
985.0 961.0 989.8 1012.2 984.2 1029.3 1010.3 1020.0 979.9 1030.0
B
A

960 970 980 990 1000 1010 1020 1030

Peso (em gramas)


(999.6 + 983.0 + ... + 999.9 + 1003.0)
XA = = 1000.19 gramas
10

(985.0 + 961.0 + ... + 979.9 + 1030.0)


XB = = 1000.17 gramas
10

sA =
( (999.6-1000.19) ) + ... + (1003.0-1000.19) ) = 10.14
2 2

gramas
9

sB =
( )
(985.0-1000.17)2 + ... + (1030.0-1000.17) 2 )
= 23.37 gramas
9
Para que serve o Desvio-Padrão?

O desvio-padrão serve para quantificar variabilidade


de um conjunto de dados:

Quanto maior a variabilidade dos valores,


maior será o desvio-padrão.
Mas… um desvio-padrão igual a 10
é grande ou pequeno ?

s=10 significa muita dispersão se X=100

s=10 significa pouca dispersão se X=1000

10 10
= 0.1 (10%) = 0.01 (1%)
100 1000

Para termos idéia da magnitude do valor do desvio-padrão,


é necessário verificar o quanto ele ocupa da escala de
medida, representada pela média...
Coeficiente de Variação (CV)

O Coeficiente de Variação não tem unidade de medida.

Podemos usar o CV para comparar a variabilidade (dispersão)


de grupos diferentes e até de variáveis diferentes.
Comparando a homogeneidade de
grupos e variáveis diferentes

Duhn, 2001
Para que serve o Desvio-Padrão ?

O desvio-padrão serve para quantificar a distância entre


um elemento e o valor típico (média) de seu grupo.

Exemplo: o valor 5.0 está longe ou perto do valor típico do


conjunto de dados?

5.0 − 4.0 1.0


= = 0.48
2.1 2.1
O valor 5.0 está 0.48 desvios-padrão acima da média
Questão: Em um tempo fixo, um atleta correu 431m a mais do que a média
do grupo de atletas. O desempenho dele bom ou muito bom?

Média do grupo = 1558 m


s =327 metros Desempenho dele = 1989 m
1989 m – 1558 m = 431 m

431 Muito
= 1.32
s =550 metros 327 bom!

431
= 0.78 Bom
550
Regra do Desvio-Padrão para Distribuição Simétrica

[Reis e Reis, 2001]


Nunca descreva a variável usando
apenas as medidas síntese.

Sempre faça o gráfico!


Grupo Média DP AT
A 10.3 3.5 14.3
B 10.3 3.7 14.3

Grupo Média DP AT Median


A 10.3 3.5 14.3 9.3
B 10.3 3.7 14.3 11.4

Grupo Média DP AT Median


A 10.3 3.5 14.3 9.3
B 10.3 3.7 14.3 11.4
Grupo Mínimo Máximo
A 5.9 20.2
B 0.8 15.0

Você também pode gostar