Você está na página 1de 5

Probabilidade e estatística

Aula 2

Medidas de posição e Medidas de dispersão

Medidas de posição:

 Média:

Para um determinado conjunto de números xl, x2, ... , xn, a medida mais familiar e útil
do centro é a média do conjunto. Como quase sempre temos os vários xi constituindo
uma amostra, frequentemente chamaremos a média aritmética de média amostral e a
representaremos por ̅ .

A média amostral ̅ das observações x1, x2, ... , xn, é dada por:


̅

Para informar ̅ , recomendamos o uso de precisão decimal de um dígito a mais do que a


precisão dos xi. Dessa forma, se as observações forem distâncias de parada com:

x1,=125, x2,=131 e assim por diante, podemos ter ̅ =127,3 pés.

Exemplo:

Determine a média do conjunto de dados a seguir, em μm.

A média sofre de uma deficiência que a torna uma medida de centro inadequada sob
algumas circunstâncias: seu valor pode ser bastante afetado pela presença de um único
outlier (uma observação incomumente grande ou pequena). No exemplo anterior, o
valor x14=45,0 obviamente é um outlier. Sem esta observação, ̅ =399,8/20=19,99, o
outlier aumenta a média em mais de 1 μm. Se a observação 45,0 μm fosse substituída
pelo valor catastrófico de 295,0 μm, um outlier realmente extremo, então
̅ =694,8/21=33,09, que é maior que todas as observações, exceto uma.
 Mediana:

A palavra mediana é sinônimo de "metade" e a mediana amostral é o valor do meio


quando as observações são ordenadas da menor para a maior. Quando as observações
estiverem representadas por x1, ... , xn, usaremos o símbolo ̃ para representar a
mediana amostral. A mediana amostral, geralmente não será afetada por valores que
estejam muito abaixo ou muito além da média do conjunto.

Exemplo:

O risco de desenvolvimento de deficiência de ferro é especialmente alto durante a


gravidez. O problema na detecção dessa deficiência é que alguns métodos de
determinação de nível de ferro podem ser afetados pelo próprio estado de gravidez.
Considere os dados a seguir sobre a concentração do receptor de transferrina de uma
amostra de mulheres com evidências laboratoriais de uma visível anemia por deficiência
de ferro ("Serum Transferrin Receptor for the Detection of Iron Deficiency in
Pregnancy," Amer. J. of Clinical Nutrition, 1991: p. 1077-1081):

a) Determinar a mediana amostral.


b) Determinar a mediana amostral para um caso em que o valor máximo de 20,4
não ocorresse.

 Separatrizes: Quartis, Decis e Percentis:

Quartis:

Denominamos quartis os valores de uma série que a dividem em quatro partes iguais.
Precisamos, portanto de 3 quartis (Q1, Q2 e Q3 ) para dividir a série em quatro partes
iguais.

Obs: O quartil 2 ( Q2 ) sempre será igual a mediana da série.

O método mais prático é utilizar o princípio do cálculo da mediana para os 3 quartis. Na


realidade serão calculadas "3 medianas" em uma mesma série.

Exemplos:

a) Calcule os quartis da série: {5, 2, 6, 9, 10, 13, 15}:

O primeiro passo a ser dado é o da ordenação (crescente ou decrescente) dos valores:


{2, 5, 6, 9, 10, 13, 15}. O valor que divide a série em duas partes iguais é igual a 9, logo
a ̃=9 que será = Q2. Temos agora {2, 5, 6} e {10, 13, 15} como sendo os dois grupos
de valores iguais proporcionados pela mediana (quartil 2). Para o cálculo do quartil 1 e
3 basta calcular as medianas das partes iguais provenientes da verdadeira mediana da
série (quartil 2).

b) Calcule os quartis da série: {1, 1, 2, 3, 5, 5, 6, 7, 9, 9, 10, 13}:

Quartil 2= ̃= (5+6)/2=5,5. O quartil 1 será a mediana da série à esquerda de ̃: {1, 1, 2,


3, 5, 5}. O quartil 3 será a mediana da série à direita de ̃: {6, 7, 9, 9, 10, 13}.

Q1 = (2+3)/2 = 2,5

Q3 = (9+9)/2 = 9

Decis:

A definição dos decis obedece ao mesmo princípio dos quartis. Indicamos os decis : D1,
D2, ... , D9. Deste modo precisamos de 9 decis para dividir uma série em 10 partes
iguais.

Percentis:

Denominamos percentis ou centis como sendo os noventa e nove valores que separam
uma série em 100 partes iguais. Indicamos: P1, P2, ... , P99. É evidente que P50= ̃;
P25=Q1 e P75=Q3.

 Média aparada:

Uma média aparada é algo intermediário entre ̅ e ̃. Uma média aparada de 10%, por
exemplo, seria calculada eliminando-se os 10% superiores e os 10% inferiores da
amostra, obtendo-se, então, a média do restante.

Exemplo:

Considere as 20 observações a seguir, ordenadas da menor para a maior, cada uma


representando a vida útil (em horas) de um determinado tipo de lâmpada incandescente:

A média das 20 observações é ̅ =965,0 e ̃=1009,5. A média aparada de 10% é obtida


pela exclusão das duas menores observações (612 e 623) e as duas maiores (1197 e
1201) seguida do cálculo da média dos 16 valores restantes, para obter ̅ = 979,1. O
efeito de truncar a média aqui é produzir um "valor central" ligeiramente acima da
média ( ̅ é trazido para baixo por alguns poucos valores de vida útil) e ainda
consideravelmente abaixo da mediana. De forma similar, a média aparada de 20% faz
uma média dos 12 valores do meio para obter ̅ =999,9, mais perto ainda da
mediana. Geralmente, o uso da média aparada com proporção de aparagem moderada
(entre 5% e 25%) produzirá uma medida que não é nem tão sensível a outliers como a
média nem tão insensível quanto à mediana. Por esse motivo, as médias truncadas têm
sido objeto de crescente atenção dos estatísticos para propósitos descritivos e
inferenciais.

Medidas de dispersão:

A medida de dispersão mais simples de uma amostra é a amplitude, a diferença entre o


maior e o menor valor da amostra. Observe que o valor da amplitude da amostra 1 da
figura abaixo é muito maior do que o da amostra 3, o que reflete maior dispersão na
primeira amostra do que na terceira. Um defeito da amplitude, entretanto, é que ela
depende apenas das duas observações mais extremas e não considera as posições dos n-
2 valores restantes. As amostras 1 e 2 possuem amplitudes idênticas mas, se levarmos
em conta as observações entre os dois extremos, há muito menos dispersão na segunda
amostra do que na primeira.

Nossa principal medida de dispersão envolve os desvios em relação à média, x1- ̅ , x2-
̅ , .... , xn- ̅ . Ou seja, os desvios da média são obtidos pela subtração de ̅ de cada uma
das n observações da amostra. Um desvio será positivo se a observação for maior que a
média (à direita da média no eixo das medidas) e negativo se a observação for menor
que a média. Se todos os desvios forem pequenos em magnitude, todos os xi estarão
próximos à média e haverá pouca dispersão. Por outro lado, se alguns desvios forem
grandes, alguns xi estarão distantes de ̅ , indicando maior dispersão.

 Variância amostral:

A variância amostral, representada por s2, é dada por:

∑ ̅

Como medida de dispersão, a variância tem a desvantagem de apresentar a unidade de


medida igual ao quadrado da unidade de medida dos dados.
 Desvio padrão amostral:

O desvio padrão amostral, representado por s, é a raiz quadrada (positiva) da variância:

O desvio padrão se apresenta com a mesma unidade de medida dos dados.

 Coeficiente de variação:

O coeficiente de variação, CV, é dado pela razão entre o desvio padrão e a média,
multiplicado por 100. Indica uma dispersão relativa.

̅
Exemplo:

A resistência é uma importante característica de materiais usados em casas pré-


fabricadas. Cada um dos n = 11 elementos de placas pré-fabricadas foi submetido a um
teste de tensão severo e a largura máxima (mm) das trincas resultantes foi registrada. Os
dados fornecidos foram relatados no artigo "Prefabricated Ferrocement Ribbed
Elements for Low-Cost Housing" (J. Ferrocement, 1984, p. 347-364). Determine o
desvio padrão amostral e o CV da amostra.

Você também pode gostar