Você está na página 1de 48

Estatística para Engenharia Civil

Rodolfo Valentim

April 3, 2013

e-mail: r.valentim@gmail.com

e-mail: r.valentim@puc-campinas.edu.br
Medidas numéricas descritivas - introdução

Como representar um conjunto de dados?


Qual o “melhor” valor de um conjunto de dados?
Como e quais os tipos de valores deste conjunto de
dados?
Como duas variáveis se relacionam?
Medidas numéricas descritivas - introdução

Tendência central corresponde à extensão na qual todos


os valores se agrupam em torno de um valor central típico.
Variação corresponde ao montante de dispersão, ou
spread, de valores em relação ao valor central.
Formato corresponde ao padrão da distribuição de valores
do valor mais baixo para o mais alto.
Medidas numéricas descritivas - tendência central - média
aritmética

Média aritmética→ a média aritmética é geralmente a


tendência central mais utilizada. É a medida no qual todos
os valores desempenham um papel igual.
A média aritmética serve como “ponto de equilíbrio” em
um conjunto de dados.
Medidas numéricas descritivas - tendência central - média
aritmética

O formato da média aritmética é:


Medidas numéricas descritivas

A fórmula geral é:
Medidas numéricas descritivas

X̄ representa o valor médio sobre todos os valores da


amostra.
n representa o número de dados da amostra.
P
é a representação matemática da somatória dos dados.
i é o índice que representa o número de dados que estão
sendo somados.
Medidas numéricas descritivas

Ex:. Calcule a média aritmética dos seguintes valores:


39, 29, 43, 52, 39, 44, 40, 31, 44 e 35.
Pn
Xi
X̄ = i=1 . (1)
n

39 + 29 + 43 + 52 + 39 + 44 + 40 + 31 + 44 + 35
X̄ =
10
(2)

396
X̄ = = 39.6. (3)
10
Medidas numéricas descritivas - mediana

Mediana→ A mediana é o valor do meio de um conjunto


de dados que tenha sido ordenado do menor para o maior.
Metade dos valores é menor ou igual à mediana, e metade
dos valores é maior ou igual ao valor da mediana.
A mediana não é afetada por valores extremos, de tal
modo que você pode utilizar a mediana quando estão
presentes valores extremos.
Medidas numéricas descritivas - mediana

Para calcular a mediana para um conjunto de dados, você


incialmente ordena os valores do menor para o maior e,
depois, utiliza à equação abaixo para calcular o valor que
corresponde à mediana:

n+1
Mediana = (4)
2
valor na ordem de classificação.
Medidas numéricas descritivas - mediana

Você calcula a mediana seguindo duas regras:


Regra 1 → se existir uma quantidade ímpar de valores no
conjunto de dados, a mediana corresponde ao valor que
está no meio na ordem de classificação.
Regra 2 → se existir uma quantidade par de valores no
conjunto de dados, a mediana corresponde á média entre
os dois valores que estão no meio na ordem da
classificação.
Medidas numéricas descritivas - mediana

Ex:. Dados os valores do exemplo anterior:


39, 29, 43, 52, 39, 44, 40, 31, 44 e 35.
Ordene os dados: 29, 31, 35, 39, 39, 40, 43, 44, 44, 52.
Como são dez valores (par), a mediana é o valor que
divide ao meio os dados, isto é, o quinto mais o sexto valor
da esquerda para direita dividido por dois: mediana
=(39+40)/2 = 39.5.
Medidas numéricas descritivas - moda

Moda→ é o valor que aparece com mais frequência em


um conjunto de dados. Do mesmo modo que a mediana, e
diferentemente da média aritmética, valores extremos não
afetam a moda. De uma forma geral, não existe somente
uma moda, mas podem existir várias modas (bimodal,
trimodal, etc).
Medidas numéricas descritivas

Ex:. Verifique se há uma moda nos dados: 29, 31, 35, 39,
39, 40, 43, 44, 44, 52.
Pelo conceito de moda, analisamos quais dados que se
repetem em maior quantidade (maior frequência).
Podemos verificar que 39 e 44 se repetem duas vezes,
logo a distribuição é bimodal.
Medidas numéricas descritivas - média geométrica

Média geométrica→ mede a taxa de variação de uma


variável ao longo do tempo, isso pode ser visto na
expressão a seguir:

X̄G = (X1 × X2 × ... × Xn )1/n . (5)


Medidas numéricas descritivas - média geométrica

Média geométrica da taxa de retorno→ mede o percentual


médio de retorno de um investimento ao longo do tempo.

R̄G = [(1 + R1 ) × (1 + R2 ) × ... × (1 + Rn )]1/n − 1. (6)

Onde Ri é à taxa de retorno no decorrer do tempo para o


período i.
Medidas numéricas descritivas - taxa de retorno

Ex:. Considere um investimento de $100.000 que foi


reduzido para um valor de $50.000 ao final do Ano 1e
depois disso retornou a seu valor original de $100.000 ao
final do Ano 2. A taxa de retorno desse investimento para
o período de 2 anos corresponde a 0, uma vez que o valor
inicial e o valor final do investimento permaneceram
inalterados. Entretanto, a média aritmética das taxas
anuais de retorno corresponde a:

(−0.50) + (1.00)
X̄ = = 0.25%; (7)
2
uma vez que a taxa de retorno para o Ano 1 é:
 
50.000 − 100.000
R1 = = −0.50; (8)
100.000
Medidas numéricas descritivas - taxa de retorno

e a taxa de retorno para o Ano 2 é:


 
100.000 − 50.000
R2 = = 1.00. (9)
50.000
Utilizando a expressão para a taxa de retorno, a média
geométrica da taxa de retorno para os 2 anos é:

R̄G = [(1 + R1 ) × (1 + R2 )]1/2 − 1; (10)


Medidas numéricas descritivas - taxa de retorno

temos:

R̄G = [(1 − 0.50) × (1 + 1.00)]1/2 − 1; (11)

R̄G = [(0.50) × (2.00)]1/2 − 1; (12)

R̄G = [1.00]1/2 − 1 = 0. (13)


Portanto, a média geométrica reflete, de maneira mais
precisa do que a média aritmética, a variação (zero) no
valor do investimento para o período de dois anos.
Medidas numéricas descritivas - variação e formato

Além da tendência central, todo o conjunto de dados pode


ser caracterizado por sua variação e seu formato.
A variação mede o spread ou dispersão dos valores em
um conjunto de dados.
Uma medida simples de variação corresponde à amplitude
que é a diferença entre o maior valor e o menor valor. A
amplitude pode ser definida como:
Amplitude é a medida descritiva numérica mais simples
para a variação em um conjunto de dados.
Medidas numéricas descritivas - variação e formato

A amplitude é igual ao maior valor de uma amostra menos


o menor valor:

Amplitude = Xmaior − Xmenor . (14)


Para determinar a amplitude dos dados nos exercícios
anteriores é necessário ordená-los do menor para o maior:
Dados: 29, 31, 35, 39, 39, 40, 43, 44, 44 e 52.
Medidas numéricas descritivas - variação e formato

Utilizando o conceito de amplitude, que é a diferença entre


o maior valor (Xmaior = 52) e o menor (Xmenor = 29),
temos:

Amplitude = Xmaior − Xmenor ; (15)

Amplitude = 52 − 29 = 23; (16)


Indica a maior diferença entre os dados.
Medidas numéricas descritivas - quartis

Quartis dividem um conjunto em quatro partes de dados


iguais.
Primeiro Quartil (Q1 ): divide os valores que correspondem
aos 25.0% mais baixos dos 75.0% maiores.
Segundo Quartil (Q2 ): é a mediana que divide 50.0% são
menores que a mediana e 50.0% maiores.
Terceiro Quartil (Q3 ): é a parcela que corresponde aos
75.0% dos valores mais baixos dos 25.0% que são
maiores que eles.
Medidas numéricas descritivas - quartis

Quartis:
Medidas numéricas descritivas - quartis

Primeiro Quartil: 25.0% dos valores são menores ou iguais


a Q1 , o primeiro quartil e 75.0% são maiores ou iguais ao
primeiro quartil.
n+1
Q1 = ; (17)
4
valor na ordem de classificação.
Terceiro Quartil: 75.0% dos valores são menores ou iguais
a Q3 , o terceiro quartil e 75.0% são maiores ou iguais ao
primeiro quartil.
3(n + 1)
Q3 = ; (18)
4
valor na ordem de classificação.
Medidas numéricas descritivas - quartis

Regra 1: se o resultado corresponder a um número inteiro,


então o quartil é igual ao valor na ordem de classificação .
Se, por exemplo, o tamanho da amostra for n = 7, o
primeiro quartil é igual a (7 + 1)/4 segundo valor na ordem
de classificação.
Regra 2: se o resultado for uma metade fracionada
(2.5;4.5; etc), então o quartil é igual à média entre os
valores correspondentes na ordem de classificação. Se,
por exemplo, o tamanho da amostra for n = 9, o primeiro
quartil é igual a (9 + 1)/4 = 2.5 valor na ordem de
classificação, na metade do caminho entre o segundo
valor e o terceiro valor na ordem de classificação.
Medidas numéricas descritivas - quartis

Regra 3: se o resultado não for um número inteiro ou uma


metade fracionada, você arredonda o resultado até o
número inteiro mais próximo e seleciona o valor na ordem
de classificação corrrespondente. Por exemplo, se o
tamanho da amostra for n = 10, o primeiro quartil é igual a
(10 + 1)/4 = 2.75 valor na ordem de classificação.
Arredonde 2.75 para 3 e utilize o terceiro valor na ordem
de classificação.
Medidas numéricas descritivas - quartis - exemplo

Exemplo 1:
Amostra: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36.
Amostra ordenada: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49.
Primeiro Quartil: n=11:
n+1 11 + 1
Q1 = = = 3; (19)
4 4
Terceiro valor da amostra é 15.
Medidas numéricas descritivas - quartis - exemplo

Segundo Quartil é a mediana: 40.


Terceiro Quartil é:
3(n + 1) 3(11 + 1)
Q3 = = = 9. (20)
4 4
Terceiro Quartil é 43.
Medidas numéricas descritivas - amplitude interquartil

A amplitude interquartil (AQ ) corresponde à diferença entre


o terceiro quartil e o primeiro quartil:

AQ = Q3 − Q1 . (21)
A amplitude interquartil mede a dispersão nos dados que
estão entre as 50% observações centrais. Portanto, não é
influenciada por valores extremos.
Medidas numéricas descritivas - variância e desvio padrão

A variância da amostra é a soma das diferenças em torno


da média aritmética elevadas ao quadrado, dividida pelo
tamanho da amostra menos 1.

x̄ é a média dos valores da amostra, xi é cada um dos


valores da amostra e n é o tamanho da amostra.
Medidas numéricas descritivas - variância e desvio padrão

O desvio padrão da amostra é a raiz quadrada da


variância, ou seja, raiz quadrada da soma das diferenças
em torno da média aritmética elevadas ao quadrado,
dividida pelo tamanho da amostra menos um.
Medidas numéricas descritivas - Regra Empírica

Na maioria dos conjuntos de dados, uma grande parte dos


valores tende a se concentrar relativamente perto da
mediana.
Em conjunto de dados assimétricos à direita, essa
concentração ocorre à esquerda da mediana, ou seja, em
um valor menor do que a mediana.
Em conjuntos de dados assimétricos á esquerda, essa
concentração ocorre á direita da mediana.
Em conjuntos de dados simétricos, nos quais a mediana e
a média são iguais, os valores tendem a se distribuir em
torno da mediana e da média aritmética, produzindo uma
distribuição no formato de sino (tipo curva Gaussiana).
Medidas numéricas descritivas - Regra Empírica

Exemplo de uma distribuição tipo sino:


Medidas numéricas descritivas - Regra Empírica

Com as médias e os desvios:


Medidas numéricas descritivas - Regra Empírica

Distribuições assimétricas:
Medidas numéricas descritivas - Regra Empírica

∼ 68% dos valores estão contidos em ±1 × σ.


∼ 95% dos valores estão contidos em ±2 × σ.
∼ 97.7% dos valores estão contidos em ±3 × σ.
Medidas numéricas descritivas - Regra de Chebyshev

A regra de Chebyshev enuncia que qualquer conjunto de


dados, independentemente do formato, a porcentagem de
valores que estão contidos dentro de distâncias
correspondentes a k desvios-padrão em relação à média
aritmética deve ser pelo menos:

1
(1 − ) × 100%. (22)
k
Você pode utilizar a regra para qualquer valor de k maior
do que 1. Considere k = 2, a regra de Chebyshev declara
que pelo menos [1 − (1/2)2 ] × 100% = 75% dos valores
devem estar contidos dentro de uma distância de dois
desvios-padrão em relação à média aritmética.
Medidas numéricas descritivas - Regra de Chebyshev

A regra de Chebyshev é bastante geral e se aplica a


qualquer tipo de distribuição.
A regra indica pelo menos qual a porcentagem dos valores
se posiciona dentro de uma determinada distância em
relação à média aritmética.
No entanto, se o conjunto de dados apresentar um formato
simétrico, a regra empírica refletirá de modo mais preciso
a maior concentração dos dados próximos á média
aritmética.
Medidas numéricas descritivas - Regra de Chebyshev

Uma forma de usar a regra de Chebyshev é calcular o


valor médio de uma distribuição de dados e o desvio
padrão.
Depois você pode apresentar os dados em intervalos para
qualquer distribuição(regra de Chebyshev):
Aproximadamente 0% [µ − σ; µ + σ].
Aproximadamente 75% [µ − 2σ; µ + 2σ].
Aproximadamente 88.89% [µ − 3σ; µ + 3σ].
Coeficiente de variação

Coeficiente de variação é uma medida relativa da variação


que é sempre expressa na forma de porcentagem. Sendo
definido como:
σ 
CV = × 100%. (23)

É sempre útil quando se comparam dois ou mais conjuntos
de dados que são mensurados em unidades diferentes.
Escores Z

O valor extremo ou outlier, é um valor localizado bem


distante da média aritimética. Escores Z são úteis no
sentido de indentificar valores extremos. Quanto maior o
escore Z maior a distância do valor em relação à média
aritmética. O escore Z corresponde à diferença entre o
valor e a média aritmética dividida pelo desvio padrão:

x − x̄
Z = . (24)
σ
Covariância

A covariância mede a força de uma relação linear entre


duas variáveis numéricas (X e Y ):
Pn
(Xi − X̄ )(Yi − Ȳ )
cov (X , Y ) = i=1 . (25)
n−1
Obs: um problema que a covariância apresenta é dado um
valor não há como estabelecer limites e a força da
covariância.
Correlação

Dizemos que há correlação entre duas variáveis X e Y


quando a variável dependente Y altera seu valor conforme
a a variável independente X se altera. Quando isso
ocorre, há uma correlação entre as variáveis.
O coeficiente de correlação mede a força de uma relação
linear entre duas variáveis numéricas. O coeficiente pode
ser calculado pela expressão a seguir:
Correlação

Exemplos de correlação:
Correlação

Exemplos de correlação:
Correlação

Exemplos de correlação:
Correlação

Você também pode gostar