Você está na página 1de 47

DESCRIÇÃO NUMÉRICA DE DADOS

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
DESCRIÇÃO NUMÉRICA DE DADOS

MEDIDAS DE TENDÊNCIA CENTRAL

As medidas de tendência central são estatísticas que indicam o centro de


um conjunto de dados. Essas são também conhecidas pelo termo
.

As principais medidas de tendência central são:

a) A MÉDIA ARITMÉTICA

b) A MEDIANA

c) A MODA

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
DESCRIÇÃO NUMÉRICA DE DADOS

A média aritmética fornece a abscissa do centro de gravidade do conjunto


de dados.

CÁLCULO DA MÉDIA ARITMÉTICA NO CASO DE DADOS


ISOLADOS:

Soma de todos
Média aritmética os valores
de um conjunto =
de dados Quantidade de
valores

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
DESCRIÇÃO NUMÉRICA DE DADOS

x é uma estimativa de !

Sendo xi os valores assumidos por uma variável X, em uma dada amostra,


a média aritmética pode ser calculada por:
n Onde, n = total de dados da amostra
xi
i 1 EXEMPLO: Calcular a média aritmética para os
x seguintes valores: 20, 16, 26, 41, 7, 30, 17, 19 e 28.
n
9
xi
i 1 20 16 26 41 7 30 17 19 28
x 22,67
9 9

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
DESCRIÇÃO NUMÉRICA DE DADOS

CÁLCULO DA MÉDIA ARITMÉTICA NO CASO DE DADOS


AGRUPADOS:
Para uma dada tabela de distribuição de freqüências com classes.
Sejam x1, x2, x3, ...xk, os valores dos pontos médios de classe e f1, f2, f3, ...fk
as respectivas freqüências, como apresentado na tabela 2.7.

Tabela 2.7 A média dos dados da tabela


Distribuição de freqüências 2.7 é dada por:
Ponto médio freqüência k
x1 f1 xi f i n
x2 f2 i 1 n fi
x e
. . i 1
. .
n
. .
xk fk Onde, n = total de dados

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
DESCRIÇÃO NUMÉRICA DE DADOS

EXEMPLO: Calcular a média aritmética para a espessura dos filmes de


quitosana a partir dos dados da tabela 2.5.

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
DESCRIÇÃO NUMÉRICA DE DADOS

B) MEDIANA (Md)

A mediana (Md) é o valor que ocupa a posição central quando todos os


dados do grupo estão dispostos em ordem crescente (ou decrescente) de
magnitude.

Valor que tem antes e


Mediana de um conjunto depois de si, igual
=
de dados quantidade de dados

Observações referentes à mediana:

A mediana depende mais do lugar do dado numa distribuição que de seu


valor.

A mediana é independente dos valores extremos.

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
DESCRIÇÃO NUMÉRICA DE DADOS

1° CASO: Número impar de dados

1 Ordenar os dados em ordem crescente de


magnitude.
2 Selecionar o dado central que divide a
série em números iguais de dados.
EXEMPLO:

Calcular a mediana para o seguinte conjunto de dados: 16; 31; 45; 20;
04; 10; 11; 23 e 17.

Após a ordenação dos dados temos:

4, 10 ,11, 16, 17, 20, 23, 31, 45


4 dados 4 dados
Md Md = 17

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
DESCRIÇÃO NUMÉRICA DE DADOS

2° CASO: Número par de dados

1 Ordenar os dados em ordem crescente de


magnitude.
2 Selecionar os dois dados centrais da série
que dividem em dois grupos com o mesmo
número de dados a amostras.
3 Calcular a média entre esses dois valores.

EXEMPLO:

Calcular a mediana para o seguinte conjunto de dados: 03; 10; 04; 20; 40; 16;
33; 09; 41 e 25.

Após a ordenação dos dados temos:

3, 4 , 9, 10, 16, 20, 25, 33, 40, 41 16 20


Md 18
4 dados 4 dados 2
Termos
centrais

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
DESCRIÇÃO NUMÉRICA DE DADOS

CÁLCULO DA MEDIANA NO CASO DE DADOS AGRUPADOS:


1° PASSO: Para obtermos a mediana a partir de uma tabela de distribuição de
freqüências devemos, inicialmente, construir uma coluna com as freqüências
acumuladas para cada classe.

2° PASSO: Calculamos o valor de 2 e em seguida determinamos a classe


mediana como sendo a primeira classe onde n/2 é menor ou igual a freqüência
acumulada.

3° PASSO: Usa-se a seguinte fórmula para o cálculo da mediana:


Onde,
lMd = limite inferior da classe mediana;
n = tamanho amostral (total de efetivos);
n
FaMd FaMd = freqüência acumulada da classe anterior à
Md l Md 2 hMd classe mediana;
f Md fMd = freqüência absoluta da classe mediana;
hMd = intervalo da classe mediana.

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
DESCRIÇÃO NUMÉRICA DE DADOS
EXEMPLO: Calcular mediana para a espessura dos filmes de quitosana a
partir dos dados da tabela 2.5. Tabela 2.5
Espessuras de filmes de quitosana obtidos por método
n/2 = 84/2 =42 casting m.
lMd = 78,1 Ponto
FaMd = 40 Espessura Freqüência Freqüência
médio
fMd = 16 ( m) absoluta acumulada
( m)
hMd = 8,6
43,7 | 52,3 48,0 2 2
n 52,3 | 60,9 56,6 8 10
FaMd
Md l Md 2 hMd 60,9 | 69,5 65,2 12 22 FaMd
f Md 69,5 | 78,1 73,8 18 40
78,1 | 86,7 82,4 16 56
86,7 | 95,3 91,0 11 67
lMd fMd
95,3 | 103,9 99,6 10 77 5a classe
103,9 | | 112,5 108,2 7 84 -
Classe
TOTAL 84
Mediana
n (LMd)
Md = 79,2 m

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
DESCRIÇÃO NUMÉRICA DE DADOS

C) MODA (Mo) A moda é o valor que ocorre com maior freqüência


em um conjunto de dados.
Valor ao qual
Moda de um esteja associada
conjunto de = a freqüência
dados absoluta mais
alta

OBTENÇÃO DA MODA NO CASO DE DADOS ISOLADOS:


Dado (xi) freqüência
EXEMPLO: Obter a moda para 2 1
o seguinte conjunto de dados: 3 2
4 5
X = {3; 4; 4; 2; 8; 4; 4; 3; 10; 4}
8 1
Mo = 4 10 1
Moda
Maior
freqüência

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
DESCRIÇÃO NUMÉRICA DE DADOS

CÁLCULO DA MODA NO CASO DE DADOS AGRUPADOS:

1° PASSO: Determinamos
a classe modal da f aMo f Mo
distribuição, como sendo Mo l Mo hMo
aquela que possui a maior f aMo f pMo 2 f Mo
freqüência,

2° PASSO: A partir dos Onde:


dados da tabela de
lMd = limite inferior da classe modal (classe de
distribuição de freqüência,
maior freqüência absoluta);
calculamos a moda faMo = freqüência da classe anterior à classe
através da seguinte modal;
equação: fMo = freqüência da classe modal;
fpMo = freqüência da classe posterior à classe
modal;
hMo = intervalo da classe modal.

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
DESCRIÇÃO NUMÉRICA DE DADOS
EXEMPLO: Calcular moda Tabela 2.5
para a espessura dos filmes Espessuras de filmes de quitosana obtidos por
de quitosana a partir dos casting m.
dados da tabela 2.5.
Espessura Freqüência
lMo = 69,5 ( m) absoluta
faMo = 12 43,7 | 52,3 2
fMo = 18 faMo
lMo 52,3 | 60,9 8
fpMo = 16
60,9 | 69,5 12 fMo
hMo = 8,6 fpMo
69,5 | 78,1 18
f aMo f Mo 78,1 | 86,7 16
Mo l Mo hMo
f aMo f pMo 2 f Mo 86,7 | 95,3 11 4a classe
-
95,3 | 103,9 10
Classe
103,9 | | 112,5 7 Modal (LMo)
TOTAL 84 -
Maior
freqüência
Mo = 71,65 m absoluta

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
DESCRIÇÃO NUMÉRICA DE DADOS

SIMETRIA DAS DISTRIBUIÇÕES

Figura 2.4 Histograma e curva polida da


distribuição de freqüência dos alunos de uma A comparação dos valores
academia de musculação segundo a idade.
relativos à média, a moda e a
mediana, permite estabelecer a
simetria de uma dada
distribuição.

Caso pudéssemos
um histograma iríamos
obter uma curva polida,
como mostrado na figura
2.4.

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
DESCRIÇÃO NUMÉRICA DE DADOS

Basicamente, existem três tipos de curvas polidas:


1) CURVA SIMÉTRICA
2) CURVA ASSIMÉTRICA
NEGATIVA

Mo = Md = x

3) CURVA ASSIMÉTRICA
POSITIVA

Figura 2.5 simetria de distribuições

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
DESCRIÇÃO NUMÉRICA DE DADOS

DISTRIBUIÇÕES MULTIMODAIS E AMODAIS

Uma distribuição de freqüências pode ter mais de uma moda ou nenhuma


moda. Dessa forma, podemos ter distribuições amodais (sem moda),
bimodais (duas modas), trimodais (três modas), etc.

O vale que se forma entre duas modas contínuas é chamado de antimoda.

Figura 2.6 Distribuição bimodal


EXEMPLO:

Onde:

Mo1 1a moda
AMo antimoda Mo1 AMo Mo2
Mo2 2a moda

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
MEDIDAS DE VARIABILIDADE

As medidas de variabilidade são estatísticas que medem as


oscilações de uma variável.

A descrição de uma dada distribuição de dados não pode ser realizada


apenas pela posição central, mas também pelo grau de dispersão dos
valores estudados.

Média = 174 cm
EXEMPLO:
180 196 166 180 188 144 164

Média = 174 cm

174 174 174 174 174 174 174

Figura 2.7 Duas amostras de indivíduos que possuem a mesma estatura média
porém variações diferentes nessa estatura.

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
MEDIDAS DE VARIABILIDADE

Dentre as medidas de variabilidade podemos destacar:

- a AMPLITUDE;

- o DESVIO MÉDIO

- a VARIÂNCIA;

- o DESVIO PADRÃO;

- o COEFICIENTE DE VARIAÇÃO;

- a AMPLITUDE INTERQUARTIL.

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
MEDIDAS DE DISPERSÃO

A) AMPLITUDE (a)

A amplitude de uma distribuição é dada pela diferença entre o maior e o


menor valor observado para a variável estudada.

a = amplitude = xmax - xmin

EXEMPLO: Calcular a amplitude para a distribuição das estaturas da


figura 2.7.

X = { 180,196,166,180,188,144,164}

a = 196 144 = 52 cm

OBSERVAÇÃO: A amplitude é muito sensível à observações extremas e


é de interesse descritivo limitado. Essa medida de dispersão ignora todos
os dados entre os valores mínimo e máximo da amostra.

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
MEDIDAS DE DISPERSÃO

C) VARIÂNCIA

A variância (VAR) é o índice de dispersão mais utilizado. Quando se


refere a uma população é representada por 2, quando se refere a uma
amostra é representada por s2 (s2 é uma estimativa de 2).

Podemos calcular a variância para uma série de dados através de equação:

Onde, 2 ( xi ) 2
xi = dados individuais, ( xi x) 2 xi
x = média aritmética, s 2 n
n = tamanho da amostra. n n

Podemos usar qualquer uma das formas dessa equação no cálculo da


variância.

EXEMPLO: Calcular a variância para as estaturas apresentadas na figura


2.7. X = { 180,196,166,180,188,144,164}

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
MEDIDAS DE DISPERSÃO

- Cálculo da variância para dados agrupados

Quando temos uma tabela de distribuição de freqüência, podemos


calcular a variância usando a seguinte equação:

Onde,

xi = valores dos pontos médios, ( xi x)2 . fi


x = média aritmética, s2
n = tamanho da amostra. n
fi = freqüências absolutas.

EXEMPLO: Calcular a variância para a espessura dos filmes de quitosana


a partir dos dados da tabela 2.5.

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
MEDIDAS DE DISPERSÃO

- Variância corrigida
Quando queremos apenas descrever a dispersão de uma distribuição,
nós devemos usar a equação:
( xi x)2
s2
n
Porém, quando a variância é calculada para a amostra e utilizada para
realizar uma previsão (inferência) sobre a variância da população ( 2)
devemos usar a equação: 2
2
( xi x)
s c
n 1
Essa equação fornece a variância corrigida, que é uma melhor estimativa
da variância populacional.

O denominador n-1 é chamado de graus de liberdade.

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
MEDIDAS DE DISPERSÃO

A variância amostral é considerada um estimador não-


viesado da variância populacional:

Ao realizar várias vezes amostras aleatórias de uma


população, os diferentes valores de s2 tendem a se
concentrar em torno do valor de 2 (sem superestimação ou
subestimação).

Unidades da variância são diferentes das unidades


originais.

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
MEDIDAS DE DISPERSÃO

D) DESVIO PADRÃO

O desvio padrão (DP ou SD) é a raiz quadrada da variância. Este


possui a vantagem de ter a mesma unidade que a variável estudada.
O desvio padrão populacional é designado por e o desvio padrão
amostral por s.
O cálculo do desvio padrão pode ser realizado ( xi x)2
pela equação: s
n

Como para o caso da variância, o desvio padrão


corrigido é dado por:
( xi x ) 2
sc
n 1
EXEMPLO: Calcular o desvio padrão para as
estaturas apresentadas na figura 2.7.
X = { 180,196,166,180,188,144,164}

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
MEDIDAS DE DISPERSÃO

PROPRIEDADES DO DESVIO PADRÃO

O desvio padrão é uma medida da variação de todos valores a


partir da média.

O valor do desvio padrão (s):


Igual a zero quando todos valores dos dados são iguais.
Nunca é negativo.

Maiores valores de s indicam maior variação.

Valor de s pode crescer muito com a inclusão de um ou mais

As unidades de s são as mesmas unidades dos dados originais.

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
MEDIDAS DE DISPERSÃO

E) COEFICIENTE DE VARIAÇÃO (CV)

O coeficiente de variação, também conhecido como desvio padrão


relativo, é calculado, dividindo-se o desvio padrão pela média aritmética e
multiplicando-se o valor por 100 para expressá-lo em porcentagem.

s
CV *100
x
Porém, com o desvio padrão, é difícil comparar a dispersão para
valores de diferentes variáveis (ex.: peso e altura).

Coeficiente de variação (CV) supera essa desvantagem, por não ter


unidade específica, permitindo comparação das variações.

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
MEDIDAS DE DISPERSÃO

B) DESVIO MÉDIO ABSOLUTO

O desvio médio absoluto (DMA) é a média aritmética dos valores


absolutos dos desvios.

Cálculo de valores absolutos requer operação não algébrica (que


são: adição, multiplicação, raízes, potências).

Valores absolutos criam dificuldades algébricas nas inferências


estatísticas (regressão e análise da variância).

Viés: desvios médios absolutos de amostras não tendem ao valor do


desvio médio absoluto da população.

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
MEDIDAS DE DISPERSÃO

EXEMPLO: Calcule e compare os valores dos desvios


médios absolutos e desvios padrões para os conjuntos de
dados abaixo:
Conjunto numérico Desvio Desvio médio
padrão absoluto

A = {-15; -15; 0; 15; 15} 13,42 12

B = {-20; -10; 0; 10; 20} 14,14 12

C = {-25; -5; 0; 5; 25} 16,12 12

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
MEDIDAS DE DISPERSÃO

REGRA EMPÍRICA DA AMPLITUDE

A regra empírica da amplitude indica que para muitos conjuntos de


dados, a grande maioria (95%) dos valores amostrais se localiza a 2
desvios padrões da média.

Isso varia com tamanho amostral e natureza da distribuição.

(valor mínimo)] / 4

Valor amostral mínimo (usual) = média (2 * desvio padrão)


Valor amostral máximo (usual) = média + (2 * desvio padrão)

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
MEDIDAS DE DISPERSÃO

REGRA EMPÍRICA PARA DADOS COM FORMA APROXIMADA DE SINO


(DISTRIBUIÇÃO NORMAL)

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
MEDIDAS DE DISPERSÃO

F) QUARTIS E AMPLITUDE INTERQUARTIL

Assim como a mediana corta uma distribuição ordenada em duas partes


iguais, nós podemos determinar n modalidades Q1, Q2, ..., Qn, que
cortem a distribuição em n + 1 fatias iguais, cada fatia possuindo a
mesma porcentagem de observações.
Q1 Q2 = Md Q3
QUARTIS:
o procedimento mais 25 % das 25 % das 25 % das 25 % das
observações observaçõesobservações observações
usual é uma
distribuição em quatro
partes iguais, cada uma
contendo 25 % das 50 % das observações 50 % das observações
observações. Nesse
caso, cada corte na Figura 2.8 Divisão de uma distribuição em quartis.
população é chamado
de quartil.
Obs.: O segundo quartil corresponde à mediana !

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
MEDIDAS DE DISPERSÃO

Nós podemos calcular uma amplitude interquartil que congregue a metade


das observações que se encontram no centro da distribuição.

Amplitude Interquartil = A.I.Q = Q3 - Q1

EXEMPLO: Calcular a amplitude interquartil para a distribuição dada na


tabela 2.6.
Tabela 2.6 Notas de 48 alunos em uma prova de inglês
(realizada nos EUA) escala de 0 a 15.
Notas 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

f 2 5 2 2 0 0 1 10 0 1 9 4 6 4 0 2

F 2 7 9 11 11 11 12 22 22 23 32 36 42 46 46 48

Observações reais n1 = 12 n2 = 11 n3 = 13 n4 = 12
Observações esperadas n1´= 12 n2´ = 12 n3´=12 n4´= 12

Q1 = 6,5 Q3 = 11,5
A.I.Q = Q3 Q1 = 11,5 6,5 = 5
Q2 = 9,5

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
MEDIDAS DE DISPERSÃO
PERCENTIS]

Há 99 percentis (P1, P2, ..., P99) que dividem os dados


ordenados em 100 grupos com cerca de 1% dos valores em
cada um.

Os quartis e percentis são exemplos de quantis, os quais


dividem os dados em grupos com aproximadamente o
mesmo número de valores.

Utilize a seguinte fórmula, arredondando o resultado para o


número inteiro mais próximo:

Note que: Q1 = P25 ; Q2 = P50 ; Q3 = P75

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
MEDIDAS DE DISPERSÃO

inicio CONVERTENDO PERCENTIS EM VALOR DE DADOS

O valor do k-ésimo percentil


está a meio caminho entre o
O valor de Pk é o
Ordene os dados L-ésimo valor e o seguinte na
L-ésimo valor
do menor para o lista ordenada. Ache Pk como
contado a partir do
maior. a média aritmética entre o L-
menor.
ésimo valor e o seguinte.

Sim

Calcule
Mude L.
L = (k/100).n L é um Não arredondando-o
número
para o maior inteiro
n = número de valores inteiro?
mais próximo.
k = percentil em questão

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
MEDIDAS DE DISPERSÃO

ESTATÍSTICAS DEFINIDAS POR QUARTIS E


PERCENTIS

Intervalo interquartil (IIQ) = Q3 Q1


Intervalo semi-interquartil = (Q3 Q1) / 2

Ponto médio dos quartis = (Q3 + Q1) / 2

Intervalo percentílico 10 90 = P90 P10

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
ANÁLISE EXPLORATÓRIA DE DADOS (AED)

ANÁLISE EXPLORATÓRIA DE DADOS (AED)

Análise exploratória de dados é o processo de uso das


ferramentas estatísticas (gráficos, medidas de centro,
medidas de variação...) para investigação de conjuntos
de dados com o objetivo de compreender suas
características importantes.

Podemos explorar características dos dados: centro


(média, mediana); variação (desvio padrão, amplitude),
distribuição (histogramas); outliers; mudança no tempo.

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
ANÁLISE EXPLORATÓRIA DE DADOS (AED)
VALORES DISCREPANTES (OUTLIERS)

Valor outlier (valor extremo) é aquele que se localiza muito afastado de


quase todos os demais valores.

Estes valores podem ter efeito dramático sobre:


A média.
O desvio padrão.
A escala do histograma, de modo que a verdadeira natureza da
distribuição pode ser totalmente obscurecida.

Outliers podem ser erros: devem ser corrigidos ou ignorados

Outliers podem ser corretos: devemos estudar seus efeitos, construindo


gráficos e calculando estatísticas, com e sem outliers, buscando revelar
importantes informações.

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
ANÁLISE EXPLORATÓRIA DE DADOS (AED)

DIAGRAMAS DE CAIXA (BOXPLOTS)

Para um conjunto de dados, o resumo dos cinco números consiste


no valor mínimo, primeiro quartil (Q1), mediana (Q2), terceiro quartil
(Q3) e no valor máximo.

Diagrama de caixa (diagrama de caixa e bigode) é um gráfico de


um conjunto de dados que consiste em: (1) uma linha que se estende
do valor mínimo ao valor máximo; (2) uma caixa com linhas traçadas
no primeiro quartil (Q1), na mediana (Q2) e no terceiro quartil (Q3).

Os diagramas de caixa são úteis para revelar centro, dispersão,


distribuição e outliers.

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
ANÁLISE EXPLORATÓRIA DE DADOS (AED)

18
EXEMPLO:
15 Nota mais forte
¼ dos efetivos
12
1° quartil Q1 = 11,5
¼ dos efetivos
9 Q2 = 9,5
¼ dos efetivos
3° quartil Q3 = 6,5
6

3 ¼ dos efetivos

0 Nota mais fraca

Figura 2.9 - Gráfico box-and-whisker para a


distribuição de notas da tabela 2.6.

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
ANÁLISE EXPLORATÓRIA DE DADOS (AED)

UTILIDADE DOS DIAGRAMAS DE CAIXA


Diagramas de caixa não apresentam informação tão detalhada
como histogramas e digramas de ramo e folhas.
Porém, são úteis na comparação de dois ou mais conjuntos de
dados, quando desenhados na mesma escala.

ATRIZES

Exemplo: Boxplots
para idades dos
melhores atores e ATORES
atrizes:

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
ANÁLISE EXPLORATÓRIA DE DADOS (AED)

DIAGRAMAS DE CAIXA MODIFICADOS


Diagramas de caixa modificados representam outliers com símbolos
especiais (asteriscos).

Lembrando que IIQ=Q3 Q1, um valor é outlier se está:


Acima de Q3 por uma quantidade maior do que 1,5 x IIQ.
ou
Abaixo de Q1 por uma quantidade maior do que 1,5 x IIQ.
A linha sólida horizontal se estende apenas até o menor valor dos
dados que não são outliers e até o maior valor dos dados que não são
outliers.

This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.
This document was created by an application that isn’t licensed to use novaPDF.
Purchase a license to generate PDF files without this notice.

Você também pode gostar