Você está na página 1de 50

Universidade Federal de Santa Catarina

Centro Tecnológico de Joinville – CTJ


Dep. de Engenharias da Mobilidade – EMB

EMB 5010
Estatística e probabilidade para engenharia

Análise exploratória de dados


APRESENTAÇÃO

Prof. Luís Fernando Peres Calil


fernando.calil@ufsc.br
Análise exploratória de dados

Estatística descritiva
&
Análise exploratória de dados

Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia


Análise exploratória de dados
Estatística descritiva: O que é?

 A estatística descritiva procura organizar e


apresentar os dados de maneira mais adequada
para se fazer uma análise.
 Normalmente faz uso de grafos como:
histograma, gráfico de setores, etc.

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Análise exploratória de dados: O que é?

 Na análise exploratória de dados, além de


descrever os dados, buscamos conhecer
características do processo, com base nos dados.
 Hoje também se usa a expressão mineração de
dados (data mining).

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Dados e variáveis

 A distribuição de frequências consiste na


organização dos dados de acordo com as
ocorrências dos diferentes resultados observados.
 Pode ser apresentada em tabela ou gráfico.

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados

Análise de variáveis qualitativas

Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia


Análise exploratória de dados
Análise de variáveis qualitativas
 Pretende-se conhecer o perfil de clientes de um sítio
na internet. Para tanto, identificou-se quais os
provedores acessados pelos usuários:

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Análise de variáveis qualitativas
 Tabelas de frequência: basta contar o número de
ocorrência de cada categoria.

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Análise de variáveis qualitativas
 Gráfico de colunas para a apresentação da
distribuição de frequências do provedor usado pelo
visitante do sítio da internet.

ou de barras
horizontais

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Análise de variáveis qualitativas
 Gráfico de setores para a apresentação da
distribuição de frequências do provedor usado pelo
visitante do sítio da internet.

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Análise de variáveis qualitativas
 Gráfico de Pareto

Fonte: <http://erc.msh.org/quality/graphics/pareto.gif>
20% das causas

resultam em

80% dos problemas!!

Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia


Análise exploratória de dados

Análise de variáveis quantitativas

Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia


Análise exploratória de dados
Análise de variáveis quantitativas discretas
 Gráfico de frequência de variáveis discretas
Contagem de defeitos em cada unidade de um produto (amostra
de 50 unidades)
Freq.

Fonte: Barbetta, Reis e Bornia (2009)


Número de defeitos
Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Análise de variáveis quantitativas contínuas
 Distribuição de frequência de variáveis contínuas

Dividir os dados
em classes
(mutualmente
exclusivas e
preferencialmente
de mesmo
tamanho)

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Análise de variáveis quantitativas contínuas
 Tabela de frequência

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Análise de variáveis quantitativas contínuas
 Histograma

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Análise de variáveis quantitativas contínuas
 Frequência acumulada

Fonte: <http://www.mspc.eng.br/matm/im02/stat_hist_02.png>
Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Análise de variáveis quantitativas contínuas
 Diagrama de pontos

Fonte: <http://www.sigmazone.com/Clemens_Bonds_HypothesisTest.htm>
Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Análise de variáveis quantitativas contínuas
 Diagrama ramo-e-folha
(stem and leaf plot)

No ramo se representa os
primeiros dígitos de cada
dado e
nas folhas o último

Fonte: <http://mainland.cctt.org/mathsummer/JosephBond/StemAndPlots/images/table2.gif>
Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados

Características de uma distribuição

Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia


Análise exploratória de dados
Características de uma distribuição
 Histograma & curva de distribuição de frequência

Fonte: <http://portal.ferramentasdaqualidade.com/histograma.html>
Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Características de uma distribuição
 Curvas de distribuição de frequência

Diferentes posições centrais Diferentes dispersões

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Características de uma distribuição
 Curvas de distribuição de frequência

Diferentes assimetrias Diferentes curtoses


(skewness)

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados

Medidas descritivas
clássicas

Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia


Análise exploratória de dados
Medidas descritivas

 Média aritmética: uma medida de posição central.

Estimador

É o momento de primeira
ordem em relação à origem.
N
1
=
N
∑  x i−0 1

i=1
Fonte: adaptado de Barbetta, Reis e Bornia (2009)
Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Medidas descritivas

 Exemplo 1: Avaliação do rendimento de um processo


químico.

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Medidas descritivas
 Exemplo 1: rendimento de um processo químico.

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Medidas descritivas

 Exemplo 2: notas dos alunos de três turmas.

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Medidas descritivas

 Exemplo 2: notas dos alunos de três turmas.

Como medir a dispersão?

Turma A

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Medidas descritivas

 Variância: uma medida de dispersão (estimador).

Estimador

É o momento de segunda
ordem em relação à média
(segundo momento central)
Fonte: adaptado de Barbetta, Reis e Bornia (2009)
Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Medidas descritivas
 Exemplo 2: notas dos alunos de três turmas.
Turma A

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Medidas descritivas
 Exemplo 2: notas dos alunos de três turmas.

Turma A

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Medidas descritivas
 Exemplo 1: rendimento de um processo químico.

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Medidas descritivas
 Exemplo 2: notas dos alunos de três turmas.
Outra forma de se calcular o desvio padrão

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Medidas descritivas
 Assimetria (skewness): medida do grau de assimetria da distribuição.

• Terceiro momento central


• Dist. Normal → Assimetria = 0

Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia


Análise exploratória de dados
Medidas descritivas
 Curtose (kurtosis): medida de quão “pontiaguda” é a distribuição.

• Quarto momento central


• Dist. Normal → excesso de curtose = 0

Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia


Análise exploratória de dados

Medidas descritivas
baseadas na ordenação de dados

Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia


Análise exploratória de dados
Medidas descritivas
 Mediana, quartis e extremos

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Medidas descritivas
 Mediana, quartis e extremos

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Medidas descritivas
 Exemplo

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Medidas descritivas
 Comparação entre média e mediana

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Medidas descritivas
 Comparação entre média e mediana

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Medidas descritivas
 Diagrama em caixa (boxplot)

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Medidas descritivas
 Diagrama em caixa (boxplot)

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados
Medidas descritivas
 Exemplo

Fonte: Barbetta, Reis e Bornia (2009)


Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia
Análise exploratória de dados

Observações ao longo do tempo

Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia


Análise exploratória de dados
Observações ao longo do tempo
 Exemplo: todos os dias é retirada uma amostra de dez
sacos de leite de um laticínio, durante 23 dias. Quer-se
acompanhar o nível e a variabilidade do peso.

Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia


Análise exploratória de dados
Observações ao longo do tempo
 Exemplo: variabilidade da produção de leite.

Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia


Análise exploratória de dados

Referências

Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia


Análise exploratória de dados
Referências

BARBETTA, P. A., REIS, M. M. & BORNIA, A. C. Estatística para Cursos de


Engenharia e Informática. 2ª ed., Editora Atlas, São Paulo, 2009.
NIST (National Institute of Standards and Technology). SEMATECH (Semiconductor
Manufacturing Technology). e-Handbook of statistical methods: assessing product
reliability. [S.l.], 2003. Disponível em:
<http://www.itl.nist.gov/div898/handbook%-/toolaids/pff/index.htm>. Acesso em: 10
ago. 2004.

Centro Tecnológico de Joinville EMB 5010 – Estatística e probabilidade para engenharia

Você também pode gostar