Você está na página 1de 22

Técnicas grácas

Aula 3 - Ajuste de distribuições

Alexandre Ribeiro Leichsenring

Daiichi Sankyo, 19 de novembro de 2010

aleleich@uol.com.br Estatística para Farmacêuticas


Técnicas grácas

Organização

1 Técnicas grácas

aleleich@uol.com.br Estatística para Farmacêuticas


Técnicas grácas

Ajuste de distribuições
Ajustar distribuições consiste em encontrar uma função
matemática que represente de uma boa maneira uma variável
estatística representada numa amostra.

Freqüentemente nos deparamos com esse problema: temos


observações de uma característica quantitativa
X1 , X2 , . . . , Xn e desejamos testar se essas observações
pertencem a uma população com uma função densidade de
probabilidade conhecida.

Podemos identicar 3 passos no ajuste de distribuições:

1 Escolha do modelo/função: fazer hipóteses sobre uma família


de distribuições;
2 Estimação dos parâmetros
3 Avaliação da qualidade do ajuste

aleleich@uol.com.br Estatística para Farmacêuticas


Técnicas grácas

A idéia deste capítulo é abordar o ajuste de distribuições lidando


brevemente com questões teóricas e práticas usando o Minitab.

O que veremos:

Técnicas grácas

Escolha do modelo/função

Estimação dos parâmetros

Medidas de qualidade de ajuste

Testes estatísticos de qualidade de ajuste mais comuns

aleleich@uol.com.br Estatística para Farmacêuticas


Técnicas grácas

Técnicas grácas
Os primeiros passos: Análise exploratória de dados!

Estatísticas descritivas (média, desvio padrão, skewness


(assimetria), kurtose, etc.)

Uso de técnicas grácas (histogramas, estimativas de


densidade, distribuição empírica) que podem sugerir o tipo de
distribuição para ser usada para ajustar o modelo.

Também pode ser uma boa idéia gerar amostras de distribuições


conhecidas e acompanhar os procedimentos de análise com essas
amostras.

aleleich@uol.com.br Estatística para Farmacêuticas


Técnicas grácas

Gerando amostras aleatórias

Podemos obter amostras de uma distribuição (tal como Normal, Poisson,


Weibull, Gamma, etc.) usando o Minitab.
Gerando amostra da distribuição normal no Minitab.
Vamos gerar uma amostra da distribuição normal que será usada como prova
para as técnicas que apresentamos adiante. Vamos gerar uma amostra de
tamanho n = 200 de uma população normal N (10, 22 ) (média 10 e desvio
padrão 2).

Solução
1 Selecione Calc ä Random Data ä Normal.
2 Em Number of rows of data to generate, digite 200 (o Minitab vai gerar
uma observação em cada linha).
3 Em Store in column(s), indique coluna C1 (se você indicar mais de uma
coluna, o Minitab vai gerar 200 linhas para cada coluna).
4 Indique a média e o desvio padrão desejados (e.g. média 10, desvio
padrão 2) nas caixas Mean e Standard deviation. Clique OK.
aleleich@uol.com.br Estatística para Farmacêuticas
Técnicas grácas

O Minitab dispõe de funções para calcular a função distribuição, a função


densidade e a função quantil das distribuições mais conhecidas:
Distribuição Nome no Minitab Parâmetros
Beta Beta First shape, Second shape
Binomial Binomial Number of trials, Event probability
Cauchy Cauchy Location, Scale
Discreta (geral) Discrete Values in, Probabilities in
Exponencial Exponential Scale, Threshold
F f Numerator df, Denominator df, df2
Gama Gamma Shape, Scale, Threshold
Geométrica Geometric Event probability
Hipergeométrica Hipergeometric Population size, Count, sample size
Laplace Laplace Location, Scale
Largest extreme value Largest extreme value Location, Scale
Logística Logistic Location, Scale
Loglogística Loglogistic Location, Scale, Threshhold
Log-normal Lognormal Location, Scale, Threshhold
Binomial negativa Negative binomial Event probability, Number of evets needed
Normal Normal Mean, Standard deviation
Poisson Poisson Mean
Qui-quadrado Chi-square Degrees of freedom
Smallest extreme value Smallest extreme value Location, Scale
T t Degrees of freedom
Triangular Triangular Lower endpoint, Mean, Upper endpoint
Uniforme (discreta) Integer Minimum value, Maximum value
Uniforme (contínua) Uniform Lower endpoint, Upper endpoint
Weibull Weibull Shape, Scale, Threshold

Tabela: Distribuições no Minitab.

aleleich@uol.com.br Estatística para Farmacêuticas


Técnicas grácas

Histograma

Histogramas podem fornecer uma intuição sobre assimetria, comportamento


das caudas, presença de comportamento multi-modal, e (outliers).
Histograma no Minitab
1 Graph ä Histogram.
2 Selecione a opção With t para desenhar uma função densidade de sua
escolha sobreposta ao histograma.
3 Em Graph variables selecione C1.
4 Em Data view, clique na aba Distribution para indicar a distribuição
densidade para ser sobreposta ao histograma (no nosso caso, deixe a
distribuição Normal - não é preciso especicar os parâmetros, pois assim
sendo, o Minitabestima os parâmetros a serem usados através dos dados).
5 Na aba Smoother é possível obter uma estimativa da densidade dos dados
- para isso, selecione a opção Lowess.
6 É possível ajustar/solicitar outras opções em Multiple Graphs e Data
Options. Clique OK.

aleleich@uol.com.br Estatística para Farmacêuticas


Técnicas grácas

Exemplo

Vamos fazer um histograma dos dados N (10, 22 ) gerados.

aleleich@uol.com.br Estatística para Farmacêuticas


Técnicas grácas

Estimação da função densidade

O Minitab não oferece uma opção direta para estimar o


gráco de densidade a partir do menu de opções.

Entretanto, é possível encontrar macros que executam esse


procedimento.

Há um arquivo com uma tal macro na página do curso na


internet; para baixar, clique no seguinte endereço:
http://www.virtualsurvey.com.br/arquivos/daiichi/
modulo3/NMODE.mac.
O arquivo NMODE.mac contém exatamente uma macro que
faz a estimativa da função densidade por kernel.

aleleich@uol.com.br Estatística para Farmacêuticas


Técnicas grácas

Exemplo
Vamos estimar a função densidade dos dados gerados.

Solução

1 Salve o arquivo na pasta de macros no diretório de instalação do


Minitab (algo como C:\Program Files\Minitab 15\English\Macros).
O arquivo deve ser salvo com o nome NMODE.mac.
2 Clique na janela da sessão (Session window) para ativá-la, e habilite
a linha de comandos do Minitab em Editor ä Enable Commands
3 Digite na linha de comandos:
MTB > %NMODE C1
onde NMODE é o nome da macro que está sendo chamada, e C1 é
a coluna onde estão os dados.
4 O Minitabvai perguntar se você deseja fazer o gráco do NÚMERO
DE MODAS vs. H. Digite Y (o procedimento pode demorar
bastante tempo):
aleleich@uol.com.br Estatística para Farmacêuticas
Técnicas grácas

MTB > Executing from file:C:\Program Files\Minitab


15\English\Macros
MACRO RUNNING--PLEASE WAIT
OUTLIERS IN THE DATA MAY BE OMITTED FROM KERNEL DENSITY PLOTS
DO YOU WANT A PRELIMINARY PLOT OF NUMBER OF MODES VS. H? (Y/N)
MAY TAKE SEVERAL MINUTES.
Y
LONG PROCEDURE--PLEASE WAIT

Figura: Número de modas versus h

aleleich@uol.com.br Estatística para Farmacêuticas


Técnicas grácas

5 O gráco do NÚMERO DE MODAS vs. H (gura 1) mostra


quantas modas tem a densidade estimada para cada valor de H. As
densidades dos dados não costumam apresentar muitas modas.
Podemos escolher valores de h que geram densidades com uma ou
duas modas.
Vemos que a partir em h = 0, 5 densidade estimada terá 2 modas e
em h = 1, terá apenas uma. Pedimos os grácos para h = 0, 5 e
h = 1:

ENTER H-VALUES FOR YOUR SELECTED KERNEL DENSITIES.


TYPE SPACE DELIMITED NUMBERS, THEN PRESS <ENTER>.
THEN TYPE <END> AND PRESS <ENTER>.
DATA> 0.5
DATA> 1
DATA> end
MACRO RUNNING--PLEASE WAIT

aleleich@uol.com.br Estatística para Farmacêuticas


Técnicas grácas

Figura: Densidades estimadas para h = 0, 5 e h = 1.

Para h=0,5 o gráco da densidade estimada é mais irregular do que


para h = 1.
Se aumentamos mais o valor de h, teremos grácos cada vez mais
regulares, mas o aumento de h pode produzir regularidades
articiais.
Ficamos com h = 1.
aleleich@uol.com.br Estatística para Farmacêuticas
Técnicas grácas

Função distribuição empírica

Denotaremos a função distribuição empírica por F (n) (x) em analogia à


notação para funções de distribuição teóricas (F (x)). Podemos dení-la
da seguinte maneira:
Pn
(n) i=1 I{Xi ≤x}
F (x) =
n
Ou seja, F (n) (x) é a proporção de pontos na amostra que são menores ou
iguais a x. É uma função step, que cresce 1/n em cada ponto da amostra
ordenada. Lembramos que a função distribuição teórica é denida como:
Z x
F (x) = P(X ≤ x) = f (u)du
−∞

onde f é a função densidade da variável aleatória.

aleleich@uol.com.br Estatística para Farmacêuticas


Técnicas grácas

Exemplo

Vamos calcular a função distribuição empírica dos dados gerados da


normal através do Minitab.

Solução No Minitabpodemos calcular F (n) (x) através da opção

Graph ä Empirical CDF no menu:

1 Selecione Graph ä Empirical CDF ä Single.

2 Em Graph variable(s) selecione C1

3 Clique na opção Distribution e selecione a distribuição normal


(não é preciso indicar os parâmetros, eles serão estimados a
partir da amostra).

4 Clique OK.

aleleich@uol.com.br Estatística para Farmacêuticas


Técnicas grácas

Figura: Distribuição empírica da N (10, 22 )

aleleich@uol.com.br Estatística para Farmacêuticas


Técnicas grácas

Gráco de probabilidade

O gráco de probabilidade é uma técnica gráca para


determinar se um conjunto de dados provém de uma
distribuição especicada.

É basicamente um gráco de dispersão, plotando o valor de


cada observação contra o valor estimado de sua distribuição de
probabilidade (acumulada).

Porém, os eixos do gráco têm uma escala tal que se os dados


têm a distribuição especicada, os pontos do gráco estarão
dispostos aproximadamente em uma linha reta, a linha de
referência, que é marcada no gráco.

Quanto maior o desvio dos pontos em relação à linha de


referência, maior a evidência de que os dados não provêm da
distribuição teórica suposta.

aleleich@uol.com.br Estatística para Farmacêuticas


Técnicas grácas

Exemplo

Vamos fazer o gráco de probabilidades para a normal para os


dados simulados.

Solução Os grácos de probabilidade são encontrados na aba Graph


sob o nome Probability Plot. Para gerar um gráco de
probabilidade no Minitab, fazemos:

1 Selecione Graph ä Probability Plot ä Single.

2 Em Graph variables selecione a coluna C1.

3 Na opção Distribution selecione a distribuição normal (não é


preciso indicar os parâmetros, eles serão estimados a partir da
amostra).

4 Clique OK.

aleleich@uol.com.br Estatística para Farmacêuticas


Técnicas grácas

Figura: Gráco de probabilidade da amostra N (10, 2)

aleleich@uol.com.br Estatística para Farmacêuticas


Técnicas grácas

Resumo

aleleich@uol.com.br Estatística para Farmacêuticas


Técnicas grácas

Exercício
1 Gere dados de uma distribuição não-normal qualquer da
tabela de distribuições do Minitab.

2 Faça o histograma e compare com o histograma da


distribuição normal.

3 Estime a função densidade através da macro NMODE.mac.

4 Calcule a função distribuição empírica dos dados gerados.

5 Faça o gráco de probabilidade normal para os seus dados.

6 Faça o gráco de probabilidade da distribuição da qual você


gerou os dados (através da opção Distribution, indique a
verdadeira distribuição dos dados).

aleleich@uol.com.br Estatística para Farmacêuticas

Você também pode gostar