Você está na página 1de 38

INTRODUÇÃO: CONCEITOS BÁSICOS EM

MÉTODOS NÃO PARAMÉTRICOS

Curso: Estatı́stica (Bacharelado)


Disciplina: Métodos não paramétricos
Profa.: Amanda Buosi Gazon Milani

IME - UFG

Aula: 27/09/2023

Aula: 27/09/2023 1 / 38
Métodos Não Paramétricos

Na prática experimental é comum o surgimento de situações em que não se


tem o conhecimento da distribuição dos dados, e mesmo que tiver conheci-
mento, os mesmos podem não ter distribuição normal.
A alta dispersão ou até mesmo assimetria, ou ambos, fazem com que o trato
com os dados seja dificultado.
Geralmente, nestes casos, existem técnicas de transformações nos dados que
produzem novos dados cuja distribuição se aproxime da normal.
Caso isto não seja possı́vel as técnicas não-paramétricas são uma
alternativa para análise estatı́stica.
Um teste não-paramétrico é aquele cujo modelo não especifica condições sobre
os parâmetros da população da qual a amostra foi obtida.

Aula: 27/09/2023 2 / 38
Principais razões e restrições para o uso

(1) São menos exigentes, menos restritivos, do que os testes paramétricos,


pois dispensam a normalidade dos dados.
(2) Independem da forma da população da qual a amostra foi obtida.
(3) Os cálculos são relativamente fáceis.
(4) Alguns testes não-paramétricos permitem trabalhar com dados de
diferentes populações, ao contrário dos paramétricos.

Aula: 27/09/2023 3 / 38
Principais razões e restrições para o uso

(5) São úteis nos casos em que é difı́cil estabelecer uma escala de valores
quantitativos para os dados, por exemplo, escalas ordinais quanti-
tativas ou qualitativas.
(6) São mais eficientes que os paramétricos quando não há pressu-
posição de normalidade - Os testes paramétricos são mais poderosos
se os pressupostos são verificados.
(7) Os testes não paramétricos tendem a perder informação, pois os
dados numéricos são frequentemente reduzidos a uma forma quali-
tativa.

Aula: 27/09/2023 4 / 38
Conceitos

Os testes não-paramétricos são boas opções para situações em que ocorrem


violações dos pressupostos básicos necessários para a aplicação de um teste
paramétrico.
Por exemplo, para testar a diferença de dois ou mais grupos quando a dis-
tribuição é assimétrica ou quando os dados foram coletados em uma escala
ordinal.
Outra opção quando a distribuição é assimétrica é o uso de modelos mais
modernos para dados assimétricos.

Aula: 27/09/2023 5 / 38
Conceitos

Às vezes, é preciso comparar duas populações. Por exemplo:


Imagine que um pesquisador obteve, para um grande número de crianças, a
idade em que cada uma delas começou a falar.
Para verificar se meninos e meninas aprendem a falar na mesma idade, o
pesquisador terá que comparar os dados dos dois sexos.

Aula: 27/09/2023 6 / 38
Conceitos

Também existem situações onde é preciso comparar condições experimentais. Por


exemplo:
Para saber se um tratamento tem efeito positivo, organizam-se dois grupos
de unidades: um grupo recebe o tratamento em teste (é o grupo tratado),
enquanto o outro não recebe o tratamento (é o grupo controle).
O efeito do tratamento é dado pela comparação dos dois grupos.

Aula: 27/09/2023 7 / 38
Conceitos

Frequentemente, para comparação de dois tratamentos observam-se caracterı́sticas


ou mede–se o valor da variável resposta de interesse que as caracterı́sticas impor-
tantes dos indivı́duos que integram o mesmo par sejam tão semelhantes quanto
possı́vel.
O tratamento é administrado a um dos elementos do par e o outro é mantido
como controle.
A vantagem do procedimento é que os indivı́duos no par são semelhantes,
exceto no que se refere ao tratamento recebido.
Em algumas situações o par é constituı́do do mesmo indivı́duo em duas
ocasiões diferentes (amostras dependentes).

Aula: 27/09/2023 8 / 38
Conceitos

A suposição de normalidade é necessária em alguns testes estatı́sticos.


Se verificarmos normalidade dos dados então optamos por testes paramétricos.

Aula: 27/09/2023 9 / 38
Teste de Hipóteses

O teste de hipotese se dá pela tomada de decisão relativa a um problema de


interesse.

Por exemplo, suponha que queremos verificar se há associação entre um fator de
risco (tabagismo) e uma doença (câncer) em experimentação médica.

Tabagismo
Câncer Sim Não Total
Casos 80 5 85
Controle 15 30 45
Total 95 35 130

Aula: 27/09/2023 10 / 38
Teste de Hipóteses

Vocês se lembram das etapas de um teste de hipóteses?

Aula: 27/09/2023 11 / 38
Teste de Hipóteses

Etapas de um teste de hipóteses:


1 Enunciamos as hipóteses - H0 e H1 .
2 Fixamos o nı́vel de significância (α) do teste.
3 Escolhemos a estatı́stica teste de acordo com a situação.
4 Obtemos os valores crı́ticos (valores tabelados) e apresentamos a região crı́tica.
5 Calculamos o valor que a estatı́stica de teste assume.
6 Por fim, temos a conclusão e tomada de decisão.

Aula: 27/09/2023 12 / 38
Testes equivalentes

Definição: Dois testes são equivalentes (T1 ≡ T2) quando um rejeita H0 e o


outro também rejeita e vice-versa.

Aula: 27/09/2023 13 / 38
Estatı́sticas de ordem

Definição: Sejam X1 , X2 , . . . , Xn observações, constituindo uma amostra. Os val-


ores X(1) , X(2) , . . . , X(n) obtidos das observações, quando organizadas em ordem
crescente, constituem as estatı́sticas de ordem. São denominadas “Postos” ou
“Ranks” quando os valores assumem suas posições.
Exemplo: Seja X = {23, 15, 5, 41, 10}. Em ordem crescente temos
X ∗ = {5, 10, 15, 23, 41} cujos ranks são X R = {4, 3, 1, 5, 2}.
Exemplo: No caso de empate, toma-se a média dos postos, digamos que:
X = {10, 5, 10, 23, 15, 23}. Em ordem crescente temos
X ∗ = {5, 10, 10, 15, 23, 23}; tem-se X R : {2.5, 1.0, 2.5, 5.5, 4.0, 5.5}
No programa R utilize o comando rank(x).

Aula: 27/09/2023 14 / 38
Escalas de Medidas

Nos teste não-paramétricos são empregados as seguintes escalas:


Nominal: Utiliza números apenas como meio de distinguir elementos ou suas
propriedades em diferentes classes ou categorias
Exemplo: Podemos ter as categorias “sim (1)” e “não (0)”.

Aula: 27/09/2023 15 / 38
Escalas de Medidas

Ordinal: Classificam os elementos, numa ordem crescente ou decrescente


Exemplo: Podemos ter as categorias “ruim (1)”, “bom (2)” e “ótimo
(3)”.
Em geral, para a classificação ordinal usamos a escala de Likert.
Ao contrário das perguntas sim/não, a escala de Likert nos permite
medir as atitudes e conhecer o grau de conformidade do entrevistado
com qualquer afirmação proposta.
Neste caso, podemos capturar a intensidade dos sentimentos dos
respondentes.

Aula: 27/09/2023 16 / 38
Escalas de Medidas

Exemplo: Assinale sua opinião sobre o aborto:


1 ( ) Não concordo totalmente
2 ( ) Não concordo parcialmente
3 ( ) Indiferente
4 ( ) Concordo parcialmente
5 ( ) Concordo totalmente

Aula: 27/09/2023 17 / 38
Escalas de medidas

Escala intervalar (Intervalo de medida): Envolve uma unidade de medida


e contém um ponto convencional de referência, “o zero”. Ex. medidas de
temperaturas.

Escala de razão (Relação de medidas): Leva em conta a ordem, o intervalo


e a relação entre duas medidas. Se dizemos que “esta quantidade é três vezes
aquela”, estamos utilizando uma escala de relação de medidas. Seu emprego
se verifica em medidas de: peso, altura, rendimentos, etc.

Aula: 27/09/2023 18 / 38
TESTES DE HIPÓTESES APLICÁVEIS A UMA
AMOSTRA

Curso: Estatı́stica (Bacharelado)


Disciplina: Métodos não paramétricos
Profa.: Amanda Buosi Gazon Milani

IME - UFG

Aula: 27/09/2023

Aula: 27/09/2023 19 / 38
Hipótese a ser testada

Na prática não podemos fazer suposições arbitrárias a respeito da distribuição


de probabilidade dos dados.

Então usamos de técnicas para fazer uma verificação da adequação do


modelo suposto.

Suponha que X1 , X2 , . . . , Xn seja uma a.a. selecionada de uma f.d.p. descon-


hecida, e que se deseje testar a hipótese:

H0 : Os dados seguem a distribuição Normal.

Aula: 27/09/2023 20 / 38
Hipótese a ser testada

A verificação da adequação do modelo pode ser baseada em:


1 caracterı́sticas do modelo;
2 gráficos;
3 testes de aderência.

Aula: 27/09/2023 21 / 38
Caracterı́stica do modelo
Para a distribuição Normal, em especial, temos que:

Aula: 27/09/2023 22 / 38
Caracterı́stica do modelo

Grandes discrepâncias entre as frequências observadas e as probabilidades


teóricas acima citadas, indicam uma possı́vel falta de adequação modelo gaus-
siano:
(x − µ)2
 
1
f (x) = √ exp − ,
σ 2π 2σ 2
onde µ é a média e σ é o desvio padrão.
Lembrando que Z ∞
f (x)dx = 1 = 100%.
−∞

Aula: 27/09/2023 23 / 38
Gráficos - Histogramas

Alguns testes gráficos são utilizados como auxiliares na determinação de nor-


malidade ou aderência dos dados a uma distribuição.
Inicialmente um simples histograma pode nos indicar se a amostra segue uma
distribuição normal.
O histograma é um gráfico de barras justapostas em que no eixo horizontal
está a variável de interesse dividida em classes e no eixo vertical a frequência
da classe correspondente.
Através do histograma, buscamos verificar se a forma de sino da distribuição
Normal está presente.

Aula: 27/09/2023 24 / 38
Gráficos - Histogramas
Aqui, temos dois exemplos de histogramas provenientes de amostras de tamanho 100.
Na 1ª figura os dados foram gerados de uma distribuição Normal e na 2ª por uma χ23 .
Verifica-se que a forma simétrica da Normal está presente na 1ª figura, mas não na 2ª
figura, como esperado.
Normal Qui−Quadrado

35
20

30
25
15

20
Frequência

Frequência
10

15
10
5

5
0

−2 −1 0 1 2 0 5 10 15

Dados Dados

Aula: 27/09/2023 25 / 38
Gráficos - Box Plot

Outro gráfico que também pode ser utilizado para avaliar a normalidade de uma
variável é o Box Plot.
O grande objetivo é verificar a distribuição dos dados.
Assim, as conclusões que tiramos ao analisar um box plot são:
centro dos dados (mediana);
a amplitude dos dados (máximo - mı́nimo);
a simetria ou assimetria do conjunto de dados;
presença de outliers.

Aula: 27/09/2023 26 / 38
Gráficos - Box Plot

Aula: 27/09/2023 27 / 38
Gráficos - Box Plot

A posição da linha mediana no retângulo informa sobre a assimetria da dis-


tribuição.
Uma distribuição simétrica teria a mediana no centro do retângulo.
Se a mediana é próxima de Q1, então, os dados são positivamente as-
simétricos.
Se a mediana é próxima de Q3 os dados são negativamente assimétricos.
O centro da distribuição é indicado pela linha da mediana, no centro do
quadrado.
A dispersão é representada pela amplitude do gráfico, que pode ser calculada
como máximo valor-mı́nimo valor.
Quanto maior for a amplitude, maior a variação nos dados.

Aula: 27/09/2023 28 / 38
Gráficos - Box Plot

Os outliers em um box plot aparecem como pontos ou asteriscos fora das


“linhas” desenhadas.
Os outliers serão os valores fora do intervalo

[Q1 − 1.5 ∗ (Q3 − Q1), Q3 + 1.5 ∗ (Q3 − Q1)]

Aula: 27/09/2023 29 / 38
Gráficos - Box Plot (outliers)
Neste exemplo, a distribuição dos dados é simétrica (observe a mediana) e temos
um outlier.

Aula: 27/09/2023 30 / 38
Gráficos - Box Plot (outliers)

Quando construimos um Box Plot e verificamos assimetria nos dados então pos-
sivelmente a variável em estudo não tem distribuição normal.
Mas é importante aplicar outros métodos gráficos (ou teste de aderência) para
a tomada de decisão.

Aula: 27/09/2023 31 / 38
Gráficos - Box Plot

Aqui, temos dois exemplos de box plot provenientes de amostras de tamanho 100.
Na 1ª figura os dados foram gerados de uma distribuição Normal e na 2ª por uma χ23 .
Normal Qui−Quadrado


2

15


1

10

Dados

Dados
0

5
−1
−2

Variável Variável

Aula: 27/09/2023 32 / 38
Gráficos - QQPlots

O gráfico Quantil-Quantil (ou QQPlot) também pode ser utilizado para avaliar a
normalidade de uma variável.
Vocês se lembram o que são quantis?

Aula: 27/09/2023 33 / 38
Gráficos - QQPlots

Quantis são pontos estabelecidos em intervalos a partir da função distribuição


acumulada de uma variável aleatória.

Aula: 27/09/2023 34 / 38
Gráficos - QQPlots

Considere o modelo normal com média µ e variância σ 2 . Se X ∼ N(µ, σ 2 ) então

X −µ
Z= ∼ N(0, 1).
σ
Vamos denotar a distribuição acumulada de Z por Φ.

Se F é a função de distribuição acumulada de X ∼ N(µ, σ 2 ) então


 
x −µ
F (x) = Φ = Φ(z).
σ

Aplicando a função Φ−1 em ambos os lados da igualdade temos


  
x −µ x −µ
Φ−1 [F (x)] = Φ−1 Φ = .
σ σ

Aula: 27/09/2023 35 / 38
Gráficos - QQPlots

Daı́ temos que

x = σΦ−1 (F (x)) + µ, (1)

onde Φ−1 (F (x)) é o quantil da distribuição N(0, 1), calculado no ponto F (x).

Como a expressão (1) tem o formato de uma expressão linear, ao fazermos o


gráfico entre x e Φ−1 (F (x)) devemos esperar um comportamento linear dos
pontos, se a distribuição Normal for realmente adequada.
Com isso, construı́mos QQPlot.

Aula: 27/09/2023 36 / 38
Gráficos - QQPlots

Neste gráfico, no eixo horizontal tem-se os valores observados da variável, e no


eixo vertical, os valores esperados caso a variável tenha distribuição Normal.
É um gráfico dos quantis observados da amostra versus quantis
teóricos da distribuição normal padrão.

Se há uma boa aderência dos dados à distribuição Normal os pontos estão
próximos a reta de referência apresentada no gráfico.
Ou seja, quando a configuração de pontos no gráfico se aproxima de
uma reta, a suposição de normalidade é sustentável.

Aula: 27/09/2023 37 / 38
Gráficos - QQPlots
Aqui, temos dois exemplos de QQPlots provenientes de amostras de tamanho 100.
Na 1ª figura os dados foram gerados de uma distribuição Normal e na 2ª por uma χ23 .
Verificamos que os pontos se aproximam bem da reta no caso da variável com distribuição
Normal, mas há um grande desvio para a variável com distribuição χ2 .
Normal Qui−Quadrado

● ●


2

15


● ● ● ●
●●
●●●
1

●●
●●

● ●
●●●●●
●●
Quantis observados

Quantis observados
●●

10

● ●
●●

●●

●●

● ●

●● ●

● ●●

0

● ●
●●

●●
●● ●
●● ●



● ●●●

●●
●●
● ●
●●
●● ●
●●●
●● ●
● ●●
●● ●●●

5
●●

●●●●
●●
−1

●●
●●
●● ●
●●

●●

●● ●

●●● ●
●●



●● ●
●●

●●● ●
●● ●●
●●
●●
●● ●●
●●
●●
●●
● ●●
●●●
●●●
● ●●●●●●
●●●●
−2

●●
●●●●●●
● ● ● ● ● ●●
● ●
0

−2 −1 0 1 2 −2 −1 0 1 2

Quantis teóricos Quantis teóricos

Aula: 27/09/2023 38 / 38

Você também pode gostar