Você está na página 1de 39

MAT02282 - ANÁLISE ESTATÍSTICA

NÃO PARAMÉTRICA

INTRODUÇÃO À INFERÊNCIA
ESTATÍSTICA NÃO PARAMÉTRICA

Profª. Lisiane Selau


Inferência Estatística

• Principais assuntos da Inferência Estatística

• estimação de parâmetros

• testes de hipóteses

• As técnicas de inferência fazem diversas suposições


sobre a natureza da população.

• Como os valores relacionados com a população são


denominados parâmetros, tais técnicas estatísticas
foram denominadas de paramétricas.

2 Profª. Lisiane Selau


Teste de Hipóteses

• Uma regra que determina quando uma hipótese estatística

deve ser rejeitada.

• Uma hipótese estatística é uma conjectura sobre a

distribuição de uma ou mais variáveis na população de


interesse e ou parâmetros desta distribuição.

• É formado por duas hipóteses complementares. Uma

destas hipóteses é chamada de Hipótese Nula (H0) e a


outra de Hipótese Alternativa (H1).

3 Profª. Lisiane Selau


Lógica dos Testes de Hipóteses

Hipótese: um novo medicamento é eficaz no controle da pressão arterial

Questão a ser feita Decisão a ser tomada

População  = 130 mmHg Não rejeitar a


Valor hipótese
hipotético do Qual é a magnitude da
parâmetro. diferença entre o valor Diferença pequena
observado da
estatística e o valor
hipotético do Diferença grande
parâmetro?
Amostra
Valor Rejeitar a
observado da x = 135 mmHg hipótese
estatística.
4 Profª. Lisiane Selau
Hipóteses
Exemplo: Para verificar se uma nova droga é eficaz no tratamento
da pressão alta, a pressão média de um grupo de pacientes
submetidos a esta droga (amostra) é comparada com um valor
que é considerado normal (valor padrão).

Uma população

Uma amostra

Uma estimativa (x) do parâmetro de interesse ()

Um valor conhecido e comprovado (0)


H 0 :μ  μ 0
H A :μ  μ 0 Bilateral
Escolher
uma das três μ  μ0 Unilateral direita
μ  μ0 Unilateral esquerda
5 Profª. Lisiane Selau
Hipóteses
Exemplo: Para verificar, entre métodos de ensino, qual dá
melhor desempenho quanto ao aprendizado dos alunos,
comparamos as notas dos alunos de duas turmas (duas
amostras), cada uma submetida a um método de ensino.
População 1 População 2

Amostra 1 Amostra 2

Estimativa de 1 Estimativa de 2
x1 x2
H 0 : μ1  μ 2
H A : μ1  μ 2 Bilateral
Escolher
uma das três μ1  μ 2 Unilateral direita
μ1  μ 2 Unilateral esquerda
6 Profª. Lisiane Selau
Exemplo 1: Teste unilateral

Problema científico: Um novo medicamento é eficaz no


controle da pressão arterial?

População C – hipertensos com uso do medicamento C


População S – hipertensos sem uso do medicamento S

Variável em estudo  X: pressão arterial


Hipóteses estatísticas:
H 0 :μ C  μ S
HA : μC  μS Unilateral

Quando temos motivos suficientes para supor que uma


das médias será maior que a outra, podemos formular
uma hipótese alternativa unilateral (mais específica).
7 Profª. Lisiane Selau
Exemplo 2: Teste bilateral

Problema científico: O método de ensino A é melhor que o


método de ensino B?
População A – alunos ensinados pelo método A A
População B – alunos ensinados pelo método B B
Variável em estudo  X: notas dos alunos

Hipóteses estatísticas:
H 0 :μ A  μ B
H A :μ A  μ B Bilateral

Quando não temos motivos suficientes para supor que


uma das médias será maior que a outra, formulamos uma
hipótese alternativa bilateral (mais genérica).
8 Profª. Lisiane Selau
Objetivo: verificar a hipótese

Podemos verificar a hipótese de duas formas:


 avaliar as populações inteiras (todos os alunos ensinados
pelos dois métodos ou todas os hipertensos com e sem uso do
medicamento) e comparar suas médias
 avaliar amostras retiradas das populações e utilizar um
teste estatístico que compare as médias das amostras

Devemos considerar:
 seria impossível avaliar todos os alunos ou todos os
hipertensos
 o processo de amostragem pode fornecer precisão
suficiente
Será muito mais econômico e menos trabalhoso
utilizar amostras das populações.
9 Profª. Lisiane Selau
Definições

• Estatística do Teste: função dos dados observados,


utilizada para testar a hipótese nula contra a hipótese
alternativa.
• Distribuição Amostral: é a distribuição de probabilidades
da estatística do teste supondo que a hipótese nula é
verdadeira. É a distribuição utilizada para definir a região
crítica e/ou o p-valor do teste.
• Região Crítica do Teste: possíveis valores da estatística
do teste que levam a decisão de rejeitar a hipótese nula
H0. A região crítica depende da distribuição amostral da
estatística de teste, do nível de significância 
determinado e das hipóteses definidas.
10 Profª. Lisiane Selau
Definições
• Nível Descritivo Amostral (p-valor): probabilidade de se
observar um valor igual ou mais extremo ao valor calculado
para a estatística do teste (com os dados amostrais) supondo
H0 verdadeira. Esta probabilidade indica a força de evidência
de que H0 seja verdadeira. Quando esta evidência é muita
baixa (menor que o  do teste) deve-se rejeitar H0.
• Teste (Regra de Decisão): existem duas maneiras
equivalentes de enunciar a regra de decisão de qualquer
teste de hipóteses.
1. Rejeita H0 se o valor calculado para a estatística do teste
(com os dados amostrais) pertencer à região crítica do teste.
2. Rejeita H0 se o p-valor calculado for menor que o valor 
fixado.
11 Profª. Lisiane Selau
Tipos de Erros
Exemplo: Suponha que um grupo econômico queira financiar a
campanha do candidato X, se esse tiver condições de se eleger
no primeiro turno.
O grupo econômico deve financiar a campanha do candidato X?
Hipótese Decisão

O candidato se Investir na Não investir na


elege no primeiro campanha campanha
turno
Hipótese Decisão correta Erro 1
Verdadeira Investe e ganha Não investe e se elege

Hipótese Erro 2 Decisão correta


Falsa Investe e perde Não investe e não ganha

12 Profª. Lisiane Selau


Tipos de Erros
Decisão do juiz
Réu
H 0 : réu inocente Não condenar Condenar
H A : réu culpado Inocente Acerto Erro 1
Culpado Erro 2 Acerto

Decisão
H0
Não rejeitar Rejeitar
H 0 :μ A  μ B
H A :μ A  μB Verdadeira Acerto Erro Tipo I
Falsa Erro Tipo II Acerto

 = Erro Tipo I: Declarar diferença quando ela não existe


 = Erro Tipo II: Não declarar diferença quando ela existe
13 Profª. Lisiane Selau
Importante!!!
 As duas taxas de erro  e  estão relacionadas negativamente,
de modo que a redução de  implica no aumento de  e vice-versa.

 O único meio de reduzir ambos os tipos de erro é aumentando o


tamanho da amostra, o que nem sempre é viável.
 Em geral, a preocupação está voltada para o erro tipo I ( - nível
de significância), pois na maioria dos casos ele é considerado o
mais grave.
DECISÃO
REALIDADE Aceitar H0 Rejeitar H0
Decisão correta Erro do Tipo I
H0 é verdadeira 1 -  = P(Aceitar H0 / H0 é V)  = P(Rejeitar H0 / H0 é V) = Nível de
= P(H0 / H0) significância do teste = P(H1 / H0)
Erro do Tipo II Decisão correta
H0 é falsa  = P(Aceitar H0 / H0 é falsa) = 1 -  = P(Rejeitar H0 / H0 é falsa) =
P(Aceitar H0 /H1 é V) = P(H0 /H1) P(H1 / H1) = Poder do teste.

14 Profª. Lisiane Selau


Passos para construção de um teste de
hipóteses
1. Definir as hipóteses estatísticas.

2. Fixar a taxa de erro aceitável ( - nível de significância).

3. Escolher a estatística para testar a hipótese e


verificar as pressuposições para o seu uso.
4. Usar as observações da amostra para calcular o valor
da estatística do teste.
5. Decidir sobre a hipótese testada e concluir.

15 Profª. Lisiane Selau


Estatística Não Paramétrica

• A Estatística Não Paramétrica é bastante recente. Seu


maior crescimento ocorreu nos últimos 50 anos.

• Um teste não paramétrico é aquele cujo modelo não


especifica condições sobre os parâmetros da população
da qual a amostra foi obtida, ou não especifica condições
tão rígidas sobre a distribuição dos dados.

• A estatística não paramétrica moderna trata de assuntos


mais abrangentes tais como estimação de distribuições de
probabilidades e modelagem estatística.

16 Profª. Lisiane Selau


Algumas vantagens

• São menos exigentes do que os paramétricos.


Dispensam, por exemplo, a normalidade dos dados;
• São utilizados nos casos em que é difícil estabelecer
uma escala de valores quantitativos para os dados.
O pesquisador pode apenas dizer que um dado tem mais
ou menos da característica analisada, sem precisar ou
quantificar as diferenças;
• Em resumo, são úteis para análise de dados que não
satisfazem os pressupostos teóricos impostos pelas
técnicas de análise da estatística paramétrica ou ainda no
tratamento de dados cuja escala de medida das
observações é de baixo nível (escala nominal ou ordinal).
17 Profª. Lisiane Selau
Algumas restrições

• Em geral não levam em consideração a magnitude dos


dados. É muito comum transformar os dados, de valores
para simples ordem ou sinais. Em muitos casos isso se
traduz num desperdício de informações.

• Quando todas as exigências do modelo estatístico estão


satisfeitas, o teste paramétrico tem mais poder.

• Em geral, não permitem testar interações. Isto restringe a


sua aplicação aos modelos mais simples.

• A obtenção, utilização e interpretação das tabelas


(distribuições de probabilidade) são mais complexas.
18 Profª. Lisiane Selau
Tipos de Testes

• Na literatura é possível encontrar diversos testes


estatísticos classificados como não paramétricos.
• Para a escolha do teste estatístico adequado para
determinada situação alguns fatores devem ser
considerados.
• o tamanho das amostras a serem analisadas,

• a escala de medida da variável de interesse e

• a maneira como as amostras foram extraídas da população.

19 Profª. Lisiane Selau


Escalas de Medida

As variáveis podem ser expressas em quatro escalas


distintas:

 Nominal

 Ordinal

 Intervalar

 Racional (de razão)

20 Profª. Lisiane Selau


Escalas Nominal
Exemplos
 Sexo de estudantes (1 - Masculino, 2 - Feminino);
 Respostas do tipo sim ou não (0 - Não, 1 - Sim);
 Nomes de cidades (1 - Porto Alegre, 2 - Canoas,
3 - Viamão, 4 - Cachoeirinha, ...).

 Não é possível estabelecer


qualquer relação de ordem entre eles
Dados expressos  Números não têm nenhum
em escala nominal significado para efeito de cálculos.
Apenas a contagem por categoria faz
sentido.
21 Profª. Lisiane Selau
Escalas Ordinal
Exemplos
 Grau de instrução:
1 - fundamental, 2 - médio, 3 - graduação e 4 - pós-graduação
 Classificação de alunos num teste de estatística:
1 - ruim, 2 - regular, 3 - bom e 4 - muito bom
 Faixa etária:
1 - criança, 2 - jovem, 3 - adulto e 4 - idoso

 É possível associar a eles


Dados expressos valores que representam as ordens
em escala ordinal  Diferenças entre valores não
podem ser determinadas, ou não
têm sentido
22 Profª. Lisiane Selau
Escalas Intervalar
Exemplo
 Temperatura (em graus Celsius) : 5ºC, 10ºC e 20ºC
Se em 3 dias consecutivos a temperatura atingir 5ºC, 10ºC e 20ºC num
certo horário, não faz sentido dizer que o 3º dia esteve 2 vezes mais
quente que o segundo ou 4 vezes mais quente que o primeiro.
O zero nesta escala é apenas uma convenção.

 Análogo à escala ordinal, mas


possui uma unidade de medida que
Dados expressos permite determinar as diferenças
em escala intervalar entre os dados
 Não possui um ponto de partida
(zero) inerente
23 Profª. Lisiane Selau
Escalas Racional

Exemplos
 Pesos e estaturas
 Distância percorrida em km
 Duração de filmes

 Análogo à escala intervalar,


com a propriedade adicional de
Dados expressos ter um ponto de partida zero
em escala racional inerente (que significa ausência
da característica)
 Tanto as diferenças como as
razões têm significado

24 Profª. Lisiane Selau


Escalas de Medida

Metodologia Operações
Estatística realizadas

4º nível: escala racional


3º nível: escala intervalar
2º nível: escala ordinal
1º nível: escala nominal

A complexidade e a informação
aumentam com o nível.

25 Profª. Lisiane Selau


Exercício: Classifique as características abaixo quanto à
escala de medida.

a) Religião i) Idade

b) Nº de vendas diárias de uma empresa j) Nº de transações financeiras

c) Distância entre duas cidades k) Velocidade de um carro

d) Consumo mensal de energia elétrica l) Postos em um exército

e) Estado civil m) Nº de peças com defeito em um lote

f) Nº da identidade n) Altura de uma pessoa

g) Temperatura de uma mistura o) Classe social

h) Estado de nascimento p) Valor de venda diária de uma empresa

1º nível: escala nominal 3º nível: escala intervalar

2º nível: escala ordinal 4º nível: escala racional

26 Profª. Lisiane Selau


Testes e tipos de amostras

Os testes podem ser divididos em testes para:


• Uma amostra
• Duas amostras
• independentes
• relacionadas (emparelhadas / dependentes / pareadas)

• Várias amostras
• independentes
• relacionadas (emparelhadas / dependentes / pareadas)

Exemplos:
1. Amostra de homens e amostra de mulheres para avaliar colesterol.
2. Amostra de antes e depois do tratamento para avaliar diminuição de peso.
27 Profª. Lisiane Selau
Suposições básicas dos testes

• Suposição básica: os dados observados representam uma


(ou mais) amostra selecionada aleatoriamente da população
de interesse.

• Testes de hipóteses paramétricos são baseados em


suposições sobre a distribuição da variável na população de
interesse. Quando estas suposições não são satisfeitas para
os dados observados, uma das alternativas é a utilização de
testes não paramétricos.

• Fala-se alternativa, pois, em geral, os testes paramétricos


são mais poderosos que os não paramétricos.

28 Profª. Lisiane Selau


Ordem ou posto (rank)

• Muitos testes não paramétricos são baseados em postos.

• Quando ordenamos um grupo de observações conforme a


grandeza dos valores observados e atribuímos números
correspondentes às suas posições na ordenação, cada
número é denominado posto (rank).
• Fica evidente que, ao utilizar um teste baseado em postos
quando o nível de mensuração é intervalar ou racional, está
se perdendo informação dos dados.
• Nestes casos, os testes equivalentes paramétricos são mais
poderosos, quando as suposições são satisfeitas.

29 Profª. Lisiane Selau


Desenferrujando!
Exemplo: Dispõem-se de duas moedas com aparência idêntica,
só que uma (M1) é equilibrada, isto é, P(Cara) = P(Coroa) = 50%,
enquanto que a outra (M2) é viciada de tal forma que favorece
cara na proporção de 80%, ou seja, P(Cara) = 80% enquanto que
P(Coroa) = 20%. Supõem-se que uma das moedas é lançada e
que com base na variável X = número de caras, deve-se decidir
qual delas foi lançada.

Neste caso o teste a ser feito envolve as seguintes hipóteses:


H0: A moeda lançada é a equilibrada (M1), ou seja, 0 = 50%
H1: A moeda lançada é a viciada (M2), ou seja, 1 = 80%
onde  é a proporção de caras.
30 Profª. Lisiane Selau
Decisão: Temos que tomar a decisão de apontar qual foi a
moeda lançada, baseado apenas em uma amostra de, por
exemplo, 5 lançamentos.
A decisão, é claro, estará sujeita a erros, pois se estará
tomando a decisão em condições de incerteza, isto é,
baseado em uma amostra de apenas 5 lançamentos das
infinitas possibilidades.
A decisão será baseada nas distribuições amostrais das duas
moedas.
X = número de caras em uma amostra de n = 5 lançamentos
de cada uma das moedas ~ B(5, 0).

P(X  x)  C  (1  )
x
n
x n x

31 Profª. Lisiane Selau


Sob H0 X ~ B(5; 0,5) Sob H1 X ~ B(5; 0,8)

32 Profª. Lisiane Selau


Regra de Decisão e Erros: Para poder aceitar ou rejeitar H0
e como consequência, rejeitar ou aceitar H1, é necessário
estabelecer uma regra de decisão. Ou seja, é necessário
estabelecer para que valores da variável X iremos rejeitar H0.
Considerando  = 5%, estabelecemos que se vai rejeitar H0,
se a moeda lançada der um número de caras igual a 5.
Pode-se então determinar as probabilidades de tomar as
decisões corretas ou as probabilidades dos erros envolvidos.
Assim o conjunto de valores que levará a rejeição da
hipótese nula será denominado de região crítica: RC = {5}
A faixa restante de valores da variável é denominada de
região de aceitação: RA = {0, 1, 2, 3, 4}

33 Profª. Lisiane Selau


 = nível de significância do teste = P(Erro do tipo I)
= P(Rejeitar H0 / H0 é verdadeira) = P( X =5 /  = 50%) = 3,12%

1 -  = 1 - P(Erro do tipo I) = P(Aceitar H0 / H0 é verdadeira)


= P( x  {0, 1, 2, 3, 4} /  = 50%)
= 1/32 + 5/32 + 10/32 + 10/32 + 5/32 = 31/32 = 96,88%

 = P(Erro do tipo II) = P(Aceitar H0 / H0 é falsa)


= P(x  {0, 1, 2, 3, 4} /  = 80%)
= 1/3125 + 20/3125 + 160/3125 + 640/3125 + 1280/3125 = 67,33%

1 -  = Poder do teste = 1 - P(Erro do tipo II)


= P(Rejeitar H0 / H0 é falsa) = P( x = 5 /  = 80%) = 32,77%
34 Profª. Lisiane Selau
Alterando a Regra de Decisão e Erros:

Vamos agora estabelecer que vamos rejeitar H0 se a moeda


lançada der um número de caras igual a 4 ou 5.

Pode-se então determinar as probabilidades de tomar as


decisões corretas ou as probabilidades dos erros envolvidos.

Assim o conjunto de valores que levará a rejeição da


hipótese nula será denominado de região crítica: RC = {4, 5}

A faixa restante de valores da variável é denominada de


região de aceitação: RA = {0, 1, 2, 3}

35 Profª. Lisiane Selau


 = nível de significância do teste = P(Erro do tipo I)
= P(Rejeitar H0 / H0 é verdadeira) = P( X  {4, 5} /  = 50%)
= 5/32 + 1/32 = 6/32 = 18,75%

1 -  = 1 - P(Erro do tipo I) = P(Aceitar H0 / H0 é verdadeira)


= P( x  {0, 1, 2, 3} /  = 50%)
= 1/32 + 5/32 + 10/32 + 10/32 = 26/32 = 81,25%

 = P(Erro do tipo II) = P(Aceitar H0 / H0 é falsa)


= P(x  {0, 1, 2, 3} /  = 80%)
= 1/3125 + 20/3125 + 160/3125 + 640/3125 = 821/3125 = 26,27%

1 -  = Poder do teste = 1 - P(Erro do tipo II)


= P(Rejeitar H0 / H0 é falsa) = P( x  {4, 5} /  = 80%)
= 1280/3125 + 1024/3125 = 2304/3125 = 73,73%
36 Profª. Lisiane Selau
• Note que o resultado de um teste de hipóteses nunca é conhecido
com certeza, ou seja, trabalha-se com probabilidades.
• Por exemplo, ao tomar a decisão Rejeita H0 o pesquisador não
saberá se está tomando a decisão correta (não saberá se o
resultado é o acerto “rejeita H0 dado que H0 é falsa” ou é o erro
“rejeita H0 dado que H0 é verdadeira”).
• É fácil observar que o teste ideal é aquele com =0 e β=0. Porém,
as probabilidades  e β são inversamente relacionadas.
• Na prática o teste (regra de decisão) é criado de modo que  seja
tão pequeno quanto se queira. Note, porém, que ao criar um teste
desta maneira o valor de β será calculado automaticamente e,
portanto, pode vir a ser muito grande.
• A alternativa é estabelecer um tamanho amostral n de tal maneira
que ao criar o teste com o  desejado o β também seja pequeno.

37 Profª. Lisiane Selau


Exercício 1: Pretende-se lançar uma moeda 5 vezes e rejeitar a
hipótese de que a moeda é equilibrada, isto é, pretende-se
rejeitar H0:  = 0,50, se em 5 (cinco) jogadas ocorrerem 5 coroas
ou 5 caras. Qual é a probabilidade de se cometer erro do tipo I?
Resposta: P(erro tipo I) = 0,0625

Exercício 2: Se, ao lançarmos 3 vezes uma moeda,


supostamente equilibrada, aparecerem 3 caras decide-se rejeitar
a hipótese de que a moeda é “honesta”, qual a probabilidade de
se cometer erro do tipo I? Se a moeda favorece cara em 80% das
vezes, qual a probabilidade de se cometer erro do tipo II?
Resposta: P(erro tipo I) = 0,125
P(erro tipo II) = 0,488

38 Profª. Lisiane Selau


Exercício 3: Nas faces de dois tetraedros regulares, aparentemente
idênticos, estão marcados os valores: 0, 1, 2 e 3. Ao lançar um destes
tetraedros o resultado observado é o valor da face que fica em contato com
a superfície. Os dois tetraedros são “chumbados”, de tal maneira que, ao
jogá-los, as probabilidades de cada uma das faces ficar em contato com a
superfície são as da tabela. Tomando ao acaso um dos tetraedros tem-se
duas hipóteses: H0 : Trata-se do tetraedro A; H1 : Trata-se do tetraedro B.
a) Para testar H0 contra H1, o
tetraedro escolhido é lançado duas
vezes. Adota-se a seguinte regra de
decisão: rejeitar H0 se a soma dos
resultados dos dois lançamentos for
maior ou igual a 5. Determinar o nível
de significância e o poder do teste.
b) Determinar o nível de significância e o poder do teste se a regra de
decisão for: rejeitar H0 se sair o valor 3 em ao menos um dos lançamentos
e o outro resultado não for o valor 0 (zero).
Resposta: a) P(erro tipo I) = 0,12 e Poder = 0,32
b) P(erro tipo I) = 0,20 e Poder = 0,48
39 Profª. Lisiane Selau

Você também pode gostar