Você está na página 1de 11

ATIVIDADES DE DADOS CATEGÓRICOS

5.Testes de proporções
5.1 Testes para uma amostra

Os testes para comparação de uma amostra são utilizados para verificar se uma
determinada amostra vem de uma população especificada. Podem ser chamados de
testes de aderência ou bondade do ajuste, uma vez que comparar a distribuição
amostral com a distribuição de interesse.

É importante para uma análise, uma vez que a semelhança da amostra com a
população que a originou possibilita que os resultados da análise sejam mais fidedignos.

Há três testes para comparar proporção em uma amostra:

5.1.1 Teste Binomial

Para a realização do teste binomial é necessário que a variável seja dicotômica, ou


seja, assuma apenas dois valores (categorias). Seu intuito é verificar se a proporção de
sucessos (presença de uma característica) observada na amostra (pˆ) pode pertencer
a uma população com uma determinada proporção.

Requisitos:
• Cada observação é classificada como sucesso (X = 1) ou fracasso (X = 0).
• As n tentativas são independentes.
• Cada tentativa tem probabilidade p de sucesso.
Estatística de teste:

Y = número de sucessos.

Hipóteses:
H0 :p=p0
H1 : p ≠ p 0
H0 :p=p0
H1 : p < p 0
H0 :p=p0
H1 : p > p 0
• Aplicação no R

binom.test(14, 20, p = 0.95, alternative = c( "two.sided"),conf.level = 0.95)

Exact binomial test


data: 14 and 20

number of successes = 14, number of trials = 20, p-value = 0.0003293

alternative hypothesis: true probability of success is not equal to 0.95

95 percent confidence interval:

0.4572108 0.8810684

sample estimates:

probability of success

0.7

5.1.2 Teste Z para proporção

Quando a amostra é considerada grande pode-se utilizar a aproximação da


Binomial pela distribuição Normal através do Teorema Central do Limite, logo o número
de sucessos:

Y ∼ Normal (np, np(1−p))

O ideal é que seja feita uma correção de continuidade em razão de se aproximar


a distribuição Binomial, que é discreta, por uma distribuição Normal, que é contínua.

Estatística de teste:

Quando Y ≤ np utiliza-se Y + 0,5.

Quando Y ≥ np utiliza-se Y − 0,5.

Hipóteses:
H0 :p=p0
H1 : p ≠ p 0
H0 :p=p0
H1 : p < p 0
H0 :p=p0
H1 : p > p 0

• Aplicação no R

prop.test(130,150,0.95, conf.level = 0.95, correct = TRUE, alt="two.sided")

1-sample proportions test with continuity correction

data: 130 out of 150, null probability 0.95

X-squared = 20.211, df = 1, p-value = 6.937e-06

alternative hypothesis: true p is not equal to 0.95

95 percent confidence interval:

0.7992288 0.9147007

sample estimates:

0.8666667

5.2 Testes para duas amostras


5.2.1 Teste Exato de Fisher (2×2)

O Teste Exato de Fisher é utilizado em tabelas de contingência para comparar


dois tipos de classificações de duas amostras independentes. Ele fornece valor-p exato
e não exige técnica de aproximação, além de ser preciso para todos os tamanhos
amostrais. Ele é baseado na distribuição hipergeométrica e, portanto, o valor-p é
condicional sobre os totais marginais da tabela.
Hipóteses:
H0 :p1 =p2
H1 : p 1 ≠ p 2
H0 :p1 =p2
H1 : p 1 < p 2
H0 :p1 =p2
H1 : p 1 > p 2
H0: as variáveis são independentes
H1: as variáveis não são independentes
Estatística de teste:

A probabilidade de interesse é:

O teste Exato de Fisher calcula a probabilidade exata de ocorrência de uma


frequência observada ou de valores mais extremos. Para isso, são feitas novos arranjos
na qual a frequência da célula A vai diminuindo ou aumentando para que tenha mais
discrepância em relação a hipótese nula. Assim para cada arranjo são calculadas PA
(valor p) e depois são somadas.

• Aplicação no R

> data_frame <- matrix(c(10,4, 2,7), nrow = 2,

+ dimnames = list("Obesidade" = c("Sim","Não"),

+ "Diabetes" = c( "Sim","Não")))

> data_frame

Diabetes
Obesidade Sim Não

Sim 10 2

Não 4 7

> prop.table(data_frame,2)

Diabetes

Obesidade Sim Não

Sim 0.7142857 0.2222222

Não 0.2857143 0.7777778

> fisher.test(data_frame, alternative = "two.sided", conf.level= 0.95)

Fisher's Exact Test for Count Data

data: data_frame

p-value = 0.03607

alternative hypothesis: true odds ratio is not equal to 1

95 percent confidence interval:

0.9470815 110.2262775

sample estimates:

odds ratio

7.827922

5.2.2 Teste Z para duas proporções

Para amostras grandes pode-se usar o teste Z para duas proporções através da
aproximação pela Normal de duas amostras com distribuição Bernoulli.
Hipóteses:
H0 :p1 −p2 =0
H1 : p 1 − p 2 ≠ 0
H0 :p1 −p2 =0
H1 : p 1 − p 2 < 0
H0 :p1 −p2 =0
H1 : p 1 − p 2 > 0

Se não há associação entre as variáveis, esperamos que as proporções de


sucesso sejam as mesmas nos dois grupos.

• Aplicação no R

Ex: saber se as proporções de pessoas a favor do Bolsa Família são iguais nos dois grupos
de indivíduos.

resultado <- prop.test(x = c(490, 400), n = c(500, 500))

resultado

2-sample test for equality of proportions with continuity correction

data: c(490, 400) out of c(500, 500)

X-squared = 80.909, df = 1, p-value < 2.2e-16

alternative hypothesis: two.sided

95 percent confidence interval:

0.1408536 0.2191464

sample estimates:
prop 1 prop 2

0.98 0.80

6. Modelos lineares generalizados

Devido originalmente a Nelder and Wedderburn (1972), os modelos lineares


generalizados são uma síntese e extensão notáveis de modelos de regressão familiares,
como os modelos lineares. O presente texto começa com uma consideração da
estrutura geral e do alcance de aplicação dos modelos lineares generalizados; passa a
examinar em mais detalhes modelos lineares generalizados para dados de contagem,
incluindo tabelas de contingência; esboça brevemente a teoria estatística subjacente
aos modelos lineares generalizados e conclui com a extensão dos diagnósticos de
regressão para modelos lineares generalizados.

Modelos lineares generalizados tornaram-se tão centrais para a análise de


dados estatísticos eficazes, entretanto, que vale a pena o esforço adicional necessário
para adquirir um conhecimento básico do assunto.

Como suporte computacional utilizamos a linguagem de programação e


ambiente de desenvolvimento integrado para cálculos estatísticos e gráficos R, versão
4.0.2 (2020-06-22) "Taking Off Again", especialmente a função glm e o pacote gamlss.

Um modelo linear generalizado (ou GLM) consiste em três componentes:

1- Um componente aleatório

Neste componente especificamos a distribuição condicional da variável


resposta Yi, para o i-ésimo de n observações amostradas independentemente, dados
os valores das variáveis explicativas no modelo. Na formulação original de Nelder e
Wedderburn, a distribuição de Yi é membro de uma família exponencial, como a
Gaussiana (normal), binomial, Poisson, gama ou famílias de distribuições gaussianas
inversas. O trabalho subsequente, no entanto, estendeu os GLMs para famílias
exponenciais multivariadas, como a distribuição multinomial, a certas famílias não
exponenciais, como a distribuição binomial negativa de dois parâmetros e para algumas
situações em que a distribuição de Yi não é especificada completamente. A maioria
dessas ideias é desenvolvida posteriormente neste texto.

2- Um preditor linear

• Uma função linear de regressores

ηi=α+β1Xi1+β2Xi2+⋯+βkXik

Como no modelo linear, os regressores Xij são funções pré-especificadas das


variáveis explicativas e, portanto, podem incluir variáveis explicativas quantitativas,
transformações de variáveis explicativas quantitativas, regressores polinomiais,
regressores dummy, interações e outras. Na verdade, uma das vantagens dos GLMs é
que a estrutura do preditor linear é a estrutura familiar de um modelo linear.

3- Função de ligação
Uma função de ligação linear suave e invertível g(⋅), que transforma a
esperança da variável resposta, μi=E(Yi), no preditor linear:

g(μi)=ηi=α+β1Xi1+β2Xi2+⋯+βkXik

Como a função de ligação é invertível, também podemos escrever

μi=g−1(ηi)=g−1(α+β1Xi1+β2Xi2+⋯+βkXik).

• Exemplo de uma distribuição exigidas pela classe MLGs,

2. Regressão de Bernoulli / Regressão Logística

A regressão de Bernoulli é utilizada na modelagem de fenômenos que podem


ser resumidos em uma variável binária, ou seja, se ocorreu ou não um evento. Quando
se escolhe a função de ligação ‘logit’, ela passa a ser chamada de regressão logística.

Essa função é bastante utilizada pois, além de ser própria para dados binários
auxiliando na tomada de decisões do tipo “Sim” ou “Não”, permite que sejam feitas
interpretações a partir de Odds Ratios (Razões de Chances).

A regressão logística é muito utilizada em modelos de concessão de crédito,


onde a partir de informações oferecidas pelo solicitante, a instituição financeira decide
pela liberação ou não do crédito. Também é frequentemente utilizada em pesquisas
clínicas que tem como objetivo verificar os fatores de influência na ocorrência ou não de
uma determinada doença.

• Aplicação no R

M<-read.table("mexilhao.txt",header=T)

plot(M$salinidade,M$limnoperna)

,xlab="Salinidade",ylab="Limnoperna (0 e 1)", col="red")


modelo<-glm(limnoperna~salinidade,data=mexilhao,family=binomial)

summary(modelo)

Call:

lm(formula = y ~ x)

Residuals:

Min 1Q Median 3Q Max

-18.9721 -4.8059 -0.3251 6.4021 13.9284

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 89.9960 2.9103 30.923 <2e-16 ***


x 0.2674 0.1372 1.949 0.0595 .

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 8.55 on 34 degrees of freedom

Multiple R-squared: 0.1005, Adjusted R-squared: 0.07407

F-statistic: 3.8 on 1 and 34 DF, p-value: 0.05955

plot(M$salinidade,M$limnoperna,xlab="Salinidade",ylab="Limnoperna (0 e 1) e Prob.
Sobrevivência de Limnoperna (curva)",col="red")

curve((exp(4.7169-0.5007*x))/(1+(exp(4.7169-0.5007*x))),add=T,col="blue",lwd=2)

• Risco relativo e razão de chance


O Risco Relativo (RR) é a probabilidade que um indivíduo do grupo exposto
desenvolver a doença relativa à probabilidade de um indivíduo do grupo não-exposto
desenvolver a mesma doença.
RR = P(doença|exposto)/ P(doença|não-exposto)

Características:

• Medida assimétrica.
• Se um evento ocorre com probabilidade p, a chance em favor deste evento é p 1−p
para 1.
• Desta forma, se p = 1/2, a chance é 1 para 1; p = 2/3, a chance é 2 para 1.

A Razão de Chances (odds ratio) (RC) é a chance de doença (do evento


“desenvolver a doença”) entre indivíduos expostos dividido pela chance de doença entre
não-expostos.

RC = (P(doença|exposto)/(1 − P(doença|exposto)) / ((P(doença|não-exposto)/(1 −


P(doença|não-exposto))

RR(RC) ≈ 1 ⇒ associação entre exposição e doença improvável de existir.

RR(RC) >> 1 ⇒ aumenta o risco (chance) de doença entre aqueles que foram expostos.

RR(RC) << 1 ⇒ diminue o risco (chance) de doença entre aqueles que foram expostos.

Bibliografia

Dobson, A. (2001). An introduction to Generalized Linear Models. Chapman &


Hall/CRC.

Crawley, J.C. (2003). The R Book. John Wiley & Sons, Ltd.

Kinas, P.G. & Andrade, H.A. (2010). Introdução à Análise Bayesiana (com R).
MaisQnada.

Você também pode gostar