Atividades de Dados Categóricos

ATIVIDADES DE DADOS CATEGÓRICOS
5.Testes de proporções
5.1 Testes para uma amostra
Os testes para comparação de uma amostra são utilizados para verificar se uma
determinada amostra vem de uma população especificada. Podem ser chamados de
testes de aderência ou bondade do ajuste, uma vez que comparar a distribuição
amostral com a distribuição de interesse.
É importante para uma análise, uma vez que a semelhança da amostra com a
população que a originou possibilita que os resultados da análise sejam mais fidedignos.
Há três testes para comparar proporção em uma amostra:
5.1.1 Teste Binomial
Para a realização do teste binomial é necessário que a variável seja dicotômica, ou

seja, assuma apenas dois valores (categorias). Seu intuito é verificar se a proporção de
sucessos (presença de uma característica) observada na amostra (pˆ) pode pertencer
a uma população com uma determinada proporção.
Requisitos:
• Cada observação é classificada como sucesso (X = 1) ou fracasso (X = 0).
• As n tentativas são independentes.
• Cada tentativa tem probabilidade p de sucesso.
Estatística de teste:
Y = número de sucessos.
Hipóteses:
H0 :p=p0
H1 : p ≠ p 0
H0 :p=p0
H1 : p < p 0
H0 :p=p0
H1 : p > p 0
• Aplicação no R
binom.test(14, 20, p = 0.95, alternative = c( "two.sided"),conf.level = 0.95)
Exact binomial test

data: 14 and 20
number of successes = 14, number of trials = 20, p-value = 0.0003293
alternative hypothesis: true probability of success is not equal to 0.95
95 percent confidence interval:
0.4572108 0.8810684
sample estimates:
probability of success
0.7
5.1.2 Teste Z para proporção
Quando a amostra é considerada grande pode-se utilizar a aproximação da

Binomial pela distribuição Normal através do Teorema Central do Limite, logo o número
de sucessos:
Y ∼ Normal (np, np(1−p))
O ideal é que seja feita uma correção de continuidade em razão de se aproximar

a distribuição Binomial, que é discreta, por uma distribuição Normal, que é contínua.
Quando Y ≤ np utiliza-se Y + 0,5.
Quando Y ≥ np utiliza-se Y − 0,5.
Hipóteses:
H0 :p=p0
H1 : p ≠ p 0
H0 :p=p0
H1 : p < p 0
H0 :p=p0
H1 : p > p 0
prop.test(130,150,0.95, conf.level = 0.95, correct = TRUE, alt="two.sided")
1-sample proportions test with continuity correction
data: 130 out of 150, null probability 0.95
X-squared = 20.211, df = 1, p-value = 6.937e-06
alternative hypothesis: true p is not equal to 0.95
0.7992288 0.9147007
sample estimates:
0.8666667
5.2 Testes para duas amostras

5.2.1 Teste Exato de Fisher (2×2)
O Teste Exato de Fisher é utilizado em tabelas de contingência para comparar

dois tipos de classificações de duas amostras independentes. Ele fornece valor-p exato
e não exige técnica de aproximação, além de ser preciso para todos os tamanhos
amostrais. Ele é baseado na distribuição hipergeométrica e, portanto, o valor-p é
condicional sobre os totais marginais da tabela.
Hipóteses:
H0 :p1 =p2
H1 : p 1 ≠ p 2
H0 :p1 =p2
H1 : p 1 < p 2
H0 :p1 =p2
H1 : p 1 > p 2
H0: as variáveis são independentes
H1: as variáveis não são independentes
A probabilidade de interesse é:
O teste Exato de Fisher calcula a probabilidade exata de ocorrência de uma

frequência observada ou de valores mais extremos. Para isso, são feitas novos arranjos
na qual a frequência da célula A vai diminuindo ou aumentando para que tenha mais
discrepância em relação a hipótese nula. Assim para cada arranjo são calculadas PA
(valor p) e depois são somadas.
> data_frame <- matrix(c(10,4, 2,7), nrow = 2,
+ dimnames = list("Obesidade" = c("Sim","Não"),
+ "Diabetes" = c( "Sim","Não")))
> data_frame
Diabetes
Obesidade Sim Não
Sim 10 2
Não 4 7
> prop.table(data_frame,2)
Diabetes
Obesidade Sim Não
Sim 0.7142857 0.2222222
Não 0.2857143 0.7777778
> fisher.test(data_frame, alternative = "two.sided", conf.level= 0.95)
Fisher's Exact Test for Count Data
data: data_frame
p-value = 0.03607
alternative hypothesis: true odds ratio is not equal to 1
0.9470815 110.2262775
sample estimates:
odds ratio
7.827922
5.2.2 Teste Z para duas proporções
Para amostras grandes pode-se usar o teste Z para duas proporções através da
aproximação pela Normal de duas amostras com distribuição Bernoulli.
Hipóteses:
H0 :p1 −p2 =0
H1 : p 1 − p 2 ≠ 0
H0 :p1 −p2 =0
H1 : p 1 − p 2 < 0
H0 :p1 −p2 =0
H1 : p 1 − p 2 > 0
Se não há associação entre as variáveis, esperamos que as proporções de

sucesso sejam as mesmas nos dois grupos.
Ex: saber se as proporções de pessoas a favor do Bolsa Família são iguais nos dois grupos
de indivíduos.
resultado <- prop.test(x = c(490, 400), n = c(500, 500))
resultado
2-sample test for equality of proportions with continuity correction
data: c(490, 400) out of c(500, 500)
X-squared = 80.909, df = 1, p-value < 2.2e-16
alternative hypothesis: two.sided
0.1408536 0.2191464
sample estimates:
prop 1 prop 2
0.98 0.80
6. Modelos lineares generalizados
Devido originalmente a Nelder and Wedderburn (1972), os modelos lineares

generalizados são uma síntese e extensão notáveis de modelos de regressão familiares,
como os modelos lineares. O presente texto começa com uma consideração da
estrutura geral e do alcance de aplicação dos modelos lineares generalizados; passa a
examinar em mais detalhes modelos lineares generalizados para dados de contagem,
incluindo tabelas de contingência; esboça brevemente a teoria estatística subjacente
aos modelos lineares generalizados e conclui com a extensão dos diagnósticos de
regressão para modelos lineares generalizados.
Modelos lineares generalizados tornaram-se tão centrais para a análise de

dados estatísticos eficazes, entretanto, que vale a pena o esforço adicional necessário
para adquirir um conhecimento básico do assunto.
Como suporte computacional utilizamos a linguagem de programação e

ambiente de desenvolvimento integrado para cálculos estatísticos e gráficos R, versão
4.0.2 (2020-06-22) "Taking Off Again", especialmente a função glm e o pacote gamlss.
Um modelo linear generalizado (ou GLM) consiste em três componentes:
1- Um componente aleatório
Neste componente especificamos a distribuição condicional da variável

resposta Yi, para o i-ésimo de n observações amostradas independentemente, dados
os valores das variáveis explicativas no modelo. Na formulação original de Nelder e
Wedderburn, a distribuição de Yi é membro de uma família exponencial, como a
Gaussiana (normal), binomial, Poisson, gama ou famílias de distribuições gaussianas
inversas. O trabalho subsequente, no entanto, estendeu os GLMs para famílias
exponenciais multivariadas, como a distribuição multinomial, a certas famílias não
exponenciais, como a distribuição binomial negativa de dois parâmetros e para algumas
situações em que a distribuição de Yi não é especificada completamente. A maioria
dessas ideias é desenvolvida posteriormente neste texto.
2- Um preditor linear
• Uma função linear de regressores
ηi=α+β1Xi1+β2Xi2+⋯+βkXik
Como no modelo linear, os regressores Xij são funções pré-especificadas das

variáveis explicativas e, portanto, podem incluir variáveis explicativas quantitativas,
transformações de variáveis explicativas quantitativas, regressores polinomiais,
regressores dummy, interações e outras. Na verdade, uma das vantagens dos GLMs é
que a estrutura do preditor linear é a estrutura familiar de um modelo linear.
3- Função de ligação
Uma função de ligação linear suave e invertível g(⋅), que transforma a
esperança da variável resposta, μi=E(Yi), no preditor linear:
g(μi)=ηi=α+β1Xi1+β2Xi2+⋯+βkXik
Como a função de ligação é invertível, também podemos escrever
μi=g−1(ηi)=g−1(α+β1Xi1+β2Xi2+⋯+βkXik).
• Exemplo de uma distribuição exigidas pela classe MLGs,
2. Regressão de Bernoulli / Regressão Logística
A regressão de Bernoulli é utilizada na modelagem de fenômenos que podem

ser resumidos em uma variável binária, ou seja, se ocorreu ou não um evento. Quando
se escolhe a função de ligação ‘logit’, ela passa a ser chamada de regressão logística.
Essa função é bastante utilizada pois, além de ser própria para dados binários
auxiliando na tomada de decisões do tipo “Sim” ou “Não”, permite que sejam feitas
interpretações a partir de Odds Ratios (Razões de Chances).
A regressão logística é muito utilizada em modelos de concessão de crédito,

onde a partir de informações oferecidas pelo solicitante, a instituição financeira decide
pela liberação ou não do crédito. Também é frequentemente utilizada em pesquisas
clínicas que tem como objetivo verificar os fatores de influência na ocorrência ou não de
uma determinada doença.
M<-read.table("mexilhao.txt",header=T)
plot(M$salinidade,M$limnoperna)
,xlab="Salinidade",ylab="Limnoperna (0 e 1)", col="red")

modelo<-glm(limnoperna~salinidade,data=mexilhao,family=binomial)
summary(modelo)
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-18.9721 -4.8059 -0.3251 6.4021 13.9284
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 89.9960 2.9103 30.923 <2e-16 ***

x 0.2674 0.1372 1.949 0.0595 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.55 on 34 degrees of freedom
Multiple R-squared: 0.1005, Adjusted R-squared: 0.07407
F-statistic: 3.8 on 1 and 34 DF, p-value: 0.05955
plot(M$salinidade,M$limnoperna,xlab="Salinidade",ylab="Limnoperna (0 e 1) e Prob.
Sobrevivência de Limnoperna (curva)",col="red")
curve((exp(4.7169-0.5007*x))/(1+(exp(4.7169-0.5007*x))),add=T,col="blue",lwd=2)
• Risco relativo e razão de chance

O Risco Relativo (RR) é a probabilidade que um indivíduo do grupo exposto
desenvolver a doença relativa à probabilidade de um indivíduo do grupo não-exposto
desenvolver a mesma doença.
RR = P(doença|exposto)/ P(doença|não-exposto)
Características:
• Medida assimétrica.
• Se um evento ocorre com probabilidade p, a chance em favor deste evento é p 1−p
para 1.
• Desta forma, se p = 1/2, a chance é 1 para 1; p = 2/3, a chance é 2 para 1.
A Razão de Chances (odds ratio) (RC) é a chance de doença (do evento

“desenvolver a doença”) entre indivíduos expostos dividido pela chance de doença entre
não-expostos.
RC = (P(doença|exposto)/(1 − P(doença|exposto)) / ((P(doença|não-exposto)/(1 −

P(doença|não-exposto))
RR(RC) ≈ 1 ⇒ associação entre exposição e doença improvável de existir.
RR(RC) >> 1 ⇒ aumenta o risco (chance) de doença entre aqueles que foram expostos.
RR(RC) << 1 ⇒ diminue o risco (chance) de doença entre aqueles que foram expostos.
Bibliografia
Dobson, A. (2001). An introduction to Generalized Linear Models. Chapman &

Hall/CRC.
Crawley, J.C. (2003). The R Book. John Wiley & Sons, Ltd.
Kinas, P.G. & Andrade, H.A. (2010). Introdução à Análise Bayesiana (com R).
MaisQnada.

Atividades de Dados Categóricos

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Atividades de Dados Categóricos

Enviado por

Direitos autorais:

Formatos disponíveis

ATIVIDADES DE DADOS CATEGÓRICOS

Há três testes para comparar proporção em uma amostra:

5.1.1 Teste Binomial

Para a realização do teste binomial é necessário que a variável seja dicotômica, ou

binom.test(14, 20, p = 0.95, alternative = c( "two.sided"),conf.level = 0.95)

Exact binomial test

number of successes = 14, number of trials = 20, p-value = 0.0003293

alternative hypothesis: true probability of success is not equal to 0.95

95 percent confidence interval:

5.1.2 Teste Z para proporção

Quando a amostra é considerada grande pode-se utilizar a aproximação da

Y ∼ Normal (np, np(1−p))

O ideal é que seja feita uma correção de continuidade em razão de se aproximar

Quando Y ≤ np utiliza-se Y + 0,5.

Quando Y ≥ np utiliza-se Y − 0,5.

prop.test(130,150,0.95, conf.level = 0.95, correct = TRUE, alt="two.sided")

1-sample proportions test with continuity correction

data: 130 out of 150, null probability 0.95

X-squared = 20.211, df = 1, p-value = 6.937e-06

alternative hypothesis: true p is not equal to 0.95

95 percent confidence interval:

5.2 Testes para duas amostras

O Teste Exato de Fisher é utilizado em tabelas de contingência para comparar

O teste Exato de Fisher calcula a probabilidade exata de ocorrência de uma

> data_frame <- matrix(c(10,4, 2,7), nrow = 2,

+ dimnames = list("Obesidade" = c("Sim","Não"),

Obesidade Sim Não

Sim 0.7142857 0.2222222

Não 0.2857143 0.7777778

> fisher.test(data_frame, alternative = "two.sided", conf.level= 0.95)

Fisher's Exact Test for Count Data

alternative hypothesis: true odds ratio is not equal to 1

95 percent confidence interval:

5.2.2 Teste Z para duas proporções

Se não há associação entre as variáveis, esperamos que as proporções de

resultado <- prop.test(x = c(490, 400), n = c(500, 500))

2-sample test for equality of proportions with continuity correction

data: c(490, 400) out of c(500, 500)

X-squared = 80.909, df = 1, p-value < 2.2e-16

alternative hypothesis: two.sided

95 percent confidence interval:

6. Modelos lineares generalizados

Devido originalmente a Nelder and Wedderburn (1972), os modelos lineares

Modelos lineares generalizados tornaram-se tão centrais para a análise de

Como suporte computacional utilizamos a linguagem de programação e

Um modelo linear generalizado (ou GLM) consiste em três componentes:

Neste componente especificamos a distribuição condicional da variável

• Uma função linear de regressores

Como no modelo linear, os regressores Xij são funções pré-especificadas das

Como a função de ligação é invertível, também podemos escrever

• Exemplo de uma distribuição exigidas pela classe MLGs,

2. Regressão de Bernoulli / Regressão Logística

A regressão de Bernoulli é utilizada na modelagem de fenômenos que podem

A regressão logística é muito utilizada em modelos de concessão de crédito,

,xlab="Salinidade",ylab="Limnoperna (0 e 1)", col="red")

Min 1Q Median 3Q Max

-18.9721 -4.8059 -0.3251 6.4021 13.9284

Estimate Std. Error t value Pr(>|t|)

(Intercept) 89.9960 2.9103 30.923 <2e-16 ***

Residual standard error: 8.55 on 34 degrees of freedom

Multiple R-squared: 0.1005, Adjusted R-squared: 0.07407

F-statistic: 3.8 on 1 and 34 DF, p-value: 0.05955

• Risco relativo e razão de chance