Epidemiologia 2

14/05/2023, 15:39 Bioestatística e Epidemiologia
Bioestatística e Epidemiologia
UNIDADE 2 - ANÁLISE ESTATÍSTICA:
EXIBINDO E COMPREENDENDO A
VALIDADE DE DADOS
Autoria: Ana Paula Felizatti – Revisão técnica: Symara Rodrigues Antunes
https://student.ulife.com.br/ContentPlayer/Index?lc=4Psg0ibJsKOa5m7J57KfVg%3d%3d&l=J9obb1MZAZthiqpIqmklxw%3d%3d&cd=DNwfvIGrll… 1/21
Introdução
Você já sabe que a estatística pode ser aplicada
em diversas áreas do conhecimento, afinal, é
comum vivenciarmos e vermos informações no
decorrer do dia que utilizam dados estatísticos.
Mas o que está por trás desses dados?
Saiba que temos diversos estudos, cálculos e
testes. Esses testes são importantes, pois
auxiliam a responder hipóteses, e há diversos
tipos de testes. Todo estudo estatístico se inicia com uma hipótese a ser comprovada
ou refutada. Mas se há vários tipos de testes, como definir qual o melhor para
determinado conjunto de dados? Há diversos conceitos que nos auxiliam, de acordo
com os objetivos e tipos de estudos, assim como diferentes ferramentas para
aplicação desses testes.
Nesta unidade, vamos aprender os principais testes de hipóteses em bioestatística.
Todavia, para compreendê-los, devemos ver alguns conceitos essenciais, como qui-
quadrado, análise de inferências, correlação, entre outros, que permitem analisar os
dados adequadamente, identificar os resultados e possíveis erros. Você sabia que há
tipos diferentes de erros? E em alguns estudos, o tipo de erro apresentado é muito
importante para definir se os dados são representativos ou não da realidade. Então,
vamos lá, pois temos muitos conceitos para serem estudados.
Bons estudos!
2.1 Compreendendo erros e testando

hipóteses
Em estatística, a obtenção e análise dos dados é o ponto principal. Os dados podem ser
apresentados de modo descritivo – com estatística descritiva – considerando dados de
parâmetros, como média ou desvio-padrão. Todavia, para realizar afirmações acerca de dados
obtidos em relação a uma população, ou seja, compreender a real representatividade dos
valores, deve-se utilizar outra área da estatística: a inferência estatística (ANDRADE;
OGLIARE, 2013).
A inferência estatística é utilizada para construir proposições, deduzindo informações a partir de
dados concretos fornecidos pela estatística descritiva. Um dos modelos mais utilizados em
inferência estatística são os testes de hipóteses (BUSSAB; MORETTIN, 2006). Vamos
compreender melhor sobre eles a seguir.
2.1.1 Testes de hipóteses
Quando iniciamos uma análise estatística, temos uma hipótese para testar, como verdadeira ou
falsa, em que há uma pergunta a ser respondida. Para aceitar ou rejeitar uma hipótese,
devemos submetê-la a um teste, chamado de teste de hipótese (BALDI; MOORE, 2014).
O teste de hipótese é utilizado para avaliar duas declarações opostas sobre determinada
população. Uma das declarações é chamada de hipótese nula (H0), enquanto a outra é
chamada de hipótese alternativa (H1). A hipótese nula carrega o sinal de igualdade e indica
usualmente “sem efeito”. Já a hipótese alternativa irá contradizer a hipótese nula. Assim, aplica-
se um teste de hipótese com regras específicas que avaliam o comportamento das hipóteses
nula e alternativa, definindo qual deve ser aceita ou rejeitada (LOPES et al., 2014).
O teste de hipótese é aplicado após definição do intervalo de confiança, usualmente utilizado
em 95%. Um dos testes mais utilizados é o valor-p, que indica a probabilidade de ocorrência de
valores extremos e médios (LOPES et al., 2014). Considere, então, que após a coleta de dados
hipotéticos n amostral, previamente calculados e definidos, o valor-p foi calculado em 0,001. O
que isso significa em relação às hipóteses, considerando o nível de significância escolhido?
Que a hipótese nula será rejeitada, e a hipótese alternativa passa a ser aceita, pois a hipótese
nula nos diz que não há nenhum efeito, ou seja, não há significância nos valores analisados.
Todavia, como obtivemos um valor de p menor que o nível de confiança, observamos que há
uma diferença e, portanto, a hipótese alternativa deve ser aceita.
Ao responder sobre a rejeição ou aceite da hipótese, podemos agir corretamente ou temos a
possibilidade de errar de duas maneiras (MOORE, 2005).
Primeira: afirmar que existe efeito, quando ela não existe.

 
Segunda: afirmar que não existe o efeito, quando existe.
Quando H0 for verdadeira, e aceitamos como falsa – rejeitamos –, temos um erro do tipo I. Aqui,
estamos rejeitando H0 quando é verdadeiro. Quando for falso, e aceitamos como verdadeiro,
temos um erro do tipo II. Aqui, estamos aceitando H0 quando é falso. Observe, a seguir, um
resumo desses conceitos.
Figura 1 - Hipóteses e tipos de erros gerados

Fonte: Fonte: Elaborada pela autora, baseada em MOORE, 2005.
#PraCegoVer: imagem traz em uma primeira linha, as expressões: aceitar H0 e rejeitar H0. Em
uma segunda linha, as expressões: H0 verdadeira; decisão correta; erro do tipo I. E na terceira
linha, as expressões: H0 falsa; erro do tipo II; decisão correta.
A probabilidade de cometer um erro do tipo I é denominada α, relacionada ao nível de

significância escolhido para o teste. Já a probabilidade de cometer um erro do II é dada por β, e
indica qual as chances de se aceitar H0 em casos em que é verdadeira (CALLEGARI-
JACQUES, 2003).
Há diversos testes estatísticos para testar as hipóteses. Vimos um exemplo, utilizando o valor-
p, mas há outras formas que dependem do tipo de conjunto amostral e sua distribuição. Agora,
vamos tratar da distribuição normal e dos principais testes utilizados.
2.1.2 Principais testes de hipóteses utilizados – distribuição normal

Um dos principais fatores que determinam a escolha de um teste é o tamanho amostral. Em
amostras grandes, com n > 30, podemos utilizar o teste de hipótese baseado na média, com o
cálculo do valor Z (MOORE, 2015). O valor Z é um indicativo do quanto um ponto está fora dos
valores de desvio-padrão e média, ou seja, quão distante ele está do esperado a partir de tais
parâmetros estatísticos. Também chamado de escore-padrão, é dado pela fórmula:
Onde: = média amostral, = média populacional, = desvio-padrão populacional, n = número

de elementos.
O valor Z é então comparado com tabelas estatísticas para diferentes níveis de confiança, em
que a hipótese será rejeitada ou não, se o valor estiver no limite estabelecido pelo intervalo de
confiança (LOPES et al., 2014; BUSSAB; MORETTIN, 2006).
Mas, em muitos casos, em que o desvio-padrão não é conhecido, ou o número de elementos é
menor, outro teste é amplamente utilizado: o teste-t. Nele, a estatística de teste é baseada no
cálculo da distribuição T-student. Esse teste também é utilizado para dados com distribuição
normal (BUSSAB; MORETTIN, 2006). O cálculo é dado por:
Onde: t = valor-t, x = média amostral, = média populacional, = desvio-padrão amostral, n =

número de elementos.
Neste caso, devemos estabelecer valores críticos para t, para tomada de decisão sobre a
hipótese. Assim, como vimos anteriormente, definimos valores para o teste bilateral e unilateral,
e definimos qual das hipóteses será para H1. Para o teste ser bilateral, definimos como valor
crítico os valores -tα/2 e tα/2. Para o teste unilateral à direita, o ponto crítico passa a ser tα,
enquanto para o teste unilateral à esquerda o ponto crítico passa a ser -tα. Os valores de t em
nível de confiança específico são obtidos nas tabelas de valor T, assim como observamos para
o valor Z, sendo encontradas facilmente em materiais de estatística (CAMPOS, 2000).
Observe as regiões correspondentes aos valores críticos de tα na distribuição normal.
Figura 2 - Valores críticos em curvas de distribuição normal

Fonte: Fonte: Elaborada pela autora, 2020.
#PraCegoVer: imagem traz três gráficos em formato de curva, que indica a distribuição normal.
O da esquerda tem como título região crítica: unilateral à direita; o do meio, região crítica:
bilateral; e o da direita, região crítica: unilateral à esquerda.
Portanto, após calcular t, observando os valores obtidos e comparando aos valores críticos,
rejeitamos H0 quando o valor-t calculado ultrapassar os valores críticos do teste escolhido
(POCINHO; FIGUEIREDO, 2004; PAGANO; GAUVREAU, 2006), ou seja, quando T > -tα em
testes unilaterais à direita; quando T < tα em testes unilaterais à esquerda; quando T > tα/2 e T <
t-α/2 em testes bilaterais.
É importante destacar que o uso conjunto dos testes de valor-t e valor-p são comuns e
amplamente utilizados, oferecendo maior confiabilidade aos resultados.
Teste seus conhecimentos

(Atividade não pontuada)
Até aqui, estudamos o cálculo de hipóteses em dados com distribuição normal. E quando os
dados não forem assim distribuídos? Acompanhe a seguir.
2.2 Testes paramétricos e não

paramétricos
Agora que você já conhece alguns dos principais conceitos sobre testes de hipóteses, e
introduzidos alguns testes amplamente utilizados para análises de rejeição ou aceite de
hipóteses, vamos aprofundar mais o conhecimento. Há dois tipos principais de testes em
estatística: os paramétricos e os não paramétricos (POCINHO; FIGUEIREDO, 2004) O teste-t,

por exemplo, é um exemplo de teste paramétrico (PAGANO; GAUVREAU, 2006).
E o que isso quer dizer? O termo “paramétrico” está relacionado a determinados parâmetros
estatísticos: a média e o desvio-padrão. Esses parâmetros refletem o comportamento da
população e seu modo de distribuição normal (MAGALHÃES; LIMA, 2005; PAGANO;
GAUVREAU, 2006). Ou seja, os testes paramétricos são testes de hipóteses que requerem o
comportamento populacional devidamente caracterizado pelos parâmetros da média e do
desvio-padrão e uma distribuição normal. Já os testes não paramétricos não têm,
necessariamente, essa exigência. Assume-se que a distribuição do conjunto amostral é
indefinida, sem o pressuposto da normalidade (LOPES et al., 2014; POCINHO; FIGUEIREDO,
2004). De acordo com Moore (2015), Pocinho e Figueiredo (2004), dentre os testes
paramétricos mais utilizados, destacam-se os testes-t e ANOVA. Vamos conhecer mais sobre
eles.
Testes-t para uma ou duas amostras
Utilizados para comparar médias, resumem os valores do conjunto amostral em um valor de T,
que é comparado em uma tabela com níveis de confiança α. O teste-t para uma amostra
também é chamado de teste-t pareado, e é utilizado para comparar médias amostrais em
relação ao valor determinado pela hipótese nula.
O teste-t para duas amostras envolve a coleta de dois grupos independentes. Assume-se na
hipótese nula que ambos os grupos são iguais, ou seja, a diferença entre eles é zero. A fórmula
do cálculo passa a ser a diferença entre as médias dos grupos e diferentemente do cálculo para
uma amostra, desconsidera-se o tamanho amostral, ficando:
Onde, = média amostral do grupo 1, = média amostral do grupo 2, s = desvio-padrão

amostral.
ANOVA
O teste ANOVA é o teste de análise da variância, derivado do termo em inglês analisys of
variance. Enquanto os testes-t são utilizados para análise da diferença entre as médias de até
dois grupos, as análises ANOVA podem ser aplicadas para mais de três grupos independentes.
Utiliza-se o teste F para verificar a estatística das médias dos grupos de interesse. A estatística
F nos diz sobre a dispersão dos dados em relação à média, e é calculada pela razão entre duas
variâncias, ou seja, o valor F é igual à variação das medidas amostrais sobre a variação
amostral.
Usualmente, a hipótese nula do teste F considera que as médias entre os grupamentos são
iguais. A fórmula de F é:
Onde = variância amostral da população 1, = desvio-padrão amostral da população 1,

= variância amostral da população 2, = desvio-padrão amostral da população 2.
Após o cálculo de F, utiliza-se a tabela Fisher-Snedecor para avaliar os valores para
determinado intervalo de confiança e verificar se a hipótese deverá ser aceita ou não.
Você quer ver?
O cálculo da ANOVA é essencial em bioestatísica. Em

Estatística e Probabilidade - Análise de Variância
(ANOVA) (2018) é possível rever conceitos importantes
e aprender como aplicá-los corretamente para
construção de uma análise ANOVA.
Acesse (https://www.youtube.com/watch?
v=1ceP2FL5fzE&ab_channel=UNIVESP)
Entre os testes não paramétricos, destacam-se: teste de Wilcoxon, Maan-Whitney e Kruskal-
Wallis. Vamos conhecê-los? Acompanhe.
Teste de Wilcoxon para uma amostra
Método alternativo em situações em que o teste-t para uma amostra não pode ser
aplicado. Informa sobre a mediana, indicando se o valor é igual a um determinado valor
numérico. Assim, a hipótese nula considera que a mediana é igual a um valor θ0, e as
hipóteses alternativas consideram as condições de diferença (maior, menor ou
diferente).
Teste de Mann-Whitney
Informa sobre a diferença entre grupos, ou seja, é uma alternativa ao teste-t para duas
amostras, quando não há informações sobre a distribuição. Pode ser aplicado em
variáveis aleatórias, tanto numéricas como categóricas, e indica se as distribuições de
dois grupamentos são similares em termos de localização da mediana. Aqui, define-se
como hipótese nula que a diferença de localização entre as medianas dos grupos
testados é igual a zero.
Kruskal-Wallis
É uma alternativa ao teste ANOVA, sendo utilizado para análise em estudos com mais
de dois grupos. São testadas as funções de distribuição dos grupos amostrais,
assumindo-se como hipótese nula que todas as funções de distribuição entre os
grupos são iguais.
A escolha do teste adequado impacta diretamente na qualidade dos resultados obtidos.

Considerando grupos com distribuição normal, com dados simétricos e parâmetros de média e
desvio-padrão, deve-se utilizar os teste-t ou ANOVA, na maioria dos casos (PAGANO;
GAUVREAU, 2006).
Teste seus conhecimentos

(Atividade não pontuada)
Até aqui, nos aprofundamos nos testes de hipóteses e os conceitos de testes paramétricos ou
não paramétricos. Agora, vamos passar para um teste em específico: o qui-quadrado.
2.3 Qui-quadrado e análise de

correlação
Em estatística aplicada a estudos biológicos é comum que as hipóteses estejam relacionadas a

frequências de eventos ou como diferentes amostras se relacionam entre si. Nesse contexto, é
comum que se queira avaliar diferentes amostras e grupos, mas muitas vezes não há
disponíveis os parâmetros de média ou desvio-padrão. Por isso, há um teste não paramétrico
amplamente utilizado em bioestatística: qui-quadrado. Adicionalmente, temos uma ferramenta
muito importante, chamada de correlação, que permite a identificação dos feitos de interação
das variáveis estudadas. Vamos aprender sobre esses testes? Acompanhe.
2.3.1 Qui-quadrado
O teste qui-quadrado é um teste de hipótese do tipo não paramétrico. Sua principal
característica é estabelecer um comparativo entre proporções, proporcionando uma análise de
diferenças entre frequências observadas e esperadas (BALDI; MOORE, 2014; ANDRADE;
OGLIARE, 2013).
O objetivo é determinar os valores de dispersão entre amostras com variáveis categóricas
nominais e indicar uma possível relação com variáveis numéricas. Para exemplificar, podemos
relacionar a frequência que um gene está descrito em uma população, e a relação com a
quantificação de um fenótipo observado. De fato, a análise de qui-quadrado é um teste muito
utilizado em análises genéticas.
De modo geral, o teste serve para comparar frequências e proporções. (BUSSAB; MORETTIN,
2006). Apesar de ser um teste não paramétrico, é condicionado a algumas exigências (BALDI;
MOORE, 2014):
os grupos testados devem ser independentes e seus

itens devem ser escolhidos aleatoriamente;
os eventos observados devem ser quantificados em

termos de frequência ou contagem;
o n amostral não deve ser demasiadamente pequeno;
e, por fim, cada item de observação/evento deve estar

relacionado a uma única categoria.
Inicialmente, devemos avaliar possíveis diferenças entre proporções observadas e esperadas,

por meio da fórmula da média dos desvios:
Onde o = frequência observada para a classe, e = frequência esperada para a classe. Em

seguida, calculamos o qui-quadrado (X²):
Analisando a fórmula, podemos perceber que quando os desvios forem grandes, ou seja,
quando as frequências observadas e esperadas foram distantes entre si, o valor de X² será alto,
e quando os desvios forem pequenos, e as frequências observadas e esperadas forem
próximas entre si, o valor de X² será pequeno (POCINHO; FIGUEIREDO, 2004).
Usualmente, os dados de testes X² são apresentados em forma de tabela, 2x2 no caso de duas
amostras, ou 2xn, no caso de n amostras. Veja um exemplo.
Tabela 1 - Exemplo de tabela 2x2 utilizada em testes X²

Fonte: Fonte: MAIA; BEDAQUE; MELO, 2018, p. 72.
#PraCegoVer: imagem traz uma tabela com dois títulos: exposição e incidência da doença.
Para cada título há colunas com textos e representações de valores.
Assim como observamos para outros testes, o teste de X² possui valores tabelados para
determinados níveis de confiança, e para verificar se o valor obtido está nos limites críticos,
deve-se consultar a tabela. Comparando os valores, é possível estabelecer se as hipóteses,
nula ou alternativa, serão rejeitadas ou aceitas. A denotação do valor de X² sob nível crítico de
confiança é X²c (POCINHO; FIGUEIREDO, 2004). O grau de liberdade também deve ser
considerado na avaliação do X² tabelado. Ele é calculado pela diferença entre o número de
determinações amostrais e o número de parâmetros estatísticos (MOORE, 2005).
Você quer ver?

Os graus de liberdade são utilizados para análise das
tabelas de valores dos testes. É um conceito simples,
mas muito importante. No vídeo Graus de liberdade em
1 minuto (2020), há uma rápida explicação sobre o
conceito.
Acesse (https://www.youtube.com/watch?v=RX-
vvhCng48&ab_channel=ScimusEstat%C3%ADstica
)
Assim, considerando os valores de X² calculados e tabelados, vamos rejeitar a hipótese nula
quando o valor de X² for maior ou igual ao tabelado, e aceitar quando X² for menor (BALDI;
MOORE, 2014).
2.3.2 Correlação
A correlação é uma métrica estatística para comparação entre duas variáveis, visando
compreender se entre elas há uma relação de dependência. É qualquer relação dentro de
diversos conjuntos relacionais sobre duas amostras que são dependentes entre si. A principal
métrica de uma análise de correlação é o valor r, que indica a força de uma correlação, ou
seja, quão provável ela é. Ele varia entre -1 e 1, e é chamado de coeficiente de correlação de
Pearson (BALDI; MOORE, 2014; BUSSAB; MORETTIN, 2006).
Você o conhece?
Karl Pearson foi um estatístico britânico, nascido em 1857,
em Londres. Foi o criador do primeiro departamento de
estatística em uma universidade, e é considerado um dos
maiores contribuidores do desenvolvimento da estatística
em diversas áreas do conhecimento, incluindo estudos
biológicos e epidemiológicos (SZWARCWALD; CASTILHO,
1992).
https://student.ulife.com.br/ContentPlayer/Index?lc=4Psg0ibJsKOa5m7J57KfVg%3d%3d&l=J9obb1MZAZthiqpIqmklxw%3d%3d&cd=DNwfvIGr… 10/21
Quando o valor da correlação é negativo, indica uma correlação inversa, do tipo negativa, ou
seja, quando uma das variáveis cresce, a outra diminui. Por outro lado, quando o valor é
positivo, há uma correlação direta, a variação das variáveis é no mesmo sentido (BALDI;
MOORE, 2014). A fórmula para o cálculo do coeficiente r, considerando as variáveis x e y, é:
Onde covxy = covariância de x e y, sx = desvio-padrão de x, sy = desvio-padrão de y.

Aqui temos um conceito novo: a covariância. A covariância é uma variância conjunta entre as
variáveis; é uma métrica que indica quão dependentes elas são entre si (ANDRADE; OGLIARE,
2013). É dada pela somatória da variância:
Onde n = número de elementos amostrais, xi = valor da variável x na posição i, = média

amostral de x, yi = valor da variável y na posição i, = média amostral de y.
A representação da correlação é por meio de gráficos de dispersão, podendo ser de forma
linear ou não linear. Observe exemplos de diferentes gráficos de correlação, considerando
diferentes valores de r. Atente-se para a configuração da distribuição dos dados, e seu formato
de distribuição. Lembre-se de que sempre haverá uma variável representada no eixo x e outra
no eixo y (BUSSAB; MORETTIN, 2006).
Figura 3 - Diferentes gráficos de dispersão para valores de r

Fonte: Adaptada de YasDeep, Shutterstock, 2020.
#PraCegoVer: ilustração contendo cinco tipos de gráficos, em que os eixos x e y estão em

branco e na área entre eles há bolinhas vermelhas. Para cada gráfico, as bolinhas estão
representadas de uma maneira. Abaixo dos gráficos, uma seta azul com a palavra dependência
e nas duas pontas a palavra forte.
Observando a imagem, podemos concluir que quanto mais próximo de 1 ou -1, mais linear
serão os dados, portanto eles indicarão uma forte dependência. No caso de r = 1, positiva, e no
caso de r = -1, negativa. Porém, quanto mais próximo de zero, mais fraca é a relação. De fato,
quando r = 0, as variáveis são independentes. Claramente, os dados de r devem ser avaliados
como um todo, para que as relações possam ser generalizadas corretamente em relação ao
grupo amostral e à população geral (POCINHO; FIGUEIREDO, 2004).
Caso
O estudo do pesquisador Robert Matthews chama a atenção

para um dado muito interessante: o autor afirma ser capaz de
provar estatisticamente que as cegonhas entregam bebês. Para
tanto, ele coletou dados sobre a taxa de nascimento de bebês, o
número de pares de cegonhas, a área do local e o número de
habitantes, em 17 países. Após os testes estatísticos de
hipóteses (T-student), o autor chegou os valores de p = 0,008, e
de r = 0,62, afirmando que, estatisticamente, há uma
probabilidade de 99.2% de cegonhas realmente entregarem
bebês. Claramente, os dados não são condizentes com a
realidade, e todos sabemos que os bebês não chegam pelas
cegonhas. Mas o autor quis destacar que muitas vezes os
estudos analisam variáveis como se tivessem correlação,
quando de fato não tem. Por isso, o planejamento experimental
e a correta seleção de variáveis e efeitos são tão importantes,
pois os parâmetros estatísticos podem afirmar situações que não
podem ser generalizadas para a realidade. O minucioso
processo analítico e lógico é essencial. No estudo citado, a taxa
de natalidade era de fato maior em regiões onde as cegonhas
eram mais frequentes, mas o motivo é que em regiões rurais, há
um maior número de pássaros de modo geral, e uma maior
cultura de múltiplas gestações (MATTHEWS, 2001).
A análise de correlação é uma das métricas mais utilizadas em bioestatística, pois, na ampla
maioria dos estudos clínicos, o objetivo é a comparação de duas variáveis e a relação entre
elas. Agora que já concluímos essa etapa, podemos avançar para outras métricas.
2.4 Intervalo de confiança e análises de

sobrevivência: conceitos importantes em
bioestatística
Um teste estatístico tem como principal objetivo responder uma hipótese. Vimos os principais
testes de hipóteses utilizados, e como você se atentou ao conteúdo, pôde perceber que há um
parâmetro sempre citado: intervalos de confiança. Vimos que eles possuem valores
usualmente padronizados, mas precisamos compreender um pouco mais sobre eles. Além
disso, em bioestatística, há outras ferramentas que utilizam os conceitos anteriormente vistos,
como análises de sobrevivência e como interpretar os dados em relação ao todo, ou seja, como
de fato concluir que os dados obtidos ou apresentados são representativos da realidade
(LOPES et al., 2014).
2.4.1 Aprofundando o conceito de confiança

Um intervalo de confiança (IC) inclui um grupo de valores estimados em relação aos
parâmetros de estudo envolvendo uma população. Assim, não é apenas um valor considerado,
mas um conjunto de valores aceitos considerando um parâmetro populacional conhecido.
Vimos que o símbolo de confiança é dado pela letra grega α, variando entre 0 e 1, equivalente a
0% e 100%. Veja mais sobre o intervalo de confiança.
O intervalo de confiança indica a probabilidade de ocorrência a partir de

Intervalo de
um coeficiente, chamado de coeficiente de confiança, dado por 1 – α,
confiança
considerando α ϵ (0,1) (MOORE, 2005).
O IC é utilizado parar indicar o nível de confiabilidade de um conjunto de dados estimados, e

quanto menor o IC, maior a confiabilidade daquela estimativa estar correta (PAGANO;
GAUVREAU, 2006).
É importante identificar que o intervalo de confiança não indica a probabilidade de um valor
estar contido em um intervalo, e sim a confiabilidade das estimativas obtidas para determinado
parâmetro. O nível de confiança é uma métrica associada à frequência de ocorrência de um
parâmetro calculado e real durante a repetição de um estudo, considerando amostras aleatórias
de uma população. A análise e os testes de intervalo de confiança também são métricas de
inferência estatística (MAGALHÃES; LIMA, 2005).
O nível de confiança é definido pelo pesquisador, mas há algumas indicações em literatura para
padrões a serem seguidos. Em estudos de bioestatística, o IC mínimo é usualmente fixado em
95% (VIEIRA, 2008).A representação e o cálculo de um intervalo de confiança são baseados na
tabela de valores de testes, como estatística Z ou T. Vamos exemplificar aqui o uso com a
tabela Z, mas isso é válido para a estatística T (VIEIRA, 2008; LOPES et al., 2014). O intervalo
de confiança pode ser calculado em relação à estimativa de diferentes parâmetros estatísticos,
sendo os mais utilizados a estimativa da média e da proporção. O cálculo do IC para a média é
dado por:
O cálculo acima considera estudo hipotético de distribuição normal, com o objetivo de estimar o
parâmetro da média, quando é desconhecida, mas o desvio-padrão conhecido. A fórmula pode
ser interpretada como a probabilidade de obter um valor da população de distribuição normal,
considerando os parâmetros de média e desvio-padrão N ( , ), e este valor pertencer ao
intervalo é igual a 1- %. Observe a figura a seguir, com as
indicações dos valores que compõem o intervalo de confiança em uma distribuição normal
padrão.
Figura 4 - Gráfico de frequência versus valor de Z crítico

Fonte: Fonte: FREIRE, 2020.
#PraCegoVer: imagem traz um gráfico em formato de curva, em que nas duas extremidades há
áreas em destaque, na cor laranja. O gráfico tem o título distribuição normal padrão.
Agora que aprofundamos nosso conhecimento sobre confiança e intervalo de confiança, vamos
conhecer outra ferramenta muito utilizada em bioestatística, que faz uso de diversos conceitos
que exploramos até o momento. Será uma ótima oportunidade de e aplicar o que já estudamos.
Vamos lá!
2.4.2 Análises de sobrevida

Em bioestatística, um dos cálculos mais importantes em estudos clínicos é a análise de
sobrevivência ou sobrevida. De modo geral, trata-se de um teste da durabilidade de um evento
até seu encerramento. Vamos abordar a temática das análises de sobrevivência do ponto de
vista biológico. Então, vamos iniciar com a compreensão do conceito de sobrevida, usualmente
confundido com o termo mortalidade. De acordo com Ferreira e Patino (2016, p. 77),
o conceito errôneo de que mortalidade e sobrevida são intercambiáveis vem do uso leigo dos
termos. Porém, em bioestatística, sobrevida é um conceito derivado de um procedimento analítico
específico, enquanto mortalidade é uma variável de desfecho dicotômica geralmente comparada
entre dois ou mais grupos em um momento específico (por exemplo, em cinco anos). Sobrevida, por
sua vez, constitui uma variável que relaciona tempo e evento: ela mede o tempo entre o início da
observação até a ocorrência de um evento.
A análise da sobrevida tem o objetivo de relacionar o tempo decorrido e os efeitos em relação à

durabilidade/atividade de determinada variável, ou seja, avaliar as relações entre as variáveis
de interesse e seu tempo de sobrevivência em relação a atividades ou riscos.
É obtida por técnicas de probabilidade condicional, considerando a probabilidade de
sobrevivência até determinado momento de tempo (t), para determinada variável que sofre
alterações ao longo do tempo – podendo ser um medicamento, um princípio ativo, um paciente
acometido por patologias, entre outros (FERREIRA; PATINO, 2016).
Dentre os principais conceitos de análises de sobrevivência, destacam-se: Hazard Ratio, tabela
de sobrevida, teste de Logrank e regressão de Cox (BUSTAMANTE-TEIXEIRA; FAERSTEIN;
LATORRE, 2002).
Utilizado para comparação entre grupos, utiliza a

probabilidade da variável que não teve o evento
estudado ter em determinado momento. É uma medida
de associação. Por exemplo, em um estudo sobre os
Hazard Ratio efeitos de uma patologia pulmonar, as chances de
sobrevivência da população não fumante são dez
vezes maiores comparada com a população fumante.
Assim, o Hazard Ratio seria calculado em 10,
indicando um risco maior para os sujeitos fumantes.
É um teste não paramétrico utilizado para comparar

dados de distribuição das amostras, em análises
univariadas. Sua utilização é indicada quando há
dados censurados, aqueles que ocorrem quando há
Teste de Logrank informação sobre o tempo de sobrevivência, mas não
de modo exato, visto que a variável estudada não
chegou ao evento de interesse no tempo de análise. É
amplamente utilizado em ensaios clínicos, em especial
na análise da eficácia de novos tratamentos.
Assim como o teste de Logrank, é um teste de

significância, com o objetivo de comparar grupamentos
em análises multivariadas. É utilizado para análise das
taxas de falha, quando os grupamentos iniciais não
Regressão de Cox são iguais – em relação ao n amostral ou às
características de interesse. É muito utilizado em
ensaios com valor de n pequeno ou em estudos que
necessitam de ajustes em relação a covariáveis que
também interferem na análise de sobrevida.
Essas são as principais ferramentas para análise de sobrevida, cada qual com uma
aplicabilidade de acordo com o conjunto de dados e objetivo do estudo. A representação dos
dados é usualmente feita por gráficos e tabelas. As formas mais conhecidas de representação
são as curvas de Kaplan-Meier.
As curvas de Kaplan-Meier são utilizadas para representar uma variável e seu efeito ao longo
do tempo, ou seja, objetiva mostrar as alterações naquela população estudada, de modo visual,
sob efeito temporal (VIEIRA, 2008).
Você sabia?
Que há uma relação entre os testes estatísticos clássicos e os
utilizados para análises de sobrevida? Por exemplo, os histogramas
estão para as análises clássicas, assim como as curvas de Kaplan-
Meier estão para as análises de sobrevida. Outras relações podem
ser observadas no artigo Epidemiologia Explicada – análise de
sobrevivência (BOTELHO; SILVA; CRUZ, 2009). Confira:
https://apurologia.pt/wp-content/uploads/2018/10/epidem-
explic.pdf (https://apurologia.pt/wp-
content/uploads/2018/10/epidem-explic.pdf).
Observe a figura representando um gráfico de Kaplan-Meier de um estudo envolvendo a

sobrevida de pacientes diagnosticados com câncer bucal. No eixo y, temos a representação da
frequência de óbitos para aquele grupo, e no eixo x, o tempo em meses (MONTORO et al.,
2008).
Figura 5 - Exemplo de gráfico de Kaplan-Meier

Fonte: Fonte: MONTORO et al., 2008, p. 863.
#PraCegoVer: imagem traz um gráfico, em que há uma curva decrescente. No eixo vertical, há
valores que indicam frequência de sobrevivência, e no eixo horizontal, valores que indicam o
tempo.
Os dados de sobrevivência também podem ser representados de outras formas, com gráficos
de barras ou dispersão, ou simplesmente em tabelas.
Você quer ler?

Técnicas de Análises de Sobrevida
Ano: 2002
Autores: Maria Teresa Bustamante-Teixeira, Eduardo
Faerstein e Maria do Rosário Latorre
Comentário: o artigo traz um estudo de revisão
abordando as principais ferramentas e técnicas de
análises de sobrevida, com diversos exemplos da prática
em bioestatística. Os autores discutem a aplicabilidade e
vantagens de diversas técnicas.
Acesse
(https://www.scielo.br/pdf/csp/v18n3/9287.pdf)
E com isso finalizamos nossa segunda unidade, em que pudemos aprender diversos conceitos
e conhecer ferramentas muito utilizadas em bioestatística.
Vamos Praticar!
As análises de correlação são muito importantes em inferências
estatísticas, tal como os testes de hipóteses. Muitas vezes, vários testes
são realizados para que os resultados se tornem mais robustos e
confiáveis, mais prováveis de serem representativos da realidade. Em
estudos de bioestatística, é comum que os resultados sejam
apresentados em termos de valor-p e de dados de correlação. Os dados
de correlação são representados pelo coeficiente de correlação de
Pearson r, e indicam relações entre duas variáveis. O estudo Correlação
entre ansiedade e consumo de álcool em estudantes universitários
(SILVA; TUCCI, 2018) buscou correlacionar o consumo de álcool com a
presença de ansiedade em estudantes universitários. Foram avaliados 42
estudantes de diferentes áreas, que relataram um padrão de consumo
alcoólico e presença de ansiedade. Após o procedimento experimental
inicial, obteve-se um coeficiente de correlação r = 0,63, em um intervalo
de confiança = 0,40 e 0,78, considerando α = 0,05.
SILVA, É. C.; TUCCI, A. M. Correlação entre ansiedade e consumo de
álcool em estudantes universitários. Revista Psicologia: teoria e prática,
São Paulo, v. 20, n. 2, p. 93-106, 2018. Disponível em:
http://pepsic.bvsalud.org/pdf/ptp/v20n2/pt_v20n2a04.pdf
(http://pepsic.bvsalud.org/pdf/ptp/v20n2/pt_v20n2a04.pdf). Acesso
em: 2 dez. 2020.
Com base no estudo apresentado e nos dados obtidos:
a) Interprete o valor de r (0,63) em relação à classificação
(positiva/negativa) e faça um esboço do gráfico esperado de correlação
para representar esse valor.
b) Reflita sobre a conclusão do estudo, identificando qual a hipótese nula
e qual a alternativa.
c) Responda: foi encontrada uma correlação entre o consumo de álcool e
o nível de ansiedade dos estudantes? Justifique sua resposta.
Conclusão
Finalizamos nossa unidade sobre conceitos e ferramentas em
bioestatística. Vimos conceitos sobre testes de hipóteses,
inferência, quando podemos confiar em dados representativos
de grupos, intervalos de confiança e, para finalizar, os testes
de sobrevida.
Nesta unidade, você teve a oportunidade de:
compreender os conceitos de hipótese nula e alternativa;
compreender os principais testes estatísticos e quando

rejeitar ou aceitar uma hipótese baseando-se nos valores de
T, Z ou P;
diferenciar e reconhecer quando aplicar testes paramétricos

e não paramétricos;
compreender o conceito de intervalo de confiança;
interpretar corretamente dados de probabilidade em relação

à confiabilidade e concluir inferências e generalizações
sobre populações;
compreender os testes de sobrevida, seus principais

conceitos e ferramentas.
Referências
ANDRADE, D. F; OGLIARI, P. J. Estatística para as ciências
agrárias e biológicas: com noções de experimentação.
Florianópolis: Editora da UFSC, 2013.
BALDI, B.; MOORE, D. S. A prática da estatística nas
ciências da vida. 2. ed. Rio de Janeiro: LTC, 2014. E-Book.
BOTELHO, F.; SILVA, C., CRUZ, F. Epidemiologia explicada – Análise de
Sobrevivência. Acta Urológica, Lisboa, v. 26, n. 4, p. 33-38, 2009. Disponível em:
https://apurologia.pt/wp-content/uploads/2018/10/epidem-explic.pdf
(https://apurologia.pt/wp-content/uploads/2018/10/epidem-explic.pdf). Acesso em:
23 nov. 2020.
BUSSAB, W. O; MORETTIN, P. A. Estatística Básica. 5. ed. São Paulo: Editora
Saraiva, 2006.
BUSTAMANTE-TEIXEIRA, M. T.; FAERSTEIN, E.; LATORRE, M. do R. Técnicas de
análise de sobrevida. Cad. Saúde Pública, Rio de Janeiro, v. 18, n. 3, p. 579-594,
2002. Disponível em: https://www.scielo.br/pdf/csp/v18n3/9287.pdf
(https://www.scielo.br/pdf/csp/v18n3/9287.pdf). Acesso em: 2 dez. 2020.
CALLEGARI-JACQUES, S. M. Bioestatística: princípios e aplicações. Porto Alegre:
Artmed, 2003.
CAMPOS, G. M. Tipos de variáveis. In: Departamento de Odontologia Restauradora.
Estatística prática para docentes e pós-graduandos. Faculdade de Odontologia de
Ribeirão Preto - Universidade de São Paulo, 2000. Disponível em:
http://www.forp.usp.br/restauradora/gmc/gmc_livro/gmc_livro_cap02.html
(http://www.forp.usp.br/restauradora/gmc/gmc_livro/gmc_livro_cap02.html).
Acesso em: 12. nov. 2020.
ESTATÍSTICA e Probabilidade - Aula 14 - Análise de Variância (ANOVA). 2018. São

Paulo. 1 vídeo (13 min 23 s). Publicado no canal UNIVESP. Disponível em:
https://www.youtube.com/watch?v=1ceP2FL5fzE&ab_channel=UNIVESP
(https://www.youtube.com/watch?v=1ceP2FL5fzE&ab_channel=UNIVESP).
Acesso em: 23 nov. 2020.
FERREIRA, J. C.; PATINO, C. M. O que é análise de sobrevida e quando devo utilizá-
la? J. Bras. Pneumol., Brasília, v. 42, n. 1, p. 77, 2016. Disponível em:
https://www.scielo.br/pdf/jbpneu/v42n1/pt_1806-3713-jbpneu-42-01-00077.pdf
(https://www.scielo.br/pdf/jbpneu/v42n1/pt_1806-3713-jbpneu-42-01-00077.pdf).
Acesso em: 2 dez. 2020.
FREIRE, S. M. Bioestatística Básica. Rio de Janeiro: UERJ, 2020. E-book. Disponível
em: http://www.lampada.uerj.br/arquivosdb/_book/bioestatisticaBasica.html
(http://www.lampada.uerj.br/arquivosdb/_book/bioestatisticaBasica.html). Acesso
em: 2 dez. 2020.
GRAUS de Liberdade em 1 minuto. 2020. Belo Horizonte. 1 vídeo (1 min 2 s).
Publicado no canal Scimus Estatística. Disponível em:
https://www.youtube.com/watch?v=RX-
vvhCng48&ab_channel=ScimusEstat%C3%ADstica
(https://www.youtube.com/watch?v=RX-
vvhCng48&ab_channel=ScimusEstat%C3%ADstica). Acesso em: 23 nov. 2020.
LOPES, B. et al. Bioestatísticas: conceitos fundamentais e aplicações práticas. Rev.
Bras. Oftalmol., Rio de Janeiro, v. 73, n. 1, p. 16-22, fev. 2014. Disponível em:
http://www.scielo.br/pdf/rbof/v73n1/0034-7280-rbof-73-01-0016.pdf
(http://www.scielo.br/pdf/rbof/v73n1/0034-7280-rbof-73-01-0016.pdf). Acesso em:
16 abr. 2020.
MAIA, F. G. S. da S.; BEDAQUE, H. de P.; MELO, M. Y. S. Estudos de Coorte. In:
BEDAQUE, H. de P.; BEZERRA, E. L. M. (Orgs.). Descomplicando MBE: uma
abordagem prática da Medicina Baseada em Evidências. Natal: Editora Caule de
Papiro, p. 63-77, 2018. Disponível em:
http://cauledepapiro.com.br/files/08fcf3f89a1cefa768ef293b76a3a645add0d8f9.pdf
(http://cauledepapiro.com.br/files/08fcf3f89a1cefa768ef293b76a3a645add0d8f9.pd
f). Acesso em: 2 dez. 2020.
MAGALHÃES, M. N.; LIMA, A. C. P. de. Noções de probabilidade e estatística. 6. ed.
São Paulo: Edusp, 2005.
MATTHEW R. Storks Deliver Babies (p = 0.008). Teaching Statistics, Brisbane, v. 22,
p. 36-38, 2001. Disponível em:
https://www.researchgate.net/publication/227763292_Storks_Deliver_Babies_p_0
008
(https://www.researchgate.net/publication/227763292_Storks_Deliver_Babies_p_
0008). Acesso em: 2 dez. 2020.
MONTORO, J. R. de M. C. et al. Fatores prognósticos no carcinoma espinocelular de
cavidade oral. Rev. Bras. Otorrinolaringol., São Paulo, v. 74, n. 6, p. 861-866, 2008.
Disponível em: https://www.scielo.br/pdf/rboto/v74n6/v74n6a08.pdf
(https://www.scielo.br/pdf/rboto/v74n6/v74n6a08.pdf). Acesso em: 2 dez. 2020.
MOORE, D. S. A estatística básica e sua prática. 3. ed. Rio de Janeiro: LTC, 2005.
PAGANO, M.; GAUVREAU, K. Princípios de Bioestatística. 2. ed. São Paulo:
Thomson, 2006.
POCINHO, M., FIGUEIREDO, J. P. Estatística e Bioestatística. Coimbra: Madeira,

2004.
PORTAL ACTION. Erros cometidos nos testes de hipóteses. Portal Action, São
Carlos, 2020. Disponível em: portalaction.com.br/inferencia/511-erros-cometidos-
nos-testes-de-hipoteses (http://portalaction.com.br/inferencia/511-erros-
cometidos-nos-testes-de-hipoteses). Acesso em: 23 nov. 2020.
SILVA, É. C.; TUCCI, A. M. Correlação entre ansiedade e consumo de álcool em
estudantes universitários. Revista Psicologia: teoria e prática, São Paulo, v. 20, n. 2,
p. 93-106, 2018. Disponível em:
http://pepsic.bvsalud.org/pdf/ptp/v20n2/pt_v20n2a04.pdf
(http://pepsic.bvsalud.org/pdf/ptp/v20n2/pt_v20n2a04.pdf). Acesso em: 2 dez.
2020.
SZWARCWALD, C. L.; CASTILHO, E. A. de. Os caminhos da estatística e suas
incursões pela epidemiologia. Cad. Saúde Públ., Rio de Janeiro, v. 8, n. 1, p. 5-21,
jan.-mar. 1992. Disponível em: https://www.scielo.br/pdf/csp/v8n1/v8n1a02.pdf
(https://www.scielo.br/pdf/csp/v8n1/v8n1a02.pdf). Acesso em: 2 dez. 2020.
VIEIRA, S. Introdução à Bioestatística. 4. ed. Rio de Janeiro: Elsevier, 2008.

Epidemiologia 2

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Epidemiologia 2

Enviado por

Direitos autorais:

Formatos disponíveis

14/05/2023, 15:39 Bioestatística e Epidemiologia

Autoria: Ana Paula Felizatti – Revisão técnica: Symara Rodrigues Antunes

2.1 Compreendendo erros e testando

2.1.1 Testes de hipóteses

Primeira: afirmar que existe efeito, quando ela não existe.

Segunda: afirmar que não existe o efeito, quando existe.

Figura 1 - Hipóteses e tipos de erros gerados

A probabilidade de cometer um erro do tipo I é denominada α, relacionada ao nível de

2.1.2 Principais testes de hipóteses utilizados – distribuição normal

Onde: = média amostral, = média populacional, = desvio-padrão populacional, n = número

Onde: t = valor-t, x = média amostral, = média populacional, = desvio-padrão amostral, n =

Figura 2 - Valores críticos em curvas de distribuição normal

Teste seus conhecimentos

2.2 Testes paramétricos e não

estatística: os paramétricos e os não paramétricos (POCINHO; FIGUEIREDO, 2004) O teste-t,

Onde, = média amostral do grupo 1, = média amostral do grupo 2, s = desvio-padrão

Onde = variância amostral da população 1, = desvio-padrão amostral da população 1,

Você quer ver?

O cálculo da ANOVA é essencial em bioestatísica. Em

Teste de Wilcoxon para uma amostra

A escolha do teste adequado impacta diretamente na qualidade dos resultados obtidos.

Teste seus conhecimentos

2.3 Qui-quadrado e análise de

Em estatística aplicada a estudos biológicos é comum que as hipóteses estejam relacionadas a

os grupos testados devem ser independentes e seus

os eventos observados devem ser quantificados em

o n amostral não deve ser demasiadamente pequeno;

e, por fim, cada item de observação/evento deve estar

Inicialmente, devemos avaliar possíveis diferenças entre proporções observadas e esperadas,

Onde o = frequência observada para a classe, e = frequência esperada para a classe. Em

Tabela 1 - Exemplo de tabela 2x2 utilizada em testes X²

Você quer ver?

Onde covxy = covariância de x e y, sx = desvio-padrão de x, sy = desvio-padrão de y.

Onde n = número de elementos amostrais, xi = valor da variável x na posição i, = média

Figura 3 - Diferentes gráficos de dispersão para valores de r

#PraCegoVer: ilustração contendo cinco tipos de gráficos, em que os eixos x e y estão em

O estudo do pesquisador Robert Matthews chama a atenção

2.4 Intervalo de confiança e análises de

2.4.1 Aprofundando o conceito de confiança

O intervalo de confiança indica a probabilidade de ocorrência a partir de

O IC é utilizado parar indicar o nível de confiabilidade de um conjunto de dados estimados, e

Figura 4 - Gráfico de frequência versus valor de Z crítico

2.4.2 Análises de sobrevida

A análise da sobrevida tem o objetivo de relacionar o tempo decorrido e os efeitos em relação à

Utilizado para comparação entre grupos, utiliza a

É um teste não paramétrico utilizado para comparar

Assim como o teste de Logrank, é um teste de

Observe a figura representando um gráfico de Kaplan-Meier de um estudo envolvendo a

Figura 5 - Exemplo de gráfico de Kaplan-Meier

Você quer ler?

compreender os conceitos de hipótese nula e alternativa;

compreender os principais testes estatísticos e quando

diferenciar e reconhecer quando aplicar testes paramétricos

compreender o conceito de intervalo de confiança;

interpretar corretamente dados de probabilidade em relação

compreender os testes de sobrevida, seus principais

ESTATÍSTICA e Probabilidade - Aula 14 - Análise de Variância (ANOVA). 2018. São

POCINHO, M., FIGUEIREDO, J. P. Estatística e Bioestatística. Coimbra: Madeira,

Você também pode gostar