Você está na página 1de 19

BIOESTATÍSTICA E EPIDEMIOLOGIA

UNIDADE 2 - ANÁLISE ESTATÍSTICA:


EXIBINDO E COMPREENDENDO A VALIDADE
DE DADOS
Autoria: Ana Paula Felizatti – Revisão técnica: Symara Rodrigues Antunes

-1-
Introdução
Você já sabe que a estatística pode ser aplicada em diversas
áreas do conhecimento, afinal, é comum vivenciarmos e vermos
informações no decorrer do dia que utilizam dados estatísticos.
Mas o que está por trás desses dados?

Saiba que temos diversos estudos, cálculos e testes. Esses testes


são importantes, pois auxiliam a responder hipóteses, e há
diversos tipos de testes. Todo estudo estatístico se inicia com
uma hipótese a ser comprovada ou refutada. Mas se há vários
tipos de testes, como definir qual o melhor para determinado conjunto de dados? Há diversos conceitos que nos
auxiliam, de acordo com os objetivos e tipos de estudos, assim como diferentes ferramentas para aplicação
desses testes.

Nesta unidade, vamos aprender os principais testes de hipóteses em bioestatística. Todavia, para compreendê-
los, devemos ver alguns conceitos essenciais, como qui-quadrado, análise de inferências, correlação, entre
outros, que permitem analisar os dados adequadamente, identificar os resultados e possíveis erros. Você sabia
que há tipos diferentes de erros? E em alguns estudos, o tipo de erro apresentado é muito importante para
definir se os dados são representativos ou não da realidade. Então, vamos lá, pois temos muitos conceitos para
serem estudados.

Bons estudos!

2.1 Compreendendo erros e testando hipóteses


Em estatística, a obtenção e análise dos dados é o ponto principal. Os dados podem ser apresentados de modo
descritivo – com estatística descritiva – considerando dados de parâmetros, como média ou desvio-padrão.
Todavia, para realizar afirmações acerca de dados obtidos em relação a uma população, ou seja, compreender a
real representatividade dos valores, deve-se utilizar outra área da estatística: a inferência estatística
(ANDRADE; OGLIARE, 2013).

A inferência estatística é utilizada para construir proposições, deduzindo informações a partir de dados
concretos fornecidos pela estatística descritiva. Um dos modelos mais utilizados em inferência estatística são os
testes de hipóteses (BUSSAB; MORETTIN, 2006). Vamos compreender melhor sobre eles a seguir.

2.1.1 Testes de hipóteses

Quando iniciamos uma análise estatística, temos uma hipótese para testar, como verdadeira ou falsa, em que há
uma pergunta a ser respondida. Para aceitar ou rejeitar uma hipótese, devemos submetê-la a um teste, chamado
de teste de hipótese (BALDI; MOORE, 2014).

O teste de hipótese é utilizado para avaliar duas declarações opostas sobre determinada população. Uma das
declarações é chamada de hipótese nula (H0), enquanto a outra é chamada de hipótese alternativa (H1). A
hipótese nula carrega o sinal de igualdade e indica usualmente “sem efeito”. Já a hipótese alternativa irá
contradizer a hipótese nula. Assim, aplica-se um teste de hipótese com regras específicas que avaliam o
comportamento das hipóteses nula e alternativa, definindo qual deve ser aceita ou rejeitada (LOPES et al., 2014).

O teste de hipótese é aplicado após definição do intervalo de confiança, usualmente utilizado em 95%. Um dos
testes mais utilizados é o valor-p, que indica a probabilidade de ocorrência de valores extremos e médios (LOPES
et al., 2014). Considere, então, que após a coleta de dados hipotéticos n amostral, previamente calculados e

-2-
testes mais utilizados é o valor-p, que indica a probabilidade de ocorrência de valores extremos e médios (LOPES
et al., 2014). Considere, então, que após a coleta de dados hipotéticos n amostral, previamente calculados e
definidos, o valor-p foi calculado em 0,001. O que isso significa em relação às hipóteses, considerando o nível de
significância escolhido? Que a hipótese nula será rejeitada, e a hipótese alternativa passa a ser aceita, pois a
hipótese nula nos diz que não há nenhum efeito, ou seja, não há significância nos valores analisados. Todavia,
como obtivemos um valor de p menor que o nível de confiança, observamos que há uma diferença e, portanto, a
hipótese alternativa deve ser aceita.

Ao responder sobre a rejeição ou aceite da hipótese, podemos agir corretamente ou temos a possibilidade de
errar de duas maneiras (MOORE, 2005).

Primeira: afirmar que existe efeito, quando ela não existe.

Segunda: afirmar que não existe o efeito, quando existe.

Quando H for verdadeira, e aceitamos como falsa – rejeitamos –, temos um erro do tipo I. Aqui, estamos
0

rejeitando H quando é verdadeiro. Quando for falso, e aceitamos como verdadeiro, temos um erro do tipo II.
0

Aqui, estamos aceitando H quando é falso. Observe, a seguir, um resumo desses conceitos.
0

Figura 1 - Hipóteses e tipos de erros gerados


Fonte: Fonte: Elaborada pela autora, baseada em MOORE, 2005.

#PraCegoVer: imagem traz em uma primeira linha, as expressões: aceitar H e rejeitar H . Em uma segunda
0 0

linha, as expressões: H verdadeira; decisão correta; erro do tipo I. E na terceira linha, as expressões: H falsa;
0 0

erro do tipo II; decisão correta.

A probabilidade de cometer um erro do tipo I é denominada α, relacionada ao nível de significância escolhido


para o teste. Já a probabilidade de cometer um erro do II é dada por β, e indica qual as chances de se aceitar H
0

em casos em que é verdadeira (CALLEGARI-JACQUES, 2003).

Você quer ler?


Poder de teste e tamanho amostral

Ano: 2020

-3-
Ano: 2020

Autor: Sergio Miranda Freire

Comentário: para calcular o parâmetro estatístico β, relacionado ao erro do tipo II,


utilizam-se diversos parâmetros, como o nível de confiança, valor de Z crítico e
medidas da função da distribuição normal. É um cálculo importante para
compreender de modo mais avançado os erros do tipo II e reflete o poder de um teste
estatístico. No link a seguir, da obra Bioestatística Básica, destaca-se o capítulo 15.9
“Poder de teste e tamanho amostral”.

Acesse

Há diversos testes estatísticos para testar as hipóteses. Vimos um exemplo, utilizando o valor-p, mas há outras
formas que dependem do tipo de conjunto amostral e sua distribuição. Agora, vamos tratar da distribuição
normal e dos principais testes utilizados.

2.1.2 Principais testes de hipóteses utilizados – distribuição normal

Um dos principais fatores que determinam a escolha de um teste é o tamanho amostral. Em amostras grandes,
com n > 30, podemos utilizar o teste de hipótese baseado na média, com o cálculo do valor Z (MOORE, 2015). O
valor Z é um indicativo do quanto um ponto está fora dos valores de desvio-padrão e média, ou seja, quão
distante ele está do esperado a partir de tais parâmetros estatísticos. Também chamado de escore-padrão, é
dado pela fórmula:

Onde: = média amostral, = média populacional, = desvio-padrão populacional, n = número de elementos.

O valor Z é então comparado com tabelas estatísticas para diferentes níveis de confiança, em que a hipótese será
rejeitada ou não, se o valor estiver no limite estabelecido pelo intervalo de confiança (LOPES et al., 2014;
BUSSAB; MORETTIN, 2006).

Mas, em muitos casos, em que o desvio-padrão não é conhecido, ou o número de elementos é menor, outro teste
é amplamente utilizado: o teste-t. Nele, a estatística de teste é baseada no cálculo da distribuição T-student. Esse
teste também é utilizado para dados com distribuição normal (BUSSAB; MORETTIN, 2006). O cálculo é dado por:

Onde: t = valor-t, x = média amostral, = média populacional, = desvio-padrão amostral, n = número de


elementos.

Neste caso, devemos estabelecer valores críticos para t, para tomada de decisão sobre a hipótese. Assim, como
vimos anteriormente, definimos valores para o teste bilateral e unilateral, e definimos qual das hipóteses será
para H . Para o teste ser bilateral, definimos como valor crítico os valores -t et . Para o teste unilateral à
1 α/2 α/2

direita, o ponto crítico passa a ser t , enquanto para o teste unilateral à esquerda o ponto crítico passa a ser -t .
α α

Os valores de t em nível de confiança específico são obtidos nas tabelas de valor T, assim como observamos para
o valor Z, sendo encontradas facilmente em materiais de estatística (CAMPOS, 2000).

Observe as regiões correspondentes aos valores críticos de t na distribuição normal.


α

-4-
Figura 2 - Valores críticos em curvas de distribuição normal
Fonte: Fonte: Elaborada pela autora, 2020.

#PraCegoVer: imagem traz três gráficos em formato de curva, que indica a distribuição normal. O da esquerda
tem como título região crítica: unilateral à direita; o do meio, região crítica: bilateral; e o da direita, região crítica:
unilateral à esquerda.

Portanto, após calcular t, observando os valores obtidos e comparando aos valores críticos, rejeitamos H
0

quando o valor-t calculado ultrapassar os valores críticos do teste escolhido (POCINHO; FIGUEIREDO, 2004;
PAGANO; GAUVREAU, 2006), ou seja, quando T > -t em testes unilaterais à direita; quando T < t em testes
α α

unilaterais à esquerda; quando T > t eT<t em testes bilaterais.


α/2 -α/2

É importante destacar que o uso conjunto dos testes de valor-t e valor-p são comuns e amplamente utilizados,
oferecendo maior confiabilidade aos resultados.

Teste seus conhecimentos


(Atividade não pontuada)

Até aqui, estudamos o cálculo de hipóteses em dados com distribuição normal. E quando os dados não forem
assim distribuídos? Acompanhe a seguir.

2.2 Testes paramétricos e não paramétricos


Agora que você já conhece alguns dos principais conceitos sobre testes de hipóteses, e introduzidos alguns testes
amplamente utilizados para análises de rejeição ou aceite de hipóteses, vamos aprofundar mais o conhecimento.

Há dois tipos principais de testes em estatística: os paramétricos e os não paramétricos (POCINHO; FIGUEIREDO,

-5-
Há dois tipos principais de testes em estatística: os paramétricos e os não paramétricos (POCINHO; FIGUEIREDO,
2004) O teste-t, por exemplo, é um exemplo de teste paramétrico (PAGANO; GAUVREAU, 2006).

E o que isso quer dizer? O termo “paramétrico” está relacionado a determinados parâmetros estatísticos: a
média e o desvio-padrão. Esses parâmetros refletem o comportamento da população e seu modo de distribuição
normal (MAGALHÃES; LIMA, 2005; PAGANO; GAUVREAU, 2006). Ou seja, os testes paramétricos são testes de
hipóteses que requerem o comportamento populacional devidamente caracterizado pelos parâmetros da média
e do desvio-padrão e uma distribuição normal. Já os testes não paramétricos não têm, necessariamente, essa
exigência. Assume-se que a distribuição do conjunto amostral é indefinida, sem o pressuposto da normalidade
(LOPES et al., 2014; POCINHO; FIGUEIREDO, 2004). De acordo com Moore (2015), Pocinho e Figueiredo (2004),
dentre os testes paramétricos mais utilizados, destacam-se os testes-t e ANOVA. Vamos conhecer mais sobre eles.

Testes-t para uma ou duas amostras

Utilizados para comparar médias, resumem os valores do conjunto amostral em um valor de T, que é comparado
em uma tabela com níveis de confiança α. O teste-t para uma amostra também é chamado de teste-t pareado, e é
utilizado para comparar médias amostrais em relação ao valor determinado pela hipótese nula.

O teste-t para duas amostras envolve a coleta de dois grupos independentes. Assume-se na hipótese nula que
ambos os grupos são iguais, ou seja, a diferença entre eles é zero. A fórmula do cálculo passa a ser a diferença
entre as médias dos grupos e diferentemente do cálculo para uma amostra, desconsidera-se o tamanho amostral,
ficando:

Onde, = média amostral do grupo 1, = média amostral do grupo 2, s = desvio-padrão amostral.

ANOVA

O teste ANOVA é o teste de análise da variância, derivado do termo em inglês analisys of variance. Enquanto os
testes-t são utilizados para análise da diferença entre as médias de até dois grupos, as análises ANOVA podem
ser aplicadas para mais de três grupos independentes.

Utiliza-se o teste F para verificar a estatística das médias dos grupos de interesse. A estatística F nos diz sobre a
dispersão dos dados em relação à média, e é calculada pela razão entre duas variâncias, ou seja, o valor F é igual
à variação das medidas amostrais sobre a variação amostral.

Usualmente, a hipótese nula do teste F considera que as médias entre os grupamentos são iguais. A fórmula de F
é:

Onde = variância amostral da população 1, = desvio-padrão amostral da população 1, = variância


amostral da população 2, = desvio-padrão amostral da população 2.

Após o cálculo de F, utiliza-se a tabela Fisher-Snedecor para avaliar os valores para determinado intervalo de
confiança e verificar se a hipótese deverá ser aceita ou não.

-6-
Você quer ver?
O cálculo da ANOVA é essencial em bioestatísica. Em Estatística e Probabilidade -
Análise de Variância (ANOVA) (2018) é possível rever conceitos importantes e
aprender como aplicá-los corretamente para construção de uma análise ANOVA.

Acesse

Entre os testes não paramétricos, destacam-se: teste de Wilcoxon, Maan-Whitney e Kruskal-Wallis. Vamos
conhecê-los? Acompanhe.

• Teste de Wilcoxon para uma amostra


Método alternativo em situações em que o teste-t para uma amostra não pode ser aplicado. Informa
sobre a mediana, indicando se o valor é igual a um determinado valor numérico. Assim, a hipótese nula
considera que a mediana é igual a um valor θ e as hipóteses alternativas consideram as condições de
0,

diferença (maior, menor ou diferente).

• Teste de Mann-Whitney
Informa sobre a diferença entre grupos, ou seja, é uma alternativa ao teste-t para duas amostras, quando
não há informações sobre a distribuição. Pode ser aplicado em variáveis aleatórias, tanto numéricas
como categóricas, e indica se as distribuições de dois grupamentos são similares em termos de
localização da mediana. Aqui, define-se como hipótese nula que a diferença de localização entre as
medianas dos grupos testados é igual a zero.

• Kruskal-Wallis
É uma alternativa ao teste ANOVA, sendo utilizado para análise em estudos com mais de dois grupos. São
testadas as funções de distribuição dos grupos amostrais, assumindo-se como hipótese nula que todas as
funções de distribuição entre os grupos são iguais.

A escolha do teste adequado impacta diretamente na qualidade dos resultados obtidos. Considerando grupos
com distribuição normal, com dados simétricos e parâmetros de média e desvio-padrão, deve-se utilizar os teste-
t ou ANOVA, na maioria dos casos (PAGANO; GAUVREAU, 2006).

Teste seus conhecimentos


(Atividade não pontuada)

Até aqui, nos aprofundamos nos testes de hipóteses e os conceitos de testes paramétricos ou não paramétricos.
Agora, vamos passar para um teste em específico: o qui-quadrado.

-7-
2.3 Qui-quadrado e análise de correlação
Em estatística aplicada a estudos biológicos é comum que as hipóteses estejam relacionadas a frequências de
eventos ou como diferentes amostras se relacionam entre si. Nesse contexto, é comum que se queira avaliar
diferentes amostras e grupos, mas muitas vezes não há disponíveis os parâmetros de média ou desvio-padrão.
Por isso, há um teste não paramétrico amplamente utilizado em bioestatística: qui-quadrado. Adicionalmente,
temos uma ferramenta muito importante, chamada de correlação, que permite a identificação dos feitos de
interação das variáveis estudadas. Vamos aprender sobre esses testes? Acompanhe.

2.3.1 Qui-quadrado

O teste qui-quadrado é um teste de hipótese do tipo não paramétrico. Sua principal característica é estabelecer
um comparativo entre proporções, proporcionando uma análise de diferenças entre frequências observadas e
esperadas (BALDI; MOORE, 2014; ANDRADE; OGLIARE, 2013).

O objetivo é determinar os valores de dispersão entre amostras com variáveis categóricas nominais e indicar
uma possível relação com variáveis numéricas. Para exemplificar, podemos relacionar a frequência que um gene
está descrito em uma população, e a relação com a quantificação de um fenótipo observado. De fato, a análise de
qui-quadrado é um teste muito utilizado em análises genéticas.

De modo geral, o teste serve para comparar frequências e proporções. (BUSSAB; MORETTIN, 2006). Apesar de
ser um teste não paramétrico, é condicionado a algumas exigências (BALDI; MOORE, 2014):

os grupos testados devem ser independentes e seus itens devem ser escolhidos aleatoriamente;

os eventos observados devem ser quantificados em termos de frequência ou contagem;

o n amostral não deve ser demasiadamente pequeno;

e, por fim, cada item de observação/evento deve estar relacionado a uma única categoria.

Inicialmente, devemos avaliar possíveis diferenças entre proporções observadas e esperadas, por meio da
fórmula da média dos desvios:

Onde o = frequência observada para a classe, e = frequência esperada para a classe. Em seguida, calculamos o qui-
quadrado (X²):

Analisando a fórmula, podemos perceber que quando os desvios forem grandes, ou seja, quando as frequências
observadas e esperadas foram distantes entre si, o valor de X² será alto, e quando os desvios forem pequenos, e
as frequências observadas e esperadas forem próximas entre si, o valor de X² será pequeno (POCINHO;
FIGUEIREDO, 2004).

Usualmente, os dados de testes X² são apresentados em forma de tabela, 2x2 no caso de duas amostras, ou 2xn,
no caso de n amostras. Veja um exemplo.

-8-
Tabela 1 - Exemplo de tabela 2x2 utilizada em testes X²
Fonte: Fonte: MAIA; BEDAQUE; MELO, 2018, p. 72.

#PraCegoVer: imagem traz uma tabela com dois títulos: exposição e incidência da doença. Para cada título há
colunas com textos e representações de valores.

Assim como observamos para outros testes, o teste de X² possui valores tabelados para determinados níveis de
confiança, e para verificar se o valor obtido está nos limites críticos, deve-se consultar a tabela. Comparando os
valores, é possível estabelecer se as hipóteses, nula ou alternativa, serão rejeitadas ou aceitas. A denotação do
valor de X² sob nível crítico de confiança é X²c (POCINHO; FIGUEIREDO, 2004). O grau de liberdade também
deve ser considerado na avaliação do X² tabelado. Ele é calculado pela diferença entre o número de
determinações amostrais e o número de parâmetros estatísticos (MOORE, 2005).

Você quer ver?


Os graus de liberdade são utilizados para análise das tabelas de valores dos testes. É
um conceito simples, mas muito importante. No vídeo Graus de liberdade em 1
minuto (2020), há uma rápida explicação sobre o conceito.

Acesse

Assim, considerando os valores de X² calculados e tabelados, vamos rejeitar a hipótese nula quando o valor de X²
for maior ou igual ao tabelado, e aceitar quando X² for menor (BALDI; MOORE, 2014).

2.3.2 Correlação

A correlação é uma métrica estatística para comparação entre duas variáveis, visando compreender se entre elas
há uma relação de dependência. É qualquer relação dentro de diversos conjuntos relacionais sobre duas
amostras que são dependentes entre si. A principal métrica de uma análise de correlação é o valor r, que indica a
força de uma correlação, ou seja, quão provável ela é. Ele varia entre -1 e 1, e é chamado de coeficiente de
correlação de Pearson (BALDI; MOORE, 2014; BUSSAB; MORETTIN, 2006).

-9-
Você o conhece?
Karl Pearson foi um estatístico britânico, nascido em 1857, em Londres. Foi o criador
do primeiro departamento de estatística em uma universidade, e é considerado um
dos maiores contribuidores do desenvolvimento da estatística em diversas áreas do
conhecimento, incluindo estudos biológicos e epidemiológicos (SZWARCWALD;
CASTILHO, 1992).

Quando o valor da correlação é negativo, indica uma correlação inversa, do tipo negativa, ou seja, quando uma
das variáveis cresce, a outra diminui. Por outro lado, quando o valor é positivo, há uma correlação direta, a
variação das variáveis é no mesmo sentido (BALDI; MOORE, 2014). A fórmula para o cálculo do coeficiente r,
considerando as variáveis x e y, é:

Onde cov = covariância de x e y, s = desvio-padrão de x, s = desvio-padrão de y.


xy x y

Aqui temos um conceito novo: a covariância. A covariância é uma variância conjunta entre as variáveis; é uma
métrica que indica quão dependentes elas são entre si (ANDRADE; OGLIARE, 2013). É dada pela somatória da
variância:

Onde n = número de elementos amostrais, xi = valor da variável x na posição i, = média amostral de x, yi = valor
da variável y na posição i, = média amostral de y.

A representação da correlação é por meio de gráficos de dispersão, podendo ser de forma linear ou não linear.
Observe exemplos de diferentes gráficos de correlação, considerando diferentes valores de r. Atente-se para a
configuração da distribuição dos dados, e seu formato de distribuição. Lembre-se de que sempre haverá uma
variável representada no eixo x e outra no eixo y (BUSSAB; MORETTIN, 2006).

Figura 3 - Diferentes gráficos de dispersão para valores de r


Fonte: Adaptada de YasDeep, Shutterstock, 2020.

- 10 -
#PraCegoVer: ilustração contendo cinco tipos de gráficos, em que os eixos x e y estão em branco e na área entre
eles há bolinhas vermelhas. Para cada gráfico, as bolinhas estão representadas de uma maneira. Abaixo dos
gráficos, uma seta azul com a palavra dependência e nas duas pontas a palavra forte.

Observando a imagem, podemos concluir que quanto mais próximo de 1 ou -1, mais linear serão os dados,
portanto eles indicarão uma forte dependência. No caso de r = 1, positiva, e no caso de r = -1, negativa. Porém,
quanto mais próximo de zero, mais fraca é a relação. De fato, quando r = 0, as variáveis são independentes.
Claramente, os dados de r devem ser avaliados como um todo, para que as relações possam ser generalizadas
corretamente em relação ao grupo amostral e à população geral (POCINHO; FIGUEIREDO, 2004).

Caso
O estudo do pesquisador Robert Matthews chama a atenção para um dado muito interessante: o autor
afirma ser capaz de provar estatisticamente que as cegonhas entregam bebês. Para tanto, ele coletou
dados sobre a taxa de nascimento de bebês, o número de pares de cegonhas, a área do local e o número
de habitantes, em 17 países. Após os testes estatísticos de hipóteses (T-student), o autor chegou os
valores de p = 0,008, e de r = 0,62, afirmando que, estatisticamente, há uma probabilidade de 99.2% de
cegonhas realmente entregarem bebês. Claramente, os dados não são condizentes com a realidade, e
todos sabemos que os bebês não chegam pelas cegonhas. Mas o autor quis destacar que muitas vezes
os estudos analisam variáveis como se tivessem correlação, quando de fato não tem. Por isso, o
planejamento experimental e a correta seleção de variáveis e efeitos são tão importantes, pois os
parâmetros estatísticos podem afirmar situações que não podem ser generalizadas para a realidade. O
minucioso processo analítico e lógico é essencial. No estudo citado, a taxa de natalidade era de fato
maior em regiões onde as cegonhas eram mais frequentes, mas o motivo é que em regiões rurais, há
um maior número de pássaros de modo geral, e uma maior cultura de múltiplas gestações
(MATTHEWS, 2001).

A análise de correlação é uma das métricas mais utilizadas em bioestatística, pois, na ampla maioria dos estudos
clínicos, o objetivo é a comparação de duas variáveis e a relação entre elas. Agora que já concluímos essa etapa,
podemos avançar para outras métricas.

2.4 Intervalo de confiança e análises de sobrevivência:


conceitos importantes em bioestatística
Um teste estatístico tem como principal objetivo responder uma hipótese. Vimos os principais testes de
hipóteses utilizados, e como você se atentou ao conteúdo, pôde perceber que há um parâmetro sempre citado:
intervalos de confiança. Vimos que eles possuem valores usualmente padronizados, mas precisamos
compreender um pouco mais sobre eles. Além disso, em bioestatística, há outras ferramentas que utilizam os
conceitos anteriormente vistos, como análises de sobrevivência e como interpretar os dados em relação ao todo,
ou seja, como de fato concluir que os dados obtidos ou apresentados são representativos da realidade (LOPES et
al., 2014).

- 11 -
2.4.1 Aprofundando o conceito de confiança

Um intervalo de confiança (IC) inclui um grupo de valores estimados em relação aos parâmetros de estudo
envolvendo uma população. Assim, não é apenas um valor considerado, mas um conjunto de valores aceitos
considerando um parâmetro populacional conhecido. Vimos que o símbolo de confiança é dado pela letra grega
α, variando entre 0 e 1, equivalente a 0% e 100%. Veja mais sobre o intervalo de confiança.

Intervalo
d e O intervalo de confiança indica a probabilidade de ocorrência a partir de um coeficiente,
confiança chamado de coeficiente de confiança, dado por 1 – α, considerando α ϵ (0,1) (MOORE, 2005).

O IC é utilizado parar indicar o nível de confiabilidade de um conjunto de dados estimados, e quanto menor o IC,
maior a confiabilidade daquela estimativa estar correta (PAGANO; GAUVREAU, 2006).

É importante identificar que o intervalo de confiança não indica a probabilidade de um valor estar contido em
um intervalo, e sim a confiabilidade das estimativas obtidas para determinado parâmetro. O nível de confiança é
uma métrica associada à frequência de ocorrência de um parâmetro calculado e real durante a repetição de um
estudo, considerando amostras aleatórias de uma população. A análise e os testes de intervalo de confiança
também são métricas de inferência estatística (MAGALHÃES; LIMA, 2005).

O nível de confiança é definido pelo pesquisador, mas há algumas indicações em literatura para padrões a serem
seguidos. Em estudos de bioestatística, o IC mínimo é usualmente fixado em 95% (VIEIRA, 2008).A
representação e o cálculo de um intervalo de confiança são baseados na tabela de valores de testes, como
estatística Z ou T. Vamos exemplificar aqui o uso com a tabela Z, mas isso é válido para a estatística T (VIEIRA,
2008; LOPES et al., 2014). O intervalo de confiança pode ser calculado em relação à estimativa de diferentes
parâmetros estatísticos, sendo os mais utilizados a estimativa da média e da proporção. O cálculo do IC para a
média é dado por:

O cálculo acima considera estudo hipotético de distribuição normal, com o objetivo de estimar o parâmetro da
média, quando é desconhecida, mas o desvio-padrão conhecido. A fórmula pode ser interpretada como a
probabilidade de obter um valor da população de distribuição normal, considerando os parâmetros de média e
desvio-padrão N ( , ), e este valor pertencer ao intervalo é igual a 1- %. Observe a
figura a seguir, com as indicações dos valores que compõem o intervalo de confiança em uma distribuição
normal padrão.

- 12 -
Figura 4 - Gráfico de frequência versus valor de Z crítico
Fonte: Fonte: FREIRE, 2020.

#PraCegoVer: imagem traz um gráfico em formato de curva, em que nas duas extremidades há áreas em
destaque, na cor laranja. O gráfico tem o título distribuição normal padrão.

Agora que aprofundamos nosso conhecimento sobre confiança e intervalo de confiança, vamos conhecer outra
ferramenta muito utilizada em bioestatística, que faz uso de diversos conceitos que exploramos até o momento.
Será uma ótima oportunidade de e aplicar o que já estudamos. Vamos lá!

2.4.2 Análises de sobrevida

Em bioestatística, um dos cálculos mais importantes em estudos clínicos é a análise de sobrevivência ou


sobrevida. De modo geral, trata-se de um teste da durabilidade de um evento até seu encerramento. Vamos
abordar a temática das análises de sobrevivência do ponto de vista biológico. Então, vamos iniciar com a
compreensão do conceito de sobrevida, usualmente confundido com o termo mortalidade. De acordo com
Ferreira e Patino (2016, p. 77),

o conceito errôneo de que mortalidade e sobrevida são intercambiáveis vem do uso leigo dos termos.
Porém, em bioestatística, sobrevida é um conceito derivado de um procedimento analítico específico,
enquanto mortalidade é uma variável de desfecho dicotômica geralmente comparada entre dois ou
mais grupos em um momento específico (por exemplo, em cinco anos). Sobrevida, por sua vez,
constitui uma variável que relaciona tempo e evento: ela mede o tempo entre o início da observação
até a ocorrência de um evento.

A análise da sobrevida tem o objetivo de relacionar o tempo decorrido e os efeitos em relação à durabilidade

- 13 -
A análise da sobrevida tem o objetivo de relacionar o tempo decorrido e os efeitos em relação à durabilidade
/atividade de determinada variável, ou seja, avaliar as relações entre as variáveis de interesse e seu tempo de
sobrevivência em relação a atividades ou riscos.

É obtida por técnicas de probabilidade condicional, considerando a probabilidade de sobrevivência até


determinado momento de tempo (t), para determinada variável que sofre alterações ao longo do tempo –
podendo ser um medicamento, um princípio ativo, um paciente acometido por patologias, entre outros
(FERREIRA; PATINO, 2016).

Dentre os principais conceitos de análises de sobrevivência, destacam-se: Hazard Ratio, tabela de sobrevida,
teste de Logrank e regressão de Cox (BUSTAMANTE-TEIXEIRA; FAERSTEIN; LATORRE, 2002).

HazardRatio

Utilizado para comparação entre grupos, utiliza a probabilidade da variável que não teve o evento estudado ter
em determinado momento. É uma medida de associação. Por exemplo, em um estudo sobre os efeitos de uma
patologia pulmonar, as chances de sobrevivência da população não fumante são dez vezes maiores comparada
com a população fumante. Assim, o Hazard Ratio seria calculado em 10, indicando um risco maior para os
sujeitos fumantes.

Teste deLogrank

É um teste não paramétrico utilizado para comparar dados de distribuição das amostras, em análises
univariadas. Sua utilização é indicada quando há dados censurados, aqueles que ocorrem quando há informação
sobre o tempo de sobrevivência, mas não de modo exato, visto que a variável estudada não chegou ao evento de
interesse no tempo de análise. É amplamente utilizado em ensaios clínicos, em especial na análise da eficácia de
novos tratamentos.

Regressãode Cox

Assim como o teste de Logrank, é um teste de significância, com o objetivo de comparar grupamentos em
análises multivariadas. É utilizado para análise das taxas de falha, quando os grupamentos iniciais não são iguais
– em relação ao n amostral ou às características de interesse. É muito utilizado em ensaios com valor de n
pequeno ou em estudos que necessitam de ajustes em relação a covariáveis que também interferem na análise
de sobrevida.

Essas são as principais ferramentas para análise de sobrevida, cada qual com uma aplicabilidade de acordo com
o conjunto de dados e objetivo do estudo. A representação dos dados é usualmente feita por gráficos e tabelas.
As formas mais conhecidas de representação são as curvas de Kaplan-Meier.

As curvas de Kaplan-Meier são utilizadas para representar uma variável e seu efeito ao longo do tempo, ou seja,
objetiva mostrar as alterações naquela população estudada, de modo visual, sob efeito temporal (VIEIRA, 2008).

- 14 -
Você sabia?
Que há uma relação entre os testes estatísticos clássicos e os utilizados para análises
de sobrevida? Por exemplo, os histogramas estão para as análises clássicas, assim
como as curvas de Kaplan-Meier estão para as análises de sobrevida. Outras relações
podem ser observadas no artigo Epidemiologia Explicada – análise de sobrevivência
(BOTELHO; SILVA; CRUZ, 2009). Confira: https://apurologia.pt/wp-content/uploads
/2018/10/epidem-explic.pdf.

Observe a figura representando um gráfico de Kaplan-Meier de um estudo envolvendo a sobrevida de pacientes


diagnosticados com câncer bucal. No eixo y, temos a representação da frequência de óbitos para aquele grupo, e
no eixo x, o tempo em meses (MONTORO et al., 2008).

Figura 5 - Exemplo de gráfico de Kaplan-Meier


Fonte: Fonte: MONTORO et al., 2008, p. 863.

- 15 -
#PraCegoVer: imagem traz um gráfico, em que há uma curva decrescente. No eixo vertical, há valores que
indicam frequência de sobrevivência, e no eixo horizontal, valores que indicam o tempo.

Os dados de sobrevivência também podem ser representados de outras formas, com gráficos de barras ou
dispersão, ou simplesmente em tabelas.

Você quer ler?


Técnicas de Análises de Sobrevida

Ano: 2002

Autores: Maria Teresa Bustamante-Teixeira, Eduardo Faerstein e Maria do Rosário


Latorre

Comentário: o artigo traz um estudo de revisão abordando as principais ferramentas


e técnicas de análises de sobrevida, com diversos exemplos da prática em
bioestatística. Os autores discutem a aplicabilidade e vantagens de diversas técnicas.

Acesse

E com isso finalizamos nossa segunda unidade, em que pudemos aprender diversos conceitos e conhecer
ferramentas muito utilizadas em bioestatística.

- 16 -
Vamos Praticar!
As análises de correlação são muito importantes em inferências estatísticas, tal como
os testes de hipóteses. Muitas vezes, vários testes são realizados para que os
resultados se tornem mais robustos e confiáveis, mais prováveis de serem
representativos da realidade. Em estudos de bioestatística, é comum que os
resultados sejam apresentados em termos de valor-p e de dados de correlação. Os
dados de correlação são representados pelo coeficiente de correlação de Pearson r, e
indicam relações entre duas variáveis. O estudo Correlação entre ansiedade e
consumo de álcool em estudantes universitários (SILVA; TUCCI, 2018) buscou
correlacionar o consumo de álcool com a presença de ansiedade em estudantes
universitários. Foram avaliados 42 estudantes de diferentes áreas, que relataram um
padrão de consumo alcoólico e presença de ansiedade. Após o procedimento
experimental inicial, obteve-se um coeficiente de correlação r = 0,63, em um intervalo
de confiança = 0,40 e 0,78, considerando α = 0,05.

SILVA, É. C.; TUCCI, A. M. Correlação entre ansiedade e consumo de álcool em


estudantes universitários. Revista Psicologia: teoria e prática, São Paulo, v. 20, n. 2, p.
93-106, 2018. Disponível em: http://pepsic.bvsalud.org/pdf/ptp/v20n2
/pt_v20n2a04.pdf. Acesso em: 2 dez. 2020.

Com base no estudo apresentado e nos dados obtidos:

a) Interprete o valor de r (0,63) em relação à classificação (positiva/negativa) e faça


um esboço do gráfico esperado de correlação para representar esse valor.

b) Reflita sobre a conclusão do estudo, identificando qual a hipótese nula e qual a


alternativa.

c) Responda: foi encontrada uma correlação entre o consumo de álcool e o nível de


ansiedade dos estudantes? Justifique sua resposta.

Conclusão
Finalizamos nossa unidade sobre conceitos e ferramentas em bioestatística. Vimos conceitos sobre testes de
hipóteses, inferência, quando podemos confiar em dados representativos de grupos, intervalos de confiança e,
para finalizar, os testes de sobrevida.

Nesta unidade, você teve a oportunidade de:

• compreender os conceitos de hipótese nula e alternativa;


• compreender os principais testes estatísticos e quando rejeitar ou aceitar uma hipótese baseando-se nos
valores de T, Z ou P;
• diferenciar e reconhecer quando aplicar testes paramétricos e não paramétricos;

• compreender o conceito de intervalo de confiança;

- 17 -
• compreender o conceito de intervalo de confiança;
• interpretar corretamente dados de probabilidade em relação à confiabilidade e concluir inferências e
generalizações sobre populações;
• compreender os testes de sobrevida, seus principais conceitos e ferramentas.

Referências
ANDRADE, D. F; OGLIARI, P. J. Estatística para as ciências agrárias
e biológicas: com noções de experimentação. Florianópolis: Editora
da UFSC, 2013.

BALDI, B.; MOORE, D. S. A prática da estatística nas ciências da


vida. 2. ed. Rio de Janeiro: LTC, 2014. E-Book.

BOTELHO, F.; SILVA, C., CRUZ, F. Epidemiologia explicada – Análise


de Sobrevivência. Acta Urológica, Lisboa, v. 26, n. 4, p. 33-38, 2009.
Disponível em: https://apurologia.pt/wp-content/uploads/2018/10
/epidem-explic.pdf. Acesso em: 23 nov. 2020.

BUSSAB, W. O; MORETTIN, P. A. Estatística Básica. 5. ed. São Paulo:


Editora Saraiva, 2006.

BUSTAMANTE-TEIXEIRA, M. T.; FAERSTEIN, E.; LATORRE, M. do R. Técnicas de análise de sobrevida. Cad. Saúde
Pública, Rio de Janeiro, v. 18, n. 3, p. 579-594, 2002. Disponível em: https://www.scielo.br/pdf/csp/v18n3
/9287.pdf. Acesso em: 2 dez. 2020.

CALLEGARI-JACQUES, S. M. Bioestatística: princípios e aplicações. Porto Alegre: Artmed, 2003.

CAMPOS, G. M. Tipos de variáveis. In: Departamento de Odontologia Restauradora. Estatística prática para
docentes e pós-graduandos. Faculdade de Odontologia de Ribeirão Preto - Universidade de São Paulo, 2000.
Disponível em: http://www.forp.usp.br/restauradora/gmc/gmc_livro/gmc_livro_cap02.html. Acesso em: 12.
nov. 2020.

ESTATÍSTICA e Probabilidade - Aula 14 - Análise de Variância (ANOVA). 2018. São Paulo. 1 vídeo (13 min 23 s).
Publicado no canal UNIVESP. Disponível em: https://www.youtube.com/watch?
v=1ceP2FL5fzE&ab_channel=UNIVESP. Acesso em: 23 nov. 2020.

FERREIRA, J. C.; PATINO, C. M. O que é análise de sobrevida e quando devo utilizá-la? J. Bras. Pneumol., Brasília,
v. 42, n. 1, p. 77, 2016. Disponível em: https://www.scielo.br/pdf/jbpneu/v42n1/pt_1806-3713-jbpneu-42-01-
00077.pdf. Acesso em: 2 dez. 2020.

FREIRE, S. M. Bioestatística Básica. Rio de Janeiro: UERJ, 2020. E-book. Disponível em: http://www.lampada.
uerj.br/arquivosdb/_book/bioestatisticaBasica.html. Acesso em: 2 dez. 2020.

GRAUS de Liberdade em 1 minuto. 2020. Belo Horizonte. 1 vídeo (1 min 2 s). Publicado no canal Scimus
Estatística. Disponível em: https://www.youtube.com/watch?v=RX-vvhCng48&ab_channel=ScimusEstat%C3%
ADstica. Acesso em: 23 nov. 2020.

LOPES, B. et al. Bioestatísticas: conceitos fundamentais e aplicações práticas. Rev. Bras. Oftalmol., Rio de
Janeiro, v. 73, n. 1, p. 16-22, fev. 2014. Disponível em: http://www.scielo.br/pdf/rbof/v73n1/0034-7280-rbof-
73-01-0016.pdf. Acesso em: 16 abr. 2020.

- 18 -
MAIA, F. G. S. da S.; BEDAQUE, H. de P.; MELO, M. Y. S. Estudos de Coorte. In: BEDAQUE, H. de P.; BEZERRA, E. L.
M. (Orgs.). Descomplicando MBE: uma abordagem prática da Medicina Baseada em Evidências. Natal: Editora
Caule de Papiro, p. 63-77, 2018. Disponível em: http://cauledepapiro.com.br/files
/08fcf3f89a1cefa768ef293b76a3a645add0d8f9.pdf. Acesso em: 2 dez. 2020.

MAGALHÃES, M. N.; LIMA, A. C. P. de. Noções de probabilidade e estatística. 6. ed. São Paulo: Edusp, 2005.

MATTHEW R. Storks Deliver Babies (p = 0.008). Teaching Statistics, Brisbane, v. 22, p. 36-38, 2001. Disponível
em: https://www.researchgate.net/publication/227763292_Storks_Deliver_Babies_p_0008. Acesso em: 2 dez.
2020.

MONTORO, J. R. de M. C. et al. Fatores prognósticos no carcinoma espinocelular de cavidade oral. Rev. Bras.
Otorrinolaringol., São Paulo, v. 74, n. 6, p. 861-866, 2008. Disponível em: https://www.scielo.br/pdf/rboto
/v74n6/v74n6a08.pdf. Acesso em: 2 dez. 2020.

MOORE, D. S. A estatística básica e sua prática. 3. ed. Rio de Janeiro: LTC, 2005.

PAGANO, M.; GAUVREAU, K. Princípios de Bioestatística. 2. ed. São Paulo: Thomson, 2006.

POCINHO, M., FIGUEIREDO, J. P. Estatística e Bioestatística. Coimbra: Madeira, 2004.

PORTAL ACTION. Erros cometidos nos testes de hipóteses. Portal Action, São Carlos, 2020. Disponível em:
portalaction.com.br/inferencia/511-erros-cometidos-nos-testes-de-hipoteses. Acesso em: 23 nov. 2020.

SILVA, É. C.; TUCCI, A. M. Correlação entre ansiedade e consumo de álcool em estudantes universitários. Revista
Psicologia: teoria e prática, São Paulo, v. 20, n. 2, p. 93-106, 2018. Disponível em: http://pepsic.bvsalud.org/pdf
/ptp/v20n2/pt_v20n2a04.pdf. Acesso em: 2 dez. 2020.

SZWARCWALD, C. L.; CASTILHO, E. A. de. Os caminhos da estatística e suas incursões pela epidemiologia. Cad.
Saúde Públ., Rio de Janeiro, v. 8, n. 1, p. 5-21, jan.-mar. 1992. Disponível em: https://www.scielo.br/pdf/csp
/v8n1/v8n1a02.pdf. Acesso em: 2 dez. 2020.

VIEIRA, S. Introdução à Bioestatística. 4. ed. Rio de Janeiro: Elsevier, 2008.

- 19 -