Escolar Documentos
Profissional Documentos
Cultura Documentos
B I O E S T A T Í S T I C A
1. INTRODUÇÃO À BIOESTATÍSTICA
A estatística é uma área do conhecimento que utiliza teorias probabilísticas para explicação
de eventos, estudos e experimentos. Tem por objectivo obter, organizar e analisar dados,
determinar as relações que estes apresentam, e avaliar as consequências para descrição e
explicação do que passou, e/ou para a previsão e organização do futuro.
A estatística é também uma ciência e prática de desenvolvimento de conhecimento humano
através do uso de dados empíricos. Baseia-se na teoria estatística, um ramo da matemática
aplicada. Na teoria estatística, a aleatoriedade e incerteza são modeladas pela teoria da
probabilidade. Algumas práticas estatísticas incluem, por exemplo, o planeamento, a
descrição e a interpretação de observações. Porque o objectivo da estatística é a produção da
"melhor" informação possível a partir dos dados disponíveis, alguns autores sugerem que a
estatística é um ramo da teoria da decisão.
Origem
O termo estatística surge da expressão em Latim statisticum collegium, palestra sobre os
assuntos do Estado, de onde surgiu a palavra em língua italiana statista, que significa "homem
de estado", ou político, e a palavra alemã Statistik, designando a análise de dados sobre o
Estado. A palavra foi proposta pela primeira vez no século XVII, em latim, por Schmeitzel na
Universidade de Lena e adoptada pelo académico alemão Godofredo Achenwall. Aparece
como vocabulário na Enciclopédia Britânica em 1797, e adquiriu um significado de colecta e
classificação de dados, no início do século XIX.
Actualmente, é um ramo do conhecimento científico que tem por objectivo não só a
observação, classificação e análise dos fenómenos colectivos, mas também o estudo de
possibilidade de inferência indutiva a partir de dados observados.
3
Engenharia Biomédica
erro se comporta e a magnitude do mesmo. É o erro (erro amostral) que define a qualidade da
observação e do delineamento experimental.
Normalmente aproximamos a probabilidade de alguma coisa para cima ou para baixo porque
elas são tão prováveis ou improváveis de ocorrer, que é fácil de reconhecê-las como
probabilidade de um ou zero.
Entretanto, isto normalmente leva a desentendimentos e comportamentos perigosos, porque as
pessoas não conseguem distinguir entre, uma probabilidade de 10-4 e uma probabilidade de
10-9. Na prática, há uma grande diferença: imagine que vai atravessar a estrada numa
passadeira cerca de 105 ou 106 vezes na sua vida. Considerando que o risco de atropelamento
é 10-9, pode ficar seguro para o resto da sua vida; considerando que o risco de atropelamento é
de 10-4, é bastante provável que venha a ser atropelado, mesmo com o sentimento intuitivo
que 0,01% é um risco muito baixo.
4
BioEstatística
Assim, a Bioestatística tem de ser uma área interdisciplinar, onde o raciocínio dedutivo e
indutivo devem estar integrados de forma a considerar que:
• a incerteza é fonte de conhecimento, quando a Probabilidade nos permite delimitá-la
caracterizando os seus padrões;
• a informação obtida “por acaso” pode ser enganadora, enquanto que a informação obtida
“ao acaso” tem uma variabilidade útil;
• mais importante do que a informação, é a transformação desta em conhecimento;
• a amostragem é boa mas o Planeamento Experimental é ainda melhor, por ser um
investimento na obtenção de dados de qualidade, que importam analisar;
• os problemas éticos não podem ser escamoteados na investigação experimental;
• o problema do passado (e actual, no caso das doenças raras) era a escassez de dados e,
actualmente, o problema é, frequentemente, a proliferação de dados, muitas vezes de má
qualidade.
Estatística
Descritiva Inferencial
Descrever dados através de Tomada de decisão baseada
indicadores (estatísticas)
nos elementos observados No conhecimento que o
Estimadores dos reais ou experimentados (intervalos de investigador tem sobre
Indicadores da população confiança e/ou testes estatísticos) o problema em causa
5
Engenharia Biomédica
Conhecimento da população
Extrapolar para a população as conclusões obtidas na amostra
Estimação de parâmetros
Inferência estatística Cálculo de Probabilidades
(estatística assenta na Testes de Hipóteses
teoria de probabilidades) Origem nos jogos de azar
6
BioEstatística
7
Engenharia Biomédica
Amostragem aleatória
Simples – todos os elementos têm igual probabilidade de serem seleccionados (1/N) por
sorteio (bolas numeradas num saco, tabela de nos aleatórios1). Este método não é muito
usado dado que é difícil obter populações réplica
1
Geradas por processos matemáticos que constituem um conjunto de números que não obedecem a nenhum
plano prévio (amostras sem reposição)
8
BioEstatística
3.1 Variáveis
Os elementos chave de uma investigação são as variáveis – características dos participantes
ou da situação de um determinado estudo, que pode tomar diferentes valores. Uma variável
tem de ter a capacidade de variar, ou tomar diferentes valores. Se um conceito apenas toma
um valor num estudo, então não é uma variável (por exemplo, o género não é uma variável se
todos os indivíduos do estudo forem mulheres).
Na investigação quantitativa, as variáveis podem ser definidas como:
Variável
Activa* Atributo **
9
Engenharia Biomédica
3.1.3 Variável Estranha – não são de interesse em determinado estudo, mas podem
influenciar a variável dependente. Factores ambientais e características do experimentador são
variáveis estranhas que devem ser controladas
.
3.2 Amostras independentes versus amostras emparelhadas
Independentes – se não existe nenhum tipo de relação ou factor unificador entre os
elementos das amostras: a probabilidade de um sujeito pertencer a ambas é nula (ex: uma
variável é avaliada para cada um dos géneros sexuais)
10
BioEstatística
Exemplos:
Questões Hipóteses Objectivos
Será que este novo tratamento é Pretende-se investigar a hipótese do Comparar a eficácia do novo
eficaz em comparação com o novo tratamento ser mais eficaz tratamento versus a eficácia do
placebo? que o placebo. placebo.
Será que este novo tratamento é tão Pretende-se investigar a hipótese Comparar a segurança do novo
seguro como o tratamento que o novo tratamento é tão seguro tratamento versus a segurança do
standard? como o tratamento standard. tratamento standard.
Pretende-se investigar a hipótese
Será que os expostos a
que os expostos a determinados Comparar as incidências da doença
determinados factores de risco têm
factores de risco têm efectivamente entre os expostos a factores de risco
efectivamente mais risco de doença
mais risco de doença que os não e os não expostos.
que os não expostos?
expostos.
Pretende-se investigar a hipótese Comparar as taxas de recidiva entre
Será que quem fez a terapia A tem
que quem fez a terapia A tem 10 um grupo que faz a terapia A e um
10 vezes menos risco de recidiva
vezes menos risco de recidiva que grupo que não faz qualquer
que quem não fez?
quem não fez. tratamento.
Será que os casos de doença Pretende-se investigar a hipótese Comparar casos com controlos
estiveram mais expostos a deter- que os casos de doença estiveram relativamente à exposição prévia a
minados factores de risco que os mais expostos a determinados factores de risco.
controlos? factores de risco que os controlos.
Pretende-se investigar a hipótese
Será que esta doença apresenta um
desta doença apresentar uma
prevalência ao nível nacional que
prevalência ao nível nacional que Determinar a taxa de prevalência
justifique que a mesma seja
não justifica que a mesma seja da doença a nível nacional.
considerada um problema de saúde
considerada um problema de saúde
pública?
pública.
Pretende-se investigar a hipótese
Será que os acidentes de viação dos acidentes de viação
Determinar a taxa de incidência
apresentam um incidência anual apresentarem uma incidência anual
anual média dos acidentes de
que justifique ser considerado um que realmente justifica ser
viação nos próximos 5 anos.
problema de saúde pública? considerado um problema de saúde
pública.
11
Engenharia Biomédica
Níveis de Mensuração
Nominal =, ≠
Ex: sexo, raça, religião, estado civil, nº na camisola do jogador de futebol
Os valores são atributos ou categorias; os úmeros apenas servem para identificar
categorias
Variáveis qualitativas – classificação dos indivíduos de acordo com as suas categorias
Nominal Dicotómica tem alguns privilégios
12
BioEstatística
13
Engenharia Biomédica
Não respostas DEVEM ser células em branco, e não ZERO! Eventualmente, atribui-se um
valor superior ao máximo possível para aquela variável como, por exemplo, 99, 999, ...
14
BioEstatística
Caso estas atinjam ou ultrapassem 20% dos dados, devem ser analisadas com atenção pois, se
não tiverem um comportamento aleatório, irão enviezar os resultados do estudo, podendo
caracterizar o segmento da população que se negou a responder.
15
Engenharia Biomédica
Distribuição
Simétrica
- coef. assimetria = 0
- média=mediana=moda
Assimetria não confirmada
coef .assimetria
- ≤ 1.96
erro − padrão
16
BioEstatística
média, mas também a dispersão observada ou o valor esperado Testemunha Controlo Estudo
Grupo
na população, para cada grupo.
17
Engenharia Biomédica
18
BioEstatística
Exemplo: Pretende-se avaliar uma possível relação entre a existência de cáries dentárias e o
sexo e o índice de massa corporal dos jovens portugueses. Pensa-se aidna que o IMC poderá
estar relacionado com a região de residência dos indivíduos.
1. Como planearia este estudo? Descreva sucintamente.
2. Suponha agora que já tinha colhido os dados referentes ao Sexo, Altura e existência de
cáries dentárias. Abra um livro do Microsoft Excel.
2.1. Na folha 1, crie um Plano de Operacionalização de Variáveis para os seguintes dados:
Id Sexo Altura Cáries Id Sexo Altura Cáries Id Sexo Altura Cáries
1 M 1.717 Sim 15 F 1.552 Sim 29 F 1.557 Sim
2 M 1.574 Sim 16 M 1.627 Não 30 F 1.535 Não
3 M 1.618 Sim 17 M 1.516 Sim 31 F 1.535 Não
4 F 1.402 Não 18 M 1.718 Sim 32 M 1.520 Não
5 F 1.427 Não 19 F 1.475 Não 33 1.577 Não
6 M 1.558 Não 20 F 1.505 Não 34 M 1.554 Sim
7 F 1.462 Sim 21 F 1.408 Sim 35 M 1.533 Sim
8 1.504 Sim 22 M 2.522 Sim 36 M 1.562 Sim
9 M 1.754 Não 23 M 1.527 Não 37 F 1.458 Sim
10 M 1.626 Não 24 M 1.622 Não 38 M 1.649 Sim
11 F 1.529 Não 25 F 1.481 Sim 39 M 1.629 Sim
12 F 1.521 Não 26 M 1.704 Não 40 M 1.533
13 M 1.711 Sim 27 F 1.449 Não 41 F 1.592 Não
14 M 1.623 Sim 28 F 1.595 42 F 1.494 Não
19
Engenharia Biomédica
6. Por lapso, não tinham sido registados os valores de peso, para cada indivíduo, nem a
região de residência. Acrescente estas variáveis ao plano de operacionalização das
variáveis, e na base de dados em SPSS introduza a variável peso logo após a variável
altura, e a variável regiao no final, alterando as suas propriedades adequadamente.
Id Peso Regiao Id Peso Regiao Id Peso Regiao
1 92.2 N 15 47.2 S 29 65.7 N
2 75.5 S 16 84.3 S 30 49.4 S
3 73.0 N 17 48.0 N 31 47.7 N
4 41.1 N 18 68.1 N 32 65.8 S
5 53.9 S 19 46.2 S 33 68.4 N
6 67.7 N 20 47.9 S 34 79.3 N
7 42.3 S 21 40.6 N 35 63.8 S
8 52.4 S 22 78.4 S 36 67.6 S
9 102.1 S 23 63.2 N 37 52.3 S
10 65.0 N 24 71.1 N 38 58.5 S
11 46.4 N 25 51.3 S 39 69.8 N
12 53.0 S 26 98.2 S 40 67.2 S
13 76.6 S 27 57.6 S 41 47.8 N
14 60.9 N 28 51.4 N 42 41.2 S
7. Crie a variável Índice de Massa Corporal (IMC), que será automáticamente calculada
como peso altura 2 .
7.1. Descreva sucintamente esta variável, em termos estatísticos.
8. Crie a variável IMC_cl, que representa o IMC em classes, de acordo com a seguinte
classificação:
1 IMC < 18 Magreza
2 18 < IMC < 25 Normal
3 25 < IMC < 30 Excesso de Peso
4 30 < IMC < 35 Obesidade I
5 35 < IMC < 40 Obesidade II
6 40 < IMC < 45 Obesidade III
9. Recodifique esta variável (IMC_cl) em 4 clases, aglutinando as classes 4, 5 e 6 numa só.
(não se esqueça de acrescentar estas variáveis ao Plano de Operacionalização de Variáveis).
9.1. Descreva esta variável, em termos estatísticos
9.2. Qual a taxa de indivíduos com excesso de peso e obesidade?
9.3. Qual a taxa de indivíduos obesos, com cárie dentária.
9.4. Qual a taxa de indivíduo normais, com cárie dentária.
9.5. Qual a taxa de indivíduos com e sem cáries dentárias, entre os indivíduos:
9.5.1. obesos.
20
BioEstatística
9.5.2. normais
9.5.3. Parece-lhe ser viável o objectivo definido?
9.6. Parece-lhe que a ocorrência de cáries é mais frequente no sexo masculino?
9.7. Para cada região, determine
9.7.1. Em que região é mais frequente haver cáries dentárias?
9.7.2. O IMC médio em cada região.
9.7.3. Fará sentido estudar o objectivo do estudo, em cada região?
21
Engenharia Biomédica
5. DISTRIBUIÇÕES DE PROBABILIDADES
Função densidade de probabilidade – função que determina a probabilidade do valor de cada
observação da amostra na população: f(x)
A partir do conhecimento desta função, e dum número infinito de amostras com a mesma
dimensão da amostra em estudo pode estimar-se a distribuição amostral, ou seja, na prática, é
possível testar se as observações da amostra em estudo se ajustam a uma distribuição teórica.
2
Descrita pela primeira vez por De Moivre em 1733; Gauss, séc. XVIII-XIX teve um papel decisivo no seu
desenvolvimento.
22
BioEstatística
Características:
A variável aleatória X pode tomar um qualquer valor dentro do intervalo de variação
A curva representativa da distribuição tem a forma de sino e é simétrica relativamente à
média
Os valores da média, mediana e moda são iguais
Devido à simetria, P ( X < µ ) = P ( X > µ ) = 0.5
x−µ
2
1
P ( a < X < b) = ∫
b 1 −
e σ
2
a
2π σ
23
Engenharia Biomédica
X −µ
Necessidade de padronizar: Z = : Z é N(0,1)
σ
A média amostral é uma das estatísticas mais importantes quer para a teoria da estimação quer
da decisão. Outra característica importante da distribuição de probabilidades é que, à medida
que a dimensão das amostras utilizadas para calcular a distribuição amostral da média
aumenta, a distribuição da média amostral tende para a distribuição normal,
independentemente do tipo de distribuição da variável em estudo – teorema do limite central.
Ex.: Distribuição da média das classificações a uma cadeira de estatística em 100 amostras
aleatórias de dimensão n
Inicialmente, a distribuição era claramente assimétrica à direita, mas à medida que a dimensão
das amostras aumenta, o histograma das frequências de X vai assumindo a “forma de sino”
típica da distribuição normal.
24
BioEstatística
i =1
25
Engenharia Biomédica
Distribuição Exponencial E( 1 )
λ
Esta distribuição está associada a um processo de Poisson3, ou seja, a ocorrência de eventos
independentes a uma taxa constante, num intervalo de tempo ou numa região dos espaço, e
tem uma larga aplicação no estudo das filas de espera e da fiabilidade de sistemas complexos,
usando-se para representar o intervalo de tempo entre dois eventos. Tem-se:
Distribuição Binomial Β ( n, p )
Sequência de experiências com as seguintes características:
cada prova tem como resultado um de dois acontecimentos mutuamente exclusivos
(sucesso/insucesso)
a probabilidade de sucesso p permanece constante nas várias provas e a probabilidade de
insucesso é q = 1-p
as provas são independentes, ou seja, o resultado de cada uma não afecta o resultado das
restantes
3
Ver distribuição de Poisson (discreta)
26
BioEstatística
( X ± 0.5) − np µ = np
Z= , dado que 2
npq σ = npq
Distribuição de Poisson P (λ )
Associada a processos de contagens de um determinado número de eventos independentes, ao
longo do tempo ou numa região do espaço:
o número de eventos que ocorrem em dois intervalos disjuntos são independentes
a probabilidade de ocorrer exactamente um evento em qualquer intervalo de amplitude ∆t
arbitrariamente pequena é aproximadamente λ∆t
a probabilidade de ocorrerem dois ou mais eventos em qualquer intervalo de amplitude ∆t
arbitrariamente pequena é aproximadamente igual a zero.
Também a distribuição de Poisson
pode ser aproximada a uma
distribuição normal, uma vez
que µ = σ 2 = λ , considerando que a
aproximação é correcta
p < 0.1 ∨ p > 0.9
quando
λ ≥ 5
A padronização da variável X, P (λ ) ,
para a variável Z, N(0,1) obtém-se
através da seguinte transformação:
( X ± 0.5) − λ
Z=
λ
27
Engenharia Biomédica
28
BioEstatística
Estimativa ≠ Estimador
Estimador ( θ ) é uma variável aleatória, função da amostra casual
^
Estimativa ( θ ) é o valor concreto do estimador para uma amostra em particular
Uma estimativa pontual de um parâmetro da população está fortemente dependente da
estimativa amostral. Se se extraírem n amostras da mesma população, é altamente improvável
obter amostras que tenham a mesma média amostral, ou seja, teria n estimativas diferentes da
média populacional. Dado que o valor da média populacional é único, uma estimativa pontual
pode ou não ser coincidente com o parâmetro populacional. Assim, este tipo de estimativa não
possui nenhum grau de certeza (ou incerteza) associado à estimativa obtida. A alternativa é
utilizar a estimação por intervalos.
29
Engenharia Biomédica
faz-se acompanhar esta de um determinado intervalo (a, b) para significar que o verdadeiro
valor do parâmetro está, muito provavelmente, entre a e b. Ao associar um intervalo à
estimativa proposta, atribui-se ao mesmo intervalo um grau de confiança. Este intervalo pode
ser considerado uma medida da precisão ou do erro inerente à estimativa.
Normalmente, o que se pretende estimar é µ (média da população), σ 2 (variância da
população) ou π (proporção da população).
Tendo uma amostra particular, a partir da qual se determina a estimativa para um parâmetro
(ex: a média), o intervalo de confiança a (1-α)100% para µ , dado por (a, b), traduz o grau
de confiança que se tem em que uma particular amostra dê origem a um intervalo (a,b).
Incorrecto dizer que (1-α) é a probabilidade de θ ∈ (a, b) dado que os extremos do intervalo, a
e b, não são aleatórios.
30
BioEstatística
Considere-se uma população com uma determinada função de distribuição (F). Uma hipótese
estatística é qualquer conjectura sobre aspectos desconhecidos de F. Quando a forma da
função de distribuição ou da função densidade (função probabilidade) é conhecida, e a
conjectura diz respeito apenas ao parâmetro, tem-se uma hipótese paramétrica.
Ex: A conjectura “X é uma variável aleatória com distribuição normal” é uma hipótese
estatística não paramétrica. Caso se saiba que X segue uma distribuição normal, a conjectura
“ µ = 3, σ 2 = 1 ” corresponde a uma hipótese paramétrica.
Estas questões são formuladas sob a forma de hipóteses referentes ao(s) valor(es) do(s)
parâmetro(s) e referentes a alternativa caso se rejeite aquela hipótese. Assim, a hipótese
inicial, mais restritiva, designa-se por hipótese nula e representa-se por H0, representando-se
a hipótese alternativa por H1 ou Ha. A hipótese nula só deve ser rejeitada caso exista
evidência suficiente, a um nível significativo, que de facto H0 não é válida, ou seja, deve ser
defendida até a evidência mostrar o contrário, enquanto que a hipótese alternativa apenas é
adoptada se a hipótese nula for rejeitada.
H 0 : µ = 0
Teste unilateral à esquerda
H 1 : µ < 0
H 0 : µ = 0
Teste unilateral à direita
H 1 : µ > 0
31
Engenharia Biomédica
Por outro lado, se o teste é unilateral à esquerda, a região crítica é definida à esquerda da
média, enquanto que num teste unilateral à direita define-se a região de rejeição à direita da
média:
32
BioEstatística
Este valor representa uma medida complementar do grau de certeza a partir do qual
assumimos como real o resultado da estatística amostral dado que é a probabilidade de obter
este ou outro valor mais desfavorável para a hipótese nula, admitindo que esta hipótese é
verdadeira. Assim, o valor-p é uma medida da evidência que os dados fornecem a favor de H0.
Normalmente, situa-se o valor-p relativamente aos níveis de significância mais habituais
(0.05, 0.01), fixados previamente ao estudo, donde deve rejeitar-se a hipótese nula sempre que
se tem p<α. Por exemplo, se 0.01 < p < 0.05 ⇒ a evidência contra H0 não é significativa ao
nível de 0.01 (1%) mas já o é ao nível de 0.05 (5%), ou deve rejeitar-se H0 ao nível de 5%
33
Engenharia Biomédica
mas não de 1%, ou seja, quanto menor for p menor é a consistência dos dados com a hipótese
a testar (H0). Abaixo de determinados valores ou limiares de significância (0,05 ou 0,01)
dizemos que existe forte evidência contra esta hipótese (H0) que por isso deve ser rejeitada.
Passos de um teste estatístico com recurso a uma aplicação estatística (ex: SPSS)
Identificação do tipo de distribuição amostral
Formulação das hipóteses a testar
Definição do nível de significância
Cálculo do valor-p, sob H0
Decisão estatística
O problema que agora se coloca é saber a que nível de significância deve ser rejeitada H0.
Suponha que com determinada amostra é encontrado o valor p=0,03. Deve ou não rejeitar H0?
Estando este valor p compreendido entre os limiares de significância (ou níveis de
significância habitualmente considerados) 0,01 e 0,05 há autores que diriam ser de rejeitar ao
nível de significância de 5% mas não ao de 1%.
Outros autores consideram apenas a comparação do valor p observado com o nível de
significância estabelecido antes do estudo, dependente do critério do investigador. Se, por
exemplo, o nível fixado foi de 5%, dir-se-ia apenas que sendo p<0,05 rejeita-se H0 ao nível de
significância de 5%. Se o nível fixado foi de 1%, dir-se-ia que sendo p>0,01 não pode
rejeitar-se H0 ao nível de significância de 1%.
34
BioEstatística
efeito significativo, então a média das variações da variável sob estudo será
significativamente diferente de 0, isto é, pretendemos rejeitar H 0 : µ = 0 em favor de
Contudo, para o gestor do produto (medicamento), o intervalo de confiança para a média das
variações tem mais interesse, pois o gestor poderá concluir acerca da dimensão e credibilidade
do efeito do medicamento, o que será de maior peso em decisões administrativas do que o
facto do efeito médio ser (ou não) diferente de zero.
35
Engenharia Biomédica
7. POPULAÇÕES NORMAIS
7.1 Intervalo de Confiança e teste t de Student
H 0 : µ = 0
Normalmente, quando se está a fazer um teste à média ( teste bilateral : ) ou a
H 1 : µ ≠ 0
determinar um intervalo de confiança para a média populacional ( µ ), não se conhece a
^2 n
variância da população ( σ 2 ). Assim, utiliza-se s = × s 2 como estimador de σ 2 , donde
n −1
X −µ
a variável aleatória Z ( Z = ~ N (0,1) ) deixa de poder ser utilizada uma vez que, para
σ n
além µ , se desconhece σ (parâmetro perturbador).
A variável que passa a ter condições para ser utilizada na determinação do intervalo de
X −µ
confiança para µ ou na realização do teste estatístico é T = ^
~ t (n − 1) .
s n
36
BioEstatística
150
30,00
140
95% CI fc
95% CI
20,00
130
10,00
120
110 0,00
Exemplo 2: Foi estudado o grau de satisfação (medido por questionário) de vários utentes de
uma clínica dentária antes e depois de lhes ser aplicada uma nova prótese total removível. Os
resultados, expressos em score de satisfação, foram os apresentados de seguida. Supondo que
os scores seguem uma distribuição normal, indique se aplicação da nova prótese influenciou o
grau de satisfação dos utentes.
Doente 1 2 3 4 5 6 7 8 s
x s n
Antes 4 10 8 13 7 3 15 7 8.38 4.14 1.46
Depois 4 16 11 17 17 4 18 11 12.25 5.75 2.03
Dif. 0 -6 -3 -4 -10 -1 -3 -4 -3,88 3,09 1.09
37
Engenharia Biomédica
0,00
17,5
15,0
-2,00
12,5
95% CI p
95% CI
-4,00
10,0
7,5 -6,00
5,0
-8,00
Por outro lado, o que acontece se a variabilidade de cada grupo é diferente? Serão as médias
de dois grupos com variabilidade diferente comparáveis?
O teste de Levene (1960) é um dos testes mais potentes para testar a homogeneidade das
variâncias e é automaticamente efectuado pelo SPSS quando se efectua um teste t para
amostras independentes, sendo o intervalo de confiança determinado com base no resultado
daquele. As hipóteses estatísticas são as seguintes:
H 0 : σ A 2 = σ B 2
H 1 : σ A 2 ≠ σ B 2
38
BioEstatística
Exemplo 1: Foi efectuado um estudo sobre o índice de massa corporal consoante o escalão
etário, em 16 estudantes do ensino superior, tendo-se obtido os seguintes dados:
Idade IMC x s
17-19 20,8 19,6 39 30,3 29,1 15,4 30,7 27 26.49 7.55
20-22 21,1 15,1 8,7 17,7 13,3 18,2 20,6 15,7 16.30 4.06
Equal variances
IMC 2,82 ,115 3,36 14 ,005 10,18750 3,03053 3,68767 16,68733
assumed
Equal variances
3,36 10,7 ,007 10,18750 3,03053 3,49811 16,87689
not assumed
igualdade de variâncias.
A leitura do teste t de Student para amostras 25,00
95% CI IMC
seguinte:
17-19 20-22
Escalão etário
Exemplo 2: Verificou-se ter havido um erro na introdução dos dados (IMC=8,7), pelo que
esse indivíduo será eliminado da amostra.
Suponha ainda que os critérios de inclusão/exclusão do estudo exigiam que os sujeitos
tivessem IMC entre 15 e 30, pelo que se excluíam 3 sujeitos no escalão dos 17-19 anos, e 2 do
outro grupo. Os resultados seriam os seguintes:
Levene's Test t-test for Equality of Means
Equal variances
IMC 5,49 ,044 1,71 9 ,121 4,31333 2,51796 -1,38269 10,00936
assumed
Equal variances
1,59 5,28 ,168 4,31333 2,69781 -2,51350 11,14016
not assumed
39
Engenharia Biomédica
Neste caso, não há homogeneidade de variância pelo que os resultados do teste t de Student
para amostras independentes têm de ser lidos na segunda linha, ou visualizados no gráfico que
se segue:
30,00
28,00
26,00
22,00
20,00
18,00
16,00
17-19 20-22
Escalão etário
A primeira hipótese que provavelmente colocaria seria comparar as médias duas a duas
através de um teste t-Student… Este procedimento, ainda que possível, não é válido, dado que
a estatística e o valor crítico deste teste só são válidos para comparar médias de 2, e apenas 2
populações, a partir das quais se extraíram duas amostras aleatórias.
De facto, enquanto que no teste a duas populações o erro tipo I não será superior a α × 100% ,
utilizando esse mesmo teste para comparar mais m populações, duas a duas, ter-se-ia um erro
tipo I aproximadamente de 1 − (1 − α ) m × 100% . Por exemplo, em 3 populações, para
α = 0.05 , a probabilidade de um erro tipo I, ou seja, de concluir erradamente que existe
diferença entre as 3 populações é de 14.3%.
Assim, é necessário avaliar a forma como as m populações são definidas, com base num ou
mais critérios (ou factores) e a variabilidade patenteada pelas amostras de cada uma das
populações.
40
BioEstatística
Por exemplo, suponha que queria testar a igualdade da média em 3 populações (A, B e C), e
considerem-se as duas situações apresentadas na imagem seguinte, onde se podem observar 5
observações amostrais de cada uma das 3 populações:
Note-se que as médias amostrais relativas às várias populações são iguais nas duas situações.
Contudo, intuitivamente os gráficos sugerem conclusões diferentes; enquanto que no primeiro
caso se tende a rejeitar quase de imediato a hipótese de igualdade de médias, no segundo caso
a tendência é para aceitar, com alguma facilidade, a hipótese de igualdade de médias.
Assim, a variabilidade dos dados relativos a cada população é um aspecto fundamental a ter
em conta no teste de hipóteses de igualdade de médias.
Se a variabilidade em torno de cada uma das médias amostrais é grande,
comparativamente com a variabilidade entre as médias amostrais (2º caso), tende-se a
não rejeitar a hipótese nula;
Assim, parece aceitável fundamentar o teste de hipóteses na comparação entre estas
variabilidades ⇒ Análise de Variância (ANalysis Of VAriance).
41
Engenharia Biomédica
Observação ij
42
BioEstatística
( )
que pode ser estimada a partir de x i − x . Em ambos os casos, determinam-se as somas dos
quadrados:
( ) =∑ (n
m ni m ^2
SQD = ∑∑ X ij − X i − 1) s i
2
i
i =1 j =1 i =1
( )
m
SQE = ∑ ni X i − X
2
i =1
Sendo assim, é possível obter uma estimativa da variabilidade total, dada por
Soma Quadrados Total = Soma Quadrados Dentro Amostras + Soma Quadrados Entre Amostras
A estatística teste da ANOVA é dada pela razão entre a variância do factor (ou entre as
SQE
amostras, estimada a partir de ), e a variância dos erros (ou dentro das amostras,
m −1
SQE
SQD (m − 1)
estimada a partir de ), ou seja, a partir da variável F = ~ F (m − 1, n − m) .
n−m SQD
( n − m)
Soma dos Graus de
Fonte de Variação Médias Quadráticas F
Quadrados Liberdade
Entre Amostras SQE m-1 MQE = SQE (m − 1)
Dentro das F = MQE MQD
SQD n-m MQD = SQD (n − m)
amostras
Total SQT n-1
43
Engenharia Biomédica
44
BioEstatística
45
Engenharia Biomédica
Eutócico
3.3 3.4 2.2
2.7 3.3 2.3
2.8 3.4 2.4
3.2 3.3 2.3
2.9 3.9 2
Distócico
ANOVA a mais do que 1 factor - modelo aleatório: factores aleatórios – não tinha escolhido o
continente onde seriam seleccionadas as mães, nem tipo de parto, mas tinha seleccionado
aleatoriamente
ANOVA a mais do que 1 factor - efeitos mistos: inclui factores fixos, aleatórios, e variáveis
concomitantes
46
BioEstatística
47
Engenharia Biomédica
r=
cov xy
=
∑ [(x − x )× (y − y )]
i i
sx × s y
∑ (x − x ) × ∑ (y − y )
2 2
i i
O coeficiente de correlação r mede a força da associação entre as variáveis e o teste que lhe
r
está associado ( t o = n − 2 ~ t (n − 2) ) tem como hipóteses:
1− r 2
Sempre que existe uma correlação estatisticamente significativa, é interessante avaliar o sinal
de r, dado que este indica o sentido da relação (Note-se que a significância estatística de r=0.7
ou r=-0.7 é a mesma, o que muda é o sentido da relação). Graficamente, através de um
diagrama de dispersão, pode observar-se uma tendência crescente ou decrescente consoante o
valor do coeficiente de correlação é positivo ou negativo.
1.00
0.80
Fracção de Sobrevivência
0.60
0.40
0.20
0.00
Dose
r>0 r<0
48
BioEstatística
b=
cov xy
=
cov xy ∑ (x − x )× (y − y ) ou de b = r × s
i i y
sx × sx
∑ (x − x )
2 2
s x s x
i
4
Pontos do diagrama de dispersão: (x,y); y é o valor observado na amostra
5
Pontos da recta de regressão: (x,y*); y* é a estimativa de y, determinada pela recta de regressão
49
Engenharia Biomédica
Sempre que a recta de regressão está bem ajustada, é necessário calcular a força ou magnitude
da associação para determinar se esta é relevante, através do coeficiente de determinação r2:
SQexp licada
r2 = ∈ [0,1]
SQtotal
*
y −t α × EPy* ; y * + t α × EPy*
1− , n − 2 1− , n − 2
2 2
0.80
0.60
Dose
radiação e racio de sobrevivência seguem
50
BioEstatística
Assim, o que parecia óbvio no diagrama de dispersão confirma-se: existe uma correlação
estatisticamente significativa entre a dose de radiação administrada e o racio de sobrevivência
do vírus (p < 0.001), no sentido em que doses de radiação mais elevadas estão associadas a
racios de sobrevivência menores (r = -0.98 < 0).
Neste caso, para além da relação existente entre as duas variáveis, parece ser interessante
avaliar em que sentido é que a fracção de sobrevivência do vírus poderá depender da dose de
radiação administrada, ou seja, se existe uma relação de causa (dose) – efeito (sobrevivência),
o que se poderá obter por regressão linear simples.
O quadro sumário do modelo de regressão linear mostra que o r2 é de 0.96, ou seja, 96% da
variabilidade encontrada no racio de sobrevivência é devida à variabilidade da dose
administrada, ou seja, a variabilidade conjunta é de 96%. Note-se que r, neste quadro, é de
0.98! O valor real da correlação deve ser avaliado através da matriz de correlação e não do
sumário do modelo de regressão.
Model Summary
R R Square Adjusted R Square Std. Error of the Estimate
.980 .960 .954 .07932
O valor de r2 pode ser obtido fazendo 0.9802= 0.96 ou usando SQ do modelo da ANOVA:
0.96=1.044/0.044.
No quadro da ANOVA pode ainda observar-se que esta recta se ajusta bem aos dados (p <
0.001), sendo que a variabilidade devida à regressão é cerca de 166 vezes superior à
variabilidade residual.
ANOVA(b)
Sum of Squares df Mean Square F Sig.
Regression 1.044 1 1.044 165.989 .000(a)
Residual .044 7 .006
Total 1.088 8
51
Engenharia Biomédica
Coefficients(a)
Unstandardized Standardized
Coefficients Coefficients t Sig.
b Std. Error Beta
(Constant) 1.001 .049 20.522 .000
Dose -.003 .000 -.980 -12.884 .000
Podem assim prever-se valores para o racio de sobrevivência, a partir da recta de regressão
obtida. Por exemplo, para uma dose de 210, obtém-se uma previsão para o rácio
sobrevivência = 1.001-0.003*210 = 0.371.
52
BioEstatística
não lineares são linearizáveis. Por exemplo, o seguinte modelo com duas variáveis
ln(Y ) = ln(a 0 * a1 X 1 1 * a 2 X 2 2 )
K k
Mas o modelo que se obtém fazendo conduz a
Y * = t 0 + t1 X 1 + t 2 X 2 .
* *
Por outro lado, não deve existir multicolinearidade, ou seja, as variáveis independentes
devem ser independentes. Caso este pressuposto não se verifique, então a lista de variáveis
independentes deve ser analisada, pois existem, com certeza, variáveis redundantes. Pode
recorrer-se à correlação bivariada para observar quais as variáveis com maior correlação entre
si, ou observar a Tolerância ou a VIF de cada variável, obtidas computacionalmente em
qualquer aplicação estatística. A tolerância mede o grau em que uma variável X é explicada
por todas as outras variáveis independentes, ou seja, a proporção da sua variância que não é
explicada por todas as outras variáveis independentes. Esta varia entre 0 e 1, e quanto mais
próxima estiver de 0 maior será a multicolinearidade, considerando-se como limite inferior
para que não exista multicolinearidade o valor de 0.10. Todas as variáveis com valores de
tolerância < 0.1 devem ser excluídas do modelo.
Define-se VIF (variance inflaction factor) como o inverso da tolerância (1/Tol), pelo que não
existirá multicolinearidade quando VIF < 10.
53
Engenharia Biomédica
maior alteração provoca no valor do F da ANOVA, ou, de modo semelhante, a variável que
produza um maior aumento no valor de r2, enquanto esta alteração for significativa.
No método backwards o modelo inicial a constante e todas as variáveis seleccionadas pelo
investigador, sendo as variáveis independentes retiradas do modelo, em cada passo, de acordo
com o menor valor de F associado a cada variável (de forma inversa à anterior).
O método stepwise é um híbrido dos anteriores, e é o que é, normalmente, utilizado.
Model Summary
Std. Error Change Statistics
Adjusted
Model R R2 of the R Square F Sig. F
R2 df1 df2
Estimate Change Change Change
1 ,823(a) ,677 ,670 1,3670 ,677 90,139 1 43 ,000
2 ,915(b) ,837 ,829 ,9828 ,160 41,186 1 42 ,000
3 ,941(c) ,885 ,876 ,8359 ,048 17,059 1 41 ,000
4 ,951(d) ,904 ,894 ,7736 ,019 7,871 1 40 ,008
a Predictors: (Constant), horas
b Predictors: (Constant), horas, refeição
c Predictors: (Constant), horas, refeição, med
d Predictors: (Constant), horas, refeição, med, dent
ANOVA(e)
Model SS df MS F Sig.
Regression 168,445 1 168,445 90,139 ,000(a)
1 Residual 80,355 43 1,869
Total 248,800 44
… … … … … … …
Regression 224,860 4 56,215 93,928 ,000(d)
4 Residual 23,940 40 ,598
Total 248,800 44
a Predictors: (Constant), horas
b Predictors: (Constant), horas, refeição
c Predictors: (Constant), horas, refeição, med
d Predictors: (Constant), horas, refeição, med, dent
e Dependent Variable: notas
54
BioEstatística
Coefficients(a)
Unstandardized Standardized
T Sig. Collinearity Statistics
Model Coefficients Coefficients
B Std. Error Beta Tolerance VIF
(Constant) 10,294 ,447 23,050 ,000
1
horas 3,329 ,351 ,823 9,494 ,000 1,000 1,000
… … … … … … … … …
(Constant) 11,376 ,600 18,949 ,000
horas 1,464 ,348 ,362 4,203 ,000 ,325 3,080
4 refeição ,425 ,102 ,256 4,154 ,000 ,634 1,578
med -1,787 ,376 -,358 -4,755 ,000 ,423 2,361
dent 1,055 ,376 ,211 2,806 ,008 ,423 2,361
a Dependent Variable: notas
Nestes casos, pode-se comparar a variância explicada por cada variável, no modelo (r2), e é
interessante observar os valores de β e não de b, no quadro dos coeficientes de regressão. Os
coeficientes b reflectem a escala em que a variável foi medida, enquanto que β são os
coeficientes b padronizados. Assim, as variáveis com peso na predição do modelo podem ser
comparadas e avaliadas. No quadro anterior pode observar-se que o peso relativo de cada
variável na nota final, comparando os valores absolutos de β.
Curve Estimation
The Curve Estimation procedure produces curve estimation regression statistics and related
plots for 11 different curve estimation regression models. A separate model is produced for
each dependent variable. You can also save predicted values, residuals, and prediction
intervals as new variables.
Example: An Internet service provider tracks the percentage of virus-infected e-mail traffic on
its networks over time. A scatterplot reveals that the relationship is nonlinear. You might fit a
quadratic or cubic model to the data and check the validity of assumptions and the goodness
of fit of the model.
55
Engenharia Biomédica
Logistic Regression
Logistic regression is useful for situations in which you want to be able to predict the
presence or absence of a characteristic or outcome based on values of a set of predictor
variables. It is similar to a linear regression model but is suited to models where the
dependent variable is dichotomous. Logistic regression coefficients can be used to estimate
odds ratios for each of the independent variables in the model. Logistic regression is
applicable to a broader range of research situations than discriminant analysis.
Example: What lifestyle characteristics are risk factors for coronary heart disease (CHD)?
Given a sample of patients measured on smoking status, diet, exercise, alcohol use, and CHD
status, you could build a model using the four lifestyle variables to predict the presence or
absence of CHD in a sample of patients. The model can then be used to derive estimates of
the odds ratios for each factor to tell you, for example, how much more likely smokers are to
develop CHD than nonsmokers.
56
BioEstatística
6
Embora, em amostras de pequena dimensão seja, muitas vezes, preferível utilizar testes não paramétricos
57
Engenharia Biomédica
Avaliar distribuição:
Teste de Kolmogorov-Smirnov
Aceitar H0 Rejeitar H0
H0: Distribuição = Normal H1: Distribuição ≠ Normal
Aceitar H0 Rejeitar H0
H0: Variâncias homogéneas H1: Distribuição ≠ Normal
58
BioEstatística
Exemplos:
1. Suponha que se pretende avaliar se as condições de temperatura e humidade influenciam o
tempo demorado a adormecer dos recém-nascidos, assim como a duração da sesta. Assim,
observaram-se 3 amostras independentes de recém-nascidos, em 3 maternidades com
diferentes condições de temperatura e humidade nos quartos, sendo cada amostra
constituída por 10 elementos.
Qual o teste estatístico que utilizaria neste caso, para cada uma das variáveis dependentes
estudadas, após observar o seguinte quadro?
Tests of Kolmogorov-Smirnov(a) Shapiro-Wilk
Maternidade
Normality Statistic df Sig. Statistic df Sig.
MDM .214 10 .200(*) .938 10 .531
Tempo a
MBB .228 10 .152 .907 10 .262
adormecer
CSS .216 10 .200(*) .845 10 .051
MDM .196 10 .200(*) .872 10 .107
Duração da sesta MBB .244 10 .092 .774 10 .007
CSS .247 10 .083 .928 10 .424
* This is a lower bound of the true significance.
a Lilliefors Significance Correction
Levene
Test of Homogeneity of Variance df1 df2 Sig.
Statistic
Based on Mean .188 2 27 .830
Tempo a Based on Median .171 2 27 .844
adormecer Based on Median and with adjusted df .171 2 24.650 .844
Based on trimmed mean .186 2 27 .831
Based on Mean 1.569 2 27 .227
Duração da Based on Median .698 2 27 .506
sesta Based on Median and with adjusted df .698 2 18.685 .510
Based on trimmed mean 1.287 2 27 .292
Duração da sesta
Std. Std. 95% Confidence Interval for Mean
N Mean Minimum Maximum
Deviation Error Lower Bound Upper Bound
MDM 10 224.000 18.25133 5.7716 210.9438 237.0562 198.00 245.00
MBB 10 227.800 41.46431 13.112 198.1382 257.4618 123.00 265.00
CSS 10 222.100 34.07981 10.777 197.7208 246.4792 159.00 268.00
Total 30 224.63 31.6734 5.783 212.8063 236.4604 123.00 268.00
59
Engenharia Biomédica
7.50 228.00
227.00
7.00
Mean of Tempo a adormecer
6.50
225.00
6.00
224.00
5.50
223.00
5.00 222.00
Maternidade Maternidade
Tempo a Adormecer
ANOVA: Tempo a adormecer
Sum of Mean
df F Sig.
Squares Square
Between Groups 23.267 2 11.633 3.883 .033
Within Groups 80.900 27 2.996
Total 104.167 29
Duração da Sesta
Ranks
Maternidade N Mean Rank
MDM 10 13.85
MBB 10 17.70
Duração da sesta
CSS 10 14.95
Total 30
Test Statistics(a,b)
Duração da
sesta
Chi-Square 1.017
df 2
Asymp. Sig. .602
a Kruskal Wallis Test
b Grouping Variable: Maternidade
60
BioEstatística
260.00
240.00
220.00
Duração da sesta
200.00
180.00
160.00
140.00
120.00
Tempo a adormecer
Qual dos coeficientes de correlação devemos utilizar? As conclusões a que se chega são
opostas, ainda que o coeficiente de correlação seja fraco. Com o coeficiente de correlação de
Pearson, conclui-se que não existe relação significativa entre a duração da sesta e o tempo
demorado a adormecer dos recém-nascidos (p = 0.103), enquanto que quando se utiliza um
coeficiente de correlação não paramétrico conclui-se que existe relação entre ambas (p =
0.043), no sentido em que sestas mais prolongadas estão relacionadas com menor tempo
demorado a adormecer (rho < 0).
Qual dos dois coeficientes deve ser utilizado?
Tests of Normality
Kolmogorov-Smirnov(a) Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
Tempo a adormecer .164 30 .038 .924 30 .034
Duração da sesta .167 30 .032 .885 30 .004
a Lilliefors Significance Correction
b Calculated from data
61
Engenharia Biomédica
Tempo a Adormecer
Peça de Roupa Mean Sum of
Ranks N
da mãe Rank Ranks
Tempo a Sim 15 11.50 172.50
adormecer Não 15 19.50 292.50
Tempo a
Test Statistics(b)
adormecer
Mann-Whitney U 52.500
Exact Sig. [2*(1-tailed Sig.)] .011(a)
a Not corrected for ties.
b Grouping Variable: Peça de roupa da mãe
Duração da Sesta
Independent Samples Test
Levene's Test
for Equality of t-test for Equality of Means
Variances
95% Confidence
Sig. Mean Std. Error Interval of the
F Sig. t df Difference
(2-tailed) Differenc Differenc
Lower Upper
Equal variances
4.132 28 .000 38.333 9.277 19.331 57.336
Duração assumed
6.213 .019
da sesta Equal variances
4.132 17.695 .001 38.333 9.277 18.819 57.847
not assumed
62
BioEstatística
9. VARIÁVEIS QUALITATIVAS
O teste Chi2 não pode ser utilizado em qualquer tabela de contingência. É necessário que
cumpra as Regras de Cochran para aplicação do teste Chi2
Tabelas de 2x2:
1. Se n ≥ 40 pode usar o teste do qui-quadrado, de preferência corrigido; Os valores
esperados têm de ser ≥ 5;
2. Se 20 ≤ n ≤ 40 deve usar o teste do qui-quadrado corrigido; Os valores esperados têm de
ser ≥ 5; caso contrário terá de usar o teste exacto de Fisher;
3. Se n < 20 não deve usar o teste do qui-quadrado mas o teste exacto de Fisher.
63
Engenharia Biomédica
em dois grupos segundo os valores de tensão arterial (N: normal; HTA: hipertensão arterial) e
a existência de patologia cardio-vascular (N: normal; DCV: doença cardiovascular).
Assim, aparentemente, encontramos mais casos normais para as duas patologias do que
esperávamos encontrar se as proporções fossem todas iguais, assim como mais casos com
ambas as patologias do que esperávamos encontrar, o que nos poderá indicar que é mais
frequente um sujeito normal para uma das patologias também o ser para a outra, e que quando
têm uma das doenças, muito provavelmente também terá a outra. Assim, este parece ser um
indicador da existência de relação entre a hipertensão arterial e a doença cardiovascular.
Aplicando o teste Chi2, dado que se cumprem as regras de Cochran para tabelas 2x2...
Chi-Square Tests
Asymp. Sig. Exact Sig. Exact Sig.
Value df
(2-sided) (2-sided) (1-sided)
Pearson Chi-Square 16,708 1 ,000
Continuity Correction(a) 15,353 1 ,000
Likelihood Ratio 17,184 1 ,000
Fisher's Exact Test ,000 ,000
Linear-by-Linear Association 16,593 1 ,000
N of Valid Cases 145
a Computed only for a 2x2 table
b 0 cells (,0%) have expected count less than 5. The minimum expected count is 28,08.
Verifica-se que parece existir uma associação significativa entre a ocorrência de doença
cardio-vascular e a existência de hipertensão (Chi2(1)=16.708; p<0.001).
9.2 Teste de McNemar – 2 variáveis qualitativas emparelhadas, tabelas 2x2
64
BioEstatística
Este teste, também denominado de teste da mudança de opinião, baseia-se na comparação das
proporções das respostas dicotomizadas de duas variáveis (A e B), ou seja, classificando as
respostas em positivas ou sucessos, e em negativas ou insucessos.
A aplicação de A e B a n indivíduos dá origem a n pares de respostas agrupadas nas 4
combinações seguintes:
B
- +
- a b
A
+ c d
7
As células b e c são aquelas onde se opera a mudança de opinião de sucesso para insucesso ou vice-versa. Se
b+c>20, a estatística deste teste é um chi2; se b+c<20, a estatística dos teste é uma binomial.
8
No SPSS, a variáveis devem ser codificadas da mesma forma, atribuindo-se o valor 0 ao insucesso e 1 ao
sucesso
65
Engenharia Biomédica
BINOMIAL tests whether the observed distribution of a dichotomous variable is the same as
what is expected from a specified binomial distribution. By default, each named variable is
assumed to have only two values, and the distribution of each named variable is compared to
a binomial distribution with p (the proportion of cases expected in the first category) equal to
0.5. The default output includes the number of valid cases in each group, the test proportion,
and the two-tailed probability of the observed proportion.
Exemplo 1: A proporção de indivíduos que tem cáries, na amostra, é idêntica à que não tem
cáries?
Exemplos:
66
BioEstatística
1. Num estudo sobre a importância do “efeito placebo” entraram 200 doentes. Foram
divididos em dois grupos: ao grupo P foi administrado placebo e ao grupo S uma substância
activa suporífera. Os doentes foram inquiridos sobre o efeito do “medicamento” ao fim de 15
dias: 30 dos 150 doentes do grupo P sentiram efeito benéfico e bem como 40 do grupo S.
Verifique as condições de aplicabilidade do teste Chi2 e, em caso afirmativo, indique se a
substância administrada está ou não relacionada com o efeito sentido pelos sujeitos.
Efeito
Substância * Efeito Crosstabulation Total
Efeito
Sem efeito
Benéfico
Count 40 10 50
Subs. Activa Expected Count 17.5 32.5 50.0
Residual 22.5 -22.5
Substância
Count 30 120 150
Placebo Expected Count 52.5 97.5 150.0
Residual -22.5 22.5
Count 70 130 200
Total
Expected Count 70.0 130.0 200.0
Dado não existirem frequências esperadas inferiores a 5, e n= 200 > 40, permite aplicar o teste
Chi2. O facto de os resíduos serem iguais na diagonal principal (simétricos na diagonal
secundária) poderá indicar a existência de uma associação entre as duas variáveis.
Asymp. Sig. Exact Sig. Exact Sig.
Chi-Square Tests Value df
(2-sided) (2-sided) (1-sided)
Pearson Chi-Square 59.341(b) 1 .000
Continuity Correction(a) 56.733 1 .000
Likelihood Ratio 58.818 1 .000
Fisher's Exact Test .000 .000
Linear-by-Linear Association 59.044 1 .000
N of Valid Cases 200
a Computed only for a 2x2 table
b 0 cells (.0%) have expected count less than 5. The minimum expected count is 17.50.
De facto, existe uma associação significativa (Chi2(1)=59.241; p < 0.001 rejeita-se H0)
entre a substância administrada e o efeito sentido.
Analisando as estimativas de risco, verifica-se que é cerca de 16 vezes mais provável que o
efeito sentido seja benéfico quando se administra substância activa do que quando se
administra placebo, sendo este valor significativamente diferente9 de 1 (para α = 0.05), e
superior, dado que o intervalo de confiança a 95% para o odds ratio é (7.2; 36.6).
9
Um odds ratio de 1 indica ausência de risco/associação
67
Engenharia Biomédica
Odds Ratio for Substância (Subs. Activa / Placebo) 16.000 7.188 35.614
For cohort Efeito = Efeito Benéfico 4.000 2.822 5.669
For cohort Efeito = Sem efeito .250 .143 .438
N of Valid Cases 200
Poderá, neste caso, ser interessante analisar as “% within substância”, “% within efeito” e “%
of total”. Analise-as e estabeleça relações com o risco relativo apresentado no quadro anterior.
Efeito
Substância * Efeito Crosstabulation Total
Efeito
Sem efeito
Benéfico
% within Substância 80.0% 20.0% 100.0%
Subs.
% within Efeito 57.1% 7.7% 25.0%
Activa
% of Total 20.0% 5.0% 25.0%
Substância
% within Substância 20.0% 80.0% 100.0%
Placebo % within Efeito 42.9% 92.3% 75.0%
% of Total 15.0% 60.0% 75.0%
% within Substância 35.0% 65.0% 100.0%
Total % within Efeito 100.0% 100.0% 100.0%
% of Total 35.0% 65.0% 100.0%
68
BioEstatística
Temos uma tabela de contingência 6 × 2 logo, com 12 células. Entre estas, tem-se Eij < 5 em
2 células (16.7%), pelo que se pode aplicar o teste Chi2 a este conjunto de dados.
Caso houvesse 3 células com Eij < 5 , não teríamos pelo menos 80% das células com
Eij ≥ 5 pelo que seria necessário proceder à junção de linhas ou colunas. Neste caso, talvez
fizesse sentido juntar as categorias “muito melhor” com “melhor”, ou “ligeiramente pior” com
“pior”; contudo, as Eij < 5 aparecem na categoria “sem alteração”. No meu entender dever-
se-ìa juntar “sem alteração” com “ligeiramente pior”, dado que “sem alteração” indica que
não houve efeito benéfico da estreptomicina.
69
Engenharia Biomédica
Substância
Efeito * Substância Crosstabulation Total
Estreptomicina Placebo
% within Efeito 87.5% 12.5% 100.0%
Muito melhor % within Substância 50.9% 7.7% 29.9%
% of Total 26.2% 3.7% 29.9%
% within Efeito 43.5% 56.5% 100.0%
Melhor % within Substância 18.2% 25.0% 21.5%
% of Total 9.3% 12.1% 21.5%
% within Efeito 40.0% 60.0% 100.0%
Sem alteração % within Substância 3.6% 5.8% 4.7%
% of Total 1.9% 2.8% 4.7%
Efeito
% within Efeito 29.4% 70.6% 100.0%
Ligeiramente pior % within Substância 9.1% 23.1% 15.9%
% of Total 4.7% 11.2% 15.9%
% within Efeito 50.0% 50.0% 100.0%
Pior % within Substância 10.9% 11.5% 11.2%
% of Total 5.6% 5.6% 11.2%
% within Efeito 22.2% 77.8% 100.0%
Morte % within Substância 7.3% 26.9% 16.8%
% of Total 3.7% 13.1% 16.8%
% within Efeito 51.4% 48.6% 100.0%
Total % within Substância 100.0% 100.0% 100.0%
% of Total 51.4% 48.6% 100.0%
70