Você está na página 1de 122

Genrio Sobreira Santiago

Rui Eduardo Brasileiro Paiva

Bioestatstica

2010

Copyright 2009. Todos os direitos reservados desta edio SECRETARIA DE EDUCAO A DISTNCIA
(SEAD/UECE). Nenhuma parte deste material poder ser reproduzida, transmitida e gravada, por qualquer
meio eletrnico, por fotocpia e outros, sem a prvia autorizao, por escrito, dos autores.
EXPEDIENTE
Design instrucional
Antonio Germano Magalhes Junior
Igor Lima Rodrigues
Pedro Luiz Furquim Jeangros
Projeto grfico
Rafael Straus Timb Vasconcelos
Marcos Paulo Rodrigues Nobre
Coordenador Editorial
Rafael Straus Timb Vasconcelos
Diagramao
Emilson Pamplona Rodrigues de Castro
Ilustrao
Marcos Paulo Rodrigues Nobre
Revisor
Eliseu Marlnio Pereira de Lucena
Capa
Emilson Pamplona Rodrigues de Castro

PRESIDENTE DA REPBLICA
Luiz Incio Lula da Silva
MINISTRO DA EDUCAO
Fernando Haddad
SECRETRIO DE EDUCAO A DISTNCIA
Carlos Eduardo Bielschowsky
DIRETOR DO DEPARTAMENTO DE POLTICAS EM EDUCAO A DISTNCIA DPEAD
Hlio Chaves Filho
SISTEMA UNIVERSIDADE ABERTA DO BRASIL
Celso Costa
GOVERNADOR DO ESTADO DO CEAR
Cid Ferreira Gomes
REITOR DA UNIVERSIDADE ESTADUAL DO CEAR
Francisco de Assis Moura Araripe
VICE-REITOR
Antnio de Oliveira Gomes Neto
PR-REITORA DE GRADUAO
Josefa Lineuda da Costa Murta
COORDENADOR DA SECRETARIA DE EDUCAO A DISTNCIA
Antnio Germano Magalhes Jnior
COORDENADOR GERAL UAB/UECE
Francisco Fbio Castelo Branco
COORDENADORA ADJUNTA UAB/UECE
Josete de Oliveira Castelo Branco Sales
COORDENADORA DO CURSO DE CINCIAS BIOLGICAS
Germana Costa Paixo
COORDENADORA DE TUTORIA E DOCNCIA DO CURSO DE CINCIAS BIOLGICAS
Jeanne Barros Leal de Pontes Medeiros

Unidade 1
Conceitos Fundamentais....................................................................................................... 9
Captulo 1 - Elementos de matemtica............................................................................... 11
1.1 Somatrio (notao sigma)..............................................................................................11
1.2 Fenmenos determinsticos e aleatrios......................................................................... 11
1.3 Modelos matemticos.....................................................................................................12
1.4 Noes sobre conjuntos...................................................................................................15
1.5 Anlise combinatria.......................................................................................................17

Unidade 2
Descrio das amostras........................................................................................................ 23
Captulo 1 - Organizao tabular e grfica dos dados......................................................... 25
1.1 Representao tabular.....................................................................................................25
1.2 Representao grfica......................................................................................................31

Captulo 2 - Medidas de tendncia central......................................................................... 37


2.1. Introduo.......................................................................................................................37
2.2. Mdia aritmtica ( x ).....................................................................................................37
2.3. Mediana (Md).................................................................................................................39
2.4. Moda (Mo)....................................................................................................................... 42

Captulo 3 - Medidas de disperso ou de variabilidade...................................................... 43


3.1 Importncia da variabilidade........................................................................................... 43
3.2 Amplitude total................................................................................................................43
3.3 Varincia..........................................................................................................................44
3.4. Desvio padro.................................................................................................................45

Unidade 3
Noes de Probabilidade....................................................................................................... 53
Captulo 1 - Probabilidade conceitos fundamentais........................................................ 55
1.1. Conceito de probabilidade..............................................................................................55
1.2. Espao amostral e evento...............................................................................................55
1.3 Probabilidade: definio e propriedades......................................................................... 56
1.4 Adio de probabilidades.................................................................................................57
1.5 Probabilidade condicional................................................................................................58
1.6 Teorema da multiplicao............................................................................................. 59

Captulo 2 - Modelos probabilsticos em biologia............................................................... 61


2.1 Modelos probabilsticos...................................................................................................61
2.2 Modelo (distribuio) binomial........................................................................................ 61
2.3 Distribuio de Poisson....................................................................................................65
2.4 Distribuio normal..........................................................................................................66

Unidade 4
Associao de variveis......................................................................................................... 75
Captulo 1 - Correlao linear simples................................................................................ 77
1.1 Conceito de correlao....................................................................................................77
1.2 Diagrama de disperso.....................................................................................................77
1.3 Coeficientes de correlao linear (r) e de determinao (r2)...........................................79

Captulo 2 - Regresso linear simples................................................................................. 81


2.1 A ideia de aproximao linear.......................................................................................... 81
2.2 Regresso linear simples..................................................................................................82
2.3 Transformaes de variveis............................................................................................ 84

Unidade 5
Inferncia Estatstica.............................................................................................................. 101
Captulo 1 - Noes sobre amostragem.............................................................................. 103
1.1 Populao e amostra........................................................................................................103
1.2 Variveis e escalas e medidas.......................................................................................... 104
1.3 Amostragem.....................................................................................................................105

Captulo 2 - Noes de inferncia estatstica...................................................................... 108


2.1 Conceitos introdutrios...................................................................................................108
2.2 Distribuies amostrais....................................................................................................108
2.3 Estimao.........................................................................................................................109
2.4 Testes de hipteses..........................................................................................................110
2.5 Teste da diferena entre duas mdias.............................................................................. 112
2.6 Teste de diferenas entre frequncias observadas e esperadas......................................113
Anexo 1.................................................................................................................................. 121
Anexo 2.................................................................................................................................. 122

Um curso de estatstica considerado sempre penoso para estudantes de todas


as reas e, ao mesmo tempo, indispensvel para um bom desempenho do estudante
quando ele convidado a raciocinar sobre fenmenos que tratam do estudo de modelos
probabilsticos. Em biologia, no diferente. Assim, a variabilidade na ocorrncia dos
fenmenos e a incerteza associada aos mesmos que constitui o problema central de estatstica, de modo que a estatstica repousa inteiramente na teoria das probabilidades.
Afirmaes estatsticas so sempre afirmaes sobre a probabilidade de ocorrncia de certo tipo de fenmeno, a partir de um conjunto de condies tericas satisfeitas.
Isto a base de inferncia estatstica, que, na ltima parte do livro, tratada de modo
elementar, sendo dada maior nfase primeira finalidade da estatstica: descrever,
analisar e representar um grupo de dados, utilizando mtodos numricos e grficos
que resumem e apresentam a informao contida neles. Isto o fundamento da estatstica descritiva que o cerne deste despretensioso trabalho.

Os autores.

Unidade

Conceitos Fundamentais

Objetivos:



Compreender e utilizar a notao de somatrio (notao sigma).


Revisar alguns conceitos de anlise combinatria.
Interpretar a equao de uma reta, como modelo linear.
Compreender algumas idias bsicas sobre conjuntos.

Captulo 1
Elementos de matemtica

1.1 Somatrio (notao sigma)


Para indicarmos a soma dos valores xi de uma varivel x, isto ,
x1 + x2 + ... + xn usamos o smbolo (letra maiscula grega: sigma), denominado em matemtica somatrio. Assim, a soma a soma x1 + x2 + ... + xn
pode ser representada por :
5

x ( lemos : somatrio de x ndice i, i variando de 1 a 5) isto


i =1

x = x
i =1

+ x2 + ... + xn

Exemplo 1.1 Escreva sob a forma de somatrio


a) x1 + x2 + x3 + x4
b) 1 + 2 + 3 +...+ n
Soluo:
a) x1 + x2 + x3 + x4 =
b) 1 + 2 + 3 +...+ n =

x
i =1

k =1

1.2 Fenmenos determinsticos e aleatrios


Consideremos as seguintes situaes:
a) Um gs perfeito com volume de 10 litros e sob presso de 4 atmosferas, transforma-se, isotermicamente, passando a ocupar um volume de 8 litros. Qual a presso final?
b) A um indivduo de 50 anos, com presso diastlica de 12cm/Hg,
administraram-se 40mg de um betabloqueador, diariamente. Ao final de 10 dias, que valor passa a assumir o referido nvel tensional.
Na situao A, pode-se afirmar, com segurana, que a presso final
ser de 5 atmosferas, aplicando-se a conhecida lei de Boyle Mariotte:
PV=constante; logo: 10.4 = 8.P P = 5 atm.
J na outra situao, impossvel se prever qual ser a presso do
indivduo aps a administrao do medicamento. No mximo, a resposta
poderia ser em termos de: provavelmente, pelo que se conhece do medicamento, a presso diastlica baixar, talvez no mximo uns 3 cm/Hg.

BIOESTATSTICA

11

A situao A caracteriza um fenmeno determinstico, que aquele


cujo comportamento pode ser previsto com exatido; ou seja, conhecido o
estado inicial, fica determinado o estado final. Esses fenmenos pertencem
ao domnio das cincias exatas, dos seres idealizados (gases perfeitos, lquidos perfeitos, concepes matemticas).
A situao B refere-se a fenmeno aleatrio, de comportamento imprevisvel; o estado final no pode ser exatamente determinado a partir do
estado inicial.

1.3 Modelos matemticos


O comportamento dos fenmenos determinsticos estudado, quantitativamente, usando frmulas matemticas exatas (lei de Boyle-Mariotte,
teorema de Pitgoras etc). No entanto, o estudo de fenmenos aleatrios (objeto de estudo as estatstica), do ponto de vista quantitativo feito atravs
de frmulas matemticas aproximadas, que se conhecem como modelos matemticos. Assim, um modelo matemtico uma descrio matemtica (frequentemente por meio de uma funo ou de uma equao) de um fenmeno
do mundo real, tal como o tamanho de uma populao, a concentrao de
um frmaco no sangue, a expectativa de vida de uma pessoa ou o custo de
reduo dos poluentes. Um esquema bsico na elaborao de um modelo
mostrado na Figura 1.1.

Figura 1.1 Esquema bsico necessrio para a elaborao de um modelo


(OLIVEIRA e MOREIRA, 1987).

Na elaborao de modelos, o ponto de partida a prtica (a observao, a experimentao), ou premissas tericas sugeridas pela prtica. Parmetros so medidas associadas a um dado fenmeno e a inter-relao entre
parmetros selecionados constitui um modelo matemtico. Resultados esperados so aqueles obtidos pela aplicao de um modelo, em contraposio
a resultados observados, obtidos diretamente da prtica.

1.3.1 Construo de um modelo matemtico simples


um modelo linear
Quando dizemos que y uma funo linear de x, queremos dizer que
o grfico da funo uma reta e, portanto, matematicamente representada
por uma equao do tipo
y = ax + b

12

BIOESTATSTICA

Onde a a inclinao da reta e b o intercepto em Y. Uma caracterstica


peculiar das funes lineares que elas crescem (ou decrescem) a uma taxa
constante. O exemplo a seguir, modificado de STEWART (2003) um bom
exemplo de um modelo linear.
Exemplo 1.2 - A Tabela 1.1 fornece uma lista de nveis mdios de dixido de carbono na atmosfera, medidos em partes por milho no Observatrio de Mauna Loa, de 1972 a 1990. Usando os dados desta tabela vamos
encontrar um modelo matemtico para o nvel de dixido de carbono.
Tabela 1.1 - Variao do nvel de dixido de carbono (CO2) segundo o ano.

Ano

Nveis reais de CO2


(em ppm)

Nveis obtidos de CO2


com uso do modelo

1972

327,3

327, 297

1974

330,0

330, 263

1976

332,0

333, 230

1978

335,3

336, 197

1980

338,5

339, 163

1982
1984

341,0
344,3

342, 130
345, 097

1986

347,0

348, 063

1988

351,3

351, 030

1990

354,0

353, 997

Fonte: Modificado de Stewart (2003).

Soluo:
Vamos usar os dados da tabela acima para fazer um mapa de disperso, mostrado na Figura 1.2, onde t representa o tempo (em anos) e C
representa o nvel de CO2 (em ppm).

Figura 1.2 Mapa de disperso para o nvel mdio de CO2 (STEWART, 2003).

BIOESTATSTICA

13

Observe que os pontos esto muito prximos de uma linha reta, dessa
forma, natural escolher um modelo linear neste caso. Porm, h inmeras
possibilidades de retas que aproximam esses pontos; assim, qual deveramos usar? Do grfico, vemos que uma possibilidade a reta que passa pelo
primeiro e o ltimo ponto dado. A inclinao dessa reta

354, 0 327,3 26, 7


=
1, 48333
1990 1972
18
E sua equao
C - 327,3 = 1,48333 (t 1972)
Ou
C = 1,48333t 2597,83
Essa equao fornece um modelo linear possvel para o nvel de CO2,
cujo grfico est na Figura 1.3.

Figura 1.3 - Modelo linear atravs do primeiro e do ltimo ponto dado (STEWART, 2003).

Embora nosso modelo se ajuste razoavelmente aos dados, ele d valores mais altos do que a maior parte dos nveis reais de CO2. Um modelo
linear melhor obtido por meio de um procedimento da estatstica chamado
de regresso linear (ser estudada no captulo 8). Usando esse recurso estatstico chegamos a seguinte equao de regresso
C = 1,496667t 2624,826667

1.3.2. Variaes absolutas e relativas


Seja um parmetro, cujo valor inicial designamos por E ( i ) e o final,
por E ( f ). A variao absoluta dada por:
=E(f)E(i)

14

BIOESTATSTICA

A variao relativa dada por r =


, geralmente expressa em
E
(i
)
percentagem.
Exemplo 1.3 O peso de um paciente variou, de janeiro a dezembro, de
60 kg a 90 kg. A variao absoluta foi: = 90 kg 60 kg = 30 kg e a relativa:

r =

30kg 1
= = 50%
60kg 2

Exemplo 1.4. O peso de um paciente aumentou em 20% de janeiro


a julho e em 10% de julho a dezembro. Qual foi a variao percentual de
janeiro a dezembro?
uma tentao responder, de imediato, e errado: 30%! Para resolver
corretamente, e de forma fcil, problemas envolvendo variaes relativas,
tomamos um incio absoluto arbitrrio (100, mais cmodo para os clculos).
Assim, esquematizando:

Janeiro
100

Julho
120

Dezembro
132

Logo, a variao relativa de janeiro a dezembro foi:

132 100 32
=
= 32%
100
100

1.4 Noes sobre conjuntos


Assim como em outros assuntos de matemtica, tambm na teoria
dos conjuntos certas noes so aceitas sem definio (primitivas), a fim de
servirem como ponto inicial.
Enquanto na Geometria Euclidiana costuma-se adotar sem definio
as noes de ponto, reta e plano, na teoria dos conjuntos as noes consideradas primitivas so as seguintes:
a) conjunto
b) elemento
c) pertinncia entre elemento e conjunto
A palavra conjunto sugere a ideia de coleo, grupo ou lista de elementos. Tais elementos podem ser objetos, pessoas, nomes, nmeros etc.
Um conjunto que tem um nico elemento chamado unitrio, enquanto
aqueles sem elemento algum so os vazios. Por conveno os conjuntos
so denominados por letras maisculas do nosso alfabeto (com exceo do
vazio que representado pela letra grega ( fi ). Uma das formas de definir
um conjunto colocar todos os seus elementos entre chaves, um aps o
outro e separados por vrgulas, como, por exemplo, o conjunto das vogais

{a, b, c, d , e}.

1.4.1 Principais operaes com conjuntos


Dados dois conjuntos A e B, chama-se reunio de A e B o conjunto formado pelos elementos que pertencem a A ou a B e escreve-se
BIOESTATSTICA

15

A B = { x / x A ou x B } . Dados dois conjuntos A e B, chama-se interseco de A e B o conjunto formado pelos elementos que pertencem a A e a
B, e escreve-se A B = { x / x A e x B } .
Exemplo 1.5 Faa as operaes de soma e interseco com os conjuntos A = { 1,2,3,4
Soluo

e B=

3,4

{ 1,2,3,4 } { 3,4 } = { 1,2,3,4 }


b) { 1,2,3,4 } { 3,4 } = { 3,4 }
a)

1.4.2 Contagem dos elementos de um conjunto


Para expressar a quantidade de elementos de um conjunto qualquer
A usamos a notao n(A). Consideremos dois conjuntos no-vazios A e B, e
seja A B a interseco desses conjuntos. Para encontramos o nmero de
elemento da unio devemos somar os elementos de A com os elementos de
B, e descontarmos os elementos da interseco, pois foram contados duas
vezes. Assim, o nmero de elementos da unio, n (A B) dado por:
n (A B) = n (A) + n (B) n (A B)
No caso em que os conjuntos so disjuntos (A B = ) a frmula se
reduz a
n (A B) = n (A) + n (B)
Exemplo 1.6 - Foram obtidos dados antropolgicos de mil maridos e
respectivas esposas. Se em 800 casais os maridos so mais altos, em 700
so mais pesados e em 660 so tanto mais pesados quanto mais altos,
pergunta-se: em quantos casais as mulheres excedem os maridos nas duas
medidas (peso e altura)?
Soluo:
Considere o diagrama de Euler-Venn.

Figura 1.4 Aplicao do diagrama de Euler-Venn na soluo do


exemplo 1.6.

16

BIOESTATSTICA

n (S) = 1.000; n (A) = 800; n (B) = 700 e n (A B) = 660.


O conjunto dos casais em que o marido excede a esposa em pelo menos uma das dimenses : (A B).
n (A B) = n (A) + n (B) n (A B) n (A B) = 800 + 700 660 = 840
O conjunto complementar de (A B), simbolizado por (A B)c, o conjunto em que as mulheres predominam em ambas as medidas:
n[(A B)c] = 1000 840 = 160, que corresponde a parte hachurada
da Figura 1.4.

1.5 Anlise combinatria


Sero revistas algumas noes desse assunto em funo de sua necessidade no estudo de probabilidade (Unidade 03).

1.5.1 Fatorial
Chama-se fatorial de um nmero inteiro no negativo n (n 0), o inteiro que se indica por n!, e tal que:
n! = n (n-1) (n-2)...3.2.1 , para n 2.
Para n = 0 ou n = 1, temos n! = 1
Exemplo 1.7 Encontre os valores de: a) 5! e b) 7!.
Soluo:
a) 5! = 5.4. 3. 2.1 = 120
b) 7! = 7.6.5! = 7.6.5! = 42. 120 = 5040

1.5.2 Nmeros binomiais


Sejam n e k dois inteiros tais que 0 k n. Chama-se nmero bin
nomial de numerador n e classe k, o inteiro positivo que se indica por
k
e tal que

n
n!
=
k k! ( n k ) !
8

Exemplo 1.8 Calcular


3
Soluo:

8 8.7.6.5.4.3.2.1 8.7.6
=
=
= 56
56
3 3.2.1.5.4.3.2.1 3.2.1

BIOESTATSTICA

17

1.5.3 Princpio fundamental da contagem


Consideremos o exerccio seguinte: ao longo de uma estrada existem
3 cidades, A, B e C. Para ir de A a B voc dispe de 2 alternativas de carona
e de B a C, 3 alternativas. De quantas formas distintas voc pode fazer o
percurso total, de A a C?
Se voc achar 2 + 3 = 5, uma soluo errada. O correto 2x3 = 6
alternativas, como fcil verificar. Este problema trivial uma ilustrao
de um importante princpio matemtico chamado princpio fundamental da
contagem (P.F.C), assim enunciado:
Se um:
- Experimento E1 puder ocorrer de n1 maneiras distintas

- Experimento E2 puder ocorrer de n2 maneiras distintas

- Experimento E3 puder ocorrer de n3 maneiras distintas

.
.
.

.
.
.

.
.
.

- Experimento Ei puder ocorrer de ni maneiras distintas


O experimento E1 E2 E3 ......... Ei poder ocorrer de:
n1 . n2 . n3.......................ni maneiras distintas

Nesta unidade foram revistos conceitos importantes de matemtica


que so imprescindveis para compreenso satisfatria de alguns captulos
posteriores. Iniciamos com o estudo de modelagem matemtica, discutindo ideias que sero muito teis no estudo de modelos probabilsticos. Em
seguida, foi introduzido o importante conceito de aleatoriedade, de suma
importncia no estudo de probabilidades. Conjuntos, um tema unificador
da matemtica, foi abordado nos seus princpios, onde trabalhamos com
as noes sobre operaes entre conjuntos. Por fim fizemos um estudo de
alguns aspectos da combinatria, que esto muito presentes no estudo de
estatstica.

18

BIOESTATSTICA

1. Responda os tens seguintes:


a) Os fenmenos biolgicos so, em geral, determinsticos ou aleatrios? Porque?
b) O resultado de um tratamento, o diagnstico de uma doena, so
fenmenos aleatrios? Por qu?
2. Utilize a notao de somatrio para expressar
n

3. Expresse

2 f ( x ) sem usar somatrio.


i =1

2 +2+ 6 +2 2 .

4. A respeito de modelagem matemtica responda o que pede:


a) So parmetros da funo respiratria: capacidade vital, volume expiratrio de reserva, CO2 alveolar... Selecionar alguns parmetros
referentes a: funo renal, funo circulatria e fgado humano.
b) Admitindo-se o modelo matemtico seguinte, relacionando glicorraquia (GL) com glicemia (GS):
2
GL = GS, qual a glicorraquia esperada para um indivduo com
3
glicemia 9mg/dL?
c) So mais confiveis os resultados observados ou os esperados? Por
qu?
d) Qual a vantagem dos resultados esperados sobre observados?
e) Qual a importncia do confronto entre resultados observados e esperados?
5. Responda aos itens abaixo:
a) Um pesquisador, desejando estimar as populaes dos municpios
de um estado, t anos aps 1970, dispe dos dados:
P1 = populao em 1970 (conhecida pelo censo)
P2 = populao em 1980 (conhecida pelo censo)
P = populao a estimar ( t anos aps 1970)
Admitindo a premissa de que a populao cresa linearmente, ou seja,
em progresso aritmtica, construa um modelo matemtico.
b) Utilizando o modelo do item a estime a populao para 1985 de
um municpio onde:
P1 = 243.160 habitantes e P2 = 320.100 habitantes.
c) Modifique o modelo anterior de crescimento, agora admitindo a nova
premissa de que o crescimento seja exponencial, isto , em progresso geomtrica.
d) Qual das duas mais adequada? Por qu?

BIOESTATSTICA

19

6. A presso sistlica de um paciente desceu de 15 cm/Hg para 12 cm/


Hg, aps administrao de um medicamento. Determine as variaes
absoluta e relativa.
7. A glicemia de um diabtico aumentou em 40% das 6:00 s 15:00 horas
e diminuiu 20% das 15:00 s 21:00 horas. Qual a variao relativa
das 6:00 s 21:00 horas?
8. Uma colnia bacteriana aumentou em 80% de t0 a t2, sendo que o aumento de t0 a t1 foi de 20%. Qual a variao relativa de t1 a t2?
9. Uma massa tumoral aumentou em 96% de t0 a t2, sendo que o aumento relativo de t0 a t1 foi igual ao aumento relativo de t1 a t2. Se o valor
inicial (em t0) do volume era de 8 cm3, qual o volume em t1?
10. So examinados 1000 resultados de hemogramas, onde se consideram apenas os achados de:
a) neutrofilia; b) eosinofilia; c) linfocitose.
Registram-se as seguintes informaes:

525 casos com neutrofilia

312 casos com eosinofilia

470 casos com linfocitose

42 casos com linfcitose e eosinofilia

147 casos com neutrofilia e linfocitose

86 casos com eosinofilia e linfocitose

25 casos com todas as alteraes, simultaneamente.


Verifique se h inconsistncia nesses dados.

11. Um pesquisador classificava, histopatologicamente, casos de doena


de Hodgkin segundo 2 atributos dicotomizados: Eosinfilos (muitos,
poucos); clulas de Reed Sternberg - R.S (muitas, poucas). Assim,
tinha 4 categorias distintas:

Casos com muitos eosinfilos e muitas clulas R-S


Casos com poucos eosinfilos e poucas clulas R-S
Casos com muitos eosinfilos e poucas clulas R-S
Casos com poucos eosinfilos e muitas clulas R-S
Anos depois, em 1978, o mesmo pesquisador considerava os seguintes atributos, tambm dicotomizados: eosinfilos, clulas R.S; fibrose,
necrose, histicitos, mastcitos. Assim sendo, quantas categorias distintas sero agora possveis?

12. Casos de calazar so classificados segundo os atributos:


Esplenomegalia: +, ++, +++, ++++
Hepatomegalia: 0, +, ++
Anemia: leve, moderna, intensa
Hemorragia: Presente, ausente.

20

Qual o nmero de possveis categorias distintas?

BIOESTATSTICA

13. Os loci homlogos de um par de cromossomos podem ser ocupados


pelos 6 alelos de determinado gen. Qual o nmero de possveis gentipos distintos?
14. A seguinte expresso um modelo matemtico proposto por DUBOIS
para estimar a superfcie corporal S (cm2), partindo do peso corporal
P(kg) e da altura A (cm):

S = 71,84.P 0,425 . A0,725


Estime a superfcie corporal de uma pessoa de 60 kg e altura 1,59m.
15. Uma doena se propaga de tal forma que o nmero de casos aumenta
em 5%, de ano para ano. Em quanto tempo ocorrer triplicao dos
casos?
16. O cdigo gentico especifica um aminocido por uma seqncia de
3 bases, as quais so: adenina, guanina, citosina e timina. Quantos
aminocidos distintos podem ser codificados?

A matemtica e as profisses geneticista


Ao pesquisar a transmisso de caracteres hereditrios na reproduo
das ervilhas, Mendel valeu-se basicamente do clculo de probabilidades
para formular as leis que deram incio a esse importante ramo de estudo da
biologia: a gentica. A utilizao da matemtica nesse campo , portanto,
uma questo de princpio. Sem esse instrumento bsico de trabalho a gentica no existiria.
Glria Maria Duccine Dal Colletto, geneticista doutorada pelo instituto de Cincias Biolgicas da USP, ressalta o papel essencial da matemtica,
e em especial o da estatstica, na conduo de pesquisas genticas e na
anlise dos resultados. O domnio do clculo de probabilidades indispensvel nessa rea, afirma ela.
A respeito da matemtica elementar e de seus principais tpicos, a pesquisadora comenta: No muito comum, mas s vezes acontece de usarmos
para a resoluo de alguns problemas em nosso trabalho a trigonometria, as
transformaes logartmicas, as matrizes e os sistemas lineares.
Sobre a matemtica de nvel superior, Glria menciona o uso frequente de inferncia estatstica (regresso linear simples e mltipla, anlise de
varincia etc), das distribuies normal e binomial, da mdia e da correlao. A aplicao de testes, segundo ela, imprescindvel, destacando-se entre eles o teste do qui-quadrado, o teste de hipteses e o teste t de Student.
A aplicao do conhecimento matemtico faz parte, enfim, da rotina de
trabalho do geneticista.
Tomando fatos concretos, ligados prtica, a pesquisadora cita um
exemplo interessante de como a matemtica pode ser utilizada na previso
e preveno de problemas congnitos quando a combinao entre os eleBIOESTATSTICA

21

mentos de um casal pode resultar em algum risco gentico. O albinismo


um caso clssico da Gentica no qual se recorre utilizao de estatstica.
Digamos que a doena seja causada por um par de genes alelos: A (normal
/dominante) e a (albino / recessivo). A probabilidade de uma pessoa ser ou
no Albina, tendo pais normais, porm portadores do alelo a, pode ser visualizado no esquema a seguir:
Pais normais

Aa x Aa

Combinaes possveis

AA

Aa

aA

aa

Probabilidades de ocorrncia (%)

25

25

25

25

Normais
(75%)

Fentipos

Albinos (25%)

A probabilidade de ocorrncia do albinismo desaparece, caso um dos


pais seja AA.. O albinismo causado por um gene recessivo e no se manifesta na presena de um gene dominante no par:
Pais normais

AA x Aa

Combinaes possveis

AA

AA

Aa

Aa

Probabilidades de ocorrncia (%)

25

25

25

25

Fentipos

Normais (100%)

Como nesse caso do albinismo existem outra situaes nas quais a


gentica, por meio do recurso matemtica, prever e ajuda a prevenir problemas genticos, finaliza a geneticista. (Modificado de MACHADO, 1988).

ALENCAR FILHO, E. Aritmtica dos inteiros. So Paulo: Nobel, 1987. 406


p.
GUELLI, C. A.; IEZZI, G.; DOLCE, O. Conjuntos, funes e inequaes.
So Paulo: Editora Moderna Ltda, 1967. 265 p.
MACHADO, A. S. Matemtica: temas e metas. So Paulo: Atual Editora,
1988. 196 p.
OLIVEIRA, E. G.; MOREIRA, O. C. Guia para o ensino introdutrio da
estatstica nos cursos da rea de sade. Fortaleza: UECE, 1987. 149 p.
STEWART, J. Clculo. So Paulo: Pioneira Thomson, 2003. v. 1, 670 p.
VIEIRA, S. Introduo bioestatstica. Rio de Janeiro: Editora Campus,
1988. 294 p.

22

BIOESTATSTICA

Unidade

Descrio das
amostras
Objetivos:




Construir tabelas de acordo com algumas regras gerais.


Estudar associao de variveis atravs de tabelas bidimensionadas 2 x 2.
Estudar associao de variveis atravs de tabelas bidimensionadas n x n.
Construir tabelas de distribuio de freqncias.
Construir e interpretar os principais tipos de grficos.

Captulo 1
Organizao tabular e grfica dos dados

1.1 Representao tabular


As tabelas constituem uma importante forma de representao dos
dados estatsticos, quer pelo seu aspecto meramente descritivo, quer pela
maior facilidade de anlise que propicia, particularmente, nos estudos de
associao, to teis na investigao biomdica. No existem regras rgidas
para a confeco de uma tabela, sendo a prtica, ainda, a mentora decisiva
para uma boa representao tabular. Alguns itens gerais, no entanto, sero
considerados:
a) As tabelas devero preencher dois requisitos fundamentais, nem
sempre fceis de conciliar: SIMPLICIDADE e CLAREZA.
b) As tabelas devero ser autossuficientes, no sentido de, para sua
compreenso, prescindir de consulta ao texto onde ela est inserida.
c) O ttulo obrigatrio, para se obedecer condio de auto-suficincia, e nele devem se encontrar respostas s perguntas: Qual a
natureza do fenmeno descrito? Onde ocorreu? Quando ocorreu?
d) O corpo da tabela, onde se encontram as informaes numricas,
deve explicitar as variveis apresentadas e as suas unidades; no
se deve deixar caselas (locais para os nmeros) em branco, utilizando, quando necessrio, smbolos como: - : no ocorrncia do fenmeno;... : ausncia de informao; ( ? ) dvida sobre a informao
etc... Em geral, s se devem usar para separao dos dados, traos
horizontais; os traos verticais so antiestticos, trabalhosos para
quem vai faz-los, inteis, e omitidos, consequentemente na literatura cientfica.
e) Quando necessrio, no rodap da tabela, devem constar a fonte
de informaes (se no forem do prprio pesquisador, ou seja, primrias) e esclarecimentos sobre chamadas no corpo ( smbolos,
legendas...)
Exemplo 1.1 - Esquematize uma tabela adequada para receber dados
sobre o nmero de internaes hospitalares feitas nos Estados da Regio
Sul do Brasil, em 2008, discriminadas por estado, clnica (cirrgica, mdica e psiquitrica) e clientela (urbana e rural).

BIOESTATSTICA

25

Soluo:
Tabela 1.1 - Nmero de internaes na Regio Sul do Brasil no ano de 2008, de acordo
com o Estado, clnica e clientela.

Estado
Paran
Clientela

Urbana

Rural

Sta Catarina

Rio G. Sul

Urbana

Urbana

Rural

Total
Rural

Cirrgica
Clnica

Mdica
Peditrica

Total

1.1.1. Estudo de associao em tabelas bidimensionais 2x2


Um mdico, desejando saber se existe uma associao entre cncer
de bexiga e o hbito de fumar, examina os arquivos de um grande hospital
e verifica que, dentre 1.000 casos de cncer vesical, 900 correspondiam a
pacientes que eram tabagistas.
Considere, agora, que um pesquisador toma, ao acaso, 2 amostras de
camundongos isognicos, suscetveis a determinado vrus; os camundongos
da 1 amostra so injetados com uma vacina experimental e 2 amostra
utilizada como controle. Todos os camundongos so, depois, expostos ao
vrus, e ao cabo de um perodo adequado, verificaram-se os sobreviventes
em cada amostra, obtendo-se os resultados (genricos) resumidos na tabela
1.2.
Tabela 1.2 - Taxas de sobrevivncia de camundongos segundo a vacinao.

Sobreviventes
Vacinados

Sim

No

Total

Sim
Sim

n3

n4

Total

n1

n2

n = n1 + n2 + n3 + n4

No primeiro caso lcito concluir, ou pelo menos suspeitar, luz dos


dados acima, que o hbito de fumar predispe (ou seja, est associado)
referida forma de tumor maligno. No segundo caso, podemos ter uma ideia
da eficcia da vacina comparando os percentuais de sobrevivncia nos dois
grupos, porm mais interessante que tenhamos disposio uma medida singular, de limites bem definidos, que nos informe da associao, caso
exista.

26

BIOESTATSTICA

Para tabelas 1.2, uma medida adequada o coeficiente de YULE, definido por:
Y=

ac bd
ac + bd

Na interpretao de YULE, preciso saber:


a) O valor de Y est compreendido no intervalo fechado de -1 (menos
um) a +1 (mais um)
b) Y = -1 corresponde a associao inversa perfeita
c) Y = 0 corresponde a independncia perfeita
d) Y = + 1 corresponde a associao direta perfeita
e) Na prtica, raramente o YULE assume os valores acima referidos; a
regra so valores fracionrios.
Exemplo 1.2 Para os dados da Tabela 1.3, calcule e interprete o
coeficiente de YULE.
Tabela 1.3 - Taxas de sobrevivncia de camundongos segundo a vacinao.

Sobreviventes
Vacinados

Sim

No

Total

Sim

130

70

200

Sim

80

160

240

Total

210

230

440

Temos:
Y=

130 x160 70 x80 20.800 5.600 15.200


=
=
0,57
130 x160 + 70 x80 20.800 + 5.600 26400

0,57 indica associao direta entre taxa de sobrevivncia e vacinao,


ou seja, sugere que o aumento da sobrevivncia caminha na mesma direo
da vacinao.

1.1.2 Estudo de associao em tabelas bidimensionais, m x n


(variveis ordenadas)
O YULE o coeficiente de associao mais simples de calcular e fcil
de interpretar; apresenta, contudo, o inconveniente de sua aplicao ser
restrita a tabelas 2 x 2. Um coeficiente de aplicao mais geral o Gama (G)
de GOODMAN & KRUSKAL, aplicvel a tabelas m x n (m 2 ; n 2), exigindo, contudo que as duas variveis estudadas possam ser ordenadas, isto ,
estejam, pelo menos, numa escala ordinal de medidas. A interpretao de G
semelhante de YULE, embora o clculo seja mais complicado.
Assim temos:
G=

M N
M +N

BIOESTATSTICA

27

Onde:
M (frequncia das concordncias): o somatrio dos produtos de
cada elemento pela soma dos que lhe esto abaixo e direita, sendo
a leitura feita da esquerda para a direita.
N (frequncia das disconcordncias): o somatrio dos produtos
de cada elemento pela soma dos que lhe esto abaixo e esquerda,
sendo agora a leitura feita da direita para a esquerda.
Observao importante: S so considerados os elementos centrais
da tabela e nunca os totais.
Exemplo 1.3 Para os dados da Tabela 1.4 calcule o coeficiente Gama.
Tabela 1.4 - Associao entre glicemia e glicosria.

Glicemia
Glicosria

Normal

Aumentada

Total

10

+
++
+++
Total

6
6
3
24

6
8
17
32

12
14
20
56

M = 9 ( 6 + 8 + 17) + 6 ( 8 + 17) + 6(17) = 279 + 150 + 102 = 531


N = 1( 6+ 6 + 3) + 6 (6 + 3) + 8 (3) = 15 + 54 + 24 = 93

G=

531 93 438
=
= 0, 70
531 + 93 624

Interpretao:
G = 0,70; associao direta entre grau de glicosria e hiperglicemia,
ou seja, da amostra estudada, fica sugerido que o aumento da glicosria se
desenvolve na mesma direo do aumento da glicemia.

1.1.3. Distribuio de frequncias


comum, na prtica que nos defrontemos com um conjunto de dados
numricos, referentes ao exame de amostras. Se o nmero dessas informaes for pequeno, podem-se extrair algumas concluses a seu respeito, mas
quando h uma massa considervel de dados (amostras de tamanho a partir de 30), seu exame de per si torna-se invivel obrigando a que os valores
numricos sejam categorizados em classes s quais se fazem corresponder
suas respectivas frequncias (nmeros de valores em cada classe). Tem-se,
assim, o que conhecido como distribuio de frequncias. Por exemplo,
se temos informaes sobre as idades de 100 (cem) pacientes, ao invs de
considerar, isoladamente, cada informao, fazemos uma diviso em classes ou faixas etrias; se dispusermos das glicemias de 60 pacientes, mais
prtico que se estabeleam classes ou faixas glicmicas. Naturalmente, tal
sumarizao tem um preo, que a perda de certa quantidade de informao, mas um preo pequeno diante das vantagens que traz.

28

BIOESTATSTICA

1.1.3.1. Elementos de uma distribuio de frequncias


a) Classes: so os intervalos de variao da varivel, sendo representados por i=1, 2, 3,..., k; onde k o nmero total de classes da
distribuio.
b) Frequncia de uma classe: indica o nmero de elementos de uma
classe, isto , o total de vezes que cada valor entra na constituio
de uma classe.
c) Intervalo de classe: o conjunto de nmeros que constitui o intervalo. a forma mais comum de agrupar os dados.
Os tipos de intervalo so:
a) 3 | 5: fechado a esquerda e aberto a direita

b) 3 | 5: Aberto a esquerda e fechado a direita

c) 3 || 5: Fechado a esquerda e fechado a direita

d) 3 5: aberto a direita e aberto a esquerda.

d) Limites de classes: so os extremos de uma classe.



l Limite inferior de uma classe

L Limite superior de uma classe
e) Ponto mdio de uma classe: chamamos de ponto mdio de uma
classe, ao ponto que divide esse intervalo de classe em duas partes
iguais.
1) O ponto mdio denotado por X i , onde i, indica i-sima classe
considerada.
2) O ponto mdio de uma classe determinado pela semi-soma do
limite superior e limite inferior dessa classe, isto , a mdia aritmtica dos limites de classe.

Xi =

L+l
2

i = 1, 2, 3, ..., k

3) O ponto mdio de uma classe o seu legtimo representante. Ao


ser determinado, faremos a suposio de que todos os elementos
pertencentes a essa classe, sero iguais ao seu ponto mdio
4) Os pontos mdios de uma distribuio esto em progresso aritmtica, isto , a diferena entre eles constante.
f) Amplitude de um intervalo de classe: a medida do intervalo que
define a classe. obtida pela diferena entre os limites superior e
inferior dessa classe e indicada por
hi = L l
Exemplo 1.4 Elabore uma tabela de distribuio de frequncias com
dados abaixo referentes iodemia (em microgramas por decilitro), para 30
pessoas normais (adaptado de informaes do Journal of Clinical Investigation, 1940).

BIOESTATSTICA

29

3,8
4,3
4,5
5,0
5,2

5,3
5,3
5,4
5,5
5,6

5,8
5,9
5,9
6,0
6,5

6,5
6,5
6,7
6,8
7,0

7,2
7,4
7,9
n = 30 (tamanho da amostra)
8,4
8,8

Primeiro precisamos definir o nmero de classes ( N ), o qual depender do tamanho da amostra e de sua homogeneidade ( quanto mais homogneos forem os dados, de menos classes necessitaremos). Em geral, N
no deve ser inferior a 5 (grande perda de informao), nem superior a 15
(prejuzo para a simplicidade).
Uma regra emprica que alguns autores adotam, respeitadas as observaes do pargrafo anterior :
N n , dando-se preferncia aproximao mpar, que facilita a
apreciao da simetria.
No nosso exemplo: N 30 ; escolhemos ento N = 5 para o nosso nmero de classes. A amplitude total dos dados 8,8 3,8 = 5,0. Logo, a amplitude de cada classe ser:
C=

5,0
= 1,0
5

A distribuio de frequncia desejada pode ser ento:


Tabela 1.5 - Distribuio de frequncia da iodemia (g/dL) em 30 pessoas normais.

Classes

Frequncia ( f i )

3,8 | 4,8

4,8 | 5,8

5,8 | 6,8

6,8 | 7,8

7,9 | 8,8

TOTAL

30

1.1.3.2 Tipos de frequncias


a) Frequncia absoluta simples ( f i ) : indica quantos elementos da
amostra pertencem a cada classe
b) Frequncia relativa ( f r ) : determinada dividindo-se a frequncia
absoluta simples de cada classe, pela frequncia total, isto , pelo
tamanho da amostra (n). Geralmente, expressa como percentagem.

fr =

fi

Indica, em percentagem, o nmero de elementos de cada classe.

30

BIOESTATSTICA

c) Frequncia absoluta acumulada (faa): a soma da frequncia absoluta de uma classe, com as frequncias absolutas de todas as
classes anteriores.
d) Frequncia relativa acumulada (fra): a soma da frequncia relativa de uma classe, com as frequncias relativas de todas as classes
anteriores.
Exemplo 2.5 Encontre todas as frequncias para os dados da Tabela 1.5.
Soluo:
Vamos organizar os dados da Tabela 1.5 para obtermos a Tabela 1.6.
Tabela 1.6 - Distribuio de frequncia da Iodemia (g/dL) em 30 pessoas normais.

fa

f r (%)

f aa

f ra

3,8 | 4,8

10,00

10,00

4,8 | 5,8

30,00

12

40,00

5,8 | 6,8

30,00

21

70,00

6,8 | 7,8

16,66

26

86,66

7,8 | 8,8

13,33

30

100,00

TOTAL

30

100,00

Classes

1.2 Representao grfica


O grfico estatstico nada mais do que uma outra forma de apresentao dos dados estatsticos. Tem como objetivo fornecer, para quem o
analisa, uma informao direta e objetiva do fenmeno estudado. Assim,
alm de sintticos e claros, devem ser capazes de atrair a ateno do leitor,
seja pelo apelo pictrico, ou pela viso abrangente e dinmica dos dados
representados, o que mais difcil obter atravs da representao tabular.
No se deve esquecer, contudo, que os grficos so, em geral, mais
esboos, no encerrando, exatamente, as informaes contidas nas tabelas.
No obstante, certos grficos, como os diagramas de disperso, orientam
para uma anlise estatstica mais aprofundada (como ser estudado em
captulos posteriores).
importante que obedea algumas caractersticas:
Simplicidade: deve ser destitudo de detalhes suprfluos
Clareza: para possibilitar uma fiel interpretao dos valores representativos do fato ou fenmeno estudado.
Veracidade: deve expressar a verdade sobre o fenmeno em estudo

1.2.1. Grficos estatsticos


a) Grfico de barras: consiste na representao de uma srie estatstica por meio de retngulos dispostos horizontalmente. Os retngulos possuem a mesma altura e os seus comprimentos so proporcionais aos respectivos dados ou as suas frequncias (Figura 1.1).
BIOESTATSTICA

31

Figura 1.1 - Freqncias absolutas dos nveis sricos de colesterol para 1067 homens dos
EUA, com idades entre 25 e 34 anos, 1976-1980 (PAGANO e GAUVREAU, 2006).

b) Grfico de colunas: a representao de uma srie estatstica


por meio de retngulos dispostos verticalmente. Os retngulos possuem a mesma base e as alturas so proporcionais aos respectivos
dados ou as suas frequncias (Figura 1.2).

FIGURA 1.2 - Frequncias relativas das concentraes de chumbo no sangue (g/dL) de


trabalhadores do Canad em 1987 (PAGANO e GAUVREAU, 2006).

Se, mediante o grfico, tentamos comparar vrias populaes entre si,


existem outros tipos, como o mostrado na Figura 1.3. Quando os tamanhos
das duas populaes so diferentes, conveniente utilizar as frequncias
relativas, j que, em outro caso, as comparaes poderiam ser enganosas.

32

BIOESTATSTICA

FIGURA 1.3 - Frequncias relativas das concentraes de chumbo no sangue (g/dL) de


trabalhadores do Canad em 1979 e 1987 (PAGANO e GAUVREAU, 2006).

c) Grfico de setores: so representados por meio de um crculo,


onde cada classe representada por um setor circular cujo ngulo
proporcional ao tamanho da altura. utilizado quando se deseja
comparar os valores de uma srie com a sua soma ou total (Tabela
1.5 e Figura 1.4).
TABELA 1.5 - Alunos matriculados na escola X, no ano de 2009.

SRIES

QUANTIDADE DE ALUNOS

1 Srie
2 Srie

400
300

3 Srie

200

4 Srie

100

TOTAL

1000

Figura 1.4 - Alunos matriculados na escola X, no ano de 2009.

BIOESTATSTICA

33

Observaes:
a) As reas dos setores ou as porcentagens correspondentes aos setores so, respectivamente, proporcionais aos dados da srie e so
obtidos por meio de uma simples regra de trs.
b) Se voc desejar o ngulo do setor, o TOTAL ser representado pelo
crculo, que corresponde a 360.
c) Se voc desejar a porcentagem correspondente a um dado qualquer,
o TOTAL ser representado por 100%.
Exemplo 1.4 Usando as informaes contidas na Tabela 1.5 e na
Figura 1.4, responda:
a) Calcule o ngulo do setor correspondente a 1 srie.
b) Se o ngulo do setor equivalente aos alunos da 3 srie 72, determine a sua porcentagem correspondente.
c) Se o ngulo do setor equivalente aos alunos da 1 srie de 144,
determine a sua porcentagem correspondente.
Soluo:
a) 100%
40%
b) 360
72
c) 360

360

X
100

X
100%

X = 144
X = 20%
X = 40%

144
X
A Figura 1.5 esclarece os clculos executados.

Figura 1.5 Apresentao dos clculos executados no Exemplo 1.4.

d) Representao grfica de distribuio de frequncia simples:


faz-se atravs dos histogramas, que so grficos em colunas justapostas, tais que a base de cada coluna a classe, e a altura a
frequncia respectiva. Para a distribuio de frequncia do Exemplo
1.4, o histograma apresentado na Figura 1.6.

34

BIOESTATSTICA

Figura 1.6 - Frequncia de iodo no sangue (g/dL) (OLIVEIRA e MOREIRA, 1987).

e) Curvas de frequncias

O histograma um grfico amostral, que nos sugere um grfico


populacional, chamado curva de frequncia. Os mais importantes
modelos de curvas de frequncias so mostrados na Figura

Figura 1.7 -

Modelos de curvas de frequncias.

BIOESTATSTICA

35

f) Frequncias acumuladas

Simbolizadas pela letra maiscula F, ao contrrio das frequncia


simples, indicam o nmero de valores abaixo a cada limite de classe. Para o caso das iodemias tem-se a Tabela 1.4 de frequncias
acumuladas.
Tabela 1.4 Iodemias de frequncias acumuladas.

Iodemia menor que

Fr (%)

3,8

4,8

10

5,8

12

40

6,8

21

70

7,8

26

87

8,8

30

10

O grfico representativo de frequncias acumuladas um de linhas,


chamado Ogiva de Galton (Figura 1.8).

Figura 1.8 - Limites inferiores da iodemia (g/dL).

36

BIOESTATSTICA

Captulo 2
Medidas de tendncia central

2.1. Introduo
Quando dispomos os dados numa tabela de distribuio de frequncia, no possvel estabelecer pontos, em torno do quais os dados se distribuem. Quando o interesse apresentar um conjunto de valores, atravs
de um nico nmero, so usadas as medidas de tendncia central ou de
posio: mdia aritmtica (ou simplesmente mdia), mediana e moda.

2.2. Mdia aritmtica ( x )


,

Mdia, que representaremos por x


todos os dados divididos por n.

dada pela soma dos valores de

x=

x
i =1

Exemplo 2.1 Seis pacientes foram analisados quanto a glicemia (mg


%) tendo sido obtidos os seguintes valores 89, 91, 95, 100, 78 e 105. Encontre a glicemia mdia.
Soluo:
Temos:

x=

89 + 91 + 95 + 100 + 78 + 105
= 93
6

2.2.1. Caractersticas da mdia


a) fcil de calcular
b) Representa o valor provvel de uma varivel, por isso, muitas
vezes chamado de valor esperado ou esperana matemtica quando
calculada para a populao.
c) D o valor da abscissa do ponto em torno do qual os dados se distribuem, podendo-se imaginar, portanto, a mdia como o centro de
gravidade da distribuio.
Exemplo 2.2 Considerando que no exemplo 3.1 a glicemia de 89 mg %
foi substituda por 140 mg %, qual a alterao provocada na mdia?

BIOESTATSTICA

37

Soluo:
Temos:

x=

140 + 91 + 95 + 100 + 78 + 105


= 101,5 mg %
6

Observamos neste exemplo que a mdia muito sensvel a valores


extremos da varivel. Veja que a mdia aumentou aproximadamente 10%,
de modo que no recomendvel para distribuies muito assimtricas.

2.2.2. Mdia de dados agrupados


2.2.2.1. Sem intervalos de classes
Neste caso, como as frequncias so nmeros indicadores da intensidade de cada valor da varivel, elas funcionam como fatores de ponderao,
por isso chamada mdia aritmtica ponderada. dada pela frmula:

x=

x f
f
i

Exemplo 2.3 Determine a mdia da distribuio mostrada na Tabela 2.1.


Tabela 2.1 - Distribuio de pacientes renais, segundo a idade.

Idade (anos)

Frequncia (f)

26
28
30
32

3
10
12
5

37

20

Temos:
Refazendo a Tabela 2.1 obtemos a Tabela 2.2.
Tabela 2.2 - Distribuio de pacientes renais, segundo a idade.

Idade (anos)
(x i)

Frequncia
( f i)

xi f i

26

78

28

10

280

30

12

360

32
37

5
20

160
740

50

1618

38

BIOESTATSTICA

Ento:

x=

1618
= 32, 4
50

2.2.2.2. Com intervalos de classes


Como no podemos operar com classe, representamos cada classe
pela mdia entre seus dois limites, e fazemos como no caso anterior.
Exemplo 2.4 Determine a mdia da distribuio da Tabela 2.3.
Tabela 2.3 - Distribuio de pesos (kg) de recm nascidos do sexo masculino.

Classe

2,0 | 3,0

3,0 | 4,0

15

4,0 | 5,0
5,0 | 6,0
Total

23
2
42

Soluo:
Rearranjando a tabela anterior para obtermos a Tabela 2.4.
Tabela 2.4 - Distribuio de pesos (kg) de recm nascidos do sexo masculino.

Classe

Ponto mdio (x i)

Frequncia ( f i )

xi f i

2,0 | 3,0
3,0 | 4,0
4,0 5,0
5,0 | 6,0

2,5
3,5
4,5
5,5

2
15
23
2

5
52,5
103,5
11

42

172

Ento,
x=

2.3. Mediana (Md)

172
= 4,1 kg
42

Considerando que uma varivel assuma os seguintes valores: 10, 14,


16, 21 e 390, como j discutimos, em casos como esse, onde existem valores
discrepantes, a mdia no vai ser bem representativa da distribuio como
um todo, pois que ser influenciada pelo valor aberrante. Assim preciso
usar outras medidas mais adequadas.
Define-se mediana, e indica-se por Md, como o valor tal que metade
dos dados ou so iguais ou so inferiores a ela.
Exemplo 2.5 Calcular a mediana para o conjunto de pesos de RN
(kg): 2,7; 3,9; 4,1; 4,3; 5,4 e interpretar.
Soluo:
Md = 4,1 kg
Esse valor significa que metade dos RN tem pesos menor ou igual a
4,1 kg.

BIOESTATSTICA

39

2.3.1. Propriedades da mediana


Destacamos as seguintes:
1. Como medida descritiva, tem a vantagem de no ser afetada pelas
observaes extremas, por isso adequada para distribuies assimtricas.
2. de clculo rpido ou de interpretao fcil.
3. Diferentemente da mdia, a mediana de uma varivel discreta
sempre um valor da varivel que estudamos (quando o nmero da
observao n mpar).
4. Tem a mesma unidade de medida dos dados.
5. Verificamos que, estando ordenado os valores de uma srie e sendo
n o nmero de elementos, da srie, o valor mediano ser:
O termo de ordem

n +1
, se n for mpar.
2

A medida aritmtica dos termos da ordem

n
n
e + 1 , se n for par.
2
2

Exemplo 3.6 Em uma amostra de 35 medidas de peso, calcule a


posio da mediana quando os dados forem adequados.
Soluo:
Temos: Md =

n + 1 35 + 1
=
= 18 valor da srie.
2
2

2.3.2. Mediana de dados agrupados


2.3.2.1. Sem intervalos de classe
Neste caso, suficiente identificar a frequncia acumulada imediatamente superior metade da soma das frequncias. A mediana ser aquele
valor da varivel que corresponde a tal frequncia acumulada.
Exemplo 3.7 Determine a mediana da distribuio mostrada na
tabela 3.1.
Soluo: A partir da Tabela 3.1 obtemos a Tabela 2.5.
Tabela 2.5 - Distribuio de pacientes renais, segundo a idade.

Idade (anos)

Frequncia

Frequncia
acumulada

26

28
30
32

10
12
5

13
25
30

37

20

50

40

50
BIOESTATSTICA

Temos:

50
= 25
2

A menor frequncia acumulada que supera este valor 30, que corresponde ao valor 32 da varivel, sendo este o valor mediano. Logo: Md = 32
anos.

2.3.2.2. Com intervalos de classe


Neste caso, o problema consiste em determinar o ponto do intervalo em que est compreendida a mediana. Para tanto, temos inicialmente
que determinar a classe na qual se acha mediana: Classe Mediana. Tal
classe ser, evidentemente, aquela correspondente a frequncia acumulada
imediatamente superior a f . Vamos considerar tambm que os valores se
2
distribuem uniformemente em todo o intervalo da classe.
Consideremos agora os dados da Tabela 2.3, acrescentando as frequncias acumuladas e classes de distribuio, para formar a Tabela 2.6.
Tabela 2.6 - Distribuio de pesos (kg) de recm nascidos do sexo masculino.

Classe

Peso ( kg )

Frequncia

1
2
3
4

2,0 | 3,0
3,0 | 4,0
4,0 | 5,0
5,0 | 6,0

2
15
23
2

Frequncia
acumulada
2
17
40
42

42

Temos:

f
2

42
= 21
2

Como h 40 valores includos nas 3 primeiras classes de distribuio


e como desejamos determinar o valor que ocupa o 40 lugar, a partir do
incio da srie, vemos que este valor deve estar localizado na terceira classe
( i = 3 ), supondo que as frequncias dessas classes estejam uniformemente
distribudas. Como h 23 elementos nesta classe e o intervalo de classe
igual a 1, devemos tomar, a partir do limite inferior a distncia

21 17
4
1 =
23
23
e a mediana ser dada por: Md = 4 +

4
= 4,17 . Logo, Md = 4, 17 kg.
23

BIOESTATSTICA

41

2.4. Moda (Mo)

Chama-se moda o valor que ocorre com maior frequncia em uma


srie de valores. a medida de tendncia central menos importante. Sua
nica vantagem que pode ser utilizada para todas as escalas de medidas,
ao contrrio da mdia que s pode ser usada para escalas quantitativas
(intervalos e razes) e da mediana que s pode ser usada a partir da escala
ordinal.
Exemplo 2.8 Calcular a moda para idades em que pacientes comearam a apresentar presbiopia: 37; 40; 39; 39; 42; 39; 39; 41.
Soluo: A idade modal 39 anos.
Exemplo 2.9 Calcular a moda para as presses diastlicas (cm / hg)
dadas na Tabela 2.7.
Tabela 2.7 - Presso diastlica (P.D) em cm/hg.

Classe
1
2
3
4
5

P.D.
5,0 | 6,5
6,5 | 8,0
8,0 | 9,5
9,5 | 12,0
12,0 | 13,5
Total

Frequncia
4
8
17
5
2
36

Soluo:
No caso de distribuio de frequncias, costuma-se usar para estimar
a moda a frmula de KING:

M0 = L +
Onde:

1
.c
1 + 2

L limite inferior da classe modal.

1 - diferena entre a frequncia modal e a frequncia anterior.


2 - diferena entre a frequncia modal e a frequncia posterior.
c amplitude da classe modal.
Temos ento: Como a classe modal 3 vem:
L = 8,0; 1 = 17 8 = 9; 2 = 17 5 = 12; c = 1,5.
Logo, M 0 = 8, 0 +

42

9
.1,5 = 8, 6 cm/hg.
9 + 12

BIOESTATSTICA

Captulo 3
Medidas de disperso ou de variabilidade

3.1 Importncia da variabilidade


A variabilidade um fator constante e decisivo nos seres vivos tornando possvel a conservao do indivduo e da espcie. Se no existisse diferena entre os indivduos, qualquer estmulo capaz de eliminar um deles,
poderia eliminar tambm toda a populao. Assim, pode-se considerar a
variabilidade, como um dos estudos mais importantes da estatstica, bastando dizer que se no houvesse variabilidade entre os indivduos, bastaria
descrever um deles para que se tivesse um conhecimento de toda a populao (PINTO et al., 1981).
Dentre as medidas de variabilidade estudaremos:
a) Amplitude total;
b) Varincia;
c) Desvio padro;
d) Coeficiente de variao.

3.2 Amplitude total


Por definio, amplitude total a diferena entre o maior e o menor
valor observado. O seu clculo muito simples, o que uma vantagem. No
entanto, no uma boa medida de disperso, porque seu clculo se baseia
apenas nos valores extremos da amostra.
Exemplo 3.1 Suponhamos trs grupos de adultos, do sexo masculino, classificados segundo o peso (kg) como mostra o Quadro 3.1.
Quadro 3.1 - Grupos de adultos segundo o peso.

Grupo

Pesos (kg)

60

62

64

66

68

70

72

74

76

II

60

61

62

63

68

73

74

75

76

III

60

65

66

67

68

69

70

71

76

As amplitudes dos 3 grupos 16 kg, no entanto eles so diferentes, o


que torna essa medida limitada para descrever a variabilidade.

BIOESTATSTICA

43

3.3 Varincia
A varincia mede a disperso dos dados em torno da mdia. Seu clculo relativamente complexo, no entanto, como leva em conta todos os valores da varivel, um ndice de variabilidade bastante estvel e, portanto,
um dos mais empregados. expresso pela frmula:
n

s2 =

( x x)
i =1

n 1

importante destacar que a varincia tem pouca importncia como


estatstica descritiva, porm extremamente importante na inferncia estatstica, mas seu estudo mais aprofundado foge do escopo deste livro.
Exemplo 3.2 Encontre a varincia para o conjunto de dados a seguir:
Temperaturas (C) 34; 35; 36; 37; 38
Soluo:
Inicialmente calculamos a mdia
5

x=

x
i =1

34 + 35 + 36 + 37 + 38
= 36
5

De posse do valor mdio podemos construir a Tabela 4.1.


Tabela 3.1 Calculo dos desvios e quadrados dos desvios.

Desvios

Quadrados
dos desvios

( xi x)

( xi x)

34

-2

35

-1

36

37

38

Dados
(x i)

180

10

Logo,
S2 =

10
2,5
4

A partir de uma manipulao algbrica podemos expressar a varincia pela seguinte frmula alternativa

s2 =

44

x2

( x ) 2

n 1

BIOESTATSTICA

Vamos aproveitar os mesmos dados do Exemplo 3.2 para usar a nova


frmula (Tabela 3.2).
Tabela 3.2 Calculo da varincia.

Xi

(X i)2

34

1156

35

1225

36

1296

37

1369

38

1444

180

6490

Ento:

s2 =

(180) 2
5 2,5
4

6490

Esta ltima frmula alm de mais prtica mais precisa. Quando a


mdia no exata e tem que ser arredondada, cada desvio fica afetado ligeiramente do erro, devido a esse arredondamento.

3.4. Desvio padro


o prottipo das medidas de disperso. Sendo simbolizado pela primeira letra da palavra inglesa standard, que significa padro. Define-se
como a raiz quadrada da varincia. importante observar que tem a mesma unidade de medida dos dados.
Exemplo 3.3 Calcule o desvio padro para os valores de concentrao srica de protenas (em g/dL).
{6;8;10}
De incio temos n=3

x=

6 + 8 + 10
= 8 g / dL
3

Da podemos construir a Tabela 3.3.


Tabela 3.3 - Concentrao srica de protenas em g/dL.

Xi

(X i)2

6
8
10

36
64
100

24

BIOESTATSTICA

200

45

Logo:

s2 =

(24) 2
3 =2
2

200

Ento:
S=

2 1, 41g / dL

Exemplo 3.4 Calcule o valor do desvio padro para a distribuio de


frequncias da Tabela 3.4.
Tabela 3.4 Distribuio de freqncia.

Classe

Frequncia

2 | 4
4 | 6

5
6

6 | 8
8 | 10

10
4

10 | 12

30

Adota-se o seguinte dispositivo a semelhana do que clculo da mdia, para construo da Tabela 3.5.
Tabela 3.5 Calculo do desvio padro.

Classe
2
4
6
8

| 4
| 6
| 8
|10

10 |12

Ponto
mdio
(x)
3
5
7
9

Frequncia
(f)

fx

xx

f ( x x) 2

5
6
10
4

15
30
70
36

-4
-2
0
2

80
24
0
16

55

80

30

206

200

11

N= 30; x =
Temos

s2 =

206
7
30

200
s 2,6
30

3.5 Coeficiente de variao (C.V.)


Considere que foram feitas determinaes pondo-estaturais em um
conjunto de pacientes, obtendo-se os seguintes resultados (Quadro 3.2):

46

BIOESTATSTICA

Quadro 3.2 Determinaes pondo-estaturais em um conjunto de pacientes.

CONJUNTO DE PACIENTES
PESO (kg)

ALTURA (m)

Mdia: 58,0
Desvio padro: 4,5

Mdia: 1,65
Desvio padro: 0,08

Pergunta-se: Qual dos dois parmetros variou mais? O principiante


tende a responder: O peso, pois teve um desvio padro maior. Ora, de fato,
temos que:
4,5 > 0,08, mas invlida a comparao; pois no podemos comparar
grandezas de dimenses (ou unidades) heterogneas. Para contornar essa
situao o desvio padro substitudo pela medida adimensional COEFICIENTE DE VARIAO (C.V.) dado pela expresso:
C.V. =

s
x

No caso em estudo, temos

Peso: C.V. =

4,5kg
= 7, 7%
58, 0kg

Altura: C.V. =

0, 08m
4,8%
1, 65m

Logo, o peso variou mais, no porque teve um desvio padro maior,


mas sim maior C.V. Na experimentao biolgica, considera-se que h um
bom controle das variaes quando o C.V. no supera os 15%.
Segue-se, agora, a seguinte situao (Quadro 3.3):
Quadro 3.3 Mdia e desvio padro do quociente intelectual de crianas
desnutridas e bem nutridas.

QUOCIENTE INTELECTUAL (Q.I.)


CRIANAS DESNUTRIDAS

CRIANAS BEM NUTRIDAS

Mdia: 90
Desvio padro: 1,5
Joo: Q.I. = 94

Mdia: 104
Desvio padro: 4,0
Ricardo: Q.I. = 108

Em termos absolutos, qual a criana melhor situada? Ricardo claro,


pois 108 > 94.
Em termos relativos, ou seja, dentro da classe a qual pertence, qual
a criana melhor situada em termos de Q.I.? Somos tentados a responder que, em termos relativos, ambos esto igualmente situados, pois
94 90 = 108 104 = 4, ou seja, a diferena do Q.I. de cada criana para a
mdia do grupo a mesma. Mas, preciso lembrar que uma mesma diferena se destaca mais em um grupo homogneo (desvio padro menor) que em
um grupo heterogneo (desvio padro maior). Assim, para situaes como
essa, em que se deve realar o valor particular de uma varivel no contexto
da distribuio a qual pertence, utiliza-se a importante medida:
BIOESTATSTICA

47

Varivel reduzida: z =

xx
s

Para o nosso problema:

Joo: z =

Ricardo: z =

94 90
2, 7
1,5

108 104
= 1,0
4

Logo, como 2,7 > 1,0, Joo est melhor situado, em termos relativos.

Nesta unidade estudamos a construo de tabelas, com bastante nfase a as tabelas de distribuio de frequncias, pela sua grande importncia em estatstica. No captulo seguinte analisamos as medidas de tendncia
central (media, mediana e moda) destacando as suas principais vantagens
e restries. No captulo posterior foram estudadas as medidas de variabilidade amplitude total, varincia e desvio padro. Vimos que a varincia
e o desvio padro so medidas mais adequadas que a amplitude total e
por isso as mais utilizadas. Encerrando o ltimo captulo desta unidade,
analisamos uma importante medida de disperso relativa, o coeficiente de
variao, que nos d uma boa idia da homogeneidade, traduzindo-se em
maior confiabilidade experimental.

1. Organize os dados em uma tabela


Em Minas Gerais ocorreram 9 casos de tracoma, todos na zona
urbana. No cear ocorreram 3.633 casos de tracoma, todos na zona
urbana. No Paran ocorreram 1913 casos, sendo 1513 na zona
rural e os restantes na zona urbana. Em Pernambuco, ocorreram
3.016 casos, todos na zona urbana ( Fonte: Superintendncia de
campanhas de sade pblica).
2. Os dados seguintes so nveis sricos de ferro em adultos (mg/100
mL). Organize a distribuio de frequncia e calcule os tipos de
frequncia:
42
48
49
51
50

48

45
46
47
49
52

42
44
47
42
43

50
49
46
47
49

51
50
43
43
45

46
49
52
50
51

BIOESTATSTICA

3. Organize a distribuio de frequncia e calcule os tipos de frequncia


para dosagem de acar em mg % de sangue de 40 indivduos:
90 110 95 100

83

84

107

109

109 93 96 101

104

105

95

99

91 105 109 98

94

89

108

85

95 90

99 93

95

106

96

98

84 94

97 103

82

97

96

114

4. No seguinte conjunto de dados, so fornecidos os pesos (arredondados


em quilos) de crianas nascidas em certo intervalo de tempo:
1,8
3,6
4,5
4,1
3,2
2,7
a ) Construa

1,8
2,7
3,6
2,7
3,2
3,2
3,2
3,2
2,7
4,5
3,6
2,3
4,1
2,7
1,8
3,2
2,3
2,7
4,5
5,0
3,6
uma distribuio de freqncias desses pesos.

3,6
1,4
2,3

b ) Encontre as frequncias relativas.


c ) Encontre as frequncias acumuladas.
d ) Encontre as frequncias relativas acumuladas.
5. Os dados abaixo se referem ao tempo de incubao (em dia) para 70
casos de doena:
15
2
7
5
8
11
30
18
1
22

16
4
9
5
3
6
7
3
5
2

24
8
17
19
7
2
5
20
13
5

10
4
23
5
6
12
3
3
26
4

5
3
5
5
5
3
7
5
3
6

5
4
7
4
5
3
4
4
7
3

5
6
4
4
7
6
12
3
2
5

a) Organize os dados em um rol.


b) Determine o percentual de casos com perodo de incubao inferior a
10 dias.
c) Construa uma distribuio de freqncias e a partir dela determine o
percentual do item anterior ( b ).

BIOESTATSTICA

49

6. Considere a tabela 3.6.


Tabela 3.6 - Diagnstico de bipsias de mama, feitas entre 1963 e 1972,
inclusive, no hospital dos servidores do estado, RJ.

Diagnstico

Frequncia

Displasia

1.010

Tumor benigno

344

Tumor maligno
Inflamatrio

329
54

Diversos

288

Fonte: Piza et al. (1997) citado por Vieira (1988).

Calcule a percentagem de cada diagnstico e construa um grfico:


a) em colunas.
b) em setores.
7. Garcia (1977) citado por Vieira (1988) estudou uma amostra de 820
indivduos residentes em So Jos do Rio Preto, SP, com relao ao
sistema ABO. A autora verificou que, desses indivduos, 417 tinham
sangue tipo O, 292 sangue tipo A, 94 tinham sangue tipo B e 17 tinham sangue tipo AB.
a) Calcule as frequncias relativas.
b) Organize uma tabela que apresente os dados e as frequncias relativas.
c) Faa um grfico de setores.
8. Por que que prefervel utilizar as frequncias relativas, ao invs das absolutas, para descrever graficamente as distribuies de
frequncias?
9. Considere os seguintes dados sobre a distribuio de valores de
metabolismo basal (cal/dia) em 35 adolescentes.
910
1070
1190
1280
960
1080
1200

1280
980
1090
1210
1300
1000
1110

1220
1310
1010
1110
1240
1360
1020

1120
1240
1380
1040
1130
1260
1420

1040
1140
1270
1460
1070
1180
1270

Construa a Ogiva de Galton.

50

BIOESTATSTICA

A taxa de anormalidade

Define-se taxa de anormalidade, A, como o nmero relativo de casos
cujos valores se encontram fora de um intervalo de referncia (normalidade)
previamente definido.
Deste modo, para um conjunto X de n valores ordenados, (X={x1,x2,...,xn}
e x1 < x2 < ... < xn ), com os limites do intervalo de referncia definidos por
Li = x3 , Ls = xn -2 e n = 10, o valor de taxa de normalidade pode ser calculado.

A=

VA
n

Onde:
VA = nmero de valores fora do intervalo de normalidade
N = nmero total de valores do conjunto
E resulta igual a

A=

4
= 0, 4
10

O que significa que 40% dos valores do conjunto esto fora do padro
de normalidade. Evidentemente, o intervalo de variao de A est entre 0 e
1. Ainda, quanto mais prximo de 1 for o seu valor, maior ser a disperso
do conjunto e vice-versa. Todavia, entende-se que, se A=0, no existem valores anormais, embora a disperso possa existir (no ser nula).
Do ponto de vista conceitual, a taxa de anormalidade difere das outras
medidas de disperso porque seu clculo se baseia na ordem dos elementos
de um conjunto e no no seu valor (como no caso do desvio padro). Desta
forma, a taxa de anormalidade uma medida de variabilidade ordinal. A
Taxa de Anormalidade apresenta algumas vantagens e algumas desvantagens quando comparada com outras medidas de variabilidade, conforme
resumido a seguir.
Restries:
a) O intervalo que define o valor de referncia pode no existir
b) O intervalo nem sempre define um mesmo percentual da populao
como normal
c) Podem existir, para uma mesma varivel, distintas opinies de normalidade, dependendo do local ou da poca. Deste modo, a taxa de
anormalidade, enquanto medida de variabilidade, est restrita ao
tempo e ao local de onde os dados foram coletados.
d) Ao se tentar construir uma medida de variabilidade, imagina-se
que, se o resultado desta medida for igual a zero, deveria indicar,
naturalmente, que a disperso nula e, portanto, no existe. EnBIOESTATSTICA

51

tretanto, no caso da Taxa de Anormalidade, A=0, no significa necessariamente ausncia de disperso, ou concentrao total dos
dados, e sim que no existem valores considerados anormais no
conjunto. Esta diferena de definio da Taxa de Anormalidade
deve ser sempre levada em conta para se evitarem erros de conceito.
Vantagens:
a) A visualizao do significado de A imediato e muito forte
b) A informao que carrega, por si s, muito significativa e autoexplicativa.
c) O processo de clculo simples e rpido.
d) A disperso medida por A no afetada por valores exorbitantes,
pois trabalha com nmero de casos e no o valor desses casos. Desta forma, constitui um indicador de base ordinal.
(Extrado de ARANGO,2005)

ARANGO, H. G. Bioestatstica: terica e computacional. Rio de Janeiro:


Guanabara Koogan, 2005. 423 p.
BEIGUELMAN, B. Curso Prtico de Bioestatstica. Ribeiro Preto: Sociedade Brasileira de Gentica, 1988. x 156 p.
CALLEGARI-JACQUES, S. M. Bioestatstica: princpios e aplicaes. Porto
Alegre: ARTMED, 2003. 255 p.
DIAZ, F. R.; LPEZ, F. J. B. Bioestatstica. So Paulo: Thomson, 2007. 284 p.
IEZZI, G.; DOLCE, O.; DEGENSZAJN, D. et al. Matemtica: cincia e aplicaes. So Paulo: Atual Editora, 2006. v. 3, 95 p.
OLIVEIRA, E. G.; MOREIRA, O. C. Guia para o ensino introdutrio da
estatstica nos cursos da rea de sade. Fortaleza: UECE, 1987.149 p.
PAGANO, M.; GAUVREAU, K. Princpios de bioestatstica. So Paulo:
Thomson, 2004. 506 p.
PINTO, D.; BRANDO, L. L.; NOGUEIRA, M. L. G.; COELHO, M. I. M.
Estatstica para a rea de cincias biolgicas. Belo Horizonte: Universidade Federal de Minas gerais ICEX, 1981.70 p.
VIEIRA, S. Introduo bioestatstica. Rio de Janeiro: Editora Campus,
1988. 294 p.

52

BIOESTATSTICA

Unidade

Noes de
Probabilidade
Objetivos:






Conceituar evento e espao amostral de um experimento.


Calcular probabilidades em espaos equiprovveis e finitos.
Calcular a probabilidade da unio de dois eventos.
Calcular probabilidade condicional e probabilidade de dois eventos simultneos.
Reconhecer a independncia de dois eventos.
Calcular probabilidades usando as distribuies binomial, normal e Poisson.
Estimar as mdias e as varincias desses modelos.

Captulo 1
Probabilidade conceitos fundamentais

1.1. Conceito de probabilidade


H certos fenmenos (ou experimentos) que, embora sejam repetidos
muitas vezes e sob condies idnticas no apresentam o mesmo resultado.
Por exemplo, no lanamento de uma moeda perfeita, o resultado imprevisvel; No se pode determin-lo antes de ser realizado. No sabemos se
sair cara ou coroa. Aos fenmenos (ou experimentos) desse tipo damos
o nome de fenmenos aleatrios ou casuais (veja tambm captulo 01).
So exemplos de fenmenos aleatrios:
a) Lanamento de um dado;
b) Resultado de um jogo de roleta;
c) Nmero de pessoas que ganharo na loto.
Pelo fato de no sabermos o resultado exato de um fenmeno aleatrio
que buscamos os resultados provveis, as chances, as probabilidades de
um determinado resultado ocorrer. A teoria das probabilidades um ramo
da matemtica que cria, elabora e pesquisa modelos para estudar experimentos ou fenmenos aleatrios.

1.2. Espao amostral e evento


Em um experimento aleatrio, o conjunto formado por todos os resul-

tados possveis chama-se Espao amostral (E). Evento qualquer subconjunto do espao amostral.
Exemplo 5.1 Lanamento de um dado e registro do resultado
Espao amostral: E = {1,2,3,4,5,6}
Evento ocorrer nmero mpar: A = {1,3,5}

1.2.1 Operaes sobre conjuntos


Os eventos, sendo conjuntos, destes compartilham as mesmas operaes, das quais descreveremos as bsicas:
a) Unio (A B) significa ocorrncia de A ou de B. Lembre-se de que o
conectivo ou significa: uma coisa ou outra, ou ambas ao mesmo tempo.
b) Interseo (A B) significa ocorrncia de A e tambm de B
c) Complemento (Ac) significa a no ocorrncia de A

BIOESTATSTICA

55

Ateno!
Sendo E o espao amostral temos:
i) A Ac = E
ii) A Ac =

Exemplo 5.2 No lanamento de um dado, considere o evento A formado pelos resultados menores do que 3. O complementar de A (Ac) formado por todos os resultados maiores ou iguais a 3. Isto :
A = { 1,2}
Ac = {3,4,5,6}

1.3 Probabilidade: definio e propriedades


1.3.1 Definio
Seja E um espao amostral finito e no vazio, e seja A um evento deste
n( A)
espao. Chama-se probabilidade de A m e indica-se por P(A), o nmero n( E ) ,
onde n(A) e n(E) indicam os nmeros de elementos de A e E respectivamente. Isto :
P(A) =

n( A)
n( E )

Exemplo 1.3 Um casal normal para o albinismo tem um filho albino. Qual a probabilidade do prximo filho tambm ser albino?
Se o casal normal, mas j teve um filho albino, isto indicao
segura de que so heterozigotos em relao a esse carter; logo, o espao
amostral (G) dos gentipos dos descendentes dado pelo cruzamento:
Aa X Aa G = {(AA), (Aa),(aA),(aa)} e n(G) = 4
O evento correspondente a filho albino constitudo pelo gentipo aa,
ou seja :
A = {(aa)} n(A) = 1
Ento P(A) =

n( A) 1
=
n(G ) 4

1.3.2 Propriedades
Sendo E um espao amostral finito e no vazio e sendo A um evento
de E, tem-se que:
I ) P( ) = 0
II ) P(E) = 1
III ) 0 P(A) 1
IV) P(A) + P(Ac) = 1
De fato:

56

BIOESTATSTICA

I.

n()
0
=
=0
n( E ) n( E )

II . P(E) =

n( E )
=1
n( E )

III . Sendo A um evento de E, isto :


A E, temos que:
A E n (A) n(E)

0 n(A) n(E)
Dividindo cada membro dessa igualdade por n(E),

0
n( A)
n( E )

n( E )
n( E )
n( E )

0 P(A) 1

IV. J sabemos que A Ac = E e A Ac =


contagem temos:

. Do princpio aditivo da

n (A Ac) = n (A) + n (Ac ) n (A Ac ) n ( E ) = n ( A ) + n ( Ac )


Dividindo por n(E) ambos os membros dessa igualdade, temos que:

nE ) n( A) n( Ac )
=
+
n( E )
n( E ) n( E )

P(A) + P(Ac) = 1

Exemplo 1.4 Uma urna contm exatamente 10 etiquetas, numeradas de 1 a 10. Retira-se uma etiqueta da urna. Qual a probabilidade de se
obter:
a) Um nmero maior que 10?
b) Um nmero menor que 11?
O espao amostral do experimento E = {1,2,3,...,10}.
a) O evento que queremos A = {x E / x > 10} =
impossvel. Portanto, P(A) =0.

; logo, A evento

b) O evento que queremos B = {x E / x < 11} = E ; logo, B evento


certo, pois B = E. Portanto P(B) = 1

1.4 Adio de probabilidades


Teorema: Seja E um espao amostral finito e no vazio. Para quaisquer eventos A e B de E, tem-se que P(A B) = P (A) + P(B ) P(A B ).
Prova:
Pelo princpio aditivo da contagem n(A B) = n (A) + n(B ) n(A B )
Dividindo por n (E) ambos os membros da igualdade, obtemos:

n( A B) n( A) n( B) n( A B)
=
+

P(A B) = P (A) + P(B ) P(A B )


n( E )
n( E ) n( E )
n( E )
Se A B = , ou seja, se impossvel a ocorrncia simultnea dos dois
eventos, o teorema simplificado a
P(A B) = P (A) + P(B )
BIOESTATSTICA

57

Eventos mutuamente exclusivos so aqueles tais que a ocorrncia de


um exclui, automaticamente, a ocorrncia de qualquer outro. Podemos generalizar o teorema da adio para n eventos mutuamente exclusivos:
P(A B C ... N) = P(A) + P(B) + P(C) + ... + P(N).
Exemplo 1.5 Num cruzamento Aa X Aa, sabemos que as combinaes AA, Aa e aa so igualmente provveis, cada uma com probabilidade .
Sabemos tambm que Aa e aA no podem ser distinguidas biologicamente.
Qual a probabilidade de ocorrer Aa ou aA?
Soluo:
P(Aa) = P(aA) =

1
4

Aa e aA so mutuamente exclusivos, ento P(Aa ou aA) = 0, logo:


P(Aa ou aA) = P(Aa aA) =

1 1 1
+ =
4 4 2

Exemplo 1.6 Numa populao humana a probabilidade de ser mudo


estimada em 0,005, a probabilidade de ser cego 0,0085 e a probabilidade
de ser mudo e cego 0,0006. Qual a probabilidade de que um indivduo,
tomado ao acaso, seja mudo ou cego?
Soluo:
Neste caso, ser mudo no exclui a probabilidade de ser cego, portanto os eventos no so mutuamente exclusivos. Logo:
P(ser mudo ou ser cego) = P(A ou B) = P(A) + P(B) P(A B)
= 0,0050 + 0,0085 0,0006
= 0,0129

1.5 Probabilidade condicional


Chama-se probabilidade condicional de um evento B a probabilidade
desse evento ocorrer considerando-se que j ocorreu um evento A. Indica-se
por P(B/A) e l-se: probabilidade de B dado A.
Exemplo 1.7 Considere como espao amostral o conjunto de diagnsticos num hospital; e sejam os eventos: A diabetes e B hipertenso. O
smbolo P(A/B) significa a probabilidade de um paciente ter diabetes, dado
que hipertenso; da mesma forma P(B/A) representa a probabilidade de um
indivduo ser hipertenso dado que diabtico. Ateno para que, em geral:
P(A/B) P(B/A)
Vamos analisar um problema genrico que nos permita chegar a uma
expresso para calcular essa probabilidade: o espao amostral E de um experimento aleatrio finito e no vazio. A e B so eventos de E, com A
. Ao realizar-se o experimento, ocorre o evento A. Qual a probabilidade de
ter ocorrido tambm o evento B?

58

BIOESTATSTICA

Devemos calcular P(B/A). Como sabemos que ocorreu o evento A, o


espao amostral fica reduzido a esse evento. O evento B, por sua vez, s
poder ocorrer na interseo de A e B. Assim, temos que:
P(B/A) =

n( A B )
n( A)

Observe que, se A e B forem mutuamente exclusivos, ento P(B/A) = 0


Exemplo 1.8 Joo e sua esposa Maria tem pigmentao normal.
Joo filho de um homem normal e mulher albina; Maria filha de uma
mulher normal e pai albino. Qual a probabilidade de nascer uma criana
heterozigota dada que normal?
Soluo:
Pelo enunciado podemos escrever:
P: Joo X
Maria
(Aa)
(Aa)
F1: AA
Aa
Aa
aa
Como j sabemos que a criana normal o espao amostral (F) fica
reduzido a {(AA), (Aa), (Aa)} onde n(F) = 3, ento a probabilidade pedida
2/3.
VAMOS RESOLVER AGORA USANDO A FRMULA
Evento A: ser heterozigoto A = {(Aa),(Aa)}
Evenro B: ser normal

n( A B ) 2
P(A/B) =
=
n( B )
3

B = {(AA),(Aa),(Aa)}

n (B) = 3

1.6 Teorema da multiplicao


Seja E um espao finito e no vazio. Sejam A e B eventos de E.
Vimos que P(B/A) =

que:

n( A B )
n( A)

Dividendo o numerador e o denominador desta frao por n(E), temos

n( A B )
P( A B)
n( E )
=
P(B/A) =
n( A)
P( A)
n( E )
Finalmente:
P(A B ) = P(A) . P(B/A).

BIOESTATSTICA

59

Se tivermos 2 eventos A e B, tais que P(B/A) = P(B), dizemos que A e B


so independentes e o teorema da multiplicao se reduz A:
P(A B ) = P(A).P(B)
Exemplo 1.9 - Se a desnutrio independente da hidrocefalia, sendo
que a prevalncia da primeira 5 por mil, em certa comunidade, enquanto
a segunda ocorre com frequncia 1 por mil, qual a probabilidade de haver
concomitncia desses dois eventos?
Soluo:
P(Desnutrio Hidrocefalia) = P(Desn.).P(Hidroc.)
=

60

5
1
5
=
= 5 por milho
1000 1000 1000000

BIOESTATSTICA

Captulo 2
Modelos probabilsticos em biologia

2.1 Modelos probabilsticos


O clculo de probabilidades a priori atravs da frmula da definio
desse ente matemtico, tal como foi apresentado no captulo 5, oferece dificuldades que se tornam maiores medida que os eventos se referem a situaes mais complexas. Um modelo probabilstico uma expresso matemtica, aplicvel a muitas situaes, desde que se respeitem certas premissas;
assim, torna possvel o clculo de uma probabilidade atravs de simples
aplicaes de frmulas ou, da leitura de uma tabela. Neste captulo veremos
alguns modelos que oferecem maior chance de aplicao em problemas da
rea biomdica.

2.2 Modelo (distribuio) binomial


Consideremos um experimento que consiste em uma sequncia de ensaios ou tentativas independentes, isto , ensaios nos quais a probabilidade de
um resultado em cada ensaio no depende dos resultados ocorridos nos ensaios
anteriores, nem dos resultados dos ensaios posteriores. Em cada ensaio, podem
ocorrer apenas dois resultados, um deles chamado sucesso(S) e outro chamado
fracasso(F). A probabilidade de ocorrer sucesso em cada ensaio sempre p, e
consequentemente, a de fracasso q = p -1. Tal tipo de experimento recebe o
nome de ensaios de BERNOULLI, em homenagem a James Bernoulli, ilustre
matemtico de sculo XVII (HAZZAN, 1993).
Exemplo 2.1 A seguir citamos alguns exemplos de ensaios de
Bernoulli.
(1) Uma moeda lanada 5 vezes. Cada lanamento um ensaio, em que
dois resultados podem ocorrer: cara ou coroa. Sendo sucesso o resultado cara e fracasso o resultado coroa temos p= 1 e q = 1 .
2

(2) Uma urna contm 3 bolas vermelhas e 5 brancas. Uma bola extrada,
observada sua cor e reposta na urna; este procedimento repetido 6
vezes. Cada extrao um ensaio, em que h dois resultados possveis:
bola vermelha ou bola branca. Neste caso, chamando o sucesso de bola
3
5
vermelha temos p =
eq=
8
8
Em suma, as premissas do modelo binomial so:
a) Situao envolvendo um nmero finito de tentativas;
b) Os resultados das diversas tentativas so independentes, de tal modo
que a probabilidade de certo resultado seja a mesma em cada tentativa;
c) Cada tentativa admite s dois resultados, mutuamente exclusivos,
tecnicamente chamados: sucesso e fracasso.
BIOESTATSTICA

61

2.2.2. Expresso matemtica do modelo binomial


Consideremos uma sequncia de n ensaios de Bernoulli. Seja p a probabilidade de sucesso em cada ensaio e q a probabilidade de fracasso. Este
modelo fornece, diretamente, a probabilidade de exatamente k sucessos
dentre as n tentativas. Sendo matematicamente expresso por:

P(k) = p q
k

nk

Onde:
n = nmero de tentativas independentes
k = nmero de sucessos dentre as n tentativas
p = probabilidade de sucesso em cada tentativa
q = 1 p, probabilidade de fracasso em cada tentativa
O problema de obter k sucessos em n ensaios de Bernoulli pode ser
encarado como um problema cujo espao amostral E = {0,1,2,...,n}, isto ,
cada elemento de E o nmero de sucessos em n ensaios de Bernoulli e a
distribuio de probabilidade dada por

P(k) = p q
k

nk

Tal distribuio chamada binomial, pois cada probabilidade P(k)


calculada pelo termo geral do binmio de Newton (p + q)n.
Exemplo 2.2 Numa cidade, 10% das pessoas possuem o fator Rh+.
Se 30 pessoas so selecionadas ao acaso, com reposio, qual a probabilidade de exatamente 5 pessoas possurem fator Rh+?
Soluo:
Em cada escolha de uma pessoa, consideremos os resultados:
Sucesso: a pessoa tem fator Rh+
Fracasso: a pessoa no tem fator Rh+
Ento: p = 0,1; q = 0,9; n = 30
Estamos interessados em P(5). Temos:

30
5
25
(0,1) (0,9) 0,102
5

Exemplo 2.3 Postula-se que certa dieta reduz a colesterolemia em
75% dos casos. Aplicada a uma amostra aleatria de 5 indivduos, qual a
probabilidade de exatamente 3 sucessos?
Soluo
Em cada escolha de um indivduo, consideremos os resultados:
Sucesso: a dieta reduz o colesterol em 75%
Fracasso: a dieta no reduz o colesterol em 75%
Ento p = 0,75; q = 0,25 ; n = 5

62

BIOESTATSTICA

Estamos interessados em P(3)

5
3
53
(0, 75) (0, 25) = 10.0, 42.0, 0625 = 0, 2625
3

Isto , em cerca de 26,25% de amostras de 5 indivduos, ocorrero 3
sucessos.
Exemplo 2.4 As crianas com anemia de Cooley so, quase sempre,
filhos de casais assintomticos que correm risco de 25% de gerar outra
criana com essa anemia. Os casais com tais riscos podem ser diagnosticados por intermdio de exames laboratoriais relativamente simples. Entre
tais casais com cinco filhos qual o percentual esperado daqueles com anemia de Cooley manifestada em:
a) Um filho?
b) Trs filhos?
c) Todos os filhos?
Soluo:
Consideremos os seguintes resultados:
Sucesso: No ter anemia
Fracasso: ter anemia
Ento p = 0,75; q = 0,25; n =5

5
1

a) P(1) = (0, 75) 4 (0, 25) = 0,3955 = 39,55%

5
2
3
(0, 75) (0, 25) 0, 0879 = 8, 78%
2

b) P(3) =

1
4

c) ( ) = 0,001 = 0,1%

2.2.2. Mdia e varincia da distribuio binomial


A matemtica necessria para calcular os valores da mdia e da varincia da distribuio binomial vai alm dos propsitos desse livro, de modo
que vamos aceitar, sem demonstrao, que a mdia tal distribuio, que
representaremos por (l-se mi) dada por:
= np
enquanto que a varincia, que representaremos por
ao quadrado) dada por:

2 (l-se sigma

2 = npq
1

Exemplo 2.5 No nascimento de uma criana temos p = q = 2 , sendo


p a probabilidade de nascer menino e q a probabilidade de nascer menina.
1
Assim no nascimento de 10 nasciturnos temos: = 10 . = 5, de modo que
2
em 10 nascimentos espera-se que existam 5 nasciturnos do sexo masculino.

BIOESTATSTICA

63

Por outro lado, a varincia ser dada por:

2 = 10 .

1 1
.
= 2,5
2 2

Exemplo 2.6 A probabilidade1 de um casal do grupo sanguneo AB


gerar uma criana do sanguneo A . Em uma amostra de 240 indivduos
4
que so filhos de casais constitudos por marido e mulher do grupo sanguneo AB, qual o nmero esperado daqueles com grupo sanguneo A e o
desvio padro?
Soluo:
= np = 240 .

1
= 60
4
1 3
= 6, 71
4 4

= npq = 240 x x

Exemplo 6.7 Ao reunir dados da literatura a respeito de uma anomalia hereditria verificou-se que, dentre 221 indivduos, filhos de pai ou
me com a referida anomalia, 114 eram normais (65 do sexo masculino e 49
do sexo feminino) e 107 apresentavam a mesma anomalia de um dos seus
genitores (58 do sexo masculino e 49 do sexo feminino) Na hiptese de que a
razo entre normais e anmalos entre os indivduos analisados 1:1 calcular o nmero esperado de anmalos, bem o desvio padro, em relao aos:
a) Indivduos do sexo masculino
b) Indivduos do sexo feminino
c) Conjunto dos 221 indivduos
Soluo:
Filhos

Masculino (M)

Feminino (F)

M+F

Normais

65

49

114

Anmalos

58

49

107

Total

123

98

221

a) = 123 x 0,5 = 61,5

= 123x0,5 x0,5 = 5,5


b) = 98x0,5 =49

= 98 x0,5 x0,5 = 4,95


c) = 221x 0,5 = 110,5

= 221x0,5 x0,5 = 7, 43

64

BIOESTATSTICA

2.3 Distribuio de Poisson


A distribuio de Poisson pode ser considerada como um caso particular de distribuio binomial, na qual a probabilidade da ocorrncia de um
acontecimento muito pequena. Entretanto, diferentemente da distribuio
binomial, que definida por dois parmetros (mdia e desvio padro), a
distribuio de Poisson definida por um nico parmetro a mdia j
que, nela, a varincia idntica a mdia. Isto , pode-se demonstrar que se
p um valor muito pequeno e n tende a infinito, a distribuio binomial se
aproxima de uma distribuio de Poisson (ver exemplo 6.8, segundo VIEIRA, 1988).
Como foi dito a mdia e a varincia da distribuio de Poisson, que
indicamos por (l-se lambda), tem o mesmo valor e nos casos em que
usada para aproximar a binomial, seu valor dado pela expresso:

= np
O modelo matemtico de Poisson dado pela expresso:
P(k) =

k e
k!

Onde:
k = nmero de sucessos
e = base do logaritmo natural

= constante do modelo para cada caso particular


Exemplo 2.8 Suponha que a probabilidade de um indivduo acusar reao de hipersensibilidade positiva a determinado tipo de droga p=
0,0012. Considerando uma populao de 3.000 indivduos, qual a probabilidade de que exatamente 3 acusem a reao de hipersensibilidade positiva a essa droga ?
Soluo:
Sejam
p = probabilidade de acusar hipersensibilidade
q = probabilidade de no acusar hipersensibilidade
n = 3.000
Ento, pelo modelo binomial:

3.000
(0,0012)3 (0,9988) 2.997

P(3) =
3

= 4.495.501.000 x 0,000000001728 x 0,027363108


0,2126
Como p muito pequeno podemos admitir que a reao de hipersensibilidade uma distribuio binomial que se aproxima de uma distribuio de
Poisson.Ento, refazendo os clculos, aps essas consideraes, temos:

= np = 3.000 x 0,0012 = 3,6


BIOESTATSTICA

65

Ento:
P(3) =

3, 63 e 3,6 0, 027324 x 46, 656


=
0, 2125
3!
6

Ou seja, praticamente o mesmo valor obtido com a distribuio binomial.

2.4 Distribuio normal


Os modelos apresentados nos itens anteriores referem-se a variveis
discretas. Para o caso de variveis contnuas, assume grande importncia
a distribuio normal, ou distribuio de Gauss. Antes de estudar referido
modelo, vale ressaltar que, para variveis contnuas:
a) A probabilidade de um valor singular zero.
b) S h sentido em determinar probabilidade de intervalos.
Graficamente, trata-se de uma curva simtrica, centrada na mdia,
assinttica bilateralmente ao eixo das abscissas, tomando a clssica forma
de um sino (Figura 2.1).

Figura 2.1 Curva de distribuio normal.

A probabilidade da varivel assumir valores no intervalo [X1; X 2], isto


, p(x1 x x2) corresponde a rea sob a curva limitada por X1 e por X 2
(Figura 2.2).

Figura 2.2 Representao da probabilidade da varivel assumir valores


no intervalo [X1; X2].

66

BIOESTATSTICA

Evidentemente, a rea total sob a curva 1, ou 100%. Os valores dessas reas podem ser obtidos por integrao, mas na prtica so facilmente
calculados, atravs de uma tabela, a qual fornece diretamente a rea entre
a mdia e um dado valor da varivel.
Assim, vamos aceitar sem demonstrao que, se X uma varivel
aleatria com distribuio normal de mdia e desvio padro , ento a
varivel
Z=

tem distribuio normal reduzida, isto , tem distribuio normal de


mdia zero e desvio padro 1, conforme mostra a Figura 6.3 (VIEIRA, 1988).
Esses valores no precisam ser calculados, sendo encontrados em tabelas,
como na Tabela 2A em anexo.

i) P ( < X < x )

Figura 2.3 Distribuio normal reduzida.

ii) P (0 < Z < z )


Exemplo 2.9 Consultando a Tabela 2A em anexo, determine:
a) p(0 z 1,96)
b) p(0 z 2,56)
c) p(-1,44 z 0)
BIOESTATSTICA

67

d) p(1,44 z 1,96)
e) p( z -1,96)
f) p( z 1,96)
Soluo:
A tabela vai nos fornecer diretamente esses valores: na primeira coluna voc procura os dois primeiros dgitos e na linha z o ltimo.
a) p(0 z 1,96)= 0,4750 = 47,50
b) p(0 z 2,56) = 0,4949
c) p(-1,44 z 0) = 0,4251
d) p(1,44 z 1,96) = p( 0 z 1,96) - p (0 z 1,44) = 0,4750 0,4251= 0,0499
e) p(z -1,96) = 0,5 0,4758 = 0,0242
f) p( z 1,96) = 2 ( 0,5 04758) = 0,0484
Para os casos (a) e (b) as reas so mostradas na Figura 6.4, e as reas dos demais casos ficam a cargo do leitor.

Figura 2.4 reas de (a) p(0

z 1,96) e (b) p(0 z 2,56).

Exemplo 2.10. Pesos de baos na forma hepatoesplnica da esquistosomose se distribuem, normalmente, com mdia 250 g e desvio padro, 15 g.
Determine a probabilidade de um peso no intervalo 256 g e 280 g.
Soluo:
Temos:
Z=

Z1 =

256 250
= 0, 4
15

Z 2=

280 250
= 2, 0
15

Assim, devemos encontrar p(0,4 p 2,0).


P = p(0 z 2,0) p(0 z 0,4) p = 0,4772 0,1554
p = 0,32,18 = 32,18%.

68

BIOESTATSTICA

Nesta unidade foram abordados conceitos elementares sobre probabilidade em espaos amostrais finitos. Inicialmente foram definidos alguns
dos principais termos como espao amostral e evento e, a partir deles construiu-se a definio de probabilidade. A seguir foram enunciadas e justificadas as propriedades das probabilidades, ficando demonstrado que a probabilidade assume valores compreendidos entre 0 e 1, inclusive. Fechamos
o captulo 5, com um conceito muito importante probabilidade condicional. No captulo 6, foram apresentados os principais modelos probabilsticos (distribuio de probabilidade) binomial, Poisson e normal; que so de
inestimvel valor prtico. Todos os tpicos desenvolvidos foram permeados
por inmeros exemplos na rea biolgica, particularmente gentica.

1. Descreva o espao amostral correspondente ao lanamento de dois


dados honestos e determine seu tamanho, ou seja, o nmero de elementos n (E).
2. No espao da atividade 1, descreva o evento M correspondente soma
das faces ser maior que 10 e determine n (M).
3. Um homem heterozigtico, do grupo sanguneo A, casa-se com uma
mulher homozigtica do grupo sanguneo B. Descreva o espao amostral F dos fentipos dos descendentes e determine seu tamanho. Faa
o mesmo com o espao amostral G dos gentipos.
4. No autocruzamento AaBbCc x AaBbCc, descreva o tamanho de cada
um dos espaos amostrais:
a) Gentipos dos descendentes
b) Fentipos dos descendentes
c) Gametas dos descendentes
5. Na atividade 4, descreva e determine o espao E caracterizado (no espao amostral dos gametas) pela ocorrncia de gametas que apresentam apenas genes dominantes.
6. Considere o espao amostral dos pacientes em determinado dia, num
hospital-escola, e os eventos:
A: ocorrncia de hepatite
B: ocorrncia de ictercia

BIOESTATSTICA

69

Descreva os seguintes eventos:


a) Ac
b) Bb
c) A B
d) A B
e) (A B)c
f) (A B)c
g)Ac Bc
h) A Ac
i) B Bc
7. A queratose devida a um gene dominante Q. Uma mulher com queratose, cujo pai era normal, casa-se com um homem com queratose,
cuja me era normal. Determine a probabilidade de ser gerado um
filho com a referida doena.
8. Sabe-se que o feocromacitoma (F) e a neurofibromatose (N) so neoplasias de clulas de um sistema comum. Se a ocorrncia de F de 1
para 2.000 , enquanto a de N de 1 para 1.500, qual a frequncia
teoricamente esperada da ocorrncia simultnea das enfermidades ,
sob a hiptese (no correta) de que sejam condies independentes?
9. A miopia recessiva na espcie humana.
a) Qual a probabilidade de nascer uma criana mope de um casal
normal, heterozigoto para essa caracterstica?
b) Sabendo que a cor dos olhos azuis tambm recessiva, qual a
probabilidade de o mesmo casal anterior ter filhos de olhos azuis e
mopes, sendo ambos de olhos castanhos, heterozigotos?
10. Uma pesquisa sobre os grupos sanguneos do sistema ABO, na qual
foram testadas 6.000 pessoas de uma mesma raa, revelou que 2527
tem o antgeno A, 2234 o antgeno B e 1846 no tem nenhum antgeno. Nestas condies, qual a probabilidade de que uma dessas pessoas, escolhidas aleatoriamente, tenha os dois antgenos?
11. Se a probabilidade de um indivduo ter sangue Rh- de 10%, qual a
probabilidade de 5 indivduos que se apresentam para exame do tipo
de sangue terem todos Rh-?
12. Um casal planeja ter 5 filhos. Admitindo que sejam igualmente provveis os resultados: filho do sexo masculino e filho do sexo feminino,
qual a probabilidade de o casal ter:
a) 5 filhos do sexo masculino?
b) Exatamente 3 filhos do sexo masculino?
c) No mximo um filho do sexo masculino?
d) O 5 filho do sexo masculino, dado que os outros quatro so do sexo
feminino?

70

BIOESTATSTICA

13. Se p(z z1 ) = 0,9750, determine z1.


14. Em uma maternidade nascem, em mdia, 20 crianas por dia. Considerando que a probabilidade de nascer um menino , praticamente,
igual a de nascer uma menina, qual a probabilidade de ,em um determinado dia:
a) Todos os recm-nascidos serem meninos?
b) Todos os recm-nascidos serem meninas?
c) 10 recm-nascidos serem meninos e 10 recm-nascidos serem meninas?
d) Nasceram alternadamente um menino e uma menina?
e) 11 recm-nascidos serem meninos e 9 serem meninas?
15. Sabe-se que 5% de uma determinada vacina produzida pelo laboratrio X ficam inativadas entre o segundo e o terceiro ms de armazenamento, enquanto que, no mesmo perodo, 1% da mesma vacina armazenada fica inativada quando produzida pelo laboratrio Y. Dentre
os frascos dessa vacina que esto armazenados em uma cmara fria
h 70 dias, 70% so procedentes do laboratrio X e 30% do laboratrio
Y. Qual a probabilidade (em porcentagem) de que um frasco de vacina
retirado ao acaso dessa cmara fria esteja inativado?
16. Se 10% de uma vacina de um determinado laboratrio ficarem inativadas entre o segundo e o terceiro ano de armazenamento, qual ser
a probabilidade de, em uma amostra de 10 vacinas armazenadas h
dois anos e meio, encontrarmos:
a) Uma inativada?
b) Trs inativadas?
17. Suponhamos que a presso sangunea sistlica normal em indivduos com idade entre 15 e 25 anos uma varivel aleatria com distribuio aproximadamente normal de mdia =120mmHg e desvio
padro = 8mmHg. Nestas condies, calcule a probabilidade de um
indivduo dessa faixa etria com presso sistlica normal apresentar
presso:
a) Entre 110 e 130mmHg?
b) Maior do que 130mmHg?
18. Suponhamos que a taxa normal de glicose no sangue humano
uma varivel aleatria com distribuio normal de mdia = 100mg/
dL de sangue e desvio padro =6mg/dL de sangue. Calcule a probabilidade de um indivduo, com taxa normal de glicose, apresentar,
apresentar taxa:
a) Entre 90 e 100mg/dL de sangue?
b) Superior a 110mg/dL de sangue?

BIOESTATSTICA

71

Probabilidade: um pouco de histria

Os jogos de azar so usados pelo homem desde a antiguidade e constituem modelos de situaes comandadas pelo acaso. No de admirar,
portanto, que estejam associados aos primeiros interesses por uma anlise
matemtica da questo da incerteza. Embora alguns problemas especficos
j tivessem sido resolvidos antes dessa poca, as bases da teoria da probabilidade surgiram somente na metade do sculo XVII, em uma troca de
cartas entre dois ilustres matemticos franceses, Blaise Pascal (1623-1662)
e Pierre de Fermat (1601-1665), iniciada em 1654.
Esta correspondncia envolvia o problema de como dividir o prmio
de um jogo envolvendo vrias partidas se, por alguma razo, o jogo fosse
interrompido antes que algum jogador tivesse vencido o nmero de partidas
combinado previamente. O problema, que no era novo, foi apresentado a
Pascal por Antoine Gombaud, o Chevakier de Mer, homem de letras e membro da corte de Luis XIV. Pascal e Fermat apresentaram solues diferentes
para o problema, sendo que o primeiro buscou a resposta usando os valores
esperados de duas aes alternativas enquanto Fermat centrou a soluo
no clculo de probabilidades de um evento. Nenhum dos dois, no entanto,
publicou imediatamente seu resultado.
De Mer avaliou, depois, que o estudo matemtico das probabilidades
no era coisa que deveria ser pesquisada a fundo, e afirmou que o tempo
gasto nesse estudo poderia ser mais bem-empregado, opinio que felizmente no foi compartilhada por vrios matemticos da poca. Em 1655,
esteve na Frana o astrnomo, fsico e matemtico holands Christian Huygens (1629-1695), que tomou conhecimento do problema da diviso do prmio, e no sabendo da soluo dos franceses, dedicou-se a buscar tambm uma resposta. A soluo de Huygens acabou sendo publicada primeiro
(1657) que as de Pascal e Fermat (1679), naquele que seria o primeiro livro
a tratar do clculo de probabilidades.
O interesse pelo assunto comeou a crescer entre os matemticos.
Jacques Bernoulli (1654-1705), entre outras contribuies, enunciou e demonstrou a Lei dos grandes nmeros: Se n for suficientemente grande, a
diferena entre a frequncia relativa de um evento e a sua probabilidade
verdadeira um nmero desprezvel, importante teorema que uniu o conceito abstrato da probabilidade com a realidade com a realidade expressa
pelos nmeros. Pierre-Simon de Laplace (1749-1827), matemtico, fsico e
astrnomo francs, embora talvez mais conhecido pelas suas descobertas
em mecnica celeste, tambm tem uma participao importante no mbito
da teoria de probabilidades. Entre outras descobertas e proposies, Laplace notou que a distribuio binomial aproxima-se de uma normal quando
n cresce, desenvolveu diversos mtodos a serem usados em demografia,
entre eles um modo de construir tabelas de mortalidade, e verificou que na
Frana nasciam mais homens do que mulheres, na razo 25/24, aproximadamente. Laplace costumava dizer que a teoria de probabilidades nada
mais do que o bom senso transformado em clculo. Foi somente aps a

72

BIOESTATSTICA

publicao de seu trabalho Thorie Analytique ds Probabilits (1812) que


as aplicaes da teoria de probabilidades se tornaram cientificamente justificveis na prtica.
O marqus de Condorcet (Jean Antoine de Caritat, 1743-1749), socilogo e economista, pensava que a teoria de probabilidades poderia ser
aplicada nos julgamentos dos tribunais, a fim de diminuir o risco de decises erradas. Ele props que os tribunais fossem compostos de um grande
nmero de juizes para que, tornando maior o nmero de opinies independentes, ficassem neutralizadas as opinies extremas. No entanto, Condorcet no foi auxiliado por suas ideias: um tribunal de muitos juzes, todos
eles extremistas acabou por conden-lo guilhotina. Este fato nos leva a
meditar sobre a importncia da aleatorizao na amostragem, mas isso j
um outro assunto.
A penetrao das ideias sobre probabilidade no pensamento cientfico
moderno foi muito alm das expectativas dos pensadores dos sculos XVII
e XVIII, especialmente quando, na cincia e na indstria, desenvolveu-se a
viso estatstica da natureza. A estatstica inferencial, com testes de hipteses e estimao por intervalo de confiana, no poderia ter-se desenvolvido
sem as noes fundamentais da teoria das probabilidades.
(Modificado de CALLEGARI-JACQUES, 2003).

BEIGUELMAN, B. Curso prtico de bioestatstica. Ribeiro Preto: Sociedade Brasileira de Gentica, 1988. 196 p.
CALLEGARI-JACQUES, S. M. Bioestatstica: princpios e aplicaes. Porto
Alegre: Artmed, 2003. 255 p.
HAZZAN, S. Fundamentos de matemtica elementar. So Paulo: Atual
Editora Ltda, 1993. v. 5, 149 p.
PAIVA, M. Matemtica. So Paulo: Editora Moderna, 1995.v. 2, 592 p.
OLIVEIRA, E. G.; MOREIRA, O, C. Guia para o ensino introdutrio da estatstica nos cursos da rea de sade. Fortaleza: Universidade Estadual do
Cear, 1987. 149 p.
VIEIRA, S. Introduo bioestatstica. Rio de Janeiro: Campus, 1988. 294 p.

BIOESTATSTICA

73

Unidade

Associao de
variveis
Objetivos:







Representar graficamente uma correlao atravs do diagrama de disperso.


Definir correlao.
Reconhecer quando a correlao positiva, negativa ou quando no h correlao.
Calcular e interpretar o coeficiente de correlao.
Elaborar um curvograma.
Compreender a ideia de aproximao linear.
Encontrar a equao de regresso linear simples.
Compreender o significado dos parmetros.

Captulo 1
Correlao linear simples

1.1 Conceito de correlao


Avaliar se existe associao entre duas caractersticas quantitativas
objetivo de muitos estudos em biologia. Um ecologista pode estar interessado em saber, por exemplo, se h associao entre a quantidade de chumbo
medida na gua e o volume de dejetos despejados em determinado rio; um
mdico querer avaliar se a presso arterial est relacionada idade das
pessoas, quando se pode demonstrar que existe associao entre duas variveis quantitativas, isto , quando se constata que elas variam juntas, dizse que as variveis esto correlacionadas. (CALLEGARI JACQUES, 2003).
Assim, a correlao entre duas variveis poder ser calculada quando
se deseja saber se a variao de uma delas acompanha proporcional ou inversamente a variao da outra.

1.2 Diagrama de disperso


O primeiro passo para se avaliar a correlao entre caracterstica
a construo de um grfico chamado diagrama de disperso. Tal grfico
consta de um sistema cartesiano de pontos que representam as variveis
envolvidas: a varivel X (independente) no eixo das abscissas e a varivel Y
(dependente) no eixo das ordenadas. Alguns grficos de disperso so mostrados na Figura 7.1 (CRESPO, 2002).

Figura 1.1. Grficos de disperso.

BIOESTATSTICA

77

Exemplo 1.1 - Consideremos uma amostra aleatria, formada por 10


dos 50 alunos de uma turma da UECE. A Tabela 1.1 mostra as notas de
Matemtica e Fsica destes alunos.
Tabela 1.1 - Notas de Matemtica e Fsica de 10 alunos de uma turma da UECE.

Aluno (n)

Disciplina
Matemtica (X)

Fsica (Y)

05

5,0

6,0

11

8,0

9,0

12

7,0

8,0

21

10,0

10,0

29

6,0

5,0

37

7,0

7,0

40

9,0

8,0

41

3,0

4,0

49

8,0

6,0

50

2,0

2,0

Representando, em um sistema cartesiano, os pares ordenados (x, y)


obtemos o diagrama de disperso mostrado na Figura 1.2.

Figura 1.2 Diagrama de disperso das notas de Matemtica e Fsica de 10 alunos de


uma turma da UECE.

78

BIOESTATSTICA

1.3 Coeficientes de correlao linear (r) e de


determinao (r2)
Este coeficiente (r), tambm chamado coeficiente de correlao de Pearson, quantifica o grau de correlao entre duas variveis. Esse coeficiente
um nmero puro, o que uma vantagem, pois se pode ter duas unidades
de medida para as variveis (como peso e espessura), o que tornaria difcil
a interpretao da associao.

1.3.1 Clculo de r
O instrumento empregado para a unidade da correlao linear o coeficiente de correlao de Pearson, estabelecido pela frmula seguinte:

r=

x y
xy n

2
2

x)
y)
(
(

2
2
x
y

n
n

r um nmero adimensional. Quando x e y variam no mesmo sentido


r > 0, caso contrrio r < 0. Prova-se que 1 r 1 . Se r = 1 dizemos que
entre as duas variveis existe uma correlao perfeita positiva e se r = - 1 dizemos que entre as duas variveis existe uma correlao perfeita negativa.
No caso de r = 0 dizemos que no existe correlao (Figura 1.1c).
Exemplo 1.2 - Calcule o coeficiente de correlao para os dados da
Tabela 1.2.
Tabela 1.2 - Peso mido e peso seco, em gramas, de lbulos hepticos de ratos submetidos
hepatectomia parcial (remoo de parte do fgado).

Peso mido

Peso seco

6,69

2,04

7,71

2,25

6,49

2,01

7,38

2,21

6,14

1,87

7,43

2,30

10,23

2,83

7,32

1,92

Fonte: Matos Filho (1976) citado por Vieira (1988).

Soluo:
Vamos refazer a tabela com os clculos necessrios, construindo a
Tabela 1.3 (vire a pgina)

BIOESTATSTICA

79

Tabela 1.3 Clculos necessrios para determinar o coeficiente de correlao.

x2

y2

xy

6, 69

2, 04

44, 7561

4, 1616

13, 6476

7, 71

2, 25

59, 4441

5, 0625

17, 3475

6, 49

2, 01

42, 1201

4, 0401

13, 0449

7, 38

2, 21

54, 4644

4, 8841

16, 3098

6, 14

1, 87

37, 6996

3, 4969

11, 4818

7, 43

2, 30

55, 2049

5, 2900

17, 0890

10, 23

2, 83

104, 6529

8, 0089

28, 9509

7, 32

1, 92

53, 5824

3, 6864

14, 0544

17,43

451, 9245

38, 6305

131, 9259

59,39

Assim,

r=

131,9259

( 59,39 )(17, 43)

( 59,39 )
451,9245
8

8
2

17, 43)
(
38, 6305

ou seja,

r =

131,9259 129,3959625

[ 451,9245 440,8965125][38, 6305 37,9756125]


r=

2,5299375

(11, 0279875)( 0, 6548875)

Logo, r = 0,94140892 .

1.3.2 Coeficiente de determinao


O Coeficiente de determinao o quadrado do coeficiente de correlao e informa que a frao da variabilidade de uma caracterstica explicada estatisticamente pela outra varivel. Para os dados do exemplo 1.2:

r 2 = 0,886250755
Isto significa que 88% da variao observada no peso mido so explicados pelo fato de que o peso seco tambm varia (e vice versa).

80

BIOESTATSTICA

Captulo 2
Regresso linear simples

2.1 A ideia de aproximao linear


No captulo precedente vimos que pode existir interesse em se estudar
o comportamento conjunto de duas variveis distintas, x e y. Vimos tambm
como obter um grfico de disperso. A partir desse grfico unindo os pontos
atravs de segmentos de reta obtemos uma figura chamada Curvograma,
(Figura 2.1) que nos d uma ideia se h ou no linearidade entre as variveis.

Figura 2.1 - Curvograma (VIEIRA, 1988).

Por outro lado, a anlise da Figura 8.2 revela uma aproximao linear. O motivo de se falar numa aproximao linear entre duas variveis x
e y, reside no fato de que os pares de valores ( xi , y i ) , i = 1, 2, ..., n (correspondente ao total de pares) representam pontos do plano que podem no se
localizar exatamente sobre a reta, mas se distribuem ao longo dessa reta,
em ambos os seus lados.

BIOESTATSTICA

81

Figura 2.2 Aproximao linear entre duas variveis x e y (THORNER e BONN, 1966;
citado por AGUIAR et al., 1988).

Na Figura 2.2 esto representados 15 pontos. Note-se que relativamente a cada ponto ( xi , y i ) devemos fazer a distino entre o valor observado y1 e o valor previsto pelo modelo y i , que calculado a partir de uma
relao funcional yi = 0,95 x1 585 , chamada equao de Regresso Linear.

Segundo Aguiar et al. (1988) a diferena ei = y i y i o erro experimental em que se incorre, no exemplo em questo, quando se procura estimar o valor de y (volume cardaco) a partir de x (massa heptica) no ponto
x = x i. Ainda segundo esses mesmos autores, se no existissem erros experimentais (que nada mais so do que flutuaes devidas ao azar ou nossa
ignorncia), ento a reta y = f(x) representaria de forma exata o fenmeno.
Entretanto, na prtica, fenmenos biolgicos exigem, via de regra, modelos
mais complexos para suas previses.

2.2 Regresso linear simples


A regresso linear consiste em aproximar os valores de uma varivel
a partir dos valores de outra, usando uma relao funcional do tipo linear,
ou seja, quantidades a e b, tais que se possa escrever y = ax+b
ax + bcom o menor
erro possvel entre y e y.
As quantidades a e b que minimizam tal erro so chamadas parmetros ou coeficientes de regresso:

x y
xy n
a=
( x)
x n
2

b = y ax

Onde x e y representam as mdias dos dados relativos s variveis x


e y respectivamente.

82

BIOESTATSTICA

Exemplo 2.1 - Considere os dados da Tabela 2.1.


Tabela 2.1 - Dados relativos a duas variveis x e y.

x
1
2
3
4
5
6

y
7
6
6
4
1
1

Faa um curvograma.
Encontre a equao de regresso.
Soluo:
O curvograma, como vimos, feito simplesmente plotando-se os pontos no plano cartesiano e ligando-os por segmentos de reta, como mostra a
Figura 2.3.

Figura 2.3 Curvograma.

Para encontrarmos a de equao de regresso, precisamos fazer alguns clculos intermedirios, que so mostrados na Tabela 2.2.

BIOESTATSTICA

83

Tabela 2.2 - Clculos intermedirios para obteno dos parmetros a e b.

xy

x2

12

18

16

16

25

36

21

25

64

91

a=

64

( 21)( 25)

6
441
91
6

61 87,5 26,5
=
= 1,51
91 73,5 17,5

b = 4,17 ( 1,51)( 3,5 ) = 4,17 ( 5, 285 ) = 9, 455


Ento a reta :

y = 1,51x + 9, 455
Observe a Tabela 2.3 a seguir onde comparamos os valores reais e os
valores obtidos pelo modelo:
Tabela 2.3 - Valores obtidos (

y ) pelo modelo linear.

7, 945

6, 435

4,925

3, 415

1, 905

0,395

2.3 Transformaes de variveis


Existem grficos de disperso onde os pontos esto muito difusos,
portanto, no se dispondo em torno de uma reta, sugerindo que o modelo
linear no apropriado para descrever o fenmeno. Neste caso, a transformao de varivel pode permitir um melhor ajuste. Os exemplos a seguir
foram modificados de Vieira (1988):

84

BIOESTATSTICA

Exemplo 2.2 - Considerem os dados da Tabela 8.4.


Tabela 2.4 - Valores de duas variveis quaisquer x e y.

4,0

8,0

16

15,0

32

22,6

64

36,4

128

45,3

256

60,0

a) Desenhe o grfico de disperso.


b) Encontre uma regresso de y contra x.
c) Mostre graficamente a curva de regresso.
Soluo:
a)

Figura 2.4 Grfico de disperso.

Vamos refazer a Tabela 2.4 com os clculos necessrios, construindo


a Tabela 2.5.
Tabela 2.5 Clculos necessrios para construir a regresso de y contra x.

xy

x2

4,0

4,0

1,0

8,0

32,0

16,0

16

15,0

240,0

256

32

22,6

723,2

1024

64

36,4

2.329,6

4096

128

45,3

5798,4

16384

256

60,0

15.360,0

65.536

501

191,3

24.487,2

87313

BIOESTATSTICA

85

a=

24487, 2

( 501)(191,3)

7
2
501)
(
87313
7

24487, 2 13691, 61429 10.795,58571


=
= 0, 209803437
87313 35857, 28571 51.455, 71429

b = 27,32857143 0, 209803437 71,57142857


= 27,32857143 15, 01593171
= 12,31263972
y = 0, 209803437 x + 12,31263972 a equao de regresso que chamaremos de modelo 1.
Como podemos observar pelo grfico de disperso, Figura 2.4, a distribuio dos pontos em torno de uma curva, de modo que o ajuste linear
no parece adequado.
Para tentar melhorar esse ajuste, vamos proceder a uma transformao de variveis, como pode ser visto nos exemplos, a seguir:
Exemplo 2.3 - Considere os dados da Tabela 2.6.
Tabela 2.6 - Valores dos logaritmos decimais de x e valores de y.

log x
0

Y
4,0

0,602

8,0

1,204

15,0

1,505

22,6

1,806

36,4

2,107

45,3

2,408

60,0

a) Desenhe o grfico de disperso.


b) Encontrar uma regresso de y contra log (x).
c) Mostrar graficamente a curva de regresso.
Soluo:
e a)

figura 2.5 Grfico de disperso.

86

BIOESTATSTICA

Utilizando os dados da Tabela 2.6, vamos construir a Tabela 2.7, que


contm os clculos intermedirios necessrios para obteno da curva de
regresso.
Tabela 2.7 Clculos necessrios para a construo da regresso de y contra log (x).

log x

(log x).y

(log x)2

0,602

8,0

4,816

0,362

1,204

15,0

18,06

1,450

1,505

22,6

34,013

2,265

1,806

36,4

65,738

3,262

2,107

45,3

95,447

4,439

2,408

60,0

144,48

5,798

9,632

191,3

362,554

17,576

a=

362,554

( 9, 632 )(191,3)

7
2
( 9, 632 )
17,576
7

362,554 263, 229 99,325


=
= 22,981
17,576 13, 254
4,322

b = 27,328 22,9811,376
Logo,

y = 2 ,981 log x + 1,376 a equao de regresso que chamaremos de

modelo 2.
Como podemos observar pelo grfico de disperso, figura 2.5, depois
da transformao de x em log (x), a distribuio dos pontos continuou sendo
em torno de uma curva, logo o modelo linear ainda no parece adequado.
Com uma nova tentativa de melhorar o ajuste faremos transformaes nas
variveis x e y, como pode ser visto no exemplo 2.4.
Exemplo 2.4 - Considere os dados da Tabela 8.8.
Tabela 2.8 - Valores de x e valores de logaritmos de y.

log y

0, 602

0, 903

16

1, 176

32

1, 354

64

1, 561

128

1, 656

256

1, 778

a) Desenhe o grfico de disperso.


b) Encontre uma regresso de log (y) contra x.
c) Mostrar graficamente a curva de regresso.

BIOESTATSTICA

87

Soluo:
c)

Figura 2.6 Grfico de disperso.

b) Utilizando os dados da Tabela 2.8, vamos construir a Tabela 2.9,


que contm os clculos intermedirios necessrios para obteno
da curva de regresso.
Tabela 2.9 - Clculos necessrios para obteno da curva de regresso de log (y) contra x.

a=

log y

x (log y)

x2

0, 602

0, 602

0, 903

3, 612

16

16

1, 176

18, 816

256

32

1, 354

43, 328

1024

64

1, 561

99, 904

4096

128

1, 656

211, 968

16384

256

1, 778

455, 168

65.536

501

9,030

833,398

87.313

833,398

( 501)( 9, 03)

7
2
501)
(
87.313
7

833,398 646, 29
187,108
=
= 0, 004
87.313 35.857, 286 51.455, 714

b = 1, 29 0, 004 71,571 = 1, 29 0, 286 = 1, 261


Portanto, log y = 0,004 x + 1,261 a equao de regresso que chamamos de modelo 3.
Como podemos observar, pelo grfico de disperso (Figura 2.6) depois
da transformao de y em log y, a distribuio de pontos continuou sedo

88

BIOESTATSTICA

em torno de uma curva, logo o modelo linear no parece o melhor ajuste.


Assim, transformar as variveis separadamente, no permitiu criar um modelo muito adequado, sugerindo que podemos tentar a transformao das
duas variveis simultaneamente, conforme estudaremos no Exemplo 2.5.
Exemplo 2.5 - Considere os dados da Tabela 2.10.
Tabela 2.10 - Valores de log (x) e de log (y).

log (x)

log (y)

0, 602

0, 602

0, 903

1, 204

1, 176

1, 505

1, 354

1, 806

1, 561

2, 107

1, 656

2,408

1, 778

a) Desenhe o grfico de disperso.


b) Encontre uma regresso de log (y) contra log (x).
c) Mostrar graficamente a curva de regresso.
Soluo:
a)

Figura 2.7 Grfico de disperso.

b) Utilizando os dados da Tabela 2.10, vamos construir a Tabela 2.11,


que contm os clculos intermedirios necessrios para obteno
da curva de regresso.

BIOESTATSTICA

89

Tabela 2.8 - Clculos necessrios para obteno da curva de regresso de log (y)
contra log (x).

log (x)

log (y)

(log x)(log y)

(log x)2

0, 602

0, 602

0, 903

0, 543606

0, 362404

1, 204

1, 176

1, 415904

1, 449616

1, 505

1, 354

2, 037770

2, 265026

1, 806

1, 561

2, 819166

3, 261636

2,107

1,656

3, 489192

4,439449

2,408

1,778

4, 281424

5,798464

9,632

9, 03

14, 587062

17,576594

a=

14,587062

( 9, 03)( 9, 632 )

7
2
( 9, 632 )
17,576594
7

b=

= 0,500

9, 03
9, 632
0,5
= 0, 602
7
7

Portanto, a equao de regresso de log (y) contra log (x) (modelo 4)

log y = 0,5 log x + 0,602 .


Observe a Tabela 2.12 que mostra os valores previstos pelos modelos
tericos. Podemos notar que os valores previstos pelo modelo 4 so os que
mais se aproximam dos valores reais (y), sugerindo que a transformao de
variveis pode ser uma boa estratgia para ajuste de um modelo.
Tabela 2.9 - Valores previstos pelos modelos tericos.

Variveis

Valores previstos pelos modelos

Modelo 1

Modelo 2

Modelo 3

Modelo 4

12,522443

1,376000

18,407720

3,999447

13,151853

15,211940

18,923436

7,998895

16

15

15,669494

29,047881

21,134890

15,997790

32

22,6

19,026349

36,965851

24,490632

22,624292

64

36,4

25,740059

42,883821

32,885163

31,995580

128

45,3

39,167479

49,801792

59,292532

45,248583

256

60

66,022319

56,719762

192,75249

63,991160

Muitas vezes preciso transformar apenas uma varivel para ajustar


a regresso linear simples. Outras transformaes podem tambm ser feitas, como por exemplo, extrao da raiz quadrada ( x ou y ), inverso
1
1 , transformao trigonomtrica (cos x ou cos y), etc.

ou
x

90

BIOESTATSTICA

Esta unidade teve como objetivo central estudar a associao de variveis e a possibilidade de estabelecer um modelo matemtico que permitisse
prever o valor de varivel conhecido o valor da outra. Inicialmente estudamos a correlao linear simples que pode ser calculada quando se deseja
saber se a variao de uma delas acompanha proporcional ou inversamente
a variao de outra. A regresso linear simples (estudada no captulo 8) se
baseia na construo de um modelo linear Y = a + bX, relacionando as duas
variveis, e permitindo que se faa previses restritas a determinados intervalos. Foram tambm discutidas algumas transformaes matemticas,
como por exemplo, o uso de logaritmos, para melhor ajustar o modelo linear.

1. Em um estudo conduzido na Itlia, 10 pacientes com hipertriglicedemia forma colocados sob dieta de baixas gorduras e altos carboidratos. Antes de inici-la as medidas de colesterol e de triglicerdeos
foram registrados para cada indivduo, conforme tabela abaixo:
Paciente

Nvel de colesterol
(mmol/L)

Nvel de
triglicerdeos
(mmol/L)

5,12

2,30

6,18

2,54

6,77

2,95

6,65

3,77

6,36

4,18

5,90

5,31

5,48

5,53

6,02

8,83

10,34

9,48

10

8,51

14,20

a) Construa um grfico de disperso bidimensional para esses dados.


b) H alguma evidncia de uma relao linear entre os nveis de colesterol e de triglicerdeos antes da dieta?
c) Calcule r, o coeficiente de correlao de Pearson.

BIOESTATSTICA

91

2. Faa um curvograma para os dados apresentados na tabela abaixo:


Idade

Peso mdio

30

63,94

34

74,91

38

81,65

42

95,05

46

105,89

3. Faa o diagrama de disperso e calcule o coeficiente de correlao


para os dados relativos as duas variveis X e Y apresentados na tabela
abaixo:
X

4. Calcule o coeficiente de correlao para os dados de peso mido e seco


em gramas, de lbulos hepticos de ratos submetidos hepatectomia
parcial apresentados na tabela abaixo:
6,14

1,87

7,43

2,30

10,23

2,83

7,32

1,92

5. Calcule o coeficiente de correlao para os dados apresentados na tabela abaixo:

92

Idade gestacional

Peso ao nascer

28

1.250

30

1.750

32

1.250

34

1.750

35

1.750

36

2.250

37

1.750

38

2.250

39

2.750

39

3.250

39

4.250

40

2.250

40

3.250

40

3.750

41

2.750

41

3.250

42

4.250

BIOESTATSTICA

6. Foi realizado um estudo para estabelecer uma equao mediante a


qual se possa utilizar a concentrao de estrgeno na saliva (X) para
predizer a concentrao de estrgeno em plasma livre (Y). Foram extrados os seguintes dados de 14 homens sadios:
X

1,4

7,5

8,5

11

13

14

14,5

16

17

18

20

23

30

25

31,5

27,5

39,5

38

43

49

55

48,5

51

64,5

63

68

a) Estude a possvel relao linear entre ambas as variveis.


b) Obtenha a equao mencionada no enunciado do problema.
c) Determine a variao da concentrao de estrgeno em plasma livre
por unidade de estrgeno em saliva.
7. Os pesquisadores esto estudando a correlao entre obesidade e resposta individual a dor. A obesidade medida como porcentagem sobre
o peso ideal (X), e a resposta a dor medida utilizando o linear do
reflexo de flexo nociceptiva (Y), que uma medida de sensao de ser
pungido. Obtm-se os dados seguintes:
X

89

90

75

30

51

75

62

45

90

20

4,5

5,5

13

15

14

a) Estude a possvel relao entre ambas variveis obtendo seu grau


de ajuste.
b) Que percentagem de sobrepeso podemos esperar para o limiar de
reflexo 10?
8. Leva-se a cabo um estudo por meio de detectores radioativos da capacidade corporal para absorver ferro (Fe) e chumbo (Pb). Participam
do estudo 10 sujeitos. A cada um aplicada uma dose oral idntica de
ferro e de chumbo. Depois de 12 dias, mede-se a quantidade de cada
componente retida no sistema corporal e, a partir disso, determinase a percentagem absorvida pelo corpo. Obtiveram-se os seguintes
dados:
% Fe = X

17

22

35

43

80

85

91

92

96

100

% Pb = Y

17

18

25

58

59

41

30

43

58

a) Comprove a idoneidade do modelo linear de regresso.


b) Obtenha a reta de regresso, caso o modelo linear seja adequado.
c) Prediga a porcentagem de ferro absorvida por um individuo cujo
sistema corporal absorve 15% de chumbo ingerido.
9. Ajuste uma regresso linear simples do logaritmo neperiano da velocidade inicial contra o inverso da temperatura em graus Kelvin, com
os dados de temperatura, em graus centgrados, e velocidade inicial
de reaes catalisadas por fumarase, utilizando as solues de fumarato 0,019 M, e tampo fosfato 0,0576 M, em pH 7,30 apresentados na
tabela a seguir:

BIOESTATSTICA

93

Temperatura

Velocidade inicial

20

0,065

25

0,080

30

0,108

35

0,121

40

0,147

10. Nos 11 anos anteriores aprovao do ato federal de segurana e


sade das minas de carvo de 1969, as taxas de fatalidade para os
mineiros no subsolo pouco variaram. Depois de sua implementao,
no entanto, as taxas de fatalidade diminuram rapidamente at 1979.
As taxas de fatalidade para os anos de 1970 at 1981 so fornecidas
a seguir:
Ano calendrio

Ano

Taxa de fatalidade por


1.000 empregados

1970

2,419

1971

1,732

1972

1,361

1973

1,108

1974

0,996

1975

0,952

1976

0,904

1977

0,792

1978

0,701

1979

10

0,890

1980

11

0,799

1981

12

1,084

a) Construa um grfico de disperso bidimensional da taxa de fatalidade versus tempo. O que esse grfico sugere sobre a relao entre
as duas variveis?
b) Para modelar a tendncia nas taxas de fatalidade, ajuste a linha de
regresso y = ax + b, onde x representa o tempo (ano).
c) Transforme agora a varivel explicativa x para ln (x), crie um grfico de disperso da taxa de fatalidade versus logaritmo natural do
tempo (ano) e ajuste o modelo de regresso.
d) Transforme x em , crie um grfico de disperso da taxa de fatalidade versus o recproco do tempo (Ano) e ajuste o modelo de regresso.

94

BIOESTATSTICA

11. Em um estudo conduzido na Itlia, 10 pacientes com hipertrigliceridemia foram colocados sob dieta de baixas gorduras e altos carboidratos. Antes de inici-la, as medidas de colesterol e de triglicerdeos
foram registradas na Tabela 2.10.
Tabela 2.10 Nveis de colesterol de triglicerdeos de 10 pacientes
com hipertrigligeridemia.

Paciente
1
2
3
4
5
6
7
8
9
10

Nvel de colesterol

(m mol/L)

Nvel de triglicerdeos
(m mol/ L)

5,12
6,18
6,77
6,65
6,36
5,90
5,48
6,02
10,34
8,51

2,30
2,54
2,95
3,77
4,18
5,31
2,53
8,83
9,48
14,20

Fonte: Pagano e Gauvreau (2006).

12. Analise os dados da Tabela 2.11.


Tabela 2.11 - Porcentagem de crianas imunizadas contra DPT (do ingls (Diphteria, Pertussis, Tetanus) e taxa de mortalidade para crianas de 0 a 5 anos para 20 pases).

Nao

Imunizao %

Taxa de mortalidade por


1.000 nascidos vivos

Bolvia
Brasil
Camboja
Canad
China
Repblica Tcheca
Egito
Etipia
Finlndia
Frana
Grcia
ndia
Itlia
Japo
Mxico
Polnia
Rssia
Senegal
Turquia
Reino Unido

77
69
32
85
94
99
89
13
95
95
54
89
95
87
91
98
73
47
76
90

118
65
184
8
43
12
55
208
7
9
9
124
10
6
33
16
32
145
87
9

Fonte: Pagano e Gauvreau (2006).

a) Construa um grfico de disperso para os dados.


b) H alguma evidncia de uma relao linear entre a porcentagem de
imunizao e a taxa de mortalidade?
c) Calcule r.

BIOESTATSTICA

95

13. Analise os dados ta Tabela 3.9.


Tabela 3.9 - Peso em quilogramas e espessura torcica
em centmetros, de 10 ces.

Peso (kg)

Espessura torcica (cm)

23,0
22,7
21,2
21,5
17,0
28,4
19,0
14,5
19
19,5

22,0
21,5
20,5
20,6
21,0
25,0
21,0
20,0
19
19,0

Fonte: Araujo e Hossne (1997) citado por Vieira (1988).

14. Nos 11 anos anteriores aprovao do ato federal de segurana e


sade das minas de carvo de 1969, as taxas de fatalidade para os
mineiros no subsolo pouco variavam. Depois de sua implementao,
no entanto, as taxas de fatalidade diminuram rapidamente at 1979.
As taxas de fatalidade para os anos de 1970 at 1981 so fornecidas
a seguir, para fins computacionais, os anos foram convertidos para
uma escala que se inicia em 1.
Ano calendrio

Ano

Taxa de fatalidade por


1.000 empregados

1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981

1
2
3
4
5
6
7
8
9
10
11
12

2,419
1,732
1,361
1,108
0,996
0,952
0,904
0,792
0,701
0,890
0,799
1,084

Fonte: Pagano e Gauvreau (2006).

Construa um grfico de disperso da taxa de fatalidade versus tempo.


a) Para modelar a tendncia nas taxas de fatalidade, ajuste a curva de
regresso y = ax + b, onde x representa o tempo em anos.
b) Transforme agora a varivel x para ln (x) e crie um novo grfico de
disperso.
c) Para modelar a tendncia nas taxas de fatalidade ajuste a curva de
regresso y = a ln( x) + b

96

BIOESTATSTICA

d) Transforme agora a varivel x para


e crie um novo grfico de
x
disperso.
e) Para modelar a tendncia nas taxas de fatalidade ajuste a curva de
regresso y = a 1 + b .

x
15. O valor do tetracloreto de carbono (CCl4) assume, de acordo com a
temperatura em C, as seguintes presses em mmHg.
Temperatura
Presso

0
33,10

20
89,52

40
210,89

60
438,98

a) Por interpolao, expresse as presses respectivas a 10, 30 e 50 C.


b) Represente os dados graficamente.
16. Foi realizado um estudo para estabelecer uma equao mediante a
qual se possa utilizar a concentrao de estrgeno na saliva (x) para
estimar a concentrao de estrgeno em plasma livre (y), foram extrados os seguintes dados de 14 homens sadios:
X

1,4

7,5

8,5

11

13

14

14,5

16

17

18

20

23

30

25

31,5

27,5

39,5

38

43

49

55

48,5

51

64,5

63

68

Fonte: Diaz e Lpez (2007).

a) Estude a possvel relao linear entre ambas as variveis.


b) Obtenha a equao mencionada no enunciado do problema.
c) Determine a variao da concentrao de estrgeno em plasma livre
por unidade de estrgeno em saliva.
17. Doses crescentes de calcrio foram adicionadas a um solo cido e
depois se determinou a porcentagem de anomalias encontradas em
clulas germinativas de trigo plantadas neste solo.
Quantidade
de calcrio

% de anomalias
celulares

30

27

22

23

18

16

Fonte: Callegari Jacques (2003).

a) Obtenha um grfico de disperso.


b) Obtenha o coeficiente de correlao.
c) Obtenha uma reta de regresso.
d) Calcule o coeficiente de determinao e interprete-o.

BIOESTATSTICA

97

A interpretao dos parmetros da regresso linear simples


Alguns experimentos utilizam diferentes tratamentos que variam apenas no nvel do fator que se deseja testar. Este o caso de um ensaio para
avaliao de desempenho em coelhos quando os tratamentos consistem na
mesma rao, com diferentes nveis de fibra, digamos 7, 9, 11 e 13%. A razo de se investigar um intervalo to restrito de nveis de fibra prende-se
realidade econmica ou metablica. Animais alimentados com raes apresentando menos de 7% de fibra talvez tenham melhor desempenho, mas a
um custo mais alto de rao. Raes com mais de 13% de fibra no sero
to adequadas ao animal que provavelmente mostrar menor desempenho.
Portanto, neste intervalo restrito, a resposta animal (peso) tende a se manifestar de maneira linear, diminuindo o desempenho medida que o nvel de
fibra aumenta. Esta dependncia do desempenho em relao quantidade
de fibra na rao pode ser matematicamente definida como:
Y = a + bX
Onde Y a estimativa do desempenho animal (peso ao abate) alimentado com rao contendo X% de fibra, a o coeficiente linear de regresso,
correspondendo teoricamente ao valor de Y quando X=0, e b o coeficiente
de regresso do percentual de fibra sobre a resposta Y (peso).
Se no estudo sugerido de desempenho de coelhos, com relao aos
nveis de fibra, tivssemos obtido o modelo
Y = 2,7 0,1X
Onde Y a estimativa do peso ao abate (Kg) do coelho alimentado com
rao X% de fibra, poderemos interpretar:
Coeficiente linear (a = 2,7): para o nvel zero de fibra (invivel na prtica), o peso ao abate seria de 2,7 Kg. O valor de a neste caso no permite
uma interpretao biolgica e apenas corresponde ao ponto de interseo
que a reta apresenta com o eixo vertical Y.
Coeficiente de regresso (b = -0,1): para cada 1% de fibra na rao o
desempenho potencial do animal (peso) cai 0,1 kg (note que b < 0) no peso
final. Se o valor de b fosse -0,2, para cada 1% de fibra a mais, o peso ao
abate cairia 0,2 Kg. Observe que quanto maior o valor absoluto de b maior
ser a influncia de X (fibra) sobre o peso de abate.
Um valor mais elevado de b corresponder a uma reta mais inclinada
e portanto com maior influncia de X sobre Y. Se no houver inclinao alguma , b = o e Y = a, definindo uma reta paralela ao eixo horizontal X, onde
Y = a independente do valor atribudo a X. Isto, portanto significaria que
no haveria associao entre variveis Y e X, Y independeria de X.
Estimativas de desempenho (peso ao abate) de animais sob diferentes
nveis de fibra na rao podero ser feitas com segurana dentro daquele intervalo estudado (de 7 a 13%) e com alguma reserva para valores prximos
aos limites de X, por exemplo:
Se X = 6%, Y = 2,7 0,1 (6) = 2,1 Kg

98

BIOESTATSTICA

Se X = 14%, Y = 2,7 0,1(14) = 1,3 Kg


O modelo obtido Y = 2,7 0,1 X tambm permite determinar (teoricamente) o valor percentual de fibra que no conduziria a desempenho algum
(Y=0), ou seja:
0 = 2,7 0,1X, X = 27%
Em ensaios exploratrios, informaes como esta podem ser importantes, porque definiriam o teor mximo de fibra admitido na rao para
aquele animal. O verdadeiro valor deste teor, entretanto, pode ser metabolicamente inferior aquela percentagem (27%) porque utilizamos a pressuposio de efeito linear at aquela percentagem, quando na realidade a estudamos apenas no intervalo de 7 a 13%. Outro ensaio deveria ser feito para
obter a informao de tolerncia mxima fibra na rao
(Modificado de SAMPAIO, 1988).

AGUIAR, A. F. A.; XAVIER, A. F. S.; RODRIGUES, J. E. M. Clculo para


cincias mdicas e biolgicas. So Paulo: Editora Harbra, 1988. 351 p.
CALLEGARI-JACQUES, S. M. Bioestatstica: princpios e aplicaes. Porto
Alegre: Artmed, 2003. 255 p.
DIAZ, F. R.; LPEZ, F. J. B. Bioestatstica. So Paulo: Thomson, 2007. 284 p.
PAGANO, M.; GAUVREAU, K. Princpios de bioestatstica. So Paulo:
Thomson, 2004. 506 p.
SAMPAIO, I. B. M. Estatstica aplicada experimentao animal. Belo
Horizonte: Fundao de Ensino e Pesquisa em Medicina Veterinria e Zootecnia, 1998. 220 p.
VIEIRA, S. Introduo bioestatstica. Rio de Janeiro: Campus, 1988.
294 p.

BIOESTATSTICA

99

Unidade

Inferncia Estatstica

Objetivos:




Definir amostra, populao e universo.


Definir varivel e d exemplos dos seus vrios tipos.
Definir os principais tipos de amostragem.
Conceituar inferncia estatstica.
Compreender os conceitos de estimao e testes de hipteses.

Captulo 1
Noes sobre amostragem

1.1 Populao e amostra


Dois conceitos iniciais devem ficar bem claros: o de populao e o de
amostra, pois delas que so extrados os dados (informaes) que do
origem s diversas relaes estatsticas, como mdia, desvio-padro etc.
Por ser, regra geral, impraticvel o estudo de toda a populao, desejvel
que se possa, a partir de uma parcela dessa populao (amostra), tirar
concluses sobre toda a populao. Este fato por si s j justifica o uso de
amostras, mas h outras razes para seu uso, como discutimos a seguir: se
uma populao hipottica, bvio que s podemos estudar uma amostra;
por exemplo, se uma populao consistir de todos os indivduos que so
hipertensos (ou que ainda venham a ser), ento qualquer que seja o nmero
de indivduos estudados representam sempre uma amostra. Observe que a
populao desse exemplo, embora muito grande, finita. Outra razo muito importante que o estudo cuidadoso de uma amostra tem maior valor
cientfico do que o estudo sumrio de toda a populao, como observamos
no exemplo a seguir, extrado de Vieira (1988).
Exemplo 1.1 Para estudar o efeito do uso tpico de flor sobre a incidncia de cries dentrias em crianas com idade escolar, no se recorre
a toda a populao mesmo que o estudo se restrinja a uma rea limitada em
curto espao de tempo. Isto porque uma amostra de crianas submetidas
a exames odontolgicos peridicos fornece informaes mais fidedignas do
que a populao de crianas rapidamente examinadas antes e determinado
tempo aps a aplicao tpica de flor.
Uma terceira razo de ordem prtica: muitas vezes a populao
to grande que seria quase impossvel estud-la inteira e, se fosse possvel,
poderia ser muito dispendioso em tempo e custo. Dentro deste contexto ficou claro que dois conceitos so fundamentais em estatstica: populao e
amostra. Muitos textos consideram sinnimos os termos universo e populao, mas preferimos distingui-los, o que nos parece saudvel, pelo menos
do ponto de vista didtico; a diferena, contudo, algo sutil e o leitor deve
considerar este item com bastante ateno. Universo o conjunto de todos
os elementos (pessoas, animais, clulas, objetos...) que interessam em determinada pesquisa. Populao o conjunto formado pelas medidas que se
fazem sobre elementos do universo, enquanto amostra qualquer subconjunto de uma populao. Os prximos exemplos podem trazer mais luz a
essa discusso.
Exemplo 1.2 Suponha que um investigador pretenda estudar o comportamento dos hepatcitos humanos no calazar. Neste caso, o universo
o conjunto de todos os indivduos que tiveram, tem ou possam apresentar
BIOESTATSTICA

103

calazar com repercusso heptica. Evidentemente trata-se de um conjunto


infinito, ou melhor, hipottico.
Exemplo 1.3 No caso do exemplo 1.2 , teramos como exemplos de
populaes:
P1 Populao dos dimetros dos hepatcitos
P2 Populao dos dimetros nucleares dos hepatcitos
P3 Populao das formas dos hepatcitos
P4 Populao do nmero de leishmanias em cada hepatcito
Vimos, ento, que um universo U capaz de gerar infinitas populaes, o pesquisador selecionando aquelas que mais lhe interessam.
Exemplo 1.4 Na populao P1 (exemplo 1.3), os dimetros dos hepatcitos obtidos numa puno-bipsia heptica representam uma amostra
desta populao.

1.2 Variveis e escalas e medidas


1.2.1 Variveis
As informaes obtidas, seja com base nos elementos que constituem
a populao, seja com base nos elementos que constituem uma amostra, so
denominados tecnicamente de dados. Os dados individuais que so representados por valores numricos, ou seja, todas aquelas caractersticas que
podem ser medidas, so denominados variveis.
Variveis quantitativas so aquelas que apresentam um nmero associado ao indivduo pesquisado, como nmero de filhos, altura e peso. Quando assumem apenas valores inteiros so chamadas discretas, como nmero
de filhos e o nmero de cromossomos em clulas animais, enquanto so contnuas quando podem assumir qualquer valor real, como peso dos rgos.
As variveis qualitativas so aquelas variveis no em que seus valores
so expressos por uma qualidade ou atributo, como sexo e estado civil, cor
da pele e grau de instruo. Quando fornecem resultados para os quais no
existem nenhum grau de ordenao, isto , s podem receber um nome ou
atributo so denominadas nominais, como sexo e estado civil. J as ordinais
so aquelas que fornecem resultados que podem ser ordenados de forma
hierrquica, tal como ocorre com grau de instruo.

1.2.2 Escalas de medidas


a) Escala nominal: o mais primitivo, mais grosseiro, de comparao de
valores assumidos por uma varivel, ou medida (medir comparar). Se
temos uma grandeza em escala nominal, dados dois de seus valores X e
Y, simplesmente podemos afirmar que X=Y ou XY.
Exemplo 1.5 Os grupos sanguneos do sistema ABO: A, B, AB e O
representam uma varivel em escala nominal, pois s podemos dizer que,
dados dois indivduos quaisquer, eles tem o mesmo grupo ou pertencem a
grupos diferentes.

104

BIOESTATSTICA

b) Escala ordinal: um degrau acima do nvel anterior (nominal). Dados 2


valores, X e Y, quaisquer, no somente podemos afirmar que X=Y ou XY,
mas podemos ir um pouco mais alm : X >Y ou X<Y.
Exemplo 1.6 Presena de albumina na urina, indicada por 0, +, +
+, + + + . Na escala ordinal, como o nome indica, permite comparaes de
ordem, semiquantitativa.
As escalas a seguir permitem comparaes quantitativas.
c) Escala intervalar: permite comparao quantitativa atravs de diferenas, somente.
Exemplo 1.7 A temperatura uma varivel com essa caracterstica.
De fato, podemos realizar a seguinte operao 60 - 10 = 50, mas no
60
correto fazer
= 2 , ou seja, que uma temperatura de 60 o dobro de uma
30
temperatura de 30.
d) Escala de razes: encontra-se no topo dos nveis de mensurao; grandezas nessa escala so aptas a todos os tipos de comparao. Difere da
escala intervalar no sentido de permitir comparao atravs de razes (
ou quocientes); nessa escala encontra-se a maioria das variveis quantitativas.
Exemplo 1.8 O peso uma varivel com essa caracterstica. Com efeito, as seguintes operaes 80Kg 50kg = 30Kg e 80 Kg = 1, 6 so verdadeiras.
50kg

1.3 Amostragem
O estudo deste captulo j nos deixou clara a importncia de se estudar amostras, mas vale a pena insistir nas vantagens do exame de simples
amostras sobre a anlise direta e inteira da populao, verificando algumas
consideraes feitas por Oliveira e Moreira (1987):
a) Se a populao infinita ou hipottica, evidente que s nos ser
permitido o uso de amostras. Mesmo que as populaes no sejam
infinitas mais vantajoso o exame apenas de amostras, porque:
b) Haver economia de tempo;
c) Haver economia de custos;
d) Examinando menos itens, temos mais chances de anlise aprofundada;
e) Em certos casos, o exame de toda a populao levar a destruio
de seus elementos, com prejuzos graves e irreversveis, alm de
concluses inteis. Por exemplo, para um hemograma, tomamos
apenas uma amostra de sangue do paciente; para que se examinasse o sangue total (populao), levaramos o paciente a um choque hipovolmico (teramos um perfeito diagnstico... para um defunto!);
f) Se no bastassem os argumentos j citados teramos um definitivo:
A EXPERINCIA TEM DEMONSTRADO QUE BOA AMOSTRAGEM
FUNCIONA!

BIOESTATSTICA

105

Para que os resultados obtidos atravs de amostras possam ser generalizados para a populao, isto , para que se possam realizar inferncias
vlidas, a amostra deve ser representativa da populao. A melhor maneira
de se obter uma amostra representativa empregar um procedimento aleatrio para seleo dos indivduos. Alguns mtodos bsicos de amostragem
(obteno de amostras) aleatrias so apresentados a seguir.

1.3.1 Amostragem aleatria simples


Dizemos que a amostragem aleatria (casual) simples, quando todos
os elementos da populao tem igual probabilidade de serem selecionados
para a amostra.
Exemplo 1.8 Suponhamos uma populao de tamanho m, isto ,
com m elementos, da qual se quer extrair uma amostra de tamanho n, isto
, com n elementos. Se se estabelecer que o elemento selecionado no volte
m

m!

a populao (sem reposio), sero possveis n = n !(m n)! amostras casuais



simples de tamanho n. Tomemos um caso particular numa populao com
3 elementos A, B e C, onde se deseja obter amostras de tamanho 2. Ento,
3

3!

3.2!

=
= 3 . Estas amostras so AB, AC e BC (veja tamso possveis =
2!
2 2!(3 2)!
bm o captulo 1).

1.3.2 Amostragem aleatria estratificada


Os elementos da populao so agrupados em estratos (camadas), de
tal modo que esses diversos estratos sejam o mais possvel diferentes entre
si, e que os elementos de cada estrato sejam o mais possvel semelhantes
entre si. Aps a estratificao da populao, obtm-se de cada camada os
elementos para a amostra segundo os processos j citados (Oliveira e Moreira, 1987). O prximo exemplo, extrado de Callegari-Jacques (2003), representa esse tipo de amostragem.
Exemplo 1.9 Deseja-se avaliar o nmero mdio de cries em escolares de 8 anos de certa escola. Como parece razovel supor que esta varivel
depende do nvel socioeconmico da criana, o procedimento de amostragem escolhido o de amostragem por estratos. Para tanto,
(1) Verifica-se, inicialmente, quais os nveis socioeconmicos existentes (suponha que sejam trs A, B e C).
(2) Avalia-se a participao relativa de cada um, por exemplo, o nvel A
abrange 3% da populao, o nvel b 22% e o C, 75%.
(3) Determina-se ento que, para uma amostra de 120 crianas, quatro devero ser do nvel A (pois 3% de 120 3,6), 26 do nvel B e 90
do C.
(4) Sorteiam-se, aleatoriamente, quatro dentre as crianas do nvel
A, 26 do B e 90 do C. Ou ento realiza-se o sorteio diretamente do
total de crianas da escola e preenchem-se as subamostras conforme os indivduos vo sendo selecionados. Daso seja sorteado um
nmero que corresponda a um aluno A e j tenham sido selecionadas quatro crianas para este estrato, o nmero desprezado e o
sorteio continua.

106

BIOESTATSTICA

1.3.3 Amostragem sistemtica


Nesta tcnica, s um elemento da populao sorteado, os outros
sendo obtidos por um procedimento sistemtico.
Exemplo 1.10 Considere uma populao de 100 elementos, numerados de 00 a 99, de onde se deseja extrair uma amostra de tamanho 20; a
20 1
= . Escolhe-se, ao acaso, um nmero entre 01 e 05,
frao amostral
100 5
que ser o incio casual, por exemplo: 03; sucessivamente vai se tomando 5,
obtendo-se os 20 elementos desejados: 03; 08; 13; 18; ...;98.

BIOESTATSTICA

107

Captulo 2
Noes de inferncia estatstica

2.1 Conceitos introdutrios


J se discutiu, no captulo 9 desta unidade, que os dados de observao e experimentao constituem apenas amostras, fragmentos de um conhecimento geral, representado pelo universo e suas populaes. O objetivo
mais profundo da estatstica fornecer-nos condies para tirarmos concluses sobre populaes, com base em informaes extradas das amostras. a isso que chamamos de Inferncia (ou induo) Estatstica, que se
divide em dois grandes ramos:
a) Estimao

Consiste em avaliar uma medida populacional (parmetro) a partir da informao amostral (estatstica, substantivo comum). Em
geral, para evitar confuso, salienta-se a diferena entre as duas
medidas, assim: - letras romanas para as estatsticas ( X : mdia; s:
desvio padro) e gregas para os respectivos parmetros ( : mdia;
: desvio padro).

b) Teste de hipteses

Consiste em julgar hipteses sobre populaes utilizando os conhecimentos amostrais. V-se que a Inferncia Estatstica, em seus
dois ramos, prope-se a extrair concluses gerais (sobre a populao), dispondo somente de informaes particulares (amostrais),
procedimento que est, fatalmente sujeito a erro, que no pode ser
eliminado, mas que pode ser avaliado, merc dos recursos do clculo de probabilidades e da teoria da amostragem. O erro de que se
fala em estatstica no deve ser confundido com engano, erro grosseiro; antes, aqui o consideramos como conseqncia inevitvel da
tentativa de generalizao, da flutuao amostral.

impossvel, num simples captulo destinado a principiantes, descrever todos os fundamentos e recursos da inferncia estatstica,
de modo que apresentaremos somente, de forma elementar e sem
grandes preocupaes de rigor terico, exemplos simples de aplicaes do mtodo.

2.2 Distribuies amostrais


Imaginemos uma populao (de parmetros desconhecidos e ),
da qual sejam extradas todas as possveis amostras de tamanho n (nmero
de elementos da amostra) e determinada a mdia de cada amostra; o conjunto obtido ser denominado distribuio amostral de mdias ( ou populao de mdias amostrais), demonstrando-se que os seguintes parmetros:

108

BIOESTATSTICA

a)

X = , ou seja, a mdia das mdias amostrais igual a da popu-

lao original.
b)

X =

n , ou seja, o desvio padro das mdias uma frao do

correspondente valor populacional, sendo o denominador a raiz

quadrada do tamanho da amostra. O desvio padro de uma distribuio amostral se chama tambm de erro padro, no caso examinado: erro padro da mdia.
Existem outras distribuies amostrais, de significado igual ao explicado para as mdias: distribuies de propores amostrais, de diferenas
entre mdias amostrais etc...
Os conceitos expedidos nesse tpico so a essncia dos procedimentos da estatstica indutiva. Vamos a eles:

2.3 Estimao
Suponha-se que algum deseje avaliar a glicemia mdia de recmnascidos de mes diabticas e, para isso tome uma amostra de 100 dessas
crianas obtendo-se uma mdia de X =85mg/dL, a qual servir para dar
uma ideia do valor glicmico mdio de todos os recm-nascidos de mes
diabticas. O procedimento vlido, mas no d ideia do erro cometido na
estimao; por exemplo, de supor que examinando 500 crianas, teramos um erro menor, uma aproximao mais precisa do valor proporcional.
mais adequado utilizar um intervalo, chamado intervalo de confiana ,
obtido pela teoria:

X 1,96

s
, que em 95% dos casos conter a mdia populacional.
n

Observaes importantes!
1) 1,96 so os valores que, em unidades de varivel reduzida, compreende 95% sob a curva normal (captulo 6).
2) 1,96

s
o erro de estimativa.
n

3) O valor s (amostral) usado ao invs do valor populacional ,


em geral desconhecido, procedimento que s vlido para grandes
amostras, de tamanho superior a 30, as nicas aqui consideradas.
Exemplo 2.1 Pesos de fgados de adultos com leishmaniose visceral,
representando uma amostra de 49 autpsias, tem mdia X = 1,79kg e desvio
padro s = 0,22kg.
a) Estime o valor populacional para um intervalo de confiana de 95%.
b) No caso anterior, considerando que as estatsticas tivessem sido obtidas de uma amostra de n = 30, qual o efeito sobre o erro da estimativa?
c) Em que situao (ou situaes) o erro cometido da estimativa seria
nulo?

BIOESTATSTICA

109

Soluo:
a) Para n = 49, a frmula nos fornece uma estimativa da mdia verdadeira no intervalo 1,7284 < < 1,8516, com 95% de confiana.
b) Se n = 30, a estimativa seria menos precisa com erro maior (0,0787)
comparado com o erro de 0,0616 para o caso de n = 49.
c) Uma situao seria aquela em que a amostra fosse igual a populao. Do ponto de vista prtico, amostras muito grandes minimizam
o erro.

2.3.1 Estimao de propores


Analogamente ao que acontece com a mdia, a proporo (frequncia
relativa) de uma caracterstica na populao fica estimada pelo intervalo de
confiana de 95%:

p 1,96

p (1 p )
n

onde p a proporo (ou freqncia relativa) da mesma caracterstica


na populao.
Exemplo 2.2 Em 100 crianas tartamudas, 30 so canhotas. Estime, sob confiana de 95%, a proporo de canhotice dentre os tartamudos.
Soluo:

0,30 x0, 70
30
= 0,30 ; n = 100. O intervalo ser 0,30 1,96
= 0,30
100
100
0,09 = 30% 9% , ou seja o intervalo pedido de 21% a 39%.
p=

2.4 Testes de hipteses


Vamos introduzir esse tema com um exemplo simples, extrado de Oliveira e Moreira (1987). Suponha que certo indivduo, suspeitando que uma
moeda viciada, planeja o seguinte experimento: lan-la, aleatoriamente,
6 vezes e contar o nmero de resultados obtidos (caras ou coroas); rejeita a
honestidade da moeda se sempre que ocorrer a mesma face. Qual a probabilidade (risco) de considerar viciada uma moeda honesta?
Para tratar esse tipo de questo, faremos o que se denomina teste de
hipteses, cujo procedimento ser descrito a seguir. So bsicos na teoria
dos testes de hipteses os seguintes conceitos:

2.4.1 Tipos de hipteses

110

a) H0: hiptese de nulidade, ou seja, aquela que envolve uma


igualdade; por exemplo, se estudamos associao entre tabagismo
e cncer de pulmo, H0 ser admitir que, dentre os fumantes, a incidncia de cncer de pulmo a mesma que dentre no fumantes.

b) H1: hiptese alternativa, toda aquela diferente de H0; na associao entre tabagismo e cncer de pulmo, so hipteses alternativas, incidncia de cncer de pulmo dentre os fumantes maior
BIOESTATSTICA

que dentre os no fumantes, incidncia de cncer de pulmo dentre


os fumantes diferente da incidncia dentre os no fumantes.

2.4.2 Tipos de erros


a) Erro tipo I: consiste em rejeitar H0 quando realmente, deveria ser
aceita.
b) Erro tipo II: consiste em aceitar H0, quando realmente, deveria ser
rejeitada.
Para compreenso destes tipos de erros, vamos analisar um exemplo extrado de Vieira (1988): vamos supor que para saber se a proporo
de crianas do sexo masculino, nascidas em certa localidade durante os
ltimos, estatisticamente diferente de 0,5, um pesquisador fez um levantamento de dados junto ao registro civil da localidade. Suponha tambm que a
amostra casual simples, obtida pelo pesquisador, tem tamanho n = 4.

O pesquisador estabelece ento duas hipteses:


i) H0 : essa proporo 0,5
H0 : p = 0,5
ii) H1: essa proporo diferente de 0,5
H1: p 0,5
O objetivo do pesquisador , ento, testar H0 : p = 0,5 contra H1: p
0,5, com base em uma amostra n = 8.
Como j visto no captulo 6, o nmero de registros de meninos, em um
conjunto de n registros, uma varivel aleatria com distribuio binomial.
Sob H0 , a proporo de crianas do sexo masculino, nascidas na localidade durante os ltimos 5 anos, p = 0,5. Ento, sob H0 , esperamos que em
amostras de 8 registros existam, em mdia, 4 registros relativos crianas
do sexo masculino. Parece bastante evidente que o pesquisador no deva
rejeitar a hiptese de que a proporo de crianas do sexo masculino p =
0,5, se verificar que dos 8 registros amostrais 4 ou um nmero prximo de
4 so de meninos.
Por outro lado se esse nmero estiver distante de 4, parece razovel
estabelecer que o pesquisador deve rejeitar a hiptese de nulidade.
Sabemos que o nmero de registros relativos a crianas do sexo masculino, em um total de 8 registros, uma varivel aleatria que pode assumir qualquer valor inteiro, entre 0 e 8, inclusive. Vamos considerar ento
que o pesquisador estabeleceu a seguinte regra de deciso, em funo dos
valores que podem ser assumidos por essa varivel aleatria, que representaremos por X:
i) Se o nmero de registros relativos a meninos for muito pequeno,
isto , 0 ou 1, ou ento for muito grande, isto , 7 ou 8, ser rejeitada
H0 : p = 0,5.

ii) Se o nmero de registros relativos a meninos assumir ou um


valor igual mdia ou um valor prximo da mdia, isto , 2,3,4,5
e 6, no ser rejeitada H0 : p = 0,5.

A pergunta crucial agora : A DECISO TOMADA, COM BASE NA REGRA ESTABELECIDA, EST SEMPRE CORRETA?

BIOESTATSTICA

111

Vamos responder essa pergunta discutindo os possveis erros que podem ser cometidos.
O pesquisador pretende, com base em uma amostra de 8 registros,
testar H0 : p = 0,5. Ficou estabelecido que se o nmero registros de meninos
for igual a 0, 1, 2, 7 ou 8, a hiptese H0 : p = 0,5 dever ser rejeitada.
Entretanto, mesmo que a proporo de crianas do sexo masculino
nascidas na localidade durante os ltimos cinco anos seja p = 0,5, em uma
amostra de 8 registros pode no aparecer nenhum registro de menino ou
aparecer apenas 1, bem como aparecer um nmero elevado como 7 ou 8.
Ento, a regra de deciso que estabelecemos pode nos levar a rejeitar a
hiptese H0: p = 0,5, em casos onde essa hiptese verdadeira. claro que
podemos modificar a regra de deciso, mas isso no evita o aparecimento de
erros, logo no podemos estar certos de que a deciso tomada, em funo
dessa regra correta.
Assim, evitar qualquer um desses tipos de erro no possvel, pelo
que devemos nos contentar em lhes estabelecer um limite. Falaremos apenas para o do tipo I, mais importante, atravs do conceito seguinte.

2.4.3 Nvel de significncia


a mxima probabilidade de se cometer um erro do tipo I , ou seja,
consiste no risco de aceitar uma diferena inexistente. Geralmente, esse
nvel pr-fixado em 5% (deteco de diferenas significativas), s vezes em
1% (deteco de diferenas altamente significativas).

2.5 Teste da diferena entre duas mdias


Em experimentos biolgicos, surge, frequentemente, a necessidade de
se estabelecer se a diferena entre as mdias de 2 amostras (tratamento e
controle) reflete, efetivamente, uma diferena entre valores populacionais;
em outras palavras: determinada diferena de mdias amostrais espelha
uma realidade geral ou se trata apenas de consequncia do acaso? A resoluo estatstica de tais situaes pode ser feita de vrias formas, envolvendo
certas premissas , mas o procedimento seguinte , em princpio, vlido, desde que trabalhemos com amostras grandes (n 30) e aleatrias; baseia-se
na distribuio normal.
Nvel de significncia: p = 2,5% + 2,5% = 5%
A estatstica-teste a varivel reduzida:

z=

X1 X 2
s12 s22
+
n1 n2

Se: z 1,96, rejeitamos H0, a um nvel de significncia de 5%, ou


seja, a diferena significativa pois h apenas 5% de probabilidade de ser
resultante de flutuao do acaso.
Se: z > 1,96, aceitamos H0, no h elementos para suportar a existncia de uma diferena real.

112

BIOESTATSTICA

Exemplo 2.3 Um pesquisador, desejando averiguar possveis diferenas entre pesos de filhos recm-nascidos de mes no fumantes ( grupo
I ) e de filhos de mes fumantes ( grupo II ), toma, ao acaso, uma amostra
de cada grupo, obtendo os resultados:
GRUPOS
Dados

GRUPO I

GRUPO II

Nmero de crianas

n1 = 100

n12 = 80

Peso mdio

X 1 = 3,9kg

X 2 = 3,6kg

Desvio padro

s1 = 0,4kg

s2 = 0,4kg

Temos: H0: O peso de filhos de no fumantes igual ao dos filhos de fumantes; simbolicamente: 1 = 2
H1 : Os pesos mdios so diferentes 1 2
O valor da estatstica-teste :

z=

3,9 3, 6
0, 42 0,32
+
100
80

0,3
= 6 > 1,96
0, 05

Concluso:
Rejeita-se H0; existe uma diferena significativa, ao nvel de 5%, entre os
pesos de recm-nascidos de no fumantes e fumantes.
Nota: Os dados do exerccio acima so hipotticos, mas existem estudos
reais que mostram ser o tabagismo importante fator de gerao de crianas de
baixo peso (muitas, prematuras ponderais, ou seja, com peso inferior a 2,5kg).

2.6 Teste de diferenas entre frequncias


observadas e esperadas
Tambm uma situao muito comum na investigao biolgica averiguar se freqncias observadas na prtica correspondem, razoavelmente,
a frequncias esperadas segundo uma hiptese terica. Esse estudo feitoatravs do qui-quadrado ( ).
2

2.6.1 Estudo da associao para quaisquer tipos de tabelas


bidimensionais
Considere a seguinte tabela:
Masculino
Fumante

Sim

No

Total

Sim

80

No

100

Total

45

135

BIOESTATSTICA

180

113

Preencha as caselas em branco, supondo que haja independncia entre sexo e hbito de fumar, ou seja, o percentual de masculinos dentre os
fumantes igual ao percentual de masculinos dentre os no fumantes.
Os resultados que voc obteve na resoluo do problema anterior, obtidos de uma hiptese terica (independncia entre os atributos) so cha-

mados resultados esperados (simbolizados, genericamente, pela letra e), em


contraposio aos resultados da prtica, chamados resultados observados

(simbolizados, genericamente, pela letra o)


Compreenda-se, ento, que, se os resultados observados forem prximos aos esperados, isto sugere independncia entre os atributos; se os
resultados forem muito diferentes dos esperados, estaremos afastados da
hiptese de independncia, o fato sugerindo uma associao entre os atributos.
Tal linha de raciocnio nos conduz a pensar na possibilidade de uma
medida de associao baseada na diferena entre resultados observados e
esperados, medida essa de aplicao genrica para tabelas m x n (m 2; n
2) e independente da ordenao das variveis. Essa medida foi, realmente,
proposta pelo estatstico ingls Pearson e recebe o nome de coeficiente de
contingncia (C), dado pela expresso:

C=

2
2 + n

, onde:

(o e) 2
(leia-se qui-quadrado) =
e
n o total geral da tabela
2

C = 0 indica independncia perfeita


C > 0 sugere associao
Como o valor de C estritamente no negativo, o coeficiente de contingncia apenas sugere a existncia de associao falhando em determinar
seu sentido (associao direta ou inversa). Alm disso: C [0;1), isto , C
um valor compreendido entre 0 (inclusive) e 1 (exclusive). A ausncia de um
limite superior, que varia para cada estrutura de tabela, outra limitao
dessa medida, mas que pode ser contornada pelo uso do coeficiente corrigido (C ) , que tem a expresso:

C = C.

min(m, n)
min(m, n) 1

onde o segundo fator chamado de correo. Por exemplo, para uma


tabela 3X4, teremos:

C = C.

3
3
=C .
3 1
2


Antes de ilustramos o clculo do coeficiente de contingncia, vejamos
uma regra prtica para o clculo dos valores esperados (e): O valor esperado correspondente a cada casela obtido multiplicando-se o total da linha

114

BIOESTATSTICA

(em que se encontra a casela) pelo total da coluna ( em que se encontra a


casela), o produto sendo dividido pelo total geral.
Exemplo 2.4 Seja a tabela, apresentando valores observados (entre
parnteses, esto os valores esperados a serem calculados) :
SEXO
Grupo
sanguneo
A

Masculino

Feminino

Total

112(e1)

88(e2)

200

180(e5)

120(e6)

300

600

400

58(e3)

B
AB
O
Total

250(e7)

42(e4)

150(e8)

100
400
1.000

Pela regra enunciada:

200 x600
200x 400
100 x600
= 60 ;
= 120 ; e2 =
= 80; e3 =
1000
1000
1000

e1 =
e4 =

100 x 400
= 40
1000

e5=

300 x600
300 x 400
400 x600
= 180 ; e6 =
= 120 ; e7 =
= 240 ;
1000
1000
1000

e8 =

400 x 400
= 160
1000

Assim, temos a tabela completa (com valores observados fora dos parnteses e valores esperados dentro dos parnteses):
SEXO
Grupo sanguneo

Masculino

Feminino

Total

112(120)

88(80)

200

58(60)

42(40)

100

AB

180(180)

120(120)

300

250(240)

150(160)

400

Total

600

400

1.000

Para o clculo do coeficiente de contingncia, temos:


(88 80) 2 (58 60) 2 (42 40) 2 (180 180) 2
(112 120) 2
+
+
+
+
+
60
80
40
120
180
(120 120) 2 (250 240) 2 (150 160) 2
+
+
= 2,55
120
240
160

2 =

BIOESTATSTICA

115

8,17
0, 05 . O valor corrigido ser:
2,55 + 1000

Logo : C =

2
= 0,09. 2 0,07 , valor prximo de zero, o que sugere
2 1

C = 0,09

independncia entre sexo e grupo sanguneo, como era de se esperar.

Exemplo 2.5 Um pesquisador, desejando estudar, luz de dados


experimentais, se as crias de um casal de coelhos se repartem, igualmente,
segundo os dois sexos, obteve os resultados, aps vrias gestaes:
SEXO

Numero observado

Masculino

44

Feminino

36

Total

80

H0: O nmero de filhotes masculinos gerados igual de ao nmero de


femininos.
H1: Os nmeros so diferentes.
No problema considerado, o nmero de graus de liberdade : 2 1 = 1,
pois, se uma das caselas for, por uma hiptese qualquer, preenchida, a outra fica automaticamente determinada pelo total. Na tabela, para p = 0,05 e
gl = 1, o valor crtico encontrado 3,84.
Calculemos, agora, a estatstica-teste, antes determinando os valores
esperados segundo H0.
Sexo

Observados (o)

Esperados (e)

Masculino

44

40

Feminino

36

40

Total

80

80

2 =

(44 40) 2 (36 40) 2 16 16 32


+
=
+
=
=,80
40
40
40 40 40

<

3,84

Concluso:
Aceita-se H0, os dados so compatveis com a hiptese de igualdade de
nascimentos de machos e fmeas.

116

BIOESTATSTICA

No primeiro captulo desta unidade foram introduzidos conceitos fundamentais como amostra, populao e universo, sendo tais conceitos discutidos
no mbito das escalas de medidas, bem como foram apresentadas as principais tcnicas de amostragem , destacando a importncia da aleatoriedade neste
estudo. O captulo 10 destinou-se a introduzir o mais importante aspecto da
estatstica a inferncia. Tcnicas de grande alcance, como estimao e teste
de hipteses, foram apresentados dando um suporte para que o estudante, futuramente, possa melhor-los em cursos de ps-graduao.

1. Considere como universo os habitantes da cidade de Felizlndia em


setembro de 2009. Descreva 5 populaes e 5 amostras oriundas desse universo.
2. Responda ao que se pede:
a) D exemplos de variveis nas escalas nominal, ordinal, intervalar
e de razes.
b) Variveis na escala intervalar podem ser somadas? E na escala
ordinal?
c) Variaes de temperatura podem ser divididas? Por qu?
d) Tempo uma varivel intervalar? Por qu?
e) Idade varivel em escala de razes? Por qu?
3. Suponha uma populao com 5 elementos A, B, C D e E, da qual
se deseja obter uma amostra casual simples de tamanho 3. Quantas
amostras so possveis? Quais so elas?
4. Um pesquisador dispe de 10 cobaias para realizar um experimento
sobre a toxicidade de uma droga. Os cinco primeiros animais que ele
consegue pegar so utilizados para o teste da droga e os 5 restantes
serviro de controle. Esta amostragem no boa. Como voc agiria?
5. Em uma pesquisa de mercado para servios odontolgicos em certa
cidade, foi estabelecida a seguinte tcnica de amostragem: tomou-se
uma lista de nomes de clientes de uma loja de um shopping center,
onde a lista est em ordem alfabtica do ltimo sobrenome, e se amostrou o quinto de cada 10 nomes da lista. Discuta este procedimento.
6. Admitindo que o desvio padro de taxas de ureia plasmtica em adultos normais de 3mg/dL, qual o tamanho mnimo da amostra para
que se tenha um erro de estimativa no superior a 0,5mg/dL?

BIOESTATSTICA

117

7. Um pesquisador admite que, em portadores de determinada doena, os grupos sanguneos (sistema ABO) se distribuem na proporo
A:B:O:AB::1:2:3:4. Analise esta hiptese luz dos seguintes dados de
observao sobre 200 pacientes, tomados aleatoriamente:
Grupo Sanguneo

Nmero de observaes

60

40

AB

35

65

Total

200

8. Considere os seguintes dados sobre colesterolemia (mg/dL) em 2 amostras independentes de pacientes:


Grupos
Mdia
Desvio padro

II

X 1 =260

X 2 = 250

n1 = 30

n2 = 30

s1= 20

Tamanho da amostra

s2= 25

Teste, ao nvel de 5%, a hiptese de igualdade entre as mdias populacionais.


9. Suponha, agora, que com as mesmas mdias do exerccio anterior,
tenha-se os dados:
Grupos
Mdia
Desvio padro

II

X 1 =260

X 2 = 250

n1 = 100

n2 = 100

s1= 10

Tamanho da amostra

s2= 8

Teste, ao nvel de 5%, a hiptese de igualdade entre as mdias populacionais. Como explicar que, agora, embora mesmo persistindo a diferena
amostral: 260 250 = 10mg/dL, a concluso seja diferente da do exerccio
anterior?
10. Teste a hiptese de independncia para os dados da tabela abaixo, a
respeito dos efeitos de um processo de vacinao.
IMUNIZADOS

118

VACINADOS

SIM

NO

TOTAL

SIM

75

45

90

NO

40

45

85

TOTAL

115

60

175

BIOESTATSTICA

Efeito indesejvel no levantamento de dados: efeito placebo


O efeito placebo ocorre quando um indivduo participante de um experimento, mas no tratado, acredita estar recebendo o tratamento e passa
a relatar melhoras em seus sintomas. Uma forma de administrar placebo
por via oral em Placebo uma substncia neutra, isto , que no apresenta
nenhum princpio ativo capaz de comprimidos consiste em dar ao indivduo um comprimido de farinha. Outra forma apresentar a substncia
diluda em uma bebida, como suco ou ch. Normalmente, os comprimidos
de placebo possuem o mesmo formato dos comprimidos verdadeiros, isto ,
aqueles que contm o princpio ativo. A inteno com esse procedimento
a de que o paciente, ao tomar o placebo, de fato pense estar tomando uma
substncia que ir lhe trazer uma mudana de estado. Naturalmente, nada
deveria ocorrer com ele e, se relatar melhora, obviamente estar sendo objeto
do efeito placebo. Este procedimento de fundamental importncia para
isolar a ao do sal ao se testar sua eficcia. O procedimento experimental
empregado para testar o efeito de determinada substncia eliminando o
efeito placebo consiste em separar os pacientes em dois grupos. O primeiro
denominado controle recebe comprimidos de placebo; enquanto o segundo denominado tratamento recebe os comprimidos verdadeiros. Devido
ao fato de os pacientes participantes do experimento no saberem ao certo
se esto sendo tratados (recebendo o comprimido verdadeiro), um estudo
que adota esse procedimento denominado estudo cego ou blind
(Extrado de ARANGO, 2005).

ARANGO, H. G. Bioestatstica: terica e computacional. Rio de Janeiro:


Guanabara Koogan, 2005. 423 p.
CALLEGARI-JACQUES, S. M. Bioestatstica: princpios e aplicaes. Porto
Alegre: Artmed, 2003. 255 p.
OLIVEIRA, E. G.; MOREIRA, O. C. Guia para o ensino introdutrio da
estatstica nos cursos da rea de sade. Fortaleza: UECE, 1987.149 p.
VIEIRA, S. Introduo bioestatstica. Rio de Janeiro: Editora Campus,
1988. 294 p.

BIOESTATSTICA

119

Genrio Sobreira Santiago


Bacharel em Medicina veterinria (UECE - 1985);
Licenciado em Matemtica (UECE - 2007);
Mestre em Zootecnia (UFMG - 1990);
Doutor em Cincia Animal (UFMG - 2001);
Atualmente Professor Adjunto da UECE.
Rui Eduardo Brasileiro Paiva
Licenciado em Matemtica (UECE - 2007);
Especialista em Ensino de Matemtica (UECE - 2009);
Atualmente Professor do Curso de Matemtica da UECE.

120

BIOESTATSTICA

Anexo 1
Tabela 1A - Valores de

segundo o valor de

0,1

0,904837

3,1

0,045049

6,1

0,002243

0,2

0,818731

3,2

0,040762

6,2

0,002029

0,3

0,740818

3,3

0,036883

6,3

0,001836

0,4

0,670320

3,4

0,033373

6,4

0,001662

0,5

0,606531

3,5

0,030197

6,5

0,001503

0,6

0,548812

3,6

0,027324

6,6

0,001360

0,7

0,496585

3,7

0,024724

6,7

0,001231

0,8

0,449329

3,8

0,022371

6,8

0,001114

0,9

0,406570

3,9

0,020242

6,9

0,001008

1,0

0,367879

4,0

0,018316

7,0

0,000912

1,1

0,332871

4,1

0,016573

7,1

0,000825

1,2

0,301194

4,2

0,014996

7,2

0,000747

1,3

0,272532

4,3

0,013569

7,3

0,000676

1,4

0,246597

4,4

0,012277

7,4

0,000611

1,5

0,223130

4,5

0,011109

7,5

0,000553

1,6

0,201897

3,6

0,010052

7,6

0,000500

1,7

0,182684

4,7

0,009095

7,7

0,000453

1,8

0,165299

4,8

0,008230

7,8

0,000410

1,9

0,149569

4,9

0,007447

7,9

0,000371

2,0

0,135335

5,0

0,006738

8,0

0,000335

2,1

0,122456

5,1

0,006097

8,1

0,000304

2,2

0,110803

5,2

0,005517

8,2

0,000275

2,3

0,100259

5,3

0,004992

8,3

0,000249

2,4

0,090718

5,4

0,004517

8,4

0,000225

2,5

0,082085

5,5

0,004087

8,5

0,000203

2,6

0,074274

5,6

0,003698

8,6

0,000184

2,7

0,067206

5,7

0,003346

8,7

0,000167

2,8

0,060810

5,8

0,003028

8,8

0,000151

2,9

0,055023

5,9

0,002739

8,9

0,000136

3,0

0,049787

6,0

0,002479

9,0

0,000123

BIOESTATSTICA

121

Anexo 2
Tabela 2A - Distribuio normal reduzida P(0<Z<z).

ltimo dgito

122

0,0

0,0000

0,0040

0,0080

0,0120

0,0060

0,0199

0,0239

0,0279

0,0319

0,0359

0,1

0,0398

0,0438

0,0478

0,0517

0,0557

0,0596

0,0636

0,0675

0,0714

0,0753

0,2

0,0793

0,0832

0,0871

0,0910

0,0948

0,0987

0,1026

0,1064

0,1103

0,1141

0,3

0,1179

0,1217

0,1255

0,1293

0,1331

0,1368

0,1406

0,1443

0,1480

0,1517

0,4

0,1554

0,1591

0,1628

0,1664

0,1700

0,1736

0,1772

0,1808

0,1844

0,1879

0,5

0,1915

0,1950

0,1985

0,2019

0,2054

0,2088

0,2123

0,2157

0,2190

0,2224

0,6

0,2257

0,2291

0,2324

0,2357

0,2389

0,2422

0,2454

0,2486

0,2517

0,2549

0,7

0,2580

0,2611

0,2642

0,2673

0,2707

0,2734

0,2764

0,2794

0,2823

0,2852

0,8

0,2881

0,2910

0,2939

0,2967

0,2995

0,3023

0,3051

0,3078

0,3106

0,3133

0,9

0,3159

0,3186

0,3212

0,3238

0,3264

0,3289

0,3315

0,3340

0,3365

0,3389

1,0

0,3413

0,3438

0,3461

0,3485

0,3508

0,3531

0,3554

0,3577

0,3599

0,3621

1,1

0,3643

0,3665

0,3686

0,3708

0,3729

0,3749

0,3770

0,3790

0,3810

0,3830

1,2

0,3849

0,3869

0,3888

0,3907

0,3925

0,3944

0,3962

0,3980

0,3997

0,4015

1,3

0,4032

0,4049

0,4066

0,4082

0,4099

0,4115

0,4131

0,4147

0,4162

0,4177

1,4

0,4192

0,4207

0,4222

0,4236

0,4251

0,4265

0,4279

0,4292

0,4306

0,4319

1,5

0,4332

0,4345

0,4357

0,4370

0,4382

0,4394

0,4406

0,4418

0,4429

0,4441

1,6

0,4452

0,4463

0,4474

0,4484

0,4495

0,4505

0,4515

0,4525

0,4535

0,4545

1,7

0,4554

0,4564

0,4573

0,4582

0,4191

0,4599

0,4608

0,4616

0,4625

0,4633

1,8

0,4641

0,4649

0,4658

0,4664

0,4671

0,4678

0,4686

0,4693

0,4699

0,4706

1,9

0,4713

0,4719

0,4726

0,4732

0,4738

0,4744

0,4750

0,4756

0,4761

0,4767

2,0

0,4772

0,4778

0,4783

0,4788

0,4793

0,4798

0,4803

0,4808

0,4812

0,4817

2,1

0,4821

0,4826

0,4830

0,4834

0,4838

0,4842

0,4846

0,4850

0,4854

0,4857

2,2

0,4861

0,4864

0,4868

0,4871

0,4875

0,4878

0,4881

0,4884

0,4887

0,4890

2,3

0,4893

0,4896

0,4898

0,4901

0,4904

0,4906

0,4909

0,4911

0,4913

0,4916

2,4

0,4918

0,4920

0,4922

0,4925

0,4927

0,4929

0,4931

0,4932

0,4934

0,4936

2,5

0,4938

0,4940

0,4941

0,4943

0,4945

0,4946

0,4948

0,4949

0,4951

0,4952

2,6

0,4953

0,4955

0,4956

0,4957

0,4959

0,4960

0,4961

0,4962

0,4963

0,4964

2,7

0,4965

0,4966

0,4967

0,4968

0,4969

0,4970

0,4971

0,4972

0,4973

0,4974

2,8

0,4974

0,4975

0,4976

0,4977

0,4977

0,4978

0,4979

0,4979

0,4980

0,4981

2,9

0,4981

0,4982

0,4982

0,4983

0,4984

0,4984

0,4985

0,4985

0,4986

0,4986

3,0

0,4987

0,4987

0,4987

0,4988

0,4988

0,4989

0,4989

0,4989

0,4990

0,4990

BIOESTATSTICA