Você está na página 1de 132

Ciências Biológicas

F
iel a sua missão de interiorizar o ensino superior no estado Ceará, a UECE,
como uma instituição que participa do Sistema Universidade Aberta do
Brasil, vem ampliando a oferta de cursos de graduação e pós-graduação
na modalidade de educação a distância, e gerando experiências e possibili-
dades inovadoras com uso das novas plataformas tecnológicas decorren-
Ciências Biológicas
tes da popularização da internet, funcionamento do cinturão digital e

Bioestatística
massificação dos computadores pessoais.
Comprometida com a formação de professores em todos os níveis e
a qualificação dos servidores públicos para bem servir ao Estado,
os cursos da UAB/UECE atendem aos padrões de qualidade
estabelecidos pelos normativos legais do Governo Fede-
ral e se articulam com as demandas de desenvolvi-
Bioestatística
mento das regiões do Ceará.

Universidade Estadual do Ceará - Universidade Aberta do Brasil


Genário Sobreira Santiago
Rui Eduardo Brasileiro Paiva

Geografia

12

História

Educação
Física

Ciências Artes
Química Biológicas Plásticas Computação Física Matemática Pedagogia
Ciências Biológicas

Bioestatística

Genário Sobreira Santiago


Rui Eduardo Brasileiro Paiva

Geografia
2ª edição
Fortaleza - Ceará 9
12

História
2015

Educação
Física

Ciências Artes
Química Biológicas Plásticas Computação Física Matemática Pedagogia
Copyright © 2015. Todos os direitos reservados desta edição à UAB/UECE. Nenhuma parte deste material poderá
ser reproduzida, transmitida e gravada, por qualquer meio eletrônico, por fotocópia e outros, sem a prévia autori-
zação, por escrito, dos autores.

Editora Filiada à

Presidenta da República Conselho Editorial


Dilma Vana Rousseff
Antônio Luciano Pontes
Ministro da Educação
Renato Janine Ribeiro Eduardo Diatahy Bezerra de Menezes
Presidente da CAPES Emanuel Ângelo da Rocha Fragoso
Carlos Afonso Nobre Francisco Horácio da Silva Frota
Diretor de Educação a Distância da CAPES Francisco Josênio Camelo Parente
Jean Marc Georges Mutzig
Gisafran Nazareno Mota Jucá
Governador do Estado do Ceará
Camilo Sobreira de Santana José Ferreira Nunes
Reitor da Universidade Estadual do Ceará Liduina Farias Almeida da Costa
José Jackson Coelho Sampaio
Lucili Grangeiro Cortez
Vice-Reitor
Hidelbrando dos Santos Soares Luiz Cruz Lima
Pró-Reitora de Graduação Manfredo Ramos
Marcília Chagas Barreto Marcelo Gurgel Carlos da Silva
Coordenador da SATE e UAB/UECE Marcony Silva Cunha
Francisco Fábio Castelo Branco
Maria do Socorro Ferreira Osterne
Coordenadora Adjunta UAB/UECE
Eloísa Maia Vidal Maria Salete Bessa Jorge
Direção do CCS/UECE Silvia Maria Nóbrega-Therrien
Glaúcia Posso Lima
Coordenadora da Licenciatura Conselho Consultivo
em Ciências Biológicas Antônio Torres Montenegro (UFPE)
Germana Costa Paixão
Eliane P. Zamith Brito (FGV)
Coordenadora de Tutoria e Docência em Ciências
Biológicas Homero Santiago (USP)
Roselita Maria de Souza Mendes Ieda Maria Alves (USP)
Editor da EdUECE Manuel Domingos Neto (UFF)
Erasmo Miessa Ruiz
Maria do Socorro Silva Aragão (UFC)
Coordenadora Editorial
Rocylânia Isidio de Oliveira Maria Lírida Callou de Araújo e Mendonça (UNIFOR)
Projeto Gráfico e Capa Pierre Salama (Universidade de Paris VIII)
Roberto Santos Romeu Gomes (FIOCRUZ)
Diagramador
Túlio Batista Franco (UFF)
Marcus Lafaiete da Silva Melo

Dados Internacionais de Catalogação na Publicação


Sistema de Bibliotecas
Biblioteca Central Prof. Antônio Martins Filho
Thelma Marylanda Silva de Melo – CRB-3 / 623
Bibliotecária

S235b Santiago, Genário Sobreira.


Bioestatística / Genário Sobreira Santiago , Rui
Eduardo Brasileiro Paiva. 2. ed. – Fortaleza: EdUECE, 2015.
131 p.: il. ; 20,0cm x 25,5cm. (Ciências Biológicas)

ISBN: 978-85-78263-40-9
1. Bioestatística . I . Paiva , Rui Eduardo Brasileiro.
II. Título.
CDD: 312

Editora da Universidade Estadual do Ceará – EdUECE


Av. Dr. Silas Munguba, 1700 – Campus do Itaperi – Reitoria – Fortaleza – Ceará
CEP: 60714-903 – Fone: (85) 3101-9893
Internet: www.uece.br – E-mail: eduece@uece.br
Secretaria de Apoio às Tecnologias Educacionais
Fone: (85) 3101-9962
Sumário
Apresentação..................................................................................................... 5
Parte 1 – Conceitos Fundamentais................................................................ 7
Capítulo 1 – Elementos de matemática......................................................... 9
1. Somatório (notação sigma)............................................................................... 9
2. Fenômenos determinísticos e aleatórios........................................................ 10
3. Modelos matemáticos...................................................................................... 10
4. Noções sobre conjuntos.................................................................................. 14
5. Análise combinatória........................................................................................ 16

Parte 2 – Descrição das amostras................................................................ 23


Capítulo 2 – Organização tabular e gráfica dos dados............................. 25
1. Representação tabular.................................................................................... 25
2. Representação gráfica.................................................................................... 32

Capítulo 3 – Medidas de tendência central................................................. 39


1. Introdução......................................................................................................... 39
2. Média aritmética ( x )....................................................................................... 39
3. Mediana (Md)................................................................................................... 42
4. Moda (Mo)........................................................................................................ 44

Capítulo 4 – Medidas de dispersão ou de variabilidade........................... 46


1. Importância da variabilidade............................................................................ 46
2. Amplitude total.................................................................................................. 46
3. Variância........................................................................................................... 47
4. Desvio padrão.................................................................................................. 48
5. Coeficiente de variação (C.V.)........................................................................ 50

Parte 3 – Noções de Probabilidade.............................................................. 57


Capítulo 5 – Probabilidade: conceitos fundamentais............................... 59
1. Conceito de probabilidade............................................................................... 59
2. Espaço amostral e evento............................................................................... 60
3. Probabilidade: definição e propriedades......................................................... 60
4. Adição de probabilidades................................................................................. 62
5. Probabilidade condicional................................................................................ 63
6. Teorema da multiplicação................................................................................ 64

Capítulo 6 – Modelos probabilísticos em biologia..................................... 65


1. Modelos probabilísticos................................................................................... 65
2. Modelo (distribuição) binomial......................................................................... 65
3. Distribuição de Poisson................................................................................... 69
4. Distribuição normal........................................................................................... 70

Parte 4 – Associação de variáveis................................................................ 79


Capítulo 7 – Correlação linear simples........................................................ 81
1. Conceito de correlação................................................................................... 81
2. Diagrama de dispersão.................................................................................... 81
3. Coeficientes de correlação linear (r) e de determinação (r2)....................... 83

Capítulo 8 – Regressão linear simples........................................................ 86


1 A ideia de aproximação linear........................................................................... 86
2. Regressão linear simples................................................................................. 87
3. Transformações de variáveis.......................................................................... 89
Parte 5 – Inferência Estatística.................................................................... 107
Capítulo 9 – Noções sobre amostragem................................................... 109
1. População e amostra.....................................................................................109
2. Variáveis e escalas e medidas.......................................................................111
3. Amostragem................................................................................................... 112
Capítulo 10 – Noções de inferência estatística........................................ 115
1. Conceitos introdutórios.................................................................................. 115
2. Distribuições amostrais.................................................................................. 116
3. Estimação....................................................................................................... 116
4. Testes de hipóteses........................................................................................ 117
5 Teste da diferença entre duas médias...........................................................120
6. Teste de diferenças entre frequências observadas e esperadas...............121
Sobre os autores........................................................................................... 128
Anexo 1...............................................................................................................129
Apresentação
Um curso de estatística é considerado sempre penoso para estudantes de
todas as áreas e, ao mesmo tempo, é indispensável para um bom desempe-
nho do estudante quando ele é convidado a raciocinar sobre fenômenos que
tratam do estudo de modelos probabilísticos. Em biologia, não é diferente.
Assim, a variabilidade na ocorrência dos fenômenos e a incerteza associada
aos mesmos é que constitui o problema central de estatística, de modo que a
estatística repousa inteiramente na teoria das probabilidades.
Afirmações estatísticas são sempre afirmações sobre a probabilidade
de ocorrência de certo tipo de fenômeno, a partir de um conjunto de condi-
ções teóricas satisfeitas. Isto é a base de inferência estatística, que, na última
parte do livro, é tratada de modo elementar, sendo dada maior ênfase à pri-
meira finalidade da estatística: descrever, analisar e representar um grupo de
dados, utilizando métodos numéricos e gráficos que resumem e apresentam
a informação contida neles. Isto é o fundamento da estatística descritiva que
é o cerne deste despretensioso trabalho.

Os autores
Capítulo
Parte 1
Conceitos Fundamentais
Procedimentos de ensino
Capítulo 1
Elementos de matemática
Objetivos
l Compreender e utilizar a notação de somatório (notação sigma).
l Revisar alguns conceitos de análise combinatória.
l Interpretar a equação de uma reta, como modelo linear.
l Compreender algumas idéias básicas sobre conjuntos.

1. Somatório (notação sigma)


Para indicarmos a soma dos valores xi de uma variável x, isto é ,
x1 + x2 + ... + xn usamos o símbolo ∑ (letra maiúscula grega: sigma), denomi-
nado em matemática somatório. Assim, a soma a soma x1 + x2 + ... + xn pode
ser representada por :
5

∑ x ( lemos : somatório de x índice i, i variando de 1 a 5) isto é


i =1
i

∑x =x
i =1
i 1
+ x2 + ... + xn

Exemplo 1.1. Escreva sob a forma de somatório


a) x1 + x2 + x3 + x4
b) 1 + 2 + 3 +...+ n
Solução:
4
a) x1 + x2 + x3 + x4 = ∑x
i =1
i

n
b) 1 + 2 + 3 +...+ n = ∑k
k =1
10
SANTIAGO, G. S., PAIVA, R. E. B.

2. Fenômenos determinísticos e aleatórios


Consideremos as seguintes situações:
a) Um gás perfeito com volume de 10 litros e sob pressão de 4 atmosferas,
transforma-se, isotermicamente, passando a ocupar um volume de 8 litros.
Qual a pressão final?
b) A um indivíduo de 50 anos, com pressão diastólica de 12cm/Hg, administra-
ram-se 40mg de um betabloqueador, diariamente. Ao final de 10 dias, que
valor passa a assumir o referido nível tensional.
Na situação A, pode-se afirmar, com segurança, que a pressão final
será de 5 atmosferas, aplicando-se a conhecida lei de Boyle Mariotte:
PV=constante; logo: 10.4 = 8.P ⇒ P = 5 atm.
Já na outra situação, é impossível se prever qual será a pressão do indi-
víduo após a administração do medicamento. No máximo, a resposta poderia
ser em termos de: “provavelmente, pelo que se conhece do medicamento, a
pressão diastólica baixará, talvez no máximo uns 3 cm/Hg”.
A situação A caracteriza um fenômeno determinístico, que é aquele cujo
comportamento pode ser previsto com exatidão; ou seja, conhecido o estado
inicial, fica determinado o estado final. Esses fenômenos pertencem ao do-
mínio das ciências exatas, dos seres idealizados (gases perfeitos, líquidos
perfeitos, concepções matemáticas).
A situação B refere-se a fenômeno aleatório, de comportamento imprevisí-
vel; o estado final não pode ser exatamente determinado a partir do estado inicial.

3. Modelos matemáticos
O comportamento dos fenômenos determinísticos é estudado, quantitativamen-
te, usando fórmulas matemáticas exatas (lei de Boyle-Mariotte, teorema de Pitá-
goras etc). No entanto, o estudo de fenômenos aleatórios (objeto de estudo as
estatística), do ponto de vista quantitativo é feito através de fórmulas matemá-
ticas aproximadas, que se conhecem como modelos matemáticos. Assim, um
modelo matemático é uma descrição matemática (frequentemente por meio
de uma função ou de uma equação) de um fenômeno do mundo real, tal como
o tamanho de uma população, a concentração de um fármaco no sangue, a
expectativa de vida de uma pessoa ou o custo de redução dos poluentes. Um
esquema básico na elaboração de um modelo é mostrado na Figura 1.1.
Bioestatística 11

Figura 1.1 – Esquema básico necessário para a elaboração de um modelo


(Oliveira e Moreira, 1987).

Na elaboração de modelos, o ponto de partida é a prática (a observa-


ção, a experimentação), ou premissas teóricas sugeridas pela prática. Parâ-
metros são medidas associadas a um dado fenômeno e a inter-relação entre
parâmetros selecionados constitui um modelo matemático. Resultados espe-
rados são aqueles obtidos pela aplicação de um modelo, em contraposição a
resultados observados, obtidos diretamente da prática.

3.1. Construção de um modelo matemático simples: um modelo linear


Quando dizemos que y é uma função linear de x, queremos dizer que o gráfi-
co da função é uma reta e, portanto, matematicamente representada por uma
equação do tipo
y = ax + b
Onde a é a inclinação da reta e b o intercepto em Y. Uma característica
peculiar das funções lineares é que elas crescem (ou decrescem) a uma taxa
constante. O exemplo a seguir, modificado de STEWART (2003) é um bom
exemplo de um modelo linear.
Exemplo 1.2 – A Tabela 1.1 fornece uma lista de níveis médios de dióxido
de carbono na atmosfera, medidos em partes por milhão no Observatório de
Mauna Loa, de 1972 a 1990. Usando os dados desta tabela vamos encontrar
um modelo matemático para o nível de dióxido de carbono.
12
SANTIAGO, G. S., PAIVA, R. E. B.

Tabela 1.1
VARIAÇÃO DO NÍVEL DE DIÓXIDO DE CARBONO (CO2) SEGUNDO O ANO
Ano Níveis reais de CO2 (em ppm) Níveis obtidos de CO2 com uso do modelo
1972 327,3 327, 297
1974 330,0 330, 263
1976 332,0 333, 230
1978 335,3 336, 197
1980 338,5 339, 163
1982 341,0 342, 130
1984 344,3 345, 097
1986 347,0 348, 063
1988 351,3 351, 030
1990 354,0 353, 997
Fonte: Modificado de Stewart (2003).

Solução:
Vamos usar os dados da tabela acima para fazer um mapa de dispersão,
mostrado na Figura 1.2, onde t representa o tempo (em anos) e C representa
o nível de CO2 (em ppm).

Figura 1.2 – Mapa de dispersão para o nível médio de CO2 (STEWART, 2003).

Observe que os pontos estão muito próximos de uma linha reta, dessa
forma, é natural escolher um modelo linear neste caso. Porém, há inúmeras
possibilidades de retas que aproximam esses pontos; assim, qual deveríamos
usar? Do gráfico, vemos que uma possibilidade é a reta que passa pelo pri-
meiro e o último ponto dado. A inclinação dessa reta é
Bioestatística 13

354, 0 − 327,3 26, 7


= ≈ 1, 48333
1990 − 1972 18
E sua equação é
C - 327,3 = 1,48333 (t – 1972)
Ou
C = 1,48333t – 2597,83
Essa equação fornece um modelo linear possível para o nível de CO2,
cujo gráfico está na Figura 1.3.

Figura 1.3 – Modelo linear através do primeiro e do último ponto dado (STEWART, 2003).

Embora nosso modelo se ajuste razoavelmente aos dados, ele dá valo-


res mais altos do que a maior parte dos níveis reais de CO2. Um modelo linear
melhor é obtido por meio de um procedimento da estatística chamado de re-
gressão linear (será estudada no capítulo 8). Usando esse recurso estatístico
chegamos a seguinte equação de regressão
C = 1,496667t – 2624,826667

3.2. Variações absolutas e relativas


Seja um parâmetro, cujo valor inicial designamos por E ( i ) e o final, por E ( f ).
A variação absoluta é dada por:
∆=E(f)–E(i)


A variação relativa é dada por ∆r = , geralmente expressa em per-
centagem.
E (i )
14
SANTIAGO, G. S., PAIVA, R. E. B.

Exemplo 1.3 – O peso de um paciente variou, de janeiro a dezembro, de 60


kg a 90 kg. A variação absoluta foi: ∆ = 90 kg – 60 kg = 30 kg e a relativa:
30kg 1
∆r = = = 50%
60kg 2
Exemplo 1.4 – O peso de um paciente aumentou em 20% de janeiro a julho
e em 10% de julho a dezembro. Qual foi a variação percentual de janeiro a
dezembro?
É uma tentação responder, de imediato, e errado: 30%! Para resolver
corretamente, e de forma fácil, problemas envolvendo variações relativas, to-
mamos um início absoluto arbitrário (100, mais cômodo para os cálculos).
Assim, esquematizando:
Janeiro Julho Dezembro
100 120 132

Logo, a variação relativa de janeiro a dezembro foi


132 − 100 32
= = 32%
100 100

4. Noções sobre conjuntos


Assim como em outros assuntos de matemática, também na teoria dos con-
juntos certas noções são aceitas sem definição (primitivas), a fim de servirem
como ponto inicial.
Enquanto na Geometria Euclidiana costuma-se adotar sem definição
as noções de ponto, reta e plano, na teoria dos conjuntos as noções conside-
radas primitivas são as seguintes:
a) conjunto
b) elemento
c) pertinência entre elemento e conjunto
A palavra conjunto sugere a ideia de coleção, grupo ou lista de elemen-
tos. Tais elementos podem ser objetos, pessoas, nomes, números etc. Um
conjunto que tem um único elemento é chamado unitário, enquanto aqueles
sem elemento algum são os vazios. Por convenção os conjuntos são denomi-
nados por letras maiúsculas do nosso alfabeto (com exceção do vazio que é
representado pela letra grega φ ( fi ). Uma das formas de definir um conjunto é
colocar todos os seus elementos entre chaves, um após o outro e separados
por vírgulas, como, por exemplo, o conjunto das vogais é {a, b, c, d , e}.
Bioestatística 15

4.1. Principais operações com conjuntos


Dados dois conjuntos A e B, chama-se reunião de A e B o conjunto formado
pelos elementos que pertencem a A ou a B e escreve-se A  B = { x / x∉
A ou x∉ B }. Dados dois conjuntos A e B, chama-se intersecção de A e B o
conjunto formado pelos elementos que pertencem a A e a B, e escreve-se A
 B = { x / x∉ A e x∉ B } .
Exemplo 1.5 – Faça as operações de soma e intersecção com os conjuntos
A = { 1,2,3,4 } e B = { 3,4 }
Solução
a){ 1,2,3,4 }  { 3,4 }= { 1,2,3,4 }
b) { 1,2,3,4 }  { 3,4 }= { 3,4 }

4.2. Contagem dos elementos de um conjunto


Para expressar a quantidade de elementos de um conjunto qualquer A usa-
mos a notação n(A). Consideremos dois conjuntos não-vazios A e B, e seja
A  B a intersecção desses conjuntos. Para encontramos o número de ele-
mento da união devemos somar os elementos de A com os elementos de B, e
descontarmos os elementos da intersecção, pois foram contados duas vezes.
Assim, o número de elementos da união, n (A  B) é dado por:
n (A  B) = n (A) + n (B) – n (A  B)
No caso em que os conjuntos são disjuntos (A  B = φ ) a fórmula se reduz a
n (A  B) = n (A) + n (B)

Exemplo 1.6 – Foram obtidos dados antropológicos de mil maridos e res-


pectivas esposas. Se em 800 casais os maridos são mais altos, em 700
são mais pesados e em 660 são tanto mais pesados quanto mais altos,
pergunta-se: em quantos casais as mulheres excedem os maridos nas duas
medidas (peso e altura)?
Solução:
Considere o diagrama de Euler-Venn.
16
SANTIAGO, G. S., PAIVA, R. E. B.

Figura 1.4 – Aplicação do diagrama de Euler-Venn na solução do exemplo 1.6.

n (S) = 1.000; n (A) = 800; n (B) = 700 e n (A  B) = 660.

O conjunto dos casais em que o marido excede a esposa em pelo me-


nos uma das dimensões é: (A  B).
n (A  B) = n (A) + n (B) – n (A  B) ∴ n (A  B) = 800 + 700 – 660 = 840
O conjunto complementar de (A  B), simbolizado por (A  B)c, é o con-
junto em que as mulheres predominam em ambas as medidas:
n[(A  B)c] = 1000 – 840 = 160, que corresponde a parte hachurada
da Figura 1.4.

5. Análise combinatória
Serão revistas algumas noções desse assunto em função de sua necessida-
de no estudo de probabilidade (Unidade 03).

5.1. Fatorial
Chama-se fatorial de um número inteiro não negativo n (n ≥ 0), o inteiro que se
indica por n!, e tal que:
n! = n (n-1) (n-2)...3.2.1 , para n ≥ 2.
Para n = 0 ou n = 1, temos n! = 1
Exemplo 1.7 – Encontre os valores de: a) 5! e b) 7!.
Solução:
a) 5! = 5.4. 3. 2.1 = 120
b) 7! = 7.6.5! = 7.6.5! = 42. 120 = 5040
Bioestatística 17

5.2. Números binomiais

Sejam n e k dois inteiros tais que 0 ≤ k ≤ n. Chama-se número binomial de


n
numerador n e classe k, o inteiro positivo que se indica por   e tal que
k 
n n!
  =
 k  k! ( n − k ) !
8
Exemplo 1.8. Calcular  
3  
Solução:

 8  8.7.6.5.4.3.2.1 8.7.6
  = = 56
= 56
 3  3.2.1.5.4.3.2.1 3.2.1

5.3. Princípio fundamental da contagem


Consideremos o exercício seguinte: ao longo de uma estrada existem 3 cida-
des, A, B e C. Para ir de A a B você dispõe de 2 alternativas de carona e de
B a C, 3 alternativas. De quantas formas distintas você pode fazer o percurso
total, de A a C?

Se você achar 2 + 3 = 5, é uma solução errada. O correto é 2x3 = 6 al-


ternativas, como é fácil verificar. Este problema trivial é uma ilustração de um
importante princípio matemático chamado princípio fundamental da contagem
(P.F.C), assim enunciado:
Se um:
- Experimento E1 puder ocorrer de n1 maneiras distintas
- Experimento E2 puder ocorrer de n2 maneiras distintas
- Experimento E3 puder ocorrer de n3 maneiras distintas
. . .
. . .
. . .

- Experimento Ei puder ocorrer de ni maneiras distintas

O experimento E1 ∩ E2 ∩ E3 ∩ ......... ∩ Ei poderá ocorrer de:

n1 . n2 . n3.......................ni maneiras distintas


18
SANTIAGO, G. S., PAIVA, R. E. B.

Síntese da parte
Nesta parte foram revistos conceitos importantes de matemática que são im-
prescindíveis para compreensão satisfatória de alguns capítulos posteriores.
Iniciamos com o estudo de modelagem matemática, discutindo ideias que
serão muito úteis no estudo de modelos probabilísticos. Em seguida, foi in-
troduzido o importante conceito de aleatoriedade, de suma importância no
estudo de probabilidades. Conjuntos, um tema unificador da matemática, foi
abordado nos seus princípios, onde trabalhamos com as noções sobre ope-
rações entre conjuntos. Por fim fizemos um estudo de alguns aspectos da
combinatória, que estão muito presentes no estudo de estatística.

Atividades de avaliação
1. Responda os ítens seguintes:
a) Os fenômenos biológicos são, em geral, determinísticos ou aleatórios? Porque?
b) O resultado de um tratamento, o diagnóstico de uma doença, são fenôme-
nos aleatórios? Por quê?
2. Utilize a notação de somatório para expressar
n
2 +2+ 6 +2 2.
3. Expresse ∑ 2 f ( x ) sem usar somatório.
i =1
i

4. A respeito de modelagem matemática responda o que pede:


a) São parâmetros da função respiratória: capacidade vital, volume expiratório
de reserva, CO2 alveolar... Selecionar alguns parâmetros referentes a: fun-
ção renal, função circulatória e fígado humano.
b) Admitindo-se o modelo matemático seguinte, relacionando glicorraquia
(GL) com glicemia (GS):
2
GL = GS, qual a glicorraquia esperada para um indivíduo com
3
glicemia 9mg/dL?
c) São mais confiáveis os resultados observados ou os esperados? Por quê?
d) Qual a vantagem dos resultados esperados sobre observados?
e) Qual a importância do confronto entre resultados observados e esperados?
Bioestatística 19

5. Responda aos itens abaixo:


a) Um pesquisador, desejando estimar as populações dos municípios de um
estado, t anos após 1970, dispõe dos dados:
P1 = população em 1970 (conhecida pelo censo)
P2 = população em 1980 (conhecida pelo censo)
P = população a estimar ( t anos após 1970)
Admitindo a premissa de que a população cresça linearmente, ou seja, em
progressão aritmética, construa um modelo matemático.
b) Utilizando o modelo do item “a” estime a população para 1985 de um mu-
nicípio onde:
P1 = 243.160 habitantes e P2 = 320.100 habitantes.
c) Modifique o modelo anterior de crescimento, agora admitindo a nova premis-
sa de que o crescimento seja exponencial, isto é, em progressão geométrica.
d) Qual das duas é mais adequada? Por quê?

6. A pressão sistólica de um paciente desceu de 15 cm/Hg para 12 cm/Hg, após


administração de um medicamento. Determine as variações absoluta e relativa.
7. A glicemia de um diabético aumentou em 40% das 6:00 às 15:00 horas e
diminuiu 20% das 15:00 às 21:00 horas. Qual a variação relativa das 6:00
às 21:00 horas?
8. Uma colônia bacteriana aumentou em 80% de t0 a t2, sendo que o aumento
de t0 a t1 foi de 20%. Qual a variação relativa de t1 a t2?
9. Uma massa tumoral aumentou em 96% de t0 a t2, sendo que o aumento re-
lativo de t0 a t1 foi igual ao aumento relativo de t1 a t2. Se o valor inicial (em
t0) do volume era de 8 cm3, qual o volume em t1?
10. São examinados 1000 resultados de hemogramas, onde se consideram
apenas os achados de:
a) neutrofilia; b) eosinofilia; c) linfocitose.
Registram-se as seguintes informações:
525 casos com neutrofilia
312 casos com eosinofilia
470 casos com linfocitose
42 casos com linfócitose e eosinofilia
20
SANTIAGO, G. S., PAIVA, R. E. B.

147 casos com neutrofilia e linfocitose


86 casos com eosinofilia e linfocitose
25 casos com todas as alterações, simultaneamente.
Verifique se há inconsistência nesses dados.
11. Um pesquisador classificava, histopatologicamente, casos de doença de
Hodgkin segundo 2 atributos dicotomizados: Eosinófilos (muitos, poucos);
células de Reed – Sternberg - R.S (muitas, poucas). Assim, tinha 4 cate-
gorias distintas:
•• Casos com muitos eosinófilos e muitas células R-S
•• Casos com poucos eosinófilos e poucas células R-S
•• Casos com muitos eosinófilos e poucas células R-S
•• Casos com poucos eosinófilos e muitas células R-S
Anos depois, em 1978, o mesmo pesquisador considerava os seguintes
atributos, também dicotomizados: eosinófilos, células R.S; fibrose, necro-
se, histiócitos, mastócitos. Assim sendo, quantas categorias distintas se-
rão agora possíveis?
12. Casos de calazar são classificados segundo os atributos:
Esplenomegalia: +, ++, +++, ++++
Hepatomegalia: 0, +, ++
Anemia: leve, moderna, intensa
Hemorragia: Presente, ausente.
Qual o número de possíveis categorias distintas?
13. Os “loci” homólogos de um par de cromossomos podem ser ocupa-
dos pelos 6 alelos de determinado gen. Qual o número de possíveis
genótipos distintos?
14. A seguinte expressão é um modelo matemático proposto por DUBOIS
para estimar a superfície corporal S (cm2), partindo do peso corporal P(kg)
e da altura A (cm):
S = 71,84.P 0,425 . A0,725
Estime a superfície corporal de uma pessoa de 60 kg e altura 1,59m.
15. Uma doença se propaga de tal forma que o número de casos aumenta em
5%, de ano para ano. Em quanto tempo ocorrerá triplicação dos casos?
16. O código genético especifica um aminoácido por uma seqüência de 3
bases, as quais são: adenina, guanina, citosina e timina. Quantos aminoá-
cidos distintos podem ser codificados?
Bioestatística 21

Texto complementar
A matemática e as profissões – geneticista
Ao pesquisar a transmissão de caracteres hereditários na reprodução das ervilhas,
Mendel valeu-se basicamente do cálculo de probabilidades para formular as leis que
deram início a esse importante ramo de estudo da biologia: a genética. A utilização
da matemática nesse campo é, portanto, uma questão de princípio. Sem esse instru-
mento básico de trabalho a genética não existiria.
Glória Maria Duccine Dal Colletto, geneticista doutorada pelo instituto de Ciências
Biológicas da USP, ressalta o papel essencial da matemática, e em especial o da esta-
tística, na condução de pesquisas genéticas e na análise dos resultados. “O domínio
do cálculo de probabilidades é indispensável nessa área”, afirma ela.
A respeito da matemática elementar e de seus principais tópicos, a pesquisadora co-
menta: “Não é muito comum, mas às vezes acontece de usarmos para a resolução de
alguns problemas em nosso trabalho a trigonometria, as transformações logarítmi-
cas, as matrizes e os sistemas lineares”.
Sobre a matemática de nível superior, Glória menciona o uso frequente de inferência
estatística (regressão linear simples e múltipla, análise de variância etc), das distribui-
ções normal e binomial, da média e da correlação. A aplicação de testes, segundo ela, é
imprescindível, destacando-se entre eles o teste do qui-quadrado, o teste de hipóteses
e o teste t de Student. “A aplicação do conhecimento matemático faz parte, enfim, da
rotina de trabalho do geneticista.”
Tomando fatos concretos, ligados à prática, a pesquisadora cita um exemplo interes-
sante de como a matemática pode ser utilizada na previsão e prevenção de proble-
mas congênitos quando a combinação entre os elementos de um casal pode resultar
em algum risco genético. O albinismo é um caso clássico da Genética no qual se re-
corre à utilização de estatística. Digamos que a doença seja causada por um par de
genes alelos: A (normal /dominante) e a (albino / recessivo). A probabilidade de uma
pessoa ser ou não Albina, tendo pais normais, porém portadores do alelo a, pode ser
visualizado no esquema a seguir:

Pais normais Aa x Aa
Combinações possíveis AA Aa aA aa

Probabilidades de ocorrência (%) 25 25 25 25

Fenótipos Normais (75%) Albinos (25%)

“A probabilidade de ocorrência do albinismo desaparece, caso um dos


pais seja AA.”. O albinismo é causado por um gene recessivo e não se mani-
festa na presença de um gene dominante no par:
22
SANTIAGO, G. S., PAIVA, R. E. B.

Pais normais AA x Aa
Combinações possíveis AA AA Aa Aa
Probabilidades de ocorrência (%) 25 25 25 25
Fenótipos Normais (100%)

“Como nesse caso do albinismo existem outra situações nas quais a genética, por
meio do recurso à matemática, prever e ajuda a prevenir problemas genéticos”, fina-
liza a geneticista. (Modificado de MACHADO, 1988).

Referências
ALENCAR FILHO, E. Aritmética dos inteiros. São Paulo: Nobel, 1987. 406 p.
GUELLI, C. A.; IEZZI, G.; DOLCE, O. Conjuntos, funções e inequações.
São Paulo: Editora Moderna Ltda, 1967. 265 p.
MACHADO, A. S. Matemática: temas e metas. São Paulo: Atual Editora, 1988. 196 p.
OLIVEIRA, E. G.; MOREIRA, O. C. Guia para o ensino introdutório da esta-
tística nos cursos da área de saúde. Fortaleza: UECE, 1987. 149 p.
STEWART, J. Cálculo. São Paulo: Pioneira Thomson, 2003. v. 1, 670 p.
VIEIRA, S. Introdução à bioestatística. Rio de Janeiro: Editora Campus,
1988. 294 p.
Capítulo
Parte 21
Procedimentos
Descrição das deamostras
ensino
Capítulo 2
Organização tabular e
gráfica dos dados
Objetivos
l Construir tabelas de acordo com algumas regras gerais.
l Estudar associação de variáveis através de tabelas bidimensionadas 2 x 2.
l Estudar associação de variáveis através de tabelas bidimensionadas n x n.
l Construir tabelas de distribuição de freqüências.
l Construir e interpretar os principais tipos de gráficos.

1. Representação tabular
As tabelas constituem uma importante forma de representação dos dados es-
tatísticos, quer pelo seu aspecto meramente descritivo, quer pela maior facili-
dade de análise que propicia, particularmente, nos estudos de associação, tão
úteis na investigação biomédica. Não existem regras rígidas para a confecção
de uma tabela, sendo a prática, ainda, a mentora decisiva para uma boa re-
presentação tabular. Alguns itens gerais, no entanto, serão considerados:
a) As tabelas deverão preencher dois requisitos fundamentais, nem sempre
fáceis de conciliar: SIMPLICIDADE e CLAREZA.
b) As tabelas deverão ser autossuficientes, no sentido de, para sua compre-
ensão, prescindir de consulta ao texto onde ela está inserida.
c) O título é obrigatório, para se obedecer à condição de auto-suficiência, e
nele devem se encontrar respostas às perguntas: Qual a natureza do fenô-
meno descrito? Onde ocorreu? Quando ocorreu?
d) O corpo da tabela, onde se encontram as informações numéricas, deve explicitar
as variáveis apresentadas e as suas unidades; não se deve deixar caselas (locais
para os números) em branco, utilizando, quando necessário, símbolos como: - :
não ocorrência do fenômeno;... : ausência de informação; ( ? ) dúvida sobre a
informação etc... Em geral, só se devem usar para separação dos dados, traços
horizontais; os traços verticais são antiestéticos, trabalhosos para quem vai fazê-
-los, inúteis, e omitidos, consequentemente na literatura científica.
26
SANTIAGO, G. S., PAIVA, R. E. B.

e) Quando necessário, no rodapé da tabela, devem constar a fonte de infor-


mações (se não forem do próprio pesquisador, ou seja, primárias) e escla-
recimentos sobre chamadas no corpo ( símbolos, legendas...)
Exemplo 1.1 – Esquematize uma tabela adequada para receber dados sobre
o número de internações hospitalares feitas nos Estados da Região Sul do
Brasil, em 2008, discriminadas por estado, clínica (cirúrgica, médica e psiqui-
átrica) e clientela (urbana e rural).

Solução:

Tabela 1.1

NÚMERO DE INTERNAÇÕES NA REGIÃO SUL DO BRASIL NO ANO DE 2008, DE ACORDO


COM O ESTADO, CLÍNICA E CLIENTELA
Estado
Paraná S Catarina
ta
Rio G. Sul Total
Clientela Urbana Rural Urbana Rural Urbana Rural
Cirúrgica
Clínica Médica
Pediátrica
Total

1.1. Estudo de associação em tabelas bidimensionais 2x2


Um médico, desejando saber se existe uma associação entre câncer de bexi-
ga e o hábito de fumar, examina os arquivos de um grande hospital e verifica
que, dentre 1.000 casos de câncer vesical, 900 correspondiam a pacientes
que eram tabagistas.
Considere, agora, que um pesquisador toma, ao acaso, 2 amostras de
camundongos isogênicos, suscetíveis a determinado vírus; os camundongos
da 1ª amostra são injetados com uma vacina experimental e 2ª amostra é uti-
lizada como controle. Todos os camundongos são, depois, expostos ao vírus,
e ao cabo de um período adequado, verificaram-se os sobreviventes em cada
amostra, obtendo-se os resultados (genéricos) resumidos na tabela 1.2.
Tabela 1.2
TAXAS DE SOBREVIVÊNCIA DE CAMUNDONGOS SEGUNDO A VACINAÇÃO
Sobreviventes
Vacinados Sim Não Total
Sim A b n3
Sim D c n4
Total n1 n2 n = n1 + n2 + n3 + n4
Bioestatística 27

No primeiro caso é lícito concluir, ou pelo menos suspeitar, à luz dos


dados acima, que o hábito de fumar predispõe (ou seja, está associado) à
referida forma de tumor maligno. No segundo caso, podemos ter uma ideia da
eficácia da vacina comparando os percentuais de sobrevivência nos dois gru-
pos, porém é mais interessante que tenhamos à disposição uma medida sin-
gular, de limites bem definidos, que nos informe da associação, caso exista.
Para tabelas 1.2, uma medida adequada é o coeficiente de YULE, de-
finido por:

ac − bd
Y=
ac + bd

Na interpretação de YULE, é preciso saber:


a) O valor de Y está compreendido no intervalo fechado de -1 (menos um) a
+1 (mais um)
b) Y = -1 corresponde a associação inversa perfeita
c) Y = 0 corresponde a independência perfeita
d) Y = + 1 corresponde a associação direta perfeita
e) Na prática, raramente o YULE assume os valores acima referidos; a regra
são valores fracionários.

Exemplo 1.2 – Para os dados da Tabela 1.3, calcule e interprete o coeficiente


de YULE.

Tabela 1.3
TAXAS DE SOBREVIVÊNCIA DE CAMUNDONGOS SEGUNDO A VACINAÇÃO
Sobreviventes
Vacinados Sim Não Total
Sim 130 70 200
Sim 80 160 240
Total 210 230 440

Temos:
130 x160 − 70 x80 20.800 − 5.600 15.200
Y= = = ≅ 0,57
130 x160 + 70 x80 20.800 + 5.600 26400

0,57 indica associação direta entre taxa de sobrevivência e vacinação,


ou seja, sugere que o aumento da sobrevivência caminha na mesma direção
da vacinação.
28
SANTIAGO, G. S., PAIVA, R. E. B.

1.2. Estudo de associação em tabelas bidimensionais, m x n


(variáveis ordenadas)
O YULE é o coeficiente de associação mais simples de calcular e fácil de
interpretar; apresenta, contudo, o inconveniente de sua aplicação ser restrita
a tabelas 2 x 2. Um coeficiente de aplicação mais geral é o Gama (G) de
GOODMAN & KRUSKAL, aplicável a tabelas m x n (m ≥ 2 ; n ≥ 2), exigin-
do, contudo que as duas variáveis estudadas possam ser ordenadas, isto
é , estejam, pelo menos, numa escala ordinal de medidas. A interpretação de
G é semelhante à de YULE, embora o cálculo seja mais complicado.
Assim temos:
M −N
G=
M +N
Onde:
M (frequência das concordâncias): é o somatório dos produtos de
cada elemento pela soma dos que lhe estão abaixo e à direita, sen-
do a leitura feita da esquerda para a direita.
N (frequência das disconcordâncias): é o somatório dos produtos
de cada elemento pela soma dos que lhe estão abaixo e à esquer-
da, sendo agora a leitura feita da direita para a esquerda.
Observação importante: Só são considerados os elementos centrais
da tabela e nunca os totais.
Exemplo 1.3 – Para os dados da Tabela 1.4 calcule o coeficiente Gama.

Tabela 1.4
ASSOCIAÇÃO ENTRE GLICEMIA E GLICOSÚRIA
Glicemia
Glicosúria Normal Aumentada Total
0 9 1 10
+ 6 6 12
++ 6 8 14
+++ 3 17 20
Total 24 32 56

M = 9 ( 6 + 8 + 17) + 6 ( 8 + 17) + 6(17) = 279 + 150 + 102 = 531


N = 1( 6+ 6 + 3) + 6 (6 + 3) + 8 (3) = 15 + 54 + 24 = 93
531 − 93 438
∴G= = = 0, 70
531 + 93 624
Bioestatística 29

Interpretação:
G = 0,70; associação direta entre grau de glicosúria e hiperglicemia,
ou seja, da amostra estudada, fica sugerido que o aumento da glicosúria se
desenvolve na mesma direção do aumento da glicemia.

1.3. Distribuição de frequências


É comum, na prática que nos defrontemos com um conjunto de dados numé-
ricos, referentes ao exame de amostras. Se o número dessas informações for
pequeno, podem-se extrair algumas conclusões a seu respeito, mas quando
há uma massa considerável de dados (amostras de tamanho a partir de 30),
seu exame de per si torna-se inviável obrigando a que os valores numéricos
sejam categorizados em classes às quais se fazem corresponder suas res-
pectivas frequências (números de valores em cada classe). Tem-se, assim,
o que é conhecido como distribuição de frequências. Por exemplo, se temos
informações sobre as idades de 100 (cem) pacientes, ao invés de considerar,
isoladamente, cada informação, fazemos uma divisão em classes ou faixas
etárias; se dispusermos das glicemias de 60 pacientes, é mais prático que se
estabeleçam classes ou faixas glicêmicas. Naturalmente, tal sumarização tem
um preço, que é a perda de certa quantidade de informação, mas é um preço
pequeno diante das vantagens que traz.

1.3.1. Elementos de uma distribuição de frequências


a) Classes: são os intervalos de variação da variável, sendo representados
por i=1, 2, 3,..., k; onde k é o número total de classes da distribuição.
b) Frequência de uma classe: indica o número de elementos de uma classe,
isto é, o total de vezes que cada valor entra na constituição de uma classe.
c) Intervalo de classe: é o conjunto de números que constitui o intervalo. É a
forma mais comum de agrupar os dados.
Os tipos de intervalo são:
a) 3 | 5: fechado a esquerda e aberto a direita
b) 3 | 5: Aberto a esquerda e fechado a direita
c) 3 || 5: Fechado a esquerda e fechado a direita
d) 3  5: aberto a direita e aberto a esquerda.
d) Limites de classes: são os extremos de uma classe.
l – Limite inferior de uma classe
L – Limite superior de uma classe
30
SANTIAGO, G. S., PAIVA, R. E. B.

e) Ponto médio de uma classe: chamamos de ponto médio de uma classe,


ao ponto que divide esse intervalo de classe em duas partes iguais.
1) O ponto médio é denotado por X i , onde i, indica i-ésima classe considerada.
2) O ponto médio de uma classe é determinado pela semi-soma do limite superior
e limite inferior dessa classe, isto é, a média aritmética dos limites de classe.
L+l
Xi = ∀ i = 1, 2, 3, ..., k
2
3) O ponto médio de uma classe é o seu legítimo representante. Ao ser deter-
minado, faremos a suposição de que todos os elementos pertencentes a
essa classe, serão iguais ao seu ponto médio
4) Os pontos médios de uma distribuição estão em progressão aritmética, isto
é, a diferença entre eles é constante.
f) Amplitude de um intervalo de classe: é a medida do intervalo que define
a classe. É obtida pela diferença entre os limites superior e inferior dessa
classe e é indicada por
hi = L – l
Exemplo 1.4 – Elabore uma tabela de distribuição de frequências com dados
abaixo referentes à iodemia (em microgramas por decilitro), para 30 pessoas
normais (adaptado de informações do “Journal of Clinical Investigation, 1940).

3,8 5,3 5,8 6,5 7,2


4,3 5,3 5,9 6,5 7,4
4,5 5,4 5,9 6,7 7,9 n = 30 (tamanho da amostra)
5,0 5,5 6,0 6,8 8,4
5,2 5,6 6,5 7,0 8,8

Primeiro precisamos definir o número de classes ( N ), o qual dependerá


do tamanho da amostra e de sua homogeneidade (quanto mais homogêneos
forem os dados, de menos classes necessitaremos). Em geral, N não deve
ser inferior a 5 (grande perda de informação), nem superior a 15 (prejuízo para
a simplicidade).
Uma “regra” empírica que alguns autores adotam, respeitadas as obser-
vações do parágrafo anterior é:
N ≅ n , dando-se preferência à aproximação ímpar, que facilita a
apreciação da simetria.
No nosso exemplo: N ≅ 30 ; escolhemos então N = 5 para o nosso
número de classes. A amplitude total dos dados é 8,8 – 3,8 = 5,0. Logo, a am-
plitude de cada classe será:
Bioestatística 31

5,0
C= = 1,0
5
A distribuição de frequência desejada pode ser então:
Tabela 1.5

DISTRIBUIÇÃO DE FREQUÊNCIA DA IODEMIA (µg/dL) EM 30 PESSOAS NORMAIS


i Classes Frequência ( fi )
1 3,8 | 4,8 3
2 4,8 | 5,8 9
3 5,8 | 6,8 9
4 6,8 | 7,8 5
5 7,9 | 8,8 5
Total 30

1.3.2. Tipos de frequências


a) Frequência absoluta simples ( f i ) : indica quantos elementos da amostra
pertencem a cada classe
b) Frequência relativa ( f r ) : é determinada dividindo-se a frequência absoluta
simples de cada classe, pela frequência total, isto é, pelo tamanho da amos-
tra (n). Geralmente, expressa como percentagem.
fi
fr =
∑f i

Indica, em percentagem, o número de elementos de cada classe.


c) Frequência absoluta acumulada (faa): é a soma da frequência absoluta de
uma classe, com as frequências absolutas de todas as classes anteriores.
d) Frequência relativa acumulada (fra): é a soma da frequência relativa de
uma classe, com as frequências relativas de todas as classes anteriores.
Exemplo 2.5 – Encontre todas as frequências para os dados da Tabela 1.5.
Solução:
Vamos organizar os dados da Tabela 1.5 para obtermos a Tabela 1.6.

Tabela 1.6

DISTRIBUIÇÃO DE FREQUÊNCIA DA IODEMIA (µg/dL) EM 30 PESSOAS NORMAIS


i Classes fa f r (%) f aa f ra
1 3,8 | 4,8 3 10,00 3 10,00
2 4,8 | 5,8 9 30,00 12 40,00
3 5,8 | 6,8 9 30,00 21 70,00
4 6,8 | 7,8 5 16,66 26 86,66
5 7,8 | 8,8 4 13,33 30 100,00
Total 30 100,00
32
SANTIAGO, G. S., PAIVA, R. E. B.

2. Representação gráfica
O gráfico estatístico nada mais é do que uma outra forma de apresentação
dos dados estatísticos. Tem como objetivo fornecer, para quem o analisa, uma
informação direta e objetiva do fenômeno estudado. Assim, além de sintéticos
e claros, devem ser capazes de atrair a atenção do leitor, seja pelo apelo pic-
tórico, ou pela visão abrangente e dinâmica dos dados representados, o que
é mais difícil obter através da representação tabular.
Não se deve esquecer, contudo, que os gráficos são, em geral, mais
esboços, não encerrando, exatamente, as informações contidas nas tabelas.
Não obstante, certos gráficos, como os diagramas de dispersão, orientam
para uma análise estatística mais aprofundada (como será estudado em ca-
pítulos posteriores).
É importante que obedeça algumas características:
•• Simplicidade: deve ser destituído de detalhes supérfluos
•• Clareza: para possibilitar uma fiel interpretação dos valores representativos
do fato ou fenômeno estudado.
•• Veracidade: deve expressar a verdade sobre o fenômeno em estudo

2.1. Gráficos estatísticos


a) Gráfico de barras: consiste na representação de uma série estatística por
meio de retângulos dispostos horizontalmente. Os retângulos possuem a
mesma altura e os seus comprimentos são proporcionais aos respectivos
dados ou as suas frequências (Figura 1.1).

Figura 1.1 – Freqüências absolutas dos níveis séricos de colesterol para 1067
homens dos EUA, com idades entre 25 e 34 anos, 1976-1980 (PAGANO e GAU-
VREAU, 2006).
Bioestatística 33

b) Gráfico de colunas: é a representação de uma série estatística por meio


de retângulos dispostos verticalmente. Os retângulos possuem a mesma
base e as alturas são proporcionais aos respectivos dados ou as suas fre-
quências (Figura 1.2).

Figura 1.2 – Frequências relativas das concentrações de chumbo no sangue (µg/dL)


de trabalhadores do Canadá em 1987 (Pagano e Gauvreau, 2006).

Se, mediante o gráfico, tentamos comparar várias populações entre si,


existem outros tipos, como o mostrado na Figura 1.3. Quando os tamanhos
das duas populações são diferentes, é conveniente utilizar as frequências re-
lativas, já que, em outro caso, as comparações poderiam ser enganosas.
34
SANTIAGO, G. S., PAIVA, R. E. B.

c) Gráfico de setores: são representados por meio de um círculo, onde cada


classe é representada por um setor circular cujo ângulo é proporcional ao
tamanho da altura. É utilizado quando se deseja comparar os valores de
uma série com a sua soma ou total (Tabela 1.5 e Figura 1.4).
Tabela 1.5
ALUNOS MATRICULADOS NA ESCOLA X, NO ANO DE 2009
SÉRIES QUANTIDADE DE ALUNOS
1 ª Série 400
2 ª Série 300
3 ª Série 200
4 ª Série 100
Total 1000

Figura 1.4 – Alunos matriculados na escola X, no ano de 2009.

Observações:
a) As áreas dos setores ou as porcentagens correspondentes aos setores
são, respectivamente, proporcionais aos dados da série e são obtidos por
meio de uma simples regra de três.
b) Se você desejar o ângulo do setor, o TOTAL será representado pelo círculo,
que corresponde a 360º.
c) Se você desejar a porcentagem correspondente a um dado qualquer, o
TOTAL será representado por 100%.
Exemplo 1.4 – Usando as informações contidas na Tabela 1.5 e na Figura
1.4, responda:
Bioestatística 35

a) Calcule o ângulo do setor correspondente a 1ª série.


b) Se o ângulo do setor equivalente aos alunos da 3ª série é 72º, determine a
sua porcentagem correspondente.
c) Se o ângulo do setor equivalente aos alunos da 1ª série é de 144, determine
a sua porcentagem correspondente.
Solução:
a) 100% → 360º ⇒ X = 144º
40% → X
b) 360º → 100º ⇒ X = 20%
72º → X
c) 360º → 100% ⇒ X = 40%
144 →X
A Figura 1.5 esclarece os cálculos executados.

Figura 1.5 – Apresentação dos cálculos executados no Exemplo 1.4.

d) Representação gráfica de distribuição de frequência simples: faz-se


através dos histogramas, que são gráficos em colunas justapostas, tais que
a base de cada coluna é a classe, e a altura a frequência respectiva. Para
a distribuição de frequência do Exemplo 1.4, o histograma é apresentado
na Figura 1.6.
36
SANTIAGO, G. S., PAIVA, R. E. B.

Figura 1.6 – Frequência de iodo no sangue (µg/dL) (Oliveira e Moreira, 1987).

e) Curvas de frequências
O histograma é um gráfico amostral, que nos sugere um gráfico populacio-
nal, chamado curva de frequência. Os mais importantes modelos de curvas
de frequências são mostrados na Figura
Bioestatística 37

Figura 1.7 – Modelos de curvas de frequências.

f) Frequências acumuladas
Simbolizadas pela letra maiúscula F, ao contrário das frequência simples,
indicam o número de valores abaixo a cada limite de classe. Para o caso
das iodemias tem-se a Tabela 1.4 de frequências acumuladas.
38
SANTIAGO, G. S., PAIVA, R. E. B.

Tabela 1.4
IODEMIAS DE FREQUÊNCIAS ACUMULADAS
Iodemia menor que F Fr (%)
3,8 0 0
4,8 3 10
5,8 12 40
6,8 21 70
7,8 26 87
8,8 30 10

O gráfico representativo de frequências acumuladas é um de linhas,


chamado Ogiva de Galton (Figura 1.8).

Figura 1.8 – Limites inferiores da iodemia (µg/dL).


Capítulo 3
Medidas de tendência
central
1. Introdução
Quando dispomos os dados numa tabela de distribuição de frequência, não
é possível estabelecer pontos, em torno do quais os dados se distribuem.
Quando o interesse é apresentar um conjunto de valores, através de um úni-
co número, são usadas as medidas de tendência central ou de posição: média
aritmética (ou simplesmente média), mediana e moda.

2. Média aritmética ( x )
Média, que representaremos por x , é dada pela soma dos valores de todos
os dados divididos por n.

∑x i
x= i =1

Exemplo 2.1 – Seis pacientes foram analisados quanto a glicemia (mg %)


tendo sido obtidos os seguintes valores 89, 91, 95, 100, 78 e 105. Encontre a
glicemia média.
Solução:
Temos:
89 + 91 + 95 + 100 + 78 + 105
=x = 93
6
40
SANTIAGO, G. S., PAIVA, R. E. B.

2.1. Características da média


a) É fácil de calcular
b) Representa o valor “provável” de uma variável, por isso, é muitas vezes
chamado de valor esperado ou esperança matemática quando calculada
para a população.
c) Dá o valor da abscissa do ponto em torno do qual os dados se distribuem,
podendo-se imaginar, portanto, a média como o centro de gravidade da
distribuição.
Exemplo 2.2 – Considerando que no exemplo 3.1 a glicemia de 89 mg % foi
substituída por 140 mg %, qual a alteração provocada na média?

Solução:
Temos:
140 + 91 + 95 + 100 + 78 + 105
=x = 101,5 mg %
6
Observamos neste exemplo que a média é muito sensível a valores
extremos da variável. Veja que a média aumentou aproximadamente 10%, de
modo que não é recomendável para distribuições muito assimétricas.

2.2. Média de dados agrupados


2.2.1. Sem intervalos de classes
Neste caso, como as frequências são números indicadores da intensidade de
cada valor da variável, elas funcionam como fatores de ponderação, por isso
é chamada média aritmética ponderada. É dada pela fórmula:

x=
∑x f i i

∑f i

Exemplo 2.3 – Determine a média da distribuição mostrada na Tabela 2.1.

Tabela 2.1

DISTRIBUIÇÃO DE PACIENTES RENAIS, SEGUNDO A IDADE


Idade (anos) Frequência (f)
26 3
28 10
30 12
32 5
37 20
Bioestatística 41

Temos:
Refazendo a Tabela 2.1 obtemos a Tabela 2.2.
Tabela 2.2
DISTRIBUIÇÃO DE PACIENTES RENAIS, SEGUNDO A IDADE
Idade (anos) (xi) Frequência ( fi ) xi fi
26 3 78
28 10 280
30 12 360
32 5 160
37 20 740

∑ 50 1618

Então:
1618
=x = 32, 4
50
2.2.2. Com intervalos de classes
Como não podemos operar com classe, representamos cada classe pela mé-
dia entre seus dois limites, e fazemos como no caso anterior.

Exemplo 2.4 – Determine a média da distribuição da Tabela 2.3.


Tabela 2.3
DISTRIBUIÇÃO DE PESOS (KG) DE RECÉM NASCIDOS DO SEXO MASCULINO
Classe f
2,0 | 3,0 2
3,0 | 4,0 15
4,0 | 5,0 23
5,0 | 6,0 2
Total 42

Solução:
Rearranjando a tabela anterior para obtermos a Tabela 2.4.

Tabela 2.4

DISTRIBUIÇÃO DE PESOS (KG) DE RECÉM NASCIDOS DO SEXO MASCULINO


Classe Ponto médio (xi) Frequência ( fi ) xi fi
2,0 | 3,0 2,5 2 5
3,0 | 4,0 3,5 15 52,5
4,0  5,0 4,5 23 103,5
5,0 | 6,0 5,5 2 11

∑ 42 172
42
SANTIAGO, G. S., PAIVA, R. E. B.

Então:
172
x
= = 4,1 kg
42

3. Mediana (Md)
Considerando que uma variável assuma os seguintes valores: 10, 14, 16, 21 e
390, como já discutimos, em casos como esse, onde existem valores discre-
pantes, a média não vai ser bem representativa da distribuição como um todo,
pois que será influenciada pelo valor aberrante. Assim é preciso usar outras
medidas mais adequadas.
Define-se mediana, e indica-se por Md, como o valor tal que metade
dos dados ou são iguais ou são inferiores a ela.
Exemplo 2.5. Calcular a mediana para o conjunto de pesos de RN (kg): 2,7;
3,9; 4,1; 4,3; 5,4 e interpretar.
Solução:
Md = 4,1 kg
Esse valor significa que metade dos RN tem pesos menor ou igual
a 4,1 kg.

3.1. Propriedades da mediana


Destacamos as seguintes:
1. Como medida descritiva, tem a vantagem de não ser afetada pelas
observações extremas, por isso é adequada para distribuições as-
simétricas.
2. É de cálculo rápido ou de interpretação fácil.
3. Diferentemente da média, a mediana de uma variável discreta é sempre um
valor da variável que estudamos (quando o número da observação n é ímpar).
4. Tem a mesma unidade de medida dos dados.
5. Verificamos que, estando ordenado os valores de uma série e sendo n o
número de elementos, da série, o valor mediano será:
n +1
O termo de ordem , se n for ímpar.
2
n n
A medida aritmética dos termos da ordem e + 1 , se n for par.
2 2

Exemplo 3.6 –Em uma amostra de 35 medidas de peso, calcule a posição


da mediana quando os dados forem adequados.
Bioestatística 43

Solução:
n + 1 35 + 1
Md
Temos: = = = 18 valor da série.
2 2
3.2. Mediana de dados agrupados
3.2.1. Sem intervalos de classe
Neste caso, é suficiente identificar a frequência acumulada imediatamente
superior à metade da soma das frequências. A mediana será aquele valor da
variável que corresponde a tal frequência acumulada.
Exemplo 3.7 – Determine a mediana da distribuição mostrada na tabela 3.1.
Solução: A partir da Tabela 3.1 obtemos a Tabela 2.5.
Tabela 2.5
DISTRIBUIÇÃO DE PACIENTES RENAIS, SEGUNDO A IDADE
Idade (anos) Frequência Frequência acumulada
26 3 3
28 10 13
30 12 25
32 5 30
37 20 50

∑ 50

Temos:
∑=
f 50
= 25
2 2
A menor frequência acumulada que supera este valor é 30, que corres-
ponde ao valor 32 da variável, sendo este o valor mediano. Logo: Md = 32 anos.

3.2.2. Com intervalos de classe

Neste caso, o problema consiste em determinar o ponto do intervalo em que


está compreendida a mediana. Para tanto, temos inicialmente que determinar
a classe na qual se acha à mediana: Classe Mediana. Tal classe será, evi-
dentemente, aquela correspondente a frequência acumulada imediatamente
superior a ∑ f . Vamos considerar também que os valores se distribuem uni-
2
formemente em todo o intervalo da classe.
Consideremos agora os dados da Tabela 2.3, acrescentando as frequ-
ências acumuladas e classes de distribuição, para formar a Tabela 2.6.
44
SANTIAGO, G. S., PAIVA, R. E. B.

Tabela 2.6
DISTRIBUIÇÃO DE PESOS (KG) DE RECÉM NASCIDOS DO SEXO MASCULINO
Classe Peso ( kg ) Frequência Frequência acumulada
1 2,0 | 3,0 2 2
2 3,0 | 4,0 15 17
3 4,0 | 5,0 23 40
4 5,0 | 6,0 2 42

∑ 42

Temos:
∑=
f 42
= 21
2 2

Como há 40 valores incluídos nas 3 primeiras classes de distribuição e


como desejamos determinar o valor que ocupa o 40º lugar, a partir do início
da série, vemos que este valor deve estar localizado na terceira classe ( i = 3
), supondo que as frequências dessas classes estejam uniformemente distri-
buídas. Como há 23 elementos nesta classe e o intervalo de classe é igual a
1, devemos tomar, a partir do limite inferior a distância

21 − 17 4
×1 =
23 23

4
e a mediana será dada por: Md =4 + =4,17 . Logo, Md = 4, 17 kg.
23
4. Moda (Mo)
Chama-se moda o valor que ocorre com maior frequência em uma série de
valores. É a medida de tendência central menos importante. Sua única vanta-
gem é que pode ser utilizada para todas as escalas de medidas, ao contrário
da média que só pode ser usada para escalas quantitativas (intervalos e ra-
zões) e da mediana que só pode ser usada a partir da escala ordinal.
Exemplo 2.8 – Calcular a moda para idades em que pacientes começaram a
apresentar presbiopia: 37; 40; 39; 39; 42; 39; 39; 41.
Solução: A idade modal é 39 anos.
Bioestatística 45

Exemplo 2.9 B Calcular a moda para as pressões diastólicas (cm / hg) dadas
na Tabela 2.7.

Tabela 2.7
PRESSÃO DIASTÓLICA (P.D) EM CM/HG
Classe P.D. Frequência
1 5,0 | 6,5 4
2 6,5 | 8,0 8
3 8,0 | 9,5 17
4 9,5 | 12,0 5
5 12,0 | 13,5 2
Total 36

Solução:
No caso de distribuição de frequências, costuma-se usar para estimar a moda
a fórmula de KING:

∆1
M0 = L + .c
∆1 + ∆ 2
Onde:
L – limite inferior da classe modal.
∆1 - diferença entre a frequência modal e a frequência anterior.
∆ 2 - diferença entre a frequência modal e a frequência posterior.
c – amplitude da classe modal.
Temos então: Como a classe modal é 3 vem:
L = 8,0; ∆1 = 17 – 8 = 9; ∆ 2 = 17 – 5 = 12; c = 1,5.
9
8, 0 +
Logo, M 0 = .1,5 =
8, 6 cm/hg.
9 + 12
Capítulo 4
Medidas de dispersão ou
de variabilidade
1. Importância da variabilidade
A variabilidade é um fator constante e decisivo nos seres vivos tornando possí-
vel a conservação do indivíduo e da espécie. Se não existisse diferença entre
os indivíduos, qualquer estímulo capaz de eliminar um deles, poderia eliminar
também toda a população. Assim, pode-se considerar a variabilidade, como
um dos estudos mais importantes da estatística, bastando dizer que se não
houvesse variabilidade entre os indivíduos, bastaria descrever um deles para
que se tivesse um conhecimento de toda a população (PINTO et al., 1981).
Dentre as medidas de variabilidade estudaremos:
a) Amplitude total;
b) Variância;
c) Desvio padrão;
d) Coeficiente de variação.

2. Amplitude total
Por definição, amplitude total é a diferença entre o maior e o menor valor ob-
servado. O seu cálculo é muito simples, o que é uma vantagem. No entanto,
não é uma boa medida de dispersão, porque seu cálculo se baseia apenas
nos valores extremos da amostra.
Exemplo 3.1 – Suponhamos três grupos de adultos, do sexo masculino, clas-
sificados segundo o peso (kg) como mostra o Quadro 3.1.
Quadro 3.1
GRUPOS DE ADULTOS SEGUNDO O PESO
Grupo Pesos (kg)
I 60 62 64 66 68 70 72 74 76
II 60 61 62 63 68 73 74 75 76
III 60 65 66 67 68 69 70 71 76

As amplitudes dos 3 grupos é 16 kg, no entanto eles são diferentes, o


que torna essa medida limitada para descrever a variabilidade.
Bioestatística 47

3. Variância
A variância mede a dispersão dos dados em torno da média. Seu cálculo é
relativamente complexo, no entanto, como leva em conta todos os valores
da variável, é um índice de variabilidade bastante estável e, portanto, um dos
mais empregados. É expresso pela fórmula:
n

∑ ( x − x)
i
2

s2 = i =1

n −1
É importante destacar que a variância tem pouca importância como es-
tatística descritiva, porém é extremamente importante na inferência estatísti-
ca, mas seu estudo mais aprofundado foge do escopo deste livro.
Exemplo 3.2 – Encontre a variância para o conjunto de dados a seguir:
Temperaturas (ºC) – 34; 35; 36; 37; 38
Solução:
Inicialmente calculamos a média
5

∑x i
34 + 35 + 36 + 37 + 38
=x =
i =1
= 36
5 5
De posse do valor médio podemos construir a Tabela 4.1.

Tabela 3.1
CALCULO DOS DESVIOS E QUADRADOS DOS DESVIOS
Quadrados dos desvios
Dados Desvios
( x i) ( xi − x) ( xi − x) 2
34 -2 4
35 -1 1
36 0 0
37 1 1
38 2 4

∑ 180 ∑ 0 ∑ 10
Logo,
10
S2 = ≅ 2,5
4

A partir de uma manipulação algébrica podemos expressar a variância


pela seguinte fórmula alternativa
48
SANTIAGO, G. S., PAIVA, R. E. B.

(∑ x ) 2
∑ x2 − n
s2 =
n −1
Vamos aproveitar os mesmos dados do Exemplo 3.2 para usar a nova
fórmula (Tabela 3.2).
Tabela 3.2
CALCULO DA VARIÂNCIA
Xi (Xi)2
34 1156
35 1225
36 1296
37 1369
38 1444

∑ 180 ∑ 6490
Então:
(180) 2
6490 −
s2 = 5 ≅ 2,5
4
Esta última fórmula além de mais prática é mais precisa. Quando a mé-
dia não é exata e tem que ser arredondada, cada desvio fica afetado ligeira-
mente do erro, devido a esse arredondamento.

4. Desvio padrão
É o protótipo das medidas de dispersão. Sendo simbolizado pela primeira le-
tra da palavra inglesa “standard”, que significa padrão. Define-se como a raiz
quadrada da variância. É importante observar que tem a mesma unidade de
medida dos dados.
Exemplo 3.3 – Calcule o desvio padrão para os valores de concentração
sérica de proteínas (em g/dL).
{6;8;10}
De início temos n=3

6 + 8 + 10
=x = 8 g / dL
3
Bioestatística 49

Daí podemos construir a Tabela 3.3.


Tabela 3.3
CONCENTRAÇÃO SÉRICA DE PROTEÍNAS EM G/DL
Xi (Xi)2
6 36
8 64
10 100

∑ 24 ∑ 200

(24) 2
Logo: 200 −
=s2 = 3 2
2
Então:
S= 2 ≅ 1, 41g / dL
Exemplo 3.4 – Calcule o valor do desvio padrão para a distribuição de frequ-
ências da Tabela 3.4.
Tabela 3.4
DISTRIBUIÇÃO DE FREQÜÊNCIA
Classe Frequência
2 | 4 5
4 | 6 6
6 | 8 10
8 | 10 4
10 | 12 5

∑ 30

Adota-se o seguinte dispositivo a semelhança do que cálculo da média,


para construção da Tabela 3.5.

Tabela 3.5
CALCULO DO DESVIO PADRÃO
Ponto médio Frequência
Classe
(x) (f) fx x−x f ( x − x) 2
2 | 4 3 5 15 -4 80
4 | 6 5 6 30 -2 24
6 | 8 7 10 70 0 0
8 | 10 9 4 36 2 16
10 | 12 11 5 55 4 80

∑ 30 206 0 200
50
SANTIAGO, G. S., PAIVA, R. E. B.

206
=
N= 30; x ≅7
30
Temos
200
s2 = ∴ s ≅ 2,6
30
5. Coeficiente de variação (C.V.)
Considere que foram feitas determinações pondo-estaturais em um conjunto
de pacientes, obtendo-se os seguintes resultados (Quadro 3.2):
Quadro 3.2
DETERMINAÇÕES PONDO-ESTATURAIS EM UM CONJUNTO DE PACIENTES
CONJUNTO DE PACIENTES
PESO (kg) ALTURA (m)
Média: 58,0 Média: 1,65
Desvio padrão: 4,5 Desvio padrão: 0,08

Pergunta-se: Qual dos dois parâmetros variou mais? O principiante tende a


responder: “O peso, pois teve um desvio padrão maior”. Ora, de fato, temos que:
4,5 > 0,08, mas é inválida a comparação; pois não podemos comparar
grandezas de dimensões (ou unidades) heterogêneas. Para contornar essa
situação o desvio padrão é substituído pela medida adimensional – COEFI-
CIENTE DE VARIAÇÃO (C.V.) dado pela expressão:
s
C.V. =
x
No caso em estudo, temos
4,5kg
Peso: C.V. = = 7, 7%
58, 0kg

0, 08m
Altura: C.V. = ≅ 4,8%
1, 65m
Logo, o peso variou mais, não porque teve um desvio padrão maior,
mas sim maior C.V. Na experimentação biológica, considera-se que há um
bom controle das variações quando o C.V. não supera os 15%.
Segue-se, agora, a seguinte situação (Quadro 3.3):
Quadro 3.3
MÉDIA E DESVIO PADRÃO DO QUOCIENTE INTELECTUAL DE CRIANÇAS DESNUTRIDAS E BEM NUTRIDAS
QUOCIENTE INTELECTUAL (Q.I.)
CRIANÇAS DESNUTRIDAS CRIANÇAS BEM NUTRIDAS
Média: 90 Média: 104
Desvio padrão: 1,5 Desvio padrão: 4,0
João: Q.I. = 94 Ricardo: Q.I. = 108
Bioestatística 51

Em termos absolutos, qual a criança melhor situada? Ricardo é claro,


pois 108 > 94.
Em termos relativos, ou seja, dentro da classe a qual pertence, qual a
criança melhor situada em termos de Q.I.? Somos tentados a responder que, em
termos relativos, ambos estão igualmente situados, pois 94 – 90 = 108 – 104 = 4,
ou seja, a diferença do Q.I. de cada criança para a média do grupo é a mesma.
Mas, é preciso lembrar que uma mesma diferença se destaca mais em um gru-
po homogêneo (desvio padrão menor) que em um grupo heterogêneo (desvio
padrão maior). Assim, para situações como essa, em que se deve realçar o valor
particular de uma variável no contexto da distribuição a qual pertence, utiliza-se
a importante medida:
x−x
Variável reduzida: z =
s
Para o nosso problema:
94 − 90
João: z = ≅ 2, 7
1,5

108 − 104
Ricardo: z = = 1,0
4
Logo, como 2,7 > 1,0, João está melhor situado, em termos relativos.

Síntese do Capítulo
Nesta parte estudamos a construção de tabelas, com bastante ênfase a as ta-
belas de distribuição de frequências, pela sua grande importância em estatísti-
ca. No capítulo seguinte analisamos as medidas de tendência central (media,
mediana e moda) destacando as suas principais vantagens e restrições. No
capítulo posterior foram estudadas as medidas de variabilidade – amplitude
total, variância e desvio padrão. Vimos que a variância e o desvio padrão são
medidas mais adequadas que a amplitude total e por isso as mais utilizadas.
Encerrando o último capítulo desta unidade, analisamos uma importante me-
dida de dispersão relativa, o coeficiente de variação, que nos dá uma boa
idéia da homogeneidade, traduzindo-se em maior confiabilidade experimental.
52
SANTIAGO, G. S., PAIVA, R. E. B.

Atividades de avaliação
1. Organize os dados em uma tabela
“Em Minas Gerais ocorreram 9 casos de tracoma, todos na zona urbana.
No ceará ocorreram 3.633 casos de tracoma, todos na zona urbana. No
Paraná ocorreram 1913 casos, sendo 1513 na zona rural e os restantes
na zona urbana. Em Pernambuco, ocorreram 3.016 casos, todos na zona
urbana” ( Fonte: Superintendência de campanhas de saúde pública).
2. Os dados seguintes são níveis séricos de ferro em adultos (mg/100 mL).
Organize a distribuição de frequência e calcule os tipos de frequência:
42 45 42 50 51 46
48 46 44 49 50 49
49 47 47 46 43 52
51 49 42 47 43 50
50 52 43 49 45 51
3. Organize a distribuição de frequência e calcule os tipos de frequência para
dosagem de açúcar em mg % de sangue de 40 indivíduos:
90 110 95 100 83 84 107 109
109 93 96 101 104 105 95 99
91 105 109 98 94 89 108 85
95 90 99 93 95 106 96 98
84 94 97 103 82 97 96 114
4. No seguinte conjunto de dados, são fornecidos os pesos (arredondados em
quilos) de crianças nascidas em certo intervalo de tempo:
1,8 3,6 1,8 2,7 3,6 2,7 3,2 3,2 3,2 3,6
4,5 4,1 3,2 2,7 4,5 3,6 2,3 4,1 2,7 1,4
3,2 2,7 1,8 3,2 2,3 2,7 4,5 5,0 3,6 2,3
a) Construa uma distribuição de freqüências desses pesos.
b) Encontre as frequências relativas.
c) Encontre as frequências acumuladas.
d) Encontre as frequências relativas acumuladas.
5. Os dados abaixo se referem ao tempo de incubação (em dia) para 70 casos
de doença:
Bioestatística 53

15 16 24 10 5 5 5
2
4 8 4 3 4 6
7
9 17 23 5 7 4
5
5 19 5 5 4 4
8
3 7 6 5 5 7
11 6 2 12 3 3 6
30 7 5 3 7 4 12
18 3 20 3 5 4 3
1
5 13 26 3 7 2
22 2 5 4 6 3 5

a) Organize os dados em um rol.


b) Determine o percentual de casos com período de incubação inferior a 10
dias.
c) Construa uma distribuição de freqüências e a partir dela determine o per-
centual do item anterior ( b ).
6. Considere a tabela 3.6.

Tabela 3.6
DIAGNÓSTICO DE BIÓPSIAS DE MAMA, FEITAS ENTRE 1963 E 1972,
INCLUSIVE, NO HOSPITAL DOS SERVIDORES DO ESTADO, RJ
Diagnóstico Frequência
Displasia 1.010
Tumor benigno 344
Tumor maligno 329
Inflamatório 54
Diversos 288
Fonte: Piza et al. (1997) citado por Vieira (1988).

Calcule a percentagem de cada diagnóstico e construa um gráfico:


a) em colunas.
b) em setores.
7. Garcia (1977) citado por Vieira (1988) estudou uma amostra de 820 indiví-
duos residentes em São José do Rio Preto, SP, com relação ao sistema
ABO. A autora verificou que, desses indivíduos, 417 tinham sangue tipo O,
292 sangue tipo A, 94 tinham sangue tipo B e 17 tinham sangue tipo AB.
54
SANTIAGO, G. S., PAIVA, R. E. B.

a) Calcule as frequências relativas.


b) Organize uma tabela que apresente os dados e as frequências relativas.
c) Faça um gráfico de setores.
8. Por que é que é preferível utilizar as frequências relativas, ao invés das
absolutas, para descrever graficamente as distribuições de frequências?
9. Considere os seguintes dados sobre a distribuição de valores de metabolis-
mo basal (cal/dia) em 35 adolescentes.
910 1280 1220 1120 1040
1070 980 1310 1240 1140
1190 1090 1010 1380 1270
1280 1210 1110 1040 1460
960 1300 1240 1130 1070
1080 1000 1360 1260 1180
1200 1110 1020 1420 1270

Construa a Ogiva de Galton.

Texto Complementar
A taxa de anormalidade
Define-se taxa de anormalidade, A, como o número relativo de casos cujos valores se
encontram fora de um intervalo de referência (normalidade) previamente definido.
Deste modo, para um conjunto X de n valores ordenados, (X={x1,x2,...,xn}
e x1 < x2 < ... < xn ), com os limites do intervalo de referência definidos por
Li = x3 , Ls = xn -2 e n = 10, o valor de taxa de normalidade pode ser calculado.
VA
A=
n
Onde:
VA = número de valores fora do intervalo de normalidade
N = número total de valores do conjunto
E resulta igual a
4
A
= = 0, 4
10
O que significa que 40% dos valores do conjunto estão fora do padrão de normalidade.
Evidentemente, o intervalo de variação de A está entre 0 e 1. Ainda, quanto mais próximo
de 1 for o seu valor, maior será a dispersão do conjunto e vice-versa. Todavia, entende-se
que, se A=0, não existem valores anormais, embora a dispersão possa existir (não ser nula).
Do ponto de vista conceitual, a taxa de anormalidade difere das outras medidas de
Bioestatística 55

dispersão porque seu cálculo se baseia na ordem dos elementos de um conjunto e não no
seu valor (como no caso do desvio padrão). Desta forma, a taxa de anormalidade é uma
medida de variabilidade ordinal. A Taxa de Anormalidade apresenta algumas vantagens e
algumas desvantagens quando comparada com outras medidas de variabilidade, conforme
é resumido a seguir.
Restrições:
a) O intervalo que define o valor de referência pode não existir
b) O intervalo nem sempre define um mesmo percentual da população como normal
c) Podem existir, para uma mesma variável, distintas opiniões de normalidade, dependendo
do local ou da época. Deste modo, a taxa de anormalidade, enquanto medida de variabi-
lidade, está restrita ao tempo e ao local de onde os dados foram coletados.
d) Ao se tentar construir uma medida de variabilidade, imagina-se que, se o resultado desta
medida for igual a zero, deveria indicar, naturalmente, que a dispersão é nula e, portanto,
não existe. Entretanto, no caso da Taxa de Anormalidade, A=0, não significa necessaria-
mente ausência de dispersão, ou concentração total dos dados, e sim que não existem
valores considerados anormais no conjunto. Esta diferença de definição da Taxa de Anor-
malidade deve ser sempre levada em conta para se evitarem erros de conceito.
Vantagens:
a) A visualização do significado de A é imediato e muito forte
b) A informação que carrega, por si só, é muito significativa e auto-explicativa.
c) O processo de cálculo é simples e rápido.
d) A dispersão medida por A não é afetada por valores exorbitantes, pois trabalha com número
de casos e não o valor desses casos. Desta forma, constitui um indicador de base ordinal.
(Extraído de ARANGO,2005)

Referências
ARANGO, H. G. Bioestatística: teórica e computacional. Rio de Janeiro: Gua-
nabara Koogan, 2005. 423 p.
BEIGUELMAN, B. Curso Prático de Bioestatística. Ribeirão Preto: Socieda-
de Brasileira de Genética, 1988. x 156 p.
CALLEGARI-JACQUES, S. M. Bioestatística: princípios e aplicações. Porto
Alegre: ARTMED, 2003. 255 p.
DIAZ, F. R.; LÓPEZ, F. J. B. Bioestatística. São Paulo: Thomson, 2007. 284 p.
IEZZI, G.; DOLCE, O.; DEGENSZAJN, D. et al. Matemática: ciência e aplica-
ções. São Paulo: Atual Editora, 2006. v. 3, 95 p.
OLIVEIRA, E. G.; MOREIRA, O. C. Guia para o ensino introdutório da esta-
tística nos cursos da área de saúde. Fortaleza: UECE, 1987.149 p.
PAGANO, M.; GAUVREAU, K. Princípios de bioestatística. São Paulo:
Thomson, 2004. 506 p.
56
SANTIAGO, G. S., PAIVA, R. E. B.

PINTO, D.; BRANDÃO, L. L.; NOGUEIRA, M. L. G.; COELHO, M. I. M.


Estatística para a área de ciências biológicas. Belo Horizonte: Universidade
Federal de Minas gerais – ICEX, 1981.70 p.
VIEIRA, S. Introdução à bioestatística. Rio de Janeiro: Editora Campus,
1988. 294 p.
Capítulo
Parte 31
Noções de Probabilidade
Procedimentos de ensino
Capítulo 5
Probabilidade:
conceitos fundamentais
Objetivos
l Conceituar evento e espaço amostral de um experimento.
l Calcular probabilidades em espaços equiprováveis e finitos.
l Calcular a probabilidade da união de dois eventos.
l Calcular probabilidade condicional e probabilidade de dois eventos simultâneos.

l Reconhecer a independência de dois eventos.


l Calcular probabilidades usando as distribuições binomial, normal e Poisson.

l Estimar as médias e as variâncias desses modelos.

1. Conceito de probabilidade
Há certos fenômenos (ou experimentos) que, embora sejam repetidos muitas
vezes e sob condições idênticas não apresentam o mesmo resultado. Por
exemplo, no lançamento de uma moeda perfeita, o resultado é imprevisível;
Não se pode determiná-lo antes de ser realizado. Não sabemos se sairá “cara”
ou “coroa”. Aos fenômenos (ou experimentos) desse tipo damos o nome de
fenômenos aleatórios ou casuais (veja também capítulo 01).
São exemplos de fenômenos aleatórios:
a) Lançamento de um dado;
b) Resultado de um jogo de roleta;
c) Número de pessoas que ganharão na loto.
Pelo fato de não sabermos o resultado exato de um fenômeno aleatório
é que buscamos os resultados prováveis, as chances, as probabilidades de
um determinado resultado ocorrer. A teoria das probabilidades é um ramo da
matemática que cria, elabora e pesquisa modelos para estudar experimentos
ou fenômenos aleatórios.
60
SANTIAGO, G. S., PAIVA, R. E. B.

2. Espaço amostral e evento


Em um experimento aleatório, o conjunto formado por todos os resultados
possíveis chama-se Espaço amostral (E). Evento é qualquer subconjunto do
espaço amostral.
Exemplo 1.1 – Lançamento de um dado e registro do resultado
Espaço amostral: E = {1,2,3,4,5,6}
Evento – ocorrer número ímpar: A = {1,3,5}

2.1. Operações sobre conjuntos


Os eventos, sendo conjuntos, destes compartilham as mesmas operações,
das quais descreveremos as básicas:
a) União (A  B) – significa ocorrência de A ou de B. Lembre-se de que o
conectivo ou significa: uma coisa ou outra, ou ambas ao mesmo tempo.
b) Interseção (A  B) – significa ocorrência de A e também de B
c) Complemento (Ac) – significa a não ocorrência de A

Atenção!
Sendo E o espaço amostral temos:
i) A  Ac = E
ii) A  Ac = φ
Exemplo 1.2 – No lançamento de um dado, considere o evento A formado
pelos resultados menores do que 3. O complementar de A (Ac) é formado por
todos os resultados maiores ou iguais a 3. Isto é:
A = { 1,2}
Ac = {3,4,5,6}

3. Probabilidade: definição e propriedades


3.1. Definição
Seja E um espaço amostral finito e não vazio, e seja A um evento deste espa-
n( A)
ço. Chama-se probabilidade de A m e indica-se por P(A), o número n( E ) , onde
n(A) e n(E) indicam os números de elementos de A e E respectivamente. Isto é:
n( A)
P(A) =
n( E )

Exemplo 1.3 – Um casal normal para o albinismo tem um filho albino. Qual a
probabilidade do próximo filho também ser albino?
Bioestatística 61

Se o casal é normal, mas já teve um filho albino, isto é indicação segura


de que são heterozigotos em relação a esse caráter; logo, o espaço amostral
(G) dos genótipos dos descendentes é dado pelo cruzamento:
Aa X Aa ⇒ G = {(AA), (Aa),(aA),(aa)} e n(G) = 4
O evento correspondente a filho albino é constituído pelo genótipo
aa, ou seja :
A = {(aa)} ∴ n(A) = 1
n( A) 1
Então P(A) = =
n(G ) 4

3.2. Propriedades
Sendo E um espaço amostral finito e não vazio e sendo A um evento de E,
tem-se que:
I ) P( φ ) = 0
II ) P(E) = 1
III ) 0 ≤ P(A) ≤ 1
IV) P(A) + P(Ac) = 1
De fato:
n(∅) 0
I. = = 0
n( E ) n( E )

n( E )
II . P(E) = =1
n( E )

III . Sendo A um evento de E, isto é:


A ⊂ E, temos que:
Ø ⊂ A ⊂ E ⇒ n (A) ≤ n(E) ⇒ 0 ≤ n(A) ≤ n(E)
Dividindo cada membro dessa igualdade por n(E),
0 n( A) n( E )
≤ ≤ ⇒ 0 ≤ P(A) ≤ 1
n( E ) n( E ) n( E )
IV. Já sabemos que A  Ac = E e A  Ac = φ . Do princípio aditivo da
contagem temos:
n (A  Ac) = n (A) + n (Ac ) – n (A  Ac ) ∴ n ( E ) = n ( A ) + n ( Ac )
Dividindo por n(E) ambos os membros dessa igualdade, temos que:
nE ) n( A) n( Ac )
= + ⇒ P(A) + P(Ac) = 1
n( E ) n( E ) n( E )
62
SANTIAGO, G. S., PAIVA, R. E. B.

Exemplo 1.4 – Uma urna contém exatamente 10 etiquetas, numeradas de 1 a


10. Retira-se uma etiqueta da urna. Qual a probabilidade de se obter:
a) Um número maior que 10?
b) Um número menor que 11?
O espaço amostral do experimento é E = {1,2,3,...,10}.
a) O evento que queremos é A = {x∈ E / x > 10} = φ ; logo, A é evento
impossível. Portanto, P(A) =0.
b) O evento que queremos é B = {x∈ E / x < 11} = E ; logo, B é evento
certo, pois B = E. Portanto P(B) = 1
4. Adição de probabilidades
Teorema: Seja E um espaço amostral finito e não vazio. Para quaisquer even-
tos A e B de E, tem-se que P(A  B) = P (A) + P(B ) – P(A  B ).
Prova:
Pelo princípio aditivo da contagem n(A  B) = n (A) + n(B ) – n(A  B )
Dividindo por n (E) ambos os membros da igualdade, obtemos:
n( A  B) n( A) n( B) n( A  B)
= + − ∴ P(A  B) = P (A) + P(B ) –
P(A  B )
n ( E ) n ( E ) n ( E ) n ( E )

Se A  B = φ , ou seja, se é impossível a ocorrência simultânea dos dois


eventos, o teorema é simplificado a
P(A  B) = P (A) + P(B )
Eventos mutuamente exclusivos são aqueles tais que a ocorrência de
um exclui, automaticamente, a ocorrência de qualquer outro. Podemos gene-
ralizar o teorema da adição para n eventos mutuamente exclusivos:
P(A  B  C  ...  N) = P(A) + P(B) + P(C) + ... + P(N).
Exemplo 1.5 – Num cruzamento Aa X Aa, sabemos que as combinações AA,
Aa e aa são igualmente prováveis, cada uma com probabilidade ¼. Sabemos
também que Aa e aA não podem ser distinguidas biologicamente. Qual é a
probabilidade de ocorrer Aa ou aA?
Solução:
1
P(Aa) = P(aA) =
4

Aa e aA são mutuamente exclusivos, então P(Aa ou aA) = 0, logo:


1 1 1
P(Aa ou aA) = P(Aa  aA) = + =
4 4 2
Bioestatística 63

Exemplo 1.6 – Numa população humana a probabilidade de ser mudo é esti-


mada em 0,005, a probabilidade de ser cego é 0,0085 e a probabilidade de ser
mudo e cego é 0,0006. Qual é a probabilidade de que um indivíduo, tomado
ao acaso, seja mudo ou cego?
Solução:
Neste caso, “ser mudo” não exclui a probabilidade de “ser cego”, portan-
to os eventos não são mutuamente exclusivos. Logo:
P(ser mudo ou ser cego) = P(A ou B) = P(A) + P(B) – P(A  B)
= 0,0050 + 0,0085 – 0,0006
= 0,0129

5. Probabilidade condicional
Chama-se probabilidade condicional de um evento B a probabilidade desse
evento ocorrer considerando-se que já ocorreu um evento A. Indica-se por
P(B/A) e lê-se: probabilidade de B dado A.
Exemplo 1.7 – Considere como espaço amostral o conjunto de diagnósticos
num hospital; e sejam os eventos: A – diabetes e B – hipertensão. O símbolo
P(A/B) significa a probabilidade de um paciente ter diabetes, dado que é hiper-
tenso; da mesma forma P(B/A) representa a probabilidade de um indivíduo ser
hipertenso dado que é diabético. Atenção para que, em geral:
P(A/B) ≠ P(B/A)
Vamos analisar um problema genérico que nos permita chegar a uma
expressão para calcular essa probabilidade: o espaço amostral E de um ex-
perimento aleatório é finito e não vazio. A e B são eventos de E, com A ≠ φ .
Ao realizar-se o experimento, ocorre o evento A. Qual é a probabilidade de ter
ocorrido também o evento B?
Devemos calcular P(B/A). Como sabemos que ocorreu o evento A, o
espaço amostral fica reduzido a esse evento. O evento B, por sua vez, só
poderá ocorrer na interseção de A e B. Assim, temos que:
n( A  B )
P(B/A) =
n( A)
Observe que, se A e B forem mutuamente exclusivos, então P(B/A) = 0
João e sua esposa Maria tem pigmentação normal. João é filho de um homem
normal e mulher albina; Maria é filha de uma mulher normal e pai albino. Qual
é a probabilidade de nascer uma criança heterozigota dada que é normal?
64
SANTIAGO, G. S., PAIVA, R. E. B.

Solução:
Pelo enunciado podemos escrever:
P: João X Maria
(Aa) (Aa)
F1: AA Aa Aa aa
Como já sabemos que a criança é normal o espaço amostral (F) fica
reduzido a {(AA), (Aa), (Aa)} onde n(F) = 3, então a probabilidade pedida é 2/3.
Vamos resolver agora usando a fórmula:
Evento A: ser heterozigoto ⇒ A = {(Aa),(Aa)}
Evenro B: ser normal ⇒ B = {(AA),(Aa),(Aa)} ⇒ n (B) = 3
n( A  B ) 2
P(A/B) = =
n( B ) 3

6. Teorema da multiplicação
Seja E um espaço finito e não vazio. Sejam A e B eventos de E.
n( A  B )
Vimos que P(B/A) =
n( A)
Dividendo o numerador e o denominador desta fração por n(E), temos que:

n( A  B )
n( E ) P( A  B)
P(B/A) = =
n( A) P( A)
n( E )
Finalmente:
P(A  B ) = P(A) . P(B/A).
Se tivermos 2 eventos A e B, tais que P(B/A) = P(B), dizemos que A e B
são independentes e o teorema da multiplicação se reduz A:
P(A  B ) = P(A).P(B)
Exemplo 1.9 – Se a desnutrição é independente da hidrocefalia, sendo que a
prevalência da primeira é 5 por mil, em certa comunidade, enquanto a segun-
da ocorre com frequência 1 por mil, qual a probabilidade de haver concomi-
tância desses dois eventos?
Solução:
P(Desnutrição  Hidrocefalia) = P(Desn.).P(Hidroc.)
5 1 5
= = = 5 por milhão
1000 1000 1000000
Capítulo 6
Modelos probabilísticos
em biologia
1. Modelos probabilísticos
O cálculo de probabilidades “a priori” através da fórmula da definição desse
ente matemático, tal como foi apresentado no capítulo 5, oferece dificuldades
que se tornam maiores à medida que os eventos se referem a situações mais
complexas. Um modelo probabilístico é uma expressão matemática, aplicável
a muitas situações, desde que se respeitem certas premissas; assim, torna
possível o cálculo de uma probabilidade através de simples aplicações de
fórmulas ou, da leitura de uma tabela. Neste capítulo veremos alguns modelos
que oferecem maior chance de aplicação em problemas da área biomédica.

2. Modelo (distribuição) binomial


Consideremos um experimento que consiste em uma sequência de ensaios
ou tentativas independentes, isto é, ensaios nos quais a probabilidade de um
resultado em cada ensaio não depende dos resultados ocorridos nos ensaios
anteriores, nem dos resultados dos ensaios posteriores. Em cada ensaio, po-
dem ocorrer apenas dois resultados, um deles chamado sucesso(S) e outro
chamado fracasso(F). A probabilidade de ocorrer sucesso em cada ensaio é
sempre p, e consequentemente, a de fracasso é q = p -1. Tal tipo de experi-
mento recebe o nome de ensaios de BERNOULLI, em homenagem a James
Bernoulli, ilustre matemático de século XVII (HAZZAN, 1993).
Exemplo 2.1 – A seguir citamos alguns exemplos de ensaios de Bernoulli.
(1) Uma moeda é lançada 5 vezes. Cada lançamento é um ensaio, em que
dois resultados podem ocorrer: cara ou coroa. Sendo sucesso o resultado
cara e fracasso o resultado coroa temos p= 1 e q = 1 .
2 2
(2) Uma urna contém 3 bolas vermelhas e 5 brancas. Uma bola é extraída,
observada sua cor e reposta na urna; este procedimento é repetido 6
vezes. Cada extração é um ensaio, em que há dois resultados possíveis:
bola vermelha ou bola branca. Neste caso, chamando o sucesso de bola
3 5
vermelha temos p = eq=
8 8
66
SANTIAGO, G. S., PAIVA, R. E. B.

Em suma, as premissas do modelo binomial são:


a) Situação envolvendo um número finito de tentativas;
b) Os resultados das diversas tentativas são independentes, de tal modo que
a probabilidade de certo resultado seja a mesma em cada tentativa;
c) Cada tentativa admite só dois resultados, mutuamente exclusivos, tecnica-
mente chamados: sucesso e fracasso.

2.2. Expressão matemática do modelo binomial


Consideremos uma sequência de n ensaios de Bernoulli. Seja p a probabilida-
de de sucesso em cada ensaio e q a probabilidade de fracasso. Este modelo
fornece, diretamente, a probabilidade de exatamente k sucessos dentre as n
tentativas. Sendo matematicamente expresso por:

n
P(k) =   p k q n − k
k
 
Onde:
n = número de tentativas independentes
k = número de sucessos dentre as n tentativas
p = probabilidade de sucesso em cada tentativa
q = 1 – p, probabilidade de fracasso em cada tentativa
O problema de obter k sucessos em n ensaios de Bernoulli pode ser
encarado como um problema cujo espaço amostral é E = {0,1,2,...,n}, isto é,
cada elemento de E é o número de sucessos em n ensaios de Bernoulli e a
distribuição de probabilidade é dada por
n
P(k) =   p k q n − k
k
 
Tal distribuição é chamada binomial, pois cada probabilidade P(k) é cal-
culada pelo termo geral do binômio de Newton (p + q)n.

Exemplo 2.2 – Numa cidade, 10% das pessoas possuem o fator Rh+. Se 30
pessoas são selecionadas ao acaso, com reposição, qual a probabilidade de
exatamente 5 pessoas possuírem fator Rh+?
Solução:
Em cada escolha de uma pessoa, consideremos os resultados:
Sucesso: a pessoa tem fator Rh+
Fracasso: a pessoa não tem fator Rh+
Bioestatística 67

Então: p = 0,1; q = 0,9; n = 30


Estamos interessados em P(5). Temos:

 30  5 25
  (0,1) (0,9) ≅ 0,102
5
 
Exemplo 2.3 – Postula-se que certa dieta reduz a colesterolemia em 75% dos
casos. Aplicada a uma amostra aleatória de 5 indivíduos, qual a probabilidade
de exatamente 3 sucessos?
Solução
Em cada escolha de um indivíduo, consideremos os resultados:
Sucesso: a dieta reduz o colesterol em 75%
Fracasso: a dieta não reduz o colesterol em 75%
Então p = 0,75; q = 0,25 ; n = 5
Estamos interessados em P(3)
5
75)3 (0, 25)5−3 10.0,
  (0,= = 42.0, 0625 0, 2625
3
 
Isto é, em cerca de 26,25% de amostras de 5 indivíduos, ocorrerão 3
sucessos.
Exemplo 2.4 – As crianças com anemia de Cooley são, quase sempre, filhos
de casais assintomáticos que correm risco de 25% de gerar outra criança
com essa anemia. Os casais com tais riscos podem ser diagnosticados por
intermédio de exames laboratoriais relativamente simples. Entre tais casais
com cinco filhos qual o percentual esperado daqueles com anemia de Cooley
manifestada em:
a) Um filho?
b) Três filhos?
c) Todos os filhos?
Solução:
Consideremos os seguintes resultados:
Sucesso: Não ter anemia
Fracasso: ter anemia
Então p = 0,75; q = 0,25; n =5
5
a) P(1) =   (0, 75) 4 (0,
= 25) 0,3955
= 39,55%
1 
5 2 3
b) P(3) =   (0, 75) (0, 25) 0, 0879 = 8, 78%
 2
68
SANTIAGO, G. S., PAIVA, R. E. B.

1
c) ( )5 = 0,001 = 0,1%
4

2.3. Média e variância da distribuição binomial


A matemática necessária para calcular os valores da média e da variância da
distribuição binomial vai além dos propósitos desse livro, de modo que vamos
aceitar, sem demonstração, que a média tal distribuição, que representare-
mos por µ (lê-se mi) é dada por:
µ = np
enquanto que a variância, que representaremos por σ 2 (lê-se sigma ao
quadrado) é dada por:
σ 2 = npq
1
Exemplo 2.5 – No nascimento de uma criança temos p = q = 2 , sendo p a
probabilidade de nascer menino e q a probabilidade de nascer menina. Assim
1
no nascimento de 10 nasciturnos temos: µ = 10 . = 5, de modo que em 10
2
nascimentos espera-se que existam 5 nasciturnos do sexo masculino.
Por outro lado, a variância será dada por:

1 1
σ 2 = 10 . . = 2,5
2 2

Exemplo 2.6 – A probabilidade de um casal do grupo sanguíneo AB gerar


1
uma criança do sanguíneo A é . Em uma amostra de 240 indivíduos que
4
são filhos de casais constituídos por marido e mulher do grupo sanguíneo AB,
qual o número esperado daqueles com grupo sanguíneo A e o desvio padrão?
Solução:
1
µ = np = 240 . = 60
4

1 3
=σ npq
= 240 x =x 6, 71
4 4
Exemplo 2.7 – Ao reunir dados da literatura a respeito de uma anomalia he-
reditária verificou-se que, dentre 221 indivíduos, filhos de pai ou mãe com a
referida anomalia, 114 eram normais (65 do sexo masculino e 49 do sexo fe-
minino) e 107 apresentavam a mesma anomalia de um dos seus genitores (58
do sexo masculino e 49 do sexo feminino) Na hipótese de que a razão entre
normais e anômalos entre os indivíduos analisados é 1:1 calcular o número
esperado de anômalos, bem o desvio padrão, em relação aos:
Bioestatística 69

a) Indivíduos do sexo masculino


b) Indivíduos do sexo feminino
c) Conjunto dos 221 indivíduos
Solução:
Filhos Masculino (M) Feminino (F) M+F
Normais 65 49 114
Anômalos 58 49 107
Total 123 98 221

a) µ = 123 x 0,5 = 61,5

σ = 123x0,5 x0,5 = 5,5


b) µ = 98x0,5 =49
=σ 98 x0,5 x0,5 4,95
=
c) µ = 221x 0,5 = 110,5

=σ 221x0,5 x0,5 7, 43
=

3. Distribuição de Poisson
A distribuição de Poisson pode ser considerada como um caso particular de
distribuição binomial, na qual a probabilidade da ocorrência de um aconteci-
mento é muito pequena. Entretanto, diferentemente da distribuição binomial,
que é definida por dois parâmetros (média e desvio padrão), a distribuição
de Poisson é definida por um único parâmetro – a média – já que, nela, a
variância é idêntica a média. Isto é, pode-se demonstrar que se p é um valor
muito pequeno e n tende a infinito, a distribuição binomial se aproxima de uma
distribuição de Poisson (ver exemplo 6.8, segundo VIEIRA, 1988).
Como foi dito a média e a variância da distribuição de Poisson, que indi-
camos por l (lê-se lambda), tem o mesmo valor e nos casos em que é usada
para aproximar a binomial, seu valor é dado pela expressão:
l = np
O modelo matemático de Poisson é dado pela expressão:
lk e − l
P(k) =
k!
Onde:
k = número de sucessos
e = base do logaritmo natural
l = constante do modelo para cada caso particular
70
SANTIAGO, G. S., PAIVA, R. E. B.

Exemplo 2.8 – Suponha que a probabilidade de um indivíduo acusar reação


de hipersensibilidade positiva a determinado tipo de droga é p= 0,0012. Con-
siderando uma população de 3.000 indivíduos, qual é a probabilidade de que
exatamente 3 acusem a reação de hipersensibilidade positiva a essa droga ?
Solução:
Sejam
p = probabilidade de acusar hipersensibilidade
q = probabilidade de não acusar hipersensibilidade
n = 3.000
Então, pelo modelo binomial:
 3.000 
P(3) =  (0,0012)3 (0,9988) 2.997
3 
= 4.495.501.000 x 0,000000001728 x 0,027363108
≅ 0,2126
Como p é muito pequeno podemos admitir que a reação de hipersen-
sibilidade é uma distribuição binomial que se aproxima de uma distribuição
de Poisson.Então, refazendo os cálculos, após essas considerações, temos:
l = np = 3.000 x 0,0012 = 3,6
Então:
3, 63 e −3,6 0, 027324 x 46, 656
P(3) =
= ≅ 0, 2125
3! 6

Ou seja, praticamente o mesmo valor obtido com a distribuição binomial.

4. Distribuição normal
Os modelos apresentados nos itens anteriores referem-se a variáveis discre-
tas. Para o caso de variáveis contínuas, assume grande importância a distri-
buição normal, ou distribuição de Gauss. Antes de estudar referido modelo,
vale ressaltar que, para variáveis contínuas:
a) A probabilidade de um valor singular é zero.
b) Só há sentido em determinar probabilidade de intervalos.
Graficamente, trata-se de uma curva simétrica, centrada na média, as-
sintótica bilateralmente ao eixo das abscissas, tomando a clássica forma de
um sino (Figura 2.1).
Bioestatística 71

Figura 2.1 – Curva de distribuição normal.

A probabilidade da variável assumir valores no intervalo [X1; X2], isto é, p(x1


≤ x ≤ x2) corresponde a área sob a curva limitada por X1 e por X2 (Figura 2.2).

Figura 2.2 – Representação da probabilidade da variável assumir valores


no intervalo [X1; X2].

Evidentemente, a área total sob a curva é 1, ou 100%. Os valores des-


sas áreas podem ser obtidos por integração, mas na prática são facilmente
calculados, através de uma tabela, a qual fornece diretamente a área entre a
média e um dado valor da variável.
Assim, vamos aceitar sem demonstração que, se X é uma variável alea-
tória com distribuição normal de média µ e desvio padrão σ , então a variável
X −µ
Z=
σ
tem distribuição normal reduzida, isto é, tem distribuição normal de mé-
dia zero e desvio padrão 1, conforme mostra a Figura 6.3 (VIEIRA, 1988).
Esses valores não precisam ser calculados, sendo encontrados em tabelas,
como na Tabela 2A em anexo.
72
SANTIAGO, G. S., PAIVA, R. E. B.

i) P(µ < X < x )

Figura 2.3 – Distribuição normal reduzida.

ii) P(0 < Z < z )

Exemplo 2.9 – Consultando a Tabela 2A em anexo, determine:


a) p(0 ≤ z ≤ 1,96)
b) p(0 ≤ z ≤ 2,56)
c) p(-1,44 ≤ z ≤ 0)
d) p(1,44 ≤ z ≤ 1,96)
e) p( z ≤ -1,96)
f) p( z ≥ 1,96)
Solução:
A tabela vai nos fornecer diretamente esses valores: na primeira coluna
você procura os dois primeiros dígitos e na linha z o último.
a) p(0 ≤ z ≤ 1,96)= 0,4750 = 47,50
b) p(0 ≤ z ≤ 2,56) = 0,4949
Bioestatística 73

c) p(-1,44 ≤ z ≤ 0) = 0,4251
d) p(1,44 ≤ z ≤ 1,96) = p( 0 ≤ z ≤ 1,96) - p (0 ≤ z ≤ 1,44) = 0,4750 – 0,4251=
0,0499
e) p(z ≤ -1,96) = 0,5 – 0,4758 = 0,0242
f) p( z ≥ 1,96) = 2 ( 0,5 – 04758) = 0,0484
Para os casos (a) e (b) as áreas são mostradas na Figura 6.4, e as áre-
as dos demais casos ficam a cargo do leitor.

Figura 2.4 – Áreas de (a) p(0 ≤ z ≤ 1,96) e (b) p(0 ≤ z ≤ 2,56).

Exemplo 2.10 – Pesos de baços na forma hepatoesplênica da esquistoso-


mose se distribuem, normalmente, com média 250 g e desvio padrão, 15 g.
Determine a probabilidade de um peso no intervalo 256 g e 280 g.
Solução:
X −µ
Temos: Z =
σ
256 − 250
Z1 = = 0, 4
15
280 − 250
Z 2= = 2, 0
15

Assim, devemos encontrar p(0,4 ≤ p ≤ 2,0).


P = p(0 ≤ z ≤ 2,0) – p(0 ≤ z ≤ 0,4) ⇒ p = 0,4772 – 0,1554 ⇒
p = 0,32,18 = 32,18%.
74
SANTIAGO, G. S., PAIVA, R. E. B.

Síntese do Capítulo
Nesta parte foram abordados conceitos elementares sobre probabilidade em
espaços amostrais finitos. Inicialmente foram definidos alguns dos principais
termos como espaço amostral e evento e, a partir deles construiu-se a defi-
nição de probabilidade. A seguir foram enunciadas e justificadas as proprie-
dades das probabilidades, ficando demonstrado que a probabilidade assume
valores compreendidos entre 0 e 1, inclusive. Fechamos o capítulo 5, com um
conceito muito importante – probabilidade condicional. No capítulo 6, foram
apresentados os principais modelos probabilísticos (distribuição de probabi-
lidade) – binomial, Poisson e normal; que são de inestimável valor prático.
Todos os tópicos desenvolvidos foram permeados por inúmeros exemplos na
área biológica, particularmente genética.

Atividades de avaliação
1. Descreva o espaço amostral correspondente ao lançamento de dois dados
honestos e determine seu tamanho, ou seja, o número de elementos n (E).
2. No espaço da atividade 1, descreva o evento M correspondente à soma das
faces ser maior que 10 e determine n (M).
3. Um homem heterozigótico, do grupo sanguíneo A, casa-se com uma mu-
lher homozigótica do grupo sanguíneo B. Descreva o espaço amostral F
dos fenótipos dos descendentes e determine seu tamanho. Faça o mesmo
com o espaço amostral G dos genótipos.
4. No autocruzamento AaBbCc x AaBbCc, descreva o tamanho de cada um
dos espaços amostrais:
a) Genótipos dos descendentes
b) Fenótipos dos descendentes
c) Gametas dos descendentes
5. Na atividade 4, descreva e determine o espaço E caracterizado (no espaço
amostral dos gametas) pela ocorrência de gametas que apresentam ape-
nas genes dominantes.
6. Considere o espaço amostral dos pacientes em determinado dia, num hos-
pital-escola, e os eventos:
A: ocorrência de hepatite
Bioestatística 75

B: ocorrência de icterícia
Descreva os seguintes eventos:
a) Ac
b) Bb
c) A  B
d) A  B
e) (A  B)c
f) (A  B)c
g)Ac  Bc
h) A  Ac
i) B  Bc
7. A queratose é devida a um gene dominante Q. Uma mulher com queratose, cujo
pai era normal, casa-se com um homem com queratose, cuja mãe era normal.
Determine a probabilidade de ser gerado um filho com a referida doença.
8. Sabe-se que o feocromacitoma (F) e a neurofibromatose (N) são neopla-
sias de células de um sistema comum. Se a ocorrência de F é de 1 para
2.000 , enquanto a de N é de 1 para 1.500, qual é a frequência teoricamente
esperada da ocorrência simultânea das enfermidades , sob a hipótese (não
correta) de que sejam condições independentes?
9. A miopia é recessiva na espécie humana.
a) Qual é a probabilidade de nascer uma criança míope de um casal normal,
heterozigoto para essa característica?
b) Sabendo que a cor dos olhos azuis é também recessiva, qual é a probabi-
lidade de o mesmo casal anterior ter filhos de olhos azuis e míopes, sendo
ambos de olhos castanhos, heterozigotos?
10. Uma pesquisa sobre os grupos sanguíneos do sistema ABO, na qual fo-
ram testadas 6.000 pessoas de uma mesma raça, revelou que 2527 tem o
antígeno A, 2234 o antígeno B e 1846 não tem nenhum antígeno. Nestas
condições, qual é a probabilidade de que uma dessas pessoas, escolhi-
das aleatoriamente, tenha os dois antígenos?
11. Se a probabilidade de um indivíduo ter sangue Rh- é de 10%, qual a proba-
bilidade de 5 indivíduos que se apresentam para exame do tipo de sangue
terem todos Rh-?
12. Um casal planeja ter 5 filhos. Admitindo que sejam igualmente prováveis
os resultados: filho do sexo masculino e filho do sexo feminino, qual a pro-
babilidade de o casal ter:
a) 5 filhos do sexo masculino?
76
SANTIAGO, G. S., PAIVA, R. E. B.

b) Exatamente 3 filhos do sexo masculino?


c) No máximo um filho do sexo masculino?
d) O 5º filho do sexo masculino, dado que os outros quatro são do sexo feminino?
13. Se p(z ≥ z1 ) = 0,9750, determine z1.
14. Em uma maternidade nascem, em média, 20 crianças por dia. Conside-
rando que a probabilidade de nascer um menino é, praticamente, igual a
de nascer uma menina, qual a probabilidade de ,em um determinado dia:
a) Todos os recém-nascidos serem meninos?
b) Todos os recém-nascidos serem meninas?
c) 10 recém-nascidos serem meninos e 10 recém-nascidos serem meninas?
d) Nasceram alternadamente um menino e uma menina?
e) 11 recém-nascidos serem meninos e 9 serem meninas?
15. Sabe-se que 5% de uma determinada vacina produzida pelo laboratório
X ficam inativadas entre o segundo e o terceiro mês de armazenamento,
enquanto que, no mesmo período, 1% da mesma vacina armazenada fica
inativada quando produzida pelo laboratório Y. Dentre os frascos dessa
vacina que estão armazenados em uma câmara fria há 70 dias, 70% são
procedentes do laboratório X e 30% do laboratório Y. Qual a probabilidade
(em porcentagem) de que um frasco de vacina retirado ao acaso dessa
câmara fria esteja inativado?
16. Se 10% de uma vacina de um determinado laboratório ficarem inativadas
entre o segundo e o terceiro ano de armazenamento, qual será a proba-
bilidade de, em uma amostra de 10 vacinas armazenadas há dois anos e
meio, encontrarmos:
a) Uma inativada?
b) Três inativadas?
17. Suponhamos que a pressão sanguínea sistólica normal em indivíduos
com idade entre 15 e 25 anos é uma variável aleatória com distribuição
aproximadamente normal de média µ =120mmHg e desvio padrão σ =
8mmHg. Nestas condições, calcule a probabilidade de um indivíduo dessa
faixa etária com pressão sistólica normal apresentar pressão:
a) Entre 110 e 130mmHg?
b) Maior do que 130mmHg?
18. Suponhamos que a taxa normal de glicose no sangue humano é uma vari-
ável aleatória com distribuição normal de média µ = 100mg/dL de sangue
e desvio padrão σ =6mg/dL de sangue. Calcule a probabilidade de um
indivíduo, com taxa normal de glicose, apresentar, apresentar taxa:
Bioestatística 77

a) Entre 90 e 100mg/dL de sangue?


b) Superior a 110mg/dL de sangue?

Texto Complementar
Probabilidade: um pouco de história
Os jogos de azar são usados pelo homem desde a antiguidade e constituem modelos
de situações comandadas pelo acaso. Não é de admirar, portanto, que estejam asso-
ciados aos primeiros interesses por uma análise matemática da questão da incerteza.
Embora alguns problemas específicos já tivessem sido resolvidos antes dessa época,
as bases da teoria da probabilidade surgiram somente na metade do século XVII, em
uma troca de cartas entre dois ilustres matemáticos franceses, Blaise Pascal (1623-
1662) e Pierre de Fermat (1601-1665), iniciada em 1654.
Esta correspondência envolvia o problema de como dividir o prêmio de um jogo en-
volvendo várias partidas se, por alguma razão, o jogo fosse interrompido antes que
algum jogador tivesse vencido o número de partidas combinado previamente. O pro-
blema, que não era novo, foi apresentado a Pascal por Antoine Gombaud, o Chevakier
de Meré, homem de letras e membro da corte de Luis XIV. Pascal e Fermat apresen-
taram soluções diferentes para o problema, sendo que o primeiro buscou a resposta
usando os valores esperados de duas ações alternativas enquanto Fermat centrou a
solução no cálculo de probabilidades de um evento. Nenhum dos dois, no entanto,
publicou imediatamente seu resultado.
De Meré avaliou, depois, que o estudo matemático das probabilidades não era coi-
sa que deveria ser pesquisada a fundo, e afirmou que o tempo gasto nesse estudo
“poderia ser mais bem-empregado”, opinião que felizmente não foi compartilhada
por vários matemáticos da época. Em 1655, esteve na França o astrônomo, físico e
matemático holandês Christian Huygens (1629-1695), que tomou conhecimento do
problema da divisão do prêmio, e não sabendo da solução dos franceses, dedicou-
-se a buscar também uma resposta. A solução de Huygens acabou sendo publicada
primeiro (1657) que as de Pascal e Fermat (1679), naquele que seria o primeiro livro
a tratar do cálculo de probabilidades.
O interesse pelo assunto começou a crescer entre os matemáticos. Jacques Bernoulli
(1654-1705), entre outras contribuições, enunciou e demonstrou a “Lei dos grandes
números: Se n for suficientemente grande, a diferença entre a frequência relativa de
um evento e a sua probabilidade verdadeira é um número desprezível”, importante te-
orema que uniu o conceito abstrato da probabilidade com a realidade com a realidade
expressa pelos números. Pierre-Simon de Laplace (1749-1827), matemático, físico e
astrônomo francês, embora talvez mais conhecido pelas suas descobertas em mecâ-
nica celeste, também tem uma participação importante no âmbito da teoria de pro-
babilidades. Entre outras descobertas e proposições, Laplace notou que a distribuição
binomial aproxima-se de uma normal quando n cresce, desenvolveu diversos métodos
a serem usados em demografia, entre eles um modo de construir tabelas de mortalida-
de, e verificou que na França nasciam mais homens do que mulheres, na razão 25/24,
aproximadamente. Laplace costumava dizer que a teoria de probabilidades nada mais
é do que o bom senso transformado em cálculo. Foi somente após a publicação de seu
trabalho “Théorie Analytique dês Probabilités” (1812) que as aplicações da teoria de
probabilidades se tornaram cientificamente justificáveis na prática.
78
SANTIAGO, G. S., PAIVA, R. E. B.

O marquês de Condorcet (Jean Antoine de Caritat, 1743-1749), sociólogo e econo-


mista, pensava que a teoria de probabilidades poderia ser aplicada nos julgamentos
dos tribunais, a fim de diminuir o risco de decisões erradas. Ele propôs que os tribu-
nais fossem compostos de um grande número de juizes para que, tornando maior o
número de opiniões independentes, ficassem neutralizadas as opiniões extremas. No
entanto, Condorcet não foi auxiliado por suas ideias: um tribunal de muitos juízes, to-
dos eles extremistas acabou por condená-lo à guilhotina. Este fato nos leva a meditar
sobre a importância da aleatorização na amostragem, mas isso já é um outro assunto.
A penetração das ideias sobre probabilidade no pensamento científico moderno foi
muito além das expectativas dos pensadores dos séculos XVII e XVIII, especialmente
quando, na ciência e na indústria, desenvolveu-se a visão estatística da natureza. A esta-
tística inferencial, com testes de hipóteses e estimação por intervalo de confiança, não
poderia ter-se desenvolvido sem as noções fundamentais da teoria das probabilidades.
(Modificado de CALLEGARI-JACQUES, 2003).

Referências
BEIGUELMAN, B. Curso prático de bioestatística. Ribeirão Preto: Socieda-
de Brasileira de Genética, 1988. 196 p.
CALLEGARI-JACQUES, S. M. Bioestatística: princípios e aplicações. Porto
Alegre: Artmed, 2003. 255 p.
HAZZAN, S. Fundamentos de matemática elementar. São Paulo: Atual Edi-
tora Ltda, 1993. v. 5, 149 p.
PAIVA, M. Matemática. São Paulo: Editora Moderna, 1995.v. 2, 592 p.
OLIVEIRA, E. G.; MOREIRA, O, C. Guia para o ensino introdutório da es-
tatística nos cursos da área de saúde. Fortaleza: Universidade Estadual do
Ceará, 1987. 149 p.
VIEIRA, S. Introdução à bioestatística. Rio de Janeiro: Campus, 1988. 294 p.
Capítulo
Parte 41
Procedimentos
Associação dedevariáveis
ensino
Capítulo 7
Correlação linear simples
Objetivos
l Conceituar evento e espaço amostral de um experimento.
l Representar graficamente uma correlação através do diagrama de dispersão.

l Definir correlação.
l Reconhecer quando a correlação é positiva, é negativa ou quando não há
correlação.
l Calcular e interpretar o coeficiente de correlação.
l Elaborar um curvograma.
l Compreender a ideia de aproximação linear.
l Encontrar a equação de regressão linear simples.
l Compreender o significado dos parâmetros.

1. Conceito de correlação
Avaliar se existe associação entre duas características quantitativas é objetivo
de muitos estudos em biologia. Um ecologista pode estar interessado em sa-
ber, por exemplo, se há associação entre a quantidade de chumbo medida na
água e o volume de dejetos despejados em determinado rio; um médico que-
rer avaliar se a pressão arterial está relacionada à idade das pessoas, quando
se pode demonstrar que existe associação entre duas variáveis quantitativas,
isto é, quando se constata que elas variam juntas, diz-se que as variáveis es-
tão correlacionadas. (CALLEGARI – JACQUES, 2003).
Assim, a correlação entre duas variáveis poderá ser calculada quando
se deseja saber se a variação de uma delas acompanha proporcional ou in-
versamente a variação da outra.

2. Diagrama de dispersão
O primeiro passo para se avaliar a correlação entre característica é a cons-
trução de um gráfico chamado diagrama de dispersão. Tal gráfico consta de
um sistema cartesiano de pontos que representam as variáveis envolvidas: a
82
SANTIAGO, G. S., PAIVA, R. E. B.

variável X (independente) no eixo das abscissas e a variável Y (dependente)


no eixo das ordenadas. Alguns gráficos de dispersão são mostrados na Figura
7.1 (CRESPO, 2002).

Figura 1.1. – Gráficos de dispersão.

Exemplo 1.1 – Consideremos uma amostra aleatória, formada por 10 dos 50


alunos de uma turma da UECE. A Tabela 1.1 mostra as notas de Matemática
e Física destes alunos.

Tabela 1.1
NOTAS DE MATEMÁTICA E FÍSICA DE 10 ALUNOS DE UMA TURMA DA UECE
Disciplina
Aluno (n°)
Matemática (X) Física (Y)
05 5,0 6,0
11 8,0 9,0
12 7,0 8,0
21 10,0 10,0
29 6,0 5,0
37 7,0 7,0
40 9,0 8,0
41 3,0 4,0
49 8,0 6,0
50 2,0 2,0
Bioestatística 83

Representando, em um sistema cartesiano, os pares ordenados (x, y)


obtemos o diagrama de dispersão mostrado na Figura 1.2.

Figura 1.2 – Diagrama de dispersão das notas de Matemática e Física de 10 alunos


de uma turma da UECE.

3. Coeficientes de correlação linear (r) e de determinação (r2)


Este coeficiente (r), também chamado coeficiente de correlação de Pearson,
quantifica o grau de correlação entre duas variáveis. Esse coeficiente é um
número puro, o que é uma vantagem, pois se pode ter duas unidades de
medida para as variáveis (como peso e espessura), o que tornaria difícil a
interpretação da associação.

3.1. Cálculo de r
O instrumento empregado para a unidade da correlação linear é o coeficiente
de correlação de Pearson, estabelecido pela fórmula seguinte:

∑ xy − ∑ n∑
x y
r=
 ( ) ( )
2
 2

∑ x 2 − ∑ x
 ∑ y 2 − ∑ y

 n  n 
  

r é um número adimensional. Quando x e y variam no mesmo sentido r > 0,


caso contrário r < 0. Prova-se que − 1 ≤ r ≤ 1 . Se r = 1 dizemos que entre as duas
variáveis existe uma correlação perfeita positiva e se r = - 1 dizemos que entre as
duas variáveis existe uma correlação perfeita negativa. No caso de r = 0 dizemos
que não existe correlação (Figura 1.1c).
84
SANTIAGO, G. S., PAIVA, R. E. B.

Exemplo 1.2 – Calcule o coeficiente de correlação para os dados da Tabela 1.2.


Tabela 1.2
PESO ÚMIDO E PESO SECO, EM GRAMAS, DE LÓBULOS HEPÁTICOS DE RATOS SUBMETIDOS
À HEPATECTOMIA PARCIAL (REMOÇÃO DE PARTE DO FÍGADO)
Peso úmido Peso seco
6,69 2,04
7,71 2,25
6,49 2,01
7,38 2,21
6,14 1,87
7,43 2,30
10,23 2,83
7,32 1,92
Fonte: Matos Filho (1976) citado por Vieira (1988).

Solução:
Vamos refazer a tabela com os cálculos necessários, construindo a Ta-
bela 1.3 (vire a página)

Tabela 1.3

CÁLCULOS NECESSÁRIOS PARA DETERMINAR O COEFICIENTE DE CORRELAÇÃO


X y x2 y2 xy
6, 69 2, 04 44, 7561 4, 1616 13, 6476
7, 71 2, 25 59, 4441 5, 0625 17, 3475
6, 49 2, 01 42, 1201 4, 0401 13, 0449
7, 38 2, 21 54, 4644 4, 8841 16, 3098
6, 14 1, 87 37, 6996 3, 4969 11, 4818
7, 43 2, 30 55, 2049 5, 2900 17, 0890
10, 23 2, 83 104, 6529 8, 0089 28, 9509
7, 32 1, 92 53, 5824 3, 6864 14, 0544

∑ 59,39 17,43 451, 9245 38, 6305 131, 9259


Bioestatística 85

Assim,

131,9259 −
( 59,39 )(17, 43)
r= 8
 ( 59,39 )   (17, 43) 
2 2

 451,9245 −  38, 6305 − 


 8   8 

ou seja,

131,9259 − 129,3959625
r =
[ 451,9245 − 440,8965125][38, 6305 − 37,9756125]
2,5299375
r=
(11, 0279875)( 0, 6548875)
Logo, r = 0,94140892 .

3.2 Coeficiente de determinação


O Coeficiente de determinação é o quadrado do coeficiente de correlação e
informa que a fração da variabilidade de uma característica é explicada esta-
tisticamente pela outra variável. Para os dados do exemplo 1.2:
r 2 = 0,886250755
Isto significa que 88% da variação observada no peso úmido são “expli-
cados” pelo fato de que o peso seco também varia (e vice – versa).
Capítulo 8
Regressão linear simples
1. A ideia de aproximação linear
No capítulo precedente vimos que pode existir interesse em se estudar o
comportamento conjunto de duas variáveis distintas, x e y. Vimos também
como obter um gráfico de dispersão. A partir desse gráfico unindo os pontos
através de segmentos de reta obtemos uma figura chamada Curvograma,
(Figura 2.1) que nos dá uma ideia se há ou não linearidade entre as variáveis.

Figura 2.1 – Curvograma (VIEIRA, 1988).

Por outro lado, a análise da Figura 8.2 revela uma aproximação linear.
O motivo de se falar numa “aproximação linear” entre duas variáveis x e y, re-
side no fato de que os pares de valores ( xi , y i ) , i = 1, 2, ..., n (correspondente
ao total de pares) representam pontos do plano que podem não se localizar
exatamente sobre a reta, mas se distribuem ao longo dessa reta, em ambos
os seus lados.
Bioestatística 87

Figura 2.2 – Aproximação linear entre duas variáveis x e y (THORNER e BONN, 1966;
citado por AGUIAR et al., 1988).

Na Figura 2.2 estão representados 15 pontos. Note-se que relativamen-


te a cada ponto ( xi , y i ) devemos fazer a distinção entre o valor observado
y1 e o valor previsto pelo modelo ŷ i , que é calculado a partir de uma relação
funcional
= yˆi 0,95 x1 − 585 , chamada equação de Regressão Linear.
Segundo Aguiar et al. (1988) a diferença ei = y i − yˆ i é o erro experi-
mental em que se incorre, no exemplo em questão, quando se procura estimar
o valor de y (volume cardíaco) a partir de x (massa hepática) no ponto x = xi.
Ainda segundo esses mesmos autores, se não existissem erros experimentais
(que nada mais são do que flutuações devidas ao azar ou à nossa ignorância),
então a reta y = f(x) representaria de forma exata o fenômeno. Entretanto, na
prática, fenômenos biológicos exigem, via de regra, modelos mais complexos
para suas previsões.

2. Regressão linear simples


A regressão linear consiste em aproximar os valores de uma variável a partir
dos valores de outra, usando uma relação funcional do tipo linear, ou seja,
quantidades a e b, tais que se possa escrever yˆ = ax+b
ax + bcom o menor erro
possível entre ŷ e y.
As quantidades a e b que minimizam tal erro são chamadas parâmetros
ou coeficientes de regressão:

∑ xy − ∑ n∑
x y
a= e b = y − ax
(∑ x)
2

∑x − n2
88
SANTIAGO, G. S., PAIVA, R. E. B.

Onde x e y representam as médias dos dados relativos às variáveis x


e y respectivamente.

Exemplo 2.1 – Considere os dados da Tabela 2.1.

Tabela 2.1
DADOS RELATIVOS A DUAS VARIÁVEIS x E y
x y
1 7
2 6
3 6
4 4
5 1
6 1

Faça um curvograma.
Encontre a equação de regressão.
Solução:
O curvograma, como vimos, é feito simplesmente plotando-se os
pontos no plano cartesiano e ligando-os por segmentos de reta, como
mostra a Figura 2.3.

Figura 2.3 – Curvograma


Bioestatística 89

Para encontrarmos a de equação de regressão, precisamos fazer al-


guns cálculos intermediários, que são mostrados na Tabela 2.2.

Tabela 2.2
CÁLCULOS INTERMEDIÁRIOS PARA OBTENÇÃO DOS PARÂMETROS A E B
x y xy x2
1 7 7 1
2 6 12 4
3 6 18 9
4 4 16 16
5 1 5 25
6 1 6 36

∑ 21 25 64 91

64 −
( 21)( 25)
6 61 − 87,5 −26,5
a= = = = −1,51
441 91 − 73,5 17,5
91 −
6
b 4,17 − ( −1,51)( 3,5=
= ) 4,17 − ( −5, 285=) 9, 455

Então a reta é:
yˆ =
−1,51x + 9, 455
Observe a Tabela 2.3 a seguir onde comparamos os valores reais e os
valores obtidos pelo modelo:
Tabela 2.3
VALORES OBTIDOS ( y^ ) PELO MODELO LINEAR
x y ŷ
1 7 7, 945
2 6 6, 435
3 6 4,925
4 4 3, 415
5 1 1, 905
6 1 0,395

3. Transformações de variáveis
Existem gráficos de dispersão onde os pontos estão muito difusos, portanto,
não se dispondo em torno de uma reta, sugerindo que o modelo linear não é
apropriado para descrever o fenômeno. Neste caso, a transformação de vari-
90
SANTIAGO, G. S., PAIVA, R. E. B.

ável pode permitir um melhor ajuste. Os exemplos a seguir foram modificados


de Vieira (1988):

Exemplo 2.2 – Considerem os dados da Tabela 8.4.


Tabela 2.4

VALORES DE DUAS VARIÁVEIS QUAISQUER x E y


x y
1 4,0
4 8,0
16 15,0
32 22,6
64 36,4
128 45,3
256 60,0

a) Desenhe o gráfico de dispersão.


b) Encontre uma regressão de y contra x.
c) Mostre graficamente a curva de regressão.
Solução:
a)

Figura 2.4 – Gráfico de dispersão.

Vamos refazer a Tabela 2.4 com os cálculos necessários, construindo


a Tabela 2.5.
Bioestatística 91

Tabela 2.5
CÁLCULOS NECESSÁRIOS PARA CONSTRUIR A REGRESSÃO DE y CONTRA x
x y xy x2
1 4,0 4,0 1,0
4 8,0 32,0 16,0
16 15,0 240,0 256
32 22,6 723,2 1024
64 36,4 2.329,6 4096
128 45,3 5798,4 16384
256 60,0 15.360,0 65.536

∑ 501 191,3 24.487,2 87313

24487, 2 −
( 501)(191,3)
7 24487, 2 − 13691, 61429 10.795,58571
=a = = = 0, 209803437
( 501)
2
87313 − 35857, 28571 51.455, 71429
87313 −
7
b = 27,32857143 − 0, 209803437 × 71,57142857
= 27,32857143 − 15, 01593171
= 12,31263972

=yˆ 0, 209803437 x + 12,31263972 é a equação de regressão que cha-


maremos de modelo 1.
Como podemos observar pelo gráfico de dispersão, Figura 2.4, a distri-
buição dos pontos é em torno de uma curva, de modo que o ajuste linear não
parece adequado.
Para tentar melhorar esse ajuste, vamos proceder a uma transformação
de variáveis, como pode ser visto nos exemplos, a seguir:
Exemplo 2.3 – Considere os dados da Tabela 2.6.
Tabela 2.6
VALORES DOS LOGARITMOS DECIMAIS DE x E VALORES DE y
log x Y
0 4,0
0,602 8,0
1,204 15,0
1,505 22,6
1,806 36,4
2,107 45,3
2,408 60,0
92
SANTIAGO, G. S., PAIVA, R. E. B.

a) Desenhe o gráfico de dispersão.


b) Encontrar uma regressão de y contra log (x).
c) Mostrar graficamente a curva de regressão.
Solução:
e a)

figura 2.5 – Gráfico de dispersão.

Utilizando os dados da Tabela 2.6, vamos construir a Tabela 2.7, que con-
tém os cálculos intermediários necessários para obtenção da curva de regressão.
Tabela 2.7
CÁLCULOS NECESSÁRIOS PARA A CONSTRUÇÃO DA REGRESSÃO DE y CONTRA LOG (x)
log x Y (log x).y (log x)2
0 4 0 0
0,602 8,0 4,816 0,362
1,204 15,0 18,06 1,450
1,505 22,6 34,013 2,265
1,806 36,4 65,738 3,262
2,107 45,3 95,447 4,439
2,408 60,0 144,48 5,798

∑ 9,632 191,3 362,554 17,576

362,554 −
( 9, 632 )(191,3)
=a 7 = 362,554 − 263, 229 99,325
= = 22,981
( 9, 632 )
2
17,576 − 13, 254 4,322
17,576 −
7
b = 27,328 − 22,981×1,376
Logo,
yˆ = 2 ,981 log x + 1,376 é a equação de regressão que chamaremos
de modelo 2.
Bioestatística 93

Como podemos observar pelo gráfico de dispersão, figura 2.5, depois


da transformação de x em log (x), a distribuição dos pontos continuou sendo
em torno de uma curva, logo o modelo linear ainda não parece adequado.
Com uma nova tentativa de melhorar o ajuste faremos transformações nas
variáveis x e y, como pode ser visto no exemplo 2.4.
Exemplo 2.4 – Considere os dados da Tabela 8.8.
Tabela 2.8
VALORES DE X E VALORES DE LOGARITMOS DE y
x log y
1 0, 602
4 0, 903
16 1, 176
32 1, 354
64 1, 561
128 1, 656
256 1, 778

a) Desenhe o gráfico de dispersão.


b) Encontre uma regressão de log (y) contra x.
c) Mostrar graficamente a curva de regressão.

Solução:
c)

Figura 2.6 – Gráfico de dispersão.

b) Utilizando os dados da Tabela 2.8, vamos construir a Tabela 2.9, que contém
os cálculos intermediários necessários para obtenção da curva de regressão.
94
SANTIAGO, G. S., PAIVA, R. E. B.

Tabela 2.9

CÁLCULOS NECESSÁRIOS PARA OBTENÇÃO DA CURVA DE REGRESSÃO DE LOG (Y) CONTRA X


X log y x (log y) x2
1 0, 602 0, 602 1
4 0, 903 3, 612 16
16 1, 176 18, 816 256
32 1, 354 43, 328 1024
64 1, 561 99, 904 4096
128 1, 656 211, 968 16384
256 1, 778 455, 168 65.536

∑ 501 9,030 833,398 87.313

833,398 −
( 501)( 9, 03)
7 833,398 − 646, 29 187,108
=a = = = 0, 004
( 501)
2
87.313 − 35.857, 286 51.455, 714
87.313 −
7

b =1, 29 − 0, 004 × 71,571 =1, 29 − 0, 286 =1, 261


Portanto, log yˆ = 0,004 x + 1,261 é a equação de regressão que chama-
mos de modelo 3.
Como podemos observar, pelo gráfico de dispersão (Figura 2.6) depois
da transformação de y em log y, a distribuição de pontos continuou sedo em
torno de uma curva, logo o modelo linear não parece o melhor ajuste. Assim,
transformar as variáveis separadamente, não permitiu criar um modelo muito
adequado, sugerindo que podemos tentar a transformação das duas variáveis
simultaneamente, conforme estudaremos no Exemplo 2.5.

Exemplo 2.5 – Considere os dados da Tabela 2.10.


Tabela 2.10
VALORES DE LOG (x) E DE LOG (s)
log (x) log (y)
0 0, 602
0, 602 0, 903
1, 204 1, 176
1, 505 1, 354
1, 806 1, 561
2, 107 1, 656
2,408 1, 778
Bioestatística 95

a) Desenhe o gráfico de dispersão.


b) Encontre uma regressão de log (y) contra log (x).
c) Mostrar graficamente a curva de regressão.

Solução:
a)

Figura 2.7 – Gráfico de dispersão.

b) Utilizando os dados da Tabela 2.10, vamos construir a Tabela 2.11,


que contém os cálculos intermediários necessários para obtenção da
curva de regressão.

Tabela 2.8
CÁLCULOS NECESSÁRIOS PARA OBTENÇÃO DA CURVA DE REGRESSÃO DE LOG (y) CONTRA LOG (x)
log (x) log (y) (log x)(log y) (log x)2
0 0, 602 0 0
0, 602 0, 903 0, 543606 0, 362404
1, 204 1, 176 1, 415904 1, 449616
1, 505 1, 354 2, 037770 2, 265026
1, 806 1, 561 2, 819166 3, 261636
2,107 1,656 3, 489192 4,439449
2,408 1,778 4, 281424 5,798464

∑ 9,632 9, 03 14, 587062 17,576594


96
SANTIAGO, G. S., PAIVA, R. E. B.

14,587062 −
( 9, 03)( 9, 632 )
=a = 7 0,500
( 9, 632 )
2

17,576594 −
7

9, 03 9, 632
b= − 0,5 × = 0, 602
7 7
Portanto, a equação de regressão de log (y) contra log (x) (modelo 4) é
log yˆ = 0,5 log x + 0,602 .
Observe a Tabela 2.12 que mostra os valores previstos pelos modelos
teóricos. Podemos notar que os valores previstos pelo modelo 4 são os que
mais se aproximam dos valores reais (y), sugerindo que a transformação de
variáveis pode ser uma boa estratégia para ajuste de um modelo.

Tabela 2.9

VALORES PREVISTOS PELOS MODELOS TEÓRICOS


Variáveis Valores previstos pelos modelos
x y Modelo 1 Modelo 2 Modelo 3 Modelo 4
1 4 12,522443 1,376000 18,407720 3,999447
4 8 13,151853 15,211940 18,923436 7,998895
16 15 15,669494 29,047881 21,134890 15,997790
32 22,6 19,026349 36,965851 24,490632 22,624292
64 36,4 25,740059 42,883821 32,885163 31,995580
128 45,3 39,167479 49,801792 59,292532 45,248583
256 60 66,022319 56,719762 192,75249 63,991160

Muitas vezes é preciso transformar apenas uma variável para ajustar


a regressão linear simples. Outras transformações podem também ser fei-
tas, como por exemplo, extração da raiz quadrada ( x ou y ), inversão
 1 1  , transformação trigonométrica (cos x ou cos y), etc.

 ou 
 x y 

Síntese do Capítulo
Esta parte teve como objetivo central estudar a associação de variáveis e a
possibilidade de estabelecer um modelo matemático que permitisse prever o
valor de variável conhecido o valor da outra. Inicialmente estudamos a cor-
relação linear simples que pode ser calculada quando se deseja saber se a
variação de uma delas acompanha proporcional ou inversamente a variação
Bioestatística 97

de outra. A regressão linear simples (estudada no capítulo 8) se baseia na


construção de um modelo linear Y = a + bX, relacionando as duas variáveis,
e permitindo que se faça previsões restritas a determinados intervalos. Foram
também discutidas algumas transformações matemáticas, como por exem-
plo, o uso de logaritmos, para melhor ajustar o modelo linear.

Atividades de avaliação
1. Em um estudo conduzido na Itália, 10 pacientes com hipertriglicedemia for-
ma colocados sob dieta de baixas gorduras e altos carboidratos. Antes de
iniciá-la as medidas de colesterol e de triglicerídeos foram registrados para
cada indivíduo, conforme tabela abaixo:

Paciente Nível de colesterol (mmol/L) Nível de triglicerídeos (mmol/L)


1 5,12 2,30
2 6,18 2,54
3 6,77 2,95
4 6,65 3,77
5 6,36 4,18
6 5,90 5,31
7 5,48 5,53
8 6,02 8,83
9 10,34 9,48
10 8,51 14,20

a) Construa um gráfico de dispersão bidimensional para esses dados.


b) Há alguma evidência de uma relação linear entre os níveis de colesterol e
de triglicerídeos antes da dieta?
c) Calcule r, o coeficiente de correlação de Pearson.
2. Faça um curvograma para os dados apresentados na tabela abaixo:

Idade Peso médio


30 63,94
34 74,91
38 81,65
42 95,05
46 105,89
98
SANTIAGO, G. S., PAIVA, R. E. B.

3. Faça o diagrama de dispersão e calcule o coeficiente de correlação para


os dados relativos as duas variáveis X e Y apresentados na tabela abaixo:
X Y
3 2
5 2
4 7
2 7
1 2

4. Calcule o coeficiente de correlação para os dados de peso úmido e seco


em gramas, de lóbulos hepáticos de ratos submetidos à hepatectomia par-
cial apresentados na tabela abaixo:
6,14 1,87
7,43 2,30
10,23 2,83
7,32 1,92

5. Calcule o coeficiente de correlação para os dados apresentados na


tabela abaixo:
Idade gestacional Peso ao nascer
28 1.250
30 1.750
32 1.250
34 1.750
35 1.750
36 2.250
37 1.750
38 2.250
39 2.750
39 3.250
39 4.250
40 2.250
40 3.250
40 3.750
41 2.750
41 3.250
42 4.250

6. Foi realizado um estudo para estabelecer uma equação mediante a qual


se possa utilizar a concentração de estrógeno na saliva (X) para predizer
a concentração de estrógeno em plasma livre (Y). Foram extraídos os se-
guintes dados de 14 homens sadios:
Bioestatística 99

X 1,4 7,5 8,5 9 9 11 13 14 14,5 16 17 18 20 23

Y 30 25 31,5 27,5 39,5 38 43 49 55 48,5 51 64,5 63 68

a) Estude a possível relação linear entre ambas as variáveis.


b) Obtenha a equação mencionada no enunciado do problema.
c) Determine a variação da concentração de estrógeno em plasma livre por
unidade de estrógeno em saliva.
7. Os pesquisadores estão estudando a correlação entre obesidade e respos-
ta individual a dor. A obesidade é medida como porcentagem sobre o peso
ideal (X), e a resposta a dor é medida utilizando o linear do reflexo de flexão
nociceptiva (Y), que é uma medida de sensação de ser pungido. Obtêm-se
os dados seguintes:

X 89 90 75 30 51 75 62 45 90 20

Y 2 3 4 4,5 5,5 7 9 13 15 14

a) Estude a possível relação entre ambas variáveis obtendo seu grau de ajuste.
b) Que percentagem de sobrepeso podemos esperar para o limiar de reflexo 10?
8. Leva-se a cabo um estudo por meio de detectores radioativos da capacida-
de corporal para absorver ferro (Fe) e chumbo (Pb). Participam do estudo
10 sujeitos. A cada um é aplicada uma dose oral idêntica de ferro e de
chumbo. Depois de 12 dias, mede-se a quantidade de cada componente
retida no sistema corporal e, a partir disso, determina-se a percentagem
absorvida pelo corpo. Obtiveram-se os seguintes dados:

% Fe = X 17 22 35 43 80 85 91 92 96 100

% Pb = Y 8 17 18 25 58 59 41 30 43 58

a) Comprove a idoneidade do modelo linear de regressão.


b) Obtenha a reta de regressão, caso o modelo linear seja adequado.
c) Prediga a porcentagem de ferro absorvida por um individuo cujo sistema
corporal absorve 15% de chumbo ingerido.
9. Ajuste uma regressão linear simples do logaritmo neperiano da velocidade
inicial contra o inverso da temperatura em graus Kelvin, com os dados de
temperatura, em graus centígrados, e velocidade inicial de reações catali-
sadas por fumarase, utilizando as soluções de fumarato 0,019 M, e tampão
fosfato 0,0576 M, em pH 7,30 apresentados na tabela a seguir:
100
SANTIAGO, G. S., PAIVA, R. E. B.

Temperatura Velocidade inicial


20 0,065
25 0,080
30 0,108
35 0,121
40 0,147

10. Nos 11 anos anteriores à aprovação do ato federal de segurança e saúde


das minas de carvão de 1969, as taxas de fatalidade para os mineiros no
subsolo pouco variaram. Depois de sua implementação, no entanto, as ta-
xas de fatalidade diminuíram rapidamente até 1979. As taxas de fatalidade
para os anos de 1970 até 1981 são fornecidas a seguir:
Ano calendário Ano Taxa de fatalidade por 1.000 empregados
1970 1 2,419
1971 2 1,732
1972 3 1,361
1973 4 1,108
1974 5 0,996
1975 6 0,952
1976 7 0,904
1977 8 0,792
1978 9 0,701
1979 10 0,890
1980 11 0,799
1981 12 1,084

a) Construa um gráfico de dispersão bidimensional da taxa de fatalidade ver-


sus tempo. O que esse gráfico sugere sobre a relação entre as duas vari-
áveis?
b) Para modelar a tendência nas taxas de fatalidade, ajuste a linha de regres-
são y = ax + b, onde x representa o tempo (ano).
c) Transforme agora a variável explicativa x para ln (x), crie um gráfico de
dispersão da taxa de fatalidade versus logaritmo natural do tempo (ano) e
ajuste o modelo de regressão.

d) Transforme x em 1 , crie um gráfico de dispersão da taxa de fatalidade ver-


x
sus o recíproco do tempo (Ano) e ajuste o modelo de regressão.

11. Em um estudo conduzido na Itália, 10 pacientes com hipertrigliceridemia foram


colocados sob dieta de baixas gorduras e altos carboidratos. Antes de iniciá-la,
as medidas de colesterol e de triglicerídeos foram registradas na Tabela 2.10.
Bioestatística 101

Tabela 2.10
NÍVEIS DE COLESTEROL DE TRIGLICERÍDEOS DE 10 PACIENTES COM HIPERTRIGLIGERIDEMIA
Paciente Nível de colesterol (m mol/L) Nível de triglicerídeos (m mol/ L)
1 5,12 2,30
2 6,18 2,54
3 6,77 2,95
4 6,65 3,77
5 6,36 4,18
6 5,90 5,31
7 5,48 2,53
8 6,02 8,83
9 10,34 9,48
10 8,51 14,20
Fonte: Pagano e Gauvreau (2006).

12. Analise os dados da Tabela 2.11.

Tabela 2.11
PORCENTAGEM DE CRIANÇAS IMUNIZADAS CONTRA DPT (DO INGLÊS (DIPHTERIA, PERTUSSIS, TETANUS)
E TAXA DE MORTALIDADE PARA CRIANÇAS DE 0 A 5 ANOS PARA 20 PAÍSES)
Nação Imunização % Taxa de mortalidade por 1.000 nascidos vivos
Bolívia 77 118
Brasil 69 65
Camboja 32 184
Canadá 85 8
China 94 43
República Tcheca 99 12
Egito 89 55
Etiópia 13 208
Finlândia 95 7
França 95 9
Grécia 54 9
Índia 89 124
Itália 95 10
Japão 87 6
México 91 33
Polônia 98 16
Rússia 73 32
Senegal 47 145
Turquia 76 87
Reino Unido 90 9
Fonte: Pagano e Gauvreau (2006).

a) Construa um gráfico de dispersão para os dados.


b) Há alguma evidência de uma relação linear entre a porcentagem de imuni-
zação e a taxa de mortalidade?
c) Calcule r.
102
SANTIAGO, G. S., PAIVA, R. E. B.

13. Analise os dados ta Tabela 3.9.


Tabela 3.9

PESO EM QUILOGRAMAS E ESPESSURA TORÁCICA EM CENTÍMETROS, DE 10 CÃES


Peso (kg) Espessura torácica (cm)
23,0 22,0
22,7 21,5
21,2 20,5
21,5 20,6
17,0 21,0
28,4 25,0
19,0 21,0
14,5 20,0
19 19
19,5 19,0
Fonte: Araujo e Hossne (1997) citado por Vieira (1988).

14. Nos 11 anos anteriores à aprovação do ato federal de segurança e saúde


das minas de carvão de 1969, as taxas de fatalidade para os mineiros no
subsolo pouco variavam. Depois de sua implementação, no entanto, as ta-
xas de fatalidade diminuíram rapidamente até 1979. As taxas de fatalidade
para os anos de 1970 até 1981 são fornecidas a seguir, para fins compu-
tacionais, os anos foram convertidos para uma escala que se inicia em 1.

Ano calendário Ano Taxa de fatalidade por 1.000 empregados


1970 1 2,419
1971 2 1,732
1972 3 1,361
1973 4 1,108
1974 5 0,996
1975 6 0,952
1976 7 0,904
1977 8 0,792
1978 9 0,701
1979 10 0,890
1980 11 0,799
1981 12 1,084
Fonte: Pagano e Gauvreau (2006).

Construa um gráfico de dispersão da taxa de fatalidade versus tempo.


a) Para modelar a tendência nas taxas de fatalidade, ajuste a curva de regres-
são y = ax + b, onde x representa o tempo em anos.
b) Transforme agora a variável x para ln (x) e crie um novo gráfico de dispersão.
Bioestatística 103

c) Para modelar a tendência nas taxas de fatalidade ajuste a curva de regres-


=
são y a ln( x) + b
1
d) Transforme agora a variável x para e crie um novo gráfico de dispersão.
x
e) Para modelar a tendência nas taxas de fatalidade ajuste a curva de regres-
são 1
= y a +b.  
x

15. O valor do tetracloreto de carbono (CCl4) assume, de acordo com a tem-


peratura em ºC, as seguintes pressões em mmHg.
Temperatura 0 20 40 60
Pressão 33,10 89,52 210,89 438,98

a) Por interpolação, expresse as pressões respectivas a 10, 30 e 50 ºC.


b) Represente os dados graficamente.

16. Foi realizado um estudo para estabelecer uma equação mediante a qual
se possa utilizar a concentração de estrógeno na saliva (x) para estimar a
concentração de estrógeno em plasma livre (y), foram extraídos os seguin-
tes dados de 14 homens sadios:
X 1,4 7,5 8,5 9 9 11 13 14 14,5 16 17 18 20 23
Y 30 25 31,5 27,5 39,5 38 43 49 55 48,5 51 64,5 63 68
Fonte: Diaz e López (2007).

a) Estude a possível relação linear entre ambas as variáveis.


b) Obtenha a equação mencionada no enunciado do problema.
c) Determine a variação da concentração de estrógeno em plasma livre por
unidade de estrógeno em saliva.
17. Doses crescentes de calcário foram adicionadas a um solo ácido e depois
se determinou a porcentagem de anomalias encontradas em células ger-
minativas de trigo plantadas neste solo.

Quantidade de calcário 0 1 2 3 4 5

% de anomalias celulares 30 27 22 23 18 16

Fonte: Callegari – Jacques (2003).

a) Obtenha um gráfico de dispersão.


b) Obtenha o coeficiente de correlação.
c) Obtenha uma reta de regressão.
d) Calcule o coeficiente de determinação e interprete-o.
104
SANTIAGO, G. S., PAIVA, R. E. B.

Texto Complementar
A interpretação dos parâmetros da regressão linear simples
Alguns experimentos utilizam diferentes tratamentos que variam apenas no nível do
fator que se deseja testar. Este é o caso de um ensaio para avaliação de desempenho
em coelhos quando os tratamentos consistem na mesma ração, com diferentes níveis
de fibra, digamos 7, 9, 11 e 13%. A razão de se investigar um intervalo tão restrito de
níveis de fibra prende-se à realidade econômica ou metabólica. Animais alimentados
com rações apresentando menos de 7% de fibra talvez tenham melhor desempenho,
mas a um custo mais alto de ração. Rações com mais de 13% de fibra não serão tão
adequadas ao animal que provavelmente mostrará menor desempenho. Portanto,
neste intervalo restrito, a resposta animal (peso) tende a se manifestar de maneira
linear, diminuindo o desempenho à medida que o nível de fibra aumenta. Esta depen-
dência do desempenho em relação à quantidade de fibra na ração pode ser matema-
ticamente definida como:
Y = a + bX
Onde ‘Y’ é a estimativa do desempenho animal (peso ao abate) alimentado com ração
contendo X% de fibra, ‘a’ é o coeficiente linear de regressão, correspondendo teorica-
mente ao valor de Y quando X=0, e ‘b’ é o coeficiente de regressão do percentual de
fibra sobre a resposta Y (peso).
Se no estudo sugerido de desempenho de coelhos, com relação aos níveis de fibra,
tivéssemos obtido o modelo
Y = 2,7 – 0,1X
Onde Y é a estimativa do peso ao abate (Kg) do coelho alimentado com ração X% de
fibra, poderemos interpretar:
Coeficiente linear (a = 2,7): para o nível zero de fibra (inviável na prática), o peso ao aba-
te seria de 2,7 Kg. O valor de ‘a’ neste caso não permite uma interpretação biológica e
apenas corresponde ao ponto de interseção que a reta apresenta com o eixo vertical Y.
Coeficiente de regressão (b = -0,1): para cada 1% de fibra na ração o desempenho po-
tencial do animal (peso) cai 0,1 kg (note que b < 0) no peso final. Se o valor de b fosse
-0,2, para cada 1% de fibra a mais, o peso ao abate cairia 0,2 Kg. Observe que quanto
maior o valor absoluto de b maior será a influência de X (fibra) sobre o peso de abate.
Um valor mais elevado de b corresponderá a uma reta mais inclinada e portanto com
maior influência de X sobre Y. Se não houver inclinação alguma , b = o e Y = a, definin-
do uma reta paralela ao eixo horizontal X, onde Y = a independente do valor atribuído
a X. Isto, portanto significaria que não haveria associação entre variáveis Y e X, Y in-
dependeria de X.
Estimativas de desempenho (peso ao abate) de animais sob diferentes níveis de fibra
na ração poderão ser feitas com segurança dentro daquele intervalo estudado (de 7
a 13%) e com alguma reserva para valores próximos aos limites de X, por exemplo:
Se X = 6%, Y = 2,7 – 0,1 (6) = 2,1 Kg
Se X = 14%, Y = 2,7 – 0,1(14) = 1,3 Kg
O modelo obtido Y = 2,7 – 0,1 X também permite determinar (teoricamente) o valor
percentual de fibra que não conduziria a desempenho algum (Y=0), ou seja:
0 = 2,7 – 0,1X, X = 27%
Bioestatística 105

Em ensaios exploratórios, informações como esta podem ser importantes, porque de-
finiriam o teor máximo de fibra admitido na ração para aquele animal. O verdadeiro
valor deste teor, entretanto, pode ser metabolicamente inferior aquela percentagem
(27%) porque utilizamos a pressuposição de efeito linear até aquela percentagem,
quando na realidade a estudamos apenas no intervalo de 7 a 13%. Outro ensaio de-
veria ser feito para obter a informação de tolerância máxima à fibra na ração
(Modificado de SAMPAIO, 1988).

Referências
AGUIAR, A. F. A.; XAVIER, A. F. S.; RODRIGUES, J. E. M. Cálculo para ciên-
cias médicas e biológicas. São Paulo: Editora Harbra, 1988. 351 p.
CALLEGARI-JACQUES, S. M. Bioestatística: princípios e aplicações. Porto
Alegre: Artmed, 2003. 255 p.
DIAZ, F. R.; LÓPEZ, F. J. B. Bioestatística. São Paulo: Thomson, 2007. 284 p.
PAGANO, M.; GAUVREAU, K. Princípios de bioestatística. São Paulo:
Thomson, 2004. 506 p.
SAMPAIO, I. B. M. Estatística aplicada à experimentação animal. Belo Ho-
rizonte: Fundação de Ensino e Pesquisa em Medicina Veterinária e Zootecnia,
1998. 220 p.
VIEIRA, S. Introdução à bioestatística. Rio de Janeiro: Campus, 1988. 294 p.
Capítulo 51
Procedimentos de ensino
Capítulo 9
Noções sobre amostragem
Objetivos
l Definir amostra, população e universo.
l Definir variável e dá exemplos dos seus vários tipos.
l Definir os principais tipos de amostragem.
l Conceituar inferência estatística.
l Compreender os conceitos de estimação e testes de hipóteses.

1. População e amostra
Dois conceitos iniciais devem ficar bem claros: o de população e o de amostra,
pois é delas que são extraídos os dados (informações) que dão origem às diver-
sas relações estatísticas, como média, desvio-padrão etc. Por ser, regra geral,
impraticável o estudo de toda a população, é desejável que se possa, a partir de
uma parcela dessa população (amostra), tirar conclusões sobre toda a popula-
ção. Este fato por si só já justifica o uso de amostras, mas há outras razões para
seu uso, como discutimos a seguir: se uma população é hipotética, é óbvio que
só podemos estudar uma amostra; por exemplo, se uma população consistir
de todos os indivíduos que são hipertensos (ou que ainda venham a ser), então
qualquer que seja o número de indivíduos estudados representam sempre uma
amostra. Observe que a população desse exemplo, embora muito grande, é
finita. Outra razão muito importante é que o estudo cuidadoso de uma amostra
tem maior valor científico do que o estudo sumário de toda a população, como
observamos no exemplo a seguir, extraído de Vieira (1988).

Exemplo 1.1 – Para estudar o efeito do uso tópico de flúor sobre a incidência
de cáries dentárias em crianças com idade escolar, não se recorre a toda a
população mesmo que o estudo se restrinja a uma área limitada em curto
espaço de tempo. Isto porque uma amostra de crianças submetidas a exa-
mes odontológicos periódicos fornece informações mais fidedignas do que a
população de crianças rapidamente examinadas antes e determinado tempo
após a aplicação tópica de flúor.
110
SANTIAGO, G. S., PAIVA, R. E. B.

Uma terceira razão é de ordem prática: muitas vezes a população é


tão grande que seria quase impossível estudá-la inteira e, se fosse possível,
poderia ser muito dispendioso em tempo e custo. Dentro deste contexto ficou
claro que dois conceitos são fundamentais em estatística: população e amos-
tra. Muitos textos consideram sinônimos os termos universo e população, mas
preferimos distingui-los, o que nos parece saudável, pelo menos do ponto de
vista didático; a diferença, contudo, é algo sutil e o leitor deve considerar este
item com bastante atenção. Universo é o conjunto de todos os elementos
(pessoas, animais, células, objetos...) que interessam em determinada pes-
quisa. População é o conjunto formado pelas medidas que se fazem sobre
elementos do universo, enquanto amostra é qualquer subconjunto de uma
população. Os próximos exemplos podem trazer mais luz a essa discussão.

Exemplo 1.2 – Suponha que um investigador pretenda estudar o comporta-


mento dos hepatócitos humanos no calazar. Neste caso, o universo é o con-
junto de todos os indivíduos que tiveram, tem ou possam apresentar calazar
com repercussão hepática. Evidentemente trata-se de um conjunto infinito, ou
melhor, hipotético.

Exemplo 1.3 – No caso do exemplo 1.2 , teríamos como exemplos de popu-


lações:
P1 – População dos diâmetros dos hepatócitos
P2 – População dos diâmetros nucleares dos hepatócitos
P3 – População das formas dos hepatócitos
P4 – População do número de leishmanias em cada hepatócito
Vimos, então, que um universo U é capaz de gerar infinitas populações,
o pesquisador selecionando aquelas que mais lhe interessam.

Exemplo 1.4 – Na população P1 (exemplo 1.3), os diâmetros dos hepatócitos


obtidos numa punção-biópsia hepática representam uma amostra desta po-
pulação.
Bioestatística 111

2. Variáveis e escalas e medidas


2.1. Variáveis
As informações obtidas, seja com base nos elementos que constituem a po-
pulação, seja com base nos elementos que constituem uma amostra, são
denominados tecnicamente de dados. Os dados individuais que são repre-
sentados por valores numéricos, ou seja, todas aquelas características que
podem ser medidas, são denominados variáveis.
Variáveis quantitativas são aquelas que apresentam um número asso-
ciado ao indivíduo pesquisado, como número de filhos, altura e peso. Quando
assumem apenas valores inteiros são chamadas discretas, como número de
filhos e o número de cromossomos em células animais, enquanto são contí-
nuas quando podem assumir qualquer valor real, como peso dos órgãos.
As variáveis qualitativas são aquelas variáveis no em que seus valores
são expressos por uma qualidade ou atributo, como sexo e estado civil, cor
da pele e grau de instrução. Quando fornecem resultados para os quais não
existem nenhum grau de ordenação, isto é, só podem receber um nome ou
atributo são denominadas nominais, como sexo e estado civil. Já as ordinais
são aquelas que fornecem resultados que podem ser ordenados de forma
hierárquica, tal como ocorre com grau de instrução.

2.2. Escalas de medidas


a) Escala nominal: é o mais primitivo, mais grosseiro, de comparação de va-
lores assumidos por uma variável, ou medida (medir é comparar). Se temos
uma grandeza em escala nominal, dados dois de seus valores X e Y, sim-
plesmente podemos afirmar que X=Y ou X≠Y.
Exemplo 1.5 – Os grupos sanguíneos do sistema ABO: A, B, AB e O re-
presentam uma variável em escala nominal, pois só podemos dizer que,
dados dois indivíduos quaisquer, eles tem o mesmo grupo ou pertencem
a grupos diferentes.

b) Escala ordinal: é um degrau acima do nível anterior (nominal). Dados 2


valores, X e Y, quaisquer, não somente podemos afirmar que X=Y ou X≠Y,
mas podemos ir um pouco mais além : X >Y ou X<Y.
Exemplo 1.6 – Presença de albumina na urina, indicada por 0, +, + +, + + +
. Na escala ordinal, como o nome indica, permite comparações de ordem,
semiquantitativa.
As escalas a seguir permitem comparações quantitativas.
112
SANTIAGO, G. S., PAIVA, R. E. B.

c) Escala intervalar: permite comparação quantitativa através de diferenças,


somente.

Exemplo 1.7 – A temperatura é uma variável com essa característica. De fato,


podemos realizar a seguinte operação 60º - 10º = 50º, mas não é correto fazer
60º
= 2 , ou seja, que uma temperatura de 60º é o dobro de uma temperatura
30º
de 30º.

d) Escala de razões: encontra-se no topo dos níveis de mensuração; gran-


dezas nessa escala são aptas a todos os tipos de comparação. Difere da
escala intervalar no sentido de permitir comparação através de razões ( ou
quocientes); nessa escala encontra-se a maioria das variáveis quantitativas.
Exemplo 1.8 – O peso é uma variável com essa característica. Com efeito, as
80 Kg
seguintes operações 80Kg – 50kg = 30Kg e = 1, 6 são verdadeiras.
50kg

3. Amostragem
O estudo deste capítulo já nos deixou clara a importância de se estudar amos-
tras, mas vale a pena insistir nas vantagens do exame de simples amostras
sobre a análise direta e inteira da população, verificando algumas considera-
ções feitas por Oliveira e Moreira (1987):
a) Se a população é infinita ou hipotética, é evidente que só nos será per-
mitido o uso de amostras. Mesmo que as populações não sejam infinitas
é mais vantajoso o exame apenas de amostras, porque:
b) Haverá economia de tempo;
c) Haverá economia de custos;
d) Examinando menos itens, temos mais chances de análise aprofundada;
e) Em certos casos, o exame de toda a população levará a destruição de seus
elementos, com prejuízos graves e irreversíveis, além de conclusões inú-
teis. Por exemplo, para um hemograma, tomamos apenas uma amostra de
sangue do paciente; para que se examinasse o sangue total (população),
levaríamos o paciente a um choque hipovolêmico (teríamos um perfeito
diagnóstico... para um defunto!);
f) Se não bastassem os argumentos já citados teríamos um definitivo: A EXPE-
RIÊNCIA TEM DEMONSTRADO QUE BOA AMOSTRAGEM FUNCIONA!
Bioestatística 113

Para que os resultados obtidos através de amostras possam ser gene-


ralizados para a população, isto é, para que se possam realizar inferências
válidas, a amostra deve ser representativa da população. A melhor maneira de
se obter uma amostra representativa é empregar um procedimento aleatório
para seleção dos indivíduos. Alguns métodos básicos de amostragem (obten-
ção de amostras) aleatórias são apresentados a seguir.

3.1. Amostragem aleatória simples


Dizemos que a amostragem é aleatória (casual) simples, quando todos os
elementos da população tem igual probabilidade de serem selecionados para
a amostra.
Exemplo 1.8 – Suponhamos uma população de tamanho m, isto é, com m
elementos, da qual se quer extrair uma amostra de tamanho n, isto é, com n
elementos. Se se estabelecer que o elemento selecionado não volte a po-
m m!
pulação (sem reposição), serão possíveis  n  = n !(m − n)! amostras casuais
 
simples de tamanho n. Tomemos um caso particular numa população com 3
elementos A, B e C, onde se deseja obter amostras de tamanho 2. Então, são
3 3! 3.2!
possíveis  2  = 2!(3 − 2)! = 2! = 3 . Estas amostras são AB, AC e BC (veja também
 
o capítulo 1).

3.2 Amostragem aleatória estratificada


Os elementos da população são agrupados em estratos (camadas), de tal
modo que esses diversos estratos sejam o mais possível diferentes entre si, e
que os elementos de cada estrato sejam o mais possível semelhantes entre si.
Após a estratificação da população, obtêm-se de cada camada os elementos
para a amostra segundo os processos já citados (Oliveira e Moreira, 1987). O
próximo exemplo, extraído de Callegari-Jacques (2003), representa esse tipo
de amostragem.

Exemplo 1.9 – Deseja-se avaliar o número médio de cáries em escolares de 8


anos de certa escola. Como parece razoável supor que esta variável depende
do nível socioeconômico da criança, o procedimento de amostragem escolhi-
do é o de amostragem por estratos. Para tanto,
(1) Verifica-se, inicialmente, quais os níveis socioeconômicos existentes (su-
ponha que sejam três A, B e C).
(2) Avalia-se a participação relativa de cada um, por exemplo, o nível A abran-
ge 3% da população, o nível b 22% e o C, 75%.
(3) Determina-se então que, para uma amostra de 120 crianças, quatro deve-
rão ser do nível A (pois 3% de 120 é 3,6), 26 do nível B e 90 do C.
114
SANTIAGO, G. S., PAIVA, R. E. B.

(4) Sorteiam-se, aleatoriamente, quatro dentre as crianças do nível A, 26 do B


e 90 do C. Ou então realiza-se o sorteio diretamente do total de crianças da
escola e preenchem-se as subamostras conforme os indivíduos vão sendo
selecionados. Daso seja sorteado um número que corresponda a um aluno
A e já tenham sido selecionadas quatro crianças para este estrato, o núme-
ro é desprezado e o sorteio continua.

1.3.3. Amostragem sistemática


Nesta técnica, só um elemento da população é sorteado, os outros sendo
obtidos por um procedimento sistemático.

Exemplo 1.10 – Considere uma população de 100 elementos, numerados


de 00 a 99, de onde se deseja extrair uma amostra de tamanho 20; a fração
20 1
amostral é = . Escolhe-se, ao acaso, um número entre 01 e 05, que será
100 5
o início casual, por exemplo: 03; sucessivamente vai se tomando 5, obtendo-
-se os 20 elementos desejados: 03; 08; 13; 18; ...;98.
Capítulo 10
Noções de inferência
estatística
1. Conceitos introdutórios
Já se discutiu, no capítulo 9 desta unidade, que os dados de observação
e experimentação constituem apenas amostras, fragmentos de um conheci-
mento geral, representado pelo universo e suas populações. O objetivo mais
profundo da estatística é fornecer-nos condições para tirarmos conclusões
sobre populações, com base em informações extraídas das amostras. É a
isso que chamamos de Inferência (ou indução) Estatística, que se divide em
dois grandes ramos:
a) Estimação
Consiste em avaliar uma medida populacional (parâmetro) a partir da in-
formação amostral (estatística, substantivo comum). Em geral, para evitar
confusão, salienta-se a diferença entre as duas medidas, assim: - letras ro-
manas para as estatísticas ( X : média; s: desvio padrão) e gregas para os
respectivos parâmetros ( µ : média; σ : desvio padrão).
b) Teste de hipóteses
Consiste em julgar hipóteses sobre populações utilizando os conhecimen-
tos amostrais. Vê-se que a Inferência Estatística, em seus dois ramos, pro-
põe-se a extrair conclusões gerais (sobre a população), dispondo somente
de informações particulares (amostrais), procedimento que está, fatalmente
sujeito a erro, que não pode ser eliminado, mas que pode ser avaliado, mer-
cê dos recursos do cálculo de probabilidades e da teoria da amostragem.
O erro de que se fala em estatística não deve ser confundido com engano,
erro grosseiro; antes, aqui o consideramos como conseqüência inevitável
da tentativa de generalização, da flutuação amostral.
É impossível, num simples capítulo destinado a principiantes, descrever to-
dos os fundamentos e recursos da inferência estatística, de modo que apre-
sentaremos somente, de forma elementar e sem grandes preocupações de
rigor teórico, exemplos simples de aplicações do método.
116
SANTIAGO, G. S., PAIVA, R. E. B.

2. Distribuições amostrais
Imaginemos uma população (de parâmetros desconhecidos µ e σ ), da
qual sejam extraídas todas as possíveis amostras de tamanho n (número de
elementos da amostra) e determinada a média de cada amostra; o conjunto
obtido será denominado distribuição amostral de médias ( ou população de
médias amostrais), demonstrando-se que os seguintes parâmetros:
a) µ X = σ , ou seja, a média das médias amostrais é igual a da população
original.
σ
b) σ X = n , ou seja, o desvio padrão das médias é uma fração do corres-
pondente valor populacional, sendo o denominador a raiz quadrada do ta-
manho da amostra. O desvio padrão de uma distribuição amostral se cha-
ma também de erro padrão, no caso examinado: erro padrão da média.
Existem outras distribuições amostrais, de significado igual ao explicado
para as médias: distribuições de proporções amostrais, de diferenças entre
médias amostrais etc...
Os conceitos expedidos nesse tópico são a essência dos procedimen-
tos da estatística indutiva. Vamos a eles:

3. Estimação
Suponha-se que alguém deseje avaliar a glicemia média de recém-nascidos
de mães diabéticas e, para isso tome uma amostra de 100 dessas crianças
obtendo-se uma média de X =85mg/dL, a qual servirá para dar uma ideia do
valor glicêmico médio de todos os recém-nascidos de mães diabéticas. O
procedimento é válido, mas não dá ideia do erro cometido na estimação; por
exemplo, é de supor que examinando 500 crianças, teríamos um erro menor,
uma aproximação mais precisa do valor proporcional. É mais adequado utili-
zar um intervalo, chamado intervalo de confiança , obtido pela teoria:
s
X ± 1,96 , que em 95% dos casos conterá a média populacional.
n

Observações importantes!
1ª) ± 1,96 são os valores que, em unidades de variável reduzida, compreende
95% sob a curva normal (capítulo 6).
s
2ª) 1,96 é o erro de estimativa.
n
3ª) O valor s (amostral) é usado ao invés do valor populacional σ , em geral
desconhecido, procedimento que só é válido para grandes amostras, de
tamanho superior a 30, as únicas aqui consideradas.
Bioestatística 117

Exemplo 2.1 – Pesos de fígados de adultos com leishmaniose visceral, re-


presentando uma amostra de 49 autópsias, tem média X = 1,79kg e desvio
padrão s = 0,22kg.
a) Estime o valor populacional para um intervalo de confiança de 95%.
b) No caso anterior, considerando que as estatísticas tivessem sido obtidas
de uma amostra de n = 30, qual o efeito sobre o erro da estimativa?
c) Em que situação (ou situações) o erro cometido da estimativa seria nulo?
Solução:
a) Para n = 49, a fórmula nos fornece uma estimativa da média verdadeira
no intervalo 1,7284 < µ < 1,8516, com 95% de confiança.
b) Se n = 30, a estimativa seria menos precisa com erro maior (0,0787) com-
parado com o erro de 0,0616 para o caso de n = 49.
c) Uma situação seria aquela em que a amostra fosse igual a população. Do
ponto de vista prático, amostras muito grandes minimizam o erro.

3.1. Estimação de proporções


Analogamente ao que acontece com a média, a proporção (frequência rela-
tiva) de uma característica na população fica estimada pelo intervalo de con-
fiança de 95%:
p (1 − p )
p ± 1,96
n
onde p é a proporção (ou freqüência relativa) da mesma característica
na população.

Exemplo 2.2 – Em 100 crianças tartamudas, 30 são canhotas. Estime, sob


confiança de 95%, a proporção de canhotice dentre os tartamudos.
Solução:
30 0,30 x0, 70
p= = 0,30 ; n = 100. O intervalo será 0,30 ± 1,96 = 0,30
100 100
± 0,09 = 30% ± 9% , ou seja o intervalo pedido é de 21% a 39%.

4. Testes de hipóteses
Vamos introduzir esse tema com um exemplo simples, extraído de Oliveira e
Moreira (1987). “Suponha que certo indivíduo, suspeitando que uma moeda
é viciada, planeja o seguinte experimento: lançá-la, aleatoriamente, 6 vezes
e contar o número de resultados obtidos (caras ou coroas); rejeita a “honesti-
dade” da moeda se sempre que ocorrer a mesma face. Qual a probabilidade
(risco) de considerar viciada uma moeda honesta?”
118
SANTIAGO, G. S., PAIVA, R. E. B.

Para tratar esse tipo de questão, faremos o que se denomina teste de


hipóteses, cujo procedimento será descrito a seguir. São básicos na teoria dos
testes de hipóteses os seguintes conceitos:

4.1. Tipos de hipóteses


a) H0: hipótese de nulidade, ou seja, aquela que envolve uma igualdade; por
exemplo, se estudamos associação entre tabagismo e câncer de pulmão,
H0 será admitir que, dentre os fumantes, a incidência de câncer de pulmão
é a mesma que dentre não fumantes.
b) H1: hipótese alternativa, toda aquela diferente de H0; na associação entre
tabagismo e câncer de pulmão, são hipóteses alternativas, incidência de
câncer de pulmão dentre os fumantes é maior que dentre os não fumantes,
incidência de câncer de pulmão dentre os fumantes é diferente da incidên-
cia dentre os não fumantes.

4.2. Tipos de erros


a) Erro tipo I: consiste em rejeitar H0 quando realmente, deveria ser aceita.
b) Erro tipo II: consiste em aceitar H0, quando realmente, deveria ser rejeitada.
Para compreensão destes tipos de erros, vamos analisar um exemplo
extraído de Vieira (1988): “vamos supor que para saber se a proporção de
crianças do sexo masculino, nascidas em certa localidade durante os últimos,
é estatisticamente diferente de 0,5, um pesquisador fez um levantamento de
dados junto ao registro civil da localidade. Suponha também que a amostra
casual simples, obtida pelo pesquisador, tem tamanho n = 4”.
O pesquisador estabelece então duas hipóteses:
i) H0 : essa proporção é 0,5
H0 : p = 0,5
ii) H1: essa proporção é diferente de 0,5
H1: p ≠ 0,5
O objetivo do pesquisador é, então, testar H0 : p = 0,5 contra H1: p ≠ 0,5,
com base em uma amostra n = 8.
Como já visto no capítulo 6, o número de registros de meninos, em um
conjunto de n registros, é uma variável aleatória com distribuição binomial.
Sob H0 , a proporção de crianças do sexo masculino, nascidas na localida-
de durante os últimos 5 anos, é p = 0,5. Então, sob H0 , esperamos que em
amostras de 8 registros existam, em média, 4 registros relativos à crianças
do sexo masculino. Parece bastante evidente que o pesquisador não deva
rejeitar a hipótese de que a proporção de crianças do sexo masculino é p =
Bioestatística 119

0,5, se verificar que dos 8 registros amostrais 4 ou um número próximo de 4


são de meninos.
Por outro lado se esse número estiver distante de 4, parece razoável
estabelecer que o pesquisador deve rejeitar a hipótese de nulidade.
Sabemos que o número de registros relativos a crianças do sexo mas-
culino, em um total de 8 registros, é uma variável aleatória que pode assumir
qualquer valor inteiro, entre 0 e 8, inclusive. Vamos considerar então que o pes-
quisador estabeleceu a seguinte regra de decisão, em função dos valores que
podem ser assumidos por essa variável aleatória, que representaremos por X:
i) Se o número de registros relativos a meninos for muito pequeno, isto é , 0
ou 1, ou então for muito grande, isto é, 7 ou 8, será rejeitada H0 : p = 0,5.
ii) Se o número de registros relativos a meninos assumir ou um valor igual à
média ou um valor próximo da média, isto é , 2,3,4,5 e 6, não será rejeitada
H0 : p = 0,5.
A pergunta crucial agora é: A DECISÃO TOMADA, COM BASE NA RE-
GRA ESTABELECIDA, ESTÁ SEMPRE CORRETA?
Vamos responder essa pergunta discutindo os possíveis erros que po-
dem ser cometidos.
O pesquisador pretende, com base em uma amostra de 8 registros,
testar H0 : p = 0,5. Ficou estabelecido que se o número registros de meninos
for igual a 0, 1, 2, 7 ou 8, a hipótese H0 : p = 0,5 deverá ser rejeitada.
Entretanto, mesmo que a proporção de crianças do sexo masculino
nascidas na localidade durante os últimos cinco anos seja p = 0,5, em uma
amostra de 8 registros pode não aparecer nenhum registro de menino ou apa-
recer apenas 1, bem como aparecer um número elevado como 7 ou 8.
Então, a regra de decisão que estabelecemos pode nos levar a rejeitar
a hipótese H0: p = 0,5, em casos onde essa hipótese é verdadeira. É claro que
podemos modificar a regra de decisão, mas isso não evita o aparecimento de
erros, logo não podemos estar certos de que a decisão tomada, em função
dessa regra é correta.
Assim, evitar qualquer um desses tipos de erro não é possível, pelo
que devemos nos contentar em lhes estabelecer um limite. Falaremos apenas
para o do tipo I, mais importante, através do conceito seguinte.

4.3. Nível de significância


É a máxima probabilidade de se cometer um erro do tipo I , ou seja, consiste
no risco de aceitar uma diferença inexistente. Geralmente, esse nível é pré-
-fixado em 5% (detecção de diferenças significativas), às vezes em 1% (de-
tecção de diferenças altamente significativas).
120
SANTIAGO, G. S., PAIVA, R. E. B.

5. Teste da diferença entre duas médias


Em experimentos biológicos, surge, frequentemente, a necessidade de se es-
tabelecer se a diferença entre as médias de 2 amostras (tratamento e contro-
le) reflete, efetivamente, uma diferença entre valores populacionais; em outras
palavras: determinada diferença de médias amostrais espelha uma realidade
geral ou se trata apenas de consequência do acaso? A resolução estatística
de tais situações pode ser feita de várias formas, envolvendo certas premissas
, mas o procedimento seguinte é, em princípio, válido, desde que trabalhemos
com amostras grandes (n ≥ 30) e aleatórias; baseia-se na distribuição normal.
Nível de significância: p = 2,5% + 2,5% = 5%
A estatística-teste é a variável reduzida:
X1 − X 2
z=
s12 s22
+
n1 n2
Se: z ≥ 1,96, rejeitamos H0, a um nível de significância de 5%, ou seja,
a diferença é significativa pois há apenas 5% de probabilidade de ser resultan-
te de flutuação do acaso.
Se: z > 1,96, aceitamos H0, não há elementos para suportar a existên-
cia de uma diferença real.

Exemplo 2.3 – Um pesquisador, desejando averiguar possíveis diferenças


entre pesos de filhos recém-nascidos de mães não fumantes ( grupo I ) e de
filhos de mães fumantes ( grupo II ), toma, ao acaso, uma amostra de cada
grupo, obtendo os resultados:

GRUPOS
Dados GRUPO I GRUPO II

Número de crianças n1 = 100 n12 = 80

Peso médio
X 1 = 3,9kg X 2 = 3,6kg
Desvio padrão s1 = 0,4kg s2 = 0,4kg

Temos: H0: O peso de filhos de não fumantes é igual ao dos filhos de


fumantes; simbolicamente: µ1 = µ2
H1 : Os pesos médios são diferentes µ1 ≠ µ2
O valor da estatística-teste é:
3,9 − 3, 6 0,3
z= = = 6 > 1,96
0, 42 0,32 0, 05
+
100 80
Bioestatística 121

Conclusão:
Rejeita-se H0; existe uma diferença significativa, ao nível de 5%, entre os
pesos de recém-nascidos de não fumantes e fumantes.
Nota: Os dados do exercício acima são hipotéticos, mas existem es-
tudos reais que mostram ser o tabagismo importante fator de geração de
crianças de baixo peso (muitas, prematuras ponderais, ou seja, com peso
inferior a 2,5kg).

6. Teste de diferenças entre frequências observadas


e esperadas
Também é uma situação muito comum na investigação biológica averiguar se
freqüências observadas na prática correspondem, razoavelmente, a frequên-
cias esperadas segundo uma hipótese teórica. Esse estudo é feitoatravés do
qui-quadrado ( χ 2 ).

6.1 Estudo da associação para quaisquer tipos de tabelas


bidimensionais
Considere a seguinte tabela:
MASCULINO
Fumante Sim Não Total
Sim 80
Não 100
Total 45 135 180

Preencha as caselas em branco, supondo que haja independência en-


tre sexo e hábito de fumar, ou seja, o percentual de masculinos dentre os
fumantes é igual ao percentual de masculinos dentre os não fumantes.
Os resultados que você obteve na resolução do problema anterior, obti-
dos de uma hipótese teórica (independência entre os atributos) são chamados
resultados esperados (simbolizados, genericamente, pela letra e), em contra-
posição aos resultados da prática, chamados resultados observados (simboli-
zados, genericamente, pela letra o)
Compreenda-se, então, que, se os resultados observados forem próxi-
mos aos esperados, isto sugere independência entre os atributos; se os resul-
tados forem muito diferentes dos esperados, estaremos afastados da hipótese
de independência, o fato sugerindo uma associação entre os atributos.
Tal linha de raciocínio nos conduz a pensar na possibilidade de uma
medida de associação baseada na diferença entre resultados observados e
esperados, medida essa de aplicação genérica para tabelas m x n (m ≥ 2; n
122
SANTIAGO, G. S., PAIVA, R. E. B.

≥ 2) e independente da ordenação das variáveis. Essa medida foi, realmente,


proposta pelo estatístico inglês Pearson e recebe o nome de coeficiente de
contingência (C), dado pela expressão:
χ2
C= , onde:
χ2 + n
(o − e) 2
χ 2 (leia-se qui-quadrado) = ∑ e
n é o total geral da tabela
C = 0 indica independência perfeita
C > 0 sugere associação

Como o valor de C é estritamente não negativo, o coeficiente de con-


tingência apenas sugere a existência de associação falhando em determinar
seu sentido (associação direta ou inversa). Além disso: C ∈ [0;1), isto é, C é
um valor compreendido entre 0 (inclusive) e 1 (exclusive). A ausência de um
limite superior, que varia para cada estrutura de tabela, é outra limitação dessa
medida, mas que pode ser contornada pelo uso do coeficiente corrigido (C ) ,
que tem a expressão:
min(m, n)
C = C.
min(m, n) − 1

onde o segundo fator é chamado de correção. Por exemplo, para uma


tabela 3X4, teremos:
3 3
C = C. =C .
3 −1 2
Antes de ilustramos o cálculo do coeficiente de contingência, vejamos
uma regra prática para o cálculo dos valores esperados (e): O valor esperado
correspondente a cada casela é obtido multiplicando-se o total da linha (em
que se encontra a casela) pelo total da coluna ( em que se encontra a casela),
o produto sendo dividido pelo total geral.
Exemplo 2.4 – Seja a tabela, apresentando valores observados (entre parên-
teses, estão os valores esperados a serem calculados):

SEXO
Grupo sanguíneo Masculino Feminino Total
A 112(e1) 88(e2) 200
B 58(e3) 42(e4) 100
AB 180(e5) 120(e6) 300
O 250(e7) 150(e8) 400
Total 600 400 1.000
Bioestatística 123

Pela regra enunciada:


200 x600 200x 400 100 x600
e1 = = 120 ; e2 = = 80; e3 = = 60 ;
1000 1000 1000
100 x 400
e4 = = 40
1000
300 x600 300 x 400 400 x600
e5= = 180 ; e6 = = 120 ; e7 = = 240 ;
1000 1000 1000
400 x 400
e8 = = 160
1000

Assim, temos a tabela completa (com valores observados fora dos pa-
rênteses e valores esperados dentro dos parênteses):

SEXO
Grupo sanguíneo Masculino Feminino Total
A 112(120) 88(80) 200
B 58(60) 42(40) 100
AB 180(180) 120(120) 300
O 250(240) 150(160) 400
Total 600 400 1.000
Para o cálculo do coeficiente de contingência, temos:

(112 − 120) 2 (88 − 80) 2 (58 − 60) 2 (42 − 40) 2


χ =
2
+ + + +
120 80 60 40
(180 − 180) 2 (120 − 120) 2 (250 − 240) 2 (150 − 160) 2
+ + + = 2,55
180 120 240 160

8,17
Logo : C = ≅ 0, 05 . O valor corrigido será:
2,55 + 1000

2
C = 0,09 = 0,09. 2 ≅ 0,07 , valor próximo de zero, o que sugere
2 −1
independência entre sexo e grupo sanguíneo, como era de se esperar.

Exemplo 2.5 – Um pesquisador, desejando estudar, à luz de dados experi-


mentais, se as crias de um casal de coelhos se repartem, igualmente, segun-
do os dois sexos, obteve os resultados, após várias gestações:
124
SANTIAGO, G. S., PAIVA, R. E. B.

SEXO Numero observado


Masculino 44
Feminino 36
Total 80

H0: O número de filhotes masculinos gerados é igual de ao número de


femininos.
H1: Os números são diferentes.
No problema considerado, o número de graus de liberdade é: 2 – 1 = 1,
pois, se uma das caselas for, por uma hipótese qualquer, preenchida, a outra
fica automaticamente determinada pelo total. Na tabela, para p = 0,05 e gl = 1,
o valor crítico encontrado é 3,84.
Calculemos, agora, a estatística-teste, antes determinando os valores
esperados segundo H0.

Sexo Observados (o) Esperados (e)


Masculino 44 40
Feminino 36 40
Total 80 80

(44 − 40) 2 (36 − 40) 2 16 16 32


χ2 = + = + = =,80
40 40 40 40 40

∴ χ2 < 3,84
Conclusão:
Aceita-se H0, os dados são compatíveis com a hipótese de igualdade de
nascimentos de machos e fêmeas.

Síntese do Capítulo
No primeiro capítulo desta parte foram introduzidos conceitos fundamentais
como amostra, população e universo, sendo tais conceitos discutidos no âm-
bito das escalas de medidas, bem como foram apresentadas as principais
técnicas de amostragem , destacando a importância da aleatoriedade neste
estudo. O capítulo 10 destinou-se a introduzir o mais importante aspecto da
estatística – a inferência. Técnicas de grande alcance, como estimação e
teste de hipóteses, foram apresentados dando um suporte para que o estu-
dante, futuramente, possa melhorá-los em cursos de pós-graduação.
Bioestatística 125

Atividades de avaliação
1. Considere como universo os habitantes da cidade de Felizlândia em setem-
bro de 2009. Descreva 5 populações e 5 amostras oriundas desse universo.
2. Responda ao que se pede:
a) Dê exemplos de variáveis nas escalas nominal, ordinal, intervalar e de razões.
b) Variáveis na escala intervalar podem ser somadas? E na escala ordinal?
c) Variações de temperatura podem ser divididas? Por quê?
d) Tempo é uma variável intervalar? Por quê?
e) Idade é variável em escala de razões? Por quê?
3. Suponha uma população com 5 elementos A, B, C D e E, da qual se deseja
obter uma amostra casual simples de tamanho 3. Quantas amostras são
possíveis? Quais são elas?
4. Um pesquisador dispõe de 10 cobaias para realizar um experimento sobre
a toxicidade de uma droga. Os cinco primeiros animais que ele consegue
pegar são utilizados para o teste da droga e os 5 restantes servirão de con-
trole. Esta amostragem não é boa. Como você agiria?
5. Em uma pesquisa de mercado para serviços odontológicos em certa cida-
de, foi estabelecida a seguinte técnica de amostragem: tomou-se uma lista
de nomes de clientes de uma loja de um shopping center, onde a lista está
em ordem alfabética do último sobrenome, e se amostrou o quinto de cada
10 nomes da lista. Discuta este procedimento.
6. Admitindo que o desvio padrão de taxas de ureia plasmática em adultos nor-
mais é de 3mg/dL, qual o tamanho mínimo da amostra para que se tenha
um erro de estimativa não superior a 0,5mg/dL?
7. Um pesquisador admite que, em portadores de determinada doença, os gru-
pos sanguíneos (sistema ABO) se distribuem na proporção A:B:O:AB::1:2:3:4.
Analise esta hipótese à luz dos seguintes dados de observação sobre 200
pacientes, tomados aleatoriamente:
126
SANTIAGO, G. S., PAIVA, R. E. B.

Grupo Sanguíneo Número de observações


A 60
B 40
AB 35
O 65
Total 200

8. Considere os seguintes dados sobre colesterolemia (mg/dL) em 2 amostras


independentes de pacientes:

Grupos
I II
Média X 1 =260 X 2 = 250
Desvio padrão s1= 20 s2= 25
Tamanho da amostra n1 = 30 n2 = 30
Teste, ao nível de 5%, a hipótese de igualdade entre as médias populacionais.

9. Suponha, agora, que com as mesmas médias do exercício anterior, tenha-


se os dados:

Grupos
I II

Média X 1 =260 X 2 = 250


Desvio padrão s1= 10 s 2= 8
Tamanho da amostra n1 = 100 n2 = 100
Teste, ao nível de 5%, a hipótese de igualdade entre as médias populacionais.
Como explicar que, agora, embora mesmo persistindo a diferença amostral:
260 – 250 = 10mg/dL, a conclusão seja diferente da do exercício anterior?

10. Teste a hipótese de independência para os dados da tabela abaixo, a res-


peito dos efeitos de um processo de vacinação.
IMUNIZADOS
VACINADOS SIM NÃO TOTAL
SIM 75 45 90
NÃO 40 45 85
TOTAL 115 60 175
Bioestatística 127

Texto complementar
Efeito indesejável no levantamento de dados: efeito placebo
O efeito placebo ocorre quando um indivíduo participante de um experimento, mas
não tratado, acredita estar recebendo o tratamento e passa a relatar melhoras em
seus sintomas. Uma forma de administrar placebo por via oral em Placebo é uma
substância neutra, isto é, que não apresenta nenhum princípio ativo capaz de com-
primidos consiste em dar ao indivíduo um comprimido de farinha. Outra forma é
apresentar a substância diluída em uma bebida, como suco ou chá. Normalmente, os
comprimidos de placebo possuem o mesmo formato dos comprimidos verdadeiros,
isto é, aqueles que contém o princípio ativo. A intenção com esse procedimento é a
de que o paciente, ao tomar o placebo, de fato pense estar tomando uma substância
que irá lhe trazer uma mudança de estado. Naturalmente, nada deveria ocorrer com
ele e, se relatar melhora, obviamente estar sendo objeto do efeito placebo. Este pro-
cedimento é de fundamental importância para isolar a ação do sal ao se testar sua
eficácia. O procedimento experimental empregado para testar o efeito de determina-
da substância eliminando o efeito placebo consiste em separar os pacientes em dois
grupos. O primeiro – denominado controle – recebe comprimidos de placebo; en-
quanto o segundo – denominado tratamento – recebe os comprimidos verdadeiros.
Devido ao fato de os pacientes participantes do experimento não saberem ao certo
se estão sendo tratados (recebendo o comprimido verdadeiro), um estudo que adota
esse procedimento é denominado estudo cego ou blind

(Extraído de ARANGO, 2005).


128
SANTIAGO, G. S., PAIVA, R. E. B.

Referências
ARANGO, H. G. Bioestatística: teórica e computacional. Rio de Janeiro: Gua-
nabara Koogan, 2005. 423 p.
CALLEGARI-JACQUES, S. M. Bioestatística: princípios e aplicações. Porto
Alegre: Artmed, 2003. 255 p.
OLIVEIRA, E. G.; MOREIRA, O. C. Guia para o ensino introdutório da esta-
tística nos cursos da área de saúde. Fortaleza: UECE, 1987.149 p.
VIEIRA, S. Introdução à bioestatística. Rio de Janeiro: Editora Campus,
1988. 294 p.

Sobre os autores
Genário Sobreira Santiago
•• Bacharel em Medicina veterinária (UECE - 1985);
•• Licenciado em Matemática (UECE - 2007);
•• Mestre em Zootecnia (UFMG - 1990);
•• Doutor em Ciência Animal (UFMG - 2001);
•• Atualmente é Professor Adjunto da UECE.

Rui Eduardo Brasileiro Paiva


•• Licenciado em Matemática (UECE - 2007);
•• Especialista em Ensino de Matemática (UECE - 2009);
•• Atualmente é Professor do Curso de Matemática da UECE.
Anexo 1
Tabela 1A

VALORES DE e–l SEGUNDO O VALOR DE l


l e−l l e−l l e−l
0,1 0,904837 3,1 0,045049 6,1 0,002243
0,2 0,818731 3,2 0,040762 6,2 0,002029
0,3 0,740818 3,3 0,036883 6,3 0,001836
0,4 0,670320 3,4 0,033373 6,4 0,001662
0,5 0,606531 3,5 0,030197 6,5 0,001503
0,6 0,548812 3,6 0,027324 6,6 0,001360
0,7 0,496585 3,7 0,024724 6,7 0,001231
0,8 0,449329 3,8 0,022371 6,8 0,001114
0,9 0,406570 3,9 0,020242 6,9 0,001008
1,0 0,367879 4,0 0,018316 7,0 0,000912
1,1 0,332871 4,1 0,016573 7,1 0,000825
1,2 0,301194 4,2 0,014996 7,2 0,000747
1,3 0,272532 4,3 0,013569 7,3 0,000676
1,4 0,246597 4,4 0,012277 7,4 0,000611
1,5 0,223130 4,5 0,011109 7,5 0,000553
1,6 0,201897 3,6 0,010052 7,6 0,000500
1,7 0,182684 4,7 0,009095 7,7 0,000453
1,8 0,165299 4,8 0,008230 7,8 0,000410
1,9 0,149569 4,9 0,007447 7,9 0,000371
2,0 0,135335 5,0 0,006738 8,0 0,000335
2,1 0,122456 5,1 0,006097 8,1 0,000304
2,2 0,110803 5,2 0,005517 8,2 0,000275
2,3 0,100259 5,3 0,004992 8,3 0,000249
2,4 0,090718 5,4 0,004517 8,4 0,000225
2,5 0,082085 5,5 0,004087 8,5 0,000203
2,6 0,074274 5,6 0,003698 8,6 0,000184
2,7 0,067206 5,7 0,003346 8,7 0,000167
2,8 0,060810 5,8 0,003028 8,8 0,000151
2,9 0,055023 5,9 0,002739 8,9 0,000136
3,0 0,049787 6,0 0,002479 9,0 0,000123
Tabela 2A
DISTRIBUIÇÃO NORMAL REDUZIDA P(0<Z<Z)
Último dígito
0 1 2 3 4 5 6 7 8 9
0,0 0,0000 0,0040 0,0080 0,0120 0,0060 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2707 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4191 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4658 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
Ciências Biológicas

F
iel a sua missão de interiorizar o ensino superior no estado Ceará, a UECE,
como uma instituição que participa do Sistema Universidade Aberta do
Brasil, vem ampliando a oferta de cursos de graduação e pós-graduação
na modalidade de educação a distância, e gerando experiências e possibili-
dades inovadoras com uso das novas plataformas tecnológicas decorren-
Ciências Biológicas
tes da popularização da internet, funcionamento do cinturão digital e

Bioestatística
massificação dos computadores pessoais.
Comprometida com a formação de professores em todos os níveis e
a qualificação dos servidores públicos para bem servir ao Estado,
os cursos da UAB/UECE atendem aos padrões de qualidade
estabelecidos pelos normativos legais do Governo Fede-
ral e se articulam com as demandas de desenvolvi-
Bioestatística
mento das regiões do Ceará.

Universidade Estadual do Ceará - Universidade Aberta do Brasil


Genário Sobreira Santiago
Rui Eduardo Brasileiro Paiva

Geografia

12

História

Educação
Física

Ciências Artes
Química Biológicas Plásticas Computação Física Matemática Pedagogia