Você está na página 1de 107

1

BIOESTATÍSTICA
RELAÇÕES DE IDENTIDADE: PARTE 1 – A MEDIDA COMO PREDICADO DAS COISAS
As coisas e seus predicados ................................................................................................. 2
Medida, número e numeral: a representação simbólica das coisas e seus predicados ......... 8
Os tipos de medidas............................................................................................................ 10
Transformação de medidas................................................................................................. 13
A coisa como um conjunto de coisas ................................................................................ 16
Edição de medidas numa base de dados............................................................................. 20
Descrevendo um conjunto de medidas ............................................................................... 23
Medidas de ocorrência de eventos...................................................................................... 32
Intervalos no espaço quantitativo discreto e no quantitativo contínuo.......................... 42
Medidas de conjuntos de coisas.......................................................................................... 45
Moda............................................................................................................................... 47
Mediana .......................................................................................................................... 49
Outras medidas de posição ............................................................................................ 50
Média .............................................................................................................................. 51
Medidas de dispersão de coisas num conjunto................................................................... 60
Medidas relativas de dispersão de grupos e desvio de indivíduos................................. 67
A coisa como uma classe de coisas................................................................................... 69
De freqüências para probabilidades.................................................................................... 73
De medidas resumo para parâmetros de funções................................................................ 79
Reconhecendo classes pela experiência com conjuntos de coisas............................... 90
Escolhendo um grupo para representar uma classe: o processo de amostragem.............. 100
Tamanho de amostra .................................................................................................... 103

RELAÇÕES DE ORDEM: PARTE 2 – JUÍZOS SOBRE IGUALDADE E DIFERENÇA


Juízos sobre grande e pequeno, maior e menor........................................................... 106
Comparando coisas pela argüição da igualdade ........................................................... 109
Comparando coisas pela argüição da diferença ............................................................ 111
O teste de significância estatística .................................................................................... 113
O Teste de Hipótese.......................................................................................................... 116
Erro de julgamento sobre igualdade e diferença .......................................................... 119
Procedimentos de cálculo ................................................................................................. 125
Diversidade de distribuições de probabilidade para argüição de igualdade e diferença .. 126
Diversidade de estimativas de parâmetros para argüição de igualdade e diferença......... 128
Cálculo de intervalo de confiança: comparação pela argüição da igualdade ................... 129
Cálculo de significância estatística: comparação pela argüição da diferença .................. 131
1° caso: Amostra X População cuja variância é conhecida ........................................ 132
2° caso: Amostra X População cuja variância é desconhecida................................... 133
3° caso: Grupo X Grupo, grupos independentes com variâncias conhecidas ............. 134
4° caso: Grupo X Grupo, grupos independentes com variâncias desconhecidas, mas
iguais ............................................................................................................................ 136
5° caso: Grupo X Grupo, grupos independentes com variâncias desconhecidas e ainda
diferentes ...................................................................................................................... 139
6° caso: Grupo X Grupo, grupos pareados.................................................................. 141
Resumo da comparação por argüição da diferença .................................................... 146
Comparação entre vários grupos..................................................................................... 147
Comparações múltiplas ..................................................................................................... 153
2

As coisas e seus predicados

A Estatística é uma disciplina das ciências formais (despidas de objeto, tratam apenas da
estrutura conceitual, lógica e epistemológica do conhecimento) à qual diferentes ciências
empíricas (com objeto definido) recorrem para melhor conhecer as coisas de seu
interesse. O prefixo ‘bio’ para Bioestatística busca apenas dar-lhe o sentido de
aplicada às ciências biológicas e da saúde, mas nela nada se encontra de
conceitualmente diferente.

Não só o conhecimento, mas a própria existência das coisas tem sido um desafio
constante para o pensamento humano, uma preocupação presente nas reflexões de
filósofos desde a antiguidade até os dias atuais. Sócrates, em Thætetus1, da
seguinte forma lança dúvida sobre a certeza do ser:

“How can you determine whether at this “Como você pode determinar se neste
moment we are sleeping, and all our momento estamos dormindo e todos os
thoughts are a dream; or whether we are nossos pensamentos são sonhos; ou se
awake, and talking to one another in the estamos acordados e conversando um
waking state?” com outro em estado de vigília?”

Aristóteles2 entendia que uma coisa era reconhecida por uma definição que
traduzisse sua essência. Por predicado, ele entendia a propriedade que, embora
sem dizer respeito à essência da coisa, fosse atributo particular da coisa e
conversível a ela mesma por relação biunívoca. Em suas palavras:

“A 'property' is a predicate which does “Uma ‘propriedade’ é um predicado


not indicate the essence of a thing, que não indica a essência de uma
but yet belongs to that thing alone, coisa, mas que, no entanto,
pertence especificamente a esta
and is predicated convertibly of it.”
coisa e é predicativamente
conversível a ela”

A partir dos predicados, as coisas podem ser agrupadas em categorias de coisas


(species) e classes (genus), de forma que reconhecendo os predicados das coisas
podemos conhecê-las enquanto indivíduo, grupo ou conjunto, e como classe. As
definições e predicados das coisas dão-lhes um significado sem qual elas não são
apreensíveis. Umberto Eco3, que além de comemorado escritor é um semiólogo
largamente reconhecido, entende que para o reconhecimento da existência é
necessário que a coisa tenha um significado:
3

“... o Objeto Dinâmico permanece sempre como uma Coisa em Si, sempre
presente e nunca apreensível, a não ser, através da semiose.”

Ao referir-se a ‘objeto dinâmico’, Eco está destacando a dificuldade de estabelecer-


se o que seja uma coisa dada à própria dinâmica de sua existência: ao afirmar-se
que uma coisa seja, fala-se de um momento particular efêmero, cuja extensão no
tempo requer uma abstração de um traço permanente que distinga esta coisa.
Newton da Costa4 esclarece que “em ciência, captamos e explicamos o real via conceitos

e redes conceituais, que edificamos” e que o que nos permite reconhecer uma coisa
como particular é um ” ‘quid’ que se conserva sem modificação” por mais que a coisa

se transforme no tempo: um homem, embora se modifique permanentemente ao


longo da vida, ainda pode ser reconhecido como ele mesmo por este traço que é
uma abstração do observador.

Da Costa, lembra ainda que existe conhecimento (científico) de um objeto quando


“o objeto significar conteúdo de crença do sujeito cognoscente, isto é, uma proposição”.

Conhecimento de uma coisa demanda, portanto, uma relação entre objeto e


observador. Em Thætetus1 encontramos ainda uma extensão desta conclusão que
diz que o reconhecimento de uma coisa depende do estabelecimento de alguma
relação entre ela e outra coisa:

“(quando) uma pessoa diz que uma coisa é


“(when) a person says that a thing is or ou se torna, ela deve dizer que isto é ou se
becomes, he must say that it is or becomes to torna em ou de em relação a alguma outra
or of in relation to something else; but he coisa (a qual alcança ou da qual deriva); mas
must not say or allow any one else to say ela não deve dizer nem permitir que se diga
that anything is or becomes absolutely” que alguma coisa é ou se torna
absolutamente”

Retornemos a Umberto Eco, no seu já citado livro cujo título é ”Kant e o


ornitorrinco” 5. Ele comenta a impossibilidade de dissociar ontologia e semântica (o
ser e seu significado), sugerindo que o conhecimento da existência de uma coisa
demande um significado para ela – o ornitorrinco do título do livro é um desafio
metafísico* porque tem atributos conflitantes com as outras coisas que se conhece
como animal: tem bico, mas não é ave; é mamífero, mas não tem mama; tem

*
Metafísica é o ramo da filosofia que estuda a natureza e a essência da existência das coisas (ontologia).
4

nadadeiras e vive n’água, mas não é peixe... Ao longo de seu livro, para mostrar a
dificuldade que se tem de conhecer alguma coisa apenas pelo nome, ele lembra a
dificuldade de Marco Polo para contar que havia conhecido o rinoceronte quando de
sua passagem por Basma (hoje Sumatra). Numa tradução recente, o trecho é o
seguinte:

“No reino, há elefantes selvagens e unicórnios, do tamanho e com patas


de elefante e o pêlo de búfalo. No meio da cabeça, ostentam um chifre
negro e grosso: posso assegurar que não fazem mal com este corno,
mas sim com a língua, porque a têm espinhosa, cheia de espinhos muito
grandes. A cabeça parece a de um javali, sempre farejando a terra: é
um animal muito feio de se ver e que vive à vontade, entre o lodo e a
lama.”6
Dois aspectos emergem aqui: primeiro que o nome sozinho de fato não dá a
conhecer a coisa, apenas a separa das outras, substitui o dedo para apontá-las: ao
invés de apontar uma coisa, referimo-nos a ela pelo nome. Segundo, é uma
distinção entre denotação (especificação, identificação) e conotação (entendimento,
interpretação). Embora o nome denote uma coisa, sem associá-la a determinados
predicados ela pode ter conotação errada e esta é a preocupação da descrição de
Marco Polo no trecho acima. Note que ele diz ter encontrado elefantes e unicórnios
e, embora dos primeiros nada mais fale, dos unicórnios alonga-se em descrição de
detalhes num esforço de a eles associar predicados que lhes garantam conotação
apropriada. Quando Polo escreveu as memórias de suas viagens, a conotação que
se tinha para unicórnio era do mitológico cavalo branco e belo que a esta época,
século XIII, se acreditava que açulasse moças donzelas deflorando-as com seu
corno. Daí sua preocupação em esclarecer que o unicórnio que encontrara (o
rinoceronte) não era em nada belo e tão pouco fazia mal com seu chifre...

Uma medida é uma representação formal da coisa que se procura conhecer, ou


seja, ela não é a coisa, mas tem uma relação com a coisa na forma de uma
proposição. Segundo Poincaré7, filósofo e matemático do século XIX, conhecimento
é justamente o estabelecimento de relações:

–“outside relations there is no reality – “fora das relações não há nenhuma


knowable” realidade conhecível”.
5

A afirmação de existência tipo “é”, “existe”, “há”, que pode ser resumida em “ser”,
quer como substantivo ou verbo, não é uma expressão de conhecimento, mas
apenas uma proposição, v.g. ‘João existe’, embora uma proposição, não revela
conhecimento – pode-se afirmar isto sem se conhecer João ou tampouco se de fato
ele existe.

Talvez a primeira relação que estabeleça o conhecimento seja a relação entre


sujeito (observador) e objeto (coisa estudada), de onde Descartes8 tirou sua máxima
ontológica (lembra-se? – ontologia, metafísica – disciplina da filosofia que argüi a
existência das coisas, do mundo) “Penso logo existo”. Descartes em seu ‘Discours de la
méthode’ reflete que, mesmo que eventualmente a coisa em que ele pense não
exista, do fato dele pensar em alguma coisa deve decorrer que certamente ele
exista como agente do pensamento: dada a relação ‘Eu penso em algo’, pelo menos
o Eu é revelado como existente.

O algo com que relacionamos a coisa para conhecê-la pode ser um predicado desta
coisa ou uma outra coisa. Por exemplo, ‘João é humano’ estabelece uma relação
entre uma coisa (João) e um atributo (humano). As relações que envolvem uma
única coisa são chamadas relações monádicas (v.g. João é humano), quando duas
coisas são envolvidas (v.g. João é maior que José) são chamadas diádicas, quando
três coisas estão envolvidas (v.g. João senta-se entre Maria e José) são chamadas
triádicas, e assim por diante, generalizando-se em poliádicas as relações
envolvendo várias coisas.

Neste livro de Bioestatística vamos estudar relações monádicas e diádicas: relações


de coisas com predicados e relações entre duas coisas. Se chamarmos de ‘x’ a coisa
que queremos conhecer ou estudar e se chamarmos de ‘y’ o atributo da coisa ou a
outra coisa com que queremos relacionar nosso ‘x’, a relação entre x e y pode ser
escrita genericamente como

x R y (x em relação com y).

Substituindo x, R e y podemos ter diferentes afirmações, por exemplo,

x = João
R = ser João é humano
y = humano
6

x = João
R = ser maior João é maior que José
y = José
x = João
R = ser filho João é filho de Maria
y = Maria
que embora sejam distintas, têm uma mesma forma, um mesmo esqueleto.

Neste livro, este R representará três tipos de relações:

1. Relações de existência ou identidade (ser)


2. Relações de ordem (igualdade/ desigualdade, maior, menor, igual)
3. Relações de dependência (causa e efeito)
cada uma correspondendo a uma parte.

Nesta primeira parte estudaremos o que chamaremos “relação de existência” ou


“relação de identidade”.

Em lógica, distingue-se uma afirmação de uma proposição pelo fato de esta última
ser uma afirmação passível de verificação de verdade. Dizer que uma coisa é com
possibilidade de aferição de verdade é um princípio aristotélico de reconhecimento
de uma coisa:

Again, ‘being’ and ‘is’ mean that a


Ainda, ‘ser’ e ‘é’ significa que uma
statement is true, ‘not being’ that it is not afirmação é verdadeira, ‘não ser’ que não é
true but false - and this alike in the case of verdadeira, mas falsa – e isto da mesma
affirmation and of negation; e.g. ‘Socrates forma quer no caso de afirmação ou
is musical’ means that this is true, or negação; v.g. ‘Sócrates é musical’ significa
‘Socrates is not-pale’ means that this is que isto é verdade, ou ‘Sócrates é não-
true; but ‘the diagonal of the square is not pálido’ significa que isto é verdade; mas ‘a
commensurate with the side’ means that it hipotenusa não é comensurável com o lado’
significa que é falso dizer que assim seja.
is false to say it is.9

A Estatística, como de resto toda a ciência moderna, na incerteza da real existência


das coisas trabalha com um ente proposicional: escapando da disputa ontológica
sobre a coisa, ela é admitida por hipótese como verdadeira. Sua verificação de
verdade dá lugar a uma verificação de validade, um teste que, sem disputar
verdade propriamente dita, é uma aferição se a afirmação segue regras de um
enunciado correto (well-formed-formula, em lógica). Por exemplo, a afirmação

Ana é jovem e bonita,


7

para a língua portuguesa é uma proposição válida, que será verdadeira se de fato
Ana for jovem e bonita. Já a afirmação

Ana e vemjo é tanibo,

não é uma proposição válida, porque seu enunciado não segue as regras da
ortografia e gramática da língua portuguesa. Com a primeira posso conhecer Ana
por seus predicados e pelos predicados posso reconhecer, senão Ana diretamente,
coisas assemelhadas a ela (conversibilidade entre coisa e predicado). O conhecimento
científico preocupa-se com universais e não com particulares – daí que, ainda que
se possa disputar a biunivocidade entre Ana e seus predicados, à ciência interessa
saber as coisas que são jovens e belas. Estuda-se atributos para se conhecer as
coisas.
Podemos ver a relação de existência como uma proposição envolvendo (1) uma
coisa como objeto, (2) outra como predicado e (3) uma relação entre elas (cópula,
em lógica) da forma de igualdade (=, entre duas coisas particulares), ou de

pertencimento (∈, entre uma coisa e um conjunto ou uma classe), ou de inclusão (⊂,

entre dois grupos ou entre um grupo e uma classe). Se distinguirmos que a proposição
“Ana é jovem e bonita” pode ser decomposta em duas elementares (fórmulas
atômicas)
“Ana = jovem” e
“Ana = bonita”

Podemos ter uma conclusão válida (silogismo em modus ponens) do tipo

“bonita = jovem”

Note que a validade de uma proposição elementar do tipo “A é B” só é aferida em


termos de forma, não de conteúdo, de significado. Já num argumento onde se tira
alguma conclusão a partir de proposições elementares, pode-se aferir validade tanto
de forma (regras de inferência) quanto de conteúdo: se as proposições forem válidas,
a conclusão também será. No nosso exemplo, se todo jovem é verdadeiramente
bonito pode ser motivo de disputa, mas o que a formalização, seja com o cálculo
proposional da lógica seja com os cálculos da Estatística, nos permite é estender
nossos conhecimentos de observações particulares para sugestões de possíveis
relações universais, o conhecimento que interessa à ciência. A conclusão de que a
8

proposição “jovem = bonito” é válida é chamada inferência dedutiva; a conclusão


de que esta proposição seja verdadeira, ou falsa, é chamada inferência indutiva.
Toda a ciência contemporânea é baseada em inferência indutiva sobre argumentos
dedutivamente válidos.

Medida, número e numeral: a representação simbólica das coisas


e seus predicados

Estabelecido o conceito de que as coisas são conhecidas por seus predicados, há


que se distinguir o predicado de sua representação simbólica. Quando fazemos a
afirmação:
Ana é jovem e bonita

Estamos reconhecendo uma pessoa, Ana, pelos seus predicados, jovem e bonita.
Isto deve ser distinguido da frase escrita em português “Ana é jovem e bonita”, que
usa caracteres do alfabeto latino moderno em palavras da língua portuguesa: a
mesma coisa, Ana, em sendo reconhecida por tais atributos, poderia ainda ser
representada em outra língua, v.g. o inglês:
Ana is young and beautiful

No inglês, os mesmos caracteres latinos são organizados em palavras distintas, mas


a frase preserva o sentido original de caracterizar Ana por seus atributos. Em russo,
a afirmação seria:
Aна молодая и красивая

uma frase agora com o alfabeto cirílico e com palavras da língua russa, mas
conservando a mesma informação de caracterização de Ana por seus atributos.

Em matemática ou estatística, o alfabeto utilizado é a Aritmética e os símbolos são


os numerais arábicos. Assim como as línguas têm regras gramaticais para o uso de
letras, palavras e afirmações, a Aritmética tem regras no uso dos numerais, os
símbolos que usa para representar números†. Por exemplo, se o símbolo ‘1’
representa o número um e o símbolo ‘2’ representa o número dois e se por regra do
sistema decimal cada posição à esquerda representa uma potência de dez (100, 101,


Se tomará número com conceito natural, compreendido sem explicação. Russel o define: “o número de uma
classe é a classe de todas as classes que são similares a ela” – Russel B. Introdução à filosofia matemática.
Rio de Janeiro: Jorge Zahar Ed., 2007. pp. 36.
9

102 e etc. – unidades, dezenas, centenas, etc.), então a composição destes


símbolos em ‘12’ significa uma dezena somada a duas unidades e representa o
número doze.

As coisas têm propriedades (atributos) assim como as têm os números (representados


por numerais) na Aritmética, cujas bases Diofante estabeleceu na Alexandria em
torno do ano 25010. Quando usamos os números para representar os atributos das
coisas, estamos assumindo que as propriedades dos atributos da coisa são análogas
às propriedades dos números. Muitas vezes esta analogia é evidente como, por
exemplo: de uma pessoa com o dobro do peso de outra cujo peso seja ‘x’ kg,
dizemos que ela tem um peso ‘2.x’ kg. Outras vezes a analogia é uma premissa que
se fixa arbitrariamente como, por exemplo, de uma pessoa que come pouco se
dizer que ela come metade (½) do que uma pessoa que come muito (1).

Decidida a analogia entre os números e os predicados da coisa, resta escolher como


serão representados os predicados. No nosso exemplo, talvez pudéssemos escolher
o número 1 para identificar a presença do predicado (tanto para jovem quanto para
bonita) e o número 0 para identificar a ausência do predicado e então escreveriamos
a afirmação sobre Ana da seguinte forma:
Ana = 1,1 (X = Y, Z)

A própria Ana poderia ainda também ser identificada por um número, v.g. o Rg de
sua Carteira de Identidade. O símbolo de igualdade está tomando o lugar do verbo
e poderia tanto ser substituído por outros operadores quanto simplesmente ser
ignorado, da mesma forma que do português para o inglês ele passa de “é” para
“is” e no russo ele é ignorado. Em matemática, teorias como a Teoria dos Conjuntos
ou a Teoria das Funções podem ser vistas como diferentes línguas que usam os
numerais e outros símbolos de operação (v.g. ∈,∉, ⊂, ⊃, →, etc. ) e de modificação

(v.g. ∃, ∀, ¬, etc. ) de maneira variada, assim como as línguas usam as letras em

diferentes palavras, com diferentes verbos e diferentes adjetivos e advérbios.

Você deve estar se perguntando se pode fazer com que os números assumam o
significado que julgue conveniente... Vamos recorrer ao Professor Charles Lutwidge
Dodgson, lógico e matemático na Universidade de Oxford, no século XIX. Sob o
pseudônimo de Lewis Carroll, ele escreveu “Alice no País das Maravilhas” (1865),
10

um livro de estórias infantis cheio conotações lógicas e matemáticas. Na parte 2


deste livro, ao discutir com Humpty-Dumpty, um caricato personagem, Alice ouve
dele11:

– “Quando eu uso uma palavra, ela significa exatamente o que eu escolho


como significado”.
Incrédula, Alice o argúi se se pode fazer com que as palavras signifiquem diferentes
coisas, apenas para ouvir Humpty-Dumpty retrucar:

– “A questão é quem é o mestre e isto é tudo”.


O que Carroll está nos contando é que os símbolos, sejam eles letras ou numerais
em composição de palavras ou números, não têm significado intrínseco, os
significados lhes são atribuídos por quem os usa. Ao escolher números para
representar atributos das coisas, o pesquisador deverá ter claro o que busca e sob
que referencial teórico (o que quer denotar e com que conotação) de forma a escolher
adequadamente que números usar e com que analogia com a aritmética. No
exemplo acima dos atributos de Ana, usando-se 1 para presença e 0 para ausência
se está respeitando a analogia com a aritmética onde zero significa ausência. As
operações aritméticas, por exemplo a soma, terão resultado análogo ao
comportamento dos predicados assim representados: a soma dos números
resultaria em 2 e, de fato, Ana teria duas qualidades, ser jovem e ser bela.

Os tipos de medidas

As medidas são representações simbólicas que vão expressar os atributos das


coisas de duas formas:

1. ou designando a que classe a coisa pertence segundo o predicado:


• v.g. “Ana é jovem”, quer dizer que ela pertence à classe, à categoria,
dos jovens
2. ou expressando a intensidade com que a coisa apresenta o predicado:
• v.g. “Ana tem 20 anos”, quer dizer quanto de idade ela tem.

Norman R. Campbell, no seu clássico trabalho de 1921 intitulado “Measurement”12,


distinguiu o que chamou de medidas fundamentais e medidas derivadas. Fazendo
uso de suas reflexões que, no entanto, excluíram as medidas que designam classes
de coisas, podemos fazer algumas distinções.
11

Entre as medidas fundamentais, podemos distinguir:

• Aquelas que designam qualidades de coisas, e entre estas

1º Aquelas cujas categorias não têm relação uma com a outra e que são
chamadas qualitativas nominais (nomes, rótulos – com estes atributos as
coisas podem ser avaliadas apenas como iguais ou diferentes: =,≠), e

2º Aquelas cujas categorias têm alguma relação uma com a outra e que são
chamadas qualitativas ordinais (hierarquia do tipo 1º, 2º, etc – com estes
atributos as coisas podem ser avaliadas como iguais, diferentes, maiores ou menores:
=,≠,<,>)
• Aquelas que designam quantidade ou intensidade de predicados e entre estas

1º Aquelas cujos predicados são quânticos, que variam por unidades definidas,
e que são chamadas quantitativas discretas (multitude: contagens, como em
idade por anos completos – com estes predicados as coisas podem ser comparadas
como iguais, diferentes, maiores ou menores [=,≠,<,>] até o limite que a tal unidade
permita distinção) e

2º Aquelas cujos predicados são contínuos, cuja unidade pode ser


indefinidamente redefinida para níveis menores e que são chamadas
quantitativas contínuas (magnitude, como em quilômetros (Km) que pode ser
redefinido em metros, centímetros, etc. – com estes predicados as coisas podem,
ainda que teoricamente já que haverá um limite físico para a divisão, ser comparadas
até o nível de minúcia que distinga perfeitamente coisas iguais, diferentes, maiores
ou menores [=,≠,<,>]).

Em português não se distingue estes dois tipos de quantidade (multitude e


magnitude). Por exemplo, de uma multidão se diz muita gente e de uma coisa
pesada, muito peso. Em inglês há distinção para substantivos contáveis e não
contáveis: many people and much weight. Em matemática, a distinção entre o
discreto e contínuo é muito importante porque cada tipo de medida revela a coisa
que se estuda de uma forma alternativa e algumas vezes os resultados são
paradoxalmente conflitantes. Um exemplo clássico é o paradoxo de Zenão‡:
Aquiles deve disputar uma corrida com uma tartaruga, para a qual dá um
espaço de vantagem. Zenão afirmava que nossos sentidos nos enganam
quando sugerem que Aquiles ultrapasse a tartaruga. Argumenta que a cada
momento que Aquiles alcança uma posição da tartaruga, ela sempre terá
progredido alguma coisa em sua marcha, ainda que por um espaço muito

Filósofo eleático, discípulo de Parmênides, séc. V aC
12

pequeno. A divisão infinita de um espaço requer solução de matemática do


contínuo (Teoria de Limite) e seu tratamento na perspectiva de intervalos
discretos conflita com esta solução.
As medidas derivadas são as que expressam uma quantidade com referência a
uma outra, mudando sua unidade original de medida para quanto há desta medida
por unidade de uma outra tomada como referência. Representando então um
quociente entre uma medida e outra, estas medidas derivadas podem ser

• Resultado da razão (divisão) entre duas medidas de mesma natureza,


distinguindo-se

1º Aquelas que são discretas: a medida derivada é uma proporção, por


exemplo, 10 pessoas entre 100 pessoas é 0,1 ou 10% do total de pessoas;

2º Aquelas que são contínuas: a medida derivada é uma fração, por exemplo,
numa medida de colesterol total de 200 mg/dl onde o LDL (Low-Density
Lipoprotein – fração do colesterol responsável por doenças cardiovasculares) seja
de 100mg/dl, têm-se uma fração de 0,5 de LDL.

• Resultado da razão (divisão) entre duas medidas de natureza distinta, indicando


então concentração de um atributo em referência a outro. A densidade de
materiais é uma medida deste tipo, representando a razão de quanto há de
massa
massa em relação a quanto há de volume: densidade = . É uma medida
volume
especial porque descreve a natureza da coisa§: cada substância tem sua
densidade própria e duas coisas feitas desta mesma substância poderão ser
reconhecidas como iguais, de uma mesma classe, por esta medida derivada.
Esta última medida, tipo densidade, será muito utilizada em Estatística para
distinguir classes de coisas e sem seu perfeito entendimento, conceitos simples
podem restar desnecessariamente obscuros – sempre que em Estatística se falar de
quantidade de ocorrências por unidade ou por intervalo de valores de uma medida
contínua, se estará expressando uma densidade, uma medida característica do que
se esteja estudando. Campbell dedica uma longa discussão a este tipo de medida

§
Aristóteles dava especial ênfase a este tipo de medida: “There are indeed passages in which even Empedocles
hits upon this, and following the guidance of fact, finds himself constrained to speak of the ratio (olugos) as
constituting the essence and real nature of things. Such, for instance, is the case when he explains what is a
bone. For he does not merely describe its material, and say it is this one element, or those two or three
elements, or a compound of all the elements, but states the ratio (olugos) of their combination. As with a bone,
so manifestly is it with the flesh and all other similar parts.” – Aristotle. On the Parts of Animals. Written 350
B.C.E. Book I. Translated by William Ogle. Part 1.
13

discorrendo sobre a função derivada do Cálculo Diferencial, tópico de matemática


que você poderá desconhecer para o curso de Bioestatística, desde que
compreenda bem o conceito de medida derivada.

Transformação de medidas

O conceito de medida derivada introduz um aspecto importante na utilização de


medidas que são os procedimentos de transformação de mensurações originais em
outras que eventualmente facilitem sua interpretação. Estas transformações podem
ser de pelo menos 3 tipos:

1. Categorização: dada uma medida quantitativa ajuíza-se sua importância (sua


grandeza) atribuindo-se valor de qualidade a intervalos específicos de seus
valores. Por exemplo, considere que uma medida de glicemia (dosagem de
glicose no sangue) seja usada para caracterizar o diagnóstico de Diabetes e
suponha que o conhecimento médico sugira que um valor acima de
120mg/dl seja sugestivo de doença. Nesta situação, dado um valor de
glicemia de uma pessoa, este valor poderia ser transformado em categorias
de qualidade como doente e não doente, conforme a medida de glicemia
fosse maior ou menor do que 120mg/dl. Note que com esta transformação
tem-se facilitada a interpretação de uma medida de glicemia: v.g. um valor
de glicemia de 135,78 mg/dl, independentemente dos detalhes de sua
precisão centesimal, aloca uma pessoa na condição de doente. Se
chamarmos de X as medidas de glicemia na forma mg/dl e de Y as medidas
de glicemia como categorias de qualidade, nosso procedimento de
transformação da medida original corresponde a uma função que aplicada a
valores de X leva a valores de Y. Em matemática isto pode ser escrito como
f:xy ou y = f(x), definindo-se a função f(x) com um conjunto de regras
como:

0 = saudável, se x < 120


f : x → y , onde X é um conjunto de valores quaisquer de zero até
1 = doente, se x ≥ 120
infinito e onde Y é um conjunto que só assume dois valores, 0 ou 1, para indicar as
categorias saudável e doente.
14

2. Transformação de unidades: muitas vezes a transformação da medida


original de um atributo se impõe por comodidade, além de facilidade de
interpretação. Um exemplo é a medida de hidrogênio íon numa dada
solução. Sua concentração varia de 1 a 0,00000000000001 mol/dm3 ou de
100 a 10-14, números nada práticos para se operar ou interpretar. Em 1909,
um bioquímico dinamarquês (Søren Peter Lauritz Sørensen) propôs uma
medida transformada desta concentração, que chamou Potencial de
Hidrogênio Iônico ou simplesmente pH. O pH é o negativo do logaritmo na
base 10 da concentração de H+, de forma que varia entre 0 e 14, números
muito mais fáceis de se interpretar: até 7, soluções ácidas; 7, soluções
neutras; mais de 7, soluções alcalinas. Sua função y = f(x) é, portanto:

y = − log x , onde X é um conjunto de valores quaisquer entre 100 a 10-14 mol/dm3 (valores x)
e onde Y é um conjunto de valores entre 0 e 14 (valores y).

3. Cobertura de espectro: quando se busca ajuizar se o valor de uma medida é


extremo, seja grande ou pequeno, podemos considerar dois caminhos de
transformação de medida:

a. Se conhecermos todo o espectro de valores que a medida pode


assumir, podemos fazer juízo de grande ou pequeno segundo a
posição do valor na escala de todos os valores possíveis. Por exemplo,
o dia tem 24 horas, logo 1 hora é início do dia (valor pequeno) e 23
horas é fim do dia (valor grande). Uma função que descreva a medida
horas em unidades de dias informa diretamente a grandeza como uma
fração de dia inteiro:

x
y= , onde X é o conjunto de valores em horas, de zero até as 24, que se pode ter ao
24
longo do dia e Y é o conjunto de valores em dias que um horário pode assumir ao longo do
dia.

b. Se conhecermos o comportamento de ocorrências de valor,


podemos igualmente fazer juízo sobre grande ou pequeno. Por
exemplo, sabe-se que muito pouca gente tem estatura menor que 1½
metro bem como muito pouca gente tem estatura maior que 2
15

metros, logo pessoas além destes extremos são consideradas


pequenas ou grandes, respectivamente, porque são raras. Suponha
medir quão raras como a freqüência com que ocorrem pessoas com
estatura entre 0 metro até 1½ metros e a freqüência com que
ocorrem pessoas entre 2 metros até o máximo observado. Ou seja,
quantas pessoas menores que 1½ metros ou quantas pessoas
maiores que 2 metros, com contagem expressa como proporção do
total de pessoas observadas. Sendo Y o conjunto das ocorrências de
valores menores que 1½ m ou maiores que 2 m, nossa função para
descrever valores extremos de estatura seria

Freq ( x < 1,5) + Freq ( x > 2)


Y= , onde X é o conjunto de todos os valores que a estatura
Freq (0 ≤ x ≤ n)
pode assumir em metros, n é o nº total de pessoas vistas, e onde Y é uma somatória das
freqüências de ocorrência de valores que se acumulam fora do intervalo 1,5 |---| 2 metros
(entre 1,5 e 2, ambos incluídos) expressa em unidades de n.

Este tipo de procedimento para se fazer juízo do que seja grande ou


pequeno com transformações para frações de intervalo total ou
proporções de ocorrência total, tão intuitivo, terá larga aplicação em
Estatística.

Note que dos diferentes tipos de medida (ou, em outras palavras, tipos de predicados)
que podemos obter por medida direta (observação) ou por transformação, da
medida qualitativa nominal até as medidas derivadas temos uma crescente
oportunidade de melhor conhecer as coisas por seus predicados. A forma de
representação mais versátil para um atributo é a medida quantitativa contínua, de
cuja transformação pode-se obter desde medidas qualitativas nominais
(categorização) até medidas derivadas (razões). De fato, ainda que o nome possa ser
um primeiro predicado a distinguir uma coisa entre outras (uma proposição do tipo
‘Este é João’, onde João é um predicado de uma coisa apontada), o nome sozinho, como
já discutimos com Umberto Eco, não dá a conhecer a coisa**. Quanto melhor se
puder definir uma coisa por diferentes predicados, melhor ela será conhecida, mais

**
É famoso o poema De contemptu mundi (Séc XII) de Bernard de Morlay, onde ele anota: - “stat
rosa pristina nomine, nomina nuda tenemus” (rosa sem a rosa que este nome denota é apenas um nome).
16

específica será a relação de identidade. João Cabral de Melo Neto, no seu “Morte e
Vida Severina”13, nos dá um exemplo disto:

– O meu nome é Severino, Mais isso ainda diz pouco: lá da serra da Costela,
como não tenho outro de pia. há muitos na freguesia, limites da Paraíba.
Como há muitos Severinos, por causa de um coronel Mas isso ainda diz pouco:
que é santo de romaria, que se chamou Zacarias se ao menos mais cinco havia
deram então de me chamar e que foi o mais antigo com nome de Severino
Severino de Maria; senhor desta sesmaria. filhos de tantas Marias
como há muitos Severinos Como então dizer quem falo mulheres de outros tantos,
com mães chamadas Maria, ora a Vossas Senhorias? já finados, Zacarias,
fiquei sendo o da Maria Vejamos: é o Severino vivendo na mesma serra
do finado Zacarias. da Maria do Zacarias, magra e ossuda em que eu vivia.

As possibilidades de predicação das coisas são infinitas. Ao pesquisador cabe a


criatividade de reconhecer nelas alguma estrutura métrica para sua representação
por medidas.

A coisa como um conjunto de coisas

Até aqui temos usado a palavra ‘coisa’ para distinguir indivíduos, mas é intuitivo que
um grupo de coisas seja igualmente uma coisa, como sugerem os substantivos
coletivos: peixe é uma coisa, mas cardume também é uma coisa. Para descrever
uma coisa particular a partir do conceito de que a medida seja o predicado da coisa,
propusemos considerar uma relação genérica do tipo “X é Y” e ainda considerar
que, dado que cada coisa pode ter muitos predicados cuja especificação melhor a
dá a conhecer, poderíamos ter vários Y, como em “Ana é jovem e bonita”, que tem
a forma “X é Y, Z”. Quando para estas medidas (estes predicados da coisa) usamos
uma representação numérica, numerais substituem as letras e o sentido é dado
pelos números, quer para indicar qualidades ou quantidades.

Dada uma coisa que seja um conjunto de outras coisas particulares, seu
reconhecimento será feito pela observação de cada coisa particular segundo seus
atributos. Algo como

Relação genérica  X Y Z
Relação para o 1° indivíduo  x1 y1 z1
Relação para o 2° indivíduo  x2 y2 z2
...
Relação para o néssimo indivíduo  xn yn zn
17

Agora, para o conjunto de todos os indivíduos (X ={x1, x2, ... xn}) correspondem
conjuntos de todas as medidas (Y ={y1, y2, ... yn}, Z ={z1, z2, ... zn}). Estas medidas
variam conforme cada indivíduo de forma a identificá-lo (xi, os valores que o conjunto
X pode assumir, i denotando o iéssimo indivíduo) e descrevê-lo (yi e zi, os valores que os
conjuntos Y e Z assumem para o iéssimo indivíduo). Por isso, estes conjuntos (X,Y,Z)
serão chamados variáveis. Para fazermos os registros de um grupo de coisas,
precisamos de antemão definir quais são as variáveis (as medidas) que usaremos, de
que tipo elas são (segundo o tipo de medida) e qual o significado de seus valores
numéricos quando se tratar de medidas qualitativas (nas quantitativas os valores
numéricos representam a intensidade do atributo denotado pela medida). Em outras
palavras, temos que definir um dicionário para nossos símbolos de forma que
possamos interpretá-los.

O significado de uma representação simbólica envolve dois aspectos distintos de


significado: denotação e conotação. O dicionário fixa uma denotação para cada
símbolo. Podemos estabelecer no nosso dicionário que o valor um (1) para X denote
João e que o valor um (1) para Y denote humano, de forma que quando tivermos
um par ordenado como (1,1) entenderemos a especificação do indivíduo: João é
humano. No entanto, humano pode ter diferentes conotações. Num contexto, por
exemplo, de um estudo biológico, humano se referirá a pertencer ao gênero
humano e se poderá estabelecer uma regra como ‘se for mamífero inteligente’ ou
‘se tiver genoma compatível com Homo sapiens’. Noutro contexto, por exemplo, de
um estudo antropológico, humano poderia ter como regra ‘se bondoso, solidário’ ou
‘não ser selvagem’. Lembre-se da distinção entre denotação e conotação: a medida
é uma especificação que denota a coisa e cuja interpretação terá conotação
dada pelo contexto em que se busca conhecer esta coisa. Por exemplo, ‘João é
obstinado’ é uma afirmação que identifica João (denota) e cuja interpretação
(conotação) pode ser de que ele seja teimoso ou de que ele seja perseverante,
dependendo do contexto no qual se fala de João.

As regras de denotação têm que estar presentes no dicionário das variáveis, v.g.
1 denota humano. Já as regras de conotação são geralmente emprestadas do
18

contexto em que se estuda uma coisa, ou dito de outra forma, do referencial


teórico que se adota. Da mesma forma que se deve dar atenção a uma adequada
analogia entre uma coisa e a representação numérica usada para denotá-la, deve-
se dar atenção à definição de um referencial teórico para conotá-la. Suponha
alguém interessado em estudar piquenique e que resolva denotá-lo por número de
eventos e número de participantes: um piquenique de 10 pessoas seria igual a 10
piqueniques de uma pessoa solitária? Sob a conotação habitual de que piquenique
seja um evento de confraternização social, não: piquenique solitário não é
confraternização. Sob uma eventual conotação de piquenique como uma refeição ao
ar livre, sim: são sempre 10 refeições. Disto resulta que além de um dicionário de
variáveis pode ser necessária a definição de regras de denotação para que se tenha
a conotação que se busca, v.g. definindo de antemão que piquenique seja algo
como “encontro de duas ou mais pessoas para confraternização” ou “refeição ao ar
livre”.

Para reconhecer a existência de algo, procura-se, dentro do contexto que crie


interesse por este conhecimento, quais os predicados (medidas) que caracterizam
esta coisa. Por exemplo, no contexto de um estudo de saúde poder-se-ia imaginar
pertinente conhecer a idade de João, seu peso e sua estatura – para um juízo
sobre se ele é gordo ou magro –, se tem atividade física, se é portador de alguma
doença, etc..

Para fazer as medidas, poderemos definir algumas regras de denotação para uma
apropriada conotação:

1. Idade será aferida em anos completos;


2. Peso será aferido em kg com até um decimal;
3. Estatura será aferida em m com até duas casas decimais;
4. Atividade física: será considerado sedentário quem não tenha atividade, ativo
quem caminhe pelo menos 3 km por semana, esportista quem faça pelo
menos 3 horas de exercícios por semana;
5. Doença: conforme diagnóstico médico interessa saber se há Hipertensão
Arterial, Doença Coronariana ou Doença Cérebro-Vascular.
Agora examinamos (medimos) João e constamos que

João tem 27 anos, 80,5 kg, 1,78 m, é sedentário e tem Hipertensão


Arterial
19

Com as mesmas regras poderíamos agora examinar outras pessoas e obter, por
exemplo:

• José tem 25 anos, 75,0 kg, 1,68 m é ativo e não tem doença.
• Maria tem 22 anos, 62,3 kg, 1,72 m, é sedentária e tem Doença
Cerebrovascular.

As definições de medidas devem ser registradas no dicionário. Para o nosso


exemplo poderia ser:

Quadro 1 - Dicionário de códigos de valores para as variáveis estudadas


Nome da Significado do Tipo de medida ou Significado dos valores
variável nome tipo de variável que assume
V1 Nome da pessoa Qualitativa nominal *
Idade em anos
V2 Quantitativa discreta **
completos
V3 Peso em kg Quantitativa contínua **
V4 Estatura em m Quantitativa contínua **
0 – sedentário
V5 Atividade física Qualitativa ordinal 1 – ativo
2 – esportista
0 – Hígido(a)
1 – Hipertensão Arterial
V6 Doença Qualitativa nominal 2 – Doença Coronariana
3 – Doença
Cerebrovascular
* Como os valores nunca se repetem, cada pessoa tem um n° próprio, é perdulário
fazer uma lista apontando qual o n° de cada pessoa. Eventualmente pode-se fazer
um registro à parte, mas normalmente o pesquisador se restringe ao n° porque
assim ainda protege a privacidade das pessoas estudadas.
** Cada valor significa a intensidade do atributo medido pela variável, portanto o
significado dos valores já está expresso no nome ou significado do nome da
variável.

Definido o dicionário, podemos agora guardar os registros de nossas observações


como uma seqüência ordenada de números:
Tabela 1 - Base de dados: seqüência de linhas com todas as observações codificadas

v1 v2 v3 v4 v5 v6

1 27 80,5 1,78 0 1
2 25 75 1,68 1 0
3 22 62,3 1,72 0 3
20

onde cada linha corresponde a uma das proposições acima sobre João, José e
Maria.

Edição de medidas numa base de dados

Temos agora definido o que seja uma base de dados: um conjunto seqüencial de
linhas com números ordenados de forma que cada posição represente o valor de
uma variável conforme a observação de um indivíduo (linha). Como já vimos que as
medidas podem ser transformadas em outras para ajudar o entendimento, vemos
que definida uma base de dados temos um grande potencial de informação para
conhecer um conjunto de coisas.

No que tange às medidas qualitativas, podemos, segundo nosso interesse,


recodificar os valores se isto ajudar nossa interpretação. No nosso exemplo do
quadro 1, poderíamos eventualmente transformar as variáveis v5 (Atividade Física)
e v6 (Doenças) fazendo todos os valores maiores que 1 serem reduzidos a 1, dando
a estes códigos novos significados como 0 = não e 1 = sim, o que informaria
simplesmente presença ou ausência de Atividade Física e Doença.

Note que, como já dito, as transformações são funções. Na recodificação de uma


variável como neste exemplo, estamos executando uma função lógica na
transformação de cada variável: se v5>0, então v5=1 e se v6>0, então v6=1
(ambas as variáveis são recodificadas em si mesmas, não se alterando os valores zero que já
significavam negação dos atributos medidos: as categorias ‘sedentário’ e ‘hígido’,
respectivamente). Se você estiver guardando seus registros em computador, v.g.
numa planilha do Excel, ao invés de reescrever os valores de cada medida, você
pode simplesmente definir esta função e executá-la para os registros das variáveis
V5 e V6.

Além de recodificar variáveis qualitativas, ou re-categorizá-las, você pode ainda


considerar categorizar variáveis quantitativas. De fato, isto pode ser interessante
porque enquanto as variáveis quantitativas medem a intensidade suavemente
crescente do atributo (nas contínuas muito suavemente), a interpretação qualitativa
destes valores varia a saltos de qualidade. Por exemplo, se considerarmos idade,
pode nos interessar mais as categorias de idade como pré-escolar, escolar,
adolescente, jovem, etc. do que a idade exata. Assim podemos editar v.g. medidas
21

de idade (V2) através novamente de funções lógicas como: se v2<7, então v7=1;
se 7≤v2<12, então v7=2, se 12≤v2<18, então v7=3, se 18≤v2<25, então v7=4; e
assim por diante, acrescentando em nosso dicionário uma nova variável, a V7:

Nome da Significado do Tipo de medida ou tipo Significado dos valores


variável nome de variável que assume
1 – Pré-escolar
2 – Escolar
V7 Grupo etário Qualitativa ordinal 3 – Adolescente
4 – Jovem
Etc.

Além de categorizar e re-categorizar, você pode se interessar em mudar escalas de


medidas, por exemplo de estatura em metros para estatura em pés – como você
sabe há paises, como os EEUU, onde as pessoas usam pés (feet) e polegadas
(inches) para expressar estatura e têm dificuldade em interpretar um valor de
estatura quando ele é expresso em metros ou centimetros. Para fazer esta
transformação, você precisa definir uma função que leve valores de estatura do
domínio dos metros para a imagem (ou contra-domínio) dos pés. Como cada metro
tem 3,28 pés, sua função será:

y = 3,28x

Além da fórmula da função, você também pode ter um gráfico da função que, no
nosso exemplo, é o seguinte:

Figura 1 – Editando a medida de estatura para expressá-la em pés ao invés de metros

Função que leva valores em m para valores


em pés

7
6
Estatura em pés

5
(y=imagem)

4
3
2
1
0
0 0,5 1 1,5 2 2,5

Estatura em m (x=domínio)
22

Como sugerem as setas tracejadas, de um valor de x projetado até a reta da função


encontra-se a projeção do y correspondente, no exemplo de 1,5 m chega-se a 4,92
pés, ou 4 pés e 11 polegadas (conhecendo adicionalmente a função pé (y) = 12.polegada
(x))

Transformar escalas de medidas será um procedimento freqüente em Estatística e,


a exemplo de todas as edições que se faz em medidas, serão procedimentos
adotados para ajudar a compreensão da medida. Além da função original, pode
y
interessar a função inversa [1/f(x)] que no nosso exemplo seria x = . A função
3,28
inversa será de especial interesse em Estatística quando de valores de
probabilidade desejada se quiser identificar um correspondente valor de
medida original.

Depois destas considerações sobre recodificação de variáveis qualitativas,


categorização de variáveis quantitativas e transformação de escala, resta sobre a
edição de variáveis considerarmos a derivação de medidas novas a partir de
originais. No nosso exemplo, peso foi medido para que se formasse um juízo sobre
obesidade. No entanto, como um peso grande numa pessoa alta não sugere
obesidade, incluiu-se a estatura entre as medidas. Obesidade, portanto, é algo que
deve considerar quanto há de massa relativo a quanto há de espaço para esta
massa, logo, uma medida derivada: quanto de um predicado por unidade de outro
predicado.

A obesidade é avaliada pela razão massa (em kg) / área corporal (em m2), sendo a
área definida como se as pessoas fossem um quadrado com lados iguais a sua
estatura. Criamos então uma nova variável, V8 = V3 / (V4)2, uma medida derivada
que expressa concentração de massa. Essa medida informa a real essência da coisa
(o ‘olugos’ a que se refere Aristóteles!) e, de fato, com ela é que conseguimos concluir
se uma pessoa é gorda ou magra. Como este juízo é qualitativo, esta razão,
chamada IMC – Índice de Massa Corpórea, tem intervalos com diferentes
significados: IMC < 20 sugere desnutrição, IMC entre 20 e 25 sugere peso normal,
IMC entre 25 e 30 indica sobrepeso e IMC > 30 caracteriza obesidade. Daí, tendo
derivado a medida IMC, podemos ainda categorizá-la usando estas regras. Nossa
23

base de dados seria, então, acrescida de duas novas variáveis, cujos significados
acrescentaríamos a nosso dicionário:

Nome da Significado do Tipo de medida ou tipo Significado dos valores


variável nome de variável que assume
V8 IMC Quantitativa contínua
1 – Desnutrido
Estado 2 – Saudável
V9 Qualitativa ordinal
nutricional 3 – Sobrepeso
4 – Obeso

Descrevendo um conjunto de medidas

Depois de ter recolhido todas as informações que deseja, você terá uma longa lista,
semelhante à Tabela 1, porém geralmente muito maior. Para sintetizar estas
informações você poderá recorrer a tabelas e gráficos de freqüências: uma vez
que as variáveis têm valores que se repetem, você pode organizar sua informação
em contagens de ocorrências de valores, examinando sua distribuição. Suponha
que, a título de exemplo, você tenha uma base de dados ainda pequena, com 10
observações como as sugeridas abaixo:

Tabela 2 - Base de dados hipotética

Sexo Idade Peso Estatura


2 45 69 160
2 29 62 162
2 46 67 162
1 41 72 157
2 41 98 168
1 44 68 161
2 31 65 167
2 47 59 160
1 51 61 166
2 46 83 168

E seu dicionário de códigos de valores:


Quadro 2 - Dicionário das variáveis da base de dados da Tabela 2

Nome da Significado do Tipo de medida ou tipo Significado dos valores


variável nome de variável que assume
1 – masculino
V1 Sexo Qualitativa nominal
2 – feminino
Idade em anos
V2 Quantitativa discreta **
completos
24

Nome da Significado do Tipo de medida ou tipo Significado dos valores


variável nome de variável que assume
V3 Peso em kg Quantitativa contínua **
V4 Estatura em m Quantitativa contínua **

Para as variáveis qualitativas, que têm um número finito de categorias, você pode
fazer a contagem das categorias diretamente na base de dados impressa em papel,
fazendo uma marca em cada registro conforme você vai contando. Outra alternativa
é fazer uma lista das categorias e ir marcando um risquinho na frente para cada
observação de ocorrência da categoria – você pode usar os risquinhos para fazer
quadradinhos com uma barra diagonal, de forma que cada quadradinho completo
represente 5 observações, o que facilita a contagem final. Por exemplo, no caso de
sexo na Tabela 2:

• Categoria 1: - - 3 observações
• Categoria 2: - 7 observações
Estabelecida a contagem, você arranja a informação numa tabela, como abaixo se
organiza a informação sobre sexo na base de dados da Tabela 2:

Tabela 3 - Distribuição de freqüência de sexo no grupo estudado

Sexo n %
Masculino 3 30,0%
Feminino 7 70,0%
Total 10 100,0%

Examinada a distribuição dos valores de sexo (1 e 2, significando Masculino e


Feminino) neste grupo, formamos um conhecimento sobre ele: as ocorrências se
concentram em torno do valor 2, ou seja, trata-se de um grupo que concentra
ocorrência de mulheres. Note, ainda, um cuidado de natureza estética: numa tabela
se usa travessões para marcar o limite superior e inferior, bem como para separar
os títulos, mas não se fecha os lados. Alternativamente, você pode representar esta
informação num gráfico. Abaixo você tem o exemplo de um gráfico de barras
para a Tabela 3:
25

Figura 2 - Gráfico de barras da distribuição de freqüência de sexo no grupo estudado

Freqüencia absoluta (n)


4

0
Masculino Feminino
Sexo

Tanto um gráfico quanto uma tabela devem procurar usar títulos e rótulos com
cuidado para fazê-los auto-suficientes, compreensíveis apenas com o que registram
sem demandar que se recorra a um texto explicativo. Quando algum detalhe
precise de explicação, use uma nota de rodapé: é comum que quando as
informações tratadas no gráfico ou tabela tenham origem em dados secundários
(quer dizer, não propriamente de quem fez a tabela) se coloque uma nota de rodapé
indicando a fonte dos dados. Este já não é um procedimento estético, mas ético.

Quando chegamos a variáveis quantitativas, esbarramos na multiplicidade de


valores que elas assumem. Fazer uma tabela onde constem todos os valores
observados e suas respectivas freqüências pode, particularmente no caso das
quantitativas contínuas quando nenhum valor se repetir, chegar a ser uma
reprodução da base de dados . No exemplo da Tabela 2, uma descrição de
freqüências incluindo todos os valores observados para idade resultaria em:

Tabela 4 - Tabela de freqüências de idade para cada valor observado na base de dados da
Tabela 2
Valor de idade n %
29 1 10,0%
31 1 10,0%
41 2 20,0%
44 1 10,0%
45 1 10,0%
46 2 20,0%
47 1 10,0%
26

Valor de idade n %
51 1 10,0%
Total 10 100,0%

que é quase uma reprodução da base de dados porque apenas dois valores (41 e
46) se repetem. Com o que já discutimos em transformação de medidas, parece
sensato que para registrar ocorrências de uma variável quantitativa seja melhor
arbitramos intervalos e aferirmos a quantidade de ocorrências em cada intervalo,
intervalos que se comportam como categorias da medida quantitativa transformada.
Estes intervalos serão as unidades pelas quais expressaremos as ocorrências e
podem ser arbitrados discricionariamente, embora também se possa a recorrer à
fórmula de Sturges [k = 1 + 3,322(log10 n)] para definir quantos intervalos
regulares se deva ter. Esta fórmula, no entanto, com freqüência resulta em
intervalos estranhos que, ao invés de ajudar na informação, complicam-na.

Daí que a melhor forma é você examinar qual o menor e o maior valor observado e
decidir que intervalo pode ajudá-lo(a) na tarefa de sintetizar a informação. Tanto
para poder reconhecer os valores menor e maior quanto para fazer as contagens
por intervalos, você deve organizar os dados em ordem crescente, sob pena
de, num grande número de registros, fazer contagens erradas. No nosso exemplo
da Tabela 2, a idade ordenada de forma crescente resulta em:

Idade Idade ordenada


45 29
29 31
46 41
41 41
41 44
44 45
31 46
47 46
51 47
46 51

Notando agora que os valores de idade variam entre 29 e 51, podemos considerar,
por exemplo, intervalos de 5 unidades entre 25 e 55 anos, o que incluiria todas as
nossas observações. A tabela de freqüências resultante seria:

Tabela 5 - Distribuição de freqüências de idade no grupo estudado

IDADE* N %
27

IDADE* N %
25|-- 30 1 10%
30|-- 35 1 10%
35|-- 40 0 0%
40|-- 45 3 30%
45|-- 50 4 40%
50|-- 55 1 10%
Total 10 100%
* o lado fechado da barra indica inclusão do valor que inicia ( |-- ) ou
finaliza um intervalo ( --| ). Traços sem barras, como “--” indicam que o
intervalo é aberto: nenhum dos extremos é incluído.
Esta tabela mostra o total de ocorrências em cada intervalo arbitrado, ou seja a
contagem indicada na coluna ‘N’ mede quantas ocorrências se tem por cada
intervalo de 5 anos. O gráfico usado é o histograma, que considera a continuidade
entre os valores da medida, de forma que as barras são justapostas (formando um
tecido – histograma), cada uma com uma área que representa as ocorrências no
intervalo:

Figura 3 - Histograma da distribuição de freqüências de idade em anos completos no grupo


estudado

3
Freqüência absoluta (n)

0
25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55
Idade

Tanto com a tabela quanto com o gráfico, temos descrições que nos permitem
examinar distribuição de freqüências, reconhecendo onde as ocorrências se
concentram. Na Figura 3 acima, notamos uma concentração de ocorrências nos
28

intervalos 40 |-- 45 anos e 45|-- 50 anos. Lembrando que concentração é uma


medida derivada que expressa quanto de uma dada medida por unidade de outra,
note que no histograma, a medida de freqüência anotada no eixo das ordenadas
representa uma densidade de ocorrências para cada intervalo de 5 anos. Se os
intervalos são regulares na forma de uma nova unidade regular (como qüinqüênios de
idade), o que se lê nas ordenadas é o total de ocorrências no intervalo††. Note que
esta é uma situação particular, já que poderíamos ter intervalos de diferentes
tamanhos e a concentração que observaríamos se referiria a diferentes densidades
de ocorrência (densidade = nº de observações por unidade de intervalo).

Note ainda que tanto na tabela quanto no histograma, os intervalos funcionam


como se fossem uma categorização da variável idade. Desta forma, embora cada
intervalo tenha 5 unidades de “idade em anos”, tem uma única unidade de
“qüinqüênio de idade” – a unidade da variável transformada em categorias de
intervalo. Arbitrar intervalos é equivalente a editar a variável idade para uma outra
que, por exemplo, poderíamos chamar de Faixa Etária e que seria definida pelas
regras do símbolo |-- : onde começa inclusive, onde termina exclusive. Esta nova
variável poderia ser codificada como 1,2,3,4,5,6 de forma a representar os
intervalos desde “25|-- 30” até “50|-- 55”. Assim haveria coerência entre as
propriedades aritméticas dos códigos e as propriedades do atributo original, a idade
em anos.

Com intervalos regulares de 5 anos como fizemos, a freqüência anotada no eixo das
ordenadas informa diretamente o número de casos no intervalo. No entanto, com
intervalos regulares de “qüinqüênios de idade” ficamos com o intervalo entre 35 e
40 vazio, pois não há ocorrências destes valores.

Para melhorar o aspecto do gráfico, poderíamos considerar intervalos irregulares.


Nossa tabela poderia então ser modificada como:

††
Para se conhecer quantas ocorrências se acumulam num dado intervalo precisamos multiplicar a densidade
de ocorrência (n/unidade do intervalo) pelo número de unidades que tenha o intervalo considerado. Numa
tabela com intervalos regulares, como cada intervalo tem exatamente uma unidade de intervalo, o valor
(número) acumulado no intervalo é o mesmo da densidade de ocorrência. Compare a densidade de ocorrência
com a velocidade (densidade de espaço numa unidade de tempo) de um carro percorrendo dois trechos de uma
viagem, o primeiro a 100k/h por ½ hora e o segundo a 50 km./h por 1 hora: ambos os trechos medem 50 Km –
100 x ½ no primeiro e 50 x 1, no segundo. Quando o intervalo de tempo é igual ao denominador da velocidade
(1 hora), o espaço percorrido tem o mesmo valor da velocidade.
29

Tabela 6 - Distribuição de freqüência de idade no grupo estudado com intervalos irregulares

IDADE N %
25|-- 30 1 10%
30|-- 40 1 10%
40|-- 45 3 30%
45|-- 50 4 40%
50|-- 55 1 10%
Total 10 100%
Note que nesta tabela, se considerarmos os intervalos como categorias de Faixa
Etária, uma codificação 1,2,3,4,5 não seria sensata porque a Faixa Etária 30 |-- 40
tem o dobro do tamanho das outras. Melhor seria 1, 2, 4, 5, 6 já que o segundo
intervalo contém duas unidades de qüinqüênio. O histograma deve dar conta disto
porque enquanto os outros intervalos são ocorrências por 5 anos, este intervalo
indica ocorrências por 10 anos, ou seja, duas unidades de quinqüênio. A densidade
de ocorrência para o intervalo ‘30|--40 anos’ é 1 por 2 qüinqüênios, a unidade de
idade que estamos usando no histograma. O ‘n’, que representa o número total de
ocorrências no intervalo, tem que ser interpretado como o produto do tamanho do
intervalo pela densidade de ocorrência, como sugere a tabela abaixo:

Tabela 7 - Tabela de freqüências de idade com discriminação do cálculo do número de


ocorrências por intervalo
Tamanho do Densidade: N = tamanho
IDADE intervalo em ocorrências por do intervalo X %
qüinqüênios qüinqüênios densidade
25|-- 30 1 1 1 10%
30|-- 40 2 0,5 1 10%
40|-- 45 1 3 3 30%
45|-- 50 1 4 4 40%
50|-- 55 1 1 1 10%
Total (25 |--55) 6 1,66 10 100%

O histograma, por conseqüência, resultará no que mostra a Figura 4:


30

Figura 4 - Histograma da distribuição de freqüências de idade no grupo estudado, com


intervalos irregulares.

Freqüência absoluta (n)

0
25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55

Idade

Note que a barra do intervalo entre 30 e 40 anos tem uma área de 1 (0,5 da
ordenada X 2 intervalos de 5 anos da abscissa): guarde como regra que alargamentos
da medida na abscissa implicam em reduções proporcionais na ordenada.

Além do histograma, você pode considerar ainda o Polígono de Freqüências, uma


representação gráfica que substitui a altura das barras do histograma por pontos e
os interliga. Considerando um intervalo adicional antes dos eventos observados e
outro depois com pontos marcando ocorrências nulas, com a linha da abscissa tem-
se um polígono. Fazendo exemplo ainda com a idade, mas considerando-a a
intervalos regulares de 10 anos a partir dos 10 anos até 70, temos o seguinte
gráfico:
31

Figura 5 - Polígono de freqüências para Idade em anos completos*

Freqüência absoluta (n)


4

0
10 20 30 40 50 60 70
Idade em anos completos
*a sombra de fundo sugere o histograma correspondente

Note que quando fazemos um gráfico estamos representando uma função (como
fizemos na Figura 1). No caso do polígono acima, uma função como:

0, se 10 ≤ idade < 20
1, se 20 ≤ idade < 30
1, se 30 ≤ idade < 40
Y=
7, se 40 ≤ idade < 50
1, se 50 ≤ idade < 60
0, se 60 ≤ idade < 70

Assim como imaginamos o polígono sobreposto ao histograma, poderíamos ainda


imaginar uma linha suave tentando acomodar-se à forma do histograma, como
sugere a figura abaixo:

Figura 6 - Histograma de Idade, com polígono e curva suave sobrepostos


7

6
Freqüência absoluta (n)

0
10 20 30 40 50 60 70
Idade em anos completos
32

Esta curva suave corresponde a um progressivo encurtamento das larguras das


barras do histograma até reduzi-las cada uma ao espaço de um ponto. Para ela
teríamos uma função correspondente cuja forma seria a seguinte:
2
 x − 42 
−1 
2  7 
e
y = 100 *
7 2π

Embora existam vários outros tipos de gráficos para representar um conjunto de


medidas, a compreensão dos conceitos discutidos para o gráfico de barras,
histograma e polígono de freqüências deve ser suficiente para que você
compreenda outras formas de representação gráfica de variáveis qualitativas e
quantitativas, que encontre ou mesmo considere criar.

Medidas de ocorrência de eventos

Ao estudar a representação tabular ou gráfica de um conjunto de coisas, passamos


a ter descrições de distribuição de freqüência de eventos: seja por números
(tabelas) ou por figuras (gráficos), o que representamos foi contagem de ocorrências
de eventos, quer em unidades, proporção do total ou porcentagem – note que as
duas últimas são apenas medidas derivadas que redefinem a unidade de contagem,
quer para um (1) ou para cem (100).

Note que nestas descrições de um conjunto de coisas, novos conceitos emergem,


por exemplo ‘evento’. Evento é toda e qualquer forma racionalmente possível de
apresentação de alguma coisa, enquanto que fenômeno é a forma particular como
alguma coisa se apresenta aos sentidos – eventos empiricamente percebidos. Quer
numa tabela ou num gráfico, o domínio dos valores numéricos que representam um
atributo é levado a um contradomínio por uma função de contagem de eventos
observados. Qualquer subconjunto do domínio (desde um valor individual até
intervalos e combinações de valores) é um evento possível; e cada um dos
conjuntos cuja ocorrência é observada empiricamente é um fenômeno. Tome como
exemplo a Figura 3. Note que embora idade seja feita por contagem de número de

anos completos, o domínio de idade não é todo e qualquer numero natural (ℕ =

{0,1,2, ... 1000 ...}), mas algo que vai de zero a pouco mais de cem: eventos
33

possíveis para idade de pessoas. O que está representado na abscissa é uma parte
do domínio dos eventos e o que está representado pelas barras é o fenômeno
observado: note que os valores do intervalo de 35 a 40, embora pertençam ao
espaço dos eventos, não são fenômenos observados.

Reconheça a teia conceitual que estamos construindo desde quando nos


dispusemos a estudar Estatística com vistas a ter uma representação formal que
nos auxiliasse no conhecimento das coisas: primeiro precisamos de um predicado
para numa primeira relação elementar nos revelar a coisa; segundo tomamos a
proposição formada pela coisa e seu predicado como a própria coisa, entendida
como um ente proposicional; terceiro chegamos agora a constatar que para estudar
alguma coisa estamos estudando sua fenomenologia, que é apenas um aspecto
particular de sua existência, de seu ser. Em Filosofia, Fenomenologia é uma
doutrina (Edmund Husserl) de investigação metafísica; para a Estatística dirá respeito
apenas ao esforço de inferência de conhecimento universal de alguma coisa a partir
do estudo de fenômenos acessíveis à experiência empírica.

Ao descrever um conjunto de coisas, a Estatística descreve um fenômeno


organizando informações como tabelas e gráficos que descrevem a distribuição
de freqüência de eventos, como já visto. Há diferentes medidas de freqüência,
cada uma delas oferecendo informação de um tipo:

• Freqüência Absoluta: contagens de eventos (v.g. um dado valor de medida


qualitativa ou um intervalo de valores de medida quantitativa) segundo o
número absoluto;
• Freqüência Relativa: proporção de cada tipo de evento (valor ou intervalo)
em relação ao total de eventos observados (transformação da unidade de
contagem fazendo o total = 1 (proporção) ou = 100 – (porcentagem));
• Freqüência Acumulada: melhor aplicável a medidas quantitativas.
Expressa como a contagem de eventos se acumula ao longo dos valores
da medida estudada desde o menor até o maior valor. Pode ser expressa
de forma absoluta ou relativa;
• Densidade de Freqüência: descreve ocorrência de eventos como uma
taxa por intervalo ou por unidade.

Vamos refletir um pouco sobre as medidas de freqüência para variáveis


quantitativas com vistas a apreender conceitos cuja perfeita compreensão é
indispensável para o entendimento de muitos procedimentos em Estatística.
34

Retomando nosso exemplo de estudar a distribuição de idade em 10 indivíduos,


considere uma transformação da Figura 6 onde mantenhamos os traços do polígono
de freqüências e da curva suave, mas ao invés de usarmos a densidade de
freqüências (freqüência absoluta por intervalos de 10 anos naquela figura) usemos a
freqüência acumulada. Nosso histograma passaria então a ter a seguinte forma:

Figura 7 - Histograma de freqüência acumulada de idade, com polígono e curva suave


sobrepostos

10

8
absoluta
acumulada

6
ência
Freqüência

4
Freqü

20 30 40 50 60

Idade em anos completos

A diferença entre um histograma de densidade de freqüências e outro de freqüência


acumulada é como usar a informação da ordenada para conhecer a quantidade de
ocorrências de um dado intervalo. No primeiro para saber a quantidade de
ocorrências num dado intervalo temos que calcular a área envolvida (área das barras
ou área sob as linhas quer do polígono ou da curva suave), ou seja, a ordenada é usada
para definir uma altura que multiplica a extensão da base na abscissa. No
histograma de freqüência acumulada obtemos esta informação pela simples
diferença dos valores de ordenada dos pontos que definem início e fim do intervalo.

Tomemos como exemplo, uma série fictícia de observações de colesterol sérico


medido em mg/dl em 15 pessoas:

Colesterol total Colesterol total


Paciente Paciente
no soro (mg/dl) no soro (mg/dl)
1 289 2 193
35

Colesterol total Colesterol total


Paciente Paciente
no soro (mg/dl) no soro (mg/dl)
3 102 10 220
4 188 11 232
5 216 12 208
6 178 13 247
7 151 14 157
8 257 15 200
9 205

Para descrever as ocorrências dos diferentes valores de colesterol medidos nos


pacientes (eventos caracterizados por medidas), se faz uma tabela de freqüência por
intervalos (eventos caracterizados como intervalos de medidas), como a sugerida abaixo:

Tabela 8 - Freqüência de ocorrência de valores de colesterol sérico em 15 pacientes


estudados

Intervalo (mg/dl) Freq Absoluta Freq relativa


100 |-- 150 1 6,7%
150 |-- 200 5 33,3%
200 |-- 250 7 46,7%
250 |-- 2 13,3%
Total 15 100,0%

Como vimos quando estudamos transformação de medidas, o procedimento que


gera esta tabela é uma categorização da variável contínua ‘colesterol sérico’. Por
isso, cada intervalo é tratado como uma categoria à qual inclusive se poderia dar
interpretação de significado, como, por exemplo:

Tabela 9 - Uma possível interpretação* de intervalos de valores de colesterol sérico como


categorias

Intervalo (mg/dl) Rótulo de significado


100 |-- 150 Colesterol normal
150 |-- 200 Colesterol alterado
200 |-- 250 Colesterol elevado
250 |-- Colesterol muito elevado
*fictícia!

Se, tomando em conta que a natureza da medida original é quantitativa,


considerarmos que há ordem e continuidade entre estes intervalos, poderíamos
ainda considerar aquele outro tipo de medida de freqüência, a freqüência
acumulada, como sugere a Tabela 8 modificada abaixo:
36

Tabela 10 - Tabela 8 modificada para incluir freqüência acumulada


Freq absoluta Freq relativa
Intervalo (mg/dl) Freq Absoluta Freq relativa
acumulada acumulada
100 |-- 150 1 6,7% 1 6,7%
150 |-- 200 5 33,3% 6 40%
200 |-- 250 7 46,7% 13 86,7%
250 |-- 300 2 13,3% 15 100%
Total 15 100,0%

Nesta tabela vê-se o número de observações acumulado desde o menor valor até
cada intervalo alcançado, progressivamente até o total: de 100mg/dl até 300 mg/dl
(fechando-se o último intervalo “|--|” antes aberto “|--” com uma extensão igual à dos anteriores),
podendo-se dizer que entre estes valores (um intervalo de 200mg/dl de colesterol) o
número de ocorrências é de 15. Poderíamos, igualmente, calcular quantidade de
ocorrências, quer em freqüência absoluta ou relativa, entre quaisquer outros dois
valores limites sugeridos pela tabela, por exemplo: entre 150 e 250 ocorrem 12
eventos (13 – 1: até 150 ocorre um evento e até 250 ocorrem 13 eventos), ou ocorrem
80% dos eventos (86,7 - 6,7).

Se, ao contrário de tratar cada intervalo como uma nova medida que representa 50
unidades originais de mg/dl, medíssemos as ocorrências nos intervalos como uma
concentração de ocorrências por unidade de mg/dl, teríamos a densidade de
freqüência por unidade de mg/dl, com a Tabela 8 modificada para o seguinte
aspecto:

Tabela 11 – Tabela 8 modificada para incluir densidade de freqüência por unidade de mg/dl de
colesterol

Freq absoluta Freq


Densidade de Tamanho do
Intervalo (mg/dl) por intervalo (produto absoluta
freqüência intervalo
densidade por tamanho) acumulada
100 |-- 150 1 ocorrência /50 mg/dl 50 mg/dl 1 1
de colesterol

150 |-- 200 5 ocorrências /50 mg/dl 50 mg/dl 5 5


de colesterol

200 |-- 250 7 ocorrências /50 mg/dl 50 mg/dl 7 13


de colesterol

250 |-- 300 2 ocorrências /50 mg/dl 50 mg/dl 2 15


de colesterol

Total 15 ocorrências /50 mg/dl 200 mg/dl 15 15


de colesterol

Esta interpretação de freqüência por intervalo como densidade de ocorrência, você


já viu que é importante para construir uma representação gráfica das ocorrências
37

de valores de uma variável contínua (o histograma), que no nosso exemplo fica com
o seguinte aspecto:

Figura 8 - Histograma de freqüências de colesterol sérico, relativo aos dados da Tabela 11

Colesterol sérico em 15 pacientes


8

Ocorrências por 50 mg/dl de colesterol


7
6

5
4

2
2

1
0
75 125 175 225 275 325

mg/dl

Poderíamos também aqui considerar um histograma de freqüências acumuladas,


semelhante ao da Figura 7, um histograma que mostraria quanto do total de
ocorrências já se alcançou até cada valor da variável quantitativa. Note que neste
histograma (Figura 8) o eixo das abscissas está cobrindo o intervalo de 50 a 350
mg/dl de colesterol sérico e que os intervalos de 50 unidades estão apontados pelos
valores centrais, enquanto que o eixo das ordenadas está anotando que o que se
está medindo é a densidade de ocorrência por intervalos de 50 unidades de mg/dl
de colesterol sérico – cuidado normalmente desprezado quando o histograma é de
intervalos regulares porque a freqüência absoluta resulta igual (em valor apenas! A
n
dimensionalidade é distinta: x mg = n – adimensional, contagem) à densidade de
mg dl
dl
ocorrência. Quando os intervalos são irregulares, a simples leitura do valor no eixo
das ordenadas não informa o número absoluto de ocorrências nos intervalos, sendo
preciso calculá-lo como produto da densidade pelo tamanho do intervalo.

A primeira vista pode parecer perdulário, senão mesmo confuso, todo este esforço
de reflexão conceitual. No entanto, se você se lembrar que ao estudar medidas se
deu ênfase às medidas deste tipo (concentração, densidade) porque elas carregariam
38

uma carga maior de informação, você deveria estar se perguntando que informação
adicional assim se obtém... Para entendermos melhor a importância da medida de
freqüência na forma de densidade de ocorrências, vamos usar um exemplo simples
com velocidade, que é uma medida de densidade de espaço percorrido por tempo
gasto, v.g. Km/hora.

Olhando Tabela 11, suponha que tivéssemos os mesmos números registrando um


percurso de 200 metros de um menino brincando de skate, ao invés do intervalo de
200mg/dl de colesterol. Ao invés de densidade de ocorrência de eventos, a coluna
correspondente informaria a velocidade média do menino em cada trecho do seu
trajeto. Sem que você tivesse presenciado sua brincadeira, com estes registros de
velocidade você imaginaria seu percurso com todas as emoções da brincadeira:

Tabela 12 - Interpretação de trechos de percurso pela velocidade desenvolvida

Trecho de percurso
Velocidade Interpretação
do skate
Primeiro 1 m /50 segundos Iniciando o trajeto empurrando o skate
Segundo 5 m /50 segundos Iniciando uma descida: oba!
Terceiro 7 m /50 segundos Acelerando a descida: oh, oh... medo!
Quarto 2 m /50 segundos Desacelerando em segurança: uau! Consegui!
Você pode até imaginar o terreno que o menino escolheu para brincar: deve ser um
declive acentuado que progressivamente alcança uma superfície plana que lhe
permite desacelerar em segurança. Uma imagem como:

Para explorar mais a idéia de velocidade para compreender o conceito de densidade


de freqüência, vamos fazer uma viagem imaginária. Imagine alguém que sai da
Cidade Universitária em São Paulo para visitar o campus USP de São Carlos.
Sabendo-se que
• até Jundiaí (50 Km) levou ½ hora; depois até Campinas (+ 50 Km) levou 1
hora e finalmente de Campinas a São Carlos (+ 150 Km) levou 2 horas
39

pode-se calcular as velocidades (densidade de espaço por unidade de tempo) de cada


trecho como
 entre a Cidade Universitária e Jundiaí, a velocidade foi em média 100 km/
hora (50 (variação de espaço) / ½ (variação de tempo))
 entre Jundiaí e Campinas, a velocidade média foi de 50 Km/ hora (50 (variação
de espaço) / 1 (variação de tempo))

 entre Campinas e São Carlos, a velocidade média foi de 75 km/ hora (150
(variação de espaço) / 2 (variação de tempo))

Com as velocidades identificadas para cada trecho de viagem, podemos fazer uma
tabela como a abaixo onde se toma a medida contínua tempo em intervalos de ½
hora. Com esta tabela pode-se calcular o espaço percorrido em cada intervalo de
tempo de ½ hora, cada um correspondendo a uma parte dos três trechos de
viagem, bem como se pode calcular o espaço percorrido na viagem total:

Tabela 13 – Intervalos de tempo, respectivas velocidades e espaços percorridos como


resultado do tempo pelo qual a velocidade foi mantida

Tempo (horas) Velocidade Espaço percorrido (km) no Espaço percorrido (km) até o
a intervalos (km/h) intervalo intervalo
(tempo gasto [h] X velocidade (tempo gasto [h] X velocidade [km/h]
de ½ hora (Espaço / hora) [km/h]) acumulado)
0 |-- ½ 100 50 50
½ |-- 1 50 25 75
1 |--1 ½ 50 25 100
1 ½ |-- 2 75 37,5 137,5
2 |-- 2 ½ 75 37,5 175
2 ½ |-- 3 75 37,5 212,5
3 |-- 3 ½ 75 37,5 250
Viagem integral 250
Lembre-se: x |-- y quer dizer intervalo entre x incluído e y excluído

Nesta tabela podemos caracterizar cada percurso de ½ hora ou como medida de


velocidade (v.g. o percurso da primeira ½ hora foi uma viagem a 100 km/h) ou como medida de
espaço percorrido (v.g. o percurso da primeira ½ hora foi uma viagem de 50 km). Ou seja,
podemos ter funções que levam de cada espaço de ½ hora para um valor de
velocidade desenvolvida ou de espaço percorrido. Note a analogia entre densidade
de freqüência e freqüência acumulada.

Com estas informações podemos fazer gráficos de percurso segundo o tempo,


medindo o percurso quer como espaço percorrido quer como velocidade mantida
por um período de tempo. A Figura 9 mostra o percurso como espaço por tempo.
Note um eixo de ordenadas acessório onde se transforma as distâncias percorridas
40

em frações da viagem inteira e perceba a analogia entre freqüência absoluta


acumulada e freqüência relativa acumulada.

Figura 9 - Percurso entre Cidade Universitária e campus USP de São Carlos

250 1,0

200 0,8

Fração de viagem completa


Espaço percorrido em Km

150 0,6

100 0,4

50 0,2

0 0,0

0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5


Tempo decorrido em horas

Note que, como para cada trecho de viagem houve uma velocidade, para cada um
deles se tem uma reta com maior ou menor inclinação: os triangulozinhos estão ali
para ajudar a perceber isto. Em cada um destes triangulozinhos, o ângulo entre a
reta de percurso e o eixo horizontal do tempo corresponde a uma velocidade:
cateto oposto (espaço) dividido pelo adjacente (tempo) – Km/ hora. Neste gráfico,
que representa a integração dos espaços percorridos, podemos derivar uma
medida de velocidade que representa a força com que o fenômeno está ocorrendo.
Quando estudarmos ocorrências de doenças, a integração de espaços
representará a morbidade (quantos doentes incluídos num espaço de medida contínua,
v.g. tempo) e a derivação representará a força de morbidade, a taxa de
incidência de doença num momento ou num ponto da medida contínua, v.g.
tempo.
41

A Figura 10 mostra o percurso como velocidade desenvolvida e tempo decorrido.


Agora, com a velocidade se pode calcular o espaço percorrido para cada intervalo
de tempo. A quantidade de espaço percorrido é expressa pela área sob a linha de
trajeto de percurso, área esta que é medida como o produto da velocidade pelo
tempo em que foi mantida [área = velocidade (km/hora) X tempo (hora), o que resulta em km].
A soma dos espaços percorridos em todos os intervalos de ½ hora informa o
espaço da viagem integral em 3 ½ horas. Note a analogia com densidade de
freqüência (eixo Y) e valores de uma medida quantitativa (eixo X), bem como a
analogia entre cálculo de espaço percorrido num gráfico de percurso com cálculo de
número de ocorrências num histograma.

Figura 10 - Percurso entre Cidade Universitária e campus USP de São Carlos


Velocidade:
Velocidade: fração do
Km / hora percurso total /
hora

100 0,4

75 0,3

50 0,2

1/2 1 2 3 3 1/2
Tempo: horas

Com este gráfico podemos calcular a distância percorrida em cada trecho de


viagem. Assim como na Figura 9 o gráfico de percurso como espaço percorrido
permitia reconhecer uma velocidade característica para cada trecho de viagem (a
derivação da inclinação da reta!), aqui na Figura 10, com o percurso medido como
velocidade têm-se um polígono característico, cuja área integra o espaço
percorrido:

• primeiro retângulo: 100 km/h x ½ h = 50 km, distância até Jundiaí;


• segundo retângulo: 50 km/h x (1½ - ½) h = 50 km, distância entre Jundiaí
e Campinas;
42

• terceiro retângulo: 75 km/h x (3½ - 1½) h = 150 km, distância entre


Campinas e São Carlos.

Note que para cada retângulo do gráfico, a velocidade dá uma característica da


viagem: o primeiro retângulo, com velocidade de 100 km/h informa que uma
viagem até Jundiaí se faz em alta velocidade; o segundo sugere que uma viagem
entre Jundiaí e Campinas seja a de maior dificuldade de trânsito, com a menor
velocidade (50 km/h); finalmente o terceiro retângulo informa que a viagem entre
Campinas e São Carlos tenha tráfico moderado, permitindo uma velocidade
intermediaria (75 km/h). Como no exemplo do menino de skate, a velocidade
(medida derivada, olugos!) sugere interpretação da essência do fenômeno. Em
Estatística, as ocorrências por unidade de valor ou por intervalos de valores de
uma medida contínua, a exemplo da velocidade, resultarão numa densidade
que será característica e, eventualmente, permitirá interpretação, como
pudemos interpretar cada trecho de viagem com a Figura 10 ou cada emoção do
menino de skate na Tabela 12.

Intervalos no espaço quantitativo discreto e no quantitativo contínuo

O texto anterior encerra uma curiosidade da qual você talvez já tenha se dado
conta na sua leitura. Quando fizemos intervalos de ½ hora tanto nas tabelas quanto
nos gráficos, não conseguimos intervalos exatos de ½: no primeiro intervalo, por
exemplo, temos valores que vão de zero inclusive a 0,5 exclusive, ou seja, chega
muito próximo de 0,5 mas não o inclui – algo como 0,499999... de forma que o
intervalo só vale 0,5 por aproximação, por arredondamento. Para medir um
intervalo num contínuo, como as divisões são infinitas, não se pode considerar uma
contagem das partes que compõem o intervalo e só resta calcular a diferença entre
o maior e o menor, o que, no entanto, requer algum cuidado.

Vamos comparar o dimensionamento de um intervalo hipotético tomando uma


medida alternativamente como discreta e contínua. Suponha dois pontos A e B ao
longo de uma medida “X” que, inicialmente tomada como discreta, assume os
valores x=1, x=2, x=3, x=4 e x =5, na forma representada pela figura abaixo:
43

A B
1 1 1 1 1

1 2 3 4 5

A distância entre A, que está na posição 2, e B, que está na posição 4, pode ser
feita contando as partes:

1, se ambos A e B são excluídos, ou seja, entre eles há uma


unidade;
2, se apenas um é incluído, ou seja, distância de A até B,
incluindo-se ou A ou B, quando entre eles há 2 unidades –
aquela incluída mais aquela que os separa;
3, se ambos são incluídos, ou seja, distância de A até B,
incluindo-se ambos, situação em que entre eles há 3
unidades.
Suponha agora que a medida seja contínua, de forma que entre a 2ª e a 4ª posição
existam infinitas partes, como procura sugerir a figura abaixo:

A B

1 2 3 4 5

Já não podemos mais contar as partes entre a posição 2 e 4 e para medir o


intervalo temos que fazer a diferença entre os dois valores limites do intervalo:
4 –2 = 2. Note que esta diferença é apenas um caso particular da distância entre A
e B, aquela em que um é incluído e outro é excluído. Para corrigir o cálculo de
intervalos em medidas contínuas temos que considerar o que é chamado correção
de continuidade, que se fará por uma adição (ou subtração se nesta adição estiver
envolvido um valor negativo) conforme a seguinte regra (função):

− 1, se ambas as extremindades são excluidas



Intervalo = valor posterior − valor anterior +  0, se apenas uma extremidade é excluída
+ 1, se ambas as extremidades são incluídas

Quando o número de observações é muito grande, infinito, a correção de
continuidade se torna desprezível. Por isso, sempre que se tratar de problemas no
44

universo ao invés de partições do universo, conjuntos, não se demandará correção


de continuidade.

Nas nossas tabelas e gráficos, para calcular a medida do intervalo entre 0 – ½


incluindo zero e excluindo ½, usamos a segunda alternativa da regra:

0,5 (valor posterior) – 0 (valor anterior) + 0 (uma extremidade excluída) = 0,5

A correção de continuidade é algo para o que você tem liberdade de escolher o


que é incluído e o que é excluído. No entanto, se você tiver definido de antemão o
valor que vai atribuir ao intervalo, esta sua liberdade ficará restringida. Vamos
tomar nosso exemplo inicial de valores de colesterol sérico em 15 pacientes (Tabela
8). Ali tivemos a liberdade de arbitrar na tabela, por exemplo, que o intervalo de
100 a 150 incluiria o 100 e excluiria o 150 (100 |-- 150). Quando fizemos isto,
perdemos a liberdade de arbitrar discricionariamente o valor da diferença que
apareceu na Tabela 11 como 50: a correção de continuidade foi automaticamente
definida como a adição de zero à diferença (o extremo inicial foi incluído), de forma
que dado valor inicial incluído e final excluído, perdeu-se a liberdade de se fixar o
valor do intervalo. Se ao contrário, fixássemos a diferença (em 49, 50 ou 51, conforme
a correção de continuidade que quiséssemos fazer) dado um valor inicial o final já estaria
definido e vice-versa.

Suponha que x1 seja um valor inicial de um intervalo qualquer de uma medida


quantitativa e que x2 seja o valor final. Chamando de D a diferença que mede o
intervalo, poderíamos escrever estes valores como variáveis na seguinte forma:

D = x2 – x1,

Note que esta conta fixa uma dependência entre os valores D, x1, x2: quando se
tiver arbitrado quaisquer dois deles, o terceiro já está dado. A função tem 3
variáveis, mas dada a relação entre elas, a liberdade de variar de fato se aplica
apenas a duas. A isto se chama grau de liberdade: o número de variáveis livres
para variar dado um conjunto de variáveis que é usado para descrever um
fenômeno quando entre estas variáveis há alguma relação entre elas. A cada
relação que se inclua entre estas variáveis, um grau de liberdade será roubado, por
exemplo, se além da relação acima você acrescentasse outra, v.g. x2 = 2x1, você
45

ficaria com apenas um grau de liberdade: fixado um valor para D, ou para x2 ou


para x1, os outros estariam necessariamente já definidos. À exemplo do conceito de
correção de continuidade, o conceito de grau de liberdade estará muito presente
nos procedimentos estatísticos.

Medidas de conjuntos de coisas

Tendo estabelecido que um conjunto de coisas também é uma coisa e tendo


estudado formas de descrever esta coisa coletiva, uma questão emerge
naturalmente: grupo, em sendo uma coisa, deve também ter predicados próprios
que o caracterizem como tal; e tais predicados devem igualmente ser susceptíveis
de representação numérica. Examine a Tabela 3: no grupo de 10 pessoas há dois
números que caracterizam sexo – 1, masculino e 2, feminino. Já na Tabela 4, vê-se
que oito números são utilizados para descrever idade em anos completos destas 10
pessoas. Qual entre estes números, ou que combinação deles (alguma transformação
por meio de uma função), poderia ser usado como medida de sexo e de idade para o
grupo estudado?

Certamente o número que se escolha para descrever os atributos de todos os


elementos do grupo não deve ser o número de um elemento qualquer, mas de um
que julguemos representativo do grupo. Talvez o primeiro que nossa intuição nos
sugira seja aquele valor que a maioria dos elementos do grupo apresente, aquele
onde se concentram as ocorrências. No caso de sexo, a própria Tabela 3 sugere
isto: a maioria das pessoas examinadas é mulher (70%) e, portanto, diríamos que
este é um grupo feminino. Esta medida que aponta o valor que é mais freqüente
numa distribuição de valores de uma variável recebe o nome de moda: neste grupo
é moda ser feminino, o que não é feminino é fora de moda.

Se examinarmos agora a Tabela 4, veremos que dos oito valores de idade que o
grupo apresenta, dois (41 e 46) são os mais freqüentes, ambos com a mesma
freqüência (aparecem 2 vezes, o que significa que cada um representa 20% do total de
observações). Teríamos então duas modas e o grupo seria interpretado como um
grupo de pessoas de 41 ou 46 anos. Note, no entanto, que ainda que consideremos
ambas as modas, não estamos descrevendo mais a maioria como no caso de sexo,
o que sugere que neste caso a(s) moda(s) não seja(m) uma boa medida de grupo.
46

De fato, para as medidas quantitativas (particularmente para as quantitativas contínuas


cujos valores podem nunca se repetir de um indivíduo para outro se a precisão da medida for
de muitas casas decimais), raramente a moda é uma boa medida para descrever o
grupo: no nosso exemplo, ainda que referindo duas modas, nossa descrição de
grupo por estas medidas representaria uma minoria do grupo (40%).

Para chegarmos à moda, emprestamos sugestão de nossa experiência com tabelas


e gráficos, que consiste em caracterizar um grupo pela freqüência de ocorrência de
valores de atributos. A idéia pareceu boa quando a moda descreve a maioria dos
elementos do grupo, mas deixou dúvida no caso contrário. Seguindo a mesma linha
de raciocínio, poderíamos agora considerar uma medida que nos apontasse o valor
que entre os elementos do grupo é capaz de, senão de indicar a maioria, pelo
menos separar 50% de seus componentes. Esta medida é chamada mediana: o
valor do atributo que informa que pelo menos metade do grupo tem valor igual
àquele ou menor; ou dito de outra forma, o valor que informa que pelo menos
metade do grupo tem valor igual àquele ou maior (perceba aqui o desafio do contínuo
que já discutimos: onde fica o valor – junto com os menores ou junto com os maiores...?).
Note que este pode não ser um evento observado, como é o caso da Tabela 4. Nela
metade do total de indivíduos do grupo é 5 indivíduos e para se ter um valor de
idade que separe os 5 mais jovens dos 5 mais velhos, teríamos que ter uma idade
entre 44 e 45 anos, 44½, um evento possível, mas não observado nem tampouco
observável se medirmos idade como quantitativa discreta, em anos completos. Note
que a mediana é sempre calculada sob uma premissa de continuidade.

A idéia de mediana introduziu uma nova sugestão para nossa consideração sobre
achar um número que represente o grupo: pode ser um número que nenhum dos
elementos do grupo apresente, mas que sugira como é a intensidade das
contribuições de dois subconjuntos do grupo em termos de freqüência de
ocorrência. De fato, a mediana informa um ponto de corte de valores da variável
que nos permite inferir que tudo que seja menor contribui com metade do grupo e
tudo que seja maior contribui com a outra metade. Ora, isto já nos sugere: por que
escolher um número que aponta contribuições em freqüência de ocorrência de dois
subconjuntos e não um número que aponte a contribuição em freqüência de
ocorrência de cada valor individual dos elementos do grupo? Este número, que é
47

uma representação de cada valor presente no grupo segundo sua contribuição em


freqüência de ocorrência é a média, medida que em Estatística encontrará
inúmeras aplicações.

Definida como valor ponderado de todos os valores do grupo segundo sua


freqüência de ocorrência, a média admite vária interpretações. Uma primeira que se
pode considerar é que se freqüência representa massa de indivíduos presentes num
grupo, a média é o centro de massa. A média de idades de nosso exemplo é 42,1
anos: examine a Figura 6, onde a distribuição de valores de idade reúne várias
formas sugeridas para sua representação (histograma, polígono de freqüência, curva
suave ajustada) e perceba que 42,1 parece mesmo ser um ponto de equilíbrio. É um
lugar onde se poria um fulcro para equilibrar as massas distribuídas pelas barras do
histograma, ou a área sob o polígono, ou a área sob a curva.

Uma outra interpretação para média é que se trata de um valor que, de todas as
formas (ou intensidade) de apresentação do predicado estudado, carrega algum
traço, alguma contribuição. Machado de Assis, em Memórias de Brás Cubas14, faz
referência à média usando esta interpretação da medida: Brás Cubas, após um
encontro fortuito com sua ex-paixão Marcela, agora com rosto deformado por
cicatrizes de bexiga, atrasa-se para jantar com Virgília, que encontra contrariada:

“- Nunca me viu? perguntou Virgília, vendo que a encarava com insistência.


- Tão bonita, nunca.
Sentei-me, enquanto Virgília, calada, fazia estalar as unhas. Seguiram-se alguns
segundos de pausa. Falei lhe de coisas estranhas ao incidente; ela porém não
me respondia nada, nem olhava para mim. Menos o estalido, era a estátua do
Silêncio. Uma só vez me deitou os olhos, mas muito de cima, soerguendo a
pontinha esquerda do lábio, contraindo as sobrancelhas, ao ponto de as unir; e
todo esse conjunto de coisas dava lhe ao rosto uma expressão média entre
cômica e trágica.”

Estas três medidas são chamadas “medidas resumo” ou “medidas de tendência


central”. Examinemos cada uma delas.

Moda

Esta medida resumo representa um conjunto usando a medida que é mais


freqüente. Note que ser mais freqüente não implica necessariamente em ser a
medida que a maioria dos elementos do conjunto apresenta: num conjunto onde
todos os elementos tenham medidas distintas exceto uma que se repete, esta já
48

está qualificada para ser a moda. Quando mais de um elemento do conjunto tiver
uma mesma freqüência identificada como a maior dentro do conjunto, este
conjunto terá mais de uma moda: a descrição do conjunto exigirá mais de uma
medida resumo deste tipo ou a escolha arbitrária de uma delas.

Grupos com mais de uma moda, podem nos sugerir que o que estejamos tomando
como grupo uniforme talvez seja uma combinação de subgrupos. Veja na figura
abaixo a representação das estaturas de um grupo de pessoas:

Figura 11 - Histograma de freqüências de estatura num grupo hipotético de pessoas

15%
Freqüência relativa

10%

5%

0%
160,00 170,00 180,00 190,00

Estatura em cm

Note que neste grupo há duas modas, uma em torno de 165 cm e outra em torno
de valores entre 175 e 180 cm. O histograma está nos sugerindo a pergunta: -
“será que isto é mesmo um grupo, ou uma combinação de dois grupos?” De fato,
sabe-se que estatura difere conforme o sexo, mulheres tendendo a ser mais baixas,
e o que o gráfico está nos sugerindo é que entre estas pessoas possa haver dois
subconjuntos, talvez um feminino e outro masculino. Mais do que constatar
múltiplas modas, é recomendável ao pesquisador examinar eventuais padrões de
concentração de ocorrências na distribuição de suas medidas: elas podem sugerir
modas de subconjuntos. Por exemplo, numa dosagem de determinada substância
marcadora de doença, a identificação de zonas de concentração de ocorrências
pode sugerir diferentes grupos de severidade de doença.

Considere também que, além de múltiplas modas, pode não haver moda: quando
todos os valores da variável tiverem a mesma freqüência.
49

A moda é:

• A medida de maior freqüência na observação realizada;


• O valor previsto como de maior chance de ocorrer em novas observações
(admitindo que no futuro as coisas se comportem como no passado observado);

Para identificá-la, reconheça qual valor da variável aparece mais que os outros. Se
você ordenar seus dados em ordem decrescente por freqüência de ocorrência de
valores, a moda será o primeiro valor. Por exemplo, dada uma variável qualquer
cujos valores estão entre 1 e 5 (1 |--| 5) e que da observação de 13 casos se
obtenha as seguintes freqüências:

Valores Freqüência Valores Freqüência


1 1 Ordenando estas obser- 2 5
2 5 5 3
vações por freqüência
3 2 3 2
4 2 em ordem decrescente 4 2
5 3 temos: 1 1
Total 13 Total 13

o que identifica o valor 2 como moda deste conjunto de observações.

Mediana

É uma medida resumo que informa qual o valor da variável que divide todas as
observações em duas metades iguais. Ela nos conta o que é o grupo informando
sobre suas metades. Por exemplo, se soubermos que um dado grupo tem uma
mediana de estatura de 100 cm, ficamos já com a impressão de tratar-se de um
grupo de crianças: pelo menos ½ do grupo tem estatura compatível com criança e
mesmo que a outra metade possa vir a atingir valores elevados de estatura, a
impressão permanece já que quase a maioria é de elementos com estatura infantil.

A mediana, além de uma medida resumo tem na sua natureza a característica de


ser uma medida de posição: é o valor do meio. Se estivermos medindo as
ocorrências como freqüência relativa acumulada na base 100, a mediana é o
percentil 50 e a cada valor se poderia atribuir uma posição como percentil, como
freqüência acumulada até tal valor. Isto nos remete à sugestão de, para descrever
um conjunto, além de medidas resumo, singulares, considerar ainda medidas de
posição.
50

Outras medidas de posição

Entre os tantos percentis que se pode considerar, além do percentil 50 (mediana)


comumente usa-se também os percentis 25 e 75, também chamados 1º e 3º
quartis. Para calcular os percentis 25%, 50% e 75% (1°, 2° e 3° quartis), use o
seguinte procedimento:

• Ordene os valores do menor para o maior e identifique as posições

1ª - n+1 (correção continuidade para incluir tanto o primeiro quanto o último


valor) x ¼,
2ª - (n+1) x 2/4 e
3ª - (n+1) x ¾ (n sendo o número de observações).

Os valores correspondentes a estas posições serão os percentis 25, 50


(mediana) e 75. Lembre-se que quando sua conta para identificar posições
envolver frações de posição, você deverá calcular qual intervalo de valores
corresponde à posição fracionada. Exemplo: 20 observações de LDL sérico
ordenadas em ordem crescente resultando em:

Posição: 1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª 10ª 11ª 12ª 13ª 14ª 15ª 16ª 17ª 18ª 19ª 20ª
Valor: 55 58 76 78 97 101 102 103 110 113 115 119 120 126 133 135 137 147 153 162
25% 50% 75%

• Para o percentil 25, a posição é a 5,25ª [(20+1) x ¼]. À posição 5ª


corresponde o valor 97 e à posição 6ª o valor 101, o intervalo entre elas é de
4 unidades de valor de LDL. Você deve tomar 0,25 deste intervalo para
alcançar a posição 5,25ª, ou seja, à posição 5,25ª corresponde o valor 98
mg/dl de LDL [97 da 5ª posição + 0,25 do intervalo entre a 5ª e a 6ª
posições = 97 +0,25 x (101-97) = 97 + 0,25 x 4 = 97 + 1 = 98];

• Para o percentil 50 (mediana), a posição é a 10,5ª [(20+1) x 2/4]: no meio


(0,5) das posições 10ª (LDL=113) e 11ª (LDL=115) está o valor 114, que é,
portanto, a mediana: 114mg/dl de LDL;

• Para o percentil 75, a posição é a 15,75ª [(20+1) x ¾]: ¾ do caminho entre


a 15ª (133) e a 16ª (135) posições e, portanto correspondendo ao valor
134,5 mg/dl de LDL.

Note que nestes cálculos fizemos uma divisão por quatro porque as posições 25%,
50% e 75% representam respectivamente 1 quarto, 2 quartos e 3 quartos. Se
51

quisermos saber o valor que numa variável quantitativa correspondesse ao néssimo


n
percentil, nossa conta será: Posição do néssimo percentil = ( N + 1) x , sendo ‘N’ o
100
total de indivíduos observados e ‘n’ o valor de percentil escolhido. Para outras
alternativas de corte para posições, troque o denominador ‘100’ pelo valor
correspondente, v.g. 5, para identificar quintis, 3 para identificar tercis, etc.

Média‡‡

A média é uma medida resumo que se faz com medidas quantitativas para sugerir o
que todos os elementos do grupo seriam se fossem todos iguais. Como em medidas
quantitativas o atributo é expresso como intensidade, isto quer dizer que a média é
o valor que multiplicado pelo número de elementos do grupo resulta num total que
é o mesmo da soma dos valores de cada elemento. Por outro lado, pode-se dizer
que a média é um arquétipo de elemento pertencente ao grupo no qual os atributos
de cada elemento estão de alguma forma representados (lembre-se do sorriso de
Virgília: “uma expressão média entre cômica e trágica”). A média é

• Uma expectativa de medida para os elementos de um conjunto: se temos


um elemento que pertence a um conjunto mas não sabemos sua medida,
esperamos que seu comportamento seja o deste arquétipo de elemento.
Perceba como isto é intuitivo pensando no nosso procedimento da Figura 10:
lá, para cada intervalo de viagem não sabemos as velocidades desenvolvidas
a cada momento, mas dado um tempo de percurso, calculamos a velocidade
em cada trecho como uma velocidade média (somatória do espaço / intervalo de
tempo). Na verdade, ao longo do percurso de cada trecho, a viagem deve ter
experimentado diferentes velocidades e um gráfico de percurso que desse
conta disto teria um aspecto como o sugerido na Figura 12 abaixo:

‡‡
Aqui se discute média aritmética. Considere ainda:
Média geométrica: o número que elevado à potência n leva ao mesmo resultado que o produtório de todos os
valores considerados - MG = n x1.x2 . ... .xn ;
Média harmônica: o inverso da média aritmética dos inversos dos valores considerados. Aplica-se para o
cálculo de média de taxas, por exemplo, média de duas velocidades para percorrer um mesmo espaço -
n
MH = n
1
∑x
i i
52

Figura 12 - Figura 10 com registro de supostas variações de velocidade em cada trecho


Velocidade:
Velocidade:
fração do
Km / hora percurso total /
hora

100 0,4

75 0,3

50 0,2

1/2 1 2 3 3 1/2
Tempo: horas

Ignorou-se as diferentes medidas de velocidade em cada trecho em favor de


uma medida que é a velocidade que se esperaria para cada trecho se o
movimento fosse uniforme;

• A medida de menor freqüência na observação do grupo (se existir entre as


observações!): sendo uma medida arquetípica e singular, pode simplesmente
não se manifestar empiricamente, particularmente se seu cálculo exceder em
precisão aquele que se tem na medida original, v.g. média de idade em anos
completos expressa com decimais – nenhum dos elementos do conjunto
original terá registro de idade com esta precisão decimal;

• O Menor erro numa previsão: embora seja um valor que se espera, dado
que raramente se realiza, a média não é o valor de maiores acertos em
previsão, mas é o valor que envolve o menor erro possível em relação a uma
previsão. Perceba isto imaginando um intervalo duma variável contínua onde
todos os infinitos pontos tenham a mesma freqüência de ocorrência, de
forma que a média será o ponto médio: neste ponto as diferenças a mais e a
menos em relação aos outros pontos se compensam, enquanto que em
qualquer outro haverá sempre um saldo de erros quer a mais ou a menos. A
figura abaixo faz uma caricatura de histograma onde todos os valores têm a
mesma freqüência, assinala a posição da média e de duas alternativas, uma
de menor valor e outra de maior valor:

Figura 13 - Média: menor erro em estimativas de medidas de grupo


53

Note que, como sugerem as setas que indicam extensão do erro, com a
média os erros para valores maiores e menores são iguais, se compensam.
Se escolhêssemos um valor menor que a média, haveria um saldo de erro à
direita, positivo. Se escolhêssemos um valor maior que a média, haveria um
saldo de erro à esquerda, negativo.

Calcula-se a média como a somatória de todos os valores observados dividida pelo


número de observações. Ou como a somatória de cada valor ponderado por seu
número de ocorrências dividida pelo total de observações. Ou como a somatória de
cada valor ponderado por sua freqüência relativa:
n n

∑x i ∑ xi ni n
ni n
Média = i =1

N
ou x = i =1
N
ou ∑
i =1
xi
N
= ∑
i =1
x i freq rel i

Σ – Significa somatória. Os índices apontam os valores possíveis de ‘i’, o


inferior mostrando onde começa a soma e o superior onde ela acaba –
em nosso caso de um até ‘n’;
xi – representa a iéssima observação de valor da variável considerada;
n – representa o número de observações de um dado valor. Portanto, ni
representa o número de observações do iéssimo valor;
N – representa o número total de observações;
x – é uma notação habitual para média de x. Lê-se ‘x barra’;
freq reli – representa a freqüência relativa do iéssimo valor.
54

Sempre que os valores de um dado xi forem repetidos, haverá ponderação pela


freqüência relativa, o que resulta numa média ponderada: cada valor entra com
um peso que traduz sua freqüência relativa no conjunto.

Nestas fórmulas de cálculo de média, estamos vendo a medida como discreta, pois
supomos que podemos individualizar cada valor para contar suas ocorrências.
Quando tivermos uma medida contínua, mediremos as ocorrências por intervalos de
valores desta medida e ao invés de termos freqüência relativa teremos uma
densidade de freqüência (n ocorrências por intervalo). Emprestando as idéias que
exploramos quando consideramos a densidade de freqüência num polígono de
freqüências para intervalos de valores muito pequenos (pontuais) de uma dada
variável contínua (a curva suave da Figura 6), no cálculo da média poderíamos agora
considerar para cada ponto xi uma ponderação pela densidade de freqüência (n° de
ocorrências por ponto xi). Isto nos permitiria calcular a média como uma integração
de todos os valores da variável contínua segundo seu padrão de ocorrências (a área
sob a curva, a somatória dos produtos de todos os intervalos por suas alturas).

Quando a somatória não é uma reunião de partes, mas uma integração de

intervalos, o símbolo Σ é substituído por ∫. Desta forma, trocando o símbolo de

soma e a freqüência relativa (freqrel) pela densidade de freqüências (dF), nossa


fórmula x = ∑ xi freq reli passaria para a seguinte forma:

- integração dos valores de x ponderados pela


média = ∫ xi dF ( xi ) densidade de freqüência.

Esta fórmula é a descrição mais completa do que seja média: uma integração de
todos os valores que uma medida assume ponderados por um padrão de densidade
de freqüências (por exemplo, uma função que descreva as densidades de freqüência como
a que encontramos para a curva ajustada ao polígono de freqüências da Figura 6). Sempre
que conheçamos o padrão de densidade de freqüências, para qualquer intervalo da
variável podemos calcular a freqüência nele acumulada e, ponderando todos os
valores pela densidade de freqüência, podemos calcular a média.

Quando não se tenha este padrão dado por uma função apontando a densidade de
freqüência em cada ponto da variável considerada, mas apenas uma tabela de
freqüência com contagem de ocorrências por intervalos, para calcular a média
55

toma-se o ponto médio de cada intervalo para o cálculo. Nas tabelas abaixo se tem
um exemplo: dosou-se o colesterol sérico em 20 pessoas, obtendo-se o seguinte:

Tabela 14 - Valores de colesterol sérico (mg/dl) observados em 20 pessoas


Pessoa Colesterol Pessoa Colesterol Pessoa Colesterol Pessoa Colesterol
1ª 7,3 6ª 52,1 11ª 97,1 16ª 163,8
2ª 26,9 7ª 58,4 12ª 103,8 17ª 220,5
3ª 28 8ª 81,7 13ª 126,7 18ª 232,3
4ª 37,3 9ª 91,2 14ª 154,4 19ª 283
5ª 49,6 10ª 95 15ª 161,7 20ª 329,7

Para representação tabular destes valores, escolheu-se intervalos de 50 mg/dl de


colesterol, de zero a 350, na forma da tabela seguinte, onde também se mostra o
cálculo da média :

Tabela 15 - Cálculo da média a partir de uma tabela de freqüências


Colesterol sérico em mg/dl
Ponto Ponto
Colesterol n
médio médio x n
0|-- 50 mg 25 5 125
50|-- 100 mg 75 6 450
100|-- 150 mg 125 2 250
150|-- 200 mg 175 3 525
200|-- 250 mg 225 2 450
250|-- 300 275 1 275
300|-- 350 325 1 325
Total 20 2400
Média: somatória (2400) / n (20) = 120,000

Calculando-se a média por ponderação do ponto médio pelas freqüências dos


intervalos se obtém um valor de 120 mg/dl. A média real do colesterol nestas 20
pessoas (Tabela 14) difere muito pouco desta estimativa: calculado a partir dos 20
valores individuais é de 120,025 mg/dl.
Com estas considerações temos já uma boa idéia do conceito do que seja média.
Vale a pena ainda, examinar suas propriedades aritméticas:

1) a média de um valor constante é a própria constante. Quer dizer que


num conjunto onde todas as observações forem iguais, a média (a
medida do grupo) é igual à medida desta observação. Seja α uma
variável (um conjunto de valores) constituída apenas de valores ‘a’,
uma constante; a média de α = a:
x (α ) = a ;
2) Se uma constante, v.g. ‘a’, for somada a cada valor de uma variável X
(um conjunto de observações), então a média ficará acrescida de ‘a’:
56

x ( X + a) = x ( X ) + a ;
3) Se uma constante, v.g. ‘a’, for multiplicada por cada valor de uma
variável X (um conjunto de observações), então a média ficará
multiplicada por ‘a’:
x ( X .a ) = x ( X ).a ;
4) A média da soma de duas variáveis, v.g. X + Y, é igual à soma das
médias de cada variável:
x ( X + Y ) = x ( X ) + x (Y ) .
Uma outra característica, de natureza físico-matemática também pode ser
reconhecida na média. Como sugere a Figura 13, a média é o centro de massa da
distribuição de valores de uma variável, sendo a massa entendida como o conjunto
de todas as ocorrências. Ela é o ponto de equilíbrio desta massa, também chamado
momento em torno da origem (em torno do zero). Suponha uma massa total de
freqüências representada por um montinho de areia onde, v.g., cada ocorrência
fosse um grão de areia: se você despejasse esta massa de areia sobre uma bandeja
apoiada sobre um fulcro no meio desde uma certa altura e em direção ao fulcro, de
forma que os grãozinhos se dispersassem regularmente, você esperaria uma
imagem como a seguinte:

Figura 14 - Distribuição hipotética de uma massa de observações regularmente distribuída


em torno do ponto de equilíbrio

O ponto onde fica o fulcro para conseguir o equilíbrio da massa de ocorrências é a


média. Na Figura 14, temos a sugestão de um montinho regular de areia, com
volumes simétricos de cada lado da média. Esta regularidade ainda seria mantida se
alargássemos ou estreitássemos a base do montinho, como sugere a figura
abaixo onde a linha com setas nas extremidades se alarga e se estreita em relação
à Figura 14:
57

Figura 15 – Massa da Figura 14 com diferentes bases de apoio

Alargamento ou estreitamento estão sugerindo maior ou menor dispersão dos


valores da variável avaliada: eles ocorrem num maior ou num menor intervalo.

Suponha, agora, que ao despejar a areia sobre a bandeja nossa mão se desviasse
um pouco para direita ou para a esquerda: teríamos que fazer movimentos
compensatórios para não desequilibrar a bandeja e nossa figura assumiria a forma
de uma das duas alternativas abaixo:

Figura 16 – Massa da Figura 14 com distribuição irregular no sentido horizontal

Desvio para a E Desvio para a D

Mantendo-se a média no mesmo lugar, na posição do fulcro, desvios de


compensação à esquerda e à direita seriam necessários para manter o equilíbrio: a
base se alarga mais à esquerda ou mais à direita, sugerindo desvios de simetria.
Poderíamos ainda considerar uma variação de altura do montinho que se equilibra
sobre a base, como sugere a Figura 17 abaixo:

Figura 17 – Massa da Figura 14 com diferentes alturas de distribuição


58

Neste caso, mantendo-se a posição da média e a amplitude dos valores, o que


variamos foi a convexidade do ângulo oposto à base.

Vimos, portanto, que nossa massa de ocorrências equilibrando-se na média pode


variar em largura da base (dispersão), em simetria de cada lado da base, e em
convexidade do ângulo oposto à base. Estas figuras que representam o equilíbrio
em torno da base têm também uma versão analítica que lhes atribui valores,
chamados momentos centrais ou momentos em torno da média, os quais
caracterizam cada situação de definição de forma para a distribuição da massa de
observações:

mn =
∑ (x − x ) n

onde ‘mn’ é o momento de néssima ordem, ‘x’ é qualquer valor de


N
uma variável X, ‘x barra’ é a média, ‘n’ é o expoente de distâncias da média, e ‘N’ é
o número de observações. Encontrarão usos em Estatística o primeiro momento em
torno da origem, que é a média; o segundo momento central (expoente n=2), que
medindo variabilidade se chamará variância; o terceiro momento central (expoente
n=3), que medindo assimetria se chamará índice de assimetria, ou emprestando
palavra da língua inglesa skewness; e o quarto momento central (expoente n=4)
que se chamará curtose (do grego kýrtosis, convexidade). Para melhor interpretação
dos momentos centrais, a equação acima é modificada para considerar graus de
liberdade ou padronização de medidas, conforme a situação. Mas, você não precisa
se preocupar com isto desde que

1) entenda os conceitos de variabilidade, de assimetria (à E ou à D) e de


curtose (mais baixa, distribuição chamada platicúrtica; mais alta, distribuição
chamada leptocúrtica; entre uma e outra mesocúrtica);

2) e procure examinar estas características, ainda que de forma grosseira,


através das representações gráficas de distribuição de freqüências, v.g. o
histograma.

Estas medidas de dispersão (variabilidade, assimetria, curtose) assumem importância


quando tentamos comparar dois grupos a partir de suas medidas resumo. Suponha
59

o exemplo abaixo onde dois grupos de dez pessoas tiveram suas idades
examinadas:

Tabela 16 - Dois grupos de 10 pessoas com mesma média de idade


Grupo 1 Grupo 2
Paciente Idade Paciente Idade
1 18 1 1
2 19 2 1
3 19 3 1
4 19 4 1
5 19 5 1
6 20 6 35
7 20 7 38
8 20 8 39
9 21 9 40
10 26 10 44
Média 20,1 Média 20,1

A representação gráfica destas medidas de idade é dada na Figura 18 abaixo:

Figura 18 - Histograma de freqüências de idades dos dois grupos descritos na Tabela 16


5 5

4 4
Freqüencia absoluta

Freqüencia absoluta

3 3

2 2

1 1

0 0
10 20 30 40 50 0 10 20 30 40 50
Idades em anos completos do 1º grupo Idades em anos completos do 2º grupo

Note que, a despeito de uma mesma média, os grupos divergem em variabilidade


(mais estreita para o primeiro), simetria (ambos com um desvio à direita, porém grupo 2
muito mais à D) e curtose (grupo 1, leptocúrtico e grupo 2, platicúrtico).

Para melhor conhecer um grupo, parece sensato que além de uma medida resumo,
considere-se também uma medida de dispersão...
60

Medidas de dispersão de coisas num conjunto

Da discussão de medidas de posição (quartis, percentis – pág. 49) ficou-nos já alguma


sugestão de medida de dispersão dos valores de uma variável. De fato, se
considerarmos o intervalo entre o percentil 0% e o percentil 100%, teremos a
amplitude dos valores da variável, a diferença entre valor máximo e valor mínimo.
Uma outra medida de dispersão frequentemente utilizada é o intervalo
interquartil, a diferença entre o 3º e o 1º quartis, ou seja, a diferença entre os
percentis 75% e 25%. Para descrever dispersão de valores de uma variável, a
mediana e o intervalo interquartil são usados numa representação gráfica chamada
box plot . Este gráfico é construído com um sistema de coordenadas onde os
valores da variável ficam na ordenada e numa posição qualquer da abscissa se
coloca uma caixa (box) vertical para representar o intervalo interquartil, dentro da
qual se anota a mediana como um traço interno horizontal. Dos limites superior (3º
quartil ou percentil 75) e inferior (1° quartil ou percentil 25) desta caixa, traçam-se
linhas verticais que se estendem até os valores máximo e mínimo aceitáveis das
medidas do conjunto estudado. É aceitável o valor que não é aberrantemente
extremo e usualmente define-se como aberrante ou discrepante um valor que
exceda uma distância de 1,5 intervalos interquartil, quer para cima ou para baixo da
caixa do intervalo interquartil. Exemplo: seja a seguinte série de supostos valores
de colesterol sérico em 20 pessoas:

130 150 180 210 258


132 163 199 220 267
142 168 205 225 332
145 172 207 230 360

onde

Mediana = 202; 1° Quartil = 153,25; 3° Quartil = 228,75

Logo, o Intervalo Interquartil = 228,75 – 153,25 = 75,5

e 1,5 Intervalo InterQuartil = 113,25

Portanto, serão aberrantes valores maiores que 342 (3° quartil + 1,5 intervalo
interquartil) e menores que 40 (1° quartil – 1,5 intervalo interquartil) e
serão máximo e mínimos aceitáveis os valores observados que não
61

ultrapassem estes limites. A figura abaixo mostra o box plot deste


conjunto de valores e assinala os pontos de referência para sua
construção:

Figura 19 – Box plot* de 20 observações fictícias de colesterol sérico

342 – limite superior para


400
valores discrepantes a maior
20

332 – Maior valor não


discrepante a maior
300

153,25 – 3° quartil

200 202 – mediana

153,25 – 1° quartil
130 – Menor valor não
discrepante a menor
100

40 – limite inferior para valores


discrepantes a menor

Colesterol em mg/dl

*O boxplot se restringe aos traços negros contínuos. Traços interrompidos em cinza são apenas anotações.

Note no box plot que temos um valor discrepante a maior, anotado como o
vigésimo caso. De fato, o vigésimo caso tem um colesterol de 360 mg/dl, um valor
extravagante para este conjunto.

Da discussão dos momentos em torno da média, temos ainda três sugestões de


medida de dispersão: variância, assimetria e curtose. Embora as duas últimas
possam ser úteis, vimos que a inspeção de um gráfico de distribuição pode ser tão
ou mais sugestiva de alterações de forma por assimetria e curtose. Já a primeira, a
variância, terá várias aplicações em estatística. Como segundo momento em torno
da média, o cálculo da variância deve ser:

m2 = variância =
∑ (x − x ) 2

. Lembre-se, no entanto, que se alertou que para o


N
cálculo de variância, assimetria e curtose, os momentos são transformados com
62

consideração a graus de liberdade e padronização de unidades. No que respeita a


variância de um grupo, temos que considerar que esta medida está usando um
valor (a média) que é função do outro componente da fórmula, os valores individuais
(os x com cuja soma se calcula a média - reveja grau de liberdade na página 44). Logo, um
grau de liberdade é roubado e devemos considerar não o número total de
observações, mas este número subtraído de 1. Portanto, para calcular variância de
medidas num conjunto de observações usamos a seguinte fórmula:

variância ou var =
∑ (x − x ) 2

, onde n é o número de observações deste


n −1
conjunto§§.

Considerando o valor heurístico da geometria, podemos também recorrer a ela para


buscar melhor compreensão da divisão por n-1. Note na fórmula da variância que
2
se trata de uma média de quadrados ( ( x − x ) ). Numa média, como vimos, divide-se

a soma de todos os valores pelo número de elementos do conjunto: quantos


elementos, ou seja, quantos quadrados, tem o conjunto dos quadrados de
diferenças da média? Chamando de desvio a diferença entre um valor empírico e a
média (desvio de sua expectativa de valor, o valor que se esperaria de um membro do
conjunto), vamos tomar exemplo de uma observação fictícia de idade num grupo de
10 pessoas:

Tabela 17 - Idade de um conjunto fictício de pessoas com idades expressas como anos
completos, desvios da média, quadrados destes desvios e par de coordenadas para uma
representação gráfica
Par (x, y) para
Idade Desvio da média Desvio ao quadrado representação num
plano cartesiano
4 -5 -5 x -5 (-5,-5)
5 -4 -4 x -4 (-4,-4)
6 -3 -3 x -3 (-3,-3)
7 -2 -2 x -2 (-2,-2)
8 -1 -1 x -1 (-1,-1)
9 0 0x0 (0,0)
11 2 2x2 (2,2)
12 3 3x3 (3,3)
13 4 4x4 (4,4)

§§
Perceba que não haverá esta restrição de graus de liberdade numa situação onde a média não seja função dos
valores de x, mas uma constante. Isto acontecerá quando se calcular a variância em relação à média de uma
classe: neste caso a média da classe funciona como uma constante no cálculo da variância e a divisão é feita por
n.
63

15 6 6x6 (6,6)
Média = 9

Na Figura 20 abaixo, você vê cada uma das diferenças ao quadrado como um


quadrado, escusada a imprecisão do desenho. Os quadrados de diferenças
negativas aparecem no quadrante inferior esquerdo e são desenhados com linhas
tracejadas; os quadrados de desvios positivos aparecem no quadrante superior
direito e são desenhados com linhas sólidas. Partindo do maior quadrado de desvio
negativo até o maior quadrado de desvio positivo, vemos que necessariamente
temos que passar pela origem, o ponto (0,0) onde há um quadrado nulo: aquele
quadrado em que a diferença com a média é feita em relação a um valor empírico
igual à média, fazendo a diferença nula (no exemplo o valor idade = 9, cujo desvio é
zero). Note agora que, a despeito de 10 observações, temos apenas 9 quadrados:
logo o quadrado médio, a variância, deve ser a soma dos quadrados dividida por 9
(n-1), que é o número total de quadrados.

Figura 20 - Representação gráfica do cálculo de variância de idade num grupo de 10 pessoas

-2

-4

-6
-6 -4 -2 0 2 4 6 8

Podemos argüir este raciocínio considerando que talvez, o caso da Tabela 17 seja
apenas um caso particular, fortuito. No entanto, lembre-se que o conhecimento
científico a que serve a Estatística busca universais, pelo que, ainda que se estude
um grupo particular de fenômenos, o que se busca inferir é um conhecimento
universal sobre a coisa que se estude. Considerando isto, ainda que num dado
64

grupo não haja qualquer observação com valor igual à média, no universo de todas
as coisas à qual este grupo pertence sempre haverá uma. Mais ainda, uma e
somente uma: se a medida é o predicado da coisa que lhe dá identidade, cada
medida deve indicar um único individuo, sob pena de furtar-lhe a identidade.
Quando num universo de coisas duas tiverem uma mesma medida, há defeito de
precisão na medida. Tome com exemplo a idade: habitualmente medida em anos
completos não é incomum encontrar-se duas pessoas de mesma idade, mas se
melhorarmos a precisão da medida, v.g. expressando-a em segundos desde o
momento do nascimento, dificilmente encontraremos duas pessoas de mesma
idade. Se porventura encontrarmos, poderemos passar a medir a idade em décimos
de segundo, centésimos de segundo, milésimos de segundo e etc. até
conseguirmos distinguir as duas pessoas uma da outra.

Tendo calculado a variância dum grupo, o que se quer inferir é a variância da classe
a que este grupo pertence; em Bioestatística, tendo estudado v.g. um grupo de
doentes, o que se quer conhecer é o comportamento da doença na população em
geral. O que a medida de um grupo nos oferece é uma estimativa do que possa
acontecer numa população e pode-se demonstrar matematicamente que esta
estimativa será confiável se a variância for calculada com a correção que subtrai
uma unidade do total de elementos do grupo. Comecemos por examinar as
propriedades aritméticas da variância:

1) a variância de um valor constante é nula. Quer dizer que num


conjunto onde todos os elementos tenham a mesma medida, a
variância (a dispersão do grupo) é zero. Seja α uma variável (um
conjunto de valores) constituída de elementos cujos valores são iguais
a um único valor ‘a’, uma constante, então:
var(α ) = 0 ;
2) Se uma constante, v.g. ‘c’, for somada a cada valor de uma variável X
(um conjunto de observações) a variância de X não se alterará (o mesmo
deslocamento de valores que cada elemento terá, também a média terá):
var( X + c) = var( X ) ;
3) Se uma constante, v.g. ‘c’, for multiplicada por cada valor de uma
variável X (um conjunto de observações), então a variância ficará
65

multiplicada pelo quadrado desta constante (as distâncias da média


ficarão multiplicadas por c, o quadrado das distâncias por c2):
var( X .c ) = var( X ).c 2 ;
4) A variância da soma de duas variáveis, v.g. X + Y, é igual à soma das
variâncias de cada variável, desde que elas sejam independentes
(uma não tenha relação com a outra por via de qualquer função):
var ( X + Y ) = var( X ) + var(Y ) .
Sabendo agora que a adição de algum valor constante (positivo ou negativo) não
altera a variância, podemos reescrever a fórmula da variância como:

∑ [(x − µ ) − (x − µ )]
2 , onde x é a média do grupo e µ é a media da
var = classe, da população, do universo que se quer
n −1 conhecer.
Se tivermos vários grupos de tamanho “n”, cada um terá uma variância que ora
será maior ora será menor que a variância do universo, a qual denotaremos por σ2
para usar um símbolo que na Estatística é habitual para se referir a ela. Esta σ2
deve ser o valor para onde convergem as varias variâncias de vários grupos da
classe de coisas considerada, ou seja, esta σ2 deve ser a média de todas as
variâncias de grupos de tamanho “n”. Para calcular σ2 com a fórmula sugerida
dividiríamos a média da somatória de diferenças ao quadrado de todos os grupos
por n-1:

1
σ2 =
n −1
( 2
)
M ∑ [( x − µ ) − ( x − µ )] , onde M() que dizer ‘média de’
Sendo isto verdade, desenvolvendo o lado direito da equação devemos chegar à
variância da classe, a σ2. Resolvendo o quadrado entre colchetes temos:
1
M ∑ ( x − µ ) 2 − 2∑ ( x − µ )( x − µ ) + ∑ ( x − µ ) 2
( )
n −1
O que, considerando que ∑ ∑ 2
( x − µ )(x − µ ) = ( x − µ ) leva à simplificação
1
M (∑ ( x − µ ) 2 − 2∑ ( x − µ ) 2 + ∑ ( x − µ ) 2 ) , ou
n −1
1
M ∑ (x − µ )2 −∑ ( x − µ )2
( )
n −1
O que, considerando que ∑ ( x − µ ) 2 = n( x − µ ) 2 e que ∑ ( x − µ ) 2 = n( x − µ ) 2 , leva a
1
n −1
(
M n( x − µ ) 2 − n( x − µ ) 2 )
O que, considerando
66

1º) que a média das diferenças de todas as observações individuais com a média
( )
da classe ao quadrado é a variância da classe ( M ( x − µ ) 2 = σ 2 ) e

2º) que a média das diferenças das médias de grupo com a média da classe ao
σ2
(
quadrado é a variância das médias dos grupos ( M ( x − µ ) 2 = ) n
) (a variância
das médias de grupos é inversamente proporcional ao seu tamanho como decorrência
da propriedade 4ª da variância: cada grupo independente aporta uma fração de
variância à classe)
podemos chegar a

1  2  σ 2  1
nσ − n  = (n − 1)σ 2 = σ 2 , permitindo-nos concluir que, de fato, para
n −1   n  n − 1
uma estimativa confiável da variância da classe precisamos da correção de divisão
por ‘n-1’ (demonstração de Armitage & Berry15, com notação adaptada).

Estabelecido como vamos medir variações de medidas em grupos, podemos voltar


ao exercício de comparar os dois grupos propostos na Tabela 16. O que já nos
sugeriam os histogramas e a própria inspeção da tabela, que a despeito da mesma
média de 20,1 os grupos não poderiam ser considerados iguais, agora tem um
número para evidenciar a diferença: a variância do grupo 1 é de 4,99 anos2 e a do
grupo 2 de 410,10 anos2... anos ao quadrado?! De fato, nesta dimensão quadrática,
embora se constate a diferença parece difícil interpretá-la: ambos os grupos tem
igual idade, mas distintas variações de idade ao quadrado... !?

Para resolver isto, fazemos a raiz quadrada da variância de obtemos o desvio


padrão. Recupera-se assim a dimensionalidade original da medida, em nosso
exemplo, idade. Os desvios padrão dos grupos 1 e 2 resultam, respectivamente,
2,23 e 20,25 anos. O desvio padrão sugere o que seja uma variação média de
idade, uma variação esperada, uma variação, que como o nome sugere, seja um
padrão de comportamento no grupo. Seu cálculo é feito, portanto, como:

∑ (x − x )
2

desvio padrão ou DP =
n −1
67

Quando, como no nosso exemplo, temos dois grupos com médias iguais, podemos
dizer qual tem maior variabilidade simplesmente examinando os valores de desvio
padrão. Quando as médias forem diferentes, no entanto, isto não será possível:
suponha dois grupos com desvios padrão de idade iguais aos do exemplo, 2,23
anos e 20,25 anos, mas cujas médias fossem v.g. 5 e 60 anos. Como comparar
variações de 2,23 anos entre pessoas cuja idade esperada é 5 anos com variações
de 20,25 entre pessoas cuja idade esperada é 60 anos?

Ainda usando o exemplo da Tabela 16, como comparar os desvios individuais em


relação à expectativa de medida, a média. Examine o 6° registro de cada grupo da
tabela 6: no grupo 1 a idade é 20 anos e no grupo 2 a idade é 35 anos. Ambos
frustram a expectativa de 20,1 anos, o primeiro em -0,1 e o segundo em +15:
como comparar estes desvios se também a expectativa de variabilidade em cada
grupo é distinta?

Para responder as estas questões precisamos recorrer a medidas relativas de


variabilidade para grupo e de desvio para indivíduo. Com o que já estudamos de
transformação de medidas podemos já esperar que o que precisamos seja uma
base de referência em relação à qual possamos expressar dispersão de grupos e
indivíduos.

Medidas relativas de dispersão de grupos e desvio de indivíduos

No caso dos grupos, conhecendo a dispersão na forma de desvio padrão queremos


uma base de referência para transformar esta medida original numa nova medida.
Esta medida se chama Coeficiente de Variação e usa a média como unidade de
referência:

Desvio padrão Desvio padrão


Coeficiente de Variação = ou = x 100, se quisermos expressá - lo como %
média média

Note que resultando da divisão de duas medidas de mesma dimensão (no nosso
exemplo de idade, tanto a média quanto o desvio padrão seriam em unidades de anos) o
Coeficiente de Variação é adimensional. Para nossa pergunta anterior:

Como comparar variações de 2,23 anos entre pessoas cuja idade esperada é
5 anos com variações de 20,25 entre pessoas cuja idade esperada é 60
anos?
68

podemos agora concluir:

O Coeficiente de Variação do primeiro caso é 0,4460 ou 44,60%, e do segundo caso


é 0,3375 ou 33,75%. Note que embora em termos absolutos o segundo caso tenha
um maior desvio padrão, em termos relativos sua variação é menor.

Expectativa de medida (média) e variabilidade (desvio padrão) estão intimamente


ligadas e da mesma forma que expressamos a variabilidade de um grupo em
unidades de média, para o desvio de um indivíduo da média, usaremos unidades de
desvio padrão. Chamamos este procedimento de padronização (padronizar =
transformar as unidades originais de uma medida em unidades de um dado padrão, v.g. a
freqüência relativa em porcentagens é uma padronização da contagem para uma unidade
padrão de 100) do desvio da média, ou resíduo da média ( resíduo = x − x ),
habitualmente denotado por z nos livros de Estatística e chamado desvio
padronizado da média ou Z escore. Preferiremos chamá-lo Zres para mantermos em
mente que a transformação se refere ao resíduo da média, definindo-o como:

z res =
(x − x )
, onde DP é desvio padrão
DP
Cada coisa pertencente a um grupo pode agora ser caracterizada por uma relação
entre sua medida e as medidas características deste grupo, a média e o desvio
padrão. A diferença entre a medida desta coisa e a média (resíduo) expressa em
unidades de desvio padrão (Zres), informa sua posição dentro do grupo; quanto
esta coisa se afasta do que dela se espera como parte do grupo em termos do que
é um afastamento habitual, padrão, para as coisas deste grupo. Com relação a
nossa pergunta anterior:

No 6° registro de cada grupo da tabela 6 tem-se que no grupo 1 a idade é


20 anos e no grupo 2 a idade é 35 anos. Ambos frustram a expectativa de
20,1 anos, o primeiro em -0,1 e o segundo em +15: como comparar estes
desvios se também a expectativa de variabilidade em cada grupo é distinta?
considerando que os desvios padrão dos grupos 1 e 2 são respectivamente 2,23 e
20,25, temos Zres1 = -0,045 e Zres2 = 0,741. Note que a despeito da grande
diferença em termos absolutos (-0,1 e +15), ambos são variações individuais que
não excedem o que é uma variação habitual (um desvio padrão) dentro dos grupos a
que pertencem.
69

Em síntese, temos 3 conceitos importantes: expectativa de medida (média),


variabilidade (absoluta e relativa: variância e coeficiente de variação), resíduo (ou desvio
ou erro) entre a expectativa de valor e um valor individual observado (Zres).

A coisa como uma classe de coisas

A arte emerge quando de muitas noções obtidas por experiência


um julgamento universal sobre uma classe de objetos
é produzido
Aristóteles. Metafísica. Livro I, Parte I.

Temos até aqui enfatizado que à Ciência o que interessa é o conhecimento de


universais. Embora as coisas se apresentem individualmente, em grupos e em
classes, são as classes de coisas que buscamos conhecer com a Ciência. Na raiz da
relação de identidade ou de proposição de existência que estamos estudando, está
o princípio aristotélico de conversibilidade entre coisa e predicado. Quando
estudando uma coisa segundo seu predicado usamos a proposição “Ana é bela”,
dissemos (página 7) que com ela podíamos conhecer “Ana por seus predicados e por
seus predicados reconhecer, senão Ana diretamente, coisas assemelhadas a ela”.
Os números que temos usado representam predicados e os predicados podem não
conseguir definir coisas específicas (particularmente aqueles de precisão grosseira como
os qualitativos), mas um conjunto de coisas às quais tal predicado (tal medida) se
aplique: se Ana tiver o predicado ‘bela’, necessariamente ela fará parte do conjunto
das belas e conhecendo beleza poderemos conhecer Ana ainda que nunca a
tenhamos visto. Se de tudo de beleza, nossa experiência se resumir a Ana,
saberemos pouco de beleza. Se além de Ana tivermos tido experiência com vários
grupos de belas, melhor conheceremos a beleza e consequentemente Ana e a
classe das belas.

Esta forma de reconhecer compartimentos das coisas que existem, empresta


conceitos da Teoria de Conjuntos [Zermelo–Fraenkel (ZF, entre 1908-22) e von
Neumann–Bernays–Gödel (NBG, entre 1920-40)]: estamos reconhecendo que
indivíduos são conjuntos de um elemento; que elementos se agrupam em conjuntos
e que conjuntos se agrupam ainda em classes – entidades que têm membros mas
que não são membros de nada (por premissa entre os autores citados, embora haja
70

alternativas entre outros autores). O Terceiro axioma da teoria ZF, chamado axioma
dos sub-conjuntos ou axioma da separação ou axioma da compreensão, enuncia
que:

Se P é uma propriedade com parâmetro m, então para qualquer X e


m há um conjunto Y que contém todos os x pertencentes a X que
satisfazem a propriedade P
o que na nossa terminologia seria
Se P é um predicado representado por uma medida m, então para
qualquer X e m há um conjunto Y que contém todos os x que,
pertencendo a X, satisfazem o predicado P, ou seja, cuja medida é m:
X é a classe, Y é o conjunto e x é um indivíduo que pertence à classe
X.
Há duas formas de definição de um conjunto: extensional (com x, relativo a extensão)
e intensional (com s, relativo a intensidade). A primeira descreve exaustivamente os
membros do conjunto, v.g. números pares entre zero e cinco = {2, 4}. A segunda
descreve a propriedade que permite a inclusão de um elemento no conjunto na
forma de uma função, v.g. x é um número par se puder ser expresso como x = 2n,
onde n é qualquer número inteiro. Quando falarmos de conjuntos infinitos como
classes de universais na natureza (sem limite de espaço ou tempo), só a definição
intensional poderá ser usada: em nosso exemplo, não se poderia enumerar todos os
números que compõem a classe dos pares! Note que com a segunda, ainda
podemos descrever os pares entre zero e cinco, ou seja, ela é mais genérica, mais
universal. A ênfase dada até agora neste texto ao conceito de função não foi sem
propósito. De fato, já quando falávamos em descrição de grupos em tabelas e
gráficos ou em transformação de medidas vimos que os procedimentos poderiam
ser reduzidos a funções (descrições por intensão) com o mesmo resultado das
descrições exaustivas (por extensão).

Note que há arbitrariedade de corte para distinguir indivíduo, grupo e classe. Por
exemplo, compare “cão – carnívoro – mamífero” com “mamífero – vertebrado –
animal”: no primeiro o mamífero é universo, no segundo o mamífero é indivíduo.
Será conhecimento universal para nós aquele que interesse o universo de
discurso, o universo ao qual nos referimos, aquilo de que falamos, o espaço de
onde tirarmos a conotação para aquilo que denotamos em medidas. Em
Bioestatística pode ser a classe dos seres humanos, a classe dos brasileiros, a classe
71

dos portadores de uma doença qualquer, etc., algo que possamos chamar de
população de interesse.

Para reconhecer classes, vamos começar por um exercício de indução por analogia:
no universo de todos os animais, falamos sobre cães e todos sabemos o que esta
palavra denota. Se estivermos falando de cães (se este for nosso universo de discurso)
sabemos reconhecer como cão coisas tão díspares quanto um Pincher e um Bulldog.
Mais ainda, reconhecemos como cães caricaturas, como no caso de personagens de
estórias em quadrinhos, v.g. o Bidu, o Dom Pixote, etc. Estas caricaturas usam
traços que generalizam a forma de um cachorro, independentemente de sua raça:
considere a Figura 21 abaixo:

Figura 21 - Cães e o traço que generaliza suas formas

O primeiro retrato mostra um cão grande de pêlo curto, o segundo um cão pequeno
de pêlo longo e o terceiro uma caricatura: a todos chamamos cão... Qual analogia
que fazemos entre os três para encontrar este denominador comum? Em primeiro
lugar a forma física (v.g. focinho, orelha pendente), em segundo a função
(independentemente da raça, cães são companhia ou auxiliares de homens). Poderíamos
dizer que é uma forma genérica que provê a analogia, algo que excede o aspecto
físico, para incluir aspectos como comportamento, afetividade, etc. Veja que a
caricatura tem traços que, para além da forma física, sugere um animal simpático.
Reconhecemos a classe dos cães a partir de uma forma genérica que podemos
descrever por figuras ou por funções (como quando descrevemos grupos por gráficos ou
por funções). Conforme as características destes predicados (medidas), distinguimos
grupos que são as raças de cães: se dado cão assume o valor (mede) “grande porte,
pelo comprido” e sua função assume o valor (mede) “ajuda a controlar um
72

rebanho”, então temos um cão pastor. Seja qual for o cão, indivíduo ou grupo,
conhecida a classe sabemos o que ele é.

Da mesma forma que dentro de um universo de bichos se consegue distinguir


classes, do universo das medidas pode-se reconhecer classes de medidas segundo
forma e função. Nas duas figuras (Figura 22 e Figura 23) abaixo vemos uma
representação de um universo de bichos e de um universo de medidas.

No universo dos animais, há vários grupos de bichos e alguns deles podem ser
reunidos em famílias ou classes: cobras, cavalos, cães. O traço que generaliza a
classes de cães por sua forma é apresentado, mas para cada uma destas classes
poderíamos propor um traço característico para representar um ou mais atributos
característicos da classe.

Figura 22 - Animais e classes de animais: classe dos cães representadas por um traço
comum
Universo de bichos

Pequinês Jararaca
Burro
Bulldog

Égua Cascavel

Pincher Fila
Classe dos cães Sucuri

Mula

No universo das medidas encontramos vários grupos de medidas que também


podem ser reunidos em classes de medidas. Estas classes são distinguidas segundo
um traço característico que é como elas distribuem as freqüências de ocorrência de
seus valores. Segundo este atributo, as medidas de colesterol, LDL, glicemia e peso
têm um traço em comum: a ocorrência de seus valores obedece a um padrão que
distingue a classe das medidas com distribuição chamada normal (ou gaussiana) de
freqüências. Os outros grupos de medidas que aparecem neste universo também
poderiam ser reunidos em classes segundo seus padrões de distribuição de
freqüências:
73

• Nº de mulheres em cada 10 pessoas que encontro e nº de fumantes em


cada 10 pessoas infartadas são medidas que obedecem a um padrão que
distingue a classe das medidas com uma distribuição chamada binomial;
• Nº de acidentes e nº de pessoas que adoecem por dia seguem uma
distribuição chamada Poisson;
• Ser brasileiro e ser do sexo feminino são medidas que seguem uma
distribuição chamada Bernoulli.

Figura 23 - Medidas e classes de medidas: classe das medidas com distribuição normal de
freqüências representadas por um traço comum
Universo de
Nº de mulheres medidas
em cada 10 Nº de
pessoas que acidentes
Colesterol
encontro
LDL
Nº de pessoas Ser
que adoecem
por dia
brasileiro

Glicemia Sexo Peso


Distribuição normal
feminino

Nº de fumantes
em cada 10
pessoas infartadas

Se as medidas são separadas em classes segundo o padrão de distribuição de


freqüência de ocorrência de seus valores, para cada classe devo ter então um traço
característico. Este traço característico pode ser visto tanto como uma curva de
distribuição – coisa muito parecida com um polígono de freqüências, só que com
intervalos de valores tão pequenos que representam um valor individual –, na forma
sugerida na Figura 23, como também pode ser visto como sua correspondente
função matemática: quer pela curva ou pela função, o que caracteriza a classe é um
padrão de relação entre seus valores e a freqüência de ocorrência destes valores.
Freqüência de ocorrência numa classe é probabilidade.

De freqüências para probabilidades

Probabilidade é um conceito vago e multifacetado. Suas bases teóricas começaram


a se estabelecer no livro “Líber de Ludo Aleae” de Girolano Cardano (1501 – 1576),
que além de notável matemático, era também astrólogo (!) e médico destacado,
74

com vários livros tratando de assuntos diversos da medicina. Desde então até o
século XX, quando filósofos e matemáticos como John Maynard Keynes (1883 –
1946), Andrey Nikolaevich Kolmogorov (1903 – 1987), Bruno de Finetti (1906 – 1985)
aportaram grandes contribuições à teoria de probabilidades, têm-se uma verdadeira
revolução de conhecimento neste campo.
A probabilidade pode ser vista como uma medida de incerteza ou como uma
medida de expectativa de ocorrência. Ian Hacking16 chama cada uma destas
abordagens de “probabilidade tipo crença” e “probabilidade tipo freqüência”. Outros
autores as chamarão probabilidade subjetiva e probabilidade objetiva, probabilidade
epistêmica e probabilidade aleatória. Ao leitor curioso fica a sugestão de leitura de
Hacking, mas para fins do que estudamos ficaremos apenas com o conceito de
probabilidade freqüentista. Neste âmbito as ocorrências de fenômenos são por
princípio aleatórias (do latim, aleatoriu: sujeito ao acaso) e os processos que envolvem
sua manifestação são ditos estocásticos (do grego, stochastikós: conjecturar, uma
conjectura de que as coisas não sejam determinadas).
Para buscarmos definições originais desta probabilidade, na Xavier University, in
Cincinnati, Ohio, EEUU, podemos obter uma cópia traduzida do trabalho clássico de
Laplace (Pierre Simon, Marquis de Laplace, 1749 – 1827), de 1795, “Leçons de
Mathématiques données a L’École Normale en 1795, Dixième Séance: Sur les
probabilités”17, onde se lê:
“The probability is relative in part to (our) A probabilidade refere-se em parte à nossa
ignorance, and in part to our knowledge. ignorância e em parte ao nosso
We know that on three or a great number of conhecimento. Nós sabemos que de três ou
events one alone must exist; but nothing
um grande número de eventos um apenas
sustains to believe that one of them will
deve existir; mas nada sustenta a crença de
happen rather than the others; in this state
que um deles vai acontecer ao invés dos
of indecision it is impossible for us to
outros; neste estado de indecisão é
pronounce with certitude on their existence.
impossível para nós reconhecer com certeza
...
a existência deles. ...
The theory of chances consists to reduce all
A teoria das chances consiste em reduzir
events of the same kind to a certain number
todos os eventos de um mesmo tipo a um
of equally possible cases, that is to say such
certo número de casos igualmente possíveis,
that we are equally indecisive on their
o que quer dizer que estamos igualmente
existence; and to determine the number of
indecisos sobre a existência deles; e
cases favorable to the event of which we
determinar o número de casos favoráveis ao
seek the probability. The ratio of this
number to the one of all possible cases is evento para o qual procuramos a
the measure of this probability, which is probabilidade. A razão entre este número e o
thus only a fraction of which the numerator número de todos os casos possíveis é a
75

is the number of the favorable cases, and of medida desta probabilidade, o que é portanto
which the denominator is the number of all uma razão na qual o numerador é o número
possible cases.” de casos favoráveis e o denominador o
número total de casos possíveis.

Note que nesta definição temos a lembrança de que tratamos de incertezas (o


primeiro trecho sublinhado é uma afirmação de Laplace que se tornou célebre!) e uma
definição de probabilidade que lembra nossa freqüência relativa (segundo trecho
sublinhado). A diferença é que a freqüência relativa é a razão entre o número de um
dado tipo de evento sobre todos os eventos observados, enquanto que a
probabilidade é a razão entre o número de um dado tipo de evento sobre todos os
eventos possíveis. Quando estamos falando de jogo de dados esta definição está
de bom tamanho: dadas seis faces de um dado honesto e um método para jogá-lo
sem impor desvios, as chances de qualquer das faces cair para cima é a mesma e
igual a 1/6 (um evento de interesse entre seis eventos possíveis). Quando, no entanto,
estamos falando de um universo de eventos cuja extensão não é acessível, como
aferir o que seja evento possível? Em Bioestatística, na maior parte das vezes não
sabemos nem numerador nem denominador desta razão. Por exemplo, se a
probabilidade de doentes é o número de doentes sobre o total de pessoas, ambas
são medidas muito instáveis para qualquer conclusão: quando acabarmos de contar
doentes ou pessoas, o número para qualquer um destes fatores certamente já não
será o mesmo dado a recuperação, novos adoecimentos, óbitos e nascimentos!

Já antes de Laplace, no entanto, Jacob Bernoulli (1654-1705), em obra póstuma de


1713, havia estabelecido o que chamou de Lei dos Grandes Números em sua obra

Ars conjectandi. Baseileæ: Impensis Thurnisiorum, Fratrum; MDCCXIII. Lá se lê18:

“But what mortal, I ask, could ascertain the Qual mortal, pergunto, poderia avaliar o
number of diseases, counting all possible número de doenças, contando todos os
cases, that afflict the human body in every casos possíveis, que afligem o corpo
one of its many parts and at every age, and humano em todas as suas muitas partes e a
say how much more likely one disease is to cada idade, e dizer quanto mais provável de
be fatal than another... ser fatal é uma ou outra doença...
… under similar conditions, the occurrence ... sob condições similares, a ocorrência (ou
(or nonoccurrence) of an event in the future não-ocorrência) de um evento no futuro
will follow the same pattern as was observed seguirá o mesmo padrão observado para
76

for like events in the past.” eventos semelhantes no passado***.

Neste trabalho, Bernoulli demonstrou que numa série grande de experimentos com
eventos de uma dada probabilidade, a freqüência de ocorrência deste evento
converge para sua probabilidade. Por exemplo, se a probabilidade de face 6 num
dado lançado é de 1/6, se fizermos uma experiência v.g. de 12 jogadas, talvez a
freqüência não seja a esperada de dois eventos de face 6, mas se fizermos um
grande número de jogadas, v.g. 1.200.000, a freqüência de ocorrência de face 6
deverá resultar nos 200.000 esperados pela probabilidade deste evento. A vista
disto e da comentada impossibilidade de em algumas circunstâncias se reconhecer
todos os eventos possíveis, medidas de freqüência são tomadas como estimativas
de probabilidade.

Da definição de probabilidade oferecida por Laplace podemos deduzir suas três leis
principais:

1) A probabilidade de tudo é 1 (Princípio da Tautologia, v.g. num espaço de eventos


onde os eventos possíveis são branco e preto, a probabilidade de eventos brancos
(probabilidade = ½) ou pretos (probabilidade = ½) é um);

2) A probabilidade de nada é 0 (Princípio da Contradição, vg. se só existem brancos


e pretos, a probabilidade de um evento nem branco nem preto é nula);

3) A probabilidade da disjunção (v.g. branco ou preto) de eventos mutuamente


exclusivos é a soma das probabilidades de cada evento (Princípio da
Aditividade – é uma decorrência do primeiro, v.g. se os eventos possíveis são branco
(p = ⅓), preto (p = ⅓) e verde (p = ⅓), então a probabilidade de eventos branco ou
preto é ⅔)
A probabilidade, portanto, será sempre uma medida nula ou positiva; a
probabilidade do todo será um; e a probabilidade de eventos independentes é a
soma das probabilidades de cada evento – assim enunciados, estes princípios
constituem os chamados Axiomas de Kolmogorov.

O princípio da aditividade foi enunciado para eventos mutuamente exclusivos: cada


coisa só pode ter um único atributo ou uma alternativa a ele, mas não dois atributos

***
Mais tarde, David Hume estabelecerá isto como o Princípio de Uniformidade da Natureza em seu A treatise
on the human nature. Adelaide, Australia, University of Adelaide, Ebooks:
http://etext.library.adelaide.edu.au/h/hume/david/h92t/h92t.zip
77

simultâneos. Suponha agora que os eventos não sejam mutuamente exclusivos,


mas sejam independentes, isto é a presença de um atributo em nada interfira na
presença do outro. Por exemplo, suponha que numa população a probabilidade de
ser mulher seja p = 0,50 e que a probabilidade de ser fumante seja de p = 0,30,
independentemente do sexo (ou seja, tanto homens quanto mulheres têm a mesma
probabilidade de p = 0,3). A Figura 24 abaixo procura representar este universo na
forma de um diagrama de Venn [John Venn (1834-1923) criou este diagrama para
representar graficamente operações de disjunção (ou), conjunção (e) e negação (ausência do
evento)]:

Figura 24 - Diagrama de Venn para análise da disjunção “mulher ou fumante”

♀ ♂
P = 0,5 P = 0,5
F: P = 0,30
P=0,15 P=0,15

F = fumante; P = probabilidade

Note que como aqui fumar supostamente independe do sexo, os 30% de fumantes
da população estão igualmente distribuídos entre homens e mulheres. Dado que os
eventos já não são mais mutuamente exclusivos, a disjunção “mulher ou fumante”
não pode ser a simples soma das probabilidades, sob pena de mulheres que fumam
serem computadas duplamente, uma vez como mulheres e outra vez como
fumantes. Logo, da soma de probabilidades temos agora que subtrair os eventos
repetidos:

P(mulher ou fumante)= P(mulher) + P(fumante) – P(mulher & fumante)


= 0,5 + 0,3 – 0,15
= 0,65
Note que se sexo e hábito de fumar fossem mutuamente exclusivos, esta regra de
subtrair a conjunção (mulher e fumante) ainda valeria já que a probabilidade
“P(mulher & fumante)” seria nula. Esta forma de enunciar o princípio da adição é
chamada regra da adição: P(A ou B ou ambos) = P(A) + P(B) – P(A&B)
78

Note ainda que dado que fumar e sexo são independentes, a probabilidade da
conjunção resulta no produto das probabilidades. Por exemplo, se ao invés de
avaliarmos “P(mulher ou fumante)” quiséssemos avaliar “P(mulher & fumante)”, a
probabilidade seria p = 0,15, que é o produto da probabilidade de ser mulher
(p = 0,50) pela probabilidade de ser fumante (p = 0,30). Esta é a chamada regra da
multiplicação [P(A&B) = P(A).P(B)], que só se aplica quando os eventos para
os quais se propõe a conjunção sejam independentes.

Quando os eventos não são independentes, vamos falar em probabilidade


condicional: dado que a condição de presença de um evento esteja satisfeita,
argüi-se a probabilidade de conjunção com outro. No nosso exemplo, poderíamos
ter dependência entre sexo e tabagismo, v.g. com mulheres fumando menos que os
homens. Digamos que a probabilidade de fumar para as mulheres fosse a metade
da dos homens e que mantivéssemos a probabilidade de fumar na população nos
mesmos 30%. Nosso diagrama de Venn teria então a seguinte forma:

Figura 25 - Diagrama de Venn para análise da conjunção mulher ou fumante

♀ ♂
P = 0,5 P = 0,5
F: P =0,30
P=0,10 P=0,20

F = fumante; P = probabilidade

Agora, quando falarmos de “mulher & fumante” falamos de fumantes entre as


mulheres, ou fumante dado que mulher, onde mulher passa a ser nosso universo de
discurso, nosso espaço de eventos. Assim sendo, a probabilidade de “mulher
fumante” deve ser todos os eventos de fumante entre todos os eventos possíveis de
mulher, ou seja,

P (da disjunção fumante & mulher) 0,10


P(fumante dado que mulher) = = = 0,20
P(mulher) 0,50

Substituindo ‘fumante’ por B e mulher por ‘A’, e usando o símbolo ‘|’ para denotar
‘dado que’, podemos reescrever nosso resultado num formato genérico como:
79

P ( A & B)
P ( B | A) =
P ( A)

Esta fórmula está de acordo com nossa regra da multiplicação, pois dela decorre
que

P(A&B) = P(B|A).P(A), onde se P(B) é independente de P(A),


então P(B|A) = P(B) e, portanto, P(A&B) = P(B).P(A)

De medidas resumo para parâmetros de funções

As classes são abstrações intelectuais sobre o comportamento das coisas. Da


mesma forma que de nossa experiência conseguimos reconhecer classes v.g. de
animais, também da experiência empírica podemos reconhecer classes de medidas,
padrões específicos de comportamento para a distribuição de ocorrência de valores
de diferentes medidas. No entanto, estabelecida uma teoria de probabilidade, pode-
se chegar a funções de distribuição de probabilidade por dedução de teoremas. Esta
é uma das vantagens de se representar predicados por números: da operação com
números se pode encontrar sugestões de predicados eventualmente ainda não
percebidos empiricamente. Há uma distribuição, dita de Cauchy, que serve de
exemplo para isto: Augustin Louis Cauchy (1789 – 1 857) numa disputa com Irénée
Jules Bienaymé (1796 – 1878) formulou esta distribuição como parte de seus
argumentos numa discussão sobre a tese dos mínimos quadrados de Laplace, que
Cauchy reclamava só ser aplicável a casos particulares de medidas com distribuição
normal19. No entanto, a despeito do berço teórico, a distribuição de Cauchy
encontrou aplicações empíricas, sendo usada pelos físicos para descrever o
comportamento de ressonância.

Se as coisas são reconhecidas por medidas, os grupos por medidas de grupo e


variabilidade, as classes são reconhecidas por funções com parâmetros que lhes dão
forma característica para a distribuição de valores de variáveis aleatórias – note o
destaque para aleatoriedade, mercê da qual as teorias de probabilidade são
aplicáveis. Conhecendo propriedades de classes, v.g. sua função de distribuição de
probabilidades, poderemos formar juízos sobre grupos e coisas que pertençam a
esta classe. Ao longo de nosso estudo, recorreremos a diferentes funções de
80

distribuição de probabilidade mas desde já analisemos duas a título de exemplo: a


distribuição normal, que se aplica a algumas medidas contínuas, e a distribuição
binomial, que se aplica a algumas medidas discretas.

Na distribuição normal, a curva de distribuição tem aquele aspecto de sino que


aparece na Figura 23 e sua função matemática correspondente é

2
1  ( x − média ) 
− 
2  Desvio Padrão 
e
Densidade de probabilid ade =
Desvio Padrão 2π
Os parâmetros que definem esta função são a média e o desvio padrão de todos os
elementos da classe, pelo que são ditos média e desvio padrão populacionais.
Enquanto numa distribuição binomial os valores são sempre uma contagem
(quantitativa discreta) de casos que se pode encontrar, ou seja, o domínio são
os números inteiros, numa distribuição normal a dimensionalidade dos valores varia
de acordo com o que se esteja medindo. Abaixo temos dois exemplos de medidas
com distribuição normal: note que o domínio (intervalo de valores que aparecem no
eixo dos x) de uma é diferente do domínio da outra.

Figura 26 – Curvas de distribuição normal para duas medidas distintas

50 50

40 40

30 30

20 20

10 10
Std. Dev = 9,78 Std. Dev = 40,45
Mean = 84,2 Mean = 213,5
0 N = 328,00 0 N = 328,00
57
62
67
72
77
82
87
92
97
10
10 5
11 ,5
11 5

10
12 , 0
14 0
16 , 0
18 , 0
20 0
22 , 0
24 , 0
26 0
28 , 0
30 0
32 , 0
34 , 0
,5
,5
,5
,5
,5
,5
,5
,5
,5
2,
7
2,
7,

0
0,
0
0
0,
0
0
0,
0
0,
0
0
0,
5

Circunferência cintura em 2000 colesterol total em 2000

De fato, enquanto circunferência de cintura varia entre 57 e 118 centímetros,


colesterol varia entre 100 e 350 mg/dl. Para se fazer uma generalização da curva
normal e se poder saber qual a densidade de probabilidade correspondente ao valor
81

de uma dada medida da classe das normais, é preciso que estas variações de
dimensionalidade sejam eliminadas e que os valores da imagem sejam reduzidos ao
intervalo 0 e 1 (espaço das probabilidades). Isto é feito transformando-se a
mensuração de qualquer medida da classe das normais em resíduos padronizados
da média (Zres) e as contagens de ocorrência como proporções do total (freqüência
relativa como estimativa de probabilidade). Lembre-se que o resíduo padronizado da
média é calculado como:

_
x−x
Zres =
Desvio padrão de X
onde: X é a variável
x é a medida que se quer transformar
x é a média dos valores de X
No exemplo acima, uma circunferência de cintura de 100 cm transformada em
resíduo padronizado da média resulta em Zres = 1,6, da mesma forma que um
colesterol de 278 mg/dl também resulta em Zres = 1,6. Note que assim,
independentemente de quais unidades de mensuração são usadas, qualquer medida
da classe das normais pode ter seu valor interpretado para a correspondente
probabilidade de ocorrência. No exemplo, ambas as medidas correspondem a uma
probabilidade p = 0,055 (5,5%) para valores maiores ou, dito de outra forma, de
p = 0,945 (94,5%) para valores menores†††. Sendo circunferência de cintura e
dosagem de colesterol duas medidas da mesma classe (da distribuição normal),
transformadas suas medidas em resíduos padronizados podemos fazer juízo de suas
grandezas a partir da avaliação das probabilidades a eles associadas: no nosso
exemplo, um indivíduo com circunferência de cintura de 100 cm tem cintura tão
grande quando outro de colesterol 278 mg/dl tem colesterol elevado. Ambas as
medidas ocupam a mesma posição na distribuição de probabilidades, um é tão
grande ou tão pequeno quanto o outro, ainda que cada um esteja avaliado por
diferentes medidas (reveja como se faz juízos de grande e pequeno na página 14)

†††
Note que quando falamos de medidas contínuas não há sentido em falarmos em probabilidade de um dado
valor particular: a probabilidade de um valor entre infinitos valores possíveis no contínuo é praticamente nula,
é uma razão entre 1 e infinito. Por isso, sempre que falarmos de probabilidade de medidas contínuas,
necessariamente teremos que nos referir à probabilidade de valores maiores ou menores; ou probabilidade entre
dois valores.
82

Na figura abaixo temos uma curva normal padronizada (com valores da variável
expressos como desvios padronizados da média) que serve para qualquer medida com
distribuição normal, bastando para isto que se faça a transformação de seus valores
originais para desvios padronizados da média. Em destaque uma característica da
distribuição normal, que é o fato dos resíduos padronizados de valor absoluto de
aproximadamente 2 (na verdade 1,96) separarem os 2,5% dos valores mais baixos
(se negativo, Zres = - 2) e os 2,5% dos valores mais altos (se positivo, Zres = + 2), ou
seja, os valores cuja ocorrência se pode reputar como RARA quer porque muito
pequenos (Zres = - 2), quer porque muito grandes (Zres = + 2).

Figura 27 - Curva normal padronizada e suas propriedades


400
0,20

0,15
300

0,10
200

2,5% 2,5%
0,05
100

0
-3

-3

-2

-2

-1

-1

-,5

0,

,5

1,

1,

2,

2,

3,
0

0
5

0
,5

,0

,5

,0

,5

,0

A padronização de valores é procedimento comum para funções de distribuição de


freqüências e permite que dado um valor de uma medida pertencente a esta classe,
independentemente da dimensionalidade desta mensuração, se possa conhecer a
probabilidade de ocorrência de valores iguais ou maiores, um p-valor. Isto nos
informa se o valor examinado é raro ou se é corriqueiro. Por exemplo, sabendo-se
que a idade dos brasileiros têm uma distribuição normal, ou seja é uma medida da
classe das normais, dado um valor de idade você pode dizer se ele é extravagante
ou não examinando qual o valor de p de seu correspondente resíduo padronizado
da média. Se uma pessoa tem, digamos 55 anos, e se quer saber se ela pode ser
classificada como velha, basta que transformemos o valor 55 em Zres para
83

formarmos uma idéia sobre isto. Se o Zres de 55 anos for, digamos 2,3 , sabemos
que este é um valor raro de medida (é maior que 2 que separa já os 2,5% mais velhos!)
e podemos concluir que, de fato, esta pessoa tem uma idade tão grande que
comparada aos outros brasileiros (que compõem a distribuição) sugere que ela seja
velha.

Da mesma forma que para um valor de medida você pode obter as probabilidades
de valores maiores e menores, com a função inversa (de probabilidade para medida)
você pode identificar um valor correspondente a uma dada probabilidade. Por
exemplo, se você quiser identificar qual o valor da medida que separa dos 5,5%
maiores, verifique qual o valor correspondente à média somada a 1,6 desvios
padronizados (o valor de Zres que separa os 5,5% maiores). No nosso exemplo acima
teríamos:

Para circunferência de cintura:


Média = 84,2 e desvio padrão de 9,78
Logo o ponto de corte para os 5,5% maiores é 84,2 + 1,6 x 9,78 = 99,85, ou
arredondando, os 100 que já havíamos citado.
Para colesterol:
Média = 213,5 e desvio padrão de 40,45
Logo o ponto de corte para os 5,5% maiores é 213,5 + 1,6 x 40,45 =
278,22, ou arredondando, os 278 que já havíamos citado.
Por último, dada uma média como característica de um grupo, você pode querer
saber qual o intervalo de valores que em torno dela reúne a maioria das medidas
que você espera obter neste grupo. Arbitrando em probabilidade o que você quer
dizer com maioria, você pode calcular este intervalo.

Suponha que você arbitre que ‘maioria’ seja 95%. Logo você está dizendo que quer
a média ± 1,96 desvios padrão – se um Zres de –1,96 separa os 2,5% menores e
um Zres de +1,96 separa os 2,5% maiores, com a média ± 1,96 desvios padrão
você vai ficar com 95% das medidas em torno da média.

Nas funções densidade, como já vimos no estudo de freqüências, para conhecer a


probabilidade de um intervalo temos que calcular a área sob a curva, o que
demanda um procedimento de cálculo integral. Se conhecermos a curva de
84

distribuição de probabilidades característica de uma classe poderemos, como já dito


(página 79), usar suas propriedades para formar juízos sobre grupos desta classe.
Tomemos como exemplo o grupo de 15 doentes para os quais tivemos o colesterol
sérico mensurado conforme a Figura 8. Se transformarmos aquelas medidas
absolutas da abscissa em medidas relativas, teremos uma densidade de freqüência
relativa para as barras do histograma e podemos imaginar uma curva contínua
representando a classes de medidas deste tipo, para a qual a medida na abcissa
seria uma densidade de probabilidade, como sugere a Figura 28 abaixo:

Figura 28 - Curva de densidade de probabilidade normal sobreposta a histograma de


freqüências relativas: de 15 pacientes à generalização para uma classe de pacientes

0,53

0,47
Probabilidade por unidade infinitesimal

0,40

0,33

0,27

0,20

0,13

0,07

0,00
50 100 150 200 250 300 350
Colesterol em mg/dl

Note como esta curva pode ser obtida: se muitos pacientes fossem examinados em
correspondentes histogramas e se progressivamente se reduzisse o intervalo
original de 50 mg/dl para intervalos cada vez menores, o que se notaria seria uma
sucessão de barras cada vez mais estreitas cujas extremidades superiores
sugeririam uma linha contínua, semelhante à linha contínua sugerida no gráfico.
Nos quatro gráficos abaixo, examinados por linha no sentido esquerda para direita,
pode-se ver o comportamento de um histograma para colesterol em mg/dl em
6.500 pacientes em sucessivas reduções de intervalo:
85

Figura 29: Histogramas de freqüências com intervalos progressivamente menores até sugerir
uma curva de distribuição de probabilidades
,31 ,15

,12

,09

,15

,06

,03

0,00 0,00

,08 ,05

,06

,03

,05

,03

,02

,02

0,00 0,00

Imaginando que por trás do histograma de freqüências por intervalo haja uma
curva de ocorrências pelo contínuo de valores de colesterol, temos que as barras
agora são transformadas em linha de uma curva cujos pontos descrevem
velocidades instantâneas de ocorrências para cada valor infinitesimal de colesterol.
Esta linha sugere como poderia ser o comportamento da medida de colesterol não
no conjunto de pacientes examinados, mas na classe de todos os pacientes do
mesmo tipo. Esta linha sugere, portanto, uma inferência sobre o que seja o geral a
partir da experiência particular de um conjunto de pacientes. Ou seja, se não se
souber tudo sobre a classe a que estes doentes pertençam, v.g. a classe dos
obesos, mas se puder supor que 15 pacientes vistos devam ser muito semelhantes
a outros tantos não vistos, pode-se fazer uma generalização sobre o
comportamento desta classe de pacientes em relação à medida colesterol em
mg/dl.
86

Usando-se o cálculo integral (soma no contínuo ( ∫ ) de toda a área sob a curva densidade
de probabilidade), chega-se a uma curva de probabilidade acumulada, que tem a
forma sugerida pela Figura 30 abaixo. Agora, dado um intervalo de valores de
colesterol pode-se calcular sua probabilidade de ocorrência como a diferença entre
os valores de probabilidade que o delimitam, ou seja, a probabilidade que se
acumula entre eles. Esta diferença, que é a integração da densidade de ocorrência
no intervalo considerado, representa a área sob a curva de densidade neste
intervalo.

Figura 30 - Curva de probabilidade acumulada - áreas sob a curva de densidade de


probabilidade

100%
Probabilidade acumulada

75%

50%

25%

0%
100 150 200 250 300

Colesterol em mg/dl

Nesta curva pode-se verificar que a probabilidade acumulada até o valor 200 de
colesterol é de aproximadamente 0,46 ou 46% e que a probabilidade acumulada
até o valor 150 é de aproximadamente 0,13 ou 13%. Desta forma, a probabilidade
entre os dois valores resulta em 0,33 ou 33%, o que corresponde à freqüência
relativa do intervalo “150 |-- 200” na tabela de freqüências (Tabela 8, página 35).

Se, ao contrário, examinássemos a curva de densidade de probabilidade para


analisar o intervalo 150 a 200 mg/dl de colesterol, teríamos a seguinte figura:
87

Figura 31 - Exame do intervalo 150 - 200 mg/dl de colesterol na curva de densidade de


probabilidade

Para calcular a área sob a curva no intervalo 150 – 200, poderíamos de maneira
grosseira (para evitar o cálculo integral ! ) assumir que esta área seja
aproximadamente o retângulo sugerido na Figura 31, onde se toma uma média∗ das
densidade de ocorrência relativas aos dois pontos – 150 e 200 (este retângulo perde
uma parte da área sob a curva acima da média, mas compensa isto com a inclusão de uma
área à esquerda da curva). As densidades de probabilidade por unidade infinitesimal
para os dois pontos são

 0,0087 para 200 mg/dl e

 0,0045 para 150 mg/dl

De forma que a média resulta em 0,0066. A área sob a curva pode agora ser
calculada como aproximadamente a área do retângulo 0,0066 X 50, o que resulta
em 0,33, ou 33%, mesmo valor encontrado na curva de distribuição acumulada de
probabilidades.

Para nos desonerarmos do encargo de proceder ao cálculo integral, recorremos a


tabelas que fazem correspondência entre áreas sob a curva de densidade de
probabilidade e pontos de corte em resíduos padronizados. Estas tabelas, tanto
para a distribuição normal como outras, são disponibilizadas em anexo deste e
qualquer livro de Estatística. Nestas tabelas você pode não encontrar exatamente os
valores que procura, mas certamente encontrará alguma aproximação.


Embora a média de taxas seja calculada como média harmônica, por simplicidade se toma a média aritmética
neste exemplo.
88

Na função binomial, a curva de distribuição é parecida com aquela da normal, mas


apenas quando se faz muitas tentativas. Tomando como exemplo a medida “nº de
fumantes entre pessoas infartadas”, imagine que quanto mais pessoas infartadas
(n) se examinar, mais chances se terá de encontrar 1 ou 2 ou 3 ou ‘k’ pessoas que
sejam fumantes. A função matemática para medidas com distribuição binomial é
 em n Infartados 
P(encontrar k fumantes ) =  k
 x probabilidade fumante x probabilidade não fumante
n−k

 k fumantes 

Para generalizar esta função, ou seja, para fazê-la útil tanto para o caso de
fumantes entre infartados quanto para o caso de mulheres entre as pessoas que
encontro, ou enfim para qualquer outra medida pertencente à classe de distribuição
binomial, podemos escrever esta função como

n n n!
P ( X = k ) =   p k q n − k sabendo-se que   =
k   k  k!(n − k )!
Os parâmetros desta distribuição são, portanto, n, p e q. Para que você tenha uma
visão de curvas de distribuição binomial, observe nos gráficos abaixo como é a
curva de distribuição de freqüência de nº de fumantes entre pessoas infartadas,
quando se examina 5, 10, 15 e 20 pessoas com infarto, numa situação onde se tem
a informação de que a probabilidade de fumantes entre infartados é de 30%, ou
seja de cada 10 infartados espera-se que 3 deles sejam fumantes. Se examinarmos
apenas 1 doente, a probabilidade de se ter 1 fumante (o único que examinado!) é
p = 0,3; se examinarmos 2 doentes, a probabilidade de se encontrar 1 fumante é
0,42 e de se encontrar 2 fumantes (todos que examinamos!) é de p = 0,09. E assim
por diante, como mostram as curvas de distribuição de probabilidade abaixo.
89

Figura 32 – Curvas de distribuição binomial para um nº crescente de observações

Em 5 doentes examinados Em 10 doentes examinados


0,4 0,4
correspondente

correspondente
Probabilidade

Probabilidade
0,2 0,2

0,0 0,0
0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20
nº de fumantes que se pode esperar nº de fumantes que se pode esperar
encontrar sabendo-se que a encontrar sabendo-se que a
probabilidade de ser fumante é de 30% probabilidade de ser fumante é de 30%

Em 15 doentes examinados Em 20 doentes examinados


0,4 0,4
correspondente

correspondente
Probabilidade

Probabilidade

0,2 0,2

0,0 0,0
0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20
nº de fumantes que se pode esperar nº de fumantes que se pode esperar
encontrar sabendo-se que a encontrar sabendo-se que a
probabilidade de ser fumante é de 30% probabilidade de ser fumante é de 30%

A tendência da curva de distribuição progressivamente ajustar-se à forma de uma


distribuição normal, como observamos nesta figura, é resultado de um teorema da
Estatística chamado Teorema do Limite Central. Ele diz que independentemente
da distribuição original de qualquer medida, se o número de observações for grande
a distribuição tenderá à forma de uma distribuição normal. Para a distribuição
binomial, têm-se uma regra, chamada condição de simetria (condição para que a
curva de distribuição tome uma forma simétrica), que diz que será grande o suficiente
para se assumir normalidade de distribuição o conjunto no qual tanto a
probabilidade do evento (p) quanto a probabilidade de não evento (q) levem a pelo
menos cinco ocorrências quando aplicadas ao número total de observações deste
conjunto (tanto p quanto q aplicados ao n do grupo resulta em pelo menos 5). Quando a
distribuição binomial se aproxima da normal, esta normal tem seus parâmetros
média e variância convergindo para: média = p e variância = p x q (esta é uma
forma geral onde p representa proporção de eventos. A média como número médio de
90

eventos esperados será, portanto, p x n, ou seja, a proporção aplicada ao número de


observações).
Entendendo o que é uma função de distribuição de probabilidades, você entenderá
como se analisa as relações entre coisas no módulo 2.

Reconhecendo classes pela experiência com conjuntos de coisas

Como já dito, à ciência interessa conhecer universais, conhecer classes de coisas.


Muitas vezes, como também já comentado, o universo não é acessível e seu
conhecimento precisa ser inferido a partir de experiência empírica com conjuntos de
coisas. Como as classes de coisas são reconhecidas por funções de distribuição de
eventos caracterizadas por parâmetros (em contraste com coisas singulares que são
conhecidas por suas medidas e conjuntos que são conhecidos por suas medidas resumo e
variabilidade), o que se busca é inferir os parâmetros das funções de distribuição
que caracterizam a classe a partir da experiência com grupos. Um conjunto
observado com vistas a prover informação de uma classe é chamado uma amostra
e a classe (conjunto de todos os elementos e todos os conjuntos de elementos) é chamada
população (o que em Bioestatística é muito intuitivo já que falamos em população de
pessoas). O desenho da amostra é chamado plano amostral (sampling frame, em
inglês) e os objetos investigados são chamados unidades amostrais (sampling
units, em inglês)

Sob o princípio de aleatoriedade da teoria de probabilidade, esperamos que vista


uma amostra da população, de sua distribuição de freqüências relativas tenhamos
estatísticas como média e variância semelhantes aos parâmetros média e variância
da população. No caso da variância, já vimos que para que a variância de grupo
possa ser uma boa estimativa da variância de classe precisamos fazer uma correção
no cálculo do desvio quadrado médio (divisão por n-1)‡‡‡. Quanto à média, ao
considerarmos a média de uma amostra, dificilmente esperaríamos que ela fosse
exatamente a média da população, o que seria um golpe de sorte formidável.

‡‡‡
A estimativa de parâmetros populacionais por valores específicos, dita estimativa por ponto, é confiável
(não viciada) tanto para média quanto para variância. No entanto, para estimativa de desvio padrão da
população, se a amostra estudada for pequena, v.g. menor que n=30, há vício e se deve usar um fator de
correção que neste texto está sendo ignorado.
91

Provavelmente a média da amostra será algo próximo da média da população, mas


certamente nesta estimativa estaremos incorrendo em algum erro decorrente da
própria natureza aleatória das ocorrências de eventos. Este erro, intrínseco à
natureza probabilística da estimação que considera aleatoriedade para a ocorrência
de eventos, é chamado erro aleatório. Seria de todo desejável que se conhecesse
a grandeza deste erro: talvez pudéssemos recorrer àquela estratégia de se fazer
juízo de grandeza pelo reconhecimento das chances de sua ocorrência.

Suponha que haja uma classe cuja média seja conhecida e que várias amostras de
um dado tamanho sejam realizadas como um experimento para conhecer a média
populacional: cada amostra provavelmente fornecerá uma estimativa diferente da
média populacional: ainda que todas com alguma proximidade à ela, sempre para
cada uma haverá algum erro de estimativa. Suponhamos ainda, para fixarmos uma
referência e mercê o que nos sugere o Teorema do Limite Central, que a medida na
população tenha uma distribuição normal. Se assim for, espera-se que cada
amostra tenha igualmente uma distribuição normal já que o que caracteriza um
conjunto como integrante de uma classe é um comportamento semelhante ao desta
classe. Como corolário, os erros, que serão diferenças entre as médias de cada
amostra e a média da população, necessariamente terão também uma distribuição
normal (lembre-se da propriedade da média que diz a soma (ou subtração) de uma constante
aos valores de uma variável implica em igual soma (ou subtração) na média: somar ou
subtrair não altera as relações). Estes erros de distribuição normal (quer normal com uma
média µ e desvio padrão σ [E~N(µ,σ)] ou binomial com aproximação normal com média p e

desvio padrão raiz quadrada de p x q [E~N( p, pq )]) indicarão incerteza e serão

diretamente proporcionais à variância da população e inversamente proporcionais


ao tamanho das amostras:

σ2
Erro ∝
n
De fato, quanto maior a variabilidade da medida na população, maior será o erro
numa estimativa por uma amostra aleatória. E vice-versa. Pode-se perceber isto
facilmente imaginado a situação contrária: numa medida que não varie na
população, cuja variância seja nula, qualquer amostra que se tome informará
92

exatamente a mesma medida que há na população – erro zero. Em relação ao


tamanho da amostra, quanto maior ele for, menor será o erro. Por exemplo, se a
amostra for tão grande que tome toda a população, a média da amostra será a
média da população e o erro será nulo.

O erro aleatório é o que poderíamos chamar um erro bom. Bom porque nos alerta
sobre a incerteza inerente ao conhecimento de coisas por meio de alguma
representação simbólica, seja com números ou qualquer outro símbolo. Bom porque
corrige qualquer eventual ingenuidade sobre um conhecimento objetivo e
determinado sobre as coisas. Da natureza nada conhecemos. Dada sua dinâmica,
ela definitivamente não é apreensível aos sentidos. Nem de nós mesmos sabemos:
a imagem de nós mesmos que vemos num espelho não é o que somos, mas o que
fomos – há um tempo decorrido entre o estabelecimento de nossa imagem no
espelho e nossa percepção sensorial. No mínimo, sem contar o tempo gasto nos
processos biológicos de reconhecimento da imagem na retina e sua cognição no
cérebro, um tempo diretamente proporcional ao que a luz leva para viajar da
imagem até nossos olhos. Neste exemplo um tempo muito pequeno, mas na
natureza em geral uma incerteza definitiva. Conhecimento talvez não seja
exatamente saber, mas desconfiar, como sugere Guimarães Rosa na boca de seu
personagem Riobaldo20:

Eu quase que nada não sei. Mas desconfio de muita coisa. O


senhor concedendo, eu digo: para pensar longe, sou cão mestre – o
senhor solte em minha frente uma idéia ligeira, e eu rastreio essa
por fundo de todos os matos, amém!

Há, no entanto, um outro erro. Um erro mau, chamado erro sistemático. Este
erro é já difícil de se avaliar e depende da argúcia do pesquisador em desconfiar e
rastrear uma idéia. É um erro de imperícia ou impropriedade e se refere a erros
do observador, do objeto observado e do instrumento usado para a observação. É
tanto maior quanto menor o conhecimento que o observador tenha do objeto, tanto
maior quanto maior a instabilidade do objeto e tanto maior quanto menos acurado
for o instrumento usado para sua observação. Que nenhum pesquisador pense em
escudar sua ignorância sobre um objeto de estudo com as técnicas estatísticas: elas
só se ocupam dos erros aleatórios.
93

O investigador, em qualquer pesquisa, deve ter familiaridade com o objeto de forma


a contribuir de forma consistente com aquele primeiro componente do
conhecimento científico, a crença. Sem esta familiaridade, o pesquisador pode
acabar analisando hipóteses que, por insensatas, em nada contribuirão com o
conhecimento do objeto. Suponha um investigador que queira conhecer quanto
suco se pode obter de uma laranja: de experiências com grupos de laranjas quer
saber o comportamento de laranja como classe. Sem familiaridade com o objeto
laranja, ele pode se descuidar de diferenças evidentes entre tipos de laranja como,
v.g. laranja pêra ou Bahia. Para realizar um experimento que o informe sobre a
quantidade de suco de uma laranja, ele deverá primeiro ter familiaridade com o
objeto que estuda, v.g. saber que uma laranja pêra é menor que uma Bahia e que
deve ponderar isto em seu experimento. Ao fazer o experimento deve saber
escolher sensatamente a medida que representará o atributo que estuda, dando
conta de características do objeto, v.g. quantidade de suco é melhor avaliada se
medida por volume do que por massa. Ainda, ao fazer o experimento que lhe
sugerirá qual o volume de suco que se deve esperar de uma laranja, o pesquisador
deverá ter cuidado com os instrumentos que usa para observação. Por exemplo
definir como serão espremidas as laranjas – manualmente ou por algum instrumento
mecânico que lhe garanta completa extração de suco –, ou como a quantidade de suco
será medida – um vaso com escala de volume, um recipiente de volume padrão.

Claude Bernard (1813 – 1878), um dos fundadores da moderna medicina e biologia


experimental, era enfático em distinguir experiência como familiaridade e
experiência como experimento, a primeira decorrente de observação repetida e a
segunda como procedimentos que põem a prova alguma hipótese. Em sua obra
clássica21 encontra-se o seguinte trecho:

L'homme qui a perdu la raison, l'aliéné, ne O homem que perdeu a razão, o


s'instruit plus par l'expérience, il ne alienado, não se instrui melhor pelo
raisonne plus expérimentalement. experimento, ele não raciocina mais
L'expérience est donc le privilège de la experimentalmente. O experimento é,
portanto, privilégio da razão. “Ao homem
raison. “A l'homme seul appartient de
apenas cabe verificar seus pensamentos
vérifier ses pensées, de les ordonner ; à e ordená-los, retificá-los, melhorá-los,
l'homme seul appartient de corriger, de aperfeiçoá-los e poder desta forma a
rectifier, d'améliorer, de perfectionner et cada dia torná-los mais hábeis, mais
de pouvoir ainsi tous les jours se rendre sábios e mais felizes. Enfim, pelo homem
plus habile, plus sage et plus heureux. somente existe uma arte, uma arte
94

Pour l'homme seul, enfin, existe un art, un suprema, da qual todas as artes mais
art suprême, dont tous les arts les plus destacadas não são mais que
vantés ne sont que les instruments et instrumentos e procedimentos: a arte da
l'ouvrage : l'art de la raison, le razão, o raciocínio” (Laromiguière,
raisonnement” (Laromiguière, Discours Discours sur l'identité. OEuvres, t. I, p.
sur l'identité. OEuvres, t. I, p. 329.). 329.).

Mais adiante neste mesmo livro, ele fornece exemplo de como um experimento
conduzido à revelia de familiaridade com o objeto pode resultar em conclusões
erradas: Bidder e Schmidt, tendo medido a quantidade de saliva excretada por uma
glândula submaxilar e uma parótida num cão ao longo de um dia, considerando que
o animal tem um par destas glândulas, multiplicaram o resultado por dois.
Continuaram ainda, considerando que, dado que o cão teria ¼ do peso de um
homem, este resultado multiplicado por 4 informaria que um homem excretaria
1,40g de saliva por dia (massa ao invés de volume!). Bernard lembra como erros,
entre outros, o fato de que se deve saber que pares de glândulas tendem a
funcionar alternadamente e não aditivamente, que a secreção de saliva depende de
estímulos e que a secreção não é contínua, mas intermitente. Mais ainda, sobre a
extensão de resultados obtidos com cães para humanos, ele anota:

L'appréciation d'un phénomène par kilos A avaliação dum fenômeno por quilos
du corps de l'animal me paraît tout à fait de corpo de animal me parece
inexacte, quand on y comprend des tissus totalmente inexata quando ai se inclui
de toute nature et étrangers à la production tecidos de natureza diversa e
du phénomène sur lequel on calcule. estranha ao fenômeno avaliado.

Note a beleza da clarividência de Bernard: os procedimentos de cálculo são uma


abstração simbólica cuja analogia com o fenômeno estudado depende da
intervenção inteligente do homem. Os cálculos em si nada revelam, mesmo quando
se recorre à mais bela das medidas, a razão ou o olugos de Aristóteles: a taxa
saliva/ quilos de corpo a despeito de sua natureza nobre de medida derivada, não
fecunda a ignorância de uma proposição inconsistente.

Sobre os possíveis erros na estimativa de características de uma população a partir


da experiência com amostras deve-se, portanto, distinguir erros devidos à
aleatoriedade dos fenômenos e erros devidos a imperícia. Os primeiros referem-se à
precisão da estimativa, sua variabilidade estocástica. Os segundos referem-se a sua
acurácia, sua capacidade de bem representar a realidade. Estimativas de baixa
95

acurácia são ditas viciadas, estimativas de baixa precisão são ditas imprecisas. É
habitual recorrer-se a uma analogia com tiros ao alvo: no centro do alvo está o
suposto valor da população, em torno dele diferentes estimativas que incorrem em
diferentes erros, como sugere a Figura 33 abaixo.

Figura 33 - Acurácia e precisão

w xxxx

y
w y zz y
zz
y
w
w

• A estimativa W não tem acurácia (não se aproxima do alvo) nem precisão (as marcas
são dispersas)
• A estimativa X não tem acurácia (está longe do alvo) embora tenha precisão (pequena
dispersão dos tiros)
• A estimativa Y tem acurácia (aproxima-se do alvo), mas não tem precisão (marcas
dispersas)
• A estimativa Z tem tanto acurácia (acerta o alvo) quanto precisão (pequena dispersão)

A Estatística ocupa-se de avaliar os erros de forma a informar qual a precisão de


uma estimativa, qual a quantidade de incerteza nela presente. A distribuição de
medidas de amostras (medidas de grupo), v.g. a distribuição das médias de amostras,
é chamada distribuição amostral e é esta distribuição que precisamos conhecer
para fazer inferências sobre a população. Se estas amostras são realizadas de forma
aleatória, como já dito, necessariamente seu padrão de distribuição de valores será
herdado do padrão da população. Se numa população uma variável aleatória tem
distribuição normal, então a distribuição amostral também seguirá uma distribuição
normal.

Numa distribuição amostral, os valores de cada amostra constituem uma variável


aleatória Xi independente do universo X e espera-se que tanto a média quanto a
variância de Xi sejam as mesmas do universo X. Esta independência de cada
96

variável aleatória Xi representando uma amostra em particular será válida se o


universo for infinito, porque tirada uma amostra de qualquer tamanho de um
universo infinito nenhuma alteração nele se processa para condicionar o que será
observado numa próxima amostra. No caso de universos finitos, ainda se aplica esta
norma se a cada amostra realizada os elementos forem repostos no universo antes
da retirada da próxima amostra.

Para entendermos por que a média das médias de grupos é a média da população e
a variância dos grupos é a variância da população, devemos nos lembrar das
seguintes propriedades de média e variância:

 a adição (ou subtração) de uma constante aos valores de uma variável resulta
em igual acréscimo (ou decréscimo) do valor da média;
 a adição (ou subtração) de uma constante aos valores de uma variável não
altera sua variância
A média de cada grupo que eventualmente seja menor que a média da população
deve ser resultado de uma composição de grupo com valores igualmente menores,
como que regularmente decrescidos por uma constante. Para médias de grupo
maiores que a média da população, o mesmo deve ser aplicar em acréscimos
regulares. A Figura 34 abaixo sugere graficamente o que se diz sobre o
comportamento de amostras dentro de um dado universo com quatro supostas
amostras de mesmo tamanho. Note ali que cada amostra é sugerida como um
deslocamento de distribuição à direita ou à esquerda e que a média da população
ocupa a posição central, a posição da média das médias dos grupos. Note também,
como sugerido pelas linhas de dupla seta, que as variâncias das amostras são iguais
à variância da população. Supostamente a população tem média = 10 e as
amostras médias = 6, 8, 12, 14 (média 10), todas com desvio padrão igual a
DP = 1,5.
97

Figura 34 - Curvas de distribuição de valores de uma variável aleatória com distribuição


normal numa população e em quatro amostras
0.35

População
Amostra 2 Amostra 3
0.3

Amostra 1 Amostra 4

0.25
Densidade de probabilidade

0.2

0.15

0.1

0.05

0
0 2 4 6 8 10 12 14 16 18 20
Variável aleatória X

Se n grupos são examinados e se as médias de cada grupo são a mesma média do


universo (µ), então para estimar a média da classe temos que

x A1 + x A 2 + ... + x An n µ
Média das médias de amostras = = =µ
n n
pelo que se diz que a média das médias de amostras é um estimador acurado, ou
não viciado ou confiável da média de uma população (acerta o alvo!).

Portanto, a média da distribuição amostral é a média da população. Resta agora


saber qual é a sua variância (atenção! não confunda a propriedade que diz que a variância
das medidas de cada amostra é igual à variância da população com qualquer sugestão de que
também a variância amostral, a variância das médias de amostras, seja igual à variância da
população!). A Figura 35 abaixo mostra uma curva de distribuição de médias
amostrais junto com a curva de distribuição da variável aleatória de nosso exemplo.
Esta figura sugere que amostras com médias de 6 e 14 ocorreriam raramente se
considerássemos inúmeras amostras de mesmo tamanho com vistas a construir a
curva de distribuição de médias amostrais.
98

Figura 35 - Curvas de distribuição de valores de uma variável aleatória de distribuição normal


numa população e de médias de amostras desta população
0.4

0.35

Distribuição de médias de
0.3 amostras da população
Densidade de probabilidade

0.25

0.2

Distribuição de valores
0.15 na população

0.1

0.05

0
0 2 4 6 8 10 12 14 16 18 20
Variável aleatória X

Em relação à estimativa da variância destas médias de amostras, lembremo-nos que


cada amostra representa uma variável aleatória independente com variância igual a
da população e que é propriedade da variância:

 var ( X + Y ) = var( X ) + var(Y ) - se duas variáveis são independentes, a


variância da soma de duas variáveis, v.g. X + Y, é igual à soma das
variâncias de cada variável
Lembremo-nos ainda, no entanto, que a contribuição de cada amostra para
estimativa de parâmetros populacionais é inversamente proporcional ao seu
tamanho. Logo, a variância das médias deve ser uma somatória das variâncias de
cada amostra ponderada pelo inverso do tamanho da amostra. Lembrando ainda a
propriedade da variância que diz

 Se uma constante, v.g. ‘1/c ’, for multiplicada por cada valor de uma variável
X (um conjunto de observações), então a variância ficará multiplicada pelo
quadrado desta constante (as distâncias da média ficarão multiplicadas por
1/c, o quadrado das distâncias por 1/c2):
1
var( X .c ) = var( X ).
c2
Podemos alcançar uma definição de variância para as médias de amostras como
uma somatória de variâncias ponderadas por 1/n2, onde n será o número de
99

amostras ou, no caso de uma amostra apenas, o número de elementos da amostra,


o tamanho da amostra.

1 1 1 1 1 σ2
Varmédias de amostras = ∑ V A1 2
+V A 2 2 + ...V Ai 2 = 2 ∑V A1 +V A2 + ...V Ai = n σ 2
= ,
n n n n n2 n
onde VAi representa a variância da iéssima amostra;
σ2, a variância da população;
n, o tamanho da amostra.
A raiz quadrada desta variância resulta no desvio padrão das médias amostrais, que
leva o nome de erro padrão (da média ou da proporção), com vistas a diferenciar de
desvio padrão e lembrar ainda que se trata de um erro médio (habitual, padrão) que
se espera observar quando se estima a média de uma população a partir de médias
de grupos. Dispondo agora de um desvio padrão de médias, podemos considerar a
padronização das médias (ou proporções quando estivemos usando uma aproximação
normal para variáveis binomiais). Assim como o resíduo padronizado da média de
observações num dado conjunto era o resíduo expresso em desvios padrão:

_
x−x
Zres =
Desvio padrão de X

agora a média de um grupo pode ser expressada como resíduo padronizado da


média populacional:

x−µ x−µ x−µ x−µ


Zres média de grupo = = = =
Erro padrão da média EPM σ2 σ
n
n
onde x barra é média da amostra,
µ é a média da população,
EPM é erro padrão da média da população (EPP seria erro padrão da
proporção)
Com esta transformação conseguimos para as médias de amostra o mesmo que já
havíamos conseguido para medidas de outras variáveis aleatórias: podemos
expressá-las de uma forma genérica onde já não importa a dimensionalidade
original da medida, a unidade passa a ser agora erros padrão da média (ou da
proporção). Se no nosso exemplo (usado nas Figura 34 e Figura 35) supuséssemos
agora que examinássemos grupos de 10 indivíduos, nosso erro padrão da média
seria aproximadamente EPM = 0,47 (o hipotético desvio padrão de 1,5 dividido pela raiz
100

quadrada de 10). Assim poderíamos transformar as medidas 6, 8, 10 (média


populacional), 12 e 14, em Zres = -8,5; -4,3; 0; 4,3; 8,5 (as diferenças de cada valor
original para a média populacional divididas pelo erro padrão da média). A Figura 36
abaixo mostra a curva de distribuição de médias padronizadas, que é igual à Figura
35, exceto pelas unidades do eixo dos x, que passam a resíduos padronizados da
média populacional.

Figura 36 - Curva de distribuição de médias padronizadas pelo Erro Padrão da Média


0.4

0.35

0.3
Densidade de probabilidade

0.25

0.2

0.15

0.1

0.05

0
-10 -8 -6 -4 -2 0 2 4 6 8 10
Zres de médias: valores de médias transformados em resíduo padronizado da média populacional

Com isto alcançamos meios de inferir o comportamento de uma classe a partir do


exame de um grupo: a média estimada para a população será a média do grupo e a
variância estimada para as médias será o EPM. A padronização de medidas de
grupos terá uma aplicação importante quando considerarmos a comparação entre
grupos e entre grupos e classes na parte 2 de nossos estudos.

Escolhendo um grupo para representar uma classe: o processo de


amostragem

Uma amostragem bem feita depende de um bom conhecimento do objeto


estudado. É este cuidado que permitirá que se evite erros sistemáticos. Os
procedimentos e cuidados no processo de definição de um plano amostral devem
envolver os seguintes cuidados:
101

1. A chance de qualquer indivíduo pertencer à amostra deve ser igual à


chance de identificá-lo na população. Em outras palavras, a
distribuição de valores de uma medida na amostra deve ser igual à
sua distribuição na população;

2. Reconhecimento de eventuais divisões da população em níveis


sucessivos de agregação que possam permitir escolhas sucessivas de
subconjuntos cujos elementos possam ser considerados para inclusão
na amostra. Por exemplo, para se estudar escolares pode-se
considerar primeiro a escolha de escolas e salas de aula antes da
escolha de alunos;

3. Reconhecimento de eventuais condicionantes da expressão do


fenômeno estudado, por exemplo, quer se estudar estatura de
pessoas, mas se sabe que homens e mulheres têm comportamento
distinto.

Com relação a respeitar iguais chances para qualquer elemento da população vir a
participar da amostra, deve-se considerar um sorteio aleatório dos indivíduos que
comporão a amostra, então chamada amostra casual simples. Se, por exemplo,
de uma população cujo fenômeno estudado tenha distribuição normal se tomar uma
amostra aleatória, se poderá esperar que na amostra o fenômeno venha a ter este
mesmo comportamento. Uma alternativa a esta abordagem é a amostra
sistemática, que se aplica quando os elementos que constituem a população têm
alguma ordem, v.g. população de pessoas atendidas num ambulatório médico onde
a apresentação de cada um obedece uma ordem no tempo. Neste tipo de amostra,
realiza-se a um sorteio aleatório de um número de ordem e depois se passa a uma
observação sistemática por um intervalo regular que se preste a fornecer no fim do
processo um número de elementos que se julgue adequado para compor a
amostra. Por exemplo, suponha-se uma população de 100 pacientes de um dado
serviço onde cada um é regularmente avaliado mensalmente e do qual se queira
conhecer a satisfação dos usuários. Estabelecendo que se possa formar este juízo
ouvindo pelo menos 20 pessoas aleatoriamente escolhidas, dever-se-ia tomar uma
pessoa a cada cinco. Para se estabelecer com quem começar, se procede a um
102

sorteio aleatório entre os cinco primeiros (com auxílio de computador é fácil gerar
números aleatórios, v.g. no Excel o comando seria Aleatorioentre(1,5)). Daí se passa a
entrevistar sistematicamente cada 5° indivíduo a se apresentar (1:5 ou os 20:100 que
se busca). Por exemplo, se por sorteio o primeiro a ser examinado for o 3° do
primeiro grupo de 5 pessoas, depois dele será examinado o 8°, o 13º, etc. até o
98º, que será o 20° indivíduo na amostra. Ao fim de um mês se terá completado
uma amostra com as 20 pessoas que se queria. Desde que se acredite que nada
relativo ao fenômeno estudado interfira na ordem de apresentação das pessoas (a
ordem é também aleatória!), este método é tão efetivo quando o da amostra casual
simples.

Divisões do espaço amostral são, por exemplo, diferentes regiões ou diferentes


municípios de um país a ser estudado. Se for razoável supor que o fenômeno
estudado não experimente variações nestes subconjuntos, pode-se considerar um
sorteio aleatório sucessivo de diferentes níveis de agregação das pessoas, que
seriam o objeto de estudo. Este processo de amostragem é chamado de
Amostragem por Estágios Múltiplos. Se se conhecem as populações por
municípios, estados e regiões, a composição da amostra pode respeitar suas
grandezas para que se alcance uma amostra com igual representação proporcional
para regiões, estados e municípios. A vantagem desta estratégia em amostragem é
de natureza operacional e de custos, v.g. é mais fácil e mais barato estudar
apenas os municípios sorteados do que eventualmente ter que visitá-los todos ou
quase todos num sorteio aleatório simples de pessoas. A desvantagem é que as
estimativas que são assim obtidas são menos precisas do que aquelas obtidas
por uma amostra aleatória simples do mesmo tamanho. Quando no último estágio
de amostragem se incluem todos os indivíduos no estudo, este processo de
amostragem é chamado por conglomerados: sorteia-se conglomerados (clusters),
v.g. quarteirões, dentro dos quais todos os indivíduos são estudados. Se entre os
estágios o fenômeno tiver comportamento distinto, diferentes variâncias, isto
precisará ser considerado por um processo de estratificação de efeitos, como se
passa a comentar em seguida.
103

Assim como vimos que determinadas condições podem condicionar a probabilidade


de ocorrência de um evento (probabilidade condicional), na amostragem podemos ter
condições que condicionam a ocorrência dos eventos estudados. Por exemplo, sexo
é um fator condicionante da ocorrência de doenças já que dependendo do sexo não
é raro que se tenha prevalências maiores ou menores na população. A amostragem
que leva em conta eventuais fatores condicionantes da ocorrência do fenômeno
estudado é dita estratificada, sendo diferentes estratos constituídos conforme a
definição destes condicionantes, v.g. sexo, faixa etária, etc.

Como as ocorrências são distintas em cada estrato, o processo de amostragem


deve ponderar a participação de cada estrato de forma proporcional à variância de
suas ocorrências: estratos de maior variância demandam maior participação na
amostra. Da mesma forma, a participação de um estrato numa amostra deve ser
proporcional ao seu tamanho na população. A vantagem da estratificação de
amostras é a obtenção de estimativas mais precisas do que com a amostra
aleatória simples de mesmo tamanho.

Amostragem é um capítulo razoavelmente desenvolvido e sofisticado da Estatística


e aqui apenas registramos seus conceitos mais gerais. Interessam-se por técnicas
amostrais em Bioestatística principalmente os pesquisadores envolvidos em
inquéritos populacionais. Para o leitor interessado recomenda-se o livro da Profa.
Nilza Nunes Silva (Amostragem probabilística. São Paulo: EDUSP, 1998 - ISBN:
8531404231) como um texto informativo e de leitura agradável.

Tamanho de amostra

Calcular o tamanho de uma amostra é parte do planejamento de uma pesquisa. Ao


contrário da idéia fantasiosa que se cultiva, observar um determinado número de
indivíduos numa amostra em nada credencia seus resultados. Eventualmente, pode
mesmo ocorrer o contrário: uma amostra muito grande tende a fazer parecer
importantes grandezas cujo porte apenas se deve à extensão das observações.

Como já dito, à Estatística interessa avaliar o erro que se pode cometer numa
previsão. Nestes cálculos o número de observações é levado em conta e, daí, dada
uma relação qualquer onde tamanho da amostra seja uma variável, sempre se pode
104

por operações algébricas tornar o número uma variável dependente, aquela que é
estimada. Tomemos como exemplo a estimativa da proporção de uma doença na
população. Chamemos de p a proporção na amostra e π a proporção na população.
Logo,
p – π = erro cometido na estimativa da proporção populacional através da
informação da amostra e esta diferença padronizada deve ser:

p −π π (1 − π )
Zres = , onde é o erro padrão da proporção e p – π é o erro
π (1 − π ) n
n cometido na estimativa

Daí podemos separar n e estabelecer que ele deva valer:

Zres 2π (1 − π )
n=
erro 2
Nesta fórmula, o Zres se pode arbitrar segundo o juízo que se fará para grandezas
na análise da amostra, v.g. se vamos considerar normal os 95% que se reúnem em
torno da média, sabemos que o Zres corresponde ao intervalo entre Zres = -1,96 e
Zres = +1,96. A proporção na população (π), se desconhecida pode ser arbitrada
como uma expectativa do pesquisador – geralmente ele se vale de registros de
estatísticas oficiais ou estudos prévios de outros autores que encontra na literatura
especializada. O erro pode ser arbitrado como uma tolerância do pesquisador, v.g.
se estuda Hipertensão Arterial e espera uma prevalência de 15%, pode arbitrar que
tolera errar 2% a mais ou 2% a menos.

Como você vê praticamente todos os parâmetros a serem considerados nesta


estimativa de tamanho de amostra incluem arbitrariedade do pesquisador. Por isso,
se suas premissas não forem saudáveis (boas estimativas de Zres, π e erro), sua
estimativa de tamanho de amostra para avaliação de proporção de doença pode
resultar totalmente imprópria. Dada alguma licença ética ao pesquisador, ele acaba
podendo definir qualquer número como tamanho adequado de amostra...

Neste exemplo nos referimos a uma estimativa de proporção de doentes, mas para
qualquer desenho de estudo, v.g. estimativa de efeito de um tratamento, a hipótese
estudada pode ser formalizada e com processamento algébrico pode-se chegar a
uma fórmula para cálculo de tamanho de amostra. Para o escopo de nosso estudo
105

será satisfatório se você lembrar que a definição de um plano amostral depende


muito de considerações sobre a natureza do objeto estudado em definições sobre
estágios e estratificações e que cálculo de tamanho de amostra é apenas um
procedimento logístico da tarefa de amostragem.
156

REFERÊNCIAS

1
Plato’s Thætetus.Translated by Benjamin Jowett. The Project Gutenberg/ Carnegie-Mellon University.
http://www.gutenberg.org/etext/1726
2
Aristotle. Topics. translated by W. A. Pickard-Cambridge. Project Gutenberg Consortia Center's.
http://www.Gutenberg.us
3
Eco U. Kant e o ornitorrinco. S. Paulo: Record, 1998
4
Da Costa NCA. O conhecimento científico. São Paulo: Discurso Editorial, 1997.
5
Eco U. op. cit..
6
Polo M. As viagens de Marco Pólo. Tradução de Carlos Heitor Cony e Lenira Alcure. Rio de Janeiro: Ediouro,
2001: página 195.
7
Poincaré, H. Science and hypothesis. New York: Dover Publications, 1952: p. xxiv.
8
Descartes R. Discours de la méthode pour bien conduire sa raison, et chercher la verité dans les sciences.(1637).
Association de Bibliophiles Universels, 1999: http://abu.cnam.fr/cgi-bin/donner_html?methode3 (.....je pense,
donc je suis...)
9
Aristotle. Metaphysics. Book V, item 7. University of Adelaide, Australia: eBooks@Adelaide, 2004.
http://etext.library.adelaide.edu.au/a/aristotle/metaphysics/metaphysics.zip
10
Garbi GG. A rainha das ciências. São Paulo: Editora Livraria da Física, 2006: 95.
11
Carroll L. The annotated Alice – Introduction and notes by Martin Gardner. London: W.W. Norton & Company,
2000: página 213.
12
Campbell NR. Measurement. In: Newman J. The world of mathematics. Vol. 3. Mineola, NY: Dove
Publications, 2000: 1797-1831.
13
João Cabral de Melo Neto. Morte e vida severina. Rio de Janeiro: Nova Fronteira, 1996. pp 29.
14
Machado de Assis. Memórias póstumas de Brás Cubas. Coita, São Paulo: Ateliê Editorial Ltda, 1998. pp. 136-7.
15
Armitage P, Berry G. Statistical methods in medical research. Oxford, UK, Blackwell Scientific Publications,
1987. página 86.
16
Hacking I. Na intrroduction to probability and inductive logic. Cambridge: Cambridge University Press; 2001. p.
127-39.
17
Xavier University, EEUU: http://cerebro.xu.edu/math/Sources/Laplace/ecole.pdf, em maio 2007.
18
Bernoulli J. The Law of Large Numbers. In:Newman J. The world of mathematics. Volume 3. p. 1452-5.
19
Stigler SM. Studies in the History of Probability and Statistics. XXXIII Cauchy and the Witch of Agnesi: An
Historical Note on the Cauchy Distribution. Biometrika 1974; 61(2): 375-80.
20
João Guimarães Rosa. Grande sertão: veredas. 19ª Edição. 9ª impressão. Rio de Janeiro: Ed. Nova Fronteira;
2001. p. 31.
21
Claude Bernard. Introduction à l’étude de la médecine expérimentale (1865). Université du Québec à
Chicoutimi. http://www.uqac.uquebec.ca/zone30/-Classiques_des_sciences_sociales/index.html, maio 2007, p.
20.
22
Fisher RA. Statistical methods for research workers. Edinburgh: Oliver and Boyd, 1925.
23
Neyman J, Pearson E. On the problem of the most efficient tests of statistical hypotheses. Philos Trans Roy Soc
A 1933;231:289-337.
24
Pagano M, Gauvreau K. Principles of biostatistics. 2nd Edition. Pacifi Grove, CA, USA: Duxbury, Thomson
Learning: 2000. p. 239-43.
25
Student. The probable error of a mean. Biometrika 1908; 6 (1): 1–25
26
McNemar Q. Note on the sampling error of the difference between correlated proportions or percentages.
Psychometrika 1947; 17:153–157.
157

27
Bonferroni, C. E. "Il calcolo delle assicurazioni su gruppi di teste." In Studi in Onore del Professore Salvatore
Ortu Carboni. Rome: Italy, pp. 13-60, 1935.