Escolar Documentos
Profissional Documentos
Cultura Documentos
BIOESTATÍSTICA
RELAÇÕES DE IDENTIDADE: PARTE 1 – A MEDIDA COMO PREDICADO DAS COISAS
As coisas e seus predicados ................................................................................................. 2
Medida, número e numeral: a representação simbólica das coisas e seus predicados ......... 8
Os tipos de medidas............................................................................................................ 10
Transformação de medidas................................................................................................. 13
A coisa como um conjunto de coisas ................................................................................ 16
Edição de medidas numa base de dados............................................................................. 20
Descrevendo um conjunto de medidas ............................................................................... 23
Medidas de ocorrência de eventos...................................................................................... 32
Intervalos no espaço quantitativo discreto e no quantitativo contínuo.......................... 42
Medidas de conjuntos de coisas.......................................................................................... 45
Moda............................................................................................................................... 47
Mediana .......................................................................................................................... 49
Outras medidas de posição ............................................................................................ 50
Média .............................................................................................................................. 51
Medidas de dispersão de coisas num conjunto................................................................... 60
Medidas relativas de dispersão de grupos e desvio de indivíduos................................. 67
A coisa como uma classe de coisas................................................................................... 69
De freqüências para probabilidades.................................................................................... 73
De medidas resumo para parâmetros de funções................................................................ 79
Reconhecendo classes pela experiência com conjuntos de coisas............................... 90
Escolhendo um grupo para representar uma classe: o processo de amostragem.............. 100
Tamanho de amostra .................................................................................................... 103
A Estatística é uma disciplina das ciências formais (despidas de objeto, tratam apenas da
estrutura conceitual, lógica e epistemológica do conhecimento) à qual diferentes ciências
empíricas (com objeto definido) recorrem para melhor conhecer as coisas de seu
interesse. O prefixo ‘bio’ para Bioestatística busca apenas dar-lhe o sentido de
aplicada às ciências biológicas e da saúde, mas nela nada se encontra de
conceitualmente diferente.
Não só o conhecimento, mas a própria existência das coisas tem sido um desafio
constante para o pensamento humano, uma preocupação presente nas reflexões de
filósofos desde a antiguidade até os dias atuais. Sócrates, em Thætetus1, da
seguinte forma lança dúvida sobre a certeza do ser:
“How can you determine whether at this “Como você pode determinar se neste
moment we are sleeping, and all our momento estamos dormindo e todos os
thoughts are a dream; or whether we are nossos pensamentos são sonhos; ou se
awake, and talking to one another in the estamos acordados e conversando um
waking state?” com outro em estado de vigília?”
Aristóteles2 entendia que uma coisa era reconhecida por uma definição que
traduzisse sua essência. Por predicado, ele entendia a propriedade que, embora
sem dizer respeito à essência da coisa, fosse atributo particular da coisa e
conversível a ela mesma por relação biunívoca. Em suas palavras:
“... o Objeto Dinâmico permanece sempre como uma Coisa em Si, sempre
presente e nunca apreensível, a não ser, através da semiose.”
e redes conceituais, que edificamos” e que o que nos permite reconhecer uma coisa
como particular é um ” ‘quid’ que se conserva sem modificação” por mais que a coisa
*
Metafísica é o ramo da filosofia que estuda a natureza e a essência da existência das coisas (ontologia).
4
nadadeiras e vive n’água, mas não é peixe... Ao longo de seu livro, para mostrar a
dificuldade que se tem de conhecer alguma coisa apenas pelo nome, ele lembra a
dificuldade de Marco Polo para contar que havia conhecido o rinoceronte quando de
sua passagem por Basma (hoje Sumatra). Numa tradução recente, o trecho é o
seguinte:
A afirmação de existência tipo “é”, “existe”, “há”, que pode ser resumida em “ser”,
quer como substantivo ou verbo, não é uma expressão de conhecimento, mas
apenas uma proposição, v.g. ‘João existe’, embora uma proposição, não revela
conhecimento – pode-se afirmar isto sem se conhecer João ou tampouco se de fato
ele existe.
O algo com que relacionamos a coisa para conhecê-la pode ser um predicado desta
coisa ou uma outra coisa. Por exemplo, ‘João é humano’ estabelece uma relação
entre uma coisa (João) e um atributo (humano). As relações que envolvem uma
única coisa são chamadas relações monádicas (v.g. João é humano), quando duas
coisas são envolvidas (v.g. João é maior que José) são chamadas diádicas, quando
três coisas estão envolvidas (v.g. João senta-se entre Maria e José) são chamadas
triádicas, e assim por diante, generalizando-se em poliádicas as relações
envolvendo várias coisas.
x = João
R = ser João é humano
y = humano
6
x = João
R = ser maior João é maior que José
y = José
x = João
R = ser filho João é filho de Maria
y = Maria
que embora sejam distintas, têm uma mesma forma, um mesmo esqueleto.
Em lógica, distingue-se uma afirmação de uma proposição pelo fato de esta última
ser uma afirmação passível de verificação de verdade. Dizer que uma coisa é com
possibilidade de aferição de verdade é um princípio aristotélico de reconhecimento
de uma coisa:
para a língua portuguesa é uma proposição válida, que será verdadeira se de fato
Ana for jovem e bonita. Já a afirmação
não é uma proposição válida, porque seu enunciado não segue as regras da
ortografia e gramática da língua portuguesa. Com a primeira posso conhecer Ana
por seus predicados e pelos predicados posso reconhecer, senão Ana diretamente,
coisas assemelhadas a ela (conversibilidade entre coisa e predicado). O conhecimento
científico preocupa-se com universais e não com particulares – daí que, ainda que
se possa disputar a biunivocidade entre Ana e seus predicados, à ciência interessa
saber as coisas que são jovens e belas. Estuda-se atributos para se conhecer as
coisas.
Podemos ver a relação de existência como uma proposição envolvendo (1) uma
coisa como objeto, (2) outra como predicado e (3) uma relação entre elas (cópula,
em lógica) da forma de igualdade (=, entre duas coisas particulares), ou de
pertencimento (∈, entre uma coisa e um conjunto ou uma classe), ou de inclusão (⊂,
entre dois grupos ou entre um grupo e uma classe). Se distinguirmos que a proposição
“Ana é jovem e bonita” pode ser decomposta em duas elementares (fórmulas
atômicas)
“Ana = jovem” e
“Ana = bonita”
“bonita = jovem”
Estamos reconhecendo uma pessoa, Ana, pelos seus predicados, jovem e bonita.
Isto deve ser distinguido da frase escrita em português “Ana é jovem e bonita”, que
usa caracteres do alfabeto latino moderno em palavras da língua portuguesa: a
mesma coisa, Ana, em sendo reconhecida por tais atributos, poderia ainda ser
representada em outra língua, v.g. o inglês:
Ana is young and beautiful
uma frase agora com o alfabeto cirílico e com palavras da língua russa, mas
conservando a mesma informação de caracterização de Ana por seus atributos.
†
Se tomará número com conceito natural, compreendido sem explicação. Russel o define: “o número de uma
classe é a classe de todas as classes que são similares a ela” – Russel B. Introdução à filosofia matemática.
Rio de Janeiro: Jorge Zahar Ed., 2007. pp. 36.
9
A própria Ana poderia ainda também ser identificada por um número, v.g. o Rg de
sua Carteira de Identidade. O símbolo de igualdade está tomando o lugar do verbo
e poderia tanto ser substituído por outros operadores quanto simplesmente ser
ignorado, da mesma forma que do português para o inglês ele passa de “é” para
“is” e no russo ele é ignorado. Em matemática, teorias como a Teoria dos Conjuntos
ou a Teoria das Funções podem ser vistas como diferentes línguas que usam os
numerais e outros símbolos de operação (v.g. ∈,∉, ⊂, ⊃, →, etc. ) e de modificação
Você deve estar se perguntando se pode fazer com que os números assumam o
significado que julgue conveniente... Vamos recorrer ao Professor Charles Lutwidge
Dodgson, lógico e matemático na Universidade de Oxford, no século XIX. Sob o
pseudônimo de Lewis Carroll, ele escreveu “Alice no País das Maravilhas” (1865),
10
Os tipos de medidas
1º Aquelas cujas categorias não têm relação uma com a outra e que são
chamadas qualitativas nominais (nomes, rótulos – com estes atributos as
coisas podem ser avaliadas apenas como iguais ou diferentes: =,≠), e
2º Aquelas cujas categorias têm alguma relação uma com a outra e que são
chamadas qualitativas ordinais (hierarquia do tipo 1º, 2º, etc – com estes
atributos as coisas podem ser avaliadas como iguais, diferentes, maiores ou menores:
=,≠,<,>)
• Aquelas que designam quantidade ou intensidade de predicados e entre estas
1º Aquelas cujos predicados são quânticos, que variam por unidades definidas,
e que são chamadas quantitativas discretas (multitude: contagens, como em
idade por anos completos – com estes predicados as coisas podem ser comparadas
como iguais, diferentes, maiores ou menores [=,≠,<,>] até o limite que a tal unidade
permita distinção) e
2º Aquelas que são contínuas: a medida derivada é uma fração, por exemplo,
numa medida de colesterol total de 200 mg/dl onde o LDL (Low-Density
Lipoprotein – fração do colesterol responsável por doenças cardiovasculares) seja
de 100mg/dl, têm-se uma fração de 0,5 de LDL.
§
Aristóteles dava especial ênfase a este tipo de medida: “There are indeed passages in which even Empedocles
hits upon this, and following the guidance of fact, finds himself constrained to speak of the ratio (olugos) as
constituting the essence and real nature of things. Such, for instance, is the case when he explains what is a
bone. For he does not merely describe its material, and say it is this one element, or those two or three
elements, or a compound of all the elements, but states the ratio (olugos) of their combination. As with a bone,
so manifestly is it with the flesh and all other similar parts.” – Aristotle. On the Parts of Animals. Written 350
B.C.E. Book I. Translated by William Ogle. Part 1.
13
Transformação de medidas
y = − log x , onde X é um conjunto de valores quaisquer entre 100 a 10-14 mol/dm3 (valores x)
e onde Y é um conjunto de valores entre 0 e 14 (valores y).
x
y= , onde X é o conjunto de valores em horas, de zero até as 24, que se pode ter ao
24
longo do dia e Y é o conjunto de valores em dias que um horário pode assumir ao longo do
dia.
Note que dos diferentes tipos de medida (ou, em outras palavras, tipos de predicados)
que podemos obter por medida direta (observação) ou por transformação, da
medida qualitativa nominal até as medidas derivadas temos uma crescente
oportunidade de melhor conhecer as coisas por seus predicados. A forma de
representação mais versátil para um atributo é a medida quantitativa contínua, de
cuja transformação pode-se obter desde medidas qualitativas nominais
(categorização) até medidas derivadas (razões). De fato, ainda que o nome possa ser
um primeiro predicado a distinguir uma coisa entre outras (uma proposição do tipo
‘Este é João’, onde João é um predicado de uma coisa apontada), o nome sozinho, como
já discutimos com Umberto Eco, não dá a conhecer a coisa**. Quanto melhor se
puder definir uma coisa por diferentes predicados, melhor ela será conhecida, mais
**
É famoso o poema De contemptu mundi (Séc XII) de Bernard de Morlay, onde ele anota: - “stat
rosa pristina nomine, nomina nuda tenemus” (rosa sem a rosa que este nome denota é apenas um nome).
16
específica será a relação de identidade. João Cabral de Melo Neto, no seu “Morte e
Vida Severina”13, nos dá um exemplo disto:
– O meu nome é Severino, Mais isso ainda diz pouco: lá da serra da Costela,
como não tenho outro de pia. há muitos na freguesia, limites da Paraíba.
Como há muitos Severinos, por causa de um coronel Mas isso ainda diz pouco:
que é santo de romaria, que se chamou Zacarias se ao menos mais cinco havia
deram então de me chamar e que foi o mais antigo com nome de Severino
Severino de Maria; senhor desta sesmaria. filhos de tantas Marias
como há muitos Severinos Como então dizer quem falo mulheres de outros tantos,
com mães chamadas Maria, ora a Vossas Senhorias? já finados, Zacarias,
fiquei sendo o da Maria Vejamos: é o Severino vivendo na mesma serra
do finado Zacarias. da Maria do Zacarias, magra e ossuda em que eu vivia.
Até aqui temos usado a palavra ‘coisa’ para distinguir indivíduos, mas é intuitivo que
um grupo de coisas seja igualmente uma coisa, como sugerem os substantivos
coletivos: peixe é uma coisa, mas cardume também é uma coisa. Para descrever
uma coisa particular a partir do conceito de que a medida seja o predicado da coisa,
propusemos considerar uma relação genérica do tipo “X é Y” e ainda considerar
que, dado que cada coisa pode ter muitos predicados cuja especificação melhor a
dá a conhecer, poderíamos ter vários Y, como em “Ana é jovem e bonita”, que tem
a forma “X é Y, Z”. Quando para estas medidas (estes predicados da coisa) usamos
uma representação numérica, numerais substituem as letras e o sentido é dado
pelos números, quer para indicar qualidades ou quantidades.
Dada uma coisa que seja um conjunto de outras coisas particulares, seu
reconhecimento será feito pela observação de cada coisa particular segundo seus
atributos. Algo como
Relação genérica X Y Z
Relação para o 1° indivíduo x1 y1 z1
Relação para o 2° indivíduo x2 y2 z2
...
Relação para o néssimo indivíduo xn yn zn
17
Agora, para o conjunto de todos os indivíduos (X ={x1, x2, ... xn}) correspondem
conjuntos de todas as medidas (Y ={y1, y2, ... yn}, Z ={z1, z2, ... zn}). Estas medidas
variam conforme cada indivíduo de forma a identificá-lo (xi, os valores que o conjunto
X pode assumir, i denotando o iéssimo indivíduo) e descrevê-lo (yi e zi, os valores que os
conjuntos Y e Z assumem para o iéssimo indivíduo). Por isso, estes conjuntos (X,Y,Z)
serão chamados variáveis. Para fazermos os registros de um grupo de coisas,
precisamos de antemão definir quais são as variáveis (as medidas) que usaremos, de
que tipo elas são (segundo o tipo de medida) e qual o significado de seus valores
numéricos quando se tratar de medidas qualitativas (nas quantitativas os valores
numéricos representam a intensidade do atributo denotado pela medida). Em outras
palavras, temos que definir um dicionário para nossos símbolos de forma que
possamos interpretá-los.
As regras de denotação têm que estar presentes no dicionário das variáveis, v.g.
1 denota humano. Já as regras de conotação são geralmente emprestadas do
18
Para fazer as medidas, poderemos definir algumas regras de denotação para uma
apropriada conotação:
Com as mesmas regras poderíamos agora examinar outras pessoas e obter, por
exemplo:
• José tem 25 anos, 75,0 kg, 1,68 m é ativo e não tem doença.
• Maria tem 22 anos, 62,3 kg, 1,72 m, é sedentária e tem Doença
Cerebrovascular.
v1 v2 v3 v4 v5 v6
1 27 80,5 1,78 0 1
2 25 75 1,68 1 0
3 22 62,3 1,72 0 3
20
onde cada linha corresponde a uma das proposições acima sobre João, José e
Maria.
Temos agora definido o que seja uma base de dados: um conjunto seqüencial de
linhas com números ordenados de forma que cada posição represente o valor de
uma variável conforme a observação de um indivíduo (linha). Como já vimos que as
medidas podem ser transformadas em outras para ajudar o entendimento, vemos
que definida uma base de dados temos um grande potencial de informação para
conhecer um conjunto de coisas.
de idade (V2) através novamente de funções lógicas como: se v2<7, então v7=1;
se 7≤v2<12, então v7=2, se 12≤v2<18, então v7=3, se 18≤v2<25, então v7=4; e
assim por diante, acrescentando em nosso dicionário uma nova variável, a V7:
y = 3,28x
Além da fórmula da função, você também pode ter um gráfico da função que, no
nosso exemplo, é o seguinte:
7
6
Estatura em pés
5
(y=imagem)
4
3
2
1
0
0 0,5 1 1,5 2 2,5
Estatura em m (x=domínio)
22
A obesidade é avaliada pela razão massa (em kg) / área corporal (em m2), sendo a
área definida como se as pessoas fossem um quadrado com lados iguais a sua
estatura. Criamos então uma nova variável, V8 = V3 / (V4)2, uma medida derivada
que expressa concentração de massa. Essa medida informa a real essência da coisa
(o ‘olugos’ a que se refere Aristóteles!) e, de fato, com ela é que conseguimos concluir
se uma pessoa é gorda ou magra. Como este juízo é qualitativo, esta razão,
chamada IMC – Índice de Massa Corpórea, tem intervalos com diferentes
significados: IMC < 20 sugere desnutrição, IMC entre 20 e 25 sugere peso normal,
IMC entre 25 e 30 indica sobrepeso e IMC > 30 caracteriza obesidade. Daí, tendo
derivado a medida IMC, podemos ainda categorizá-la usando estas regras. Nossa
23
base de dados seria, então, acrescida de duas novas variáveis, cujos significados
acrescentaríamos a nosso dicionário:
Depois de ter recolhido todas as informações que deseja, você terá uma longa lista,
semelhante à Tabela 1, porém geralmente muito maior. Para sintetizar estas
informações você poderá recorrer a tabelas e gráficos de freqüências: uma vez
que as variáveis têm valores que se repetem, você pode organizar sua informação
em contagens de ocorrências de valores, examinando sua distribuição. Suponha
que, a título de exemplo, você tenha uma base de dados ainda pequena, com 10
observações como as sugeridas abaixo:
Para as variáveis qualitativas, que têm um número finito de categorias, você pode
fazer a contagem das categorias diretamente na base de dados impressa em papel,
fazendo uma marca em cada registro conforme você vai contando. Outra alternativa
é fazer uma lista das categorias e ir marcando um risquinho na frente para cada
observação de ocorrência da categoria – você pode usar os risquinhos para fazer
quadradinhos com uma barra diagonal, de forma que cada quadradinho completo
represente 5 observações, o que facilita a contagem final. Por exemplo, no caso de
sexo na Tabela 2:
• Categoria 1: - - 3 observações
• Categoria 2: - 7 observações
Estabelecida a contagem, você arranja a informação numa tabela, como abaixo se
organiza a informação sobre sexo na base de dados da Tabela 2:
Sexo n %
Masculino 3 30,0%
Feminino 7 70,0%
Total 10 100,0%
0
Masculino Feminino
Sexo
Tanto um gráfico quanto uma tabela devem procurar usar títulos e rótulos com
cuidado para fazê-los auto-suficientes, compreensíveis apenas com o que registram
sem demandar que se recorra a um texto explicativo. Quando algum detalhe
precise de explicação, use uma nota de rodapé: é comum que quando as
informações tratadas no gráfico ou tabela tenham origem em dados secundários
(quer dizer, não propriamente de quem fez a tabela) se coloque uma nota de rodapé
indicando a fonte dos dados. Este já não é um procedimento estético, mas ético.
Tabela 4 - Tabela de freqüências de idade para cada valor observado na base de dados da
Tabela 2
Valor de idade n %
29 1 10,0%
31 1 10,0%
41 2 20,0%
44 1 10,0%
45 1 10,0%
46 2 20,0%
47 1 10,0%
26
Valor de idade n %
51 1 10,0%
Total 10 100,0%
que é quase uma reprodução da base de dados porque apenas dois valores (41 e
46) se repetem. Com o que já discutimos em transformação de medidas, parece
sensato que para registrar ocorrências de uma variável quantitativa seja melhor
arbitramos intervalos e aferirmos a quantidade de ocorrências em cada intervalo,
intervalos que se comportam como categorias da medida quantitativa transformada.
Estes intervalos serão as unidades pelas quais expressaremos as ocorrências e
podem ser arbitrados discricionariamente, embora também se possa a recorrer à
fórmula de Sturges [k = 1 + 3,322(log10 n)] para definir quantos intervalos
regulares se deva ter. Esta fórmula, no entanto, com freqüência resulta em
intervalos estranhos que, ao invés de ajudar na informação, complicam-na.
Daí que a melhor forma é você examinar qual o menor e o maior valor observado e
decidir que intervalo pode ajudá-lo(a) na tarefa de sintetizar a informação. Tanto
para poder reconhecer os valores menor e maior quanto para fazer as contagens
por intervalos, você deve organizar os dados em ordem crescente, sob pena
de, num grande número de registros, fazer contagens erradas. No nosso exemplo
da Tabela 2, a idade ordenada de forma crescente resulta em:
Notando agora que os valores de idade variam entre 29 e 51, podemos considerar,
por exemplo, intervalos de 5 unidades entre 25 e 55 anos, o que incluiria todas as
nossas observações. A tabela de freqüências resultante seria:
IDADE* N %
27
IDADE* N %
25|-- 30 1 10%
30|-- 35 1 10%
35|-- 40 0 0%
40|-- 45 3 30%
45|-- 50 4 40%
50|-- 55 1 10%
Total 10 100%
* o lado fechado da barra indica inclusão do valor que inicia ( |-- ) ou
finaliza um intervalo ( --| ). Traços sem barras, como “--” indicam que o
intervalo é aberto: nenhum dos extremos é incluído.
Esta tabela mostra o total de ocorrências em cada intervalo arbitrado, ou seja a
contagem indicada na coluna ‘N’ mede quantas ocorrências se tem por cada
intervalo de 5 anos. O gráfico usado é o histograma, que considera a continuidade
entre os valores da medida, de forma que as barras são justapostas (formando um
tecido – histograma), cada uma com uma área que representa as ocorrências no
intervalo:
3
Freqüência absoluta (n)
0
25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55
Idade
Tanto com a tabela quanto com o gráfico, temos descrições que nos permitem
examinar distribuição de freqüências, reconhecendo onde as ocorrências se
concentram. Na Figura 3 acima, notamos uma concentração de ocorrências nos
28
Com intervalos regulares de 5 anos como fizemos, a freqüência anotada no eixo das
ordenadas informa diretamente o número de casos no intervalo. No entanto, com
intervalos regulares de “qüinqüênios de idade” ficamos com o intervalo entre 35 e
40 vazio, pois não há ocorrências destes valores.
††
Para se conhecer quantas ocorrências se acumulam num dado intervalo precisamos multiplicar a densidade
de ocorrência (n/unidade do intervalo) pelo número de unidades que tenha o intervalo considerado. Numa
tabela com intervalos regulares, como cada intervalo tem exatamente uma unidade de intervalo, o valor
(número) acumulado no intervalo é o mesmo da densidade de ocorrência. Compare a densidade de ocorrência
com a velocidade (densidade de espaço numa unidade de tempo) de um carro percorrendo dois trechos de uma
viagem, o primeiro a 100k/h por ½ hora e o segundo a 50 km./h por 1 hora: ambos os trechos medem 50 Km –
100 x ½ no primeiro e 50 x 1, no segundo. Quando o intervalo de tempo é igual ao denominador da velocidade
(1 hora), o espaço percorrido tem o mesmo valor da velocidade.
29
IDADE N %
25|-- 30 1 10%
30|-- 40 1 10%
40|-- 45 3 30%
45|-- 50 4 40%
50|-- 55 1 10%
Total 10 100%
Note que nesta tabela, se considerarmos os intervalos como categorias de Faixa
Etária, uma codificação 1,2,3,4,5 não seria sensata porque a Faixa Etária 30 |-- 40
tem o dobro do tamanho das outras. Melhor seria 1, 2, 4, 5, 6 já que o segundo
intervalo contém duas unidades de qüinqüênio. O histograma deve dar conta disto
porque enquanto os outros intervalos são ocorrências por 5 anos, este intervalo
indica ocorrências por 10 anos, ou seja, duas unidades de quinqüênio. A densidade
de ocorrência para o intervalo ‘30|--40 anos’ é 1 por 2 qüinqüênios, a unidade de
idade que estamos usando no histograma. O ‘n’, que representa o número total de
ocorrências no intervalo, tem que ser interpretado como o produto do tamanho do
intervalo pela densidade de ocorrência, como sugere a tabela abaixo:
0
25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55
Idade
Note que a barra do intervalo entre 30 e 40 anos tem uma área de 1 (0,5 da
ordenada X 2 intervalos de 5 anos da abscissa): guarde como regra que alargamentos
da medida na abscissa implicam em reduções proporcionais na ordenada.
0
10 20 30 40 50 60 70
Idade em anos completos
*a sombra de fundo sugere o histograma correspondente
Note que quando fazemos um gráfico estamos representando uma função (como
fizemos na Figura 1). No caso do polígono acima, uma função como:
0, se 10 ≤ idade < 20
1, se 20 ≤ idade < 30
1, se 30 ≤ idade < 40
Y=
7, se 40 ≤ idade < 50
1, se 50 ≤ idade < 60
0, se 60 ≤ idade < 70
6
Freqüência absoluta (n)
0
10 20 30 40 50 60 70
Idade em anos completos
32
{0,1,2, ... 1000 ...}), mas algo que vai de zero a pouco mais de cem: eventos
33
possíveis para idade de pessoas. O que está representado na abscissa é uma parte
do domínio dos eventos e o que está representado pelas barras é o fenômeno
observado: note que os valores do intervalo de 35 a 40, embora pertençam ao
espaço dos eventos, não são fenômenos observados.
10
8
absoluta
acumulada
6
ência
Freqüência
4
Freqü
20 30 40 50 60
Nesta tabela vê-se o número de observações acumulado desde o menor valor até
cada intervalo alcançado, progressivamente até o total: de 100mg/dl até 300 mg/dl
(fechando-se o último intervalo “|--|” antes aberto “|--” com uma extensão igual à dos anteriores),
podendo-se dizer que entre estes valores (um intervalo de 200mg/dl de colesterol) o
número de ocorrências é de 15. Poderíamos, igualmente, calcular quantidade de
ocorrências, quer em freqüência absoluta ou relativa, entre quaisquer outros dois
valores limites sugeridos pela tabela, por exemplo: entre 150 e 250 ocorrem 12
eventos (13 – 1: até 150 ocorre um evento e até 250 ocorrem 13 eventos), ou ocorrem
80% dos eventos (86,7 - 6,7).
Se, ao contrário de tratar cada intervalo como uma nova medida que representa 50
unidades originais de mg/dl, medíssemos as ocorrências nos intervalos como uma
concentração de ocorrências por unidade de mg/dl, teríamos a densidade de
freqüência por unidade de mg/dl, com a Tabela 8 modificada para o seguinte
aspecto:
Tabela 11 – Tabela 8 modificada para incluir densidade de freqüência por unidade de mg/dl de
colesterol
de valores de uma variável contínua (o histograma), que no nosso exemplo fica com
o seguinte aspecto:
5
4
2
2
1
0
75 125 175 225 275 325
mg/dl
A primeira vista pode parecer perdulário, senão mesmo confuso, todo este esforço
de reflexão conceitual. No entanto, se você se lembrar que ao estudar medidas se
deu ênfase às medidas deste tipo (concentração, densidade) porque elas carregariam
38
uma carga maior de informação, você deveria estar se perguntando que informação
adicional assim se obtém... Para entendermos melhor a importância da medida de
freqüência na forma de densidade de ocorrências, vamos usar um exemplo simples
com velocidade, que é uma medida de densidade de espaço percorrido por tempo
gasto, v.g. Km/hora.
Trecho de percurso
Velocidade Interpretação
do skate
Primeiro 1 m /50 segundos Iniciando o trajeto empurrando o skate
Segundo 5 m /50 segundos Iniciando uma descida: oba!
Terceiro 7 m /50 segundos Acelerando a descida: oh, oh... medo!
Quarto 2 m /50 segundos Desacelerando em segurança: uau! Consegui!
Você pode até imaginar o terreno que o menino escolheu para brincar: deve ser um
declive acentuado que progressivamente alcança uma superfície plana que lhe
permite desacelerar em segurança. Uma imagem como:
entre Campinas e São Carlos, a velocidade média foi de 75 km/ hora (150
(variação de espaço) / 2 (variação de tempo))
Com as velocidades identificadas para cada trecho de viagem, podemos fazer uma
tabela como a abaixo onde se toma a medida contínua tempo em intervalos de ½
hora. Com esta tabela pode-se calcular o espaço percorrido em cada intervalo de
tempo de ½ hora, cada um correspondendo a uma parte dos três trechos de
viagem, bem como se pode calcular o espaço percorrido na viagem total:
Tempo (horas) Velocidade Espaço percorrido (km) no Espaço percorrido (km) até o
a intervalos (km/h) intervalo intervalo
(tempo gasto [h] X velocidade (tempo gasto [h] X velocidade [km/h]
de ½ hora (Espaço / hora) [km/h]) acumulado)
0 |-- ½ 100 50 50
½ |-- 1 50 25 75
1 |--1 ½ 50 25 100
1 ½ |-- 2 75 37,5 137,5
2 |-- 2 ½ 75 37,5 175
2 ½ |-- 3 75 37,5 212,5
3 |-- 3 ½ 75 37,5 250
Viagem integral 250
Lembre-se: x |-- y quer dizer intervalo entre x incluído e y excluído
250 1,0
200 0,8
150 0,6
100 0,4
50 0,2
0 0,0
Note que, como para cada trecho de viagem houve uma velocidade, para cada um
deles se tem uma reta com maior ou menor inclinação: os triangulozinhos estão ali
para ajudar a perceber isto. Em cada um destes triangulozinhos, o ângulo entre a
reta de percurso e o eixo horizontal do tempo corresponde a uma velocidade:
cateto oposto (espaço) dividido pelo adjacente (tempo) – Km/ hora. Neste gráfico,
que representa a integração dos espaços percorridos, podemos derivar uma
medida de velocidade que representa a força com que o fenômeno está ocorrendo.
Quando estudarmos ocorrências de doenças, a integração de espaços
representará a morbidade (quantos doentes incluídos num espaço de medida contínua,
v.g. tempo) e a derivação representará a força de morbidade, a taxa de
incidência de doença num momento ou num ponto da medida contínua, v.g.
tempo.
41
100 0,4
75 0,3
50 0,2
1/2 1 2 3 3 1/2
Tempo: horas
O texto anterior encerra uma curiosidade da qual você talvez já tenha se dado
conta na sua leitura. Quando fizemos intervalos de ½ hora tanto nas tabelas quanto
nos gráficos, não conseguimos intervalos exatos de ½: no primeiro intervalo, por
exemplo, temos valores que vão de zero inclusive a 0,5 exclusive, ou seja, chega
muito próximo de 0,5 mas não o inclui – algo como 0,499999... de forma que o
intervalo só vale 0,5 por aproximação, por arredondamento. Para medir um
intervalo num contínuo, como as divisões são infinitas, não se pode considerar uma
contagem das partes que compõem o intervalo e só resta calcular a diferença entre
o maior e o menor, o que, no entanto, requer algum cuidado.
A B
1 1 1 1 1
1 2 3 4 5
A distância entre A, que está na posição 2, e B, que está na posição 4, pode ser
feita contando as partes:
A B
1 2 3 4 5
D = x2 – x1,
Note que esta conta fixa uma dependência entre os valores D, x1, x2: quando se
tiver arbitrado quaisquer dois deles, o terceiro já está dado. A função tem 3
variáveis, mas dada a relação entre elas, a liberdade de variar de fato se aplica
apenas a duas. A isto se chama grau de liberdade: o número de variáveis livres
para variar dado um conjunto de variáveis que é usado para descrever um
fenômeno quando entre estas variáveis há alguma relação entre elas. A cada
relação que se inclua entre estas variáveis, um grau de liberdade será roubado, por
exemplo, se além da relação acima você acrescentasse outra, v.g. x2 = 2x1, você
45
Se examinarmos agora a Tabela 4, veremos que dos oito valores de idade que o
grupo apresenta, dois (41 e 46) são os mais freqüentes, ambos com a mesma
freqüência (aparecem 2 vezes, o que significa que cada um representa 20% do total de
observações). Teríamos então duas modas e o grupo seria interpretado como um
grupo de pessoas de 41 ou 46 anos. Note, no entanto, que ainda que consideremos
ambas as modas, não estamos descrevendo mais a maioria como no caso de sexo,
o que sugere que neste caso a(s) moda(s) não seja(m) uma boa medida de grupo.
46
A idéia de mediana introduziu uma nova sugestão para nossa consideração sobre
achar um número que represente o grupo: pode ser um número que nenhum dos
elementos do grupo apresente, mas que sugira como é a intensidade das
contribuições de dois subconjuntos do grupo em termos de freqüência de
ocorrência. De fato, a mediana informa um ponto de corte de valores da variável
que nos permite inferir que tudo que seja menor contribui com metade do grupo e
tudo que seja maior contribui com a outra metade. Ora, isto já nos sugere: por que
escolher um número que aponta contribuições em freqüência de ocorrência de dois
subconjuntos e não um número que aponte a contribuição em freqüência de
ocorrência de cada valor individual dos elementos do grupo? Este número, que é
47
Uma outra interpretação para média é que se trata de um valor que, de todas as
formas (ou intensidade) de apresentação do predicado estudado, carrega algum
traço, alguma contribuição. Machado de Assis, em Memórias de Brás Cubas14, faz
referência à média usando esta interpretação da medida: Brás Cubas, após um
encontro fortuito com sua ex-paixão Marcela, agora com rosto deformado por
cicatrizes de bexiga, atrasa-se para jantar com Virgília, que encontra contrariada:
Moda
está qualificada para ser a moda. Quando mais de um elemento do conjunto tiver
uma mesma freqüência identificada como a maior dentro do conjunto, este
conjunto terá mais de uma moda: a descrição do conjunto exigirá mais de uma
medida resumo deste tipo ou a escolha arbitrária de uma delas.
Grupos com mais de uma moda, podem nos sugerir que o que estejamos tomando
como grupo uniforme talvez seja uma combinação de subgrupos. Veja na figura
abaixo a representação das estaturas de um grupo de pessoas:
15%
Freqüência relativa
10%
5%
0%
160,00 170,00 180,00 190,00
Estatura em cm
Note que neste grupo há duas modas, uma em torno de 165 cm e outra em torno
de valores entre 175 e 180 cm. O histograma está nos sugerindo a pergunta: -
“será que isto é mesmo um grupo, ou uma combinação de dois grupos?” De fato,
sabe-se que estatura difere conforme o sexo, mulheres tendendo a ser mais baixas,
e o que o gráfico está nos sugerindo é que entre estas pessoas possa haver dois
subconjuntos, talvez um feminino e outro masculino. Mais do que constatar
múltiplas modas, é recomendável ao pesquisador examinar eventuais padrões de
concentração de ocorrências na distribuição de suas medidas: elas podem sugerir
modas de subconjuntos. Por exemplo, numa dosagem de determinada substância
marcadora de doença, a identificação de zonas de concentração de ocorrências
pode sugerir diferentes grupos de severidade de doença.
Considere também que, além de múltiplas modas, pode não haver moda: quando
todos os valores da variável tiverem a mesma freqüência.
49
A moda é:
Para identificá-la, reconheça qual valor da variável aparece mais que os outros. Se
você ordenar seus dados em ordem decrescente por freqüência de ocorrência de
valores, a moda será o primeiro valor. Por exemplo, dada uma variável qualquer
cujos valores estão entre 1 e 5 (1 |--| 5) e que da observação de 13 casos se
obtenha as seguintes freqüências:
Mediana
É uma medida resumo que informa qual o valor da variável que divide todas as
observações em duas metades iguais. Ela nos conta o que é o grupo informando
sobre suas metades. Por exemplo, se soubermos que um dado grupo tem uma
mediana de estatura de 100 cm, ficamos já com a impressão de tratar-se de um
grupo de crianças: pelo menos ½ do grupo tem estatura compatível com criança e
mesmo que a outra metade possa vir a atingir valores elevados de estatura, a
impressão permanece já que quase a maioria é de elementos com estatura infantil.
Posição: 1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª 10ª 11ª 12ª 13ª 14ª 15ª 16ª 17ª 18ª 19ª 20ª
Valor: 55 58 76 78 97 101 102 103 110 113 115 119 120 126 133 135 137 147 153 162
25% 50% 75%
Note que nestes cálculos fizemos uma divisão por quatro porque as posições 25%,
50% e 75% representam respectivamente 1 quarto, 2 quartos e 3 quartos. Se
51
Média‡‡
A média é uma medida resumo que se faz com medidas quantitativas para sugerir o
que todos os elementos do grupo seriam se fossem todos iguais. Como em medidas
quantitativas o atributo é expresso como intensidade, isto quer dizer que a média é
o valor que multiplicado pelo número de elementos do grupo resulta num total que
é o mesmo da soma dos valores de cada elemento. Por outro lado, pode-se dizer
que a média é um arquétipo de elemento pertencente ao grupo no qual os atributos
de cada elemento estão de alguma forma representados (lembre-se do sorriso de
Virgília: “uma expressão média entre cômica e trágica”). A média é
‡‡
Aqui se discute média aritmética. Considere ainda:
Média geométrica: o número que elevado à potência n leva ao mesmo resultado que o produtório de todos os
valores considerados - MG = n x1.x2 . ... .xn ;
Média harmônica: o inverso da média aritmética dos inversos dos valores considerados. Aplica-se para o
cálculo de média de taxas, por exemplo, média de duas velocidades para percorrer um mesmo espaço -
n
MH = n
1
∑x
i i
52
100 0,4
75 0,3
50 0,2
1/2 1 2 3 3 1/2
Tempo: horas
• O Menor erro numa previsão: embora seja um valor que se espera, dado
que raramente se realiza, a média não é o valor de maiores acertos em
previsão, mas é o valor que envolve o menor erro possível em relação a uma
previsão. Perceba isto imaginando um intervalo duma variável contínua onde
todos os infinitos pontos tenham a mesma freqüência de ocorrência, de
forma que a média será o ponto médio: neste ponto as diferenças a mais e a
menos em relação aos outros pontos se compensam, enquanto que em
qualquer outro haverá sempre um saldo de erros quer a mais ou a menos. A
figura abaixo faz uma caricatura de histograma onde todos os valores têm a
mesma freqüência, assinala a posição da média e de duas alternativas, uma
de menor valor e outra de maior valor:
Note que, como sugerem as setas que indicam extensão do erro, com a
média os erros para valores maiores e menores são iguais, se compensam.
Se escolhêssemos um valor menor que a média, haveria um saldo de erro à
direita, positivo. Se escolhêssemos um valor maior que a média, haveria um
saldo de erro à esquerda, negativo.
∑x i ∑ xi ni n
ni n
Média = i =1
N
ou x = i =1
N
ou ∑
i =1
xi
N
= ∑
i =1
x i freq rel i
Nestas fórmulas de cálculo de média, estamos vendo a medida como discreta, pois
supomos que podemos individualizar cada valor para contar suas ocorrências.
Quando tivermos uma medida contínua, mediremos as ocorrências por intervalos de
valores desta medida e ao invés de termos freqüência relativa teremos uma
densidade de freqüência (n ocorrências por intervalo). Emprestando as idéias que
exploramos quando consideramos a densidade de freqüência num polígono de
freqüências para intervalos de valores muito pequenos (pontuais) de uma dada
variável contínua (a curva suave da Figura 6), no cálculo da média poderíamos agora
considerar para cada ponto xi uma ponderação pela densidade de freqüência (n° de
ocorrências por ponto xi). Isto nos permitiria calcular a média como uma integração
de todos os valores da variável contínua segundo seu padrão de ocorrências (a área
sob a curva, a somatória dos produtos de todos os intervalos por suas alturas).
Esta fórmula é a descrição mais completa do que seja média: uma integração de
todos os valores que uma medida assume ponderados por um padrão de densidade
de freqüências (por exemplo, uma função que descreva as densidades de freqüência como
a que encontramos para a curva ajustada ao polígono de freqüências da Figura 6). Sempre
que conheçamos o padrão de densidade de freqüências, para qualquer intervalo da
variável podemos calcular a freqüência nele acumulada e, ponderando todos os
valores pela densidade de freqüência, podemos calcular a média.
Quando não se tenha este padrão dado por uma função apontando a densidade de
freqüência em cada ponto da variável considerada, mas apenas uma tabela de
freqüência com contagem de ocorrências por intervalos, para calcular a média
55
toma-se o ponto médio de cada intervalo para o cálculo. Nas tabelas abaixo se tem
um exemplo: dosou-se o colesterol sérico em 20 pessoas, obtendo-se o seguinte:
x ( X + a) = x ( X ) + a ;
3) Se uma constante, v.g. ‘a’, for multiplicada por cada valor de uma
variável X (um conjunto de observações), então a média ficará
multiplicada por ‘a’:
x ( X .a ) = x ( X ).a ;
4) A média da soma de duas variáveis, v.g. X + Y, é igual à soma das
médias de cada variável:
x ( X + Y ) = x ( X ) + x (Y ) .
Uma outra característica, de natureza físico-matemática também pode ser
reconhecida na média. Como sugere a Figura 13, a média é o centro de massa da
distribuição de valores de uma variável, sendo a massa entendida como o conjunto
de todas as ocorrências. Ela é o ponto de equilíbrio desta massa, também chamado
momento em torno da origem (em torno do zero). Suponha uma massa total de
freqüências representada por um montinho de areia onde, v.g., cada ocorrência
fosse um grão de areia: se você despejasse esta massa de areia sobre uma bandeja
apoiada sobre um fulcro no meio desde uma certa altura e em direção ao fulcro, de
forma que os grãozinhos se dispersassem regularmente, você esperaria uma
imagem como a seguinte:
Suponha, agora, que ao despejar a areia sobre a bandeja nossa mão se desviasse
um pouco para direita ou para a esquerda: teríamos que fazer movimentos
compensatórios para não desequilibrar a bandeja e nossa figura assumiria a forma
de uma das duas alternativas abaixo:
mn =
∑ (x − x ) n
o exemplo abaixo onde dois grupos de dez pessoas tiveram suas idades
examinadas:
4 4
Freqüencia absoluta
Freqüencia absoluta
3 3
2 2
1 1
0 0
10 20 30 40 50 0 10 20 30 40 50
Idades em anos completos do 1º grupo Idades em anos completos do 2º grupo
Para melhor conhecer um grupo, parece sensato que além de uma medida resumo,
considere-se também uma medida de dispersão...
60
onde
Portanto, serão aberrantes valores maiores que 342 (3° quartil + 1,5 intervalo
interquartil) e menores que 40 (1° quartil – 1,5 intervalo interquartil) e
serão máximo e mínimos aceitáveis os valores observados que não
61
153,25 – 3° quartil
153,25 – 1° quartil
130 – Menor valor não
discrepante a menor
100
Colesterol em mg/dl
*O boxplot se restringe aos traços negros contínuos. Traços interrompidos em cinza são apenas anotações.
Note no box plot que temos um valor discrepante a maior, anotado como o
vigésimo caso. De fato, o vigésimo caso tem um colesterol de 360 mg/dl, um valor
extravagante para este conjunto.
m2 = variância =
∑ (x − x ) 2
variância ou var =
∑ (x − x ) 2
Tabela 17 - Idade de um conjunto fictício de pessoas com idades expressas como anos
completos, desvios da média, quadrados destes desvios e par de coordenadas para uma
representação gráfica
Par (x, y) para
Idade Desvio da média Desvio ao quadrado representação num
plano cartesiano
4 -5 -5 x -5 (-5,-5)
5 -4 -4 x -4 (-4,-4)
6 -3 -3 x -3 (-3,-3)
7 -2 -2 x -2 (-2,-2)
8 -1 -1 x -1 (-1,-1)
9 0 0x0 (0,0)
11 2 2x2 (2,2)
12 3 3x3 (3,3)
13 4 4x4 (4,4)
§§
Perceba que não haverá esta restrição de graus de liberdade numa situação onde a média não seja função dos
valores de x, mas uma constante. Isto acontecerá quando se calcular a variância em relação à média de uma
classe: neste caso a média da classe funciona como uma constante no cálculo da variância e a divisão é feita por
n.
63
15 6 6x6 (6,6)
Média = 9
-2
-4
-6
-6 -4 -2 0 2 4 6 8
Podemos argüir este raciocínio considerando que talvez, o caso da Tabela 17 seja
apenas um caso particular, fortuito. No entanto, lembre-se que o conhecimento
científico a que serve a Estatística busca universais, pelo que, ainda que se estude
um grupo particular de fenômenos, o que se busca inferir é um conhecimento
universal sobre a coisa que se estude. Considerando isto, ainda que num dado
64
grupo não haja qualquer observação com valor igual à média, no universo de todas
as coisas à qual este grupo pertence sempre haverá uma. Mais ainda, uma e
somente uma: se a medida é o predicado da coisa que lhe dá identidade, cada
medida deve indicar um único individuo, sob pena de furtar-lhe a identidade.
Quando num universo de coisas duas tiverem uma mesma medida, há defeito de
precisão na medida. Tome com exemplo a idade: habitualmente medida em anos
completos não é incomum encontrar-se duas pessoas de mesma idade, mas se
melhorarmos a precisão da medida, v.g. expressando-a em segundos desde o
momento do nascimento, dificilmente encontraremos duas pessoas de mesma
idade. Se porventura encontrarmos, poderemos passar a medir a idade em décimos
de segundo, centésimos de segundo, milésimos de segundo e etc. até
conseguirmos distinguir as duas pessoas uma da outra.
Tendo calculado a variância dum grupo, o que se quer inferir é a variância da classe
a que este grupo pertence; em Bioestatística, tendo estudado v.g. um grupo de
doentes, o que se quer conhecer é o comportamento da doença na população em
geral. O que a medida de um grupo nos oferece é uma estimativa do que possa
acontecer numa população e pode-se demonstrar matematicamente que esta
estimativa será confiável se a variância for calculada com a correção que subtrai
uma unidade do total de elementos do grupo. Comecemos por examinar as
propriedades aritméticas da variância:
∑ [(x − µ ) − (x − µ )]
2 , onde x é a média do grupo e µ é a media da
var = classe, da população, do universo que se quer
n −1 conhecer.
Se tivermos vários grupos de tamanho “n”, cada um terá uma variância que ora
será maior ora será menor que a variância do universo, a qual denotaremos por σ2
para usar um símbolo que na Estatística é habitual para se referir a ela. Esta σ2
deve ser o valor para onde convergem as varias variâncias de vários grupos da
classe de coisas considerada, ou seja, esta σ2 deve ser a média de todas as
variâncias de grupos de tamanho “n”. Para calcular σ2 com a fórmula sugerida
dividiríamos a média da somatória de diferenças ao quadrado de todos os grupos
por n-1:
1
σ2 =
n −1
( 2
)
M ∑ [( x − µ ) − ( x − µ )] , onde M() que dizer ‘média de’
Sendo isto verdade, desenvolvendo o lado direito da equação devemos chegar à
variância da classe, a σ2. Resolvendo o quadrado entre colchetes temos:
1
M ∑ ( x − µ ) 2 − 2∑ ( x − µ )( x − µ ) + ∑ ( x − µ ) 2
( )
n −1
O que, considerando que ∑ ∑ 2
( x − µ )(x − µ ) = ( x − µ ) leva à simplificação
1
M (∑ ( x − µ ) 2 − 2∑ ( x − µ ) 2 + ∑ ( x − µ ) 2 ) , ou
n −1
1
M ∑ (x − µ )2 −∑ ( x − µ )2
( )
n −1
O que, considerando que ∑ ( x − µ ) 2 = n( x − µ ) 2 e que ∑ ( x − µ ) 2 = n( x − µ ) 2 , leva a
1
n −1
(
M n( x − µ ) 2 − n( x − µ ) 2 )
O que, considerando
66
1º) que a média das diferenças de todas as observações individuais com a média
( )
da classe ao quadrado é a variância da classe ( M ( x − µ ) 2 = σ 2 ) e
2º) que a média das diferenças das médias de grupo com a média da classe ao
σ2
(
quadrado é a variância das médias dos grupos ( M ( x − µ ) 2 = ) n
) (a variância
das médias de grupos é inversamente proporcional ao seu tamanho como decorrência
da propriedade 4ª da variância: cada grupo independente aporta uma fração de
variância à classe)
podemos chegar a
1 2 σ 2 1
nσ − n = (n − 1)σ 2 = σ 2 , permitindo-nos concluir que, de fato, para
n −1 n n − 1
uma estimativa confiável da variância da classe precisamos da correção de divisão
por ‘n-1’ (demonstração de Armitage & Berry15, com notação adaptada).
∑ (x − x )
2
desvio padrão ou DP =
n −1
67
Quando, como no nosso exemplo, temos dois grupos com médias iguais, podemos
dizer qual tem maior variabilidade simplesmente examinando os valores de desvio
padrão. Quando as médias forem diferentes, no entanto, isto não será possível:
suponha dois grupos com desvios padrão de idade iguais aos do exemplo, 2,23
anos e 20,25 anos, mas cujas médias fossem v.g. 5 e 60 anos. Como comparar
variações de 2,23 anos entre pessoas cuja idade esperada é 5 anos com variações
de 20,25 entre pessoas cuja idade esperada é 60 anos?
Note que resultando da divisão de duas medidas de mesma dimensão (no nosso
exemplo de idade, tanto a média quanto o desvio padrão seriam em unidades de anos) o
Coeficiente de Variação é adimensional. Para nossa pergunta anterior:
Como comparar variações de 2,23 anos entre pessoas cuja idade esperada é
5 anos com variações de 20,25 entre pessoas cuja idade esperada é 60
anos?
68
z res =
(x − x )
, onde DP é desvio padrão
DP
Cada coisa pertencente a um grupo pode agora ser caracterizada por uma relação
entre sua medida e as medidas características deste grupo, a média e o desvio
padrão. A diferença entre a medida desta coisa e a média (resíduo) expressa em
unidades de desvio padrão (Zres), informa sua posição dentro do grupo; quanto
esta coisa se afasta do que dela se espera como parte do grupo em termos do que
é um afastamento habitual, padrão, para as coisas deste grupo. Com relação a
nossa pergunta anterior:
alternativas entre outros autores). O Terceiro axioma da teoria ZF, chamado axioma
dos sub-conjuntos ou axioma da separação ou axioma da compreensão, enuncia
que:
Note que há arbitrariedade de corte para distinguir indivíduo, grupo e classe. Por
exemplo, compare “cão – carnívoro – mamífero” com “mamífero – vertebrado –
animal”: no primeiro o mamífero é universo, no segundo o mamífero é indivíduo.
Será conhecimento universal para nós aquele que interesse o universo de
discurso, o universo ao qual nos referimos, aquilo de que falamos, o espaço de
onde tirarmos a conotação para aquilo que denotamos em medidas. Em
Bioestatística pode ser a classe dos seres humanos, a classe dos brasileiros, a classe
71
dos portadores de uma doença qualquer, etc., algo que possamos chamar de
população de interesse.
Para reconhecer classes, vamos começar por um exercício de indução por analogia:
no universo de todos os animais, falamos sobre cães e todos sabemos o que esta
palavra denota. Se estivermos falando de cães (se este for nosso universo de discurso)
sabemos reconhecer como cão coisas tão díspares quanto um Pincher e um Bulldog.
Mais ainda, reconhecemos como cães caricaturas, como no caso de personagens de
estórias em quadrinhos, v.g. o Bidu, o Dom Pixote, etc. Estas caricaturas usam
traços que generalizam a forma de um cachorro, independentemente de sua raça:
considere a Figura 21 abaixo:
O primeiro retrato mostra um cão grande de pêlo curto, o segundo um cão pequeno
de pêlo longo e o terceiro uma caricatura: a todos chamamos cão... Qual analogia
que fazemos entre os três para encontrar este denominador comum? Em primeiro
lugar a forma física (v.g. focinho, orelha pendente), em segundo a função
(independentemente da raça, cães são companhia ou auxiliares de homens). Poderíamos
dizer que é uma forma genérica que provê a analogia, algo que excede o aspecto
físico, para incluir aspectos como comportamento, afetividade, etc. Veja que a
caricatura tem traços que, para além da forma física, sugere um animal simpático.
Reconhecemos a classe dos cães a partir de uma forma genérica que podemos
descrever por figuras ou por funções (como quando descrevemos grupos por gráficos ou
por funções). Conforme as características destes predicados (medidas), distinguimos
grupos que são as raças de cães: se dado cão assume o valor (mede) “grande porte,
pelo comprido” e sua função assume o valor (mede) “ajuda a controlar um
72
rebanho”, então temos um cão pastor. Seja qual for o cão, indivíduo ou grupo,
conhecida a classe sabemos o que ele é.
No universo dos animais, há vários grupos de bichos e alguns deles podem ser
reunidos em famílias ou classes: cobras, cavalos, cães. O traço que generaliza a
classes de cães por sua forma é apresentado, mas para cada uma destas classes
poderíamos propor um traço característico para representar um ou mais atributos
característicos da classe.
Figura 22 - Animais e classes de animais: classe dos cães representadas por um traço
comum
Universo de bichos
Pequinês Jararaca
Burro
Bulldog
Égua Cascavel
Pincher Fila
Classe dos cães Sucuri
Mula
Figura 23 - Medidas e classes de medidas: classe das medidas com distribuição normal de
freqüências representadas por um traço comum
Universo de
Nº de mulheres medidas
em cada 10 Nº de
pessoas que acidentes
Colesterol
encontro
LDL
Nº de pessoas Ser
que adoecem
por dia
brasileiro
Nº de fumantes
em cada 10
pessoas infartadas
com vários livros tratando de assuntos diversos da medicina. Desde então até o
século XX, quando filósofos e matemáticos como John Maynard Keynes (1883 –
1946), Andrey Nikolaevich Kolmogorov (1903 – 1987), Bruno de Finetti (1906 – 1985)
aportaram grandes contribuições à teoria de probabilidades, têm-se uma verdadeira
revolução de conhecimento neste campo.
A probabilidade pode ser vista como uma medida de incerteza ou como uma
medida de expectativa de ocorrência. Ian Hacking16 chama cada uma destas
abordagens de “probabilidade tipo crença” e “probabilidade tipo freqüência”. Outros
autores as chamarão probabilidade subjetiva e probabilidade objetiva, probabilidade
epistêmica e probabilidade aleatória. Ao leitor curioso fica a sugestão de leitura de
Hacking, mas para fins do que estudamos ficaremos apenas com o conceito de
probabilidade freqüentista. Neste âmbito as ocorrências de fenômenos são por
princípio aleatórias (do latim, aleatoriu: sujeito ao acaso) e os processos que envolvem
sua manifestação são ditos estocásticos (do grego, stochastikós: conjecturar, uma
conjectura de que as coisas não sejam determinadas).
Para buscarmos definições originais desta probabilidade, na Xavier University, in
Cincinnati, Ohio, EEUU, podemos obter uma cópia traduzida do trabalho clássico de
Laplace (Pierre Simon, Marquis de Laplace, 1749 – 1827), de 1795, “Leçons de
Mathématiques données a L’École Normale en 1795, Dixième Séance: Sur les
probabilités”17, onde se lê:
“The probability is relative in part to (our) A probabilidade refere-se em parte à nossa
ignorance, and in part to our knowledge. ignorância e em parte ao nosso
We know that on three or a great number of conhecimento. Nós sabemos que de três ou
events one alone must exist; but nothing
um grande número de eventos um apenas
sustains to believe that one of them will
deve existir; mas nada sustenta a crença de
happen rather than the others; in this state
que um deles vai acontecer ao invés dos
of indecision it is impossible for us to
outros; neste estado de indecisão é
pronounce with certitude on their existence.
impossível para nós reconhecer com certeza
...
a existência deles. ...
The theory of chances consists to reduce all
A teoria das chances consiste em reduzir
events of the same kind to a certain number
todos os eventos de um mesmo tipo a um
of equally possible cases, that is to say such
certo número de casos igualmente possíveis,
that we are equally indecisive on their
o que quer dizer que estamos igualmente
existence; and to determine the number of
indecisos sobre a existência deles; e
cases favorable to the event of which we
determinar o número de casos favoráveis ao
seek the probability. The ratio of this
number to the one of all possible cases is evento para o qual procuramos a
the measure of this probability, which is probabilidade. A razão entre este número e o
thus only a fraction of which the numerator número de todos os casos possíveis é a
75
is the number of the favorable cases, and of medida desta probabilidade, o que é portanto
which the denominator is the number of all uma razão na qual o numerador é o número
possible cases.” de casos favoráveis e o denominador o
número total de casos possíveis.
“But what mortal, I ask, could ascertain the Qual mortal, pergunto, poderia avaliar o
number of diseases, counting all possible número de doenças, contando todos os
cases, that afflict the human body in every casos possíveis, que afligem o corpo
one of its many parts and at every age, and humano em todas as suas muitas partes e a
say how much more likely one disease is to cada idade, e dizer quanto mais provável de
be fatal than another... ser fatal é uma ou outra doença...
… under similar conditions, the occurrence ... sob condições similares, a ocorrência (ou
(or nonoccurrence) of an event in the future não-ocorrência) de um evento no futuro
will follow the same pattern as was observed seguirá o mesmo padrão observado para
76
Neste trabalho, Bernoulli demonstrou que numa série grande de experimentos com
eventos de uma dada probabilidade, a freqüência de ocorrência deste evento
converge para sua probabilidade. Por exemplo, se a probabilidade de face 6 num
dado lançado é de 1/6, se fizermos uma experiência v.g. de 12 jogadas, talvez a
freqüência não seja a esperada de dois eventos de face 6, mas se fizermos um
grande número de jogadas, v.g. 1.200.000, a freqüência de ocorrência de face 6
deverá resultar nos 200.000 esperados pela probabilidade deste evento. A vista
disto e da comentada impossibilidade de em algumas circunstâncias se reconhecer
todos os eventos possíveis, medidas de freqüência são tomadas como estimativas
de probabilidade.
Da definição de probabilidade oferecida por Laplace podemos deduzir suas três leis
principais:
***
Mais tarde, David Hume estabelecerá isto como o Princípio de Uniformidade da Natureza em seu A treatise
on the human nature. Adelaide, Australia, University of Adelaide, Ebooks:
http://etext.library.adelaide.edu.au/h/hume/david/h92t/h92t.zip
77
♀ ♂
P = 0,5 P = 0,5
F: P = 0,30
P=0,15 P=0,15
F = fumante; P = probabilidade
Note que como aqui fumar supostamente independe do sexo, os 30% de fumantes
da população estão igualmente distribuídos entre homens e mulheres. Dado que os
eventos já não são mais mutuamente exclusivos, a disjunção “mulher ou fumante”
não pode ser a simples soma das probabilidades, sob pena de mulheres que fumam
serem computadas duplamente, uma vez como mulheres e outra vez como
fumantes. Logo, da soma de probabilidades temos agora que subtrair os eventos
repetidos:
Note ainda que dado que fumar e sexo são independentes, a probabilidade da
conjunção resulta no produto das probabilidades. Por exemplo, se ao invés de
avaliarmos “P(mulher ou fumante)” quiséssemos avaliar “P(mulher & fumante)”, a
probabilidade seria p = 0,15, que é o produto da probabilidade de ser mulher
(p = 0,50) pela probabilidade de ser fumante (p = 0,30). Esta é a chamada regra da
multiplicação [P(A&B) = P(A).P(B)], que só se aplica quando os eventos para
os quais se propõe a conjunção sejam independentes.
♀ ♂
P = 0,5 P = 0,5
F: P =0,30
P=0,10 P=0,20
F = fumante; P = probabilidade
Substituindo ‘fumante’ por B e mulher por ‘A’, e usando o símbolo ‘|’ para denotar
‘dado que’, podemos reescrever nosso resultado num formato genérico como:
79
P ( A & B)
P ( B | A) =
P ( A)
Esta fórmula está de acordo com nossa regra da multiplicação, pois dela decorre
que
2
1 ( x − média )
−
2 Desvio Padrão
e
Densidade de probabilid ade =
Desvio Padrão 2π
Os parâmetros que definem esta função são a média e o desvio padrão de todos os
elementos da classe, pelo que são ditos média e desvio padrão populacionais.
Enquanto numa distribuição binomial os valores são sempre uma contagem
(quantitativa discreta) de casos que se pode encontrar, ou seja, o domínio são
os números inteiros, numa distribuição normal a dimensionalidade dos valores varia
de acordo com o que se esteja medindo. Abaixo temos dois exemplos de medidas
com distribuição normal: note que o domínio (intervalo de valores que aparecem no
eixo dos x) de uma é diferente do domínio da outra.
50 50
40 40
30 30
20 20
10 10
Std. Dev = 9,78 Std. Dev = 40,45
Mean = 84,2 Mean = 213,5
0 N = 328,00 0 N = 328,00
57
62
67
72
77
82
87
92
97
10
10 5
11 ,5
11 5
10
12 , 0
14 0
16 , 0
18 , 0
20 0
22 , 0
24 , 0
26 0
28 , 0
30 0
32 , 0
34 , 0
,5
,5
,5
,5
,5
,5
,5
,5
,5
2,
7
2,
7,
0
0,
0
0
0,
0
0
0,
0
0,
0
0
0,
5
de uma dada medida da classe das normais, é preciso que estas variações de
dimensionalidade sejam eliminadas e que os valores da imagem sejam reduzidos ao
intervalo 0 e 1 (espaço das probabilidades). Isto é feito transformando-se a
mensuração de qualquer medida da classe das normais em resíduos padronizados
da média (Zres) e as contagens de ocorrência como proporções do total (freqüência
relativa como estimativa de probabilidade). Lembre-se que o resíduo padronizado da
média é calculado como:
_
x−x
Zres =
Desvio padrão de X
onde: X é a variável
x é a medida que se quer transformar
x é a média dos valores de X
No exemplo acima, uma circunferência de cintura de 100 cm transformada em
resíduo padronizado da média resulta em Zres = 1,6, da mesma forma que um
colesterol de 278 mg/dl também resulta em Zres = 1,6. Note que assim,
independentemente de quais unidades de mensuração são usadas, qualquer medida
da classe das normais pode ter seu valor interpretado para a correspondente
probabilidade de ocorrência. No exemplo, ambas as medidas correspondem a uma
probabilidade p = 0,055 (5,5%) para valores maiores ou, dito de outra forma, de
p = 0,945 (94,5%) para valores menores†††. Sendo circunferência de cintura e
dosagem de colesterol duas medidas da mesma classe (da distribuição normal),
transformadas suas medidas em resíduos padronizados podemos fazer juízo de suas
grandezas a partir da avaliação das probabilidades a eles associadas: no nosso
exemplo, um indivíduo com circunferência de cintura de 100 cm tem cintura tão
grande quando outro de colesterol 278 mg/dl tem colesterol elevado. Ambas as
medidas ocupam a mesma posição na distribuição de probabilidades, um é tão
grande ou tão pequeno quanto o outro, ainda que cada um esteja avaliado por
diferentes medidas (reveja como se faz juízos de grande e pequeno na página 14)
†††
Note que quando falamos de medidas contínuas não há sentido em falarmos em probabilidade de um dado
valor particular: a probabilidade de um valor entre infinitos valores possíveis no contínuo é praticamente nula,
é uma razão entre 1 e infinito. Por isso, sempre que falarmos de probabilidade de medidas contínuas,
necessariamente teremos que nos referir à probabilidade de valores maiores ou menores; ou probabilidade entre
dois valores.
82
Na figura abaixo temos uma curva normal padronizada (com valores da variável
expressos como desvios padronizados da média) que serve para qualquer medida com
distribuição normal, bastando para isto que se faça a transformação de seus valores
originais para desvios padronizados da média. Em destaque uma característica da
distribuição normal, que é o fato dos resíduos padronizados de valor absoluto de
aproximadamente 2 (na verdade 1,96) separarem os 2,5% dos valores mais baixos
(se negativo, Zres = - 2) e os 2,5% dos valores mais altos (se positivo, Zres = + 2), ou
seja, os valores cuja ocorrência se pode reputar como RARA quer porque muito
pequenos (Zres = - 2), quer porque muito grandes (Zres = + 2).
0,15
300
0,10
200
2,5% 2,5%
0,05
100
0
-3
-3
-2
-2
-1
-1
-,5
0,
,5
1,
1,
2,
2,
3,
0
0
5
0
,5
,0
,5
,0
,5
,0
formarmos uma idéia sobre isto. Se o Zres de 55 anos for, digamos 2,3 , sabemos
que este é um valor raro de medida (é maior que 2 que separa já os 2,5% mais velhos!)
e podemos concluir que, de fato, esta pessoa tem uma idade tão grande que
comparada aos outros brasileiros (que compõem a distribuição) sugere que ela seja
velha.
Da mesma forma que para um valor de medida você pode obter as probabilidades
de valores maiores e menores, com a função inversa (de probabilidade para medida)
você pode identificar um valor correspondente a uma dada probabilidade. Por
exemplo, se você quiser identificar qual o valor da medida que separa dos 5,5%
maiores, verifique qual o valor correspondente à média somada a 1,6 desvios
padronizados (o valor de Zres que separa os 5,5% maiores). No nosso exemplo acima
teríamos:
Suponha que você arbitre que ‘maioria’ seja 95%. Logo você está dizendo que quer
a média ± 1,96 desvios padrão – se um Zres de –1,96 separa os 2,5% menores e
um Zres de +1,96 separa os 2,5% maiores, com a média ± 1,96 desvios padrão
você vai ficar com 95% das medidas em torno da média.
0,53
0,47
Probabilidade por unidade infinitesimal
0,40
0,33
0,27
0,20
0,13
0,07
0,00
50 100 150 200 250 300 350
Colesterol em mg/dl
Note como esta curva pode ser obtida: se muitos pacientes fossem examinados em
correspondentes histogramas e se progressivamente se reduzisse o intervalo
original de 50 mg/dl para intervalos cada vez menores, o que se notaria seria uma
sucessão de barras cada vez mais estreitas cujas extremidades superiores
sugeririam uma linha contínua, semelhante à linha contínua sugerida no gráfico.
Nos quatro gráficos abaixo, examinados por linha no sentido esquerda para direita,
pode-se ver o comportamento de um histograma para colesterol em mg/dl em
6.500 pacientes em sucessivas reduções de intervalo:
85
Figura 29: Histogramas de freqüências com intervalos progressivamente menores até sugerir
uma curva de distribuição de probabilidades
,31 ,15
,12
,09
,15
,06
,03
0,00 0,00
,08 ,05
,06
,03
,05
,03
,02
,02
0,00 0,00
Imaginando que por trás do histograma de freqüências por intervalo haja uma
curva de ocorrências pelo contínuo de valores de colesterol, temos que as barras
agora são transformadas em linha de uma curva cujos pontos descrevem
velocidades instantâneas de ocorrências para cada valor infinitesimal de colesterol.
Esta linha sugere como poderia ser o comportamento da medida de colesterol não
no conjunto de pacientes examinados, mas na classe de todos os pacientes do
mesmo tipo. Esta linha sugere, portanto, uma inferência sobre o que seja o geral a
partir da experiência particular de um conjunto de pacientes. Ou seja, se não se
souber tudo sobre a classe a que estes doentes pertençam, v.g. a classe dos
obesos, mas se puder supor que 15 pacientes vistos devam ser muito semelhantes
a outros tantos não vistos, pode-se fazer uma generalização sobre o
comportamento desta classe de pacientes em relação à medida colesterol em
mg/dl.
86
Usando-se o cálculo integral (soma no contínuo ( ∫ ) de toda a área sob a curva densidade
de probabilidade), chega-se a uma curva de probabilidade acumulada, que tem a
forma sugerida pela Figura 30 abaixo. Agora, dado um intervalo de valores de
colesterol pode-se calcular sua probabilidade de ocorrência como a diferença entre
os valores de probabilidade que o delimitam, ou seja, a probabilidade que se
acumula entre eles. Esta diferença, que é a integração da densidade de ocorrência
no intervalo considerado, representa a área sob a curva de densidade neste
intervalo.
100%
Probabilidade acumulada
75%
50%
25%
0%
100 150 200 250 300
Colesterol em mg/dl
Nesta curva pode-se verificar que a probabilidade acumulada até o valor 200 de
colesterol é de aproximadamente 0,46 ou 46% e que a probabilidade acumulada
até o valor 150 é de aproximadamente 0,13 ou 13%. Desta forma, a probabilidade
entre os dois valores resulta em 0,33 ou 33%, o que corresponde à freqüência
relativa do intervalo “150 |-- 200” na tabela de freqüências (Tabela 8, página 35).
Para calcular a área sob a curva no intervalo 150 – 200, poderíamos de maneira
grosseira (para evitar o cálculo integral ! ) assumir que esta área seja
aproximadamente o retângulo sugerido na Figura 31, onde se toma uma média∗ das
densidade de ocorrência relativas aos dois pontos – 150 e 200 (este retângulo perde
uma parte da área sob a curva acima da média, mas compensa isto com a inclusão de uma
área à esquerda da curva). As densidades de probabilidade por unidade infinitesimal
para os dois pontos são
De forma que a média resulta em 0,0066. A área sob a curva pode agora ser
calculada como aproximadamente a área do retângulo 0,0066 X 50, o que resulta
em 0,33, ou 33%, mesmo valor encontrado na curva de distribuição acumulada de
probabilidades.
∗
Embora a média de taxas seja calculada como média harmônica, por simplicidade se toma a média aritmética
neste exemplo.
88
k fumantes
Para generalizar esta função, ou seja, para fazê-la útil tanto para o caso de
fumantes entre infartados quanto para o caso de mulheres entre as pessoas que
encontro, ou enfim para qualquer outra medida pertencente à classe de distribuição
binomial, podemos escrever esta função como
n n n!
P ( X = k ) = p k q n − k sabendo-se que =
k k k!(n − k )!
Os parâmetros desta distribuição são, portanto, n, p e q. Para que você tenha uma
visão de curvas de distribuição binomial, observe nos gráficos abaixo como é a
curva de distribuição de freqüência de nº de fumantes entre pessoas infartadas,
quando se examina 5, 10, 15 e 20 pessoas com infarto, numa situação onde se tem
a informação de que a probabilidade de fumantes entre infartados é de 30%, ou
seja de cada 10 infartados espera-se que 3 deles sejam fumantes. Se examinarmos
apenas 1 doente, a probabilidade de se ter 1 fumante (o único que examinado!) é
p = 0,3; se examinarmos 2 doentes, a probabilidade de se encontrar 1 fumante é
0,42 e de se encontrar 2 fumantes (todos que examinamos!) é de p = 0,09. E assim
por diante, como mostram as curvas de distribuição de probabilidade abaixo.
89
correspondente
Probabilidade
Probabilidade
0,2 0,2
0,0 0,0
0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20
nº de fumantes que se pode esperar nº de fumantes que se pode esperar
encontrar sabendo-se que a encontrar sabendo-se que a
probabilidade de ser fumante é de 30% probabilidade de ser fumante é de 30%
correspondente
Probabilidade
Probabilidade
0,2 0,2
0,0 0,0
0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20
nº de fumantes que se pode esperar nº de fumantes que se pode esperar
encontrar sabendo-se que a encontrar sabendo-se que a
probabilidade de ser fumante é de 30% probabilidade de ser fumante é de 30%
‡‡‡
A estimativa de parâmetros populacionais por valores específicos, dita estimativa por ponto, é confiável
(não viciada) tanto para média quanto para variância. No entanto, para estimativa de desvio padrão da
população, se a amostra estudada for pequena, v.g. menor que n=30, há vício e se deve usar um fator de
correção que neste texto está sendo ignorado.
91
Suponha que haja uma classe cuja média seja conhecida e que várias amostras de
um dado tamanho sejam realizadas como um experimento para conhecer a média
populacional: cada amostra provavelmente fornecerá uma estimativa diferente da
média populacional: ainda que todas com alguma proximidade à ela, sempre para
cada uma haverá algum erro de estimativa. Suponhamos ainda, para fixarmos uma
referência e mercê o que nos sugere o Teorema do Limite Central, que a medida na
população tenha uma distribuição normal. Se assim for, espera-se que cada
amostra tenha igualmente uma distribuição normal já que o que caracteriza um
conjunto como integrante de uma classe é um comportamento semelhante ao desta
classe. Como corolário, os erros, que serão diferenças entre as médias de cada
amostra e a média da população, necessariamente terão também uma distribuição
normal (lembre-se da propriedade da média que diz a soma (ou subtração) de uma constante
aos valores de uma variável implica em igual soma (ou subtração) na média: somar ou
subtrair não altera as relações). Estes erros de distribuição normal (quer normal com uma
média µ e desvio padrão σ [E~N(µ,σ)] ou binomial com aproximação normal com média p e
σ2
Erro ∝
n
De fato, quanto maior a variabilidade da medida na população, maior será o erro
numa estimativa por uma amostra aleatória. E vice-versa. Pode-se perceber isto
facilmente imaginado a situação contrária: numa medida que não varie na
população, cuja variância seja nula, qualquer amostra que se tome informará
92
O erro aleatório é o que poderíamos chamar um erro bom. Bom porque nos alerta
sobre a incerteza inerente ao conhecimento de coisas por meio de alguma
representação simbólica, seja com números ou qualquer outro símbolo. Bom porque
corrige qualquer eventual ingenuidade sobre um conhecimento objetivo e
determinado sobre as coisas. Da natureza nada conhecemos. Dada sua dinâmica,
ela definitivamente não é apreensível aos sentidos. Nem de nós mesmos sabemos:
a imagem de nós mesmos que vemos num espelho não é o que somos, mas o que
fomos – há um tempo decorrido entre o estabelecimento de nossa imagem no
espelho e nossa percepção sensorial. No mínimo, sem contar o tempo gasto nos
processos biológicos de reconhecimento da imagem na retina e sua cognição no
cérebro, um tempo diretamente proporcional ao que a luz leva para viajar da
imagem até nossos olhos. Neste exemplo um tempo muito pequeno, mas na
natureza em geral uma incerteza definitiva. Conhecimento talvez não seja
exatamente saber, mas desconfiar, como sugere Guimarães Rosa na boca de seu
personagem Riobaldo20:
Há, no entanto, um outro erro. Um erro mau, chamado erro sistemático. Este
erro é já difícil de se avaliar e depende da argúcia do pesquisador em desconfiar e
rastrear uma idéia. É um erro de imperícia ou impropriedade e se refere a erros
do observador, do objeto observado e do instrumento usado para a observação. É
tanto maior quanto menor o conhecimento que o observador tenha do objeto, tanto
maior quanto maior a instabilidade do objeto e tanto maior quanto menos acurado
for o instrumento usado para sua observação. Que nenhum pesquisador pense em
escudar sua ignorância sobre um objeto de estudo com as técnicas estatísticas: elas
só se ocupam dos erros aleatórios.
93
Pour l'homme seul, enfin, existe un art, un suprema, da qual todas as artes mais
art suprême, dont tous les arts les plus destacadas não são mais que
vantés ne sont que les instruments et instrumentos e procedimentos: a arte da
l'ouvrage : l'art de la raison, le razão, o raciocínio” (Laromiguière,
raisonnement” (Laromiguière, Discours Discours sur l'identité. OEuvres, t. I, p.
sur l'identité. OEuvres, t. I, p. 329.). 329.).
Mais adiante neste mesmo livro, ele fornece exemplo de como um experimento
conduzido à revelia de familiaridade com o objeto pode resultar em conclusões
erradas: Bidder e Schmidt, tendo medido a quantidade de saliva excretada por uma
glândula submaxilar e uma parótida num cão ao longo de um dia, considerando que
o animal tem um par destas glândulas, multiplicaram o resultado por dois.
Continuaram ainda, considerando que, dado que o cão teria ¼ do peso de um
homem, este resultado multiplicado por 4 informaria que um homem excretaria
1,40g de saliva por dia (massa ao invés de volume!). Bernard lembra como erros,
entre outros, o fato de que se deve saber que pares de glândulas tendem a
funcionar alternadamente e não aditivamente, que a secreção de saliva depende de
estímulos e que a secreção não é contínua, mas intermitente. Mais ainda, sobre a
extensão de resultados obtidos com cães para humanos, ele anota:
L'appréciation d'un phénomène par kilos A avaliação dum fenômeno por quilos
du corps de l'animal me paraît tout à fait de corpo de animal me parece
inexacte, quand on y comprend des tissus totalmente inexata quando ai se inclui
de toute nature et étrangers à la production tecidos de natureza diversa e
du phénomène sur lequel on calcule. estranha ao fenômeno avaliado.
acurácia são ditas viciadas, estimativas de baixa precisão são ditas imprecisas. É
habitual recorrer-se a uma analogia com tiros ao alvo: no centro do alvo está o
suposto valor da população, em torno dele diferentes estimativas que incorrem em
diferentes erros, como sugere a Figura 33 abaixo.
w xxxx
y
w y zz y
zz
y
w
w
• A estimativa W não tem acurácia (não se aproxima do alvo) nem precisão (as marcas
são dispersas)
• A estimativa X não tem acurácia (está longe do alvo) embora tenha precisão (pequena
dispersão dos tiros)
• A estimativa Y tem acurácia (aproxima-se do alvo), mas não tem precisão (marcas
dispersas)
• A estimativa Z tem tanto acurácia (acerta o alvo) quanto precisão (pequena dispersão)
Para entendermos por que a média das médias de grupos é a média da população e
a variância dos grupos é a variância da população, devemos nos lembrar das
seguintes propriedades de média e variância:
a adição (ou subtração) de uma constante aos valores de uma variável resulta
em igual acréscimo (ou decréscimo) do valor da média;
a adição (ou subtração) de uma constante aos valores de uma variável não
altera sua variância
A média de cada grupo que eventualmente seja menor que a média da população
deve ser resultado de uma composição de grupo com valores igualmente menores,
como que regularmente decrescidos por uma constante. Para médias de grupo
maiores que a média da população, o mesmo deve ser aplicar em acréscimos
regulares. A Figura 34 abaixo sugere graficamente o que se diz sobre o
comportamento de amostras dentro de um dado universo com quatro supostas
amostras de mesmo tamanho. Note ali que cada amostra é sugerida como um
deslocamento de distribuição à direita ou à esquerda e que a média da população
ocupa a posição central, a posição da média das médias dos grupos. Note também,
como sugerido pelas linhas de dupla seta, que as variâncias das amostras são iguais
à variância da população. Supostamente a população tem média = 10 e as
amostras médias = 6, 8, 12, 14 (média 10), todas com desvio padrão igual a
DP = 1,5.
97
População
Amostra 2 Amostra 3
0.3
Amostra 1 Amostra 4
0.25
Densidade de probabilidade
0.2
0.15
0.1
0.05
0
0 2 4 6 8 10 12 14 16 18 20
Variável aleatória X
x A1 + x A 2 + ... + x An n µ
Média das médias de amostras = = =µ
n n
pelo que se diz que a média das médias de amostras é um estimador acurado, ou
não viciado ou confiável da média de uma população (acerta o alvo!).
0.35
Distribuição de médias de
0.3 amostras da população
Densidade de probabilidade
0.25
0.2
Distribuição de valores
0.15 na população
0.1
0.05
0
0 2 4 6 8 10 12 14 16 18 20
Variável aleatória X
Se uma constante, v.g. ‘1/c ’, for multiplicada por cada valor de uma variável
X (um conjunto de observações), então a variância ficará multiplicada pelo
quadrado desta constante (as distâncias da média ficarão multiplicadas por
1/c, o quadrado das distâncias por 1/c2):
1
var( X .c ) = var( X ).
c2
Podemos alcançar uma definição de variância para as médias de amostras como
uma somatória de variâncias ponderadas por 1/n2, onde n será o número de
99
1 1 1 1 1 σ2
Varmédias de amostras = ∑ V A1 2
+V A 2 2 + ...V Ai 2 = 2 ∑V A1 +V A2 + ...V Ai = n σ 2
= ,
n n n n n2 n
onde VAi representa a variância da iéssima amostra;
σ2, a variância da população;
n, o tamanho da amostra.
A raiz quadrada desta variância resulta no desvio padrão das médias amostrais, que
leva o nome de erro padrão (da média ou da proporção), com vistas a diferenciar de
desvio padrão e lembrar ainda que se trata de um erro médio (habitual, padrão) que
se espera observar quando se estima a média de uma população a partir de médias
de grupos. Dispondo agora de um desvio padrão de médias, podemos considerar a
padronização das médias (ou proporções quando estivemos usando uma aproximação
normal para variáveis binomiais). Assim como o resíduo padronizado da média de
observações num dado conjunto era o resíduo expresso em desvios padrão:
_
x−x
Zres =
Desvio padrão de X
0.35
0.3
Densidade de probabilidade
0.25
0.2
0.15
0.1
0.05
0
-10 -8 -6 -4 -2 0 2 4 6 8 10
Zres de médias: valores de médias transformados em resíduo padronizado da média populacional
Com relação a respeitar iguais chances para qualquer elemento da população vir a
participar da amostra, deve-se considerar um sorteio aleatório dos indivíduos que
comporão a amostra, então chamada amostra casual simples. Se, por exemplo,
de uma população cujo fenômeno estudado tenha distribuição normal se tomar uma
amostra aleatória, se poderá esperar que na amostra o fenômeno venha a ter este
mesmo comportamento. Uma alternativa a esta abordagem é a amostra
sistemática, que se aplica quando os elementos que constituem a população têm
alguma ordem, v.g. população de pessoas atendidas num ambulatório médico onde
a apresentação de cada um obedece uma ordem no tempo. Neste tipo de amostra,
realiza-se a um sorteio aleatório de um número de ordem e depois se passa a uma
observação sistemática por um intervalo regular que se preste a fornecer no fim do
processo um número de elementos que se julgue adequado para compor a
amostra. Por exemplo, suponha-se uma população de 100 pacientes de um dado
serviço onde cada um é regularmente avaliado mensalmente e do qual se queira
conhecer a satisfação dos usuários. Estabelecendo que se possa formar este juízo
ouvindo pelo menos 20 pessoas aleatoriamente escolhidas, dever-se-ia tomar uma
pessoa a cada cinco. Para se estabelecer com quem começar, se procede a um
102
sorteio aleatório entre os cinco primeiros (com auxílio de computador é fácil gerar
números aleatórios, v.g. no Excel o comando seria Aleatorioentre(1,5)). Daí se passa a
entrevistar sistematicamente cada 5° indivíduo a se apresentar (1:5 ou os 20:100 que
se busca). Por exemplo, se por sorteio o primeiro a ser examinado for o 3° do
primeiro grupo de 5 pessoas, depois dele será examinado o 8°, o 13º, etc. até o
98º, que será o 20° indivíduo na amostra. Ao fim de um mês se terá completado
uma amostra com as 20 pessoas que se queria. Desde que se acredite que nada
relativo ao fenômeno estudado interfira na ordem de apresentação das pessoas (a
ordem é também aleatória!), este método é tão efetivo quando o da amostra casual
simples.
Tamanho de amostra
Como já dito, à Estatística interessa avaliar o erro que se pode cometer numa
previsão. Nestes cálculos o número de observações é levado em conta e, daí, dada
uma relação qualquer onde tamanho da amostra seja uma variável, sempre se pode
104
por operações algébricas tornar o número uma variável dependente, aquela que é
estimada. Tomemos como exemplo a estimativa da proporção de uma doença na
população. Chamemos de p a proporção na amostra e π a proporção na população.
Logo,
p – π = erro cometido na estimativa da proporção populacional através da
informação da amostra e esta diferença padronizada deve ser:
p −π π (1 − π )
Zres = , onde é o erro padrão da proporção e p – π é o erro
π (1 − π ) n
n cometido na estimativa
Zres 2π (1 − π )
n=
erro 2
Nesta fórmula, o Zres se pode arbitrar segundo o juízo que se fará para grandezas
na análise da amostra, v.g. se vamos considerar normal os 95% que se reúnem em
torno da média, sabemos que o Zres corresponde ao intervalo entre Zres = -1,96 e
Zres = +1,96. A proporção na população (π), se desconhecida pode ser arbitrada
como uma expectativa do pesquisador – geralmente ele se vale de registros de
estatísticas oficiais ou estudos prévios de outros autores que encontra na literatura
especializada. O erro pode ser arbitrado como uma tolerância do pesquisador, v.g.
se estuda Hipertensão Arterial e espera uma prevalência de 15%, pode arbitrar que
tolera errar 2% a mais ou 2% a menos.
Neste exemplo nos referimos a uma estimativa de proporção de doentes, mas para
qualquer desenho de estudo, v.g. estimativa de efeito de um tratamento, a hipótese
estudada pode ser formalizada e com processamento algébrico pode-se chegar a
uma fórmula para cálculo de tamanho de amostra. Para o escopo de nosso estudo
105
REFERÊNCIAS
1
Plato’s Thætetus.Translated by Benjamin Jowett. The Project Gutenberg/ Carnegie-Mellon University.
http://www.gutenberg.org/etext/1726
2
Aristotle. Topics. translated by W. A. Pickard-Cambridge. Project Gutenberg Consortia Center's.
http://www.Gutenberg.us
3
Eco U. Kant e o ornitorrinco. S. Paulo: Record, 1998
4
Da Costa NCA. O conhecimento científico. São Paulo: Discurso Editorial, 1997.
5
Eco U. op. cit..
6
Polo M. As viagens de Marco Pólo. Tradução de Carlos Heitor Cony e Lenira Alcure. Rio de Janeiro: Ediouro,
2001: página 195.
7
Poincaré, H. Science and hypothesis. New York: Dover Publications, 1952: p. xxiv.
8
Descartes R. Discours de la méthode pour bien conduire sa raison, et chercher la verité dans les sciences.(1637).
Association de Bibliophiles Universels, 1999: http://abu.cnam.fr/cgi-bin/donner_html?methode3 (.....je pense,
donc je suis...)
9
Aristotle. Metaphysics. Book V, item 7. University of Adelaide, Australia: eBooks@Adelaide, 2004.
http://etext.library.adelaide.edu.au/a/aristotle/metaphysics/metaphysics.zip
10
Garbi GG. A rainha das ciências. São Paulo: Editora Livraria da Física, 2006: 95.
11
Carroll L. The annotated Alice – Introduction and notes by Martin Gardner. London: W.W. Norton & Company,
2000: página 213.
12
Campbell NR. Measurement. In: Newman J. The world of mathematics. Vol. 3. Mineola, NY: Dove
Publications, 2000: 1797-1831.
13
João Cabral de Melo Neto. Morte e vida severina. Rio de Janeiro: Nova Fronteira, 1996. pp 29.
14
Machado de Assis. Memórias póstumas de Brás Cubas. Coita, São Paulo: Ateliê Editorial Ltda, 1998. pp. 136-7.
15
Armitage P, Berry G. Statistical methods in medical research. Oxford, UK, Blackwell Scientific Publications,
1987. página 86.
16
Hacking I. Na intrroduction to probability and inductive logic. Cambridge: Cambridge University Press; 2001. p.
127-39.
17
Xavier University, EEUU: http://cerebro.xu.edu/math/Sources/Laplace/ecole.pdf, em maio 2007.
18
Bernoulli J. The Law of Large Numbers. In:Newman J. The world of mathematics. Volume 3. p. 1452-5.
19
Stigler SM. Studies in the History of Probability and Statistics. XXXIII Cauchy and the Witch of Agnesi: An
Historical Note on the Cauchy Distribution. Biometrika 1974; 61(2): 375-80.
20
João Guimarães Rosa. Grande sertão: veredas. 19ª Edição. 9ª impressão. Rio de Janeiro: Ed. Nova Fronteira;
2001. p. 31.
21
Claude Bernard. Introduction à l’étude de la médecine expérimentale (1865). Université du Québec à
Chicoutimi. http://www.uqac.uquebec.ca/zone30/-Classiques_des_sciences_sociales/index.html, maio 2007, p.
20.
22
Fisher RA. Statistical methods for research workers. Edinburgh: Oliver and Boyd, 1925.
23
Neyman J, Pearson E. On the problem of the most efficient tests of statistical hypotheses. Philos Trans Roy Soc
A 1933;231:289-337.
24
Pagano M, Gauvreau K. Principles of biostatistics. 2nd Edition. Pacifi Grove, CA, USA: Duxbury, Thomson
Learning: 2000. p. 239-43.
25
Student. The probable error of a mean. Biometrika 1908; 6 (1): 1–25
26
McNemar Q. Note on the sampling error of the difference between correlated proportions or percentages.
Psychometrika 1947; 17:153–157.
157
27
Bonferroni, C. E. "Il calcolo delle assicurazioni su gruppi di teste." In Studi in Onore del Professore Salvatore
Ortu Carboni. Rome: Italy, pp. 13-60, 1935.