Você está na página 1de 48

SUMÁRIO

1 INTRODUÇÃO ............................................................................................ 4

2 DEFINIÇÃO DE ESTATÍSTICA .................................................................. 5

3 DEFINIÇÃO DE BIOESTATÍSTICA ............................................................ 6

4 VARIÁVEL BIOLÓGICA .............................................................................. 7

4.1 Análise descritiva ................................................................................. 7

4.2 Análise inferencial ................................................................................ 7

4.3 Planejamento experimental .................................................................. 8

5 TIPOS DE VARIÁVEL ................................................................................. 8

6 ELEMENTOS DE PROBABILIDADES E SUAS DISTRIBUIÇÕES ........... 10

6.1 Probabilidades.................................................................................... 10

6.2 Definições de probabilidade ............................................................... 10

6.3 Probabilidade condicional................................................................... 11

6.4 Teorema de Bayes ............................................................................. 12

6.5 Algumas aplicações das probabilidades............................................. 13

6.6 Epidemiologia ..................................................................................... 15

6.7 Teste de diagnóstico .......................................................................... 15

7 PORQUE ESTUDAR ESTATÍSTICA ........................................................ 21

8 ESTATÍSTICA E BIOESTATÍSTICA ......................................................... 22

8.1 Populações e amostras ...................................................................... 23

8.2 Parâmetros estatísticos ...................................................................... 24

9 ESTATÍSTICA DESCRITIVA .................................................................... 25

9.1 Escalas de Medidas e Tipos de Variáveis .......................................... 25

9.2 Conceitos fundamentais: Somatório ................................................... 28

9.3 Métodos de Numeração ..................................................................... 30

9.4 Distribuição de frequências de uma variável ...................................... 33

2
9.5 Intervalos de classes desiguais .......................................................... 43

10 REFERÊNCIAS BIBLIOGRÁFICAS .......................................................... 46

3
1 INTRODUÇÃO

Prezado aluno!
O Grupo Educacional FAVENI, esclarece que o material virtual é semelhante
ao da sala de aula presencial. Em uma sala de aula, é raro – quase improvável -
um aluno se levantar, interromper a exposição, dirigir-se ao professor e fazer uma
pergunta , para que seja esclarecida uma dúvida sobre o tema tratado. O comum
é que esse aluno faça a pergunta em voz alta para todos ouvirem e todos ouvirão a
resposta. No espaço virtual, é a mesma coisa. Não hesite em perguntar, as perguntas
poderão ser direcionadas ao protocolo de atendimento que serão respondidas em
tempo hábil.
Os cursos à distância exigem do aluno tempo e organização. No caso da nossa
disciplina é preciso ter um horário destinado à leitura do texto base e à execução das
avaliações propostas. A vantagem é que poderá reservar o dia da semana e a hora que
lhe convier para isso.
A organização é o quesito indispensável, porque há uma sequência a ser
seguida e prazos definidos para as atividades.

Bons estudos!

4
2 DEFINIÇÃO DE ESTATÍSTICA

Fonte: guiadoestudante.abril.com.br

A Estatística constitui-se em uma ciência destinada a:

Decidir o melhor plano (experimental ou observacional) para a execução de


uma pesquisa - metodologia científica.
Organizar e resumir dados de contagem, mensuração e classificação -
raciocínio dedutivo.
Inferir sobre populações de unidades (indivíduos, animais, objetos) quando
uma parte (amostra) é considerada - raciocínio indutivo. (VELARDE, 2010, p.
41).

A doutrina sobre o chegar a termo do tempo e da história da estatística


matemática (escatologia) é tão complicada como a de qualquer religião, ou mais. Além
disso, as conclusões da estatística matemática não são apenas verdadeiras, como,
ao contrário das verdades da religião, podem ser provadas.
Os métodos da estatística matemática são universais (ubíquos), e o estatístico,
assim como o especialista em modelagem matemática, é capaz de colaborar em,
praticamente, qualquer área de conhecimento e atividade profissional.
Uma igualdade que pode sintetizar as considerações descritas anteriormente
pode ser expressa como:
ESTATÍSTICA = CIÊNCIA + TECNOLOGIA + ARTE

5
3 DEFINIÇÃO DE BIOESTATÍSTICA

Fonte: queconceito.com.br

É a metodologia estatística aplicada às ciências biológicas, com a finalidade


planejar, coletar, organizar, resumir, analisar e interpretar os dados, permitindo tirar
conclusões biológicas sobre populações a partir do estudo de amostras (Louis é
considerado o pai da bioestatística). Em 1829, Pierre Charles Alexandre Louis (1787-
1872), afirmou:

“Eu sei que a verdade está nos fatos e não na mente que os julga, e quanto
menos eu introduzir da minha opinião nas conclusões, mais próximo estarei
da verdade” (LOUIS, 1787, apud Padovani, 2012, p. 16).

Considera-se que o olho humano é capaz de enxergar padrões em números


puramente aleatórios, até que ponto um padrão aparente realmente significa alguma
coisa?
John W. Tukey (1915-2000), nascido em New Bedford, Massachusetts afirmou:
“É melhor ter uma resposta aproximada à pergunta certa do que ter a resposta exata
à pergunta errada”.
A força da estatística aplicada às diversas áreas do conhecimento está em sua
capacidade de persuadir os pesquisadores a formular perguntas; de considerar se
estas questões podem ser respondidas com as ferramentas disponíveis para o
experimentador; de ajudá-lo a estabelecer hipóteses (nulas – H0) adequadas; de

6
aplicar rígidas disciplinas de planejamento aos experimentos. De mesma forma,
podem-se expressar os sentimentos descritos na igualdade:
BIOESTATÍSTICA = VIDA + ESTATÍSTICA

4 VARIÁVEL BIOLÓGICA

Quando se estuda uma variável biológica, o maior interesse do pesquisador é


conhecer o comportamento dessa variável, analisando a ocorrência de suas possíveis
realizações.
O resultado de medições de variáveis biológicas encontra-se, geralmente,
dentro de intervalos determinados e bem definidos, mas não sujeitos à repetição
exata. Uma variável biológica pode ser entendida como uma classificação, uma
qualidade, ou como medida quantificada por magnitude, intensidade, traço, entre
outras designações que varia tanto intra como interindivíduos.
O estudo de bioestatística compreende o planejamento e a análise estatística
(estatística descritiva e inferencial), mas voltado às informações biológicas contidas
nas variáveis em consideração, transformadas em dados coletados para a
operacionalização dos métodos estatísticos.

4.1 Análise descritiva

Organização dos dados coletados por meio de classificação, contagem ou


mensuração. Os dados devem ser apresentados de forma clara por meio tabelas,
gráficos e medidas resumo (posição e variabilidade), não permitindo, no entanto,
conclusões analíticas.

4.2 Análise inferencial

Permite realizar inferências (conclusões e analíticas) a respeito de populações


a partir de amostras pela aplicação de testes de hipóteses e/ou construção de
intervalos de confiança. Deve ser considerado que está utilizando-se amostras para
inferir aos dados reais da população (parâmetros), portanto existindo nestas

7
estatísticas (dados obtidos de amostras) uma margem de erro. A exceção é o censo,
quando toda a população é pesquisada.

4.3 Planejamento experimental

Consiste em estabelecer o desenho amostral com poder adequado para os


testes de hipóteses e estimações sem vieses (distorções). Deve ser considerado o
cálculo do tamanho da amostra (tamanho ético e estatístico) e a definição da forma
de coleta de dados (técnicas de amostragem).

5 TIPOS DE VARIÁVEL

Fonte:researchgate.net

Variáveis são características que podem assumir valores diferentes de um


indivíduo para outro ou no mesmo indivíduo ao longo do tempo. Em relação à
participação no estudo, as variáveis podem ser classificadas em:

Independente, explicativa ou preditora: permite predizer uma resposta


(causas).
Dependente ou resposta: evento ou característica que se pretende estudar
(efeitos). I
Variável de controle: deseja-se que esteja homogeneamente distribuí da nos
grupos, pois poderia interferir nos resultados (atuando, por exemplo, como
uma variável de confusão). Não tem interesse para estudo. (VELARDE, 2010,
p. 41).

Observações:
8
I. Dependo do objetivo do estudo, uma mesma variável pode ser preditora,
resposta ou de controle.
II. As variáveis preditoras, resposta e de controle devem ser indicadas pelo
pesquisador (biologia), nunca pelo estatístico.
III. O número excessivo de variáveis dificulta a análise estatística e torna
menor o poder da amostra.
IV. O estatístico é capaz de coordenar o planejamento de uma pesquisa e
realizar a análise.
Escala de Variáveis:
Quanto à escala utilizada, têm-se variáveis:
1. Categóricas (Qualitativas)
Nominal (classificação sem ordem definida)
Ordinal (classificação com ordem definida)
2. Numéricas (Quantititivas ou Intervalar)
Discreta (contagem, correspondendo a números inteiros)
Contínua (mensuração, correspondendo a números reais)
Observações:
I. A unidade de medida mostra a diferença entre as numéricas discreta
e contínua.
II. Escore não é contagem (não confundir variáveis categóricas nominais
expressas por números com variáveis discretas).
III. Pode-se transformar uma variável numérica em categórica (lembrar
que há perda de informações).
IV. Para variáveis categóricas a análise estatística é limitada. Se as
variáveis dependentes e independentes forem todas categóricas, só
será possível utilizar testes não paramétricos, que apresentam menor
poder.
V. Eric Temple Bell (matemático norte-americano) afirmou: “Números
não mentem, mas têm a propensão de dizer a verdade com intenção

9
6 ELEMENTOS DE PROBABILIDADES E SUAS DISTRIBUIÇÕES

Fonte: slideshare.net

6.1 Probabilidades

O estudo das probabilidades se faz necessário em situações em que se


conhece os desfechos possíveis de alguma situação, porém não se conhece
qual deles irá acontecer; nas áreas biomédicas isto acontece
constantemente. Alguns conceitos precisam ser apresentados para facilitar a
definição e entendimento das probabilidades. Um experimento aleatório é
qualquer experimento em que é possível definir todos os resultados deste
sem conhecer qual deles será observado. O espaço amostral é o conjunto de
todos os valores possíveis de um experimento aleatório. Um evento é
qualquer subconjunto de um espaço amostral. (VELARDE, 2010, p. 41).

6.2 Definições de probabilidade

De acordo com velardes (2010):


Definição clássica: A probabilidade de um evento é a divisão do número de
resultados favoráveis pelo número de resultados possíveis.
Definição frequentista: A probabilidade de um evento A, P(A), está dada por:

Onde m é o número de vezes que é observado A e n é o número de


repetições do experimento.
Definição subjetivista: A probabilidade de um evento A, P(A),é a medida dada
por alguém sobre o grau de crença do acontecimento de A.

10
Alguns resultados básicos para dois eventos A e B são enumerados a seguir:
1. 0 ≤ P(A) ≤ 1.
2. Se o espaço amostral é denotado por Ω, então P(Ω)=1.
3. P(A_B) = P(A) + P(B) − P(A_B).
4. Dois eventos são exclusivos se possuem interseção vazia.
5. Para dois eventos exclusivos, A e B, a probabilidade deles acontecerem
simultaneamente é nula. Isto é P(A_B)=0.
6. Se um espaço amostral está formado pelos eventos exclusivos A1, ..., An
então P(A1) + ··· + P(An)=1.
7. Seja A’ o evento complementar de A então P(A’ )=1 − P(A).

6.3 Probabilidade condicional

Em algumas situações, o acontecimento de certos eventos influencia outros


através de suas probabilidades. Como por exemplo, a probabilidade de uma
pessoa ser hipertensa varia segundo o estado nutricional dela. Os obesos
têm maior probabilidade de hipertensão comparados com os eutróficos.
(VELARDE, 2010, p. 41).

Para dois eventos, A e B, a probabilidade condicional de A, dado B, é definida


pela relação:

Exemplo: A tabela a seguir mostra a relação entre dois sintomas que


costumam aparecer em pessoas com uma determinada doença. A amostra está
formada por 266 pessoas com a doença.

A probabilidade de um paciente ter o sintoma A está dada por:

A probabilidade de um paciente, que tem o sintoma B, ter o sintoma A é


calculada como:

11
6.4 Teorema de Bayes

Fonte: wikipedia.org

Velardes (2010), diz que o teorema de Bayes permite rever a informação


probabilística sobre um determinado evento quando existe informação sobre outro
evento relacionado ao de interesse. Assim ele pode ser usado para conhecer o risco
de se ter uma determinada doença à luz da informação fornecida pelo resultado de
um determinado teste de diagnóstico, tendo disponível o risco populacional.
O teorema de Bayes diz que, para dois eventos A e B, a probabilidade de A
condicional a B é dada por:

A relação que aparece no denominador do Teorema de Bayes, P(B) =


P(B|A)P(A) +P(B|A’)P(A’) é conhecida como Regra da Probabilidade Total e permite
calcular a probabilidade incondicional de um evento.
Exemplo: Um restaurante popular apresenta dois tipos de refeição: salada
completa ou um prato a base de carne. Vinte por cento dos fregueses do sexo

12
masculino preferem salada; trinta por cento das mulheres escolhem carne; setenta e
cinco por cento dos fregueses são homens. Num certo dia o primeiro freguês a sair
do restaurante escolheu a salada completa. Qual é a probabilidade de o freguês ser
do sexo feminino?
Definindo os eventos S: o freguês escolhe salada completa e H: o freguês é do
sexo masculino são obtidas as seguintes probabilidades:

A probabilidade solicitada é P (H0 |S) que, através do Teorema de Bayes, será:

Deve ser observado que este resultado é mais do que o dobro da probabilidade
inicial de um freguês ser do sexo feminino.

6.5 Algumas aplicações das probabilidades

Comparação de riscos e risco relativo:


O risco é uma quantificação do grau de certeza de algum evento, geralmente
um fator negativo ou nocivo para a saúde. Portanto, pode ser visto como uma
probabilidade.
Em determinadas situações o interesse está em comparar o risco de acontecer
algum evento em dois grupos independentes.

Em estudos prospectivos, grupos de indivíduos com características diferentes


são acompanhados para estudar a ocorrência de um resultado particular.
Nestes ensaios é fácil calcular a proporção de indivíduos com a característica
de interesse em cada grupo, e a razão destas duas proporções é uma medida
comparativa dos riscos de um grupo contra o outro. Esta razão é conhecida
como risco relativo. (VELARDE, 2010, p. 44).

De forma geral, a tabela 3.2.1 mostra o resultado de um estudo prospectivo:

13
VELARDE, 2010, p. 44

Tabela 3.1: Representação geral dos resultados de um estudo prospectivo.


Os riscos de aparecer a característica de interesse em cada grupo são:

O risco relativo é:

Um valor de RR = 1 significaria que o risco em ambos grupos é igual.


Exemplo: A tabela 3.2.1 mostra o resultado do estudo de 107 bebês com peso
no nascimento inferior ao percentil 5% para seu tempo de gestação, segundo padrões
publicados. O retardo do crescimento dos bebês foi classificado como simétrico ou
assimétrico segundo o resultado de um exame de ultrasom, e esta classificação é
mostrada em relação ao escore Apgar.
Para bebês com classificação simétrico ou assimétrico, o risco de um escore
Apgar menor a 7 é:

VELARDE, 2010, p. 45

Tabela 3.2: Relação entre o escore Apgar < 7 e classificação do retardo de


crescimento fetal.
14
e o risco relativo:

O que significa que o risco de ter um escore Apgar menor a 7 no grupo simétrico
é aproximadamente 35% do risco no grupo assimétrico.

6.6 Epidemiologia

As probabilidades são amplamente utilizadas em epidemiologia. Diversas taxas


e indicadores são casos especiais de aplicações das probabilidades, destacando-se
a prevalência e a incidência.
Prevalência: A prevalência de uma doença é a proporção, ou probabilidade,
de uma doença numa determinada população.
Incidência: A incidência de uma doença é a proporção, ou probabilidade, de
casos novos de uma doença em um determinado período.
Para o gráfico 3.1, a prevalência no período 0 a 18 está relacionada com os 10
casos existentes no mesmo, enquanto que a incidência para o mesmo período é
proporcional aos 7 casos que começaram dentro dele.
Em ambos casos se considera como denominador o tamanho da população
exposta à doença.

6.7 Teste de diagnóstico

Diagnóstico é parte essencial na prática clínica, e muitas pesquisas médicas


têm por objetivo melhorar os métodos de diagnóstico. A questão de interesse
é quão bom um particular teste de diagnóstico pode ser. Isto pode ser
avaliado estudando os conceitos de sensibilidade, especificidade, valor
preditivo positivo e valor preditivo negativo de um teste. Para formalizar as
definições serão usados os eventos A: o paciente está doente e B: o paciente
tem resultado positivo no teste de diagnóstico. (VELARDE, 2010, p. 46).

Sensibilidade: A sensibilidade de um teste é a proporção de resultados


positivos identificados, entre todos os doentes. Em termos de probabilidades:
Sensibilidade = P(B|A)

15
Especificidade A especificidade de um teste é a proporção de resultados
negativos, entre os não doentes. Usando nomenclatura de probabilidades se tem:
Especificidade = P(B’ |A’ )
Onde A’ indica o evento o paciente não está doente e B’ o evento o paciente
tem resultado negativo no teste.
Valor preditivo positivo (VPP): O valor preditivo positivo de um teste é a
proporção dos pacientes que têm a doença entre os que apresentam resultado
positivo no teste. Formalmente:
VPP = P(A|B)
Valor preditivo negativo (VPN) O valor preditivo negativo de um teste é a
proporção dos pacientes que não têm a doença entre os que apresentam resultado
negativo no teste. Ou:
VPN = P(A’ |B’ )
Exemplo: Um novo teste clínico é usado para diagnosticar uma doença. Os
resultados do estudo de 344 indivíduos estão resumidos na tabela 3.2.3. e para estes
dados podem ser calculadas a sensibilidade, a especificidade, o VPP e o VPN:

Tabela 3.3: Resultados de um teste clínico segundo o estado real dos indivíduos. (VELARDE, 2010,
p. 46).

Distribuições de probabilidades:

Como já foi dito, as probabilidades são úteis quando uma variável é


observada em um experimento aleatório. O comportamento probabilístico
desta variável chamada de aleatória é representado através da distribuição
de probabilidades. Isto significa que seria necessário achar a referida

16
distribuição para cada problema/variável em estudo, porém, algumas
situações padrões podem ser identificadas, gerando os chamados modelos
probabilísticos de variáveis aleatórias. Os mais usados na área biomédica
serão apresentados nas seguintes subseções, porém, não será usado
nenhum formalismo que um estudo detalhado dos mesmos requer.
(VELARDE, 2010, p. 47).

Distribuição Binomial:

É um modelo probabilístico usado para dados discretos. É um dos modelos


mais simples. Ele considera que um experimento tem dois possíveis
resultados que podem ser chamados de sucesso e fracasso. Para cada um
destes resultados existe uma probabilidade associada de forma que a soma
destas sempre será igual a 1. (VELARDE, 2010, p. 47).

O interesse neste modelo é descrever o comportamento probabilístico do


número de sucessos em n repetições do experimento.
Por exemplo, se o interesse é o fenômeno obesidade mórbida, através deste
modelo binomial será possível descrever a variável número de obesos mórbidos em
uma população e, através dele, estimar a prevalência de obesidade mórbida como
sendo a probabilidade de um indivíduo dessa população ser obeso mórbido.
Distribuição Poisson:
De acordo com Velarde (2010), este modelo é utilizado quando a variável de
estudo é o número de ocorrências de um evento em intervalos de medição fixos. Para
isto é necessário supor que os eventos de interesse ocorrem ao longo do tempo, ou
espaço, segundo uma taxa média fixa.
Exemplos de variáveis que podem ser modeladas com a distribuição Poisson
são o número diário de casos novos de câncer de mama, o número de células
anormais numa área fixa de slides histológicos, entre outras.
Distribuição Exponencial:
A distribuição Exponencial está ligada à distribuição Poisson. Enquanto que a
Poisson estuda o número de ocorrências em intervalos de medição fixos, a
Exponencial estuda o tamanho dos intervalos entre duas ocorrências consecutivas.
Dada a relação existente entre modelos Poisson e Exponencial os exemplos
da Poisson serão adaptados: o tempo decorrido entre dois casos novos de câncer de
mama, distância entre duas células anormais em slides histológicos.
Distribuição Normal:
A distribuição Normal, também chamada Gaussiana, é a mais usada devido às
propriedades matemáticas que a tornam a base de grande parte da teoria de

17
inferência. Ela é muito usada quando a variável de estudo apresenta valores
concentrados em torno de um valor, como mostrado no polígono da figura 3.2.
A distribuição Normal fica definida por dois parâmetros, a média µ e a variância
σ². O primeiro parâmetro define a posição da distribuição em torno do qual se
encontram os demais valores e o segundo a dispersão dos valores em torno da
posição central.
A distribuição Normal com média 0 e variância 1 é chamada distribuição Normal
padrão e as probabilidades acumuladas para esta distribuição encontram-se em
tabelas que aparecem num apêndice.
Um resultado teórico permite converter/reduzir qualquer distribuição Normal
para uma Normal padrão, este resultado é comumente chamado padronização. Outro
resultado teórico permite usar a distribuição Normal padrão desde que o tamanho de
amostra seja suficientemente grande, independente da distribuição original dos dados.
Para uma variável com distribuição Normal é fácil calcular qualquer
probabilidade acumulada usando a padronização. Como por exemplo, seja X a
variável que caracteriza a pressão arterial sistólica, que tem média 120 e variância 25.
Achar a probabilidade de ter um paciente com no máximo 129 de PAS.

18
Figura~3.1: Acompanhamento de pacientes com uma determinada doença. Os
pacientes representados por linhas terminadas em círculos cheios são aqueles que
tiveram alta da doença, os outros são observações censuradas. Velarde (2010, p.49).

Figura~3.2: Polígono de frequências de uma variável com distribuição Normal


de média 3. Velarde (2010, p.49).
Sabe-se que P(Z ≤ 0) = 0, 5 pelas propriedades da distribuição Normal padrão
e pelas tabelas nos apêndices temos que P(0 ≤ Z ≤ 1, 8) = 0, 46407.
Achar também a probabilidade de encontrar um paciente com PAS menor ou
igual a 111. Velarde (2010, p.49).

Distribuições amostrais
Quando é selecionada uma amostra a partir de uma população de interesse
não existe total certeza de que esta seja representativa, só se sabe que esta foi
coletada sob critérios de aleatoriedade.

A partir desta amostra pode ser calculada, por exemplo, a média amostral.
Porém, se outras amostras são coletadas da mesma população não existe a
garantia de que as médias calculadas com estas amostras sejam todas iguais
à primeira. VELARDE, 2010, p. 47).

Contudo, qualquer que seja a amostra, o objetivo é usá-la para fazer inferência
sobre os parâmetros da população, como representado no diagrama da figura 3.3.

19
Na prática só é coletada uma amostra, por isso, antes de obter a média o seu
valor é uma variável aleatória. Da mesma forma, outras estatísticas podem ser
tratadas como variáveis aleatórias.
Sendo assim, uma distribuição amostral é definida como a distribuição de
probabilidades de uma estatística.
Alguns resultados úteis sobre distribuições amostrais são apresentados a
seguir.

Para a média de uma amostra, se os dados originais têm distribuição Normal


com média populacional µ e variância σ2, então a média da amostra terá
distribuição Normal com a mesma média, µ, e variância menor, σ²/n.
(VELARDE, 2010, p. 48).

Para a proporção de indivíduos com uma característica, se os dados têm


distribuição Binomial/Bernoulli, então para n suficientemente grande, a proporção de
indivíduos com a característica de interesse na amostra, pb, tem distribuição que se
aproxima da Normal quando n cresce, com média igual à proporção da população, p,
e variância igual a p(1−p)/n.
Distribuição t de Student
A média de uma amostra tem uma distribuição similar, mas não igual à Normal
quando a variância original é desconhecida: a distribuição t de Student, que depende
de um parâmetro adicional chamado grau de liberdade. Valores de probabilidades
acumuladas para esta distribuição são encontrados em tabelas nos apêncides. Esta
distribuição será usada sempre que for necessário fazer inferência sobre médias
quando as variâncias das populações.

20
7 PORQUE ESTUDAR ESTATÍSTICA

Fonte: psicoativo.com

O nome, estatística, é derivado da palavra latina "status". Originalmente essa


palavra significava "informações úteis ao Estado" (para fins de taxação,
conhecimentos dos recursos do país, da composição da população entre outros).
Posteriormente, a palavra passou a significar dados quantitativos que apresentavam
tendência de flutuarem de uma forma mais ou menos imprevisível, significado esse
que permanece até hoje quando se falam em estatísticas de, por exemplo, acidentes
de trabalho, do número de nascimentos ou mortes, etc.
Mais recentemente, a palavra passou a significar a ciência que diz respeito à
coleta, organização e análise dos dados quantitativos de tal forma que seja possível
efetuar julgamentos racionais sobre os mesmos.

A estatística tem também a função de auxiliar do método científico,


especialmente no planejamento experimental, na coleta de dados, na
interpretação analítica dos experimentos (análise dos dados experimentais)
e na estimação dos parâmetros da população. (PANOSSO, 2015, p. 1).

É necessário trabalhar os dados para transformá-los em informações, para


compará-los com outros resultados, ou ainda para julgar a adequação de alguma
teoria ou hipótese. De modo bem geral, podemos dizer que a essência da Ciência é a
observação e que o seu objetivo básico é a inferência.
Além disso, o uso de técnicas computacionais pode parecer um problema para
o pesquisador ou estudante cujo treino e interesse não envolvam a matemática,

21
entretanto, a estatística é uma realidade na literatura científica e especializada. Então,
julgamos razoável que o profissional das áreas de biológicas e agrárias adquira um
mínimo de conhecimento técnico sobre estatística. Panosso (2015).

8 ESTATÍSTICA E BIOESTATÍSTICA

De acordo com Panosso (2015), os pesquisadores de disciplinas relacionadas


às ciências biológicas, agrárias e à saúde utilizam uma grande variedade de
ferramentas para entende os fenômenos estudados por eles. Uma das mais
importantes é a bioestatística/estatística, pois esta desempenha um papel
fundamental na análise de dados coletados no contesto de testes químicos e ensaios
biológicos, bem como em estudos de outras áreas como epidemiologia, política
sanitária, saúde pública e familiar entre outras. A Bioestatística é um ramo mais amplo
da área Estatística.

A Estatística é fundamental na análise de dados provenientes de quaisquer


processos onde exista variabilidade, estando assim, interessada nos
métodos e processos quantitativos que servem para a coleta, organização,
resumo, apresentação e análise desses dados, bem como na obtenção de
conclusões válidas e na tomada de decisões a partir de tais análises.
(PANOSSO, 2015, p. 2).

Assim, de maneira geral, a estatística pode ser dividida em três áreas:


A Estatística Descritiva: geralmente utilizada nas etapas inicias dos trabalhos,
se refere à maneira de representar dados em tabelas e gráficos, resumi-los por meio
de algumas medidas sem, contudo, tirar quaisquer informações sobre um grupo maior.
Portanto, informações e conclusões a respeito do fenômeno estudado são tiradas de
modo informal e direto, restritas àquele particular conjunto de valores.
A Probabilidade: é a teoria matemática utilizada para se estudar a incerteza
oriunda de fenômenos de caráter aleatório. Seu estudo é fundamental na
bioestatística/estatística, tem sua origem ligada aos jogos de azar. Esses jogos
implicam em ações como girar uma roleta, lançar um dado ou uma moeda, tendo como
característica a incerteza de ocorrer determinado acontecimento (como a face cara de
uma moeda, ou o às de ouro em um set de baralho) em determinada tentativa, e a
regularidade em longo prazo, que permite prever o número de vezes que ocorrerá
determinado acontecimento em uma série de tentativas conduzidas de maneira
uniforme Panosso (2015)
22
A Inferência Estatística: ao contrário da estatística descritiva, é o estudo de
técnicas que possibilitem a extrapolação das informações e conclusões obtidas a
partir de subconjuntos de dados, a um grande número de dados, ou seja, procura
estabelecer conclusões para toda uma população, quando apenas se observou uma
parte desta (denominada mostra).
De maneira geral a Bioestatística é a Estatística aplicada a dados biológicos e
de ciências agrárias, como tal, está interessada na coleta, organização, resumo,
apresentação e análise de tais dados.

8.1 Populações e amostras

Na terminologia estatística, o grande conjunto de dados que contém a


característica que temos interesse recebe o nome de População. Esse termo refere-
se não semente a uma coleção de indivíduos, mas também ao alvo sobre o qual reside
o nosso interesse. Assim, nossa população pode ser tanto todo o conjunto de cervos
em uma área de proteção, todas as árvores de uma determinada espécie na floresta
amazônica, todas as lâmpadas produzidas em uma fábrica em um determinado
período de tempo. Dentro dessa definição de população, poderemos, ainda, fazer uma
distinção entre os tipos de população:

Populações Comuns: "Uma população é um conjunto de pessoas (ou coisas)


que possuem uma característica observável comum" – este é o conceito mais
amplo de população, e temos como exemplos: população de pessoas que
moram na Região Sudeste do Brasil que apresentam resultado positivo para
hepatite C, a população de plantas de uma variedade de soja plantada na
região sul do Brasil, a população de bovinos de corte do estado do Mato
Grosso do Sul.
Populações Estatísticas: "a população estatística se refere a dados
(informação), e não às pessoas, indivíduos ou objetos" nessa abordagem, a
população é composta de características das pessoas (ou objetos de estudo).
Tomando o exemplo anterior, na população comum de pessoas que moram
na Região Sudeste do Brasil que apresentam positivo para hepatite C,
teríamos como populações estatísticas um parâmetro que indicasse se todas
as pessoas necessitaram de transfusão sanguínea em algum momento de
suas vidas, por exemplo. No caso da população de uma variedade específica
de soja teríamos como população estatística, a sua produtividade. Portanto,
a população estatística consiste em características de pessoas ou objetos de
estudo, independente de terem sido medidas ou não.
Amostra: Na maioria dos casos, não conseguimos acessar toda uma
população para estudar as características de interesse, isso devido às razões
econômicas, éticas e dificuldades de outra natureza. Assim, tomaremos
alguns elementos dessa população para formar um grupo a ser estudado.
Este subconjunto da população, em geral com menores dimensões, é
denominado amostra, ou seja, qualquer subconjunto da população.

23
Dado: esse termo se refere ao registro das medições de características de
interesse. Assim, as características tipo sanguíneo e altura de alguns, ou
todos, os elementos de uma população são avaliadas e registradas. Os
resultados desses processos são obtidos na forma de dados. Assim, em um
ensaio experimental ou levantamento, o pesquisador terá medido, ou
observado, as características que compõe a amostra e as terão registradas
em forma de dados. Entretanto, o mesmo não será verdade no caso da
população. Tomemos como exemplo um experimento no qual temos por
objetivos realizar um teste clínico para aferição da pressão sanguínea dos
alunos de uma determinada universidade. Nesse caso, será impraticável
medir a pressão sanguínea de todos os alunos, mas é bastante razoável fazer
medições em uma amostra de 50 dessas pressões sanguíneas.
Variável: Uma característica que pode diferir de uma entidade biológica para
outra é denominada variável. É a característica de estudo do pesquisador. As
informações a respeito das variáveis de interesse são armazenadas na forma
de dados. (PANOSSO, 2015, p. 3).

8.2 Parâmetros estatísticos

De acordo com Panosso (2015) os conceitos de parâmetros e estatísticas se


relacionam fortemente aos conceitos de população e amostra. Um parâmetro é
definido como qualquer resumo dos elementos de uma população, enquanto o resumo
provável de elementos de uma amostra é chamado de estatística (medida, métrica)
(não confundir com o nome da disciplina Estatística). Assim, a pressão sanguínea
média de todos os alunos de uma universidade seria um parâmetro enquanto que a
pressão sanguínea média dos alunos de uma determina turma (amostra) dessa
universidade seria uma estatística. Os valores dos parâmetros de uma população não
são, normalmente, disponíveis ao pesquisador. Por outro lado, os valores das
estatísticas estão prontamente disponíveis.

24
Fonte: Panosso, 2015, p. 4.

Observe que os parâmetros são representados por letras gregas,


enquanto as estatísticas são representadas pelo alfabeto romano ou por uma
forma dele. Por exemplo, a média de uma população é representada pela letra
grega  (pronuncia-se "mi") enquanto o mesmo resumo de dados de uma
amostra é representado por (pronuncia-se "xis barra").

Fonte: Panosso, 2015, p. 5.

9 ESTATÍSTICA DESCRITIVA

Fonte: grupoescolar.com

9.1 Escalas de Medidas e Tipos de Variáveis

De acordo com Panosso (2015), a palavra medir significa atribuir números,


letras, palavras ou outro símbolo a pessoas ou coisas com o objetivo de transmitir a
informação sobre as variáveis que são medidas: exemplos: atribuímos 220 mL dL-1

25
para indicar o nível de colesterol de uma pessoa; 1,80 m para indicar a altura desse
mesmo indivíduo; "F" ou "M" para representar o gênero desse indivíduo. Nesse
contexto, as escalas de medidas podem ser concebidas em 4 níveis diferentes,
nominal, ordinal, intervalar e razões.
Escala Nominal: é a menos sofisticada das quatro escalas. Produz
classificações com base em uma avaliação qualitativa da característica sem nenhuma
informação referente à quantidade ou valor. Ou seja, não existem os conceitos de
"maior" ou "menor", portanto, a comparação entre os dados deve ser feita com base
em "semelhante" ou "divergente".
Escala Ordinal: Semelhante à Nominal, ela classifica as pessoas ou coisas,
porém tais classificações incorporam os atributos "maior que" e "menor que". Esse
sistema, apesar de ordenar, não permite a indicação em termos de quanto mais ou
menos. A partir dessas duas primeiras escalas de medidas, podemos definir o primeiro
tipo de variável:
Variável Qualitativa: ou seja, é aquela que apresenta como possíveis
realizações uma qualidade (ou atributo) do indivíduo pesquisado, podendo ser:

a) Nominal: é aquela para a qual não existe ordenação alguma das


possíveis realizações. Exemplos: sexo, grupo sanguíneo, tipo de doença,
causa da morte, cor.
b) Ordinal: é aquela para a qual existe certa ordem nos possíveis resultados.
Exemplos: avaliação ao nascer de animais, estágio de uma doença,
aparência, classe social, grau de instrução, gestão de dor (nenhuma,
leve, moderada, forte). (PANOSSO, 2015, p. 5).

Continuando a definição das escalas de medidas temos:


Escala Intervalar: Nessa escala acrescenta-se o atributo "quanto mais" e
"quanto menos". A temperatura é um exemplo clássico. Uma leitura de 70 medida em
unidades iguais a partir de um termômetro de Célsius, representa 5 unidades em graus
a mais que a leitura de 65. O mesmo acontece para as leituras de 100 e 95. Essa
escala tem como deficiência a falta de um ponto zero verdadeiro. Ou seja, o ponto
zero na escala não representa ausência da característica. Podemos ter uma leitura de
0 oC, e não significa que não houve temperatura, pois poderíamos ter uma leitura de
-10 oC no dia seguinte. Ou seja, essa escala não permite a formação de razões
(quocientes) significativas, ou seja, não podemos afirmar de maneira incontestável
que uma leitura de 40 oC é o dobro daquela de 20 oC. Outros exemplos, Altitude

26
(elevação acima do nível do mar), tempo, o potencial elétrico, as direções em um plano
medidas por ângulos que tem a direção zero arbitrária, Panosso (2015).
Escalas de proporcionalidade ou razões: É semelhante à escala intervalar,
exceto por possuir um ponto zero verdadeiro. Considere o peso de um corpo. Não
necessitamos estabelecer um ponto zero arbitrário. O peso Zero é quase um ponto de
referência natural. Por esta razão, faz sentido dizermos que um animal pesa duas
vezes mais que um outro, ou que seu peso aumentou 2%. O quociente entre dois
valores de peso tem significado verdadeiro, por isso, chamamos está escala de escala
das razões ou de proporcionalidade, Panosso (2015).
Dados Contínuos e Discretos: Existem características cujos dados podem
assumir, qualquer valor em uma escala especificada. Por exemplo, uma pessoa pode
pesar 70 kg e outra 71 kg. Mas é possível encontrarmos pesos entre esses dois, como
70,5 kg. Assim como é possível encontrarmos peso entre 70 e 70,5 kg, que seria 70,25
kg. Portanto, a precisão da medida dependerá da sensibilidade do instrumento
utilizado para realiza-la. Esses dados são chamados de contínuos. Por outro lado,
temos os dados discretos, cujos valores não existem em uma série contínua. A partir
das definições de escalas de medidas (intervalar e das razões) e dos tipos de dados
(contínuos e discretos), podemos definir o segundo tipo de variável existente na
estatística:
Variável Quantitativa é aquela que apresenta como possíveis realizações
(valores) números resultantes de uma contagem ou mensuração, podendo ser:

a) Discreta: é aquela cujos possíveis valores formam um conjunto finito ou


enumerável de números e que resultam, frequentemente, de uma contagem
e não de mensurações em uma escala contínua. Exemplos: número de filhos,
número de células, número de ovos, número de ácaros ou insetos em uma
planta.
b) Contínua: é aquela cujos possíveis valores formam um intervalo de
números reais e que resultam, normalmente, de uma mensuração. Exemplos:
peso, altura, produção de leite, pressão arterial, teor de nitrogênio no solo ou
na planta. (PANOSSO, 2015, p. 5).

Em resumo, as variáveis são classificadas, em estatística/bioestatística, como:

27
Fonte: Panosso, 2015, p. 5.

9.2 Conceitos fundamentais: Somatório

Apesar de existir vários tipos de variáveis, é muito comum em Estatística


trabalhar-se com variáveis quantitativas, que são simbolizadas por letras maiúsculas
como X, Y, Z, etc. As observações ou dados, por sua vez, são representadas pelas
mesmas letras minúsculas, como x, y, z, etc. Em adição, os dados são identificados
por um índice, ou um contador (geralmente utilizamos as letras i, j, k, l) para indicar
tratar da 1ª observação, 2ª observação e assim por diante. Portanto, o símbolo x1
representa a 1ª observação do conjunto de dados referente à variável quantitativa X.
Para Panosso (2015), durante os mais variados procedimentos estatísticos, é
muito comum o cálculo de somas de termos, ou somas de termos ao quadrado, cálculo
de médias, entre outras, então, é usual representarmos somas por um operador
chamado somatório que é representado pela letra grega "sigma" maiúscula Σ. Assim,
por exemplo, a soma de 4 elementos:

É representa em notação de somatório da seguinte forma:

Ou seja, corresponde à soma dos termos xi onde o contador i varia de 1 a 4. O


número de elementos é dado por n, nesse caso, n=4. Portanto, podemos representar
a soma de todos os elementos de uma variável como:

28
Em função de sua própria definição, o operador somatório possui algumas
regras, dadas a seguir:
1. Se k é uma constante, e n é número de elementos, então:

2. Se k é uma constante e xi valores de uma variável quantitativa, então:

3. O somatório de uma soma de variáveis é igual à soma dos somatórios de cada


variável.

4. Em consequências das regras 1, 2, e 3, se a e b são constantes, então:

Exemplos:
A. Expresse as seguintes somas usando a notação de somatório:

A. Sabendo que:

Determine o valor numérico das expressões:

29
Lembrando que:

9.3 Métodos de Numeração

Antes de iniciarmos os estudos de estatística, faz-se necessário uma pausa


para relembrarmos como enumerar, ou seja, devemos estudar os procedimentos
sistemáticos de contagem ou enumeração.
Regra da Multiplicação: Suponha-se que um procedimento denominado 1
possa ser executado de maneiras. Admita-se que um segundo procedimento,
denominado 2, possa ser executado de maneiras. Suponhamos, também, que
cada maneira de executar 1 possa ser seguida por qualquer daquelas para executar
2. Então, um procedimento formado por 1 seguido de 2 poderá ser executado de:

maneiras.
Exemplo: Muitos programas de melhoramento adotam o uso de escores de
avaliação visual para estimar a composição da carcaça dos animais e a rapidez com
que esses chegarão ao abate, um animal que será avaliado quanto à sua
Conformação, Precocidade e Musculatura, poderá receber 3 classificações para
Conformação, enquanto que para Precocidade e Musculatura, esse poderá receber 4
classificações, consequentemente existem 3 . 4 . 4 = 48 maneiras que o animal pode
ser classificado.
Regra da Adição: Suponha-se que um procedimento denominado 1 possa ser
executado de maneiras. Admita-se que um segundo procedimento, denominado

30
2, possa ser executado de maneiras. Além disso, suponha-se que não seja
possível que ambos os procedimentos 1 e 2 sejam realizados em conjunto. Então, o

número de maneiras pelas quais podemos realizar ou 1 ou 2 será: maneiras


Exemplo: suponha-se que estejamos planejando uma visita técnica ao um
produtor e devemos escolher entre o transporte por ônibus, ou por trem. Só existem 3
rodovias e duas ferrovias, então existem 3 + 2 = 5 caminhos disponíveis para a
viagem.
Permutações: Suponha-se que nós temos n objetos diferentes. De quantas
maneiras nPn poderemos dispor (permutar) esses objetos? Por exemplo, se tivermos
os objetos a, b, c, poderemos permutá-los como:
abc, acb, bac, bca, cab, cba
Ou seja, de 6 maneiras diferentes. Considera-se, em geral, o seguinte
esquema: Permutar os n objetos equivale a coloca-los dentro de uma caixa com n
compartimentos, em alguma ordenação. Dentro das caixas, apresentam-se as
opções para disposição de objetos Panosso (2015).

O primeiro compartimento pode ser ocupado por qualquer uma das n maneiras,
o segundo compartimento por qualquer uma das (n - 1) maneiras, ..., e o último
compartimento apenas por 1 maneira. Portanto, aplicando-se a regra da multiplicação,
verificamos que a caixa poderá ser carregada de n(n-1).(n-2) ... 1 maneiras. Esse
número aparece tão frequentemente em Matemática que se adotam um nome e um
símbolo para ele Panosso (2015).
Definição: Sendo n um número inteiro positivo, definimos como n! = (n)(n-1)(n-
2) ... 1 e o denominamos fatorial de n. Também definimos 0! = 1. Assim, o número de
permutação de n objetos diferentes é dado por: nPn = n!
Arranjos: Considerando-se novamente o n objetos diferentes. Agora desejamos
escolher r desses objetos, 0 ≤ r ≤ n e permutar os r objetos escolhidos (ou seja,
considerando a sua ordem). Denotaremos o número de maneiras de se fazer isso
(arranjos) por nPr. Recorremos novamente ao esquema anterior, de encher uma caixa

31
com n compartimentos. Desta vez, simplesmente paramos depois que o
compartimento r tenha sido ocupado.

Assim, o primeiro compartimento pode ser ocupado por n maneiras, o segundo


por (n – 1) maneiras... e o de ordem r de n – (r – 1) maneiras. Portanto, o procedimento
poderá ser executado aplicando-se a regra da multiplicação:
n(n-1)(n-2) ... (n-r+1)
Observe que as maneiras de preenchimento da caixa após a posição r, não nos
interessam, então, temos que descontar do total de maneiras de ser permitas n
objetos, n – r maneiras de permita-los.

Fonte: Panosso, 2015, p. 10.

Combinações: Considerando, novamente, n objetos diferentes. Agora


trataremos da contagem do número de maneiras de escolher r dentre esses n objetos
sem considerar a sua ordem. Por exemplo, temos os objetos a, b, c, d, para r =2;
desejamos contar ab, ac, ad, bc, bd, cd; por outras palavras, não contaremos ab e ba,
pois os mesmos objetos são incluídos e somente a ordem é diversa.
Para obtermos o resultado geral, recordaremos a fórmula deduzida acima: o
número de maneira de escolher r objetos dentre n e permutar os r objetos é n!/(n-r)!.
Assim, para definirmos a combinação desse r objetos, sem considerar a ordem, vamos
defini-la como nCr. Observe que uma vez que r objetos tenham sido escolhidos,

32
existirão r! maneiras de permutá-los. Consequentemente, aplicando-se a regra da
multiplicação, temos que:

Este número surge em muitas passagens na Matemática e, por isso, um


símbolo especial é empregado para ele. Escrevemos:

sendo definido para n inteiro e positivo e r inteiro tal que 0 ≤ r ≤ n.


Exemplos:
a) dentre 8 pessoas, quantas comissões de 3 membros podem ser escolhidas?
Desde que duas comissões sejam a mesma comissão se forem construídas pelas
mesmas pessoas (a ordem não importa) teremos:

b) Com bandeiras diferentes, quantos sinais feitos com 3 bandeiras se podem


obter? Apesar desse problema parecer-se muito com o anterior, a ordem de
escolhas das bandeiras acarreta diferença e, por isso, temos:

c) Um grupo de 8 pessoas é formado de 5 homens e 3 mulheres. Quantas


comissões de três pessoas podem ser constituídas, incluindo exatamente dois
homens? Aquim devemos primeiramente escolhe 2 homens entre 5 e uma
mulher entre 3. Aplicando-se a regra da multiplicação Panosso (2015).

9.4 Distribuição de frequências de uma variável

De acordo com Panosso (2015), quando se estuda uma variável, deve-se


conhecer a distribuição de frequência dessa variável por meio das possíveis
realizações (dados) da mesma. Ver-se-á aqui uma maneira de disposição de um

33
conjunto de valores, de modo a termos uma ideia global sobre estes valores, ou seja,
de sua distribuição.

Fonte: Panosso, 2015, p. 10.

EXEMPLO: Um pesquisador está interessado em fazer um levantamento sobre


alguns aspectos zootécnicos dos animais da Fazenda Z, ele elaborou a Tabela 1. De
um modo geral, para cada elemento investigado, tem-se associado um resultado,
correspondendo à realização de uma variável. Para a variável sexo, por exemplo,
cada animal está associado à realização "macho" ou "fêmea". Observa-se que o
pesquisador colheu informações sobre seis variáveis: Pai, Sexo, Peso ao Nascer
(PN), Peso aos 12 Meses de Idade (P12), Escores (Nota) de conformação (C),
precocidade (P) e musculatura (M) aos 12 meses de idade (os escores foram obtidos
utilizando-se uma escala de um a dez, sendo que as notas mais altas indicam a
presença mais marcante da característica) e Avaliação ao nascer (R para PN ≤ 24 kg;
M para 25 ≤ PN ≤ 29 kg; E para PN ≥ 30 kg).
A Tabela 2 é uma Tabela de Frequência para a variável quantitativa discreta
Nota. As classes são representadas pelos diferentes valores que a variável assume
(5, 7 e 10). No caso de uma variável qualitativa, o procedimento é o mesmo.

A Frequência Absoluta (ni) é definida como o número de realizações no


conjunto de dados pertencentes à classe em questão, no nosso exemplo,
ocorreram 8 realizações da Nota 5; 32 realizações da Nota 7 e, 10 realizações
da Nota 10. A Frequência Relativa ou proporção (fi) é definida como a

34
proporção de cada realização em relação ao Total de observações.
(PANOSSO, 2015, p.10).

Tabela 1. Informações sobre o número (Nº), pai, sexo, peso ao nascer (PN),
peso aos 12 meses (P12), Nota (escore) aos 12 meses de idade e Avaliação ao nascer
de 50 animais da Fazenda Z (dados hipotéticos).

1 A macho 22 212 5 R
2 A fêmea 24 226 5 R
3 A fêmea 24 196 5 R
4 A macho 29 219 7 M
5 A macho 27 211 7 M
6 A macho 26 210 7 M
7 B fêmea 20 190 5 R
8 C macho 32 262 10 E
9 C fêmea 27 218 7 M
10 A macho 28 218 7 M
11 C fêmea 28 202 7 M
12 C fêmea 33 198 10 E
13 A fêmea 23 138 5 R
14 C fêmea 29 194 7 M
15 A fêmea 21 184 5 R
16 C fêmea 28 190 7 M
17 C fêmea 34 215 10 E
18 C macho 28 228 7 M
19 C macho 28 250 7 M
20 A macho 24 255 7 R
21 C fêmea 31 247 10 E
22 A fêmea 26 215 7 M
23 C fêmea 30 244 10 E
24 B fêmea 25 162 7 M
25 B fêmea 27 170 7 M
26 B fêmea 26 198 7 M

35
27 B macho 30 177 10 E
28 B fêmea 27 188 7 M
29 B fêmea 27 136 7 M
30 C fêmea 35 195 10 E
31 B macho 29 246 7 M
32 C fêmea 24 164 5 R
33 B macho 25 192 7 M
34 A fêmea 25 192 7 M
35 C fêmea 25 175 7 M
36 C macho 30 230 10 E
37 C fêmea 27 174 7 M
38 C fêmea 25 150 7 M
39 C macho 27 185 7 M
40 B macho 24 200 7 R
41 C macho 29 183 7 M
42 C fêmea 20 150 5 R
43 B fêmea 26 133 7 M
44 C fêmea 25 141 7 M
45 C fêmea 28 162 7 M
46 C macho 34 210 10 E
47 C macho 28 201 7 M
48 B fêmea 28 172 7 M
49 B macho 35 196 10 E
50 B macho 27 184 7 M
Tabela 2. Distribuição de frequências dos animais da Fazenda Z, segundo a Nota
(escore) de C, P ou M aos 12 meses de idade.

36
A Tabela 3 é a tabela de frequência para uma variável quantitativa contínua
P12 e, nesse caso, as classes são intervalos reais (k). Inicialmente, devemos fixar o
número de intervalos, a regra geral em diz que: uma boa representação apresenta
um número de intervalos nunca inferiores a 5 ou superiores a 15, pois com um
pequeno número de classes, perde-se informação, e com um grande número de
classes, o objetivo de resumir os dados fica prejudicado. Para exemplificar, vamos
fixar o número de intervalos em 5 (k = 5) Panosso (2015).
Tais intervalos são subintervalos da Amplitude Total (∆) dos dados, ou seja,
diferença entre a maior e a menor observação, correspondendo o intervalo de
valores numéricos que contém todos os dados observados.
Tabela 3. Distribuição de frequências dos animais da Fazenda Z, por classe de
P12 (pesos aos 12 meses - kg).

Fonte : Tabela 1; Ni = frequência acumulada até a i-ésima classe; Fi =


frequência acumulada relativa; 100 × Fi = porcentagem acumulada.
Amplitude Total (∆): Para a variável Peso aos 12 meses (P12), temos:
∆ = Máximo---Mínimo
∆ = 262---133
∆ = 129
A Amplitude de classe (subintervalo, denominado ∆i) é determinado dividindo-
se a Amplitude Total em um número conveniente de subintervalos que tenham a
mesma amplitude. Isto é feito dividindo-se a amplitude total pelo número de classes
desejável (k=5 no nosso exemplo). Pode-se arredondar esse quociente para um
número exato de subintervalos, acrescentando-se ao conjunto de dados, valores
com frequência nula.

37
OBS: Uma forma de determinação de um número razoável, k de classes
consiste em aplicar a fórmula de Sturges, que sugere o cálculo de k mediante a
expressão:

Em caso de uma quantidade muito grande de dados quantitativos discretos, ou


seja, de valores que a variável assume, é conveniente construir a tabela de
frequências do mesmo modo que é feito para uma variável contínua, isto é,
considerando classes como subintervalos.
Como visto, a amplitude do intervalo de classe (∆i) na Tabela 3 foi determinada
dividindo-se a amplitude total (∆) pelo número de classes desejável (k = 5). Observe
que o limite superior da última classe foi o valor 263, com frequência nula no nosso
conjunto de dados, ou seja, o valor 263 não foi observado. Tal procedimento garante
que o valor máximo do conjunto de dados seja incluído na última classe. Portanto, o
símbolo adotado ( |---- ), significa que o extremo inferior da classe está incluído nela e
o extremo superior excluído. Assim, o valor 159, por exemplo, está incluído na
segunda classe. Pode-se usar também nas classes a notação [ ; ), cujo significado é
o mesmo do anterior, ou seja, fechado à esquerda e aberto à direita.
Procedendo-se como na Tabela 3, ao resumir os dados referentes a uma
variável quantitativa contínua, perde-se alguma informação. Por exemplo, não se tem
informação de como se distribuem os 6 pesos na primeira classe, a não ser que se
investigue os dados originais (Tabela 1). Sem perda de muita precisão, pode-se supor
38
que todos os pesos de uma determinada classe sejam iguais ao ponto médio dessa
classe (pmci), isto é, no caso da primeira, 146 kg.
Ponto médio da classe i (pmci): é definido como o valor médio entre os limites
superiores e inferiores de uma determinada classe (i)

Densidade de frequência ou simplesmente densidade (di): definida como o


quociente entre a área pela amplitude de classe, utilizada na construção do gráfico
histograma, que faz com que esse não fique distorcido quando se utiliza amplitude de
classes diferentes. Para que a área do retângulo de uma respectiva classe no
histograma se proporcional à fi, a sua altura deve ser proporcional a fi /∆i, que é
denominada densidade de frequência da iésima classe.

Representação gráfica da distribuição de frequências Gráfico é uma


apresentação de dados estatísticos na forma visual. Sua importância é consagrada
em todas as ciências, pois é a maneira mais simples de resumir e apresentar a
informação. Os principais tipos de gráficos usados na representação estatística são:

Gráfico em barras: é um tipo de gráfico que se obtém locando os valores no


eixo horizontal e traçando-se em cada um deles um segmento vertical de
altura proporcional à respectiva frequência (relativa ou absoluta). Esse tipo
de gráfico se adapta melhor às variáveis quantitativas discretas ou
qualitativas ordinais. (PANOSSO, 2015, p. 16).

39
Panosso, 2015, p. 17
Gráfico 1. Duas representações de gráficos de barras dos dados da Tabela 2

Histograma: é um conjunto de retângulos, com bases sobre um eixo horizontal,


divididos de acordo com os tamanhos das classes (∆i), com centros nos pontos
médios das classes (pmci) e áreas proporcionais às frequências (fi ou ni). Em certos
casos, é interessante que a área total da figura seja igual a 1, correspondendo à soma
total das proporções (fi). Então, para construção do histograma, sugere-se usar no
eixo das ordenadas os valores de fi /∆i (densidade de frequência), ou seja, da medida
que indica qual a concentração por unidade da variável.

PANOSSO, 2015, p. 17

40
Gráfico 2. Histograma do variável peso aos 12 meses (Tabela 3), utilizando a
frequência absoluta ou relativa

PANOSSO, 2015, p. 17

Gráfico 3. Histograma do variável peso aos 12 meses (Tabela 3), utilizando a


densidade de proporção.
Polígono de frequências: é um gráfico que se obtém unindo por uma poligonal
os pontos correspondentes às frequências, das diversas classes, centradas nos
respectivos pontos médios. Para se obter as interseções do polígono com o eixo
horizontal, cria-se em cada extremo do histograma uma classe com frequência nula.

PANOSSO, 2015, p. 18

41
Gráfico 4. Polígono de frequência para os dados da Tabela 3. Note que ao
construir o polígono de frequência foram acrescentados os segmentos PQ e RS, que
vão ter ao ponto médio imediatamente inferior e superior e cujas frequências são
nulas. Nesse caso, a soma das áreas dos retângulos do histograma é igual área total
limitada pelo polígono de frequência e o eixo horizontal.
Polígono de frequências acumuladas percentuais (ou ogiva percentual): é um
gráfico poligonal ascendente que representa a frequência acumulada abaixo de
qualquer limite superior de classe. No eixo horizontal colocam-se as extremidades de
classe, e no eixo vertical, as frequências acumuladas percentuais.

PANOSSO, 2015, p. 19

Gráfico 5. Polígono de frequência acumulada percentual (ou ogiva percentual)


dos dados da Tabela 3.
Gráfico em linha: é um dos mais importantes gráficos; representa observações
feitas ao longo do tempo, em intervalos iguais ou não, traduzindo o comportamento
de um fenômeno em certo intervalo de tempo. É bastante utilizado para mostrar
tendência.
Gráfico em setores: aplicável quando as categorias (classes) básicas são
quantificáveis. Toma-se um círculo (360 graus), que se divide em setores com áreas
proporcionais às frequências das diversas categorias. Esse tipo de gráfico se adapta
muito bem às variáveis qualitativas nominais.
Exemplo. Considerando seguintes participações no mercado da venda de
sêmen das raças leiteiras nacionais:

42
 Holandês 50% (180 graus)
 Gir leiteiro 29% (104 graus)
 Jersey 10% ( 36 graus)
 Suíça 7% ( 25 graus)
 Outras 4% ( 15 graus)
Observe-se que 180 graus representam precisamente 50% de 360 graus, e
assim por diante. Solução:

Gráfico 6. Gráfico em setores do exemplo. (PANOSSO, 2015, p. 20).

9.5 Intervalos de classes desiguais

Como mencionado anteriormente, quando os comprimentos ∆i das classes são


diferentes, deve-se usar para a construção do histograma fi/∆i no eixo vertical, cujos
valores são muito mais informativos para compreender a distribuição, do que as
frequências simplesmente. É o caso do exemplo a seguir (Tabela 4). Uma outra
vantagem diz respeito à relação entre histograma e gráfico da função densidade de
probabilidade, que será visto mais adiante.
Tabela 4. Distribuição de frequências dos animais da Fazenda Z, por classe de
pesos ao nascer (kg).

43
Fonte: tabela 1. (PANOSSO, 2015, p. 21).

fi /∆i = densidade de frequência da classe i

Gráfico 7. Histograma do variável peso ao nascer (Tabela 4) (PANOSSO, 2015, p. 21).

Histograma para variável discreta. Do mesmo modo que usamos um artifício


para representar a variável contínua como discreta, podemos usar um artifício para
construir um histograma para variáveis discretas. O Gráfico 6 é um exemplo de como
fica o histograma da variável nota de C, P ou M aos 12 meses de idade, segundo
dados da Tabela 2.

44
PANOSSO, 2015, p. 21

Gráfico 8. Histograma ajustado para a variável nota de C, P ou M (Tabela 2).


Note que ao construir o histograma, os centros dos retângulos foram determinados
pelos valores das notas, tal que a largura de cada retângulo seja igual a um (1).

45
10 REFERÊNCIAS BIBLIOGRÁFICAS

BERQUÓ E. S; SOUZA J. M. P; GOTLIEB S. L. D. Bioestatística. EPU, São Paulo,


1981.

BHATTACHARYYA, G. K.; JOHNSON, R. A. Statistical concepts and methods.


New York: John Wiley & Sons, Inc., 1977.

BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 5. ed. São Paulo: Editora


Saraiva, 2003.

CAMPANA, A. O.; PADOVANI, C. R.; TIMO-IARA, C.; FREITAS, C. B. D.; PAIVA, S.


A. R.; HOSSNE, W. S. Investigação científica na área médica. São Paulo: Editora
Manole, 2001.

BUSSAB, W.O.; MORETTIN, P.A. Estatística básica. São Paulo: Saraiva, 2003.

CALDAS E. D, SILVA S. C, OLIVEIRA J. N. Aflatoxinas e ocratoxina A em


alimentos e riscos para a saúde humana. Rev. Saúde Pública, 2002;36(3):319-23.

CAMPBELL, J. M.; CAMPBELL, J. B. Matemática de laboratório – Aplicações


médicas e biológicas. 3. ed. São Paulo: Editora Roca, 1993. DAWSON, B.; TRAPP,
R. G. Bioestatística básica e clínica. 3. ed. Rio de Janeiro: Editora McGraw-Hill
Interamericana do Brasil, 2003.

CARVALHO A.T, COSTA M. J. C, FERREIRA L. O. C, BATISTA FILHO M et al.


Cartografia do retardo estatural em escolares do estado da Paraíba. Brasil. Rev
Saúde Pública 2000; 34(1):3-8.

CHAMBERS J. M, CLEVELAND W. S, KLEINER B, TUKEY P. A. Graphical methods


for data analysis.

CORRÊA FILHO H. R; VIEIRA J. B. F; SILVA Y. S; COELHO G. E; CAVALCANTE F.


A. C; PEREIRA M. P. Inquérito sobre a prevalência de bócio endêmico no Brasil
em escolares de 6 a 14 anos: 1994 a 1996. Rev Panam Salud Pública 2002;
12(5):317-325.

DALY F; HAND D. J; JONES, M. C; LUNN AD, MCCONWAY K. J. Elements of


Statistics, 1999.

46
DIXON W. J E MASSEY F. J. Introduction to Statistical Analysis. 2nd edit. The
Maple Press Company, York, 1957.

ELANDT-JOHNSON, R.C. Probability models and statistical methods in Genetics.


New York: John Wiley & Sons, Inc., 1971.

ESCOSTEGUY C. C; MEDRONHO R. A; MADRUGA R. et al. Vigilância


epidemiológica e avaliação da assistência às meningites. Rev. Saúde Pública,
2004;38(5):657-63.

FORNES I. S; MARTINS I. S; VELASQUES-MELENDEZ G et al. Escores de


consumo alimentar e níveis lipêmicos em população de São Paulo, Brasil. Rev.
Saúde Pública, 2002;36(1):12-8. Hand DJ et al. A handbook of small data sets.
Chapman&Hall, 1994.

HOLLAND W. W; BAILEY, R; BLAND, J. M. Long-term consequences of


respiratory disease in infancy. Journal of Epidemiology and Community Health
1978; 32: 256-9.

KUMMER, S. C; GIUGLIANI, E. R. J; SUSIEN, L. O et al. Evolução do padrão de


aleitamento materno. Rev. de Saúde Pública, 2000;34(2):143-8.

LERARIO, D.G; GIMENO, S. G; FRANCO, L. J et al. Excesso de peso e gordura


abdominal para a síndrome metabólica em nipo-brasileiros. Rev. Saúde Pública,
2002;36(1):4-11.

MAGALHÃES, M. N.; LIMA, A. C. P. Noções de probabilidade e estatística. São


Paulo: Edusp, 2002.

MEYER, P. L. Probabilidade Aplicações à Estatística. Rio de Janeiro: Ao Livro


Técnico S.A, 1974.

MLODINOW, L. O andar do bêbado. Como o acaso determina nossas vidas. Rio


de Janeiro: Zahar, 2009.

MONTEIRO, C. A; BENICIO M. H. D. A; ORTIZ L. P. Tendência secular do peso ao


nascer na cidade de São Paulo (1976- 1998) Rev. Saúde Pública; 2000:34(6,
supl):26-40.

MOORE, D. A estatística básica e sua prática. Rio de Janeiro: Editora LTC, 2000.

47
MURTEIRA, B. J. F.; BLACK, G. H. J. Estatística descritiva. Lisboa: Editora McGraw-
Hill de Portugal, 1983.

NORMAN, G. R.; STREINER, D. L. Biostatistics – The bare essentials. 3rd ed. St.
Louis: Mosby-Year Book, 2008.

PADOVANI, C. R. Exercícios de estatística básica e experimental. Departamento


de Bioestatística, IB/UNESP, 2002.

PAGANO, M.; GAUVREAU, K. Princípios de bioestatística. São Paulo: Editora


Thompson, 2004.

PANOSSO, A. R.; FARIA, G. A.; LOPES, M. L. M. Estatística e Bioestatística. São


Paulo. SP.2015.

PETRIE, A.; WATSON, P. Estatística em ciência animal e veterinária. São Paulo:


Editora Roca Ltda, 2009.

RAO, P.V. Statistical research methods in the life sciences. Pacific Grove:
Brooks/Cole Publishing Company, 1998.

SALSBURG, D. Uma senhora toma chá.... Como a estatística revolucionou a


ciência no século XX. Rio de Janeiro: Zahar, 2009.

SIEGEL, S.; CASTELLAN JR, N.J. Nonparametric statistics for the behavioral
sciences. 2.ed. New York: McGraw-Hill, 1988.

SOARES, J.F; SIQUEIRA A.L. Introdução à Estatística Médica, COOPMED, 2002.

SOARES, J.F.; FARIAS, A.A.; CESAR, C.C. Introdução à estatística. Rio de Janeiro:
Guanabara Koogan S.A., 1991.

THOMPSON, S.K. Sampling. New York: John Wiley & Sons, Inc., 1992.

VELARDE, L. G. C. Noções de Bioestatística. 2010.

VIEIRA, S. Introdução à bioestatística. 4. ed. Rio de Janeiro: Elsevier Editora, 2008.


Elementos de estatística. 5. ed. São Paulo: Editora Atlas, 2003. 145p.

ZAR, J. H. Biostatistical analysis. 5. Ed. New Jersey: Prentice-Hall, 2009.

48

Você também pode gostar