Você está na página 1de 73

BIOESTATÍSTICA

Prof. Dr. Fabio Lopes


Prof. Guilherme Bernardes Filho
Diretor Presidente
Prof. Aderbal Alfredo Calderari Bernardes
Diretor Tesoureiro
Prof. Frederico Ribeiro Simões
Reitor

UNISEPE – EaD
Prof. Me. Igor Gabriel Lima
Prof. Dr. Jozeildo Kleberson Barbosa
Prof. Me. Leonardo José Tenório Mourão Torres

Material Didático – EaD

Equipe editorial:
Fernanda Pereira de Castro - CRB-8/10395
Isis Gabriel Alves
Laura Lemmi Di Natale
Pedro Ken-Iti Torres Omuro
Prof. Dr. Renato de Araújo Cruz

Apoio técnico:
Alexandre Meanda Neves
Anderson Francisco de Oliveira
Gustavo Batista Bardusco
Matheus Eduardo Souza Pedroso
Vinícius Capela de Souza

Equipe de diagramação:
Laura Michelin de Oliveira Machado

Equipe de revisão:
Ana Beatriz Torres Omuro, Prof.ª Camila Santos Seimaru, Prof.ª Fabíola Löwenthal, Marcela Gonçalves Ferreira
Camillo.
SOBRE O AUTOR:

Possui doutorado em Biofotônica Aplicada às Ciências da Saúde pela Universidade


Nove de Julho em parceria com a Università Degli Studi di Pavia, Itália, com concessão
de bolsa de estudos pela CAPES. Tese defendida em Laser Polarizado versus Campo
Elétrico Uniforme em Cultura Celular, apresentada à banca examinadora em fevereiro
de 2018. Possui mestrado profissional em ensino de Ciências e Matemática pela
Universidade Cruzeiro do Sul, com trabalho apresentado à banca sobre Atividades
Experimentais no Ensino de Física, finalizado em 2007.
Possui especialização em Cultura Africana, finalizada em 2020 e graduação em
Matemática na Faculdade Integrada de Guarulhos, finalizada em 2001.
Atuou por 12 anos no ensino superior, onde ministrou as disciplinas de Estatística,
Fundamentos de Matemática, Física Geral e Experimental I, II, III e IV.
É professor do Instituto Federal de Ciência e Tecnologia do Sul de Minas das disciplinas:
Matemática (ensino técnico integrado ao ensino médio); Cálculo Diferencial e Integral I
e II (graduação em Ciências da Computação); Matemática Financeira (graduação em
Administração) e Fundamentos da Matemática Elementar (licenciatura em Matemática).

SOBRE A DISCIPLINA:

Todo profissional da área da saúde ou biomédica, ao iniciar sua caminhada pela


pesquisa científica, fatalmente irá se deparar com artigos científicos e,
consequentemente, com a bioestatística. Para muitos, esse primeiro encontro pode ser
desastroso e acaba por criar uma aversão a qualquer dado estatístico apresentado com
mais rigor.

O método utilizado numa pesquisa é responsável pelo resultado obtido. Assim,


compreender os conceitos inerentes aos métodos é fundamental para analisar os
resultados de uma pesquisa com propriedade. O tratamento dos dados de forma
adequada, bem como a compreensão do significado desses dados, é fundamental para
a formação de um pesquisador.

Esta disciplina foi elaborada pensando não só na importância da disciplina na formação


de um pesquisador, mas também na dificuldade muito comum entre os profissionais das
áreas da saúde com matemática e, por consequência, com a bioestatística.

O objetivo desta disciplina é dar ao aluno o conhecimento de técnicas estatísticas para


a coleta, disposição e processamento de dados, bem como a integração dessas
técnicas aos métodos científicos, promovendo a capacidade de compreender e analisar
resultados estatísticos a partir de dados biológicos.
Os ÍCONES são elementos gráficos utilizados para ampliar as formas de
linguagem e facilitar a organização e a leitura hipertextual.
SUMÁRIO

UNIDADE I .............................................................................................05
1º Conceitos Fundamentais e Definições .....................................05
2º Coleta e Organização de Dados ..............................................14

UNIDADE II ...........................................................................................26
3º Medidas de posição...........................................................26
4º Medidas de dispersão e distribuições................................41

UNIDADE III ..........................................................................................50


5º Importância da curva normal............................................50
6º Testes de hipóteses.........................................................61

REFERÊNCIAS BIBLIOGRÁFICAS ...................................................72


UNIDADE I
CAPÍTULO 1 – CONCEITOS FUNDAMENTAIS E DEFINIÇÕES
No término deste capítulo, você deverá saber:
✓ Identificar e definir conceitos;
✓ Relacionar amostra e população;
✓ Identificar características das variáveis em estudo, podendo ser qualitativas ou quantitativas.

Introdução
O nome “estatística” é derivado da palavra latina status, que significava "informações úteis ao
Estado". Cerca de 1000 a.C., os povos já eram submetidos a pesquisas que correspondem ao censo
atualmente. Segundo Callegari-Jacques (2003, p.13) um dos primeiros censos de que se tem notícia
escrita foi ordenado pelo imperador romano César Augusto, realizado na Palestina, por volta do ano
zero da Era Cristã. Posteriormente, a palavra passou a significar dados quantitativos que
apresentavam tendência de flutuarem de uma forma mais ou menos imprevisível, significado esse
que permanece até hoje quando se fala em estatísticas. Mais recentemente, a palavra passou a
significar a ciência destinada à coleta, organização e análise dos dados quantitativos, de tal forma
que seja possível efetuar julgamentos racionais sobre os mesmos. A estatística tem também a função
de auxiliar no método científico, especialmente no planejamento experimental, na coleta de dados,
na interpretação analítica dos experimentos (análise dos dados experimentais) e na estimação dos
parâmetros da população.
Em alguma fase de um trabalho, deparamos-nos com o problema de analisar e entender
um conjunto de dados relevantes ao nosso particular objetivo de estudo. É necessário trabalhar os
dados para transformá-los em informações, para compará-los com outros resultados, ou ainda para
julgar a adequação de alguma teoria ou hipótese. De modo bem geral, podemos dizer que a essência
da Ciência é a observação e que o seu objetivo básico é a inferência. Em sua essência, a Estatística
é a ciência que apresenta processos próprios para coletar, apresentar e interpretar adequadamente
conjuntos de dados, sejam eles numéricos ou não. Pode-se dizer que seu objetivo é o de apresentar
informações sobre dados em análise para que se tenha maior compreensão dos fatos que eles
representam.
Na verdade, mais que uma sequência de métodos, a estatística é uma forma de pensar ou
de ver a realidade variável, já que seu conhecimento não apenas fornece um conjunto de técnicas
de análise de dados, mas condiciona toda uma postura crítica sobre uma interpretação e a
elaboração de conclusões sobre os dados. A Estatística pode ser dividida em duas áreas: a descritiva
e a inferencial. A estatística descritiva, como o próprio nome já diz, preocupa-se em descrever os
dados. A estatística inferencial, que está fundamentada na teoria das probabilidades, preocupa-se
com a análise destes dados e sua interpretação, com a finalidade de inferir a respeito daquilo que
está sendo pesquisado.
Considera-se bioestatística a aplicação dos métodos estatísticos à solução de problemas
biológicos. Algumas técnicas são empregadas com maior frequência no âmbito das ciências
biológicas ou médicas. Alguns termos que utilizamos em estatística têm conceito diferente do
utilizado no cotidiano; por isso, antes de trabalharmos com a aplicação da Estatística nas ciências
biológicas ou biomédicas, é importante salientar alguns conceitos básicos e princípios fundamentais
que formam a base dos métodos de análise.

5
Em qual situação o conjunto universo é igual ao conjunto amostra?

Segue uma curta matéria sobre a importância da estatística na psicologia. O texto é de fácil leitura e aborda
as contribuições da matemática para a pesquisa em psicologia.

https://amenteemaravilhosa.com.br/papel-estatistica-na-psicologia/

1.1 Conceitos fundamentais

Para facilitar a compreensão conceitos da bioestatística, é necessário, antes, definir alguns


conceitos.

1.1.1 População

Conjunto de todos os elementos que têm pelo menos uma característica em comum. Esta
característica deve delimitar corretamente quais são os elementos da população que podem ser
animados ou inanimados. Exemplo: nascidos no mês de março de 2020 na cidade de Registro.

1.1.2 Amostra

Subconjunto de elementos de uma população. Este subconjunto deve ter dimensão menor que o da
população, e seus elementos devem ser representativos da população. A seleção dos elementos
que irão compor a amostra pode ser feita de várias maneiras e irá depender do conhecimento que
se tem da população e da quantidade de recursos disponíveis. Exemplo: nascidos do sexo
masculino no mês de março de 2020 da cidade de Registro. Veja que os elementos formam um
subconjunto da população citada anteriormente (nascidos no mês de março de 2020 na cidade de
Registro). Podemos concluir, então, que a amostra é uma parte ou uma fração da população.
Agora que sabe o conceito de população e amostra, podemos pensar a estatística descritiva
como a parte da estatística destinada a descrever determinada amostra, sem fazer análise ou
conclusões sobre esses dados. Já a estatística inferencial inclui técnicas para delas tirar conclusões
acerca da população estatística.

6
Amostra é um subconjunto da população, ou seja, é parte dela.

1.1.3 Parâmetro

Refere-se a uma informação populacional, ou seja, a qualquer valor obtido quando todos os
indivíduos que compõem a população são considerados. São sempre representados por uma letra
latina.

1.1.4 Estimativa

Representa o resultado obtido a partir de qualquer cálculo realizado de dados de uma amostra.

1.1.5 Variável

É a característica que vai ser observada, medida ou contada nos elementos da população ou da
amostra e que pode variar, ou seja, assumir um valor diferente de elemento para elemento. Número
de filhos de determinada família, número de fumantes de uma cidade etc. Existem, basicamente,
dois tipos de varáveis: quantitativa e qualitativa.

1.1.6 Variáveis quantitativas ou numéricas

São aquelas cujos dados são valores numéricos que expressam quantidades, como a estatura de
um grupo de pessoas, por exemplo. As variáveis quantitativas são classificadas em:

7
a) Variáveis quantitativas discretas são aquelas em que os dados somente podem apresentar
determinados valores, em geral, números inteiros. Por exemplo: número de filhos nascidos
vivos, número de obras catalogadas.

b) Variáveis quantitativas contínuas são aquelas cujos dados podem apresentar qualquer valor
dentro de um intervalo de variação possível. Por exemplo: a altura de um indivíduo.

1.1.7 Variáveis qualitativas ou categóricas

São as que fornecem dados de natureza não numérica, como sexo de um paciente, a cor de uma
flor. Neste tipo de variável, as diferentes categorias são divididas em dois grupos:

a) Nível nominal: como o nome implica, as categorias são diferenciadas pelo nome. Assim, por
exemplo, um coelho pode ser classificado de acordo com o sexo: masculino ou feminino, um
paciente pode ser classificado como diabético ou não diabético.

b) Nível ordinal: nesse nível, não só é possível identificar diferentes categorias, mas também
reconhecer graus de intensidade entre elas, o que possibilita uma ordenação das várias
categorias. Determinado animal pode ser classificado como agressivo, submisso ou neutro. A
dor sentida por um paciente pode ser classificada desde “nenhuma dor” até “dor insuportável”.

O diagrama a seguir ilustra, de forma simples, as variáveis e suas respectivas categorias:

8
1.2 Variabilidade e tendenciosidade

Quando um pesquisador utiliza estatística para obter conclusões acerca de determinada população
a partir de um número limitado de dados (amostra), inevitavelmente, ele encontrará dois obstáculos:
a variabilidade e a tendenciosidade.

A variabilidade refere-se às oscilações entre as medidas repetidas de um mesmo sujeito, ou


nas várias medidas de sujeitos diferentes. Essa variabilidade é muito comum nas ciências
biomédicas. Por exemplo, se medirmos a temperatura de um indivíduo em vários momentos do dia,
vamos constatar possíveis variações. No entanto, o mesmo não ocorrerá se medirmos a temperatura
de um objeto qualquer, de madeira, por exemplo, se não houver mudança de temperatura do
ambiente, claro. A variabilidade pode ser dividida em variabilidade explicada por causas conhecidas
e aquela não explicável. A variabilidade não explicável normalmente é atribuída ao acaso e é
chamada de variabilidade aleatória ou randômica.

A tendenciosidade é representada por erros sistemáticos (normalmente chamado de vieses)


cometidos pelo pesquisador. Esses erros podem ser de seleção, quando ocorrem na escolha dos
indivíduos que irão compor a amostra, ou de aferição, quando ocorrem na mensuração dos dados.
Ambos os erros, uma vez inseridos no estudo, não podem ser corrigidos por processos de análise
de dados.

O Instituto de Pesquisa Econômica Aplicada (Ipea), desde agosto de 2010, disponibiliza o software IpeaGEO,
ferramenta de análises estatísticas com foco na análise espacial. O programa permite ao usuário ordenar e
visualizar dados em seu contexto geográfico, seja por região, estado, município, ou área do mapa.

https://www.ipea.gov.br/portal/index.php?option=com_content&view=article&id=2593

1.3 Apresentação numérica

Durante a análise dos dados, deve-se evitar qualquer tipo de arredondamento numérico. No entanto,
na apresentação de resultados, às vezes se faz necessário. Por exemplo, se, numa turma de 45
alunos, 28 são mulheres, dizer que a representação feminina é de 62,22% é um exagero. Pode ser
usado 62% sem problema de perda de informação.
Quando o tamanho da amostra é menor que 100, o percentual pode ser arredondado para
números inteiros. Para amostras maiores que 100, o normal é utilizar apenas uma casa decimal.
Para variáveis quantitativas, vale a mesma regra, ou seja, deve-se evitar o exagero de
precisão. Por exemplo, relatar que a média das idades de uma turma é de 31,452 anos é um exagero,
pois apresentar 31,4 anos também quer dizer que a média é de pouco mais de 31 anos.

1.4 Arredondamento
Sempre que possível, o arredondamento deve ser feito no final do processo, somente para a
apresentação dos dados. Normalmente, os cálculos estatísticos são realizados por um computador,
assim, não há arredondamentos intermediários.

9
No processo de arredondamento, as casas decimais consideradas excessivas são
desprezadas. Esse processo segue a seguinte regra:

a) se o algarismo imediatamente após a casa a ser arredondada é igual ou superior a 5, deve-se


aumentar uma unidade na casa de arredondamento. Por exemplo, o número 34,371, se
arredondado na primeira casa, resulta em 34,4, pois após o 3 temos 7, que é maior que 5.

b) se o algarismo imediatamente após a casa a ser arredondada é menor que 5, deve-se apenas
manter o algarismo da casa de arredondamento. Por exemplo, o número 34,371, se
arredondado na segunda casa, resulta em 34,37, pois após o 7 temos 1, que é menor que 5.

Algarismo é diferente de número. Temos apenas 10 algarismos (de 0 a 9). A partir deles, todos os números
podem ser escritos. Por exemplo, o número 265 é formado por 3 algarismos (2, 5 e 6).

Você pode ver mais exemplos de arredondamentos em: https://pt.wikipedia.org/wiki/Arredondamento

1.5 Programas para cálculos estatísticos

Existem vários programas (softwares) específicos para realizar cálculos estatísticos, alguns exigem
conhecimento sólido sobre estatística e sobre ele próprio; outros, por sua vez, permitem a utilização
por qualquer pessoa com conhecimentos básicos de estatísticas. Algumas planilhas eletrônicas
também permitem alguns cálculos, porém, é sempre mais limitada que qualquer programa estatístico.
A seguir, são listados alguns programas e suas respectivas páginas para acesso, disponibilizada por
Motta (2006, p.14).

10
1.6 Tipos de amostra

Antes de determinar os elementos que irão compor a amostra, é necessário escolher o procedimento
de amostragem, ou seja, a maneira pela qual os elementos da população serão escolhidos para
formar a amostra.

1.6.1 Amostra casual simples

Quando os elementos são escolhidos ao acaso, normalmente por sorteio. Para determinar a massa
média das crianças de uma escola, pode-se sortear uma quantidade x de crianças aleatoriamente.
Desta forma, se houver tendenciosidade nos resultados, será atribuída ao acaso.

1.6.2 Amostra sistemática

Quando os elementos são escolhidos por meio de um sistema. No exemplo citado acima, as crianças
para compor a amostra poderiam ser escolhidas por meio da letra inicial do nome. Todas as crianças
cujo nome inicia com a letra B, por exemplo.

1.6.3 Amostra estratificada

É aquela composta por todos os elementos originados de todos os estratos da população. Por
exemplo, uma amostra estratificada da população de uma determinada cidade (composta por
crianças, jovens, adultos e velhos) seria: 10 crianças, 10 jovens, 10 adultos e 10 velhos.

1.6.4 Amostra por conveniência

É aquela em que o pesquisador utiliza, para compor a amostra, os indivíduos de que dispõe. Por
exemplo, para verificar qual melhor adubo dentre 3 tipos, um pesquisador pode compor a amostra
com 10 plantas idênticas, e essas serem as únicas disponíveis em seu laboratório. Este tipo de
amostra costuma apresentar muita tendenciosidade.

Considerações finais
Até aqui abordamos alguns conceitos estatísticos e matemáticos que são utilizados de maneira
diferente daquela a que estamos acostumados no cotidiano. Tais conceitos serão muito importantes
no decorrer da disciplina de bioestatística, e o não entendimento pode comprometer, futuramente, a
coleta e, principalmente, a análise dos dados.

Tão importante quanto a análise dos dados numa determinada pesquisa científica é a
escolha das variáveis a serem estudadas, sua caracterização e como esse estudo será feito.

11
Neste capítulo estudamos o conceito de estatística e vimos que se divide em duas partes: a descritiva, que
utiliza os dados para descrever a população, e a inferencial, que utiliza os dados e métodos estatísticos para
inferir algo sobre a população.
A bioestatística refere-se à aplicação dos conceitos de estatística nas ciências biomédicas. Para aplicação
adequada da estatística, é necessário identificar a população de estudo, bem como o significado de amostra e
como podem ser os processos de amostragem para aquela determinada população.
Para início de qualquer pesquisa científica, é necessário conhecer as variáveis a serem investigadas, defini-
las de acordo com suas características numéricas ou categóricas para então propor um método para a coleta
dos dados propriamente dita. A bioestatística vai sempre considerar que a variabilidade e a tendenciosidade
podem estar presentes na pesquisa, e vai sempre procurar meios para que esses obstáculos sejam superados
de modo a não interferirem no resultado.

Questão do ENADE 2009 (adaptada)

Leia os gráficos a seguir:

De acordo com o que você aprendeu neste capítulo, ambos os gráficos acima referem-se a qual tipo de
variável?

a) variáveis qualitativas ordinais


b) variáveis qualitativas nominais
c) variáveis quantitativas discretas
d) variáveis quantitativas contínuas
e) variáveis quantitativas nominais

Orientações: veja que, para chegar às respostas (que geraram o gráfico) as perguntas feitas foram: “possui
domínio de leitura?”, no caso do gráfico I, e “o município possui livraria?”, no caso do gráfico II. Ambas as
perguntas só admitem duas respostas possíveis: sim ou não. Logo, trata-se de uma variável qualitativa e não
faz sentido ordená-las. Portanto, é uma variável qualitativa nominal.

12
Alternativa Correta: B

Questão Objetiva

Ainda em relação aos gráficos acima, no que diz respeito à população da pesquisa, é correto afirmar que:

a) é desconhecida em ambos os gráficos


b) corresponde à população brasileira em ambos os gráficos
c) corresponde à parte da população brasileira no gráfico I e parte dos municípios brasileiros no gráfico II
d) corresponde à população brasileira no gráfico I e aos municípios brasileiros no gráfico II
e) corresponde a 67% da população brasileira no gráfico I e a 89 % dos municípios brasileiros no gráfico II

Alternativa Correta: D

Questão Discursiva

Considerando o gráfico II, se a amostragem foi realizada a partir de um sorteio aleatório de municípios
brasileiros, como deve ser classificada essa amostra?

Resposta: Nesta situação seria uma amostra casual simples.

Inferência: processo intelectual de tirar uma conclusão baseando-se em evidências providas de raciocínio
indutivo ou dedutivo.

Callegari-Jacques, Sidia M. Bioestatística: princípios e aplicações. Porto Alegre: Artmed, 2003.

Motta, Valter T. Bioestatística. 2.ed. Caxias do Sul: Educs, 2006.

13
UNIDADE I
CAPÍTULO 2 – COLETA E ORGANIZAÇÃO DE DADOS
No término deste capítulo, você deverá saber:
✓ Identificar dados e conjuntos de dados;
✓ Conceituar frequência absoluta e relativa;
✓ Construir e analisar tabelas de frequência e gráficos;

Introdução
A Estatística Descritiva fundamenta-se na organização dos dados obtidos por meio de classificação,
contagem ou mensuração. Dados é o nome que se dá ao conjunto de variáveis (qualitativas ou
quantitativas) coletadas que compõem uma amostra. Os dados são apresentados em medidas,
resumo, tabelas e gráficos, não permitindo, no entanto, conclusões analíticas.
A notação matemática, consistindo em um arranjo de letras, tanto romanas como gregas ou
latinas, com linhas tortuosas e sobrescritos e subscritos, é um aspecto da matemática que intimida
o não matemático. Na realidade, é um meio conveniente de relatar ideias complexas em espaço
compacto. Há, sem dúvida, a necessidade de compreender o conceito por trás de cada símbolo para
que as expressões matemáticas tenham sentido. Em relação às necessidades de cálculos para
encontrar os valores resultantes dos dados de estatísticas, deve se ter em conta que o computador
não é um concorrente do cérebro humano. Ele é apenas um grande e paciente mastigador de
números. Não se aborrece, não fica sonolento, nem comete erros de cálculo, mesmo quando não
reconhecido seu valor pelo usuário. Se o conceito não é compreendido, o cálculo é desnecessário.
Após a definição do problema a ser estudado e o estabelecimento do planejamento da
pesquisa (forma pela qual os dados serão coletados, cronograma das atividades, custos envolvidos,
exame das informações disponíveis, delineamento da amostra etc.), o passo seguinte é a coleta de
dados, que consiste na busca ou compilação dos dados das variáveis, componentes do fenômeno a
ser estudado. É importante salientar que nesta fase todos os possíveis problemas encontrados na
coleta de dados são provenientes de um método de amostragem não apropriado. Desta forma,
convém ter clareza quanto ao que se pretende com a pesquisa e organizar a amostragem de acordo
para que a coleta dos dados seja facilitada e permita posteriormente diferentes análises.

O livro “Bioestatística - Princípios e Aplicações” foi elaborado para ser simples nas explicações e na abordagem
dos conceitos; em vez de seguir o rigor matemático estrito, o livro familiariza o leitor com a linguagem
estatística, bem como apresenta as técnicas mais comuns usadas na análise de dados de pesquisa. Com isso,
estudantes de graduação, biólogos, farmacêuticos, médicos e outros profissionais que se interessam por
bioestatística dispõem de uma obra que facilitará a compreensão deste assunto, considerado difícil por muitos
estudantes. O livro traz diversos exemplos de tabelas e gráficos, utilizando dados referentes à área da saúde.

14
2.1 Coleta de dados

A coleta de dados pode ocorrer de duas formas: direta ou indireta. A Coleta direta ocorre quando os
dados são obtidos na fonte originária. Os valores assim compilados são chamados de dados
primários, como, por exemplo, nascimentos, casamentos e óbitos, todos registrados no Cartório de
Registro Civil; opiniões obtidas em pesquisas de opinião pública, ou ainda, quando os dados são
coletados pelo próprio pesquisador. A coleta direta pode ser classificada relativamente ao fator tempo
em:
a) Contínua: quando feita continuamente, como, por exemplo, nascimentos e óbitos, frequência
dos alunos às aulas;

b) Periódica: quando é feita em intervalos constantes de tempo, como os censos (de 10 em 10


anos);

c) Ocasional: quando é feita sem época preestabelecida.

A coleta indireta, por sua vez, ocorre quando os dados obtidos provêm da coleta direta. Os
valores assim compilados são denominados de dados secundários, como, por exemplo, o cálculo do
tempo de vida média, obtido pela pesquisa, nas tabelas demográficas publicadas pela Fundação
Instituto Brasileiro de Geografia e Estatística (IBGE), constitui-se em uma coleta indireta.
Após a coleta, os dados devem ser apresentados sob forma adequada (tabelas ou gráficos),
para o melhor entendimento do fenômeno que está sendo estudado.

2.2 Métodos tabulares

As técnicas aqui estudadas permitem detectar e corrigir erros e inconsistências ocorridos durante um
processo de coleta de dados, determinar as principais características destes mesmos dados e
propiciar familiaridade com eles. Tabela é um quadro que resume um conjunto de observações. Ela
é composta de:

a) Título: conjunto de informações, as mais completas possíveis, respondendo às perguntas: O


que? (referente ao fato), Quando? (correspondente à época), Onde? (relativo ao lugar);

b) Corpo: conjunto de linhas e colunas que contém informações sobre a variável em estudo;

c) Cabeçalho: parte superior da tabela que especifica o conteúdo das colunas;

d) Rodapé: reservado para as observações pertinentes, bem como a identificação da fonte dos
dados.

Exemplo:

15
A representação gráfica dos dados tem por finalidade dar uma ideia, a mais imediata
possível, dos resultados obtidos, permitindo-nos chegar a conclusões sobre a evolução do fenômeno
ou sobre como se relacionam os valores. Não há apenas uma maneira de representar graficamente
dados estatísticos. A escolha do gráfico mais apropriado ficará a critério do analista. Contudo, os
elementos: simplicidade, clareza e veracidade devem ser consideradas quanto à elaboração de um
gráfico.

Faz sentido somar as frequências acumuladas? Por quê?

2.2.1 Sintetizando dados qualitativos/quantitativos

Uma das maneiras mais simples de sintetizar dados estatísticos é através de tabelas. Qualquer
tabela deve ter como objetivo: apresentar os dados agrupados de forma que seu manuseio,
visualização e compreensão sejam simplificados. A depender do tipo de variável e da quantidade de
dados, pode-se também utilizar a representação gráfica. Dentre as tabelas, destaca-se uma de
grande importância para a estatística descritiva: a tabela de distribuição de frequência.

2.2.2 Tabela de distribuição de frequência

A seguir são descritos os procedimentos usuais na construção dessas tabelas. Primeiramente,


vamos ver alguns conceitos fundamentais:

16
a) Dados brutos: é o conjunto dos dados numéricos obtidos após a crítica dos valores coletados.
Os seguintes valores poderiam ser os dados brutos: 24, 23, 22, 28, 35, 21, 23, 33.

b) Rol: é o arranjo dos dados brutos em ordem de frequência crescente ou decrescente. Os dados
brutos anteriores ficariam assim: 21, 22, 23, 23, 24, 28, 33, 35.

c) Amplitude Total ou "Range" (R): é a diferença entre o maior e o menor valor observado. No
exemplo, R = 35 - 21 = 14.

d) Classe: é cada um dos grupos de valores em que se subdivide a amplitude total do conjunto
de valores observados da variável.

e) Limite de Classe: são os valores extremos do intervalo de classe. Exemplo: No intervalo de


classe 75|-----85, o limite inferior (Li) é representado pelo valor 75, inclusive, e o valor 85
representa o limite superior (Ls), exclusive, do intervalo de classe.

f) Ponto Médio do Intervalo de Classe (𝒙𝒊 ): é o valor que representa a classe para o cálculo de
certas medidas. Na distribuição de frequência com dados agrupados em intervalos de classe,
considera-se que os dados distribuem-se de maneira uniforme no intervalo. O ponto médio é
facilmente calculado por meio da fórmula:

(𝐿𝑠 − 𝐿𝑖)
𝐸𝑞 1: 𝑥𝑖 =
2

Frequência é a quantidade de vezes que determinado fenômeno ocorre

2.2.3 Tipos de frequência

A depender do tipo de variável e de como elas estão distribuídas, temos várias maneiras de
apresentar a frequência:

a) Frequência Simples Absoluta (𝑭𝒊 ): ou simplesmente frequência absoluta, é o número de


vezes que o dado aparece na amostra, ou o número de elementos pertencentes a uma classe.

b) Frequência Absoluta Acumulada (𝑭𝒂𝒄 ): ou frequência acumulada, é a soma da frequência


absoluta da classe com a frequência absoluta das classes anteriores.

c) Frequência Simples Relativa (𝑭𝒓 ): ou frequência relativa, é o valor da frequência absoluta


𝐹𝑖
dividido pelo número total de observações: 𝐹𝑟 =
𝑛

17
d) Frequência Relativa Acumulada (𝑭𝒓𝒂 ): é o valor da frequência acumulada dividido pelo
𝐹𝑎𝑐
número total de observações: 𝐹𝑟𝑎 = 𝑛

A fim de exemplificar os conceitos acima, vamos elaborar uma tabela de distribuição de


frequências referente a uma pesquisa que coletou a quantidade de albumina no plasma de pacientes
com determinada doença. Os valores foram registrados em gramas a cada 100 mililitros (g/100 mL),
e aparecem abaixo na ordem da coleta:

5,1 4,9 4,9 5,1 4,7


5,0 5,0 5,0 5,1 5,0
5,2 5,2 4,9 5,3 5,4
4,5 5,4 5,1 4,7 5,5
4,8 5,1 5,3 5,3 5,0
Analisando os dados, o pesquisador pode concluir inicialmente que:

a) Os valores de albumina nos pacientes variam de indivíduo para indivíduo.

b) Alguns indivíduos apresentam valores iguais.

c) Os valores oscilam entre 4,5 e 5,5.

Não é tão simples analisar os dados coletados quando estão fora de ordem e alguns
aparecem repetidas vezes, por isso, a tabela de frequência é um importante recurso para facilitar a
análise. A tabela de frequência abaixo refere-se aos dados coletados acima.

Tabela 2.2 Taxa de albumina (g/100mL) no plasma de 25 pacientes.

𝐹𝑖
𝐹𝑟 = 𝐹𝑎𝑐
Albumina (x) 𝐹𝑖 𝑛 𝐹𝑎𝑐 𝐹𝑟𝑎 =
𝑛
4,5 1 0,04 1 0,04
4,6 0 0,00 1 0,04
4,7 2 0,08 3 0,12
4,8 1 0,04 4 0,16
4,9 3 0,12 7 0,28
5,0 5 0,20 12 0,48
5,1 5 0,20 17 0,68
5,2 2 0,08 19 0,76
5,3 3 0,12 22 0,88
5,4 2 0,08 24 0,96
5,5 1 0,04 25 1,00
∑ 25 1,00

Numa tabela de frequência, costuma-se chamar de x os valores das variáveis quantitativas;


neste caso, x representa o valor de albumina. A letra grega ∑ (sigma maiúsculo) representa a soma
dos valores. Note que, na tabela acima, ∑ 𝐹𝑖 corresponde ao número de pacientes que, normalmente,
é chamado de n. Portanto, ∑ 𝐹𝑖 = 𝑛.

18
Dividindo-se 𝐹𝑖 por n, temos a frequência relativa 𝐹𝑟 , que também pode ser escrita em
porcentagem, bastando para isso multiplicar a frequência relativa por 100. Por exemplo, podemos
afirmar que 20% dos pacientes apresentaram valores albumina iguais a 5,0 (0,20 x100). Na coluna
de frequência acumulada, obtemos a quantidade de indivíduos que possuem valores iguais ou
menores que um valor x de albumina.

Por exemplo, podemos verificar que 7 pacientes apresentaram valores de albumina


menores que 5,0. Dividindo a frequência acumulada 𝐹𝑎𝑐 por n, temos a frequência relativa acumulada
𝐹𝑟𝑎 , que indica a proporção da frequência acumulada em relação ao total de pacientes. Por exemplo,
os 7 pacientes que apresentaram valores de albumina menores que 5,0 correspondem a 0,28 ou
28% do total de pacientes.

2.2.4 Tabela de frequência com intervalo de classes

Quando os valores de uma variável variam muito (normalmente variáveis numéricas contínuas),
como o peso ou a altura de pacientes, a tabela de frequência pode ficar muito extensa. Também,
quando temos mais que 10 categorias para representar numa mesma tabela, pode ser utilizada uma
tabela com intervalo de classes (MOTTA, 2006. p.27), que consiste em condensar os dados
intervalos para resumir as informações da tabela.

Cada intervalo possui um limite inferior e um limite superior que são simbolizados por |-----
e -----|, respectivamente. A título de exemplo, vamos analisar a tabela 2.3 referente às massas de
256 alunas universitárias.
Tabela 2.3 Massas (kg) de 256 alunas da Universidade Federal
do Rio Grande do Sul, entre 1980 e 1999.

Massa (x) 𝐹𝑖 𝐹𝑟
40|-----45 9 0,035
45|-----50 36 0,141
50|-----55 78 0,304
55|-----60 55 0,215
60|-----65 53 0,207
65|-----70 11 0,043
70|-----75 7 0,027
75|-----80 5 0,020
80|-----85 1 0,004
85|-----90 1 0,004
∑ 256 1,000

Note que, não optando por utilizar os intervalos de classe, a tabela seria extensa, o que
dificultaria a análise dos dados nela registrados. A tabela possui 10 intervalos iguais e o tamanho de
cada intervalo é de 5 (Range). Veja que o símbolo |----- permite que não haja ambiguidade na
alocação dos valores. Por exemplo, uma aluna que tem 45 kg estará alocada na 2ª linha da tabela,
pois, na primeira linha, o 45 não faz parte do intervalo, servindo apenas para limitá-lo.

A frequência acumulada, bem como a frequência relativa acumulada, poderia ser


determinada nessa tabela, exatamente da mesma forma que foi realizada na tabela 2.2.

19
Para a construção de um gráfico de setores, basta aplicar regra de três simples.
Comparando as frequências (acumulada e absoluta) com os ângulos correspondentes. Assim, temos a
𝐹𝑎𝑐 𝐹𝑖
seguinte regra de três: = (onde x corresponde ao ângulo referente à frequência absoluta Fi).
360 𝑥

2.3 Gráficos

Os gráficos são representações pictóricas dos dados, muito valiosas na visualização dos resultados.
Para Callegari-Jacques, a representação gráfica é bastante interessante, porque dá visão imediata
de como se distribuem os indivíduos nos diferentes valores da variável (2003, p.22).

É importante saber representar os dados na forma gráfica corretamente, pois se forem


representados de forma errada acarretam ao analista uma ideia falsa dos dados, chegando até
mesmo a confundi-lo. Os principais tipos de gráficos usados na representação estatística são:

a) Gráfico em barras: é um tipo de gráfico que se obtém colocando os valores no eixo horizontal
e traçando-se em cada um deles um segmento vertical de altura proporcional à respectiva
frequência (relativa ou absoluta). Esse tipo de gráfico se adapta melhor às variáveis
quantitativas discretas ou qualitativas ordinais.

20
b) Histograma: é um conjunto de retângulos, com bases sobre um eixo horizontal, divididos de
acordo com os tamanhos das classes, com centros nos pontos médios das classes e áreas
proporcionais às frequências. Em certos casos, é interessante que a área total da figura seja
igual a 1, correspondendo à soma total das proporções (𝐹𝑟 ).

c) Polígono de frequências: é um gráfico que se obtém unindo por uma poligonal os pontos
correspondentes às frequências, das diversas classes, centradas nos respectivos pontos
médios. Para se obter as interseções do polígono com o eixo horizontal, cria-se em cada
extremo do histograma uma classe com frequência nula. É também conhecida como ogiva.

21
d) Gráfico em setores: aplicável quando as categorias (classes) básicas são quantificáveis.
Toma-se um círculo (360 graus), que se divide em setores com áreas proporcionais às
frequências das diversas categorias. Esse tipo de gráfico se adapta muito bem às variáveis
qualitativas nominais.

O gráfico de setores (também chamado de gráfico de pizza) é muito utilizado em reportagens de jornais e
revistas pois, além de transmitir a informação de maneira rápida, também utiliza as cores para chamar a
atenção do leitor. No entanto, em textos científicos, são poucos utilizados, pois trazem poucas informações
sobre os dados.

Você pode utilizar o Excel para construir vários tipos de gráficos a partir de uma tabela. O link a seguir é um
tutorial da Microsoft sobre a construção de gráficos utilizando a planilha Excel.

https://support.microsoft.com/pt-br/office/criar-um-gr%C3%A1fico-do-in%C3%ADcio-ao-fim-0baf399e-dd61-
4e18-8a73-b3fd5d5680c2

Considerações finais
É de fundamental importância a correta coleta de dados, bem como a apresentação destes, de
maneira a tornar as informações mais compreensíveis e de fácil leitura. Tanto a tabela quanto os
gráficos construídos com os dados da amostra devem ter sempre o objetivo de descrever, da melhor

22
forma possível, as características da amostra. É a partir desta tabela que todos os cálculos serão
realizados, a fim de possibilitar inferir algo sobre a população pesquisada.

Neste capítulo estudamos os conceitos de estatística descritiva relacionados à coleta e análise de dados. A
coleta de dados bem planejada e realizada corretamente facilitará a análise dos mesmos e, consequentemente,
tornará mais fácil também a estatística inferencial. A estatística descritiva faz uso de alguns recursos como
tabelas e gráficos para melhor compreensão dos dados e do fenômeno em estudo. A tabela de frequência é
uma das formas mais comuns de organizar os dados que compõem uma amostra, apresentando além da
frequência com que determinada variável foi encontrada, como também a relação dela com a amostra. Muitas
vezes, a tabela de frequência dá origem a um ou mais gráficos, a depender do tipo de variável e da quantidade
de dados coletados. Os gráficos por sua vez também podem variar, de acordo com os tipos variáveis e do que
se pretende evidenciar ou descrever.

Questão do ENADE 2009 (adaptada)

Analisando o gráfico acima é incorreto afirmar que:

a) Cerca de 20% dos adultos utilizam internet por 10 minutos em cada sessão.
b) Nem jovens nem adultos utilizam internet com sessão de 35 minutos.
c) Cerca de 25% dos jovens utilizam internet por 40 minutos em cada sessão.
d) Cerca de 35% dos adultos utilizam internet por 20 minutos em cada sessão.
e) O gráfico não permite identificar a quantidade de clientes que fazem parte da amostra.

Orientações: Apesar de os pontos no gráfico apenas marcarem valores inteiros para o tempo, por estarem
distribuídos em classes (de 10 em 10), os valores entre os extremos existem e fazem parte do gráfico.

23
Alternativa Correta: B

Questão Objetiva

Em relação à tabulação dos dados de uma pesquisa, é correto afirmar que:

a) A frequência absoluta corresponde à quantidade de vezes que determinado fenômeno ocorreu.


b) A frequência relativa é a soma das frequências absolutas.
c) A frequência relativa é a divisão das frequências absolutas e relativas.
d) A frequência acumulada é divisão das frequências absolutas e relativas.
e) A frequência acumulada corresponde à soma de todas as frequências relativas.

Alternativa Correta: A

Questão Discursiva

Identifique o tipo de gráfico a seguir e, com base nas características dos gráficos que aprendeu neste capítulo,
o gráfico de setores seria indicado para transmitir as mesmas informações? Explique.

Resposta possível: não é viável utilizar gráfico de setores para transmitir as informações do gráfico acima,
pois a variável número de casos é quantitativa.

24
Tabulação: de acordo com o dicionário, é o ato ou feito de tabular. Refere-se à colocação de dados em colunas
ou tabelas (ex.: já fez a tabulação dos resultados do questionário).
"tabulação", In.: Dicionário Priberam da Língua Portuguesa. Disponível em:
https://dicionario.priberam.org/tabula%c3%a7%c3%a3o>. Acesso em 14 jun. 2020.

Callegari-Jacques, Sidia M. Bioestatística: princípios a aplicações. Porto Alegre: Artmed, 2003.

Motta, Valter T. Bioestatística. 2.ed. Caxias do Sul: Educs, 2006.

25
UNIDADE II
CAPÍTULO 3 – MEDIDAS DE POSIÇÃO
No término deste capítulo, você deverá saber:

✓ Média aritmética simples;


✓ Mediana;
✓ Moda;
✓ Separatrizes.

Introdução

O resumo dos dados por meio de tabelas de frequências e gráficos, seja qual for o tipo, fornecem
muito mais informação sobre o comportamento dos dados de uma variável do que a própria tabela
original de dados. Entretanto, é necessário resumir ainda mais esses dados, apresentando alguns
valores representativos da série inteira. Assim, o objetivo deve ser a caracterização do conjunto de
dados por meio de medidas que resumam a informação, representando a tendência central, a
posição ou, ainda, a maneira pela qual esses dados estão dispersos.

A análise inicial dos dados consiste também no cálculo de valores, ou estatísticas, que ajudam
na produção de uma visão geral dos dados. Nesta seção, serão apresentadas as medidas de
posição, também chamadas medidas de tendência central, que procuram definir um valor que
represente os dados.

De modo geral, as medidas de tendência central mostram o valor representativo em torno do


qual os dados tendem a se agrupar com maior ou menor frequência. As separatrizes são as medidas
que representam partes específicas do total de dados. As medidas de tendência central são utilizadas
para sintetizar em um único número o conjunto de dados observados. Essa sintetização é necessária,
por exemplo, na construção do INPC (Índice Nacional de Preços ao Consumidor). Embora, em um
dado mês, cada artigo registre um aumento específico, é necessário sintetizar esses aumentos em
um único número para ser usado nos vários setores da economia.

3.1 Média aritmética simples

Podemos dizer que esta é a mais importante medida de locação e que é mais comumente usada
para descrever um conjunto de observações. De acordo com Motta, a média é, de longe, a medida
descritiva de dados quantitativos mais utilizada (2006, p. 32). A média aritmética simples de um
conjunto de n observações é o quociente entre a soma dos dados e a quantidade dessas
observações. É denotada por 𝑥̅ . Matematicamente, a média é determinada pela equação:

∑𝑛𝑖=1 𝑥𝑖 𝑠𝑜𝑚𝑎 𝑑𝑒 𝑡𝑜𝑑𝑜𝑠 𝑜𝑠 𝑑𝑎𝑑𝑜𝑠


𝑥̅ = 𝑚é𝑑𝑖𝑎 =
𝑛 𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑑𝑎𝑑𝑜𝑠

26
Exemplo 1: Calcule a média dos dados: 3, 5, 8, 12, 7, 12, 15, 18, 20, 20.

∑𝑛
𝑖=1 𝑥𝑖 3+5+8+12+7+12+15+18+20+20 120
𝑥̅ = 𝑛
𝑥̅ = 10
𝑥̅ = 10
= 12

Mas o que significa a média para o conjunto dos dados? As respostas mais comuns são:
“Representa a posição da maioria” ou “É o valor que está no meio da amostra”. Ambas estão erradas!
A média dos dados é um valor que representa esses dados. É, assim, o valor que representa o
equilíbrio desses dados.

Quando os dados estiverem numa tabela e agrupados de acordo com a frequência absoluta,
a fórmula sofre alteração:

∑𝑛𝑖=1 𝑥𝑖 𝐹𝑖
𝑋̅ =
∑𝑛𝑖=1 𝐹𝑖

Embora pareça mais complicado, o cálculo, na verdade, é mais simples pelo fato de que os
dados já estão organizados numa tabela, veja o exemplo:

Exemplo 2: Consideremos a distribuição relativa a 34 famílias de 4 filhos, seja x o número de


filhos do sexo masculino:

Temos, de acordo com a fórmula:

𝑛
∑ 𝑥 𝑖 𝐹𝑖 78
𝑋̅ = ∑𝑖=1
𝑛
𝐹
= 𝑋̅ = 34 = 2
𝑖=1 𝑖

Sendo X uma variável discreta, como interpretar o resultado obtido, 2 meninos e 3 décimos
de menino? O valor médio de 2,3 meninos sugere, neste caso, que o maior número de famílias tem
2 meninos e 2 meninas, sendo, porém, a tendência geral de uma leve superioridade numérica em
relação ao número de meninos.

A equação acima também pode ser utilizada para o cálculo de média aritmética quando os
dados estão organizados numa tabela por classes. Vejamos um exemplo:

27
Exemplo 3: Suponha que tenhamos feito uma coleta de dados relativos às estaturas de 40
alunos, que compõem uma amostra dos alunos de um colégio A, resultando a seguinte tabela de
valores:

Aplicando a fórmula, temos:


𝑛
∑ 𝑥 𝑖 𝐹𝑖 6440
𝑋̅ = ∑𝑖=1
𝑛 𝑋̅ = = 161 𝑐𝑚
𝑖=1 𝐹𝑖 40

Variável discreta é aquela que é representada por números inteiros, o número de filhos de uma família, por
exemplo, não pode ser um número decimal.

3.2 Mediana

A mediana de um conjunto de n observações é o valor “do meio” do conjunto, quando os dados estão
ordenados. Se n é ímpar, esse valor é único; se n é par, a mediana é a média aritmética simples dos
dois valores centrais.

Exemplo 1: Determinar a mediana do conjunto X: 2, 20, 12, 23, 20, 8, 12.

Ordenando os termos: 2, 8, 12, 12, 20, 20, 23.

A mediana será o número 12, pois ele divide o conjunto em duas partes iguais. Portanto:

Md = 12.

Exemplo 2: Determinar a mediana da série X: 7, 21, 13, 15, 10, 8, 9, 13.

Ordenando os termos: 7, 8,9, 10, 13, 13, 15, 21.

A mediana será:

28
10+13
𝑥̅ = 2
= 11,5

Quando os dados estão numa tabela e organizados por classes, porém, o problema consiste
em determinar o ponto do intervalo em que está compreendida a mediana.

Para tanto, temos, inicialmente, que determinar a classe na qual se encontra a mediana —
classe mediana: é o valor que divide as observações em duas partes, onde 50% dos dados ficam
acima dele e o restante abaixo. Tal classe será, evidentemente, aquela que corresponde à frequência
𝐹
acumulada imediatamente superior a ∑𝑛𝑖=1 2𝑖 (quer dizer, metade da soma das frequências).

Na prática, seguimos os seguintes passos:

1) Determinamos as frequências acumuladas;

𝐹𝑖
2) Calculamos ∑𝑛𝑖=1 2
(classe mediana);

3) Marcamos a classe correspondente à frequência acumulada imediatamente superior à


classe mediana e, em seguida, empregamos a fórmula:

∑𝑛𝑖=1 𝐹𝑖
− 𝑓𝑎𝑛𝑡
𝑀𝑑 = 𝐿𝐼 + ℎ [ 2 ]
𝑓𝑀𝑑

Onde:

LI é o limite inferior da classe mediana;

𝑓𝑎𝑛𝑡 é a frequência acumulada da classe anterior à classe mediana;

𝑓𝑀𝑑 é a frequência simples da classe mediana;

h é a amplitude da classe mediana.

Exemplo 3: Tomemos a distribuição relativa à tabela do nº de meninos, completando-a com


a coluna correspondente à frequência acumulada:

Sendo:

29
𝑛 𝐹𝑖 34
∑ = = 17
𝑖=1 2 2
A menor frequência acumulada que supera esse valor é 18, que corresponde ao valor 2 da
variável, sendo este o valor mediano.
Logo:
Md = 2 meninos
Exemplo 4: Tomemos a distribuição relativa à tabela da estatura dos alunos, completando-a
com a coluna correspondente à frequência acumulada:

Temos:

𝑛 𝐹𝑖 40
∑ = = 20
𝑖=1 2 2

Como há 24 valores incluídos nas três primeiras classes da distribuição e como pretendemos
determinar o valor que ocupa o 20º lugar, a partir do início da série vemos que ele deve estar
localizado na terceira classe (i=3), supondo que as frequências dessas classes estejam
uniformemente distribuídas.

Como há 11 elementos nessa classe e sendo o intervalo de classe igual a 4, temos:

∑𝑛
𝑖=1 𝐹𝑖 −𝑓
2 𝑎𝑛𝑡 20−13 7
𝑀𝑑 = 𝐿𝐼 + ℎ [ 𝑓𝑀𝑑
] → 𝑀𝑑 = 158 + 4 [ 11
] → 𝑀𝑑 = 158 + 4 [11]

28
→ 𝑀𝑑 = 158 + 11 → 𝑀𝑑 = 158 + 2,54 = 160,54 cm

30
Por que não é possível utilizar média ou mediana para variáveis categóricas?

A média e a mediana de um conjunto de dados pode ser um valor que NÃO consta na amostra. Isso porque
ambas são medidas que TENDEM a uma centralidade/equilíbrio dos dados e esse valor exato pode não
estar contido na amostra.

3.3 Moda

Alguns sites oferecem uma ferramenta gratuita para cálculos estatísticos, bastando fornecer o conjunto de
dados. https://calculareconverter.com.br/moda-media-e-mediana/

É o valor de maior frequência em um conjunto de dados. Ela é denotada por Mo.

Exemplo 1: Determinar a moda dos conjuntos de dados:

X: 2, 8, 3, 5, 4, 5, 3, 5, 5, 1.

O elemento de maior frequência é 5. Portanto, Mo = 5. É uma sequência unimodal, pois só


temos uma moda.

Exemplo 1: Determinar a moda dos conjuntos de dados:

X: 6, 10, 5, 6, 10, 2.

31
Este conjunto de dados apresenta o elemento 6 e 10 como elementos de maior frequência.
Portanto, Mo = 6 e Mo = 10. Por isso é chamada de bimodal.

Quando não houver elementos que se destaquem pela maior frequência, dizemos que a série
é amodal.

Exemplo 3: X: 3, 3, 3, 4, 4, 4.

Não há moda, pois os elementos têm a mesma frequência.

Quando os dados aparecerem agrupados em tabela de classe, a classe que apresenta a


maior frequência é denominada classe modal. Pela definição, podemos afirmar que a moda, nesse
caso, é o valor dominante que está compreendido entre os limites da classe modal.

Par determinação da moda, Czuber criou a seguinte expressão, denominada fórmula de


Czuber, na qual:

𝐷1
𝑀𝑜 = 𝐿𝐼 + ℎ ( )
𝐷1 + 𝐷2

LI é o limite inferior da classe modal;

h é a amplitude da classe modal;

D1=𝑓𝑀𝑜 − 𝑓𝑎𝑛𝑡 ;

D2=𝑓𝑀𝑜 − 𝑓𝑝𝑜𝑠𝑡 .

Onde:

𝑓𝑀𝑜 é a frequência simples da classe modal;

𝑓𝑎𝑛𝑡 é a frequência simples da classe anterior à classe modal;

𝑓𝑝𝑜𝑠𝑡 é a frequência simples da classe posterior à classe modal.

Exemplo 4: Tomemos a distribuição relativa à tabela da estatura dos alunos:

32
Como a classe modal é a terceira (i=3), temos:

D1=𝑓𝑀𝑜 − 𝑓𝑎𝑛𝑡 D1= 11- 9 = 2

D2=𝑓𝑀𝑜 − 𝑓𝑝𝑜𝑠𝑡 D2= 11 – 8 = 3

Agora, aplicando a fórmula, temos:

𝐷1 2
𝑀𝑜 = 𝐿𝐼 + ℎ (𝐷1+𝐷2) → 𝑀𝑜 = 158 + 4 (2+3) → 𝑀𝑜 = 158 + 4(0,4) → 𝑀𝑜 = 158 + 1,6 = 159,6 𝑐𝑚

3.4 Separatrizes

3.4.1. Quartis

Denominamos quartis os valores de uma série que a dividem em quatro partes iguais. Há, portanto,
três quartis:

a) O primeiro quartil (Q1), que é o valor que está situado de tal modo na série que uma quarta
parte (25%) dos dados é menor e as três quartas partes restantes (75%) maiores do que ele;

b) O segundo quartil (Q2), que é, evidentemente, coincidente com a mediana (Q2 = Md);

c) O terceiro quartil (Q3), que é o valor situado de tal sorte que as três quartas partes (75%)
dos termos são menores e uma quarta parte (25%) maior que ele.

Quando os dados são agrupados para determinar os quartis, usamos a mesma técnica do
cálculo da mediana, bastando substituir na fórmula da mediana:

𝐹𝑖 𝐹𝑖
∑𝑛𝑖=1 𝑝𝑜𝑟 𝑘 ∑𝑛𝑖=1 Sendo k o número de ordem do quartil. Assim, temos:
2 4

𝑘 ∑𝑛𝑖=1 𝐹𝑖
4 − 𝑓𝑎𝑛𝑡
𝑀𝑑 = 𝐿𝐼 + ℎ [ ]
𝑓𝑄

Exemplo 1: Tomemos a distribuição relativa à tabela da estatura dos alunos:

33
Primeiro Quartil: Terceiro Quartil:
𝐹𝑖 40 𝐹𝑖 40
𝑘 ∑𝑛𝑖=1 = 1. = 10 𝑘 ∑𝑛𝑖=1 4
= 3. 4
= 30
4 4

𝑘 ∑𝑛𝑖=1 𝐹𝑖 𝑘 ∑𝑛𝑖=1 𝐹𝑖
− 𝑓𝑎𝑛𝑡 4 − 𝑓𝑎𝑛𝑡
𝑄1 = 𝐿𝐼 + ℎ [ 4 ] 𝑄1 = 𝐿𝐼 + ℎ [ ]
𝑓𝑄 𝑓𝑄

10 − 4 30 − 24
𝑄1 = 154 + 4 [ ] 𝑄1 = 162 + 4 [ ]
9 8
𝑄1 = 154 + 4[0,67] 𝑄1 = 162 + 4[0,75]

𝑄1 = 154 + 2,68 𝑄1 = 162 + 3

𝑄1 = 156,68 𝑄1 = 165

3.4.2. Percentis

Denominamos percentis aos noventa e nove valores que separam uma série em 100 partes iguais.

O cálculo de um percentil segue a mesma técnica do cálculo da mediana, porém a fórmula

𝐹𝑖 𝐹𝑖
∑𝑛𝑖=1 é substituída 𝑝𝑜𝑟 𝑘 ∑𝑛𝑖=1 , sendo k o número de ordem do percentil.
2 100

Assim, para o k-ésimo percentil, temos:

𝑘 ∑𝑛𝑖=1 𝐹𝑖
− 𝑓𝑎𝑛𝑡
𝑃𝑘 = 𝐿𝐼 + ℎ [ 100 ]
𝑓𝑝

34
Exemplo: Considerando a distribuição relativa à tabela da estatura dos alunos, temos para
oitavo percentil:

𝐹𝑖 40
𝑘 ∑𝑛𝑖=1 100
→ 8. 100 = 8 . 0,4 = 3,2

𝑘 ∑𝑛𝑖=1 𝐹𝑖
− 𝑓𝑎𝑛𝑡
𝑃𝑘 = 𝐿𝐼 + ℎ [ 100 ]
𝑓𝑝

3,2 − 0
𝑃8 = 150 + 4 [ ]
4

𝑃8 = 150 + 4[0,8]

𝑃8 = 150 + 3,2 = 153,2

Considerações finais

Na maioria das situações, não necessitamos calcular as três medidas de tendência central,
normalmente precisamos de apenas uma das medidas para caracterizar o centro da série. A medida
ideal em cada caso é aquela que melhor representa a maioria dos dados da série. Quando houver
forte concentração de dados na área central da série, devemos optar pela média. Quando houver
forte concentração de dados no início e no final da série, devemos optar pela mediana. A moda deve
ser a opção como medida de tendência central apenas em séries que apresentam um elemento
típico, isto é, um valor cuja frequência é muito superior à frequência dos outros elementos da série.

Neste capítulo estudamos as medidas de tendência central, a saber: média, mediana e moda. Normalmente,
apenas uma delas é utilizada para representar o total de dados da amostra. Das três medidas de tendência
central, apenas a moda pode ser utilizada para variáveis numéricas ou categóricas, enquanto a média e a
mediana apenas são utilizadas para variáveis numéricas. Para qualquer pesquisa estatística, é necessário

35
sempre apresentar uma dessas medidas de tendência central para descrever os dados da amostra. As
separatrizes, que podem ser quartis ou percentis, são utilizadas com menos frequência, porém são úteis em
alguns casos para descrever melhor com os dados estão distribuídos. Importante salientar que os cálculos
para obter as medidas de tendência central e as separatrizes dependem da tabela de frequência bem
construída. O esquema a seguir busca organizar as medidas estudadas neste capítulo:

A média aritmética possui algumas propriedades, uma delas é que ela é atraída pelos valores extremos.
Considere os dados:

X: 2,4,6,8,10 → 𝑋̅ =6
Se o primeiro valor x for alterado para 0:
X: 0,4,6,8,10 → 𝑋̅ = 5,6
Se o último valor x for alterado para 12:
X: 2,4,6,8,12 → 𝑋̅ =6,4

36
A tabela abaixo refere-se ao número de casos e óbitos por covid-19 em todo o território brasileiro até
26/04/2020. De acordo com os dados, podemos afirmar que a região Sul (RS, SC, PR), em relação ao número
de casos registrados, apresenta medidas de tendência central iguais a:

a) Média: 1166 mediana: 1185 amodal.

b) Média: 1185,67 mediana: 1166 amodal.

c) Média: 1166 mediana: 1166 moda: 1166.

d) Média: 1185,67 mediana: 1166 moda: 1166.

e) Média: 1185,67 mediana: 1166 moda: 1156.

Resposta: B.

Orientações: A média é determinada pela fórmula:

37
∑𝑛
𝑖=1 𝑥 1235+1166+1156
𝑥̅ = → 𝑥̅ = = 1185,67
𝑛 3

A mediana é o valor que se encontra exatamente no centro dos dados em ordem crescente:

Md= 1166

Não há nenhum dado que apresenta mais de uma frequência, portanto é amodal.

Questão Objetiva

Considerando a mesma tabela, qual a média e a mediana em relação ao número de óbitos da região Sul?

a) Média: 49,67 mediana: 42.

b) Média: 42 mediana: 49,56.

c) Média: 49,67 mediana: 35.

d) Média: 48,65 mediana: 42.

e) Média: 48,65 mediana: 35.

Questão Discursiva.

Texto para a questão:

Em São Paulo, na maior cidade do país e a que conta maior número de mortes por Covid-19, são os bairros
onde a população negra está mais concentrada que trazem a maior quantidade de óbitos pela doença.
Segundo a Pública apurou, dos dez bairros com maior número absoluto de mortes causadas pelo coronavírus,
oito têm mais negros que a média de São Paulo.

O bairro com maior número absoluto de mortes é a Brasilândia, com 103 casos. A região tem cerca de 50% da
população negra — a média de São Paulo é de 37%. No extremo oposto, o bairro com menos negros da
cidade, Moema, teve 26 mortes. A média de negros na região é de menos de 6%.

38
Analisando os dados do gráfico abaixo, é possível determinar quais medidas de tendência central? Quais
bairros apresentam número de mortes superior à média?

Fonte: https://apublica.org/2020/05/em-duas-semanas-numero-de-negros-mortos-por-coronavirus-e-cinco-vezes-maior-no-brasil/

O livro Bioestatística, 2ª edição, de Valter T. Motta, foi idealizado para aquele indivíduo que deseja uma
introdução rápida e sem muitos rodeios no campo da bioestatística. Descreve resumidamente os elementos
essenciais de um trabalho científico, abordando os principais delineamentos da pesquisa biomédica, as
variáveis com seus níveis de mensuração e os procedimentos estatísticos clássicos usados para descrever e
analisar dados.

39
Separatrizes: são números que dividem a sequência ordenada de dados em partes que contêm a mesma
quantidade de elementos da série. Dessa forma, a mediana que divide a sequência ordenada em dois grupos,
cada um deles contendo 50% dos valores da sequência, é também uma medida separatriz. Além da mediana,
as outras medidas separatrizes são: quartis, quintis, decis e percentis.

Callegari-Jacques, Sidia M. Bioestatística: princípios a aplicações. Porto Alegre: Artmed, 2003.

Motta, Valter T. Bioestatística. 2.ed. Caxias do Sul: Educs, 2006.

40
UNIDADE II
CAPÍTULO 4 – MEDIDAS DE DISPERSÃO E DISTRIBUIÇÕES
No término deste capítulo, você deverá saber:

✓ Medidas de variabilidade ou dispersão;


✓ Distribuições de probabilidades;
✓ Distribuição amostral;
✓ Teorema do limite central;
✓ Transformação de variáveis.

Introdução

A variabilidade é um fenômeno central em estatística. Juntamente com as medidas de tendência


central, as medidas de dispersão ocupam um lugar de destaque no processo descritivo dos dados,
que é também composto por tabelas e gráficos. Assim, para a descrição adequada de um conjunto
de dados, além da apresentação da tendência central, deve-se, sempre que possível, apresentar
uma medida do grau de dispersão dos valores estudados. A estimativa da dispersão dos dados
permite, por exemplo, comparar dois grupos de indivíduos e distinguir se a variabilidade é devida ao
acaso ou se é devida a fatores explicativos da diferença observada.

Para descrever com mais rigor uma determinada amostra a partir dos dados coletados, é
necessário determinar como esses dados estão distribuídos. Muitas vezes (na maioria), quando são
coletados dados suficientes de uma determinada população, esses dados tendem a apresentar uma
distribuição já conhecida, como um padrão de distribuição. O tipo de distribuição influencia no método
adequado para melhor representar a amostra.

4.1 Medidas de variabilidade ou dispersão

Raramente uma única medida é suficiente para descrever de modo satisfatório um conjunto de
dados. Tomemos como exemplo o caso da média aritmética, que é uma medida de locação
largamente empregada, e consideremos dois conjuntos de observações:

A: 25 28 31 34 37 média: 31

B: 17 23 30 39 46 média: 31

Ambos têm a mesma média, 31. No entanto, percebe-se intuitivamente que o conjunto B
acusa dispersão muito maior do que o conjunto A. Torna-se, então, necessário estabelecer medidas
que indiquem o grau de dispersão, ou variabilidade, em relação ao valor central.

As medidas de dispersão são medidas que mostram o grau de concentração dos dados em
torno da média. As principais medidas de dispersão são: amplitude de variação, variância, desvio
padrão e coeficiente de variação.

41
4.1.1. Amplitude de variação

A medida mais simples de dispersão é a amplitude de variação (a), que é a diferença entre os valores
extremos. Para o conjunto A, a amplitude é 37-25 = 12; e para o conjunto B, é 27. No entanto, a
amplitude tem dois defeitos como medida de variação:

a) só utiliza os valores extremos, nada informando sobre os intermediários;

b) quando avaliada em amostras, frequentemente fornece uma subestimativa da amplitude


populacional, já que dificilmente a amostra vai apresentar tanto o valor mais baixo quanto o mais alto
da população.

4.1.2. Variância

Em estatística, usamos letras gregas quando nos referimos à população e letras latinas quando nos
referimos à amostra.

É a soma dos quadrados dos desvios em relação à média. Com ela estabeleceremos uma medida
de variabilidade para um conjunto de dados. É denotada por S² no caso amostral ou σ² no caso
populacional. A variância leva em consideração os desvios de cada valor em relação à média, ela é
∑(𝑥−𝑥̅ )²
determinada pela fórmula: 𝑠 2 = 𝑛−1
, onde o numerador corresponde à soma dos quadrados dos
desvios (pode ser chamado de soma dos quadrados) e o denominador corresponde ao número de
dados subtraído de uma unidade (também pode ser chamado de grau de liberdade). A título de
exemplo, vamos analisar a tabela de 2.1., referente à espessura do endosperma em milímetros, de
certa espécie de planta (E).

TABELA 2.1. Espessura do endosperma (mm)


∑𝑛
𝑖=1 𝑥𝑖 14
em sementes de espécie E. (Dados fictícios) Média: 𝑥̅ = 𝑛
= 4
= 3,5

x (𝑥 − 𝑥̅ ) (𝑥 − 𝑥̅ )² ∑(𝑥−𝑥̅ )²
Variância: 𝑠 2 = 𝑛−1
2 -1,5 2,25
5
𝑠 2 = 3 = 1,67 mm²
4 0,5 0,25
5 1,5 2,25
3 -0,5 0,25
∑ 14 5,00

42
Se os dados estiverem agrupados, ou seja, se estiverem numa tabela de frequência, a fórmula
∑ 𝑓(𝑥−𝑥̅ )²
passa a ser: 𝑠 2 = ∑𝑓−1

4.1.3. Desvio padrão

Cuidado para não fazer confusão com o símbolo e seu significado. O símbolo de variância é s², não quer
dizer que o valor de s está elevado ao quadrado.

Uma dificuldade com a variância, como medida descritiva da dispersão, é o fato de não poder ser
apresentada com a mesma unidade com que a variável foi medida. Para contornar essa dificuldade,
temos o desvio padrão. O desvio padrão é a raiz quadrada positiva da variância, representado por S
ou DP no caso amostral ou σ no caso da população. Tomando a tabela 2.1. como exemplo, o desvio
padrão é dado por:

𝑠 = √𝑠 2 = √1,67 = 1,29 𝑚𝑚

Em qual situação teríamos um desvio padrão igual a zero?

4.1.4. Coeficiente de variação

Quando se analisa a mesma variável em duas amostras, podem-se comparar os desvios padrão
observados e verificar onde a variação é maior. No entanto, não é possível comparar quando são
desvios padrão de variáveis distintas. Por exemplo, se as massas das sementes também tivessem
sido determinadas e o desvio padrão dos valores da massa for 0,09 g, não se pode afirmar que a
massa das sementes é menos variável que a espessura, pois trata-se de variáveis distintas, com
unidades de medida distintas.

Para comparar variabilidades, podemos utilizar o coeficiente de variação (CV), que é uma
medida de dispersão independente da mensuração da variável. O coeficiente de variação é dado
pela fórmula:

43
𝑠 𝑠
𝐶𝑉 = 𝑥̅ ou 𝐶𝑉% = 100 𝑥̅

Assim, o coeficiente de variação das medidas de espessura registrados na tabela 2.1. é:

1,29 1,29
𝐶𝑉 = 3,5
= 0,37 ou𝐶𝑉% = 100 3,5
= 37%

Isso quer dizer que a variabilidade entre as medidas é de 37%.

4.1.5. Distância interquartílica

Você pode utilizar diversas calculadoras online para determinar a variância e o desvio padrão de uma amostra.
O link a seguir é um exemplo desse tipo de calculadora, basta digitar os dados brutos, separados por vírgula.

https://pt.symbolab.com/solver/standard-deviation-calculator/desvio%20padr%C3%A3o%201%2C-2%2C-
4%2C3%2C5%2C-5%2C-1%2C2%2C3%2C2

A distância interquartílica é a diferença entre os valores do terceiro quartil (Q3) e do primeiro quartil
(Q1). É uma medida de grande utilidade em séries assimétricas.

4.2 Distribuições de probabilidades

As probabilidades são úteis quando uma variável é observada em um experimento aleatório. O


comportamento probabilístico dessa variável chamada de aleatória é representado através da
distribuição de probabilidades. Isto significa que seria necessário achar a referida distribuição para
cada problema/variável e estudo, porém algumas situações padrões podem ser identificadas,
gerando os chamados modelos probabilísticos de variáveis aleatórias. Os mais usados na área
biomédica serão apresentados nas seguintes subseções, porém não será usado nenhum formalismo
que um estudo detalhado deles requer.

4.2.1. Distribuição binomial

É um modelo probabilístico usado para dados discretos. É um dos modelos mais simples. Ele
considera que um experimento tem dois possíveis resultados que podem ser chamados de sucesso
e fracasso. Para cada um desses resultados existe uma probabilidade associada de forma que a
soma delas sempre será igual a 1.

44
4.2.2. Distribuição Poisson

Este modelo é utilizado quando a variável de estudo é o número de ocorrências de um evento em


intervalos de medição fixos. Para isso é necessário supor que os eventos de interesse ocorrem ao
longo do tempo, ou espaço, segundo uma taxa média fixa.

4.2.3. Distribuição exponencial

A distribuição exponencial está ligada à distribuição Poisson. Enquanto a Poisson estuda o número
de ocorrências em intervalos de medição fixos, a exponencial estuda o tamanho dos intervalos entre
duas ocorrências consecutivas.

4.2.4. Distribuição normal

A distribuição normal, também chamada Gaussiana, é a mais usada, devido às propriedades


matemáticas que a tornam a base de grande parte da teoria de inferência. Ela é muito usada quando
a variável de estudo apresenta valores concentrados em torno de um valor, como mostrado na Figura
1. A distribuição normal fica definida por dois parâmetros, a média μ e a variância σ². O primeiro
parâmetro define a posição da distribuição em torno da qual se encontram os demais valores e o
segundo a dispersão dos valores em torno da posição central.

4.2.5. Características da distribuição normal:

a) a curva é simétrica em relação à média;

b) o valor máximo no eixo y se dá para x= μ;

c) média = moda = mediana;

d) o coeficiente de assimetria varia de -2 a +2.

4.3 Distribuição amostral

Quando é selecionada uma amostra a partir de uma população de interesse, não existe total certeza
de que essa seja representativa, só se sabe que foi coletada sob critérios de aleatoriedade. A partir
dessa amostra pode ser calculada, por exemplo, a média amostral, porém, se outras amostras são

45
coletadas da mesma população, não existe a garantia de que as médias calculadas com essas
amostras sejam todas iguais à primeira. Qualquer que seja a amostra, contudo, o objetivo é usá-la
para fazer inferência sobre os parâmetros da população, como representado no diagrama da Figura
2.2. Na prática, só é coletada uma amostra, por isso, antes de obter a média, o seu valor é uma
variável aleatória. Da mesma forma, outras estatísticas podem ser tratadas como variáveis aleatórias.
Sendo assim, uma distribuição amostral é definida como a distribuição de probabilidades de uma
estatística. Para a média de uma amostra, se os dados originais têm distribuição normal com média
populacional μ e variância σ², então a média da amostra terá distribuição normal com a mesma
média, μ, e variância menor que σ².

4.4 Teorema do limite central

Quando são retiradas amostras aleatórias de uma população com distribuição normal, a distribuição
das médias amostrais também será normal (distribuição exata). O mais importante consiste no fato
que se o tamanho da amostra for suficientemente grande (n≥30), as médias amostrais terão
distribuição normal, independentemente da distribuição original da variável (em resumo, para
amostras de tamanho maior que 30, podem ser utilizados testes paramétricos para a comparação
de médias amostrais, mesmo que não se conheça a distribuição da variável em estudo).

4.5 Transformação de variáveis

Vários procedimentos estatísticos baseiam-se na suposição de normalidade dos dados ou pelo


menos na simetria deles, porém nem sempre essas situações estão configuradas nas variáveis
numéricas pesquisadas. Uma alternativa consiste em efetuar uma transformação das observações
de modo a se obter uma distribuição mais simétrica e próxima da normal. Essa transformação pode
se dar elevando os valores a uma potência (positiva ou negativa) ou calculando o logaritmo natural
dos valores. O auxílio de gráficos (histogramas, dispersão, desenhos esquemáticos…) torna-se
muito útil para indicar a transformação mais apropriada aos dados, porém deve-se tomar muito
cuidado nas conclusões face à transformação realizada e atentar-se à complexidade de
interpretação, em alguns casos.

46
Neste capítulo estudamos as principais medidas de dispersão, que indicam o quanto as medidas coletadas
variam. A amplitude é a medida de dispersão mais simples e considera apenas os valores extremos dos dados.
A variância considera os desvios de cada dado em relação à média, porém a unidade de medida da variância
torna difícil a sua interpretação. O desvio padrão considera os desvios de cada dado em relação à média e
utiliza a mesma unidade de medida do próprio dado, facilitando a interpretação. O desvio padrão, porém, não
permite comparações entre variáveis distintas, enquanto o coeficiente de variação permite, pois é adimensional
(não possui unidade de medida). Vimos, ainda, que os dados coletados de uma determinada população
tendem, muitas vezes, a se distribuírem de uma forma padronizada, portanto conhecida. Os diferentes tipos
de distribuição permitem melhor escolha sobre como a amostra deverá ser representada, além de favorecer a
análise deles futuramente, durante a estatística inferencial.

O cálculo da média, bem como do desvio padrão e de muitas outras medidas de dispersão, pode ser obtido
com a ajuda da planilha Excel. Segue link de vídeo que ensina a configurar a planilha para esses tipos de
cálculo. https://www.techtudo.com.br/dicas-e-tutoriais/2019/03/como-calcular-desvio-padrao-no-excel.ghtml

O gráfico a seguir foi publicado no dia 19/03/20 no jornal Diário Regional do ABC, em São Paulo.

Segundo balanço feito pelo Diário Regional com base em dados da Secretaria de Estado da Saúde e das sete
prefeituras, a região acumulava 17 pessoas infectadas pelo vírus nesta quarta-feira, contra cinco no dia
anterior.

47
Analisando as informações contidas na tabela acima, é correto afirmar que a amplitude e a variância referentes
aos casos confirmados são, respectivamente, iguais a:

a) 6 e 7.

b) 6 e 7,58.

c) 1 e 7.

d) 7 e 11.

e) 1 e 7,58.

Resposta: B.

Questão Objetiva

Ainda considerando a tabela acima, o desvio padrão referente aos casos descartados é igual a:

a) 11,91.

b) 10,25.

c) 11,03.

d) 9,58.

48
e) 10,26.

Questão Discursiva.

Interprete o resultado obtido na questão anterior, explicando seu significado para os dados.

O livro Bioestatística — tópicos avançados, da autora Sonia Vieira, que leva o leitor a dominar os conceitos
progressivamente, rever as próprias ideias e aperfeiçoar a aprendizagem, sempre de modo agradável. A
competência e a capacidade da autora de transmitir ideias ficam demonstradas, nesse livro, pela disposição
dos temas, pela sequência das ideias, pelo didatismo sem prejuízo da profundidade na escolha dos exemplos
e dos exercícios. São encontrados vários exemplos desenvolvidos de maneira fácil de acompanhar.

A palavra probabilidade deriva do latim probare (provar ou testar). Informalmente, provável é uma das muitas
palavras utilizadas para eventos incertos ou desconhecidos, sendo também substituída por algumas palavras
como “sorte”, “risco”, “azar”, "chance", “incerteza” e “duvidoso”, dependendo do contexto, inseridas na língua
portuguesa e na linguagem matemática.

Callegari-Jacques, Sidia M. Bioestatística: princípios a aplicações. Porto Alegre: Artmed, 2003.

Motta, Valter T. Bioestatística. 2.ed. Caxias do Sul: Educs, 2006.

49
UNIDADE III
CAPÍTULO 5 – IMPORTÂNCIA DA CURVA NORMAL
No término deste capítulo, você deverá saber:

✓ Descrição da curva normal;


✓ Curva normal padronizada;
✓ Valores da tabela Z;
✓ Significância estatística de um desvio;
✓ Teste de hipótese.

Introdução

No capítulo anterior, estudamos alguns tipos de distribuição de dados, dentre eles a distribuição
normal, também chamada de Gaussiana. Neste capítulo vamos aprofundar o conhecimento acerca
dessa distribuição e compreender melhor a relação entre ela e a maneira como descrevemos os
dados coletados.

Muitas variáveis contínuas seguem um padrão de distribuição de frequência da população.


Assim, quando retiramos uma amostra dessa população, muito provavelmente a amostra terá
semelhanças com a população, o que permite inferir sobre a população a partir dos dados da
amostra. No entanto, para isso é preciso conhecer mais detalhadamente as características da
distribuição normal.

Utilizamos letras gregas quando nos referimos à população e letras latinas quando nos referimos à amostra.

5.1 Descrição da curva normal

Diversas variáveis contínuas seguem um padrão de dispersão em suas distribuições de frequência,


que pode ser descrito como a distribuição normal de probabilidade. Sob o ponto de vista gráfico, a
distribuição normal de probabilidade é descrita como uma curva em forma de sino, simétrica em
relação ao ponto de frequência máxima (média). É também chamada de curva de distribuição normal,
ou de Gauss, e representa a distribuição de frequências da população, sendo, portanto, uma curva
teórica. A curva normal é considerada a forma limite do histograma de distribuição de frequências da
amostra, admitindo-se que o intervalo da classe seja cada vez menor à medida que aumenta o
tamanho da amostra. Muitos fenômenos naturais se apresentam distribuídos, aproximadamente,
segundo o modelo da curva normal.

50
Considerando uma população que possui distribuição normal de frequências para uma determinada variável,
qual a melhor medida de tendência central usada para representá-la?

A distribuição normal é descrita por dois parâmetros: μ e σ, onde μ representa a média da


população, ou o centro da distribuição, e σ é o desvio padrão da população. Os valores da variável
x são representados no eixo horizontal; a média μ de x é a projeção sobre o eixo do ponto de
frequência máxima da curva. Vários testes estatísticos pressupõem que os dados sejam
provenientes de uma distribuição normal.

A curva normal apresenta as seguintes características:

a) a média, a mediana e a moda coincidem;

b) a curva é simétrica ao redor da média;

c) as extremidades da curva, em ambos os lados da média, se estendem cada vez mais


próximas da linha da base (eixo x) sem jamais tocá-la, ou seja, a curva normal possui caudas
assintóticas;

d) a área total limitada pela curva e a linha de base, em qualquer distribuição normal, são
iguais a 100% dos dados considerados. Como a altura da curva representa as frequências relativas
à área, é também designada por 1,0 que corresponde a 100%. Desse modo, a frequência relativa
acumulada entre os valores -∞ e +∞ é igual a 1,0 ou 100%. A valores maiores ou menores que μ
correspondem 0,5 ou 50% da área;

e) a área sob a curva delimitada por um desvio padrão em torno da média (entre μ-σ e μ+σ)
é de 0,6826 ou, aproximadamente, 68% da área total. Do mesmo modo, a área entre μ - 2σ e μ+2σ
abrange 0,9544 ou, aproximadamente, 95% da área total.

51
A normalidade dos dados significa simplesmente que os dados tendem a uma centralidade, no entanto quase
sempre amostras pequenas não são normais. Ou seja, há grande dispersão.

Existem vários testes para determinar se um conjunto de dados (amostra) é ou não normal. Alguns podem ser
feitos inclusive com a utilização da planilha Excel. A seguir, temos um link onde se pode obter mais informações
sobre esses testes e como executá-los.

https://sosestatistica.com.br/como-testar-se-uma-distribuicao-e-normal/

Em estatística, o termo probabilidade é uma outra expressão para a frequência relativa. Diz-
se que uma observação, tirada ao acaso de uma população normal, tem uma probabilidade igual a
0,95 de estar contida no intervalo de μ±2σ ou tem uma probabilidade igual a 0,05 de que o seu valor
esteja fora desse intervalo. Probabilidade refere-se à observação individual, enquanto a frequência
relativa é usada em conexão com o intervalo. Assim, uma observação qualquer tem a probabilidade
de cair num certo intervalo, enquanto nesse intervalo a proporção de observações é dada pela
frequência relativa.

A família de curvas normais é bastante numerosa. Em realidade, há uma curva normal para
cada par de valores atribuídos a μ e σ. Diferenças em μ deslocam a curva à direita ou à esquerda
sobre o eixo x. Um valor alto de σ tem por efeito estender a curva sobre uma amplitude maior e, em
compensação, achatá-la, já que todas as curvas tendem a ter a mesma área. Ao contrário, com um
valor baixo de σ, a curva se torna contraída e alta no centro.

Conhecidos a média e o desvio padrão de uma distribuição teórica de frequências, é possível


definir a curva normal pela equação:

1 2 /2𝜎²]
𝑌= 𝑒 −[(𝑥−𝜇)
𝜎√2𝜋

Em que:

52
Y é a altura para um dado valor x;

μ é a média;

σ é o desvio padrão;

π (pi) é igual a 3,1416;

e é a base dos logaritmos neperianos = 2,7183.

A solução de problemas com essa equação seria, naturalmente, um processo complexo. O


trabalho torna-se relativamente fácil com emprego da distribuição normal padronizada.

5.2 Curva normal padronizada

Como existe uma série infinita de curvas normais representativas de distribuições normais de
probabilidades, cada uma especificada pelos valores que a µ (média) e o σ (desvio padrão) assumem
em cada caso particular, torna-se necessária uma padronização, adotando-se uma distribuição
normal comum como referência e transformando os valores reais em relativos. A distribuição de
referência — chamada de distribuição normal reduzida ou distribuição normal padronizada — é
aquela na qual a média μ = 0 e o desvio padrão σ = 1. Dessa forma, qualquer distribuição normal
com média diferente de zero e desvio padrão diferente de 1,0 pode ser transformada na normal
padronizada.

O resultado da transformação aplicada a cada valor de x é a obtenção de uma nova variável


— denominada ζ (zeta) — que mede o afastamento do valor de x em relação à média em número de
desvios padrão. O cálculo de ζ, ou escore ζ, como também é conhecido, é dado pela expressão:

𝑥−𝜇
ζ= , 𝑜𝑛𝑑𝑒:
𝜎

ζ = afastamento dos valores de x em relação à média em número de desvios padrão;

x = valor qualquer da variável aleatória;

μ = média da distribuição;

53
σ = desvio padrão da distribuição.

5.3 Valores da tabela Z

Os valores da distribuição normal padronizada referentes à área (frequência relativa) acumulada para
diferentes valores de ζ encontram-se em tabelas, não havendo necessidade de serem calculados. O
anexo A (áreas sob a curva normal padronizada) apresenta uma tabela que especifica a área
compreendida entre a origem (média) e um valor de ζ maior ou menor que zero. Desse modo, pode-
se obter qualquer área sob a curva normal padronizada entre cada ponto do eixo horizontal e a
média.

Como a distribuição é simétrica, 50% da área se encontram de cada lado da média. Por
exemplo, para conhecer a área entre um valor de ζ=0 (média) e ζ=1,5 procura-se na tabela o valor
1,5 e lê-se, na mesma linha, qual o valor expresso na coluna 0,00. O valor encontrado é 0,4332, que
pode ser expresso em porcentagem da área limitada pela curva normal, ou seja, 43,32%. Por
simetria, as áreas correspondentes à metade esquerda da curva normal são aquelas obtidas por
valores negativos. Assim, a área sob uma curva normal compreendida entre ζ=0 (média) e ζ= -1,5 é
lida do mesmo modo que a anterior. Obtém-se 0,4332 ou 43,32% da área limitada pela curva normal.

Como a tabela especifica a área compreendida entre a origem ζ=0 (média) e ζ, para se obter
a área entre -∞ e ζ=1,5 deve-se somar 0,500 ou 50% à área da tabela (0,500 + 0,4332 = 0,9332 ou
93,32%). Do mesmo modo, sendo a área total sob a curva igual a 1 (ou 100%), basta subtrair 0,9332
de 1,0 para obter a área entre ζ e +∞.

De acordo com o anexo A, a área compreendida entre μ±1,96σ corresponde a 95% da área
total. Desse modo, se uma variável tiver distribuição normal, 95% dos valores dessa variável estarão
contidos no intervalo μ±1,96σ, enquanto 5% dos valores da variável ficarão fora desse intervalo.

O emprego da distribuição de ζ na solução de problemas práticos supõe conhecido o desvio


padrão (σ). Como esse é raramente o caso, deverá, como alternativa, ser estimado por uma amostra
relativamente grande, geralmente composta por mais de trinta observações. Na prática, para esse
tipo de amostra o intervalo que corresponde 95% da distribuição é calculado por 𝑥̅ ± 2𝑠. Para
pequenas amostras, muito comuns em pesquisa biomédica, a metodologia estatística está baseada
na distribuição de uma zona variável, chamada t de Student, em substituição à distribuição de ζ.

A distribuição de ζ e as respectivas áreas acumuladas têm aplicação, dentre outras, na


determinação da probabilidade ou da frequência relativa teórica de observações em intervalos
especificados da variável x.

Exemplo 1.1.

Em uma distribuição de valores de glicose plasmática em jejum em homens normais entre 30


e 39 anos de idade, a média observada foi de μ = 100 mg/dL e o desvio padrão σ = 15 mg/dL. Qual
a proporção de pessoas com glicose plasmática entre 100 e 120 mg/dL?

𝑥−𝜇
ζ= =
𝜎

54
120−100 20
ζ= 15
= 15 = 1,33

A área encontrada no anexo A para o intervalo ζ=0 e ζ=1,33 corresponde a 0,4082 (ou
40,82%). A proporção de pessoas com concentração de glicose plasmática entre 100 e 120 mg/dL,
portanto, é ao redor de 41%.

Anexo A

5.4 Significância estatística de um desvio

Suponha que a pressão arterial sistólica (PAS) de homens com idade entre 20 e 25 anos possua
média (μ) igual a 120 mmHg e desvio padrão (σ) igual a 10 mmHg. Em um grupo de 25 indivíduos
fumantes de mesma idade e sexo, observou-se que a PAS média (𝑥̅ ) foi de 124 mmHg. A diferença
observada de 4 mmHg pode ser considerada como sendo desvio sem maiores consequências?

55
Desvios que não se distanciam muito da média são chamados de desvios não significativos
e representam uma grande fração de valores ao redor da média. A região dos desvios não
significativos é geralmente representada pela letra C. Por sua vez, a região de desvios significativos
corresponde a uma fração denominada α (alfa), a qual é sempre bem menor que C, já que é razoável
supor que valores discrepantes devam ser raros.

Para saber se a PAS média dos 25 fumantes (𝑥̅ = 124 𝑚𝑚𝐻𝑔) distancia-se de modo
estatisticamente significativo da média da população de referência (μ=120 mmHg), é necessário,
inicialmente, estabelecer-se um critério. Usando α= 0,05, determina-se uma região central de 95% e
duas áreas caudais de 2,5%. Com o auxílio do anexo A, obtém-se que os valores de ζ que limitam
essa área vão de -1,96 a 1,96. Assim, diz-se que 1,96 é o valor crítico de ζ para α = 0,05.

Para se obter ζ de uma amostra, utiliza-se a fórmula:

onde:

𝑥̅ − 𝜇 𝑥̅ = média (da amostra)


ζ=
𝜎/√𝑛 μ = média (da população)
σ = desvio padrão
n = tamanho da amostra

𝑥̅ − 𝜇 124 − 120 4 4
Assim, para os dados do problema acima, ζ= →ζ= →ζ= →ζ= =2
𝜎/√𝑛 10/√25 10/5 2
temos:

Como o ζ= 2,0 é maior que o ζ crítico (1,96), diz-se que o desvio é significativo, ou seja, que
é pequena a probabilidade de essa amostra de fumantes apresentar uma média de PAS mais
elevada simplesmente pelo acaso.

5.5 Teste de hipótese

A maior parte das análises estatísticas envolve comparações entre tratamentos ou procedimentos,
ou entre grupos de indivíduos. Existe também a comparação de uma característica de um grupo com
um valor numérico teórico. Neste último caso, o valor numérico correspondente à comparação de
interesse é chamado de efeito, porém quando a comparação é entre dois grupos, esse efeito — ou
diferença de efeitos — pode ser 0, o que significa que não existem diferenças entre os grupos
comparados. Pode se definir uma hipótese, chamada de hipótese nula, H0, que estabelece que o
efeito é zero. Adicionalmente, tem-se uma hipótese alternativa, H1, que pode ser a de que o efeito
de interesse não é zero. A definição dessas duas hipóteses — que são complementares — é
importante, já que elas determinarão os critérios para a tomada de decisão.

Todo o procedimento de teste de hipótese está baseado na suposição de que a hipótese nula
é verdadeira. Se isto é verdade, então espera-se que os dados confirmem a referida hipótese, caso
contrário, o critério de decisão previamente definido levará à rejeição da hipótese nula, o que implica
na aceitação da hipótese alternativa.

56
Uma vez definidas as hipóteses, é necessário um critério para decidir qual das duas é a
verdadeira. Esse critério deve usar a informação amostral. Nas ciências biomédicas, é costume usar
o valor p como um critério de decisão, podendo ser calculado para qualquer teste. De forma
alternativa ao valor p, pode ser definido um procedimento baseado na existência de dois tipos de
erros, um dos quais é fixado num valor arbitrário, levando à definição de um critério para decidir sobre
a verdade da hipótese nula. Ambas as alternativas são apresentadas a seguir.

5.5.1. Valor de p

Tendo estabelecido as hipóteses, avalia-se a probabilidade de obter os dados observados se a


hipótese nula for verdadeira. Essa probabilidade é chamada de valor p e é calculada a partir de uma
estatística que é função dos dados e depende do parâmetro em estudo e do teste usado. O critério
adotado para tomar uma decisão baseado no uso do valor p é o seguinte:

Se p < 0,05 →Resultado estatisticamente significativo (rejeitar H0)

Se p > 0,05 →Resultado estatisticamente não significativo (aceitar H0)

5.5.2. Erros tipo I e tipo II

Depois de completado o procedimento de teste de hipótese, que leva a uma decisão sobre a hipótese
nula, não existe total certeza de que foi tomada a decisão correta. Podem ser observados dois tipos
de erro descritos na seguinte tabela:

Considerações finais

Normalmente, usamos em bioestatística p = 0,05, dessa forma não há necessidade prática de


compreender como chegamos a esse valor. Todo e qualquer teste estatístico aplicado à amostra é
baseado na normalidade dos dados, ou seja, precisamos sempre determinar se os dados são
normais ou não antes de qualquer teste com os dados da amostra. Na prática, o teste de normalidade
é feito com ajuda de um programa, bastando inserir os dados da amostra, no entanto sempre haverá
mais chances de serem normais quando o número de dados que compõe a amostra for superior a
30.

57
Neste capítulo estudamos a curva normal com mais profundidade e sua importância para a análise dos
resultados. É importante salientar que a curva é teórica, ou seja, existe um padrão esperado, mas que na
prática não ocorre com tanta perfeição. Nesse sentido, é sempre necessário utilizar um programa para verificar
a normalidade ou não dos dados. Antes mesmo de se conhecer os dados (em relação à sua normalidade), é
preciso elaborar o teste de hipótese, que tem objetivo sempre de verificar se duas médias possuem
significância estatística (são diferentes). O teste é elaborado com duas hipóteses, de modo que, anulando-se
a primeira, automaticamente aceita-se a segunda.

A maneira mais simples para determinar se os dados têm distribuição normal é através do histograma de
frequências, pois o formato de sino fica evidente. Algumas vezes, no entanto, não é tão evidente, e nesses
casos pode ser utilizada uma grande quantidade de testes de normalidades, inclusive com programas
estatísticos específicos. Vale a pena buscar mais informações sobre esses testes e o artigo a seguir trata de
alguns testes na área da saúde.

https://www.scielo.br/pdf/jvb/v16n2/1677-5449-jvb-16-2-88.pdf

Em uma distribuição de valores de glicose plasmática em jejum em homens normais entre 30 e 39 anos de
idade, a média observada foi de μ = 100 mg/dL e o desvio padrão σ = 15 mg/dL. Qual a proporção de pessoas
com teor de glicose plasmática acima de 120 mg/L?

Resposta:

𝑥−𝜇
ζ= =
𝜎
120−100 20
ζ= = = 1,33
15 15

A área encontrada no anexo A para o intervalo ζ=0 e ζ=1,33 corresponde a 0,4082 (ou 40,82%). Então sabemos
que a área que corresponde às pessoas com glicose está entre 100 e 120 mg/L. Para sabermos quantas estão
acima disso, basta subtrair 40,82% de 50%, pois a área à direita de μ (100) equivale a 50% (pois μ divide a

58
curva exatamente ao meio). Assim, 50 – 40,82 = 9,18% de pessoas com glicose plasmática acima de 120
mg/L.

Questão Objetiva

Considerando os dados do exercício proposto anteriormente, qual é a proporção aproximada de pessoas com
teor de glicose plasmática entre 80 e 120 mg/L?

a) 82%.

b) 41%.

c) 50 %.

d) 9%.

e) 100%

Questão Discursiva.

Determinada pesquisa deverá ser aplicada numa escola com 240 alunos divididos em dois turnos: 100 alunos
estudam de manhã e o restante à tarde. Busca-se saber qual horário os alunos costumam realizar as tarefas
dadas para serem feitas em casa. Se você for questionado sobre qual número total de alunos que deverá ser
consultado na pesquisa, qual sua resposta? Argumente.

59
Livro: Bioestatística Teórica e Computacional.

Autor: ARANGO, Héctor Gustavo Rio de Janeiro: Guanabara Koogan, 2012.

É destinado aos cursos de graduação em medicina, nutrição, fisioterapia, odontologia, psicologia,


fonoaudiologia, farmácia, veterinária e ciências biológicas. O objetivo, ao longo da obra, foi o de manter uma
linguagem biomédica, de maneira a criar um ambiente favorável à compreensão dos conceitos estatísticos.
Para tanto, a teoria apresentada é sempre seguida de exemplos. A terceira edição apresenta um conjunto
significativo de alterações cujo objetivo é facilitar o uso da obra aos leitores, aumentando-lhes o conhecimento
de maneira mais fácil. É importante mencionar a maior quantidade de exemplos, exercícios e soluções.

Assintóticas: Na matemática, esse termo quer dizer que estão bastante próximas.

Callegari-Jacques, Sidia M. Bioestatística: princípios a aplicações. Porto Alegre: Artmed, 2003.

Motta, Valter T. Bioestatística. 2.ed. Caxias do Sul: Educs, 2006.

60
UNIDADE III
CAPÍTULO 6 – TESTES DE HIPÓTESES
No término deste capítulo, você deverá saber:

✓ Teste de hipótese para uma média populacional μ, quando σ é desconhecido (Teste t);
✓ Teste de hipóteses sobre duas médias populacionais, com amostras independentes;
✓ Teste de hipóteses sobre duas médias populacionais, com amostras dependentes.

Introdução

Nos testes de hipótese, faz-se uma afirmação referente à população, e o intuito é saber se a
proposição é verdadeira ou falsa. Geralmente fazemos mais de uma afirmação, mas nem todas elas
devem ser testadas. Aquelas informações que não se pretende que sejam expostas a testes
chamam-se hipóteses subjacentes. Compõem-se de todos os pressupostos sobre os quais nos
apoiamos e nos quais acreditamos. Naturalmente, nunca estamos totalmente certos de que tais
pressupostos sejam válidos, caso contrário não seriam pressupostos. Acreditamos que eles
possuem validade provável, de modo que as hipóteses subjacentes se encontram muito próximas
das corretas. As suposições remanescentes, que devem ser testadas, chamam-se hipóteses
testáveis. Como afirmações específicas são mais fáceis de serem rejeitadas do que afirmações
vagas, é desejável formular problemas de testes de hipótese de modo a fazer com que a hipótese
nula seja a mais específica possível. Isso significa que frequentemente utilizamos como hipótese
nula a proposição que, de fato, queremos rejeitar.

O teste mais adequado dependerá do tipo de variável, da normalidade ou não dos dados da
amostra, do número de dados e da hipótese que se deseja testar. Há uma grande quantidade de
teste possível para um mesmo tipo de variável, de modo que é mais importante saber as
características dos dados e a hipótese do que aplicar o teste propriamente dito, uma vez que há uma
boa quantidade de programas de computador capazes de aplicar inúmeros testes. A interpretação
do teste, porém, é responsabilidade do pesquisador que o aplicou.

Neste capítulo aplicaremos alguns testes de hipóteses muito comuns na área biomédica,
inclusive com exemplos no decorrer do texto, buscando evidenciar a metodologia do teste e não a
matemática atrelada a ele.

6.1 Teste de hipótese para uma média populacional μ, quando σ é desconhecido


(Teste t)

Em estatística, o (n-1) que aparece em várias fórmulas significa o grau de liberdade. Esse conceito
é muito importante para consultar a tabela t (anexo A).

61
Por que em alguns casos não conhecemos o desvio padrão da população?

O teste de hipótese apresentado no capítulo 1 corresponde ao caso especial em que o desvio padrão
populacional σ é conhecido. Na grande maioria das situações práticas, contudo, o desvio padrão σ
é desconhecido, de tal forma que a estatística de teste definida para o teste ζ não poderia ser
calculada. Assim, o desvio padrão σ deve ser estimado pelo desvio padrão amostral S e a estatística
de teste passa a ser:

𝑋̅ − 𝜇
𝑇=
𝑆/√𝑛

Onde:

𝑋̅ = 𝑚é𝑑𝑖𝑎 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙;

𝜇 = 𝑚é𝑑𝑖𝑎 𝑝𝑜𝑝𝑢𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙;

𝑆 = 𝑑𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜 𝑑𝑎 𝑎𝑚𝑜𝑠𝑡𝑟𝑎;

𝑛 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑎𝑑𝑜𝑠 𝑑𝑎 𝑎𝑚𝑜𝑠𝑡𝑟𝑎;

𝑇 = 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑡.

O valor encontrado com a fórmula acima deve ser comparado com o valor tabelado da
distribuição de referência t de Student com n-1 graus de liberdade, para o nível α fixado. Quando o
tamanho é grande (n>30), contudo, a substituição de σ por S não afeta substancialmente a
distribuição estatística de ζ, podendo ser utilizada, então, a distribuição normal padrão como
distribuição de referência. Em outras palavras, quando o tamanho da amostra é grande (n> 30), o
teste ζ e o teste t são praticamente equivalentes.

Considere, como exemplo, que homens saudáveis de uma determinada população


apresentam nível de colesterol sérico com média μ=220 mg/dl e seguem uma distribuição normal.
Um pesquisador deseja avaliar se em homens (da população especificada) que desenvolvem doença
coronariana (DCC) o nível de colesterol sérico é maior do que em homens saudáveis. O quadro 2.1
apresenta os dados gerados pela amostra, os quais produziram 𝑋̅ = 253 𝑚𝑔/𝑑𝑙 e S =40,5 mg/dl.
Considere que a distribuição da amostra seja normal.

62
Como não temos desvio padrão da população (σ), devemos estimá-lo pelo desvio padrão
amostral S= 40,5 mg/dl. Para executar o teste de hipótese, podem ser seguidas as etapas:

1) Identificar a variável em estudo:

X= nível de colesterol sérico em homens com DCC

2) Especificar as hipóteses estatísticas:

H0: o nível de colesterol sérico em homens com DCC é igual ou menor de 220 mg/dl

H1: o nível de colesterol sérico em homens com DCC é maior que 220 mg/dl

3) Fixar a significância (α)

α = 0,05

4) Determinar o valor de t tabelado:

t tab. = +1,711

5) Calcular o valor da estatística de teste:

63
253 − 220 33
𝑇= = = 4,07
40,5/√25 40,5/√25

6) Decisão estatística:

Se t calc > t tab. = rejeita-se H0.

Se t calc ≤ t tab = não se rejeita H0.

Neste exemplo, então, deve-se rejeitar H0.

7) Conclusão:

Há evidências de que o nível médio de colesterol sérico em homens com DCC (da população
especificada) é maior do que em homens saudáveis para o nível de significância de 5%.

6.2 Teste de hipóteses sobre duas médias populacionais, com amostras


independentes

Em uma grande variedade de situações práticas o pesquisador deseja avaliar a equivalência ou a


eficiência de dois tratamentos (drogas, dietas, procedimentos cirúrgicos, procedimentos laboratoriais
etc.), definidos de acordo com os objetivos específicos da pesquisa. Para tanto, é comum a utilização
de uma amostra aleatória de n indivíduos (unidades amostrais, que podem ser pessoas, animais,
plantas etc.), sobre os quais é alocado, também ao acaso, um dos dois tratamentos (digamos
tratamento 1 ou tratamento 2). Assim, os n indivíduos são divididos em dois grupos: o grupo 1,
composto pelos n1 indivíduos que recebem o tratamento 1; e o grupo 2, composto pelos n2 indivíduos
que recebem o tratamento 2. Esses dois grupos de indivíduos (grupo 1 e grupo 2) constituem duas
amostras independentes e os resultados gerados serão utilizados para fazer inferências sobre as
populações.

Como ocorre na grande maioria das características biológicas, a reação a um determinado


tratamento pode ser diferente de indivíduo para indivíduo. Em outras palavras, as n1 unidades
amostrais do grupo 1 podem reagir ao tratamento 1 de maneira diferente. O mesmo fato pode ser
observado para as unidades amostrais do grupo 2. Consequentemente, a equivalência ou eficiência
dos tratamentos 1 e 2 deve ser avaliada em função do comportamento “global” dos indivíduos de
cada grupo, usualmente mediante a comparação das médias dos grupos. Para ilustrar, vamos
considerar a seguinte situação:

Um experimento foi realizado para avaliar se as drogas B e G são equivalentes quanto ao


tempo de coagulação sanguínea em humanos. O experimento consistiu em selecionar
aleatoriamente treze indivíduos da população, dos quais, também ao acaso, seis foram alocados ao
grupo B (isto é, tratados com a droga B); e os outros sete indivíduos foram alocados ao grupo G (isto
é, tratados com a droga G). Uma amostra de sangue é retirada de cada pessoa, sendo observado o
respectivo tempo até a coagulação (em minutos). Esse exemplo é discutido por Zar (1996, p. 123) e
os dados são apresentados no quadro 2.2.

Esse é um típico problema que envolve duas amostras independentes, as quais devem ser
usadas para fazer inferências sobre as populações. No caso, trata-se de duas populações

64
hipotéticas: a população de “todos” os indivíduos que seriam tratados pela droga B ou pela droga G.
Assim, existem duas variáveis aleatórias envolvidas:

X1: tempo até a coagulação sanguínea para um indivíduo tratado com a droga B;

X2: tempo até a coagulação sanguínea para um indivíduo tratado com a droga G.

Embora o enunciado do problema não especifique as distribuições de probabilidades das


variáveis aleatórias X1 e X2 definidas acima, no contexto deste curso é fundamental admitir que
seguem distribuição normal, com mesmo desvio padrão. Assim, se existirem diferenças entre as
duas populações, elas diferem entre si apenas quanto ao tempo médio até a coagulação sanguínea.

O teste t, nesse caso, é aplicado segundo a fórmula:

̅̅̅̅
𝑥1−𝑥2̅̅̅̅
𝑡= , onde:
1 1
√𝑠02 ( + )
𝑛1 𝑛2

𝑠0 ² = é a estimativa combinada da variância da população (𝜎22 = 𝜎22 = 𝜎²). A obtenção da 𝑠0 ²


é realizada pelo cálculo da média ponderada das variâncias das duas amostras estudadas, 𝑠1 ² e 𝑠2 ²
pelo emprego da fórmula:

(𝑛1−1)𝑠12 +(𝑛2−1)𝑠2 ²
𝑠02 = 𝑛1+𝑛2−2
onde:

𝑠1 ²= variância da primeira amostra;

𝑠2 ²= variância da segunda amostra;

n1 = tamanho da amostra;

n2 = tamanho da segunda amostra.

Voltando aos dados do exemplo, vamos estabelecer as etapas para a execução do teste:

65
1) Identificar a variável em estudo:

X1: tempo até a coagulação para tratados com a droga B;

X2: tempo até a coagulação para tratados com a droga G.

2) Especificar as hipóteses estatísticas:

H0: não existe diferença entre os dois tratamentos;

H1: existe diferença entre os tratamentos.

3) Fixar a significância (α):

α = 0,05

4) Determinar o valor de t tabelado.

Devemos procurar na tabela t (anexo A) o valor correspondente ao valor da distribuição de


probabilidade t com 11 graus de liberdade (6+7-2=11), pois devemos subtrair 1 de cada grupo. Então:

t= 2,201 e -t = -2,201 (devemos considerar os dois valores, pois nesse exemplo os


tratamentos podem ser diferentes para mais ou para menos).

5) Calcular o valor da estatística de teste:

̅̅̅̅
𝑥1−𝑥2̅̅̅̅ (𝑛1−1)𝑠12 +(𝑛2−1)𝑠2 ² (5)0,3390+(6)0,6695 5,7121
𝑡= 1 1
𝑒 𝑠02 é 𝑠02 = 𝑛1+𝑛2−2
→ 6+7−2
→ 11
→ 𝑠02 = 0,5193
√𝑠0 ²( + )
𝑛1 𝑛2

8,75 − 9,74 −0,99


𝑡= →𝑡= → 𝑡 = −2,4693
0,4009
√0,5193(1 + 1)
6 7

6) Decisão estatística:

Repare que os valores de t tabelados vão de -2,201 a 2,201. Se o valor de t calculado estiver
dentro dessa área (veja a figura 2.2), deve-se aceitar a H0. Do contrário, rejeita-se H0. O valor
calculado de t é -2,4693, ou seja, é menor que a área, portanto deve-se rejeitar H0.

66
7) Conclusão:

Há evidências de que os tempos de coagulação sanguínea são diferentes entre os pacientes


tratados com as drogas E e G para o nível de significância de 5%.

6.3 Teste de hipóteses sobre duas médias populacionais, com amostras dependentes

Para a aplicação de vários testes é necessário encontrar antes os valores da média e desvio padrão dos
dados. Você pode utilizar diversas calculadoras online para determinar esses valores, o link a seguir é um
exemplo de calculadora online que facilita a obtenção desses parâmetros antes do teste:
https://pt.symbolab.com/solver/standard-deviation-calculator/desvio%20padr%C3%A3o%201%2C-2%2C-
4%2C3%2C5%2C-5%2C-1%2C2%2C3%2C2

A hipótese básica é a de que ambos os grupos de observações têm nível médio semelhante.
Assume-se, também, que os dados têm distribuição normal, porém ambos os grupos não são
independentes. Para dados dependentes (pareados), o interesse está na diferença média entre
observações. Esses dados pareados geralmente aparecem quando são realizadas duas medições
nos mesmos indivíduos, medições essas que são feitas em dois instantes diferentes ou por dois
meios diferentes. As hipóteses são:

H0: não há diferença entre as medições;

H1: há diferença entre as medições.

67
𝑑̅
A estatística do teste será dada por: 𝑡 = 𝑠/ 𝑛, onde:

𝑑̅ ∶ 𝑚é𝑑𝑖𝑎 𝑑𝑎𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛ç𝑎𝑠;

𝑠 ∶ 𝑑𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜;

𝑛 ∶ 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑎𝑑𝑜𝑠.

A título de exemplo, vamos considerar a tabela 1, referente ao consumo energético diário por
11 mulheres em dois momentos: pré e pós-menstrual. Deseja-se provar que o consumo pré-
menstrual é maior. As hipóteses de interesse são:

H0: não há diferença entre o consumo pré e pós-menstrual;

H1: o consumo pré é maior que o consumo pós-menstrual.

A hipótese de interesse para o exemplo é a alternativa (H1); assumindo normalidade dos


dados e α=0,05, define-se o critério de aceitar a hipótese nula se t calculado for menor que 1, 812
(de acordo com o anexo A). A estatística de teste calculada é:

𝑑̅ 1320,5
𝑡= →𝑡= → 𝑡 = 11,94
𝑠/√𝑛 366,7/√11

O que leva a rejeitar a hipótese nula, concluindo-se que o consumo pré-menstrual é


significativamente maior.

68
Considerações finais

A tomada de decisão estatística, no campo da Inferência Estatística, com um teste de hipóteses,


objetiva fornecer uma metodologia que permita verificar se os dados amostrais trazem evidências
que apoiem ou não uma hipótese estatística formulada. A ideia central desse procedimento consiste
em supor verdadeira a hipótese em questão e verificar se a amostra observada é verossímil sob a
veracidade da hipótese formulada.

O objetivo da inferência estatística é, portanto, ajuizar sobre parâmetros populacionais com


base em estatísticas amostrais. Na verdade, são tentativas de adivinhação revestidas de certo grau
de segurança e que podem ser de dois tipos: ou se relacionam à estimação de parâmetros ou ao
teste de alguma hipótese sobre o parâmetro de interesse.

Neste capítulo estudamos alguns testes de hipóteses que podem ser aplicados para amostra de dados
paramétricos (normais). Não existem somente esses, mas certamente são os mais utilizados, no entanto pode
ser necessário pesquisar sobre outros tipos de testes, inclusive para dados não paramétricos (não normais) e
para outros tipos de variáveis, porém, seja qual for o teste utilizado, é muito importante que o caminho até o
determinar seja compreendido de maneira satisfatória pelo pesquisador. A figura 2.3 ilustra esse caminho:

69
Em estatística, usamos letras gregas quando nos referimos à população e letras latinas quando nos referimos
à amostra. Por exemplo, μ é média da população e 𝑋̅ é média da amostra.

Você pode encontrar os testes descritos neste capítulo e muitos outros no site:
http://www.portalaction.com.br/inferencia/testes-de-hipoteses. É possível também resolver exercícios e
acompanhar exemplos.

Uma suinocultura usa uma ração A que propicia, da desmama até a idade de abate, um ganho em peso de
500 g/dia/suíno (σ= 25 g). O fabricante de uma ração B afirma que, nas mesmas condições, sua ração propicia
um ganho de 510 g/dia (σ = 25 g). É evidente que, em termos financeiros, se for verídica a afirmação do
fabricante da ração do tipo B, esta deve ser usada em substituição à do tipo A. Se o criador tem de decidir com
base em uma amostra, se o ganho em peso dos suínos dando a nova ração é 510 g/dia, o problema pode ser
expresso na linguagem de teste estatístico de hipóteses. Como deveria ser elaborada a hipótese nula (H0) e
a alternativa (H1)?

H0: não há diferença significativa entre as rações A e B.

H1: há diferença significativa entre as rações A e B.

70
Questão Objetiva

Uma suinocultura usa uma ração A que propicia, da desmama até a idade de abate, um ganho em peso de
500 g/dia/suíno (σ= 25 g). O fabricante de uma ração B afirma que, nas mesmas condições, sua ração propicia
um ganho de 510 g/dia (σ = 25 g). Considerando uma amostra de 50 leitões (n = 50), aos quais foi fornecida a
nova ração (B), com essas informações, podemos afirmar que:

a) podemos utilizar teste para dados normais, já que n>30.

b) não podemos utilizar teste para dados normais, já que n>30.

c) podemos utilizar o teste t para dados normais, já que n>30.

d) não podemos utilizar teste t para dados normais, já que n>30.

e) só é possível utilizar teste t se n<30.

Questão Discursiva.

Considerando a questão anterior, para ser possível a aplicação correta do teste t, qual parâmetro estatístico
deverá ser informado?

O livro Bioestatística — tópicos avançados, da autora Sonia Vieira, leva o leitor a dominar os conceitos
progressivamente, rever as próprias ideias e aperfeiçoar a aprendizagem, sempre de modo agradável. A
competência e a capacidade da autora de transmitir ideias ficam demonstradas, nesse livro, pela disposição
dos temas, pela sequência das ideias e pelo didatismo sem prejuízo da profundidade na escolha dos exemplos
e dos exercícios. São encontrados vários exemplos desenvolvidos de maneira fácil de acompanhar.

71
Teste t foi introduzido em 1908 por William Sealy Gosset, químico da cervejaria Guiness em Dublin, na Irlanda
("student" era seu pseudônimo). Gosset havia sido contratado devido à política inovadora de Claude Guinness
de recrutar os melhores graduados de Oxford e Cambridge para os cargos de bioquímico e estatístico da
indústria Guinness. Gosset desenvolveu o Teste t como um modo barato de monitorar a qualidade da cerveja
tipo stout. Ele publicou o Teste t na revista acadêmica Biometrika em 1908, mas foi forçado a usar seu
pseudônimo pelo seu empregador, que acreditava que o fato de usar estatística era um segredo industrial. De
fato, a identidade de Gosset não foi reconhecida por seus colegas estatísticos.

Fonte: MANKIEWICZ, Richard. The Story of Mathematics (Princeton University Press).

Callegari-Jacques, Sidia M. Bioestatística: princípios a aplicações. Porto Alegre: Artmed, 2003.

Motta, Valter T. Bioestatística. 2.ed. Caxias do Sul: Educs, 2006.

72

Você também pode gostar