Escolar Documentos
Profissional Documentos
Cultura Documentos
UNISEPE – EaD
Prof. Me. Igor Gabriel Lima
Prof. Dr. Jozeildo Kleberson Barbosa
Prof. Me. Leonardo José Tenório Mourão Torres
Equipe editorial:
Fernanda Pereira de Castro - CRB-8/10395
Isis Gabriel Alves
Laura Lemmi Di Natale
Pedro Ken-Iti Torres Omuro
Prof. Dr. Renato de Araújo Cruz
Apoio técnico:
Alexandre Meanda Neves
Anderson Francisco de Oliveira
Gustavo Batista Bardusco
Matheus Eduardo Souza Pedroso
Vinícius Capela de Souza
Equipe de diagramação:
Laura Michelin de Oliveira Machado
Equipe de revisão:
Ana Beatriz Torres Omuro, Prof.ª Camila Santos Seimaru, Prof.ª Fabíola Löwenthal, Marcela Gonçalves Ferreira
Camillo.
SOBRE O AUTOR:
SOBRE A DISCIPLINA:
UNIDADE I .............................................................................................05
1º Conceitos Fundamentais e Definições .....................................05
2º Coleta e Organização de Dados ..............................................14
UNIDADE II ...........................................................................................26
3º Medidas de posição...........................................................26
4º Medidas de dispersão e distribuições................................41
Introdução
O nome “estatística” é derivado da palavra latina status, que significava "informações úteis ao
Estado". Cerca de 1000 a.C., os povos já eram submetidos a pesquisas que correspondem ao censo
atualmente. Segundo Callegari-Jacques (2003, p.13) um dos primeiros censos de que se tem notícia
escrita foi ordenado pelo imperador romano César Augusto, realizado na Palestina, por volta do ano
zero da Era Cristã. Posteriormente, a palavra passou a significar dados quantitativos que
apresentavam tendência de flutuarem de uma forma mais ou menos imprevisível, significado esse
que permanece até hoje quando se fala em estatísticas. Mais recentemente, a palavra passou a
significar a ciência destinada à coleta, organização e análise dos dados quantitativos, de tal forma
que seja possível efetuar julgamentos racionais sobre os mesmos. A estatística tem também a função
de auxiliar no método científico, especialmente no planejamento experimental, na coleta de dados,
na interpretação analítica dos experimentos (análise dos dados experimentais) e na estimação dos
parâmetros da população.
Em alguma fase de um trabalho, deparamos-nos com o problema de analisar e entender
um conjunto de dados relevantes ao nosso particular objetivo de estudo. É necessário trabalhar os
dados para transformá-los em informações, para compará-los com outros resultados, ou ainda para
julgar a adequação de alguma teoria ou hipótese. De modo bem geral, podemos dizer que a essência
da Ciência é a observação e que o seu objetivo básico é a inferência. Em sua essência, a Estatística
é a ciência que apresenta processos próprios para coletar, apresentar e interpretar adequadamente
conjuntos de dados, sejam eles numéricos ou não. Pode-se dizer que seu objetivo é o de apresentar
informações sobre dados em análise para que se tenha maior compreensão dos fatos que eles
representam.
Na verdade, mais que uma sequência de métodos, a estatística é uma forma de pensar ou
de ver a realidade variável, já que seu conhecimento não apenas fornece um conjunto de técnicas
de análise de dados, mas condiciona toda uma postura crítica sobre uma interpretação e a
elaboração de conclusões sobre os dados. A Estatística pode ser dividida em duas áreas: a descritiva
e a inferencial. A estatística descritiva, como o próprio nome já diz, preocupa-se em descrever os
dados. A estatística inferencial, que está fundamentada na teoria das probabilidades, preocupa-se
com a análise destes dados e sua interpretação, com a finalidade de inferir a respeito daquilo que
está sendo pesquisado.
Considera-se bioestatística a aplicação dos métodos estatísticos à solução de problemas
biológicos. Algumas técnicas são empregadas com maior frequência no âmbito das ciências
biológicas ou médicas. Alguns termos que utilizamos em estatística têm conceito diferente do
utilizado no cotidiano; por isso, antes de trabalharmos com a aplicação da Estatística nas ciências
biológicas ou biomédicas, é importante salientar alguns conceitos básicos e princípios fundamentais
que formam a base dos métodos de análise.
5
Em qual situação o conjunto universo é igual ao conjunto amostra?
Segue uma curta matéria sobre a importância da estatística na psicologia. O texto é de fácil leitura e aborda
as contribuições da matemática para a pesquisa em psicologia.
https://amenteemaravilhosa.com.br/papel-estatistica-na-psicologia/
1.1.1 População
Conjunto de todos os elementos que têm pelo menos uma característica em comum. Esta
característica deve delimitar corretamente quais são os elementos da população que podem ser
animados ou inanimados. Exemplo: nascidos no mês de março de 2020 na cidade de Registro.
1.1.2 Amostra
Subconjunto de elementos de uma população. Este subconjunto deve ter dimensão menor que o da
população, e seus elementos devem ser representativos da população. A seleção dos elementos
que irão compor a amostra pode ser feita de várias maneiras e irá depender do conhecimento que
se tem da população e da quantidade de recursos disponíveis. Exemplo: nascidos do sexo
masculino no mês de março de 2020 da cidade de Registro. Veja que os elementos formam um
subconjunto da população citada anteriormente (nascidos no mês de março de 2020 na cidade de
Registro). Podemos concluir, então, que a amostra é uma parte ou uma fração da população.
Agora que sabe o conceito de população e amostra, podemos pensar a estatística descritiva
como a parte da estatística destinada a descrever determinada amostra, sem fazer análise ou
conclusões sobre esses dados. Já a estatística inferencial inclui técnicas para delas tirar conclusões
acerca da população estatística.
6
Amostra é um subconjunto da população, ou seja, é parte dela.
1.1.3 Parâmetro
Refere-se a uma informação populacional, ou seja, a qualquer valor obtido quando todos os
indivíduos que compõem a população são considerados. São sempre representados por uma letra
latina.
1.1.4 Estimativa
Representa o resultado obtido a partir de qualquer cálculo realizado de dados de uma amostra.
1.1.5 Variável
É a característica que vai ser observada, medida ou contada nos elementos da população ou da
amostra e que pode variar, ou seja, assumir um valor diferente de elemento para elemento. Número
de filhos de determinada família, número de fumantes de uma cidade etc. Existem, basicamente,
dois tipos de varáveis: quantitativa e qualitativa.
São aquelas cujos dados são valores numéricos que expressam quantidades, como a estatura de
um grupo de pessoas, por exemplo. As variáveis quantitativas são classificadas em:
7
a) Variáveis quantitativas discretas são aquelas em que os dados somente podem apresentar
determinados valores, em geral, números inteiros. Por exemplo: número de filhos nascidos
vivos, número de obras catalogadas.
b) Variáveis quantitativas contínuas são aquelas cujos dados podem apresentar qualquer valor
dentro de um intervalo de variação possível. Por exemplo: a altura de um indivíduo.
São as que fornecem dados de natureza não numérica, como sexo de um paciente, a cor de uma
flor. Neste tipo de variável, as diferentes categorias são divididas em dois grupos:
a) Nível nominal: como o nome implica, as categorias são diferenciadas pelo nome. Assim, por
exemplo, um coelho pode ser classificado de acordo com o sexo: masculino ou feminino, um
paciente pode ser classificado como diabético ou não diabético.
b) Nível ordinal: nesse nível, não só é possível identificar diferentes categorias, mas também
reconhecer graus de intensidade entre elas, o que possibilita uma ordenação das várias
categorias. Determinado animal pode ser classificado como agressivo, submisso ou neutro. A
dor sentida por um paciente pode ser classificada desde “nenhuma dor” até “dor insuportável”.
8
1.2 Variabilidade e tendenciosidade
Quando um pesquisador utiliza estatística para obter conclusões acerca de determinada população
a partir de um número limitado de dados (amostra), inevitavelmente, ele encontrará dois obstáculos:
a variabilidade e a tendenciosidade.
O Instituto de Pesquisa Econômica Aplicada (Ipea), desde agosto de 2010, disponibiliza o software IpeaGEO,
ferramenta de análises estatísticas com foco na análise espacial. O programa permite ao usuário ordenar e
visualizar dados em seu contexto geográfico, seja por região, estado, município, ou área do mapa.
https://www.ipea.gov.br/portal/index.php?option=com_content&view=article&id=2593
Durante a análise dos dados, deve-se evitar qualquer tipo de arredondamento numérico. No entanto,
na apresentação de resultados, às vezes se faz necessário. Por exemplo, se, numa turma de 45
alunos, 28 são mulheres, dizer que a representação feminina é de 62,22% é um exagero. Pode ser
usado 62% sem problema de perda de informação.
Quando o tamanho da amostra é menor que 100, o percentual pode ser arredondado para
números inteiros. Para amostras maiores que 100, o normal é utilizar apenas uma casa decimal.
Para variáveis quantitativas, vale a mesma regra, ou seja, deve-se evitar o exagero de
precisão. Por exemplo, relatar que a média das idades de uma turma é de 31,452 anos é um exagero,
pois apresentar 31,4 anos também quer dizer que a média é de pouco mais de 31 anos.
1.4 Arredondamento
Sempre que possível, o arredondamento deve ser feito no final do processo, somente para a
apresentação dos dados. Normalmente, os cálculos estatísticos são realizados por um computador,
assim, não há arredondamentos intermediários.
9
No processo de arredondamento, as casas decimais consideradas excessivas são
desprezadas. Esse processo segue a seguinte regra:
b) se o algarismo imediatamente após a casa a ser arredondada é menor que 5, deve-se apenas
manter o algarismo da casa de arredondamento. Por exemplo, o número 34,371, se
arredondado na segunda casa, resulta em 34,37, pois após o 7 temos 1, que é menor que 5.
Algarismo é diferente de número. Temos apenas 10 algarismos (de 0 a 9). A partir deles, todos os números
podem ser escritos. Por exemplo, o número 265 é formado por 3 algarismos (2, 5 e 6).
Existem vários programas (softwares) específicos para realizar cálculos estatísticos, alguns exigem
conhecimento sólido sobre estatística e sobre ele próprio; outros, por sua vez, permitem a utilização
por qualquer pessoa com conhecimentos básicos de estatísticas. Algumas planilhas eletrônicas
também permitem alguns cálculos, porém, é sempre mais limitada que qualquer programa estatístico.
A seguir, são listados alguns programas e suas respectivas páginas para acesso, disponibilizada por
Motta (2006, p.14).
10
1.6 Tipos de amostra
Antes de determinar os elementos que irão compor a amostra, é necessário escolher o procedimento
de amostragem, ou seja, a maneira pela qual os elementos da população serão escolhidos para
formar a amostra.
Quando os elementos são escolhidos ao acaso, normalmente por sorteio. Para determinar a massa
média das crianças de uma escola, pode-se sortear uma quantidade x de crianças aleatoriamente.
Desta forma, se houver tendenciosidade nos resultados, será atribuída ao acaso.
Quando os elementos são escolhidos por meio de um sistema. No exemplo citado acima, as crianças
para compor a amostra poderiam ser escolhidas por meio da letra inicial do nome. Todas as crianças
cujo nome inicia com a letra B, por exemplo.
É aquela composta por todos os elementos originados de todos os estratos da população. Por
exemplo, uma amostra estratificada da população de uma determinada cidade (composta por
crianças, jovens, adultos e velhos) seria: 10 crianças, 10 jovens, 10 adultos e 10 velhos.
É aquela em que o pesquisador utiliza, para compor a amostra, os indivíduos de que dispõe. Por
exemplo, para verificar qual melhor adubo dentre 3 tipos, um pesquisador pode compor a amostra
com 10 plantas idênticas, e essas serem as únicas disponíveis em seu laboratório. Este tipo de
amostra costuma apresentar muita tendenciosidade.
Considerações finais
Até aqui abordamos alguns conceitos estatísticos e matemáticos que são utilizados de maneira
diferente daquela a que estamos acostumados no cotidiano. Tais conceitos serão muito importantes
no decorrer da disciplina de bioestatística, e o não entendimento pode comprometer, futuramente, a
coleta e, principalmente, a análise dos dados.
Tão importante quanto a análise dos dados numa determinada pesquisa científica é a
escolha das variáveis a serem estudadas, sua caracterização e como esse estudo será feito.
11
Neste capítulo estudamos o conceito de estatística e vimos que se divide em duas partes: a descritiva, que
utiliza os dados para descrever a população, e a inferencial, que utiliza os dados e métodos estatísticos para
inferir algo sobre a população.
A bioestatística refere-se à aplicação dos conceitos de estatística nas ciências biomédicas. Para aplicação
adequada da estatística, é necessário identificar a população de estudo, bem como o significado de amostra e
como podem ser os processos de amostragem para aquela determinada população.
Para início de qualquer pesquisa científica, é necessário conhecer as variáveis a serem investigadas, defini-
las de acordo com suas características numéricas ou categóricas para então propor um método para a coleta
dos dados propriamente dita. A bioestatística vai sempre considerar que a variabilidade e a tendenciosidade
podem estar presentes na pesquisa, e vai sempre procurar meios para que esses obstáculos sejam superados
de modo a não interferirem no resultado.
De acordo com o que você aprendeu neste capítulo, ambos os gráficos acima referem-se a qual tipo de
variável?
Orientações: veja que, para chegar às respostas (que geraram o gráfico) as perguntas feitas foram: “possui
domínio de leitura?”, no caso do gráfico I, e “o município possui livraria?”, no caso do gráfico II. Ambas as
perguntas só admitem duas respostas possíveis: sim ou não. Logo, trata-se de uma variável qualitativa e não
faz sentido ordená-las. Portanto, é uma variável qualitativa nominal.
12
Alternativa Correta: B
Questão Objetiva
Ainda em relação aos gráficos acima, no que diz respeito à população da pesquisa, é correto afirmar que:
Alternativa Correta: D
Questão Discursiva
Considerando o gráfico II, se a amostragem foi realizada a partir de um sorteio aleatório de municípios
brasileiros, como deve ser classificada essa amostra?
Inferência: processo intelectual de tirar uma conclusão baseando-se em evidências providas de raciocínio
indutivo ou dedutivo.
13
UNIDADE I
CAPÍTULO 2 – COLETA E ORGANIZAÇÃO DE DADOS
No término deste capítulo, você deverá saber:
✓ Identificar dados e conjuntos de dados;
✓ Conceituar frequência absoluta e relativa;
✓ Construir e analisar tabelas de frequência e gráficos;
Introdução
A Estatística Descritiva fundamenta-se na organização dos dados obtidos por meio de classificação,
contagem ou mensuração. Dados é o nome que se dá ao conjunto de variáveis (qualitativas ou
quantitativas) coletadas que compõem uma amostra. Os dados são apresentados em medidas,
resumo, tabelas e gráficos, não permitindo, no entanto, conclusões analíticas.
A notação matemática, consistindo em um arranjo de letras, tanto romanas como gregas ou
latinas, com linhas tortuosas e sobrescritos e subscritos, é um aspecto da matemática que intimida
o não matemático. Na realidade, é um meio conveniente de relatar ideias complexas em espaço
compacto. Há, sem dúvida, a necessidade de compreender o conceito por trás de cada símbolo para
que as expressões matemáticas tenham sentido. Em relação às necessidades de cálculos para
encontrar os valores resultantes dos dados de estatísticas, deve se ter em conta que o computador
não é um concorrente do cérebro humano. Ele é apenas um grande e paciente mastigador de
números. Não se aborrece, não fica sonolento, nem comete erros de cálculo, mesmo quando não
reconhecido seu valor pelo usuário. Se o conceito não é compreendido, o cálculo é desnecessário.
Após a definição do problema a ser estudado e o estabelecimento do planejamento da
pesquisa (forma pela qual os dados serão coletados, cronograma das atividades, custos envolvidos,
exame das informações disponíveis, delineamento da amostra etc.), o passo seguinte é a coleta de
dados, que consiste na busca ou compilação dos dados das variáveis, componentes do fenômeno a
ser estudado. É importante salientar que nesta fase todos os possíveis problemas encontrados na
coleta de dados são provenientes de um método de amostragem não apropriado. Desta forma,
convém ter clareza quanto ao que se pretende com a pesquisa e organizar a amostragem de acordo
para que a coleta dos dados seja facilitada e permita posteriormente diferentes análises.
O livro “Bioestatística - Princípios e Aplicações” foi elaborado para ser simples nas explicações e na abordagem
dos conceitos; em vez de seguir o rigor matemático estrito, o livro familiariza o leitor com a linguagem
estatística, bem como apresenta as técnicas mais comuns usadas na análise de dados de pesquisa. Com isso,
estudantes de graduação, biólogos, farmacêuticos, médicos e outros profissionais que se interessam por
bioestatística dispõem de uma obra que facilitará a compreensão deste assunto, considerado difícil por muitos
estudantes. O livro traz diversos exemplos de tabelas e gráficos, utilizando dados referentes à área da saúde.
14
2.1 Coleta de dados
A coleta de dados pode ocorrer de duas formas: direta ou indireta. A Coleta direta ocorre quando os
dados são obtidos na fonte originária. Os valores assim compilados são chamados de dados
primários, como, por exemplo, nascimentos, casamentos e óbitos, todos registrados no Cartório de
Registro Civil; opiniões obtidas em pesquisas de opinião pública, ou ainda, quando os dados são
coletados pelo próprio pesquisador. A coleta direta pode ser classificada relativamente ao fator tempo
em:
a) Contínua: quando feita continuamente, como, por exemplo, nascimentos e óbitos, frequência
dos alunos às aulas;
A coleta indireta, por sua vez, ocorre quando os dados obtidos provêm da coleta direta. Os
valores assim compilados são denominados de dados secundários, como, por exemplo, o cálculo do
tempo de vida média, obtido pela pesquisa, nas tabelas demográficas publicadas pela Fundação
Instituto Brasileiro de Geografia e Estatística (IBGE), constitui-se em uma coleta indireta.
Após a coleta, os dados devem ser apresentados sob forma adequada (tabelas ou gráficos),
para o melhor entendimento do fenômeno que está sendo estudado.
As técnicas aqui estudadas permitem detectar e corrigir erros e inconsistências ocorridos durante um
processo de coleta de dados, determinar as principais características destes mesmos dados e
propiciar familiaridade com eles. Tabela é um quadro que resume um conjunto de observações. Ela
é composta de:
b) Corpo: conjunto de linhas e colunas que contém informações sobre a variável em estudo;
d) Rodapé: reservado para as observações pertinentes, bem como a identificação da fonte dos
dados.
Exemplo:
15
A representação gráfica dos dados tem por finalidade dar uma ideia, a mais imediata
possível, dos resultados obtidos, permitindo-nos chegar a conclusões sobre a evolução do fenômeno
ou sobre como se relacionam os valores. Não há apenas uma maneira de representar graficamente
dados estatísticos. A escolha do gráfico mais apropriado ficará a critério do analista. Contudo, os
elementos: simplicidade, clareza e veracidade devem ser consideradas quanto à elaboração de um
gráfico.
Uma das maneiras mais simples de sintetizar dados estatísticos é através de tabelas. Qualquer
tabela deve ter como objetivo: apresentar os dados agrupados de forma que seu manuseio,
visualização e compreensão sejam simplificados. A depender do tipo de variável e da quantidade de
dados, pode-se também utilizar a representação gráfica. Dentre as tabelas, destaca-se uma de
grande importância para a estatística descritiva: a tabela de distribuição de frequência.
16
a) Dados brutos: é o conjunto dos dados numéricos obtidos após a crítica dos valores coletados.
Os seguintes valores poderiam ser os dados brutos: 24, 23, 22, 28, 35, 21, 23, 33.
b) Rol: é o arranjo dos dados brutos em ordem de frequência crescente ou decrescente. Os dados
brutos anteriores ficariam assim: 21, 22, 23, 23, 24, 28, 33, 35.
c) Amplitude Total ou "Range" (R): é a diferença entre o maior e o menor valor observado. No
exemplo, R = 35 - 21 = 14.
d) Classe: é cada um dos grupos de valores em que se subdivide a amplitude total do conjunto
de valores observados da variável.
f) Ponto Médio do Intervalo de Classe (𝒙𝒊 ): é o valor que representa a classe para o cálculo de
certas medidas. Na distribuição de frequência com dados agrupados em intervalos de classe,
considera-se que os dados distribuem-se de maneira uniforme no intervalo. O ponto médio é
facilmente calculado por meio da fórmula:
(𝐿𝑠 − 𝐿𝑖)
𝐸𝑞 1: 𝑥𝑖 =
2
A depender do tipo de variável e de como elas estão distribuídas, temos várias maneiras de
apresentar a frequência:
17
d) Frequência Relativa Acumulada (𝑭𝒓𝒂 ): é o valor da frequência acumulada dividido pelo
𝐹𝑎𝑐
número total de observações: 𝐹𝑟𝑎 = 𝑛
Não é tão simples analisar os dados coletados quando estão fora de ordem e alguns
aparecem repetidas vezes, por isso, a tabela de frequência é um importante recurso para facilitar a
análise. A tabela de frequência abaixo refere-se aos dados coletados acima.
𝐹𝑖
𝐹𝑟 = 𝐹𝑎𝑐
Albumina (x) 𝐹𝑖 𝑛 𝐹𝑎𝑐 𝐹𝑟𝑎 =
𝑛
4,5 1 0,04 1 0,04
4,6 0 0,00 1 0,04
4,7 2 0,08 3 0,12
4,8 1 0,04 4 0,16
4,9 3 0,12 7 0,28
5,0 5 0,20 12 0,48
5,1 5 0,20 17 0,68
5,2 2 0,08 19 0,76
5,3 3 0,12 22 0,88
5,4 2 0,08 24 0,96
5,5 1 0,04 25 1,00
∑ 25 1,00
18
Dividindo-se 𝐹𝑖 por n, temos a frequência relativa 𝐹𝑟 , que também pode ser escrita em
porcentagem, bastando para isso multiplicar a frequência relativa por 100. Por exemplo, podemos
afirmar que 20% dos pacientes apresentaram valores albumina iguais a 5,0 (0,20 x100). Na coluna
de frequência acumulada, obtemos a quantidade de indivíduos que possuem valores iguais ou
menores que um valor x de albumina.
Quando os valores de uma variável variam muito (normalmente variáveis numéricas contínuas),
como o peso ou a altura de pacientes, a tabela de frequência pode ficar muito extensa. Também,
quando temos mais que 10 categorias para representar numa mesma tabela, pode ser utilizada uma
tabela com intervalo de classes (MOTTA, 2006. p.27), que consiste em condensar os dados
intervalos para resumir as informações da tabela.
Cada intervalo possui um limite inferior e um limite superior que são simbolizados por |-----
e -----|, respectivamente. A título de exemplo, vamos analisar a tabela 2.3 referente às massas de
256 alunas universitárias.
Tabela 2.3 Massas (kg) de 256 alunas da Universidade Federal
do Rio Grande do Sul, entre 1980 e 1999.
Massa (x) 𝐹𝑖 𝐹𝑟
40|-----45 9 0,035
45|-----50 36 0,141
50|-----55 78 0,304
55|-----60 55 0,215
60|-----65 53 0,207
65|-----70 11 0,043
70|-----75 7 0,027
75|-----80 5 0,020
80|-----85 1 0,004
85|-----90 1 0,004
∑ 256 1,000
Note que, não optando por utilizar os intervalos de classe, a tabela seria extensa, o que
dificultaria a análise dos dados nela registrados. A tabela possui 10 intervalos iguais e o tamanho de
cada intervalo é de 5 (Range). Veja que o símbolo |----- permite que não haja ambiguidade na
alocação dos valores. Por exemplo, uma aluna que tem 45 kg estará alocada na 2ª linha da tabela,
pois, na primeira linha, o 45 não faz parte do intervalo, servindo apenas para limitá-lo.
19
Para a construção de um gráfico de setores, basta aplicar regra de três simples.
Comparando as frequências (acumulada e absoluta) com os ângulos correspondentes. Assim, temos a
𝐹𝑎𝑐 𝐹𝑖
seguinte regra de três: = (onde x corresponde ao ângulo referente à frequência absoluta Fi).
360 𝑥
2.3 Gráficos
Os gráficos são representações pictóricas dos dados, muito valiosas na visualização dos resultados.
Para Callegari-Jacques, a representação gráfica é bastante interessante, porque dá visão imediata
de como se distribuem os indivíduos nos diferentes valores da variável (2003, p.22).
a) Gráfico em barras: é um tipo de gráfico que se obtém colocando os valores no eixo horizontal
e traçando-se em cada um deles um segmento vertical de altura proporcional à respectiva
frequência (relativa ou absoluta). Esse tipo de gráfico se adapta melhor às variáveis
quantitativas discretas ou qualitativas ordinais.
20
b) Histograma: é um conjunto de retângulos, com bases sobre um eixo horizontal, divididos de
acordo com os tamanhos das classes, com centros nos pontos médios das classes e áreas
proporcionais às frequências. Em certos casos, é interessante que a área total da figura seja
igual a 1, correspondendo à soma total das proporções (𝐹𝑟 ).
c) Polígono de frequências: é um gráfico que se obtém unindo por uma poligonal os pontos
correspondentes às frequências, das diversas classes, centradas nos respectivos pontos
médios. Para se obter as interseções do polígono com o eixo horizontal, cria-se em cada
extremo do histograma uma classe com frequência nula. É também conhecida como ogiva.
21
d) Gráfico em setores: aplicável quando as categorias (classes) básicas são quantificáveis.
Toma-se um círculo (360 graus), que se divide em setores com áreas proporcionais às
frequências das diversas categorias. Esse tipo de gráfico se adapta muito bem às variáveis
qualitativas nominais.
O gráfico de setores (também chamado de gráfico de pizza) é muito utilizado em reportagens de jornais e
revistas pois, além de transmitir a informação de maneira rápida, também utiliza as cores para chamar a
atenção do leitor. No entanto, em textos científicos, são poucos utilizados, pois trazem poucas informações
sobre os dados.
Você pode utilizar o Excel para construir vários tipos de gráficos a partir de uma tabela. O link a seguir é um
tutorial da Microsoft sobre a construção de gráficos utilizando a planilha Excel.
https://support.microsoft.com/pt-br/office/criar-um-gr%C3%A1fico-do-in%C3%ADcio-ao-fim-0baf399e-dd61-
4e18-8a73-b3fd5d5680c2
Considerações finais
É de fundamental importância a correta coleta de dados, bem como a apresentação destes, de
maneira a tornar as informações mais compreensíveis e de fácil leitura. Tanto a tabela quanto os
gráficos construídos com os dados da amostra devem ter sempre o objetivo de descrever, da melhor
22
forma possível, as características da amostra. É a partir desta tabela que todos os cálculos serão
realizados, a fim de possibilitar inferir algo sobre a população pesquisada.
Neste capítulo estudamos os conceitos de estatística descritiva relacionados à coleta e análise de dados. A
coleta de dados bem planejada e realizada corretamente facilitará a análise dos mesmos e, consequentemente,
tornará mais fácil também a estatística inferencial. A estatística descritiva faz uso de alguns recursos como
tabelas e gráficos para melhor compreensão dos dados e do fenômeno em estudo. A tabela de frequência é
uma das formas mais comuns de organizar os dados que compõem uma amostra, apresentando além da
frequência com que determinada variável foi encontrada, como também a relação dela com a amostra. Muitas
vezes, a tabela de frequência dá origem a um ou mais gráficos, a depender do tipo de variável e da quantidade
de dados coletados. Os gráficos por sua vez também podem variar, de acordo com os tipos variáveis e do que
se pretende evidenciar ou descrever.
a) Cerca de 20% dos adultos utilizam internet por 10 minutos em cada sessão.
b) Nem jovens nem adultos utilizam internet com sessão de 35 minutos.
c) Cerca de 25% dos jovens utilizam internet por 40 minutos em cada sessão.
d) Cerca de 35% dos adultos utilizam internet por 20 minutos em cada sessão.
e) O gráfico não permite identificar a quantidade de clientes que fazem parte da amostra.
Orientações: Apesar de os pontos no gráfico apenas marcarem valores inteiros para o tempo, por estarem
distribuídos em classes (de 10 em 10), os valores entre os extremos existem e fazem parte do gráfico.
23
Alternativa Correta: B
Questão Objetiva
Alternativa Correta: A
Questão Discursiva
Identifique o tipo de gráfico a seguir e, com base nas características dos gráficos que aprendeu neste capítulo,
o gráfico de setores seria indicado para transmitir as mesmas informações? Explique.
Resposta possível: não é viável utilizar gráfico de setores para transmitir as informações do gráfico acima,
pois a variável número de casos é quantitativa.
24
Tabulação: de acordo com o dicionário, é o ato ou feito de tabular. Refere-se à colocação de dados em colunas
ou tabelas (ex.: já fez a tabulação dos resultados do questionário).
"tabulação", In.: Dicionário Priberam da Língua Portuguesa. Disponível em:
https://dicionario.priberam.org/tabula%c3%a7%c3%a3o>. Acesso em 14 jun. 2020.
25
UNIDADE II
CAPÍTULO 3 – MEDIDAS DE POSIÇÃO
No término deste capítulo, você deverá saber:
Introdução
O resumo dos dados por meio de tabelas de frequências e gráficos, seja qual for o tipo, fornecem
muito mais informação sobre o comportamento dos dados de uma variável do que a própria tabela
original de dados. Entretanto, é necessário resumir ainda mais esses dados, apresentando alguns
valores representativos da série inteira. Assim, o objetivo deve ser a caracterização do conjunto de
dados por meio de medidas que resumam a informação, representando a tendência central, a
posição ou, ainda, a maneira pela qual esses dados estão dispersos.
A análise inicial dos dados consiste também no cálculo de valores, ou estatísticas, que ajudam
na produção de uma visão geral dos dados. Nesta seção, serão apresentadas as medidas de
posição, também chamadas medidas de tendência central, que procuram definir um valor que
represente os dados.
Podemos dizer que esta é a mais importante medida de locação e que é mais comumente usada
para descrever um conjunto de observações. De acordo com Motta, a média é, de longe, a medida
descritiva de dados quantitativos mais utilizada (2006, p. 32). A média aritmética simples de um
conjunto de n observações é o quociente entre a soma dos dados e a quantidade dessas
observações. É denotada por 𝑥̅ . Matematicamente, a média é determinada pela equação:
26
Exemplo 1: Calcule a média dos dados: 3, 5, 8, 12, 7, 12, 15, 18, 20, 20.
∑𝑛
𝑖=1 𝑥𝑖 3+5+8+12+7+12+15+18+20+20 120
𝑥̅ = 𝑛
𝑥̅ = 10
𝑥̅ = 10
= 12
Mas o que significa a média para o conjunto dos dados? As respostas mais comuns são:
“Representa a posição da maioria” ou “É o valor que está no meio da amostra”. Ambas estão erradas!
A média dos dados é um valor que representa esses dados. É, assim, o valor que representa o
equilíbrio desses dados.
Quando os dados estiverem numa tabela e agrupados de acordo com a frequência absoluta,
a fórmula sofre alteração:
∑𝑛𝑖=1 𝑥𝑖 𝐹𝑖
𝑋̅ =
∑𝑛𝑖=1 𝐹𝑖
Embora pareça mais complicado, o cálculo, na verdade, é mais simples pelo fato de que os
dados já estão organizados numa tabela, veja o exemplo:
𝑛
∑ 𝑥 𝑖 𝐹𝑖 78
𝑋̅ = ∑𝑖=1
𝑛
𝐹
= 𝑋̅ = 34 = 2
𝑖=1 𝑖
Sendo X uma variável discreta, como interpretar o resultado obtido, 2 meninos e 3 décimos
de menino? O valor médio de 2,3 meninos sugere, neste caso, que o maior número de famílias tem
2 meninos e 2 meninas, sendo, porém, a tendência geral de uma leve superioridade numérica em
relação ao número de meninos.
A equação acima também pode ser utilizada para o cálculo de média aritmética quando os
dados estão organizados numa tabela por classes. Vejamos um exemplo:
27
Exemplo 3: Suponha que tenhamos feito uma coleta de dados relativos às estaturas de 40
alunos, que compõem uma amostra dos alunos de um colégio A, resultando a seguinte tabela de
valores:
Variável discreta é aquela que é representada por números inteiros, o número de filhos de uma família, por
exemplo, não pode ser um número decimal.
3.2 Mediana
A mediana de um conjunto de n observações é o valor “do meio” do conjunto, quando os dados estão
ordenados. Se n é ímpar, esse valor é único; se n é par, a mediana é a média aritmética simples dos
dois valores centrais.
A mediana será o número 12, pois ele divide o conjunto em duas partes iguais. Portanto:
Md = 12.
A mediana será:
28
10+13
𝑥̅ = 2
= 11,5
Quando os dados estão numa tabela e organizados por classes, porém, o problema consiste
em determinar o ponto do intervalo em que está compreendida a mediana.
Para tanto, temos, inicialmente, que determinar a classe na qual se encontra a mediana —
classe mediana: é o valor que divide as observações em duas partes, onde 50% dos dados ficam
acima dele e o restante abaixo. Tal classe será, evidentemente, aquela que corresponde à frequência
𝐹
acumulada imediatamente superior a ∑𝑛𝑖=1 2𝑖 (quer dizer, metade da soma das frequências).
𝐹𝑖
2) Calculamos ∑𝑛𝑖=1 2
(classe mediana);
∑𝑛𝑖=1 𝐹𝑖
− 𝑓𝑎𝑛𝑡
𝑀𝑑 = 𝐿𝐼 + ℎ [ 2 ]
𝑓𝑀𝑑
Onde:
Sendo:
29
𝑛 𝐹𝑖 34
∑ = = 17
𝑖=1 2 2
A menor frequência acumulada que supera esse valor é 18, que corresponde ao valor 2 da
variável, sendo este o valor mediano.
Logo:
Md = 2 meninos
Exemplo 4: Tomemos a distribuição relativa à tabela da estatura dos alunos, completando-a
com a coluna correspondente à frequência acumulada:
Temos:
𝑛 𝐹𝑖 40
∑ = = 20
𝑖=1 2 2
Como há 24 valores incluídos nas três primeiras classes da distribuição e como pretendemos
determinar o valor que ocupa o 20º lugar, a partir do início da série vemos que ele deve estar
localizado na terceira classe (i=3), supondo que as frequências dessas classes estejam
uniformemente distribuídas.
∑𝑛
𝑖=1 𝐹𝑖 −𝑓
2 𝑎𝑛𝑡 20−13 7
𝑀𝑑 = 𝐿𝐼 + ℎ [ 𝑓𝑀𝑑
] → 𝑀𝑑 = 158 + 4 [ 11
] → 𝑀𝑑 = 158 + 4 [11]
28
→ 𝑀𝑑 = 158 + 11 → 𝑀𝑑 = 158 + 2,54 = 160,54 cm
30
Por que não é possível utilizar média ou mediana para variáveis categóricas?
A média e a mediana de um conjunto de dados pode ser um valor que NÃO consta na amostra. Isso porque
ambas são medidas que TENDEM a uma centralidade/equilíbrio dos dados e esse valor exato pode não
estar contido na amostra.
3.3 Moda
Alguns sites oferecem uma ferramenta gratuita para cálculos estatísticos, bastando fornecer o conjunto de
dados. https://calculareconverter.com.br/moda-media-e-mediana/
X: 2, 8, 3, 5, 4, 5, 3, 5, 5, 1.
X: 6, 10, 5, 6, 10, 2.
31
Este conjunto de dados apresenta o elemento 6 e 10 como elementos de maior frequência.
Portanto, Mo = 6 e Mo = 10. Por isso é chamada de bimodal.
Quando não houver elementos que se destaquem pela maior frequência, dizemos que a série
é amodal.
Exemplo 3: X: 3, 3, 3, 4, 4, 4.
𝐷1
𝑀𝑜 = 𝐿𝐼 + ℎ ( )
𝐷1 + 𝐷2
D1=𝑓𝑀𝑜 − 𝑓𝑎𝑛𝑡 ;
D2=𝑓𝑀𝑜 − 𝑓𝑝𝑜𝑠𝑡 .
Onde:
32
Como a classe modal é a terceira (i=3), temos:
𝐷1 2
𝑀𝑜 = 𝐿𝐼 + ℎ (𝐷1+𝐷2) → 𝑀𝑜 = 158 + 4 (2+3) → 𝑀𝑜 = 158 + 4(0,4) → 𝑀𝑜 = 158 + 1,6 = 159,6 𝑐𝑚
3.4 Separatrizes
3.4.1. Quartis
Denominamos quartis os valores de uma série que a dividem em quatro partes iguais. Há, portanto,
três quartis:
a) O primeiro quartil (Q1), que é o valor que está situado de tal modo na série que uma quarta
parte (25%) dos dados é menor e as três quartas partes restantes (75%) maiores do que ele;
b) O segundo quartil (Q2), que é, evidentemente, coincidente com a mediana (Q2 = Md);
c) O terceiro quartil (Q3), que é o valor situado de tal sorte que as três quartas partes (75%)
dos termos são menores e uma quarta parte (25%) maior que ele.
Quando os dados são agrupados para determinar os quartis, usamos a mesma técnica do
cálculo da mediana, bastando substituir na fórmula da mediana:
𝐹𝑖 𝐹𝑖
∑𝑛𝑖=1 𝑝𝑜𝑟 𝑘 ∑𝑛𝑖=1 Sendo k o número de ordem do quartil. Assim, temos:
2 4
𝑘 ∑𝑛𝑖=1 𝐹𝑖
4 − 𝑓𝑎𝑛𝑡
𝑀𝑑 = 𝐿𝐼 + ℎ [ ]
𝑓𝑄
33
Primeiro Quartil: Terceiro Quartil:
𝐹𝑖 40 𝐹𝑖 40
𝑘 ∑𝑛𝑖=1 = 1. = 10 𝑘 ∑𝑛𝑖=1 4
= 3. 4
= 30
4 4
𝑘 ∑𝑛𝑖=1 𝐹𝑖 𝑘 ∑𝑛𝑖=1 𝐹𝑖
− 𝑓𝑎𝑛𝑡 4 − 𝑓𝑎𝑛𝑡
𝑄1 = 𝐿𝐼 + ℎ [ 4 ] 𝑄1 = 𝐿𝐼 + ℎ [ ]
𝑓𝑄 𝑓𝑄
10 − 4 30 − 24
𝑄1 = 154 + 4 [ ] 𝑄1 = 162 + 4 [ ]
9 8
𝑄1 = 154 + 4[0,67] 𝑄1 = 162 + 4[0,75]
𝑄1 = 156,68 𝑄1 = 165
3.4.2. Percentis
Denominamos percentis aos noventa e nove valores que separam uma série em 100 partes iguais.
𝐹𝑖 𝐹𝑖
∑𝑛𝑖=1 é substituída 𝑝𝑜𝑟 𝑘 ∑𝑛𝑖=1 , sendo k o número de ordem do percentil.
2 100
𝑘 ∑𝑛𝑖=1 𝐹𝑖
− 𝑓𝑎𝑛𝑡
𝑃𝑘 = 𝐿𝐼 + ℎ [ 100 ]
𝑓𝑝
34
Exemplo: Considerando a distribuição relativa à tabela da estatura dos alunos, temos para
oitavo percentil:
𝐹𝑖 40
𝑘 ∑𝑛𝑖=1 100
→ 8. 100 = 8 . 0,4 = 3,2
𝑘 ∑𝑛𝑖=1 𝐹𝑖
− 𝑓𝑎𝑛𝑡
𝑃𝑘 = 𝐿𝐼 + ℎ [ 100 ]
𝑓𝑝
3,2 − 0
𝑃8 = 150 + 4 [ ]
4
𝑃8 = 150 + 4[0,8]
Considerações finais
Na maioria das situações, não necessitamos calcular as três medidas de tendência central,
normalmente precisamos de apenas uma das medidas para caracterizar o centro da série. A medida
ideal em cada caso é aquela que melhor representa a maioria dos dados da série. Quando houver
forte concentração de dados na área central da série, devemos optar pela média. Quando houver
forte concentração de dados no início e no final da série, devemos optar pela mediana. A moda deve
ser a opção como medida de tendência central apenas em séries que apresentam um elemento
típico, isto é, um valor cuja frequência é muito superior à frequência dos outros elementos da série.
Neste capítulo estudamos as medidas de tendência central, a saber: média, mediana e moda. Normalmente,
apenas uma delas é utilizada para representar o total de dados da amostra. Das três medidas de tendência
central, apenas a moda pode ser utilizada para variáveis numéricas ou categóricas, enquanto a média e a
mediana apenas são utilizadas para variáveis numéricas. Para qualquer pesquisa estatística, é necessário
35
sempre apresentar uma dessas medidas de tendência central para descrever os dados da amostra. As
separatrizes, que podem ser quartis ou percentis, são utilizadas com menos frequência, porém são úteis em
alguns casos para descrever melhor com os dados estão distribuídos. Importante salientar que os cálculos
para obter as medidas de tendência central e as separatrizes dependem da tabela de frequência bem
construída. O esquema a seguir busca organizar as medidas estudadas neste capítulo:
A média aritmética possui algumas propriedades, uma delas é que ela é atraída pelos valores extremos.
Considere os dados:
X: 2,4,6,8,10 → 𝑋̅ =6
Se o primeiro valor x for alterado para 0:
X: 0,4,6,8,10 → 𝑋̅ = 5,6
Se o último valor x for alterado para 12:
X: 2,4,6,8,12 → 𝑋̅ =6,4
36
A tabela abaixo refere-se ao número de casos e óbitos por covid-19 em todo o território brasileiro até
26/04/2020. De acordo com os dados, podemos afirmar que a região Sul (RS, SC, PR), em relação ao número
de casos registrados, apresenta medidas de tendência central iguais a:
Resposta: B.
37
∑𝑛
𝑖=1 𝑥 1235+1166+1156
𝑥̅ = → 𝑥̅ = = 1185,67
𝑛 3
A mediana é o valor que se encontra exatamente no centro dos dados em ordem crescente:
Md= 1166
Não há nenhum dado que apresenta mais de uma frequência, portanto é amodal.
Questão Objetiva
Considerando a mesma tabela, qual a média e a mediana em relação ao número de óbitos da região Sul?
Questão Discursiva.
Em São Paulo, na maior cidade do país e a que conta maior número de mortes por Covid-19, são os bairros
onde a população negra está mais concentrada que trazem a maior quantidade de óbitos pela doença.
Segundo a Pública apurou, dos dez bairros com maior número absoluto de mortes causadas pelo coronavírus,
oito têm mais negros que a média de São Paulo.
O bairro com maior número absoluto de mortes é a Brasilândia, com 103 casos. A região tem cerca de 50% da
população negra — a média de São Paulo é de 37%. No extremo oposto, o bairro com menos negros da
cidade, Moema, teve 26 mortes. A média de negros na região é de menos de 6%.
38
Analisando os dados do gráfico abaixo, é possível determinar quais medidas de tendência central? Quais
bairros apresentam número de mortes superior à média?
Fonte: https://apublica.org/2020/05/em-duas-semanas-numero-de-negros-mortos-por-coronavirus-e-cinco-vezes-maior-no-brasil/
O livro Bioestatística, 2ª edição, de Valter T. Motta, foi idealizado para aquele indivíduo que deseja uma
introdução rápida e sem muitos rodeios no campo da bioestatística. Descreve resumidamente os elementos
essenciais de um trabalho científico, abordando os principais delineamentos da pesquisa biomédica, as
variáveis com seus níveis de mensuração e os procedimentos estatísticos clássicos usados para descrever e
analisar dados.
39
Separatrizes: são números que dividem a sequência ordenada de dados em partes que contêm a mesma
quantidade de elementos da série. Dessa forma, a mediana que divide a sequência ordenada em dois grupos,
cada um deles contendo 50% dos valores da sequência, é também uma medida separatriz. Além da mediana,
as outras medidas separatrizes são: quartis, quintis, decis e percentis.
40
UNIDADE II
CAPÍTULO 4 – MEDIDAS DE DISPERSÃO E DISTRIBUIÇÕES
No término deste capítulo, você deverá saber:
Introdução
Para descrever com mais rigor uma determinada amostra a partir dos dados coletados, é
necessário determinar como esses dados estão distribuídos. Muitas vezes (na maioria), quando são
coletados dados suficientes de uma determinada população, esses dados tendem a apresentar uma
distribuição já conhecida, como um padrão de distribuição. O tipo de distribuição influencia no método
adequado para melhor representar a amostra.
Raramente uma única medida é suficiente para descrever de modo satisfatório um conjunto de
dados. Tomemos como exemplo o caso da média aritmética, que é uma medida de locação
largamente empregada, e consideremos dois conjuntos de observações:
A: 25 28 31 34 37 média: 31
B: 17 23 30 39 46 média: 31
Ambos têm a mesma média, 31. No entanto, percebe-se intuitivamente que o conjunto B
acusa dispersão muito maior do que o conjunto A. Torna-se, então, necessário estabelecer medidas
que indiquem o grau de dispersão, ou variabilidade, em relação ao valor central.
As medidas de dispersão são medidas que mostram o grau de concentração dos dados em
torno da média. As principais medidas de dispersão são: amplitude de variação, variância, desvio
padrão e coeficiente de variação.
41
4.1.1. Amplitude de variação
A medida mais simples de dispersão é a amplitude de variação (a), que é a diferença entre os valores
extremos. Para o conjunto A, a amplitude é 37-25 = 12; e para o conjunto B, é 27. No entanto, a
amplitude tem dois defeitos como medida de variação:
4.1.2. Variância
Em estatística, usamos letras gregas quando nos referimos à população e letras latinas quando nos
referimos à amostra.
É a soma dos quadrados dos desvios em relação à média. Com ela estabeleceremos uma medida
de variabilidade para um conjunto de dados. É denotada por S² no caso amostral ou σ² no caso
populacional. A variância leva em consideração os desvios de cada valor em relação à média, ela é
∑(𝑥−𝑥̅ )²
determinada pela fórmula: 𝑠 2 = 𝑛−1
, onde o numerador corresponde à soma dos quadrados dos
desvios (pode ser chamado de soma dos quadrados) e o denominador corresponde ao número de
dados subtraído de uma unidade (também pode ser chamado de grau de liberdade). A título de
exemplo, vamos analisar a tabela de 2.1., referente à espessura do endosperma em milímetros, de
certa espécie de planta (E).
x (𝑥 − 𝑥̅ ) (𝑥 − 𝑥̅ )² ∑(𝑥−𝑥̅ )²
Variância: 𝑠 2 = 𝑛−1
2 -1,5 2,25
5
𝑠 2 = 3 = 1,67 mm²
4 0,5 0,25
5 1,5 2,25
3 -0,5 0,25
∑ 14 5,00
42
Se os dados estiverem agrupados, ou seja, se estiverem numa tabela de frequência, a fórmula
∑ 𝑓(𝑥−𝑥̅ )²
passa a ser: 𝑠 2 = ∑𝑓−1
Cuidado para não fazer confusão com o símbolo e seu significado. O símbolo de variância é s², não quer
dizer que o valor de s está elevado ao quadrado.
Uma dificuldade com a variância, como medida descritiva da dispersão, é o fato de não poder ser
apresentada com a mesma unidade com que a variável foi medida. Para contornar essa dificuldade,
temos o desvio padrão. O desvio padrão é a raiz quadrada positiva da variância, representado por S
ou DP no caso amostral ou σ no caso da população. Tomando a tabela 2.1. como exemplo, o desvio
padrão é dado por:
𝑠 = √𝑠 2 = √1,67 = 1,29 𝑚𝑚
Quando se analisa a mesma variável em duas amostras, podem-se comparar os desvios padrão
observados e verificar onde a variação é maior. No entanto, não é possível comparar quando são
desvios padrão de variáveis distintas. Por exemplo, se as massas das sementes também tivessem
sido determinadas e o desvio padrão dos valores da massa for 0,09 g, não se pode afirmar que a
massa das sementes é menos variável que a espessura, pois trata-se de variáveis distintas, com
unidades de medida distintas.
Para comparar variabilidades, podemos utilizar o coeficiente de variação (CV), que é uma
medida de dispersão independente da mensuração da variável. O coeficiente de variação é dado
pela fórmula:
43
𝑠 𝑠
𝐶𝑉 = 𝑥̅ ou 𝐶𝑉% = 100 𝑥̅
1,29 1,29
𝐶𝑉 = 3,5
= 0,37 ou𝐶𝑉% = 100 3,5
= 37%
Você pode utilizar diversas calculadoras online para determinar a variância e o desvio padrão de uma amostra.
O link a seguir é um exemplo desse tipo de calculadora, basta digitar os dados brutos, separados por vírgula.
https://pt.symbolab.com/solver/standard-deviation-calculator/desvio%20padr%C3%A3o%201%2C-2%2C-
4%2C3%2C5%2C-5%2C-1%2C2%2C3%2C2
A distância interquartílica é a diferença entre os valores do terceiro quartil (Q3) e do primeiro quartil
(Q1). É uma medida de grande utilidade em séries assimétricas.
É um modelo probabilístico usado para dados discretos. É um dos modelos mais simples. Ele
considera que um experimento tem dois possíveis resultados que podem ser chamados de sucesso
e fracasso. Para cada um desses resultados existe uma probabilidade associada de forma que a
soma delas sempre será igual a 1.
44
4.2.2. Distribuição Poisson
A distribuição exponencial está ligada à distribuição Poisson. Enquanto a Poisson estuda o número
de ocorrências em intervalos de medição fixos, a exponencial estuda o tamanho dos intervalos entre
duas ocorrências consecutivas.
Quando é selecionada uma amostra a partir de uma população de interesse, não existe total certeza
de que essa seja representativa, só se sabe que foi coletada sob critérios de aleatoriedade. A partir
dessa amostra pode ser calculada, por exemplo, a média amostral, porém, se outras amostras são
45
coletadas da mesma população, não existe a garantia de que as médias calculadas com essas
amostras sejam todas iguais à primeira. Qualquer que seja a amostra, contudo, o objetivo é usá-la
para fazer inferência sobre os parâmetros da população, como representado no diagrama da Figura
2.2. Na prática, só é coletada uma amostra, por isso, antes de obter a média, o seu valor é uma
variável aleatória. Da mesma forma, outras estatísticas podem ser tratadas como variáveis aleatórias.
Sendo assim, uma distribuição amostral é definida como a distribuição de probabilidades de uma
estatística. Para a média de uma amostra, se os dados originais têm distribuição normal com média
populacional μ e variância σ², então a média da amostra terá distribuição normal com a mesma
média, μ, e variância menor que σ².
Quando são retiradas amostras aleatórias de uma população com distribuição normal, a distribuição
das médias amostrais também será normal (distribuição exata). O mais importante consiste no fato
que se o tamanho da amostra for suficientemente grande (n≥30), as médias amostrais terão
distribuição normal, independentemente da distribuição original da variável (em resumo, para
amostras de tamanho maior que 30, podem ser utilizados testes paramétricos para a comparação
de médias amostrais, mesmo que não se conheça a distribuição da variável em estudo).
46
Neste capítulo estudamos as principais medidas de dispersão, que indicam o quanto as medidas coletadas
variam. A amplitude é a medida de dispersão mais simples e considera apenas os valores extremos dos dados.
A variância considera os desvios de cada dado em relação à média, porém a unidade de medida da variância
torna difícil a sua interpretação. O desvio padrão considera os desvios de cada dado em relação à média e
utiliza a mesma unidade de medida do próprio dado, facilitando a interpretação. O desvio padrão, porém, não
permite comparações entre variáveis distintas, enquanto o coeficiente de variação permite, pois é adimensional
(não possui unidade de medida). Vimos, ainda, que os dados coletados de uma determinada população
tendem, muitas vezes, a se distribuírem de uma forma padronizada, portanto conhecida. Os diferentes tipos
de distribuição permitem melhor escolha sobre como a amostra deverá ser representada, além de favorecer a
análise deles futuramente, durante a estatística inferencial.
O cálculo da média, bem como do desvio padrão e de muitas outras medidas de dispersão, pode ser obtido
com a ajuda da planilha Excel. Segue link de vídeo que ensina a configurar a planilha para esses tipos de
cálculo. https://www.techtudo.com.br/dicas-e-tutoriais/2019/03/como-calcular-desvio-padrao-no-excel.ghtml
O gráfico a seguir foi publicado no dia 19/03/20 no jornal Diário Regional do ABC, em São Paulo.
Segundo balanço feito pelo Diário Regional com base em dados da Secretaria de Estado da Saúde e das sete
prefeituras, a região acumulava 17 pessoas infectadas pelo vírus nesta quarta-feira, contra cinco no dia
anterior.
47
Analisando as informações contidas na tabela acima, é correto afirmar que a amplitude e a variância referentes
aos casos confirmados são, respectivamente, iguais a:
a) 6 e 7.
b) 6 e 7,58.
c) 1 e 7.
d) 7 e 11.
e) 1 e 7,58.
Resposta: B.
Questão Objetiva
Ainda considerando a tabela acima, o desvio padrão referente aos casos descartados é igual a:
a) 11,91.
b) 10,25.
c) 11,03.
d) 9,58.
48
e) 10,26.
Questão Discursiva.
Interprete o resultado obtido na questão anterior, explicando seu significado para os dados.
O livro Bioestatística — tópicos avançados, da autora Sonia Vieira, que leva o leitor a dominar os conceitos
progressivamente, rever as próprias ideias e aperfeiçoar a aprendizagem, sempre de modo agradável. A
competência e a capacidade da autora de transmitir ideias ficam demonstradas, nesse livro, pela disposição
dos temas, pela sequência das ideias, pelo didatismo sem prejuízo da profundidade na escolha dos exemplos
e dos exercícios. São encontrados vários exemplos desenvolvidos de maneira fácil de acompanhar.
A palavra probabilidade deriva do latim probare (provar ou testar). Informalmente, provável é uma das muitas
palavras utilizadas para eventos incertos ou desconhecidos, sendo também substituída por algumas palavras
como “sorte”, “risco”, “azar”, "chance", “incerteza” e “duvidoso”, dependendo do contexto, inseridas na língua
portuguesa e na linguagem matemática.
49
UNIDADE III
CAPÍTULO 5 – IMPORTÂNCIA DA CURVA NORMAL
No término deste capítulo, você deverá saber:
Introdução
No capítulo anterior, estudamos alguns tipos de distribuição de dados, dentre eles a distribuição
normal, também chamada de Gaussiana. Neste capítulo vamos aprofundar o conhecimento acerca
dessa distribuição e compreender melhor a relação entre ela e a maneira como descrevemos os
dados coletados.
Utilizamos letras gregas quando nos referimos à população e letras latinas quando nos referimos à amostra.
50
Considerando uma população que possui distribuição normal de frequências para uma determinada variável,
qual a melhor medida de tendência central usada para representá-la?
d) a área total limitada pela curva e a linha de base, em qualquer distribuição normal, são
iguais a 100% dos dados considerados. Como a altura da curva representa as frequências relativas
à área, é também designada por 1,0 que corresponde a 100%. Desse modo, a frequência relativa
acumulada entre os valores -∞ e +∞ é igual a 1,0 ou 100%. A valores maiores ou menores que μ
correspondem 0,5 ou 50% da área;
e) a área sob a curva delimitada por um desvio padrão em torno da média (entre μ-σ e μ+σ)
é de 0,6826 ou, aproximadamente, 68% da área total. Do mesmo modo, a área entre μ - 2σ e μ+2σ
abrange 0,9544 ou, aproximadamente, 95% da área total.
51
A normalidade dos dados significa simplesmente que os dados tendem a uma centralidade, no entanto quase
sempre amostras pequenas não são normais. Ou seja, há grande dispersão.
Existem vários testes para determinar se um conjunto de dados (amostra) é ou não normal. Alguns podem ser
feitos inclusive com a utilização da planilha Excel. A seguir, temos um link onde se pode obter mais informações
sobre esses testes e como executá-los.
https://sosestatistica.com.br/como-testar-se-uma-distribuicao-e-normal/
Em estatística, o termo probabilidade é uma outra expressão para a frequência relativa. Diz-
se que uma observação, tirada ao acaso de uma população normal, tem uma probabilidade igual a
0,95 de estar contida no intervalo de μ±2σ ou tem uma probabilidade igual a 0,05 de que o seu valor
esteja fora desse intervalo. Probabilidade refere-se à observação individual, enquanto a frequência
relativa é usada em conexão com o intervalo. Assim, uma observação qualquer tem a probabilidade
de cair num certo intervalo, enquanto nesse intervalo a proporção de observações é dada pela
frequência relativa.
A família de curvas normais é bastante numerosa. Em realidade, há uma curva normal para
cada par de valores atribuídos a μ e σ. Diferenças em μ deslocam a curva à direita ou à esquerda
sobre o eixo x. Um valor alto de σ tem por efeito estender a curva sobre uma amplitude maior e, em
compensação, achatá-la, já que todas as curvas tendem a ter a mesma área. Ao contrário, com um
valor baixo de σ, a curva se torna contraída e alta no centro.
1 2 /2𝜎²]
𝑌= 𝑒 −[(𝑥−𝜇)
𝜎√2𝜋
Em que:
52
Y é a altura para um dado valor x;
μ é a média;
σ é o desvio padrão;
Como existe uma série infinita de curvas normais representativas de distribuições normais de
probabilidades, cada uma especificada pelos valores que a µ (média) e o σ (desvio padrão) assumem
em cada caso particular, torna-se necessária uma padronização, adotando-se uma distribuição
normal comum como referência e transformando os valores reais em relativos. A distribuição de
referência — chamada de distribuição normal reduzida ou distribuição normal padronizada — é
aquela na qual a média μ = 0 e o desvio padrão σ = 1. Dessa forma, qualquer distribuição normal
com média diferente de zero e desvio padrão diferente de 1,0 pode ser transformada na normal
padronizada.
𝑥−𝜇
ζ= , 𝑜𝑛𝑑𝑒:
𝜎
μ = média da distribuição;
53
σ = desvio padrão da distribuição.
Os valores da distribuição normal padronizada referentes à área (frequência relativa) acumulada para
diferentes valores de ζ encontram-se em tabelas, não havendo necessidade de serem calculados. O
anexo A (áreas sob a curva normal padronizada) apresenta uma tabela que especifica a área
compreendida entre a origem (média) e um valor de ζ maior ou menor que zero. Desse modo, pode-
se obter qualquer área sob a curva normal padronizada entre cada ponto do eixo horizontal e a
média.
Como a distribuição é simétrica, 50% da área se encontram de cada lado da média. Por
exemplo, para conhecer a área entre um valor de ζ=0 (média) e ζ=1,5 procura-se na tabela o valor
1,5 e lê-se, na mesma linha, qual o valor expresso na coluna 0,00. O valor encontrado é 0,4332, que
pode ser expresso em porcentagem da área limitada pela curva normal, ou seja, 43,32%. Por
simetria, as áreas correspondentes à metade esquerda da curva normal são aquelas obtidas por
valores negativos. Assim, a área sob uma curva normal compreendida entre ζ=0 (média) e ζ= -1,5 é
lida do mesmo modo que a anterior. Obtém-se 0,4332 ou 43,32% da área limitada pela curva normal.
Como a tabela especifica a área compreendida entre a origem ζ=0 (média) e ζ, para se obter
a área entre -∞ e ζ=1,5 deve-se somar 0,500 ou 50% à área da tabela (0,500 + 0,4332 = 0,9332 ou
93,32%). Do mesmo modo, sendo a área total sob a curva igual a 1 (ou 100%), basta subtrair 0,9332
de 1,0 para obter a área entre ζ e +∞.
De acordo com o anexo A, a área compreendida entre μ±1,96σ corresponde a 95% da área
total. Desse modo, se uma variável tiver distribuição normal, 95% dos valores dessa variável estarão
contidos no intervalo μ±1,96σ, enquanto 5% dos valores da variável ficarão fora desse intervalo.
Exemplo 1.1.
𝑥−𝜇
ζ= =
𝜎
54
120−100 20
ζ= 15
= 15 = 1,33
A área encontrada no anexo A para o intervalo ζ=0 e ζ=1,33 corresponde a 0,4082 (ou
40,82%). A proporção de pessoas com concentração de glicose plasmática entre 100 e 120 mg/dL,
portanto, é ao redor de 41%.
Anexo A
Suponha que a pressão arterial sistólica (PAS) de homens com idade entre 20 e 25 anos possua
média (μ) igual a 120 mmHg e desvio padrão (σ) igual a 10 mmHg. Em um grupo de 25 indivíduos
fumantes de mesma idade e sexo, observou-se que a PAS média (𝑥̅ ) foi de 124 mmHg. A diferença
observada de 4 mmHg pode ser considerada como sendo desvio sem maiores consequências?
55
Desvios que não se distanciam muito da média são chamados de desvios não significativos
e representam uma grande fração de valores ao redor da média. A região dos desvios não
significativos é geralmente representada pela letra C. Por sua vez, a região de desvios significativos
corresponde a uma fração denominada α (alfa), a qual é sempre bem menor que C, já que é razoável
supor que valores discrepantes devam ser raros.
Para saber se a PAS média dos 25 fumantes (𝑥̅ = 124 𝑚𝑚𝐻𝑔) distancia-se de modo
estatisticamente significativo da média da população de referência (μ=120 mmHg), é necessário,
inicialmente, estabelecer-se um critério. Usando α= 0,05, determina-se uma região central de 95% e
duas áreas caudais de 2,5%. Com o auxílio do anexo A, obtém-se que os valores de ζ que limitam
essa área vão de -1,96 a 1,96. Assim, diz-se que 1,96 é o valor crítico de ζ para α = 0,05.
onde:
𝑥̅ − 𝜇 124 − 120 4 4
Assim, para os dados do problema acima, ζ= →ζ= →ζ= →ζ= =2
𝜎/√𝑛 10/√25 10/5 2
temos:
Como o ζ= 2,0 é maior que o ζ crítico (1,96), diz-se que o desvio é significativo, ou seja, que
é pequena a probabilidade de essa amostra de fumantes apresentar uma média de PAS mais
elevada simplesmente pelo acaso.
A maior parte das análises estatísticas envolve comparações entre tratamentos ou procedimentos,
ou entre grupos de indivíduos. Existe também a comparação de uma característica de um grupo com
um valor numérico teórico. Neste último caso, o valor numérico correspondente à comparação de
interesse é chamado de efeito, porém quando a comparação é entre dois grupos, esse efeito — ou
diferença de efeitos — pode ser 0, o que significa que não existem diferenças entre os grupos
comparados. Pode se definir uma hipótese, chamada de hipótese nula, H0, que estabelece que o
efeito é zero. Adicionalmente, tem-se uma hipótese alternativa, H1, que pode ser a de que o efeito
de interesse não é zero. A definição dessas duas hipóteses — que são complementares — é
importante, já que elas determinarão os critérios para a tomada de decisão.
Todo o procedimento de teste de hipótese está baseado na suposição de que a hipótese nula
é verdadeira. Se isto é verdade, então espera-se que os dados confirmem a referida hipótese, caso
contrário, o critério de decisão previamente definido levará à rejeição da hipótese nula, o que implica
na aceitação da hipótese alternativa.
56
Uma vez definidas as hipóteses, é necessário um critério para decidir qual das duas é a
verdadeira. Esse critério deve usar a informação amostral. Nas ciências biomédicas, é costume usar
o valor p como um critério de decisão, podendo ser calculado para qualquer teste. De forma
alternativa ao valor p, pode ser definido um procedimento baseado na existência de dois tipos de
erros, um dos quais é fixado num valor arbitrário, levando à definição de um critério para decidir sobre
a verdade da hipótese nula. Ambas as alternativas são apresentadas a seguir.
5.5.1. Valor de p
Depois de completado o procedimento de teste de hipótese, que leva a uma decisão sobre a hipótese
nula, não existe total certeza de que foi tomada a decisão correta. Podem ser observados dois tipos
de erro descritos na seguinte tabela:
Considerações finais
57
Neste capítulo estudamos a curva normal com mais profundidade e sua importância para a análise dos
resultados. É importante salientar que a curva é teórica, ou seja, existe um padrão esperado, mas que na
prática não ocorre com tanta perfeição. Nesse sentido, é sempre necessário utilizar um programa para verificar
a normalidade ou não dos dados. Antes mesmo de se conhecer os dados (em relação à sua normalidade), é
preciso elaborar o teste de hipótese, que tem objetivo sempre de verificar se duas médias possuem
significância estatística (são diferentes). O teste é elaborado com duas hipóteses, de modo que, anulando-se
a primeira, automaticamente aceita-se a segunda.
A maneira mais simples para determinar se os dados têm distribuição normal é através do histograma de
frequências, pois o formato de sino fica evidente. Algumas vezes, no entanto, não é tão evidente, e nesses
casos pode ser utilizada uma grande quantidade de testes de normalidades, inclusive com programas
estatísticos específicos. Vale a pena buscar mais informações sobre esses testes e o artigo a seguir trata de
alguns testes na área da saúde.
https://www.scielo.br/pdf/jvb/v16n2/1677-5449-jvb-16-2-88.pdf
Em uma distribuição de valores de glicose plasmática em jejum em homens normais entre 30 e 39 anos de
idade, a média observada foi de μ = 100 mg/dL e o desvio padrão σ = 15 mg/dL. Qual a proporção de pessoas
com teor de glicose plasmática acima de 120 mg/L?
Resposta:
𝑥−𝜇
ζ= =
𝜎
120−100 20
ζ= = = 1,33
15 15
A área encontrada no anexo A para o intervalo ζ=0 e ζ=1,33 corresponde a 0,4082 (ou 40,82%). Então sabemos
que a área que corresponde às pessoas com glicose está entre 100 e 120 mg/L. Para sabermos quantas estão
acima disso, basta subtrair 40,82% de 50%, pois a área à direita de μ (100) equivale a 50% (pois μ divide a
58
curva exatamente ao meio). Assim, 50 – 40,82 = 9,18% de pessoas com glicose plasmática acima de 120
mg/L.
Questão Objetiva
Considerando os dados do exercício proposto anteriormente, qual é a proporção aproximada de pessoas com
teor de glicose plasmática entre 80 e 120 mg/L?
a) 82%.
b) 41%.
c) 50 %.
d) 9%.
e) 100%
Questão Discursiva.
Determinada pesquisa deverá ser aplicada numa escola com 240 alunos divididos em dois turnos: 100 alunos
estudam de manhã e o restante à tarde. Busca-se saber qual horário os alunos costumam realizar as tarefas
dadas para serem feitas em casa. Se você for questionado sobre qual número total de alunos que deverá ser
consultado na pesquisa, qual sua resposta? Argumente.
59
Livro: Bioestatística Teórica e Computacional.
Assintóticas: Na matemática, esse termo quer dizer que estão bastante próximas.
60
UNIDADE III
CAPÍTULO 6 – TESTES DE HIPÓTESES
No término deste capítulo, você deverá saber:
✓ Teste de hipótese para uma média populacional μ, quando σ é desconhecido (Teste t);
✓ Teste de hipóteses sobre duas médias populacionais, com amostras independentes;
✓ Teste de hipóteses sobre duas médias populacionais, com amostras dependentes.
Introdução
Nos testes de hipótese, faz-se uma afirmação referente à população, e o intuito é saber se a
proposição é verdadeira ou falsa. Geralmente fazemos mais de uma afirmação, mas nem todas elas
devem ser testadas. Aquelas informações que não se pretende que sejam expostas a testes
chamam-se hipóteses subjacentes. Compõem-se de todos os pressupostos sobre os quais nos
apoiamos e nos quais acreditamos. Naturalmente, nunca estamos totalmente certos de que tais
pressupostos sejam válidos, caso contrário não seriam pressupostos. Acreditamos que eles
possuem validade provável, de modo que as hipóteses subjacentes se encontram muito próximas
das corretas. As suposições remanescentes, que devem ser testadas, chamam-se hipóteses
testáveis. Como afirmações específicas são mais fáceis de serem rejeitadas do que afirmações
vagas, é desejável formular problemas de testes de hipótese de modo a fazer com que a hipótese
nula seja a mais específica possível. Isso significa que frequentemente utilizamos como hipótese
nula a proposição que, de fato, queremos rejeitar.
O teste mais adequado dependerá do tipo de variável, da normalidade ou não dos dados da
amostra, do número de dados e da hipótese que se deseja testar. Há uma grande quantidade de
teste possível para um mesmo tipo de variável, de modo que é mais importante saber as
características dos dados e a hipótese do que aplicar o teste propriamente dito, uma vez que há uma
boa quantidade de programas de computador capazes de aplicar inúmeros testes. A interpretação
do teste, porém, é responsabilidade do pesquisador que o aplicou.
Neste capítulo aplicaremos alguns testes de hipóteses muito comuns na área biomédica,
inclusive com exemplos no decorrer do texto, buscando evidenciar a metodologia do teste e não a
matemática atrelada a ele.
Em estatística, o (n-1) que aparece em várias fórmulas significa o grau de liberdade. Esse conceito
é muito importante para consultar a tabela t (anexo A).
61
Por que em alguns casos não conhecemos o desvio padrão da população?
O teste de hipótese apresentado no capítulo 1 corresponde ao caso especial em que o desvio padrão
populacional σ é conhecido. Na grande maioria das situações práticas, contudo, o desvio padrão σ
é desconhecido, de tal forma que a estatística de teste definida para o teste ζ não poderia ser
calculada. Assim, o desvio padrão σ deve ser estimado pelo desvio padrão amostral S e a estatística
de teste passa a ser:
𝑋̅ − 𝜇
𝑇=
𝑆/√𝑛
Onde:
𝑋̅ = 𝑚é𝑑𝑖𝑎 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙;
𝜇 = 𝑚é𝑑𝑖𝑎 𝑝𝑜𝑝𝑢𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙;
𝑇 = 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑡.
O valor encontrado com a fórmula acima deve ser comparado com o valor tabelado da
distribuição de referência t de Student com n-1 graus de liberdade, para o nível α fixado. Quando o
tamanho é grande (n>30), contudo, a substituição de σ por S não afeta substancialmente a
distribuição estatística de ζ, podendo ser utilizada, então, a distribuição normal padrão como
distribuição de referência. Em outras palavras, quando o tamanho da amostra é grande (n> 30), o
teste ζ e o teste t são praticamente equivalentes.
62
Como não temos desvio padrão da população (σ), devemos estimá-lo pelo desvio padrão
amostral S= 40,5 mg/dl. Para executar o teste de hipótese, podem ser seguidas as etapas:
H0: o nível de colesterol sérico em homens com DCC é igual ou menor de 220 mg/dl
H1: o nível de colesterol sérico em homens com DCC é maior que 220 mg/dl
α = 0,05
t tab. = +1,711
63
253 − 220 33
𝑇= = = 4,07
40,5/√25 40,5/√25
6) Decisão estatística:
7) Conclusão:
Há evidências de que o nível médio de colesterol sérico em homens com DCC (da população
especificada) é maior do que em homens saudáveis para o nível de significância de 5%.
Esse é um típico problema que envolve duas amostras independentes, as quais devem ser
usadas para fazer inferências sobre as populações. No caso, trata-se de duas populações
64
hipotéticas: a população de “todos” os indivíduos que seriam tratados pela droga B ou pela droga G.
Assim, existem duas variáveis aleatórias envolvidas:
X1: tempo até a coagulação sanguínea para um indivíduo tratado com a droga B;
X2: tempo até a coagulação sanguínea para um indivíduo tratado com a droga G.
̅̅̅̅
𝑥1−𝑥2̅̅̅̅
𝑡= , onde:
1 1
√𝑠02 ( + )
𝑛1 𝑛2
(𝑛1−1)𝑠12 +(𝑛2−1)𝑠2 ²
𝑠02 = 𝑛1+𝑛2−2
onde:
n1 = tamanho da amostra;
Voltando aos dados do exemplo, vamos estabelecer as etapas para a execução do teste:
65
1) Identificar a variável em estudo:
α = 0,05
̅̅̅̅
𝑥1−𝑥2̅̅̅̅ (𝑛1−1)𝑠12 +(𝑛2−1)𝑠2 ² (5)0,3390+(6)0,6695 5,7121
𝑡= 1 1
𝑒 𝑠02 é 𝑠02 = 𝑛1+𝑛2−2
→ 6+7−2
→ 11
→ 𝑠02 = 0,5193
√𝑠0 ²( + )
𝑛1 𝑛2
6) Decisão estatística:
Repare que os valores de t tabelados vão de -2,201 a 2,201. Se o valor de t calculado estiver
dentro dessa área (veja a figura 2.2), deve-se aceitar a H0. Do contrário, rejeita-se H0. O valor
calculado de t é -2,4693, ou seja, é menor que a área, portanto deve-se rejeitar H0.
66
7) Conclusão:
6.3 Teste de hipóteses sobre duas médias populacionais, com amostras dependentes
Para a aplicação de vários testes é necessário encontrar antes os valores da média e desvio padrão dos
dados. Você pode utilizar diversas calculadoras online para determinar esses valores, o link a seguir é um
exemplo de calculadora online que facilita a obtenção desses parâmetros antes do teste:
https://pt.symbolab.com/solver/standard-deviation-calculator/desvio%20padr%C3%A3o%201%2C-2%2C-
4%2C3%2C5%2C-5%2C-1%2C2%2C3%2C2
A hipótese básica é a de que ambos os grupos de observações têm nível médio semelhante.
Assume-se, também, que os dados têm distribuição normal, porém ambos os grupos não são
independentes. Para dados dependentes (pareados), o interesse está na diferença média entre
observações. Esses dados pareados geralmente aparecem quando são realizadas duas medições
nos mesmos indivíduos, medições essas que são feitas em dois instantes diferentes ou por dois
meios diferentes. As hipóteses são:
67
𝑑̅
A estatística do teste será dada por: 𝑡 = 𝑠/ 𝑛, onde:
√
𝑠 ∶ 𝑑𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜;
𝑛 ∶ 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑎𝑑𝑜𝑠.
A título de exemplo, vamos considerar a tabela 1, referente ao consumo energético diário por
11 mulheres em dois momentos: pré e pós-menstrual. Deseja-se provar que o consumo pré-
menstrual é maior. As hipóteses de interesse são:
𝑑̅ 1320,5
𝑡= →𝑡= → 𝑡 = 11,94
𝑠/√𝑛 366,7/√11
68
Considerações finais
Neste capítulo estudamos alguns testes de hipóteses que podem ser aplicados para amostra de dados
paramétricos (normais). Não existem somente esses, mas certamente são os mais utilizados, no entanto pode
ser necessário pesquisar sobre outros tipos de testes, inclusive para dados não paramétricos (não normais) e
para outros tipos de variáveis, porém, seja qual for o teste utilizado, é muito importante que o caminho até o
determinar seja compreendido de maneira satisfatória pelo pesquisador. A figura 2.3 ilustra esse caminho:
69
Em estatística, usamos letras gregas quando nos referimos à população e letras latinas quando nos referimos
à amostra. Por exemplo, μ é média da população e 𝑋̅ é média da amostra.
Você pode encontrar os testes descritos neste capítulo e muitos outros no site:
http://www.portalaction.com.br/inferencia/testes-de-hipoteses. É possível também resolver exercícios e
acompanhar exemplos.
Uma suinocultura usa uma ração A que propicia, da desmama até a idade de abate, um ganho em peso de
500 g/dia/suíno (σ= 25 g). O fabricante de uma ração B afirma que, nas mesmas condições, sua ração propicia
um ganho de 510 g/dia (σ = 25 g). É evidente que, em termos financeiros, se for verídica a afirmação do
fabricante da ração do tipo B, esta deve ser usada em substituição à do tipo A. Se o criador tem de decidir com
base em uma amostra, se o ganho em peso dos suínos dando a nova ração é 510 g/dia, o problema pode ser
expresso na linguagem de teste estatístico de hipóteses. Como deveria ser elaborada a hipótese nula (H0) e
a alternativa (H1)?
70
Questão Objetiva
Uma suinocultura usa uma ração A que propicia, da desmama até a idade de abate, um ganho em peso de
500 g/dia/suíno (σ= 25 g). O fabricante de uma ração B afirma que, nas mesmas condições, sua ração propicia
um ganho de 510 g/dia (σ = 25 g). Considerando uma amostra de 50 leitões (n = 50), aos quais foi fornecida a
nova ração (B), com essas informações, podemos afirmar que:
Questão Discursiva.
Considerando a questão anterior, para ser possível a aplicação correta do teste t, qual parâmetro estatístico
deverá ser informado?
O livro Bioestatística — tópicos avançados, da autora Sonia Vieira, leva o leitor a dominar os conceitos
progressivamente, rever as próprias ideias e aperfeiçoar a aprendizagem, sempre de modo agradável. A
competência e a capacidade da autora de transmitir ideias ficam demonstradas, nesse livro, pela disposição
dos temas, pela sequência das ideias e pelo didatismo sem prejuízo da profundidade na escolha dos exemplos
e dos exercícios. São encontrados vários exemplos desenvolvidos de maneira fácil de acompanhar.
71
Teste t foi introduzido em 1908 por William Sealy Gosset, químico da cervejaria Guiness em Dublin, na Irlanda
("student" era seu pseudônimo). Gosset havia sido contratado devido à política inovadora de Claude Guinness
de recrutar os melhores graduados de Oxford e Cambridge para os cargos de bioquímico e estatístico da
indústria Guinness. Gosset desenvolveu o Teste t como um modo barato de monitorar a qualidade da cerveja
tipo stout. Ele publicou o Teste t na revista acadêmica Biometrika em 1908, mas foi forçado a usar seu
pseudônimo pelo seu empregador, que acreditava que o fato de usar estatística era um segredo industrial. De
fato, a identidade de Gosset não foi reconhecida por seus colegas estatísticos.
72