Escolar Documentos
Profissional Documentos
Cultura Documentos
BIOESTATISTICA - Unidade I - UNIP
BIOESTATISTICA - Unidade I - UNIP
Possui pós‑graduação em Formação em EaD pela Universidade Paulista (UNIP), mestrado em Engenharia de
Produção pela Universidade Paulista (UNIP), licenciatura em Matemática pela Universidade Santa Cecília (UNISANTA)
e licenciatura e bacharelado em Psicologia pela Universidade Católica de Santos (UNISANTOS). Participante do grupo
de pesquisas da Universidade Paulista – UNIP, autora de quatro artigos apresentados em congressos internacionais
com temas relativos à educação presencial utilizando ferramentas de ensino a distância e projetos para motivar alunos
nativos digitais. É professora na UNIP, nos cursos de Ciências da Computação, Engenharia, Matemática, Enfermagem,
Nutrição, Educação Física e Gestão Hospitalar em diversas áreas como: Estatística Descritiva, Estatística Indutiva,
Bioestatística, Tópicos de Informática, Trabalho de Conclusão de Curso, Metodologia do Trabalho Acadêmico. Professora
tutora de ensino a distância e elaboradora do conteúdo de Bioestatística do curso de Farmacologia Aplicada a Prática
Clínica da AVM Faculdade Integrada EaD.
CDU 57.087
U512.50 – 21
© Todos os direitos reservados. Nenhuma parte desta obra pode ser reproduzida ou transmitida por qualquer forma e/ou
quaisquer meios (eletrônico, incluindo fotocópia e gravação) ou arquivada em qualquer sistema ou banco de dados sem
permissão escrita da Universidade Paulista.
Prof. Dr. João Carlos Di Genio
Reitor
Unip Interativa
Material Didático
Comissão editorial:
Profa. Dra. Christiane Mazur Doi
Profa. Dra. Angélica L. Carlini
Profa. Dra. Ronilda Ribeiro
Apoio:
Profa. Cláudia Regina Baptista
Profa. Deise Alcantara Carreiro
Projeto gráfico:
Prof. Alexandre Ponzetto
Revisão:
Rose Castilho
Virgínia Bilatto
Sumário
Bioestatística
APRESENTAÇÃO.......................................................................................................................................................9
INTRODUÇÃO............................................................................................................................................................9
Unidade I
1 CONCEITOS GERAIS DE ESTATÍSTICA E BIOESTATÍSTICA................................................................... 11
2 POPULAÇÃO, AMOSTRA, AMOSTRAGEM, VARIÁVEIS, COLETA DE DADOS E
CRÍTICA DOS DADOS........................................................................................................................................... 12
2.1 População estatística ou universo estatístico........................................................................... 12
2.2 Amostra..................................................................................................................................................... 12
2.3 Amostragem............................................................................................................................................ 13
2.4 Técnicas de amostragem.................................................................................................................... 14
2.4.1 Amostragem aleatória simples (probabilística)........................................................................... 15
2.4.2 Amostragem sistemática (probabilística)....................................................................................... 18
2.4.3 Amostragem aleatória estratificada (probabilística)................................................................. 24
2.4.4 Amostragem por conglomerado (probabilística)........................................................................ 26
2.4.5 Amostragem acidental (não probabilística).................................................................................. 27
2.4.6 Amostragem intencional (não probabilística).............................................................................. 27
2.4.7 Amostragem por quotas (não probabilística)............................................................................... 27
2.4.8 Amostragem por voluntários (não probabilística)...................................................................... 27
2.5 Variáveis.................................................................................................................................................... 28
2.5.1 Tipos de variáveis..................................................................................................................................... 28
2.5.2 Variáveis qualitativas ou categorizadas......................................................................................... 28
2.5.3 Variável quantitativa.............................................................................................................................. 30
2.6 Coleta de dados..................................................................................................................................... 32
2.7 Crítica dos dados................................................................................................................................... 34
3 TABELAS E GRÁFICOS..................................................................................................................................... 34
3.1 Tabela primitiva...................................................................................................................................... 35
3.2 Rol............................................................................................................................................................... 36
3.3 Distribuição de frequências sem intervalos de classe............................................................ 37
3.4 Distribuição de frequências com intervalos de classe........................................................... 42
3.5 Elementos de uma distribuição de frequência.......................................................................... 46
3.6 Tipos de frequências............................................................................................................................. 47
3.7 Gráficos estatísticos............................................................................................................................. 49
3.8 Tipos de gráficos.................................................................................................................................... 49
3.8.1 Gráfico em linha ou em curva – polígonos de frequências................................................... 49
3.8.2 Histogramas............................................................................................................................................... 54
3.8.3 Gráfico em colunas ou em barras..................................................................................................... 55
3.8.4 Gráfico em colunas ou em barras múltiplas................................................................................. 56
3.8.5 Gráfico em setores.................................................................................................................................. 58
4 MEDIDAS DE TENDÊNCIA CENTRAL E DE VARIABILIDADE.............................................................. 60
4.1 Média aritmética (X)............................................................................................................................ 60
4.1.1 Média aritmética para dados não agrupados.............................................................................. 60
4.1.2 Média aritmética para dados agrupados....................................................................................... 62
4.2 Mediana (Md).......................................................................................................................................... 65
4.2.1 Mediana para dados não agrupados............................................................................................... 65
4.2.2 Mediana para dados agrupados........................................................................................................ 67
4.3 Moda (Mo)................................................................................................................................................ 70
4.3.1 Moda para dados não agrupados..................................................................................................... 70
4.3.2 Moda para dados agrupados.............................................................................................................. 71
4.4 Emprego da média, da mediana e da moda............................................................................... 74
4.5 Medidas de dispersão: variância, desvio padrão para dados agrupados e
não agrupados............................................................................................................................................... 74
4.5.1 Variância (S²)............................................................................................................................................. 75
4.5.2 Desvio padrão (S)..................................................................................................................................... 76
4.6 Coeficiente de variação (Cv)............................................................................................................. 83
Unidade II
5 DISTRIBUIÇÕES TEÓRICAS DE PROBABILIDADE................................................................................... 90
5.1 Introdução à probabilidade............................................................................................................... 90
5.1.1 Experimento aleatório........................................................................................................................... 90
5.1.2 Probabilidade da ocorrência de um evento P(A)........................................................................ 91
5.1.3 Eventos complementares..................................................................................................................... 92
5.1.4 Eventos independentes (e)................................................................................................................... 93
5.1.5 Eventos mutuamente exclusivos (ou)............................................................................................. 93
5.2 Distribuições teóricas de probabilidade....................................................................................... 94
5.2.1 Distribuição normal de probabilidade............................................................................................. 96
6 INTRODUÇÃO AO TESTE DE HIPÓTESES.................................................................................................101
6.1 Conceito de hipótese.........................................................................................................................101
6.2 Aplicação do teste...............................................................................................................................103
6.3 Nível de significância.........................................................................................................................103
6.4 Teste para amostras com a média de uma população.........................................................104
6.4.1 Amostras grandes (n>30)...................................................................................................................104
6.4.2 Teste T de Student, para amostras pequenas (n<30)..............................................................107
6.4.3 Teste de hipóteses para média de duas populações.................................................................111
7 TESTE DE HIPÓTESES QUI‑QUADRADO..................................................................................................115
7.1 Teste de associação qui‑quadrado clássico..............................................................................115
8 CORRELAÇÃO E REGRESSÃO.....................................................................................................................122
8.1 Diagrama de dispersão......................................................................................................................122
8.2 Coeficiente de correlação de Pearson (R)..................................................................................124
8.3 Coeficiente de determinação (R²).................................................................................................129
8.4 Regressão linear simples..................................................................................................................129
APRESENTAÇÃO
A bioestatística se faz presente no dia a dia da área da saúde. Ela se manifesta em várias áreas da
saúde, em hospitais, por meio de uma planilha de utilização de medicamentos para ser apresentada
a um plano de saúde, que se não for feita corretamente pode ser glosada, por exemplo. Existem
planilhas e gráficos de apresentação de desempenho de funcionários, de atendimentos e diversos
outros tipos.
Em nosso curso, as ferramentas da bioestatística serão apresentadas de forma sequencial, para que
você possa aprender noções de amostragem e técnicas de análise utilizando princípios da estatística
descritiva e esteja apto a calcular estimativas intervalares, entendendo, assim, a sua relevância em
pesquisas e trabalhos científicos de todo o tipo, principalmente na área da saúde.
Ainda, será incluso neste curso, a título de curiosidade, o modo como utilizar a ferramenta Microsoft
Excel, passo a passo, para todos os itens, demonstrando, assim, os recursos disponíveis de estatística do
software, para que você possa aproveitar todos os momentos do curso. Assim, ao final você será capaz
de distinguir as limitações e vantagens do uso de amostras e os métodos de sua obtenção, descrever e
interpretar dados por meio de tabelas e gráficos, fazer estimativas pontuais e de variabilidade, calcular
intervalos de confiança da proporção e média e ainda identificar sua aplicação, além de fazer todos
esses cálculos no Microsoft Excel.
INTRODUÇÃO
Como saberíamos mais sobre comportamentos, preferências, doenças e medicamentos que podem
promover melhorias à população se não fosse a estatística?
Toda pesquisa tem propostas e objetivos e deve ser planejada de acordo com eles. Para tanto, é
necessário que haja configuração da população‑alvo, delineamento de amostra, elaboração de
questionário (caso seja uma pesquisa de campo) para coleta dos dados e análise dos resultados, para
assim poder chegar a conclusões e até tomadas de decisões.
O conteúdo deste curso percorrerá o caminho entre a coleta de dados, o cálculo e a interpretação dos
resultados de uma pesquisa, e, com isso, você perceberá que a bioestatística está muito mais presente no
seu dia a dia do que você pode imaginar.
9
A pesquisa em bioestatística segue o cronograma da figura a seguir:
Propostas e objetivos
Planejamento de pesquisa
Delineamento de amostra
Elaboração de questionário
Coleta de dados
Construção Construção
de tabelas de gráficos
Análise de interpretação
dos dados
Conclusões e
tomadas de decisão
Portanto, a bioestatística se relaciona com a área da saúde, incluindo farmácia, gestão hospitalar,
enfermagem, nutrição e muitas outras, e essa é a razão de se tornar uma disciplina importante
nesses cursos.
10
BIOESTATÍSTICA
Unidade I
1 CONCEITOS GERAIS DE ESTATÍSTICA E BIOESTATÍSTICA
Estatística é a parte da matemática que trata da coleta, organização, tabulação e análise de dados
colhidos em um levantamento de dados (popularmente chamado de pesquisa). Pode ser dividida em dois
grandes grupos, a estatística descritiva e a Inferencial ou Indutiva. A descritiva é empregada para caracterizar
a amostra em estudo, já a inferencial ou indutiva permite elaborar hipóteses em relação à amostra estudada
para que possamos transferir essas conclusões à população que deu origem a essa amostra.
Bioestatística são conceitos da Estatística aplicados às Ciências Biológicas, como Medicina, Biologia,
Biomedicina, Farmácia, Odontologia, Medicina Veterinária, Enfermagem e outras (ARANGO, 2009).
Por definição, a Bioestatística é um conjunto de métodos utilizados para planejar e executar um trabalho
científico, que envolve a obtenção, a organização, a análise, e a interpretação dos dados, e ainda possibilita
a obtenção das conclusões (TRIOLA, 1999), como demonstrado no cronograma da figura anterior.
Lembrete
Saiba mais
Exemplos:
1. A farmácia do Hospital Baruch de Toulouse tem intenção de saber quais os remédios mais comuns
utilizados em pacientes internados com idade acima de 60 anos, sorteia, então, o prontuário de
30 desses pacientes, e anota as suas idades e os remédios que estão utilizando.
11
Unidade I
Com a utilização das ferramentas da Bioestatística, pode‑se chegar a muitas conclusões sobre os
remédios utilizados, tais como: quais as idades dos pacientes que utilizam esses remédios, com
que frequências eles são utilizados, e ainda, controlar os seus estoques para que não haja falta
desses medicamentos.
Essa pesquisa pode ser de muita utilidade, pois pode‑se saber quais pacientes são da cidade e
quais estão sendo enviadas de outras cidades, podendo inclusive levantar dados suficientes que
provem a necessidade de mais maternidades na região.
Chamamos população todos os elementos portadores de, pelo menos, uma característica comum, e
que desejamos analisar, isto é, todos os entes que possuem a característica que estaremos estudando.
2.2 Amostra
É um subconjunto finito da população estatística, ou seja, uma parte da população que queremos
investigar.
Amostras são utilizadas para que se possa chegar a uma conclusão a respeito do todo sem a
necessidade de utilizar todos os entes da população. Uma das poucas pesquisas que utilizam toda a
população é o Censo, realizado, normalmente de 10 em 10 anos.
Portanto, uma amostra não deve ser escolhida de qualquer maneira. A principal característica da
amostra é que ela deve ser probabilística, isto é, todos os entes da população devem ter a chance de
participar da amostra, se não, ela pode se tornar tendenciosa e colocar toda a pesquisa a perder.
A escolha da amostra é a parte mais importante da pesquisa. Para que não se cometam erros nesta
escolha, existe a amostragem.
Lembrete
Observação
Exemplos:
1. A farmácia do Hospital Baruch de Toulouse tem intenção de saber quais os remédios mais comuns
utilizados em pacientes internados com idade acima de 60 anos, sorteia, então, o prontuário de
30 desses pacientes, e anota as suas idades e os remédios que estão utilizando.
Neste caso, a população será constituída de todos os pacientes internados com idade acima de 60
anos e a amostra serão os 30 sorteados por meio dos seus prontuários.
Neste caso, a população será todas as gestantes do pré‑natal e a amostra, apenas as pacientes
encaminhadas por outras maternidades.
2.3 Amostragem
A amostra não pode ser escolhida de qualquer forma, para isso existem técnicas de amostragem
que garantem, principalmente, o acaso na escolha, portanto ela deve ser probabilística, isso é, todos
os participantes da população estatística devem ter a chance de ser escolhidos. Caso isso não ocorra, a
amostra pode não demonstrar a realidade da população.
Existem ainda técnicas não probabilísticas de amostragem que são empregadas quando não há
possibilidade de se obter amostras probabilísticas, isto é, ao invés de se sortear os elementos da amostra,
estes são selecionados por algum critério escolhido pelo pesquisador.
Em muitos casos, os efeitos de uma amostragem não probabilística podem ser considerados
equivalentes aos de uma amostragem probabilística, porém é um tipo de amostragem que deve ser feita
com reservas e com a convicção de que não se introduza vício.
As amostragens não probabilísticas normalmente são utilizadas quando não existe acesso à
população, quando é escolhida sem norma, quando o pesquisador deliberadamente escolhe certos
elementos da amostra por julgá‑los bem representativos da população ou ainda por voluntários.
13
Unidade I
Pelo fato da estatística ser uma estimativa, quanto melhor for a amostra, melhor se poderá inferir
sobre a população que ela representa.
Lembrete
Observação
Quando achamos que, ao utilizar todos os elementos da população para uma pesquisa, seremos
mais precisos, estamos incorrendo em um erro, pois a manipulação de grande quantidade de dados
pode gerar erros maiores do que os erros que poderíamos ter, por meio da inferência estatística, nas
conclusões de uma amostra bem selecionada.
Os métodos de extração das amostras não probabilísticas são: amostragem acidental, amostragem
intencional, amostragem por quotas e amostragem por voluntários.
Lembrete
14
BIOESTATÍSTICA
Observação
É um processo para selecionar amostras de tamanho “n” entre as “N” unidades em que foi dividida a
população. Sendo a amostragem feita sem reposição, que é o caso mais comum, existem (N, n) possíveis
amostras, todas igualmente prováveis (CRESPO, 1993). Na prática, a amostra aleatória simples é escolhida
unidade por unidade. As unidades da população são numeradas de 1 a N. Em seguida, escolhe‑se por
sorteio ou em uma Tabela de Números Aleatórios (TNA), encontra‑se n números compreendidos entre 1
e N. Esse processo é equivalente a um sorteio no qual se colocam todos os números misturados dentro
de uma urna. As unidades correspondentes aos números escolhidos formarão a amostra.
Figura 2 – Tabela de Números Aleatório (TNA) gerada no Excel com o comando =ALEATÓRIOENTRE(0;9)
15
Unidade I
Exemplos:
1. A farmácia do Hospital Baruch de Toulouse tem intenção de saber quais os remédios mais
comuns utilizados em pacientes internados com idade acima de 60 anos. Vamos supor que foram
internados 200 pacientes e que queremos uma amostra de 30 desses pacientes.
Neste caso, poderemos utilizar a TNA da figura. Vamos sortear apenas 30 desses pacientes; para
tanto, devemos numerar os prontuários de 001 a 200 e sortear 30 deles.
Temos que encontrar números de três dígitos, caso contrário, os prontuários acima de 100 nunca
seriam sorteados.
Resolução:
Se utilizarmos a TNA da direita para a esquerda, a partir da 1ª linha temos sorteados os prontuários:
175, 119, 052, 057, 129, 004, 110, 186, 072, 171, 130, 169, 180, 076, 036, 199, 034, 005, 069, 152, 096,
038, 018, 072, 125, 041, 056, 047, 103, 001, conforme figura a seguir.
16
BIOESTATÍSTICA
Portanto, serão utilizados esses prontuários para anotar os remédios mais comuns utilizados por
esses 30 pacientes. A partir daí, poderemos chegar a conclusões a respeito da população de pessoas
acima de 60 anos que foram internadas no Hospital Baruch de Toulouse.
Neste caso, o procedimento é o mesmo do exemplo anterior, se não levarmos em conta as cidades
de procedência, sortearemos 20 pacientes ao acaso. Para isso teremos que separar os prontuários
das cidades vizinhas e numerá‑los de 01 a 80. Agora utilizaremos apenas dois dígitos, pois os
elementos acima de 10 devem ter a chance de ser sorteados.
Resolução:
17
Unidade I
Se utilizarmos a TNA a partir da 1ª coluna, de cima para baixo, teremos sorteados os prontuários: 44,
36, 19, 05, 53, 39, 20, 11, 08, 50, 42, 62, 77, 30, 76, 65, 56, 67, 37 e 35.
Portanto, serão utilizados esses prontuários para anotar os municípios de procedência das gestantes e
o motivo do encaminhamento e, a partir daí, poderemos chegar a conclusões a respeito da população de
gestantes encaminhadas e qual o motivo do encaminhamento para a maternidade Baruch de Toulouse.
Lembrete
Observação
N
K=
n
Onde:
18
BIOESTATÍSTICA
b → início: nº de ordem inicial sorteado na TNA, que deve ser entre 1 e K (0<b<K).
1º item →b
2º item →b + K
E assim por diante, até encontrar todos os elementos desejados para a amostra.
Lembrete
Exemplos:
1. A farmácia do Hospital Baruch de Toulouse tem intenção de saber quais os remédios mais
comuns utilizados em pacientes internados com idade acima de 60 anos. Vamos supor que foram
internados 200 pacientes, e queremos uma amostra de 30 desses pacientes.
Resolução:
N 200
K= ⇒K = ⇒ K = 6, 67
n 30
19
Unidade I
Utilizando a primeira linha da TNA, da esquerda para direita, temos o número 2 (é o primeiro que
aparece entre 1 e 6), confira na tabela.
1º item → 2
2º item → 2 + 6 = 8
3º item → 8 + 6 = 14
4º item → 14 + 6 = 20
5º item → 20 + 6 = 26
6º item → 26 + 6 = 32
7º item → 32 + 6 = 38
8º item → 38 + 6 = 44
9º item → 44 + 6 = 50
10º item → 50 + 6 = 56
11º item → 56 + 6 = 62
12º item → 62 + 6 = 68
13º item → 68 + 6 = 74
14º item → 74 + 6 = 80
15º item → 80 + 6 = 86
16º item → 86 + 6 = 92
17º item → 92 + 6 = 98
A amostra será composta pelos pacientes de prontuários: 2, 8, 14, 20, 26, 32, 38, 44, 50, 56, 62, 68,
74, 80, 86, 92, 98, 104, 110, 116, 122, 128, 134, 140, 146, 152, 158, 164, 170, 176.
Portanto, serão utilizados esses prontuários para anotar os remédios mais comuns utilizados por
esses 30 pacientes, a partir daí, poderemos chegar a conclusões a respeito da população de pessoas
acima de 60 anos que foram internados no Hospital Baruch de Toulouse.
Resolução:
Neste caso, o procedimento é o mesmo do exemplo anterior, se não levarmos em conta as cidades
de procedência, sortearemos 20 pacientes ao acaso, porém, agora utilizaremos a amostra sistemática.
N 80
K= ⇒K = ⇒K = 4
n 20
21
Unidade I
Utilizando a segunda coluna da TNA (figura 2), de cima para baixo, temos o número 1 (é o
primeiro que aparece entre 1 e 4), confira na tabela.
1º item → 1
2º item → 1 + 4 = 5
3º item → 5 + 4 = 9
4º item → 9 + 4 = 13
5º item → 13 + 4 = 17
6º item → 17 + 4 = 21
7º item → 21 +4 = 25
8º item → 25 + 4 = 29
9º item → 29 + 4 = 33
10º item → 33 + 4 = 37
11º item → 37 + 4 = 41
12º item → 41 + 4 = 45
13º item → 45 + 4 = 49
14º item → 49 + 4 = 53
15º item → 53 + 4 = 57
16º item → 57 + 4 = 61
17º item → 61 + 4 = 65
18º item → 65 + 4 = 69
22
BIOESTATÍSTICA
19º item → 69 + 4 = 73
20º item → 73 + 4 = 77
A amostra será composta pelos pacientes de prontuários: 1, 5, 9, 13, 17, 21, 25, 29, 33, 37, 41, 45,
49, 53, 57, 61, 65, 69, 73, 77.
Portanto, serão utilizados esses prontuários para anotar os municípios de procedência das gestantes e
o motivo do encaminhamento e, a partir daí, poderemos chegar a conclusões a respeito da população de
gestantes encaminhadas e qual o motivo do encaminhamento para a maternidade Baruch de Toulouse.
Observação
Para encontrar os números correspondentes aos elementos para a amostra no Microsoft Excel, siga
os passos:
2. Após a divisão escolhemos o primeiro elemento na TNA e colocamos em outra célula, depois
inserimos a conta para que ele obtenha a soma e copiamos a fórmula.
23
Unidade I
O número 1 inserido na célula A3 foi o sorteado no exemplo. A célula B2 está entre o símbolo $
($B$2) para que possamos copiar (replicar) a fórmula, utilizando o cursor em destaque na figura.
A vantagem de utilizar o Microsoft Excel é a rapidez, certeza de que o resultado estará correto
(desde que você insira corretamente a conta) e, principalmente, o tamanho da amostra, porque a
fórmula pode ser replicada para o tamanho da amostra desejada, caso ela seja grande, não haverá
problemas. Além de que, uma vez feita a planilha, basta modificar o número de elementos da
população, o número de elementos da amostra e o novo número sorteado (b), que o resultado
será imediato, tente.
Os critérios de divisão são feitos de acordo com o que se quer saber na pesquisa, como: idade
(criança, adolescente, adulto e idoso), tipo sanguíneo (A, B, AB e O), área da empresa em que trabalha
(A1, A2, A3, etc.), entre outros.
24
BIOESTATÍSTICA
Quando é de igual tamanho, sorteia‑se igual número de elementos em cada estrato. Esse processo é
utilizado quando o número de elementos por estrato for aproximadamente o mesmo.
Lembrete
Exemplos:
1. Será realizada uma pesquisa a partir de uma amostra composta por 20 pessoas. Essas
pessoas compõem um grupo de 100 funcionários de Hospitais que atendem seu Plano de
Saúde em outras cidades, sendo que 20 são da cidade de Santos, 13 da cidade de Jacareí, 23
da cidade de São Paulo, 14 de São Bernardo do Campo, 22 de São José dos Campos e 8 de
São Vicente. Vamos determinar a quantidade de pessoas de cada Hospital que responderá
a pesquisa.
Resolução:
n
%n = X100 , onde:
N
%n = percentual da amostra.
n= nº de elementos da amostra.
N= nº de elementos da população.
20
%n = X100 = 20%
100
25
Unidade I
Agora, vamos descobrir quantos elementos escolheremos de cada estrato. Para facilitar, as contas
foram colocadas na figura a seguir:
Portanto, serão sorteados, por meio da técnica de amostragem aleatória simples, utilizando a
TNA, para compor a amostra de 20 funcionários: 4 funcionários do Hospital de Santos, 3 funcionários
do Hospital de Jacareí, 5 funcionários do Hospital de São Paulo, 3 funcionários do Hospital de São
Bernardo do Campo, 4 funcionários do Hospital de São José dos Campos e um funcionário do Hospital
de São Vicente.
Lembrete
26
BIOESTATÍSTICA
Saiba mais
É formada por elementos que vão aparecendo, que são possíveis de se obter até completar o número
de elementos da amostra. Um exemplo da utilização desse tipo de amostragem é a pesquisa de opinião,
em que os entrevistados são acidentalmente escolhidos.
Normalmente, nesse tipo de amostragem, o pesquisador usa seu julgamento para selecionar os
membros da população que ele acredita que são boas fontes de informação, portanto, é formada por
elementos escolhidos intencionalmente. Obviamente, o perigo desse tipo de amostragem é grande, pois
depende do critério do pesquisador.
O pesquisador entrevista um número predefinido de pessoas em cada uma das várias categorias.
O pesquisador classifica para entrevistar um número predefinido de pessoas em cada uma das várias
categorias, em termos de propriedades relevantes para a característica que deseja estudar.
É aquela em que o pesquisador aceita voluntários para amostra da população quando a ética obriga
que haja concordância dos escolhidos, é uma técnica muito utilizada no caso de experimentação de
alguma nova droga ou vacina em pacientes.
Saiba mais
27
Unidade I
• Aleatória simples
• Sistemática
Probalística • Estratificada
• Por conglomerado
Amostragem
• Acidental
• Intencional
Não probalística
• Por quotas
• Por conglomerado
2.5 Variáveis
A cada fenômeno corresponde um número de resultados possíveis. Assim, para o fenômeno “sexo”, são
dois resultados possíveis: sexo masculino e sexo feminino; para o fenômeno “número de funcionários”,
“quantidade de gestantes”, “número de idosos” há um número de resultados possíveis expressos por
números naturais (0, 1, 2, 3, ..., n), pois, não se pode dizer que foram contadas 25,3 gestantes, não é
mesmo? Assim sendo, onde estariam as 0,7 partes da 26ª gestante?
No caso de fenômenos como “pressão arterial”, “estatura” e “peso” os resultados podem tomar um
número infinito de valores dentro de um determinado intervalo. Nesse caso podemos admitir uma
estatura de 1,68 metros de altura, ou ainda um peso de 73,5 kg.
A variável, então, é um conjunto de resultados possíveis de um fenômeno, esse fenômeno pode ser
de qualidade (sexo, cor dos olhos,) ou de quantidade (pressão arterial, estatura). Por isso, as variáveis são
classificadas em: qualitativas ou categorizadas, e quantitativas.
Quando os possíveis resultados são atributos, qualidades. Exemplos: sexo (masculino‑feminino), cor da
pele (branca, preta...), cidade onde nasceu etc. As variáveis qualitativas podem ser divididas em duas categorias:
Qualitativa nominal
Quando os valores são classificados em categoria ou classes não ordenadas, em que números são
utilizados para representar categorias. Isto é, a variável é associada a um número, porém este número é
apenas um rótulo para a variável.
28
BIOESTATÍSTICA
Exemplos:
1. O agrupamento de pessoas de acordo com seu tipo sanguíneo, como na figura a seguir: o
número 1 representa o Tipo A, o número 2 representa o tipo B, o número 3 representa o tipo AB
e o número 4 representa o tipo O.
Os números associados às variáveis são meros rótulos, pois poderíamos facilmente trocar esses
rótulos para que 1 represente o tipo O, 2 é o tipo A, 3 é o tipo B e 4 é o tipo AB. Essa alteração não
implica na magnitude da variável.
Os números associados às variáveis continuam sendo rótulos, pois poderíamos facilmente trocar
esses rótulos para que 0 represente o sexo Feminino e 1 represente o sexo Masculino.
Qualitativa ordinal
Quando a ordem entre a categoria é importante, as observações são referenciadas como dados
ordenados. Isto é, agora, o número associado à variável lhe dá uma magnitude ou uma ordem que não
pode ser trocada.
Exemplos:
29
Unidade I
Os números associados às variáveis não são mais rótulos porque agora eles determinam a magnitude
do Nível Socioeconômico, pois não poderíamos trocar esses rótulos porque mudaríamos o Nível
Socioeconômico do elemento em questão.
Neste caso, as lesões são classificadas de acordo com o seu nível de severidade, de modo que
1 representa uma lesão moderada; 2 é severa e 3 é fatal. Aqui existe uma ordem natural entre os
agrupamentos, um número maior representa uma lesão mais séria.
Lembrete
Representa quantidades mensuráveis que não estão restritas a assumir valores especificados
(inteiros), isto é, os possíveis resultados são números de uma escala. Exemplos: estatura, peso, pressão
arterial, pressão atmosférica, salários de funcionários etc. As variáveis quantitativas podem divididas em
duas categorias:
Quantitativa discreta
É a variável que só pode assumir valores pertencentes a um conjunto enumerável e tanto a ordenação
quanto na magnitude são importantes. Neste caso, os números representam quantidades mensuráveis
30
BIOESTATÍSTICA
reais, em vez de meros rótulos, e os dados discretos estão restritos a terem somente valores específicos,
frequentemente inteiros ou contagens.
Exemplos:
1. A figura a seguir apresenta uma tabela com o número de pacientes internados em algumas alas
do Hospital Baruch de Toulouse. Como sabemos, a função da ala de um hospital é manter juntos
pacientes com problemas parecidos.
2. O número de acidentes com veículos em determinada estrada, também não pode assumir valores
que não sejam inteiros.
Quantitativa contínua
É a variável que não precisa ser número inteiro, não estão restritos a assumir certos valores específicos,
pois diferença entre quaisquer dois valores de dados possíveis pode ser arbitrariamente pequena.
Exemplos:
1. A variável peso pode ser tanto de um número inteiro, como decimal (72kg ou 72,5 kg), dependendo
do grau de precisão com que esse valor foi medido.
Lembrete
31
Unidade I
Observação
Já sabemos que para fazer uma pesquisa devemos percorrer por um cronograma. Até agora já
aprendemos o que é uma amostra e como escolher essa amostra, o que é variável e como classificá‑la,
precisamos agora colher os dados da nossa pesquisa.
Após planejarmos a pesquisa, devemos iniciar o levantamento dos dados que desejamos mensurar e
que irão determinar as características do fenômeno que queremos pesquisar. Para tanto, dá‑se início a
coleta de dados numéricos necessários à sua descrição.
A coleta de dados é feita sobre elementos informativos de registro obrigatório, ou ainda por meio de
inquéritos e questionários aplicados aos elementos da amostra pelo próprio pesquisador ou, dependendo
da pesquisa, por uma equipe por ele treinada.
Exemplos:
1. Coleta feita por elementos informativos podem ser: prontuários, nascimentos, casamentos,
óbitos ou ainda qualquer tipo de informação que se possa colher de registros obrigatórios, como
os prontuários dos 30 pacientes acima de 60 anos, escolhidos por amostra aleatória simples,
internados no Hospital Baruch de Toulouse.
2. Dados colhidos pelo próprio entrevistador por meio de questionários. A seguir, um exemplo de
questionário para colher informações sobre o perfil do aluno de um curso em ensino a distância
oferecido pelo Hospital e Maternidade Athena de Toulouse, e como ele acha que foi seu aprendizado
nesse tipo de curso.
32
BIOESTATÍSTICA
Q.3: Como você acha que foi seu aprendizado neste curso em EaD?
a) Ótimo.
b) Bom.
c) Regular.
d) Péssimo.
O questionário está com ênfase na geração digital a que pertence o aluno, com o objetivo de
classificar, dentro das gerações digitais, qual a que mais utiliza o EaD, pois cada geração tem um tipo de
relação com o computador, algumas têm mais e outras menos intimidade com o computador, e ainda
se o aluno acha que está aprendendo no curso em ensino a distância.
Lembrete
Observação
33
Unidade I
Saiba mais
Após colher os dados, devemos criticá‑los, ou seja, fazer uma observação minuciosa das respostas para
ter certeza de que não houve nenhuma intercorrência que possa ter interferido nas respostas ou ainda
algum erro na transferência de dados provenientes de prontuários, pois toda a nossa análise da pesquisa
dependerá desses dados. Uma vez que haja algo errado com eles, toda a nossa pesquisa ficará inutilizada.
3 TABELAS E GRÁFICOS
Distribuição de frequências é o nome dado à tabela gerada a partir dos dados. Segundo dados do
IBGE (1993, p. 9) tabela é a “forma não discursiva de apresentar informações, das quais o dado numérico
se destaca como informação central. Na sua forma identificam‑se espaços e elementos”.
Chamamos de classes as linhas de dados da tabela. Assim, a classe 1 é relativa à primeira linha
de dados da tabela e assim por diante. A definição de classes, pelas normas tabulares é “cada um dos
intervalos não superpostos em que se divide uma distribuição de frequências” (IBGE, 1993, p. 11).
Portanto, as distribuições de frequências devem ser construídas de acordo com as normas técnicas
ditadas pelo Instituto Brasileiro de Geografia e Estatística (IBGE). As tabelas devem ser colocadas logo abaixo
do texto em que são mencionadas pela primeira vez e inseridas na ordem em que aparecem no texto.
De acordo com as normas técnicas, uma tabela deve ter título, corpo, cabeçalho e coluna indicadora.
Toda tabela deve ser delimitada por traços (moldura) horizontais, mas não deve ser delimitada por traços
verticais. O cabeçalho deve ser separado do corpo da tabela por um traço horizontal.
34
BIOESTATÍSTICA
Saiba mais
A tabela primitiva é uma tabela que contém dados brutos, ou seja, colhidos e simplesmente anotados.
Exemplos:
2. Uma pesquisa para se determinar a idade de 30 idosos que residem na Casa de Repouso Cayro
apresenta a tabela primitiva a seguir:
35
Unidade I
Lembrete
Observação
3.2 Rol
Chamamos de rol a tabela que apresenta os dados organizados em uma determinada ordem, que
pode ser crescente ou decrescente, para que fique mais fácil a sua contagem, pois o resultado da pesquisa
é feito por meio da contagem dos dados.
Quando a variável em questão é quantitativa, normalmente optamos pela sua organização em ordem
crescente, quando é qualitativa devemos optar por uma sequência lógica para que possamos contá‑las.
Exemplos:
2. Uma pesquisa para se determinar a idade de 30 idosos que residem na Casa de Repouso Cayro
apresenta a tabela primitiva a seguir:
36
BIOESTATÍSTICA
Lembrete
Observação
Tanto a tabela primitiva quanto o rol não são considerados tabelas, pois
simplesmente fazem parte da organização dos dados.
Quando trabalhamos com o Microsoft Excel, não é necessário fazer o rol, pois o programa faz a
contagem dos dados brutos, basta colocá‑los na planilha de dados e utilizar a função CONT.SE para
dados qualitativos e CONT.SES para dados quantitativos contínuos.
Para dados qualitativos devemos gerar uma tabela de dados chamada distribuição de frequências
sem intervalos de classe, pois as classes são geradas pelas próprias variáveis (respostas) da questão.
Exemplos:
Resolução:
Anteriormente já organizamos os dados para a contagem (Figura 17), agora basta criarmos a tabela
de acordo com as normas do IBGE, como mostra a figura a seguir:
37
Unidade I
2. Foi feita uma pesquisa, com uma amostra de 60 alunos, para avaliar a qualidade do EaD de
determinada universidade. A tabela a seguir apresenta o resultado dessa pesquisa, após ter sido
feita a contagem dos dados.
Lembrete
Observação
No primeiro exemplo, criada a tabela, vamos contar a quantidade de pessoas que não são alfabetizadas,
a quantidade de pessoas que têm Ensino Fundamental incompleto, a quantidade de pessoas que têm
Ensino Fundamental completo e a quantidade de pessoas que têm Ensino Médio.
38
BIOESTATÍSTICA
2. Para se inserir qualquer fórmula no Excel, devemos primeiro utilizar o sinal de igual, pois assim ele
identifica que estamos com intenção de fazer uma conta ou utilizar uma função, a figura a seguir
nos mostra o cursor posicionado na célula B10, em que escrevemos o sinal de igual. E em seguida
clicamos na palavra fx, que se encontra na barra de fórmulas. Note que logo abaixo da palavra,
aparece escrito “inserir função”.
3. Ao clicar na palavra fx da barra de fórmulas, uma janela se abrirá com todas as funções do Excel,
como na figura a seguir:
39
Unidade I
4. Clique em OK e aparecerá outra janela, agora do argumento da função CONT.SE, que deve
ser preenchida em primeiro lugar com as células do intervalo em que se quer contar e qual o
critério de contagem, no nosso caso, a contagem será dos não alfabetizados, então, escolhemos
a célula C4, que é o local onde se encontra o primeiro não alfabetizado dos nossos dados, como
na figura a seguir:
Com a janela aberta, em intervalo, selecionamos o intervalo de A2 até E7, como mostra a figura:
40
BIOESTATÍSTICA
Com a janela aberta, em critério, selecionamos a célula C4 (Não Alfabetizados), como mostra a figura
a seguir.
Note que, ao terminar de preencher o intervalo e o critério, o Microsoft Excel já apresenta o resultado
da fórmula em dois momentos: abaixo do “Não Alfabetizados” e, ao final, no canto direito: Resultado da
fórmula= 4 (veja figura 24).
Não é necessário escrever as células no item intervalo na janela, pois, enquanto a janela está ativa,
basta você selecionar, com o mouse, todo o intervalo de dados e ele já escreve A2:E7, que quer dizer que
ele procurará de A2 até E7, incluindo essas duas células, como na figura 25.
Para inserir o critério o procedimento é o mesmo, nesse caso, como critério você escolhera a célula
C4, como mostra a figura 26, onde está escrito “Não Alfabetizado”. Note que na janela de argumentos
da função (figura 24), ao lado do campo de critério, ele escreve “Não Alfabetizado”.
Clique em OK e, a partir daí, devemos proceder da mesma maneira para todas as outras variáveis,
como mostra a figura a seguir.
Como podemos observar, na 2ª coluna temos as fórmulas de contagem e, ao final, a soma dos
valores. Para obter a soma, basta clicar no botão S, que se apresenta na barra de menus, e aceitar o
intervalo que ele oferece, como mostra a figura a seguir.
41
Unidade I
Saiba mais
Você pode obter mais informações a esse respeito, bem como mais
exemplos sobre essas tabelas no livro:
Para dados quantitativos contínuos, devemos gerar uma tabela de dados chamada distribuição de
frequências com intervalos de classe. Para que possamos distribuir dados contínuos em linhas e colunas,
devemos, ao contrário da distribuição sem intervalos de classes, determinar quantas linhas e como
os dados estarão dispostos nessas linhas. Para tanto, devemos utilizar algumas fórmulas que serão
colocadas a seguir.
42
BIOESTATÍSTICA
Exemplo: uma pesquisa para se determinar a idade de 30 idosos que residem na Casa de Repouso
Cayro apresenta o rol da figura a seguir:
Para criarmos a distribuição de frequências desses dados, vamos seguir os seguintes passos:
1. Primeiro temos que saber quantas linhas terá a tabela. Para isso, devemos utilizar a fórmula:
i= n
Onde:
i = 30 = 5, 48 ≅ 5
2. Para descobrirmos qual deve ser o intervalo de classes devemos escolher a menor idade do rol
(chamada de limite máximo dos dados (Lmin = 65) e a maior idade do rol (chamada de limite
máximo dos dados (Lmáx = 89).
L m á x − L min
h=
i
43
Unidade I
Temos então que criar a tabela inicial, com 5 linhas, e colocar os intervalos de classes, como na figura a seguir.
As idades iniciam em 65 (menor idade), acrescentamos 5 (amplitude), levamos o último número para
a próxima linha e acrescentamos 5, e assim por diante.
O símbolo que separa os números (├) representa um intervalo fechado à esquerda e aberto à direita
(significa que incluímos o número da esquerda e não incluímos o número da direita), então, contamos todas
as idades 65 anos, inclusive, a 69, pois a idade 70 será contada na próxima linha, e assim sucessivamente.
44
BIOESTATÍSTICA
Lembrete
Para a contagem das frequências de cada classe, lembremos que agora temos um intervalo numérico,
por isso, a função é CONT.SES e não CONT.SE, pois é um intervalo de números. Por isso, temos que
contar os números do intervalo maiores ou iguais ao primeiro e menores do que o último número,
representados pelo símbolo ├.
O Excel não entende o símbolo (├), portanto temos que colocar as idades em células diferentes para
que possamos contar os números do intervalo, observe a figura a seguir:
45
Unidade I
Classes: são intervalos de variação da variável. As classes são representadas simbolicamente por i.
Limites de classe: são os extremos de uma classe. O menor número é o limite inferior da classe (Li)
e o maior número, o limite superior da classe (Ls).
Amplitude de intervalo de classe: é a medida do intervalo que define a classe. É obtida pela
diferença entre os limites superior e inferior dessa classe e indicada por Hi:
Hi = Ls – Li.
Amplitude total da distribuição (AT): é a diferença entre o limite superior da última classe (limite
superior máximo) e o limite inferior da primeira classe (limite inferior mínimo):
AT = Ls(máx.) – Li(mín.)
Amplitude amostral (AA): É a diferença entre o valor máximo e o valor mínimo da amostra:
AA = L(máx.) – L(mín.)
Ponto médio de uma classe (xi): É o ponto que divide o intervalo de classe em duas partes iguais
(média aritmética).
Li + Ls
xi =
2
46
BIOESTATÍSTICA
Frequência simples ou absoluta (Fi): são os valores que realmente representam o número de
dados de cada classe. A soma das frequências simples sempre tem como resultado n, isto é, o número
de entrevistados.
Frequências relativas (Fri): são os valores das razões entre as frequências simples e a frequência
total.
Fi
Fri =
∑ Fi
Frequência percentual (Fri%): é a frequência relativa multiplicada por 100.
Fri%=Fri x 100
Frequência acumulada (Fa): é o total das frequências de todos os valores inferiores ao limite
superior do intervalo de uma dada classe. Para completar a coluna, devemos copiar a primeira frequência,
F1 e somar sucessivamente as outras frequências.
Frequência acumulada relativa (Fra) de uma classe: é a frequência acumulada da classe, dividida
pela frequência total da distribuição:
Fa
Fra =
∑ Fi
Frequência percentual (Fra%): é a frequência relativa acumulada multiplicada por 100.
Exemplos:
47
Unidade I
Agora, com a tabela completa, já podemos fazer observações importantes, tais como:
A maioria dos idosos residentes na Casa de Repouso Cayro tem idade acima de 75 anos, ou melhor,
de 77,5 anos, perfazendo 30% dos idosos, seguidos de 27% de idosos com média de 82,5 anos.
Após a organização dos dados na tabela, podemos fazer as inferências necessárias aos nossos estudos.
Lembrete
Observação
Se você quiser, poderá fazer complementar a tabela do Microsoft Excel, com as fórmulas demonstradas
na figura a seguir. As frequências absolutas já foram demonstradas com mais clareza na figura anterior.
48
BIOESTATÍSTICA
A apresentação dos resultados da pesquisa em gráficos é utilizada para tornar a leitura dos resultados
mais simples, representando com mais clareza os resultados da pesquisa, não só para o pesquisador, mas
também para o público em geral.
Portanto, utiliza‑se apenas um dos eixos para os resultados. Assim, será utilizado, sempre,
um eixo abscissas ou ordenadas, dependendo do tipo de gráfico, para as ocorrências da variável
(resultado da pesquisa), e o outro eixo será apenas para o nome ou valor da variável: qualitativa
(“sim”, “não”, “concordo totalmente”, “parcialmente” etc.) ou quantitativa (estatura média da classe,
idade média etc.).
Os gráficos mais comuns são: gráfico de setores ou pizza; gráfico de barras; gráfico em colunas;
gráfico de linhas; e histograma de frequências. O Microsoft Excel apresenta uma grande variedade de
gráficos estatísticos disponíveis para utilização.
Em geral, utilizam‑se gráficos em setores, barras e colunas para variáveis qualitativas e gráfico em
linhas e histograma de frequências para variáveis quantitativas.
Lembrete
Este tipo de gráfico se utiliza da linha poligonal para representar a série estatística, que também
serve para mostrar as frequências absolutas e as frequências acumuladas.
Normalmente é utilizado para variáveis quantitativas, quando se quer visualizar a evolução temporal
de uma variável. Pode ser feito com linhas retas ou por curvas. Esse, em geral, é o gráfico utilizado para
mostrar a evolução dos candidatos em época de eleição, por exemplo.
Quando a variável é quantitativa contínua gera distribuições com intervalos de classe, no eixo x são
colocados os pontos médios das classes.
49
Unidade I
Exemplos:
2. O gráfico a seguir apresenta o resultado da pesquisa feita com as idades dos idosos da Casa de
Repouso Cayro.
Lembrete
50
BIOESTATÍSTICA
Observação
Vamos seguir os passos para fazer o gráfico que se encontra no segundo exemplo, utilizando dados
da Casa de Repouso Cayro (figura 40).
1. Selecione, na tabela, apenas a coluna das frequências, e clique em “Inserir”, como mostra a figura
a seguir. Note que o menu de gráficos aparece à sua direita, logo após o menu de ilustrações.
Atenção: se selecionarmos duas colunas numéricas, o Excel entenderá que se quer fazer um gráfico
comparando duas variáveis.
51
Unidade I
3. Ao clicar, o gráfico aparecerá na tela, mas de forma rústica, como na figura a seguir. Você pode
utilizar o layout e o formato que desejar nas opções de menu do Excel. Quando o gráfico está
selecionado, aparecem as opções “Designs”, “Layout” e “Formatar”, para que se possa escolher a
formatação que desejar.
Note que o eixo das abscissas (x) está composto por números sequenciais. Devemos, então, modificar
esses dados e colocar a média das idades no eixo.
4. Para modificar os dados do eixo x, devemos proceder da seguinte maneira: selecione os valores
do eixo x, clique com o botão direito do mouse e escolha a opção “Selecionar Dados...”, como
na figura:
5. Uma nova janela se abrirá. Então devemos, na opção “Rótulos do Eixo Horizontal”, escolher a
opção “Editar”, como na figura a seguir:
52
BIOESTATÍSTICA
6. Abre‑se outra janela, selecionamos os dados, na tabela, com os valores que desejamos inserir no
eixo e clicamos em “OK”, na próxima janela, como na figura a seguir, e “OK” outa vez para sair da
janela.
53
Unidade I
O gráfico em linhas não é de tão fácil visualização, a não ser que realmente tenhamos várias séries
para apresentar, como no exemplo do Hospital Maternidade Baruch de Toulouse.
3.8.2 Histogramas
Os histogramas são gráficos formados por retângulos justapostos (sem espaço entre eles), em que
o eixo vertical apresenta a frequência absoluta ou relativa das observações dentro de cada intervalo e
o eixo horizontal apresenta a variável em estudo, que normalmente deve ser uma variável quantitativa
contínua representada em seu ponto médio (xi).
Exemplos:
1. O gráfico a seguir apresenta o resultado da pesquisa feita com as idades dos idosos da Casa de
Repouso Cayro.
Figura 48 – Histograma representando a idade média dos idosos da Casa de Repouso Cayro
2. Feita uma pesquisa a respeito da estatura de 40 alunos de uma classe do curso de Gestão Hospitalar,
os resultados estão apresentados no gráfico a seguir.
54
BIOESTATÍSTICA
Lembrete
Observação
Para fazer um histograma no Microsoft Excel, siga os passos para a construção de gráficos, apresentados
anteriormente (escolha colunas, e a opção de layout 8), e depois a formatação do gráfico pode ser a seu gosto, tente.
O gráfico em colunas é a representação dos dados da tabela por meio de retângulos dispostos
verticalmente, o de barras é a representação dos dados dispostos horizontalmente. Esses gráficos são
muito populares e muito utilizados nas apresentações por serem de fácil leitura.
Em geral, são utilizados para variáveis qualitativas, ou seja, dados nominais ou ordinais, e
frequentemente apresentando frequências percentuais.
O gráfico em colunas apresenta retângulos com mesma base e as alturas proporcionais aos valores
de contagem das variáveis, já em barras, apresenta retângulos de mesma largura e os comprimentos
proporcionais aos valores de contagem das variáveis.
Exemplos:
55
Unidade I
Figura 51 – Gráfico em barras relativo aos dados da tabela da figura 20, em porcentagem
Lembrete
Observação
O Microsoft Excel assume os números como valores da variável e as letras como legenda dos dados.
Utilizamos o gráfico em colunas ou barras múltiplas para comparar o desempenho de duas ou mais
variáveis.
Exemplos:
56
BIOESTATÍSTICA
Lembrete
Observação
Para selecionar colunas que não sejam seguidas basta segurar a tecla Ctrl enquanto seleciona as
colunas desejadas.
57
Unidade I
Comumente conhecido como gráfico em pizza, é construído com base em um círculo e é muito
utilizado para demonstrar o desempenho de uma variável em relação ao total. Por isso, em geral, utiliza‑se
a frequência percentual para expor os dados. É indicado para apresentar variáveis qualitativas, mas não
fica muito bom se tivermos muitas categorias, pois ficariam pequenos espaços da circunferência para
cada variável.
Para construirmos esse gráfico a mão, devemos ter um compasso e um transferidor, pois temos que
levar em conta que os valores percentuais estarão representando partes da circunferência, que tem por
total representados 360º. Logo, as porcentagens devem ser transformadas em graus, de forma que essa
circunferência ficará dividida em tantos setores quantas são suas partes e esses setores são medidos em graus.
Em primeiro lugar, devemos fazer a transformação das partes, em geral em porcentagem, para graus.
Para essa transformação, devemos utilizar uma regra de três simples, que terá a correspondência 100%
para 360º.
Exemplo:
360º 100%
X 52%
X = (360* 52)/100
X = 187,2º
Então fazemos a circunferência com o compasso e medimos, com o transferidor, 187,2º, sempre no
sentido anti‑horário, marcamos a parte e pintamos.
360º 100%
X 8%
X = (360* 8)/100
X = 28,8º
Fazemos a circunferência com o compasso e medimos, com o transferidor, 28,8º a partir do anterior
e assim sucessivamente.
58
BIOESTATÍSTICA
Exemplos:
2. O gráfico a seguir apresenta o resultado da pesquisa para avaliar a qualidade do EaD de determinada
universidade (figura 20), pela frequência percentual.
Lembrete
59
Unidade I
Observação
Medidas de tendência central são utilizadas para avaliar a tendência dos dados em se agrupar em
torno de valores centrais nas tabelas ou em sequências numéricas chamadas de dados não agrupados.
As medidas de tendência central são: a média aritmética, a mediana, a moda e podem ser calculadas
para dados qualitativos e quantitativos.
Observação
A média aritmética é empregada quando desejamos obter a medida de posição que possui maior
estabilidade. Como é uma medida de tendência central, normalmente ela tem como resultado um
número que está no centro ou perto do centro da distribuição, porém, dependendo da variabilidade dos
dados, ela também pode tender à maior concentração de dados.
Quando desejamos conhecer a média dos dados não agrupados, isto é, números que não se encontram
agrupados em tabelas, determinamos a média aritmética simples, dada pela fórmula:
x=
∑ xi
n
Onde:
x = média aritmética.
60
BIOESTATÍSTICA
Observação
Exemplos:
Resolução:
x=
∑ xi
n
217, 60
x= = 14, 51 minutos
15
Portanto, o tempo de espera médio para o atendimento dos pacientes do hospital na recepção é de
14,51 minutos.
61
Unidade I
2. Um professor deseja saber a nota média de seus alunos na prova, para tanto separa as notas:
5,5 7,0 10,0 3,0 4,0 8,0 2,0 3,5 6,7 9,2 6,6 7,8
Resolução:
x=
∑ xi
n
n = 12 (são 12 notas)
5, 5 + 7 + 10 + 3 + 4 + 8 + 2 + 3, 5 + 6, 7 + 9, 2 + 6, 6 + 7, 8
x=
12
73, 3
x= = 6,108 ≅ 6,1
12
Lembrete
Observação
Dados agrupados são aqueles resultantes de uma ordenação, isto é, tabulação de dados. Portanto,
apresentam‑se em tabelas e podem ser variáveis quantitativas contínuas ou discretas.
Para efetuarmos a média aritmética desse tipo de dados, devemos utilizar, na verdade, a média
aritmética ponderada, sendo o fator de ponderação a própria variável em estudo.
x=
∑ Xi × Fi
∑ Fi
62
BIOESTATÍSTICA
Onde:
x = média aritmética.
ΣXi × Fi = soma dos produtos de todas as frequências pelo ponto médio da classe.
Observação
Exemplos:
1. Vamos fazer a média das idades dos idosos residentes na Casa de Repouso Cayro.
Resolução:
Devemos utilizar a tabela que já foi criada em distribuição de frequências, acrescida da multiplicação
e total de Xi por Fi. Assim, temos a tabela a seguir.
x=
∑ Xi × Fi
∑ Fi
63
Unidade I
Então, temos:
2390, 0
x= = 79, 7 anos
30
Observação
2. A maternidade Athena de Toulouse pretende saber a quantidade de filhos que suas pacientes já
tiveram em suas instalações, vai aos seus arquivos, colhe os dados e os apresenta na seguinte
tabela:
Resolução:
Temos:
∑ Xi × Fi = 110 = 2, 2 filhos
∑ Xi × Fi = 110, ∑ Fi = 50, entª o : x =
∑ Fi 50
64
BIOESTATÍSTICA
Para responder a esta questão, devemos considerar que a variável em estudo é quantitativa discreta,
pois não podemos admitir separar crianças em partes, logo a resposta correta é que a média de filhos
que as pacientes tiveram na maternidade é de 2 filhos, com uma leve tendência a três.
Lembrete
Observação
A mediana também é uma medida de tendência central, mas, diferente da média, é o valor que
se encontra exatamente no centro da distribuição, porém, para que possamos encontrá‑la, devemos
ordenar os números segundo uma ordem de grandeza, ou seja, crescente ou decrescente. Como a média,
também é tratada de forma diferente para dados agrupados e não agrupados.
Para determinarmos a mediana de dados não agrupados, devemos ordená‑los em ordem crescente
ou decrescente e separar ao meio, o valor que estiver no centro da sequência será a mediana, em caso de
sequências com número par de elementos, devemos achar a média aritmética dos dois valores centrais
e esta será a mediana.
Exemplos:
1. O gestor do Hospital Baruch de Toulouse tem intenção de saber qual a idade mediana dos pacientes
que gastam acima de R$ 300,00 em exames de sangue. Para tanto, separa as idades de 11 desses
pacientes: 65, 60, 45, 32, 55, 55, 65, 78, 92, 94, 50.
Resolução:
Devemos, em primeiro lugar, colocar as idades em ordem crescente, como na figura a seguir.
32 45 50 55 55 60 65 65 78 92 94
Então, escolhemos o valor central para mediana, como mostra a seguinte figura.
65
Unidade I
32 45 50 55 55 60 65 65 78 92 94
Valor central é 60
Então, Md = 60 anos.
Portanto, a idade média dos pacientes que gastam acima de R$ 300,00 em exames de sangue é de
60 anos.
2. O gestor do Hospital Baruch de Toulouse tem intenção de saber qual a idade mediana dos pacientes
que gastam acima de R$ 300,00 em exames de sangue. Para tanto, separa as idades 10 desses
pacientes: 65, 60, 45, 32, 55, 55, 65, 78, 92, 94.
Resolução:
32 45 55 55 60 65 65 78 92 94
Como não temos um valor central definido, devemos fazer a média dos dois valores centrais, como
mostra a figura a seguir:
32 45 55 55 60 65 65 78 92 94
60 + 65 125
Md = = = 62, 5
2 2
Lembrete
Observação
Para determinamos a mediana, temos que ordenar os dados, quando tratamos dados agrupados, o
conceito de mediana é o mesmo, porém, para dispormos dados agrupados em ordem crescente, a única
maneira é utilizarmos a frequência acumulada (Fa).
∑ Fi
2
Exemplo:
∑ Fi
2
∑ Fi = 50 = 25
2 2
Portanto, o valor mediano do número de filhos é o número de filhos que se encontra na classe da Fa
maior mais próxima de 25, no caso a classe de Fa = 34, o que remete à 2 filhos:
67
Unidade I
Se a distribuição é com intervalos de classes, devemos descobrir qual o número, dentro do intervalo
de classe, da classe mediana, que corresponde à mediana, para isso, temos a fórmula:
∑ fi
− Fa(ant ) Xh
2
Md = Li +
Fi
Onde:
Md = mediana.
2. Vamos fazer a mediana das idades dos idosos residentes na Casa de Repouso Cayro.
Resolução:
68
BIOESTATÍSTICA
Temos:
∑ Fi = 30 = 15
2 2
Portanto, a classe mediana é a 3ª, então os dados da fórmula estão nessa classe:
∑ fi
− Fa(ant ) Xh
2
Md = Li +
Fi
Md = 75 +
(15 − 6) × 5
9
9
Md = 75 + × 5
9
Md = 75 + 5
Md = 80
Lembrete
69
Unidade I
Observação
Denominamos moda o valor que ocorre com maior frequência em uma série de valores.
Quando os dados não estão agrupados, a moda é, de acordo com a definição, o valor que mais se
repetir na sequência.
Uma série de dados pode não ter nenhum elemento que se repete, não apresentando moda.
Portanto, será chamada de amodal. Ela pode ainda possuir mais de um elemento que se repete na
mesma quantidade. Se forem dois, por exemplo, terá duas modas e será chamada de Bimodal, e assim
por diante.
Exemplos:
1. O gestor do Hospital Baruch de Toulouse tem intenção de saber qual a idade mediana dos pacientes
que gastam acima de R$ 300,00 em exames de sangue. Para tanto, separa as idades de 11 desses
pacientes: 65, 60, 45, 32, 55, 55, 65, 78, 92, 94, 50.
Resolução:
A moda será o valor que mais repete, nesse caso, podemos notar que a idade 55 anos aparece duas
vezes e 65 anos também, logo, temos duas modas: Mo = 55 anos e Mo = 65 anos.
Lembrete
70
BIOESTATÍSTICA
Resolução:
O valor que mais repete é o tempo 14,5, logo, esse é o tempo modal:
Mo = 15 minutos.
Observação
Se os dados estão agrupados sem intervalos de classes, determinamos a moda pela definição, isto
é, basta escolher o valor da variável de maior frequência.
Exemplos:
71
Unidade I
Resolução:
Para determinarmos a moda, basta observar a coluna das frequências absolutas e encontrar a maior
frequência, esta será a classe modal e a moda será o grau de escolaridade que se encontra nessa classe.
Assim, podemos observar que, na tabela, temos como moda o grau de escolaridade Fundamental
incompleto, pois a sua frequência é 17, a maior frequência de todas.
Portanto:
Mo = Fundamental incompleto
2. A seguinte tabela apresenta os dados que demonstram a quantidade de filhos que as pacientes da
maternidade Athena de Toulouse já tiveram em suas instalações. Vamos determinar o valor modal
da quantidade de filhos dessas pacientes.
Resolução:
72
BIOESTATÍSTICA
A observação da coluna das frequências absolutas nos mostra que a maior frequência é 18, portanto,
a classe modal é a segunda, o que nos permite dizer que a moda da quantidade de filhos das pacientes
da maternidade Athena de Toulouse é de 2 filhos.
Então:
Mo = 2 filhos.
Se os dados estão agrupados com intervalos de classes, determinamos a classe modal pela
definição, isto é, a classe que apresenta maior frequência, e utilizamos como resposta o ponto médio da
classe (xi). Esse valor é chamado moda bruta.
Exemplo:
1. Vamos fazer a moda das idades dos idosos residentes na Casa de Repouso Cayro.
Resolução:
Temos que utilizar o ponto médio da classe para responder qual é a moda, para tanto, temos a tabela
a seguir, que apresenta a distribuição com os valores dos respectivos pontos médios das classes:
Como podemos perceber, já está demonstrada a classe modal, pois a maior frequência absoluta é 9, então
podemos dizer que a classe modal é a 3ª e a moda da distribuição é o ponto médio dessa classe, que é 77,5 anos.
Lembrete
73
Unidade I
Observação
A média aritmética é empregada quando desejamos obter a medida de posição que possui maior
estabilidade.
A mediana é empregada quando se deseja obter o ponto que divide a distribuição em partes iguais;
quando há valores extremos que afetam a média de maneira acentuada.
A moda é utilizada quando se deseja obter uma medida rápida e aproximada de posição ou quando
a medida de posição deve ser o valor mais típico da distribuição.
A média, a mediana e a moda descrevem bem um conjunto de dados, desde que a sua variabilidade
(inconstância) não seja muito grande. Para que possamos dar sustentação à média aritmética, devemos
calcular a sua dispersão, ou seja, verificar como os dados estão espalhados em relação à média. Para
calcular essa variabilidade, temos as medidas de dispersão, variância e desvio padrão.
Exemplos:
1. No Hospital Baruch de Toulouse, as idades dos 10 colaboradores são: 30, 30, 30, 32, 30, 30, 33, 29,
33 e 30
O que descreve bem as idades, pois não são muito dispersas, variam entre 29 e 33 anos, logo, 31 é o
centro das idades.
74
BIOESTATÍSTICA
Nesse caso, temos como resultado a mesma média do exemplo anterior, 31 anos, porém, a variação
das idades (variabilidade) é muito diferente do primeiro exemplo, pois a menor idade é 16 anos e a
maior é 65.
Observação
Por meio desses dois exemplos podemos notar que as duas médias apresentam o mesmo resultado,
porém, 31 anos descreve muito bem os dados do Hospital Baruch de Toulouse, mas não tão bem as
idades de sua filial.
Esses dados mostram que, quando apresentamos uma medida de tendência central, devemos
apresentar também uma medida de variabilidade ou dispersão para podermos demostrar como os dados
estão variando com relação a essas medidas.
A variância de um conjunto qualquer de dados (uma sequência numérica), ou seja, dados não
agrupados, é determinada pela fórmula:
Variância populacional:
σ2 =
∑ (x − µ)
N
Variância amostral:
∑ (x − x )
2
2
S =
n −1
Onde:
σ2 = variância populacional
S² = variância amostral
75
Unidade I
Observação
S2 =
∑ ( xi − x )2.Fi
n −1
Onde:
S² = variância amostral.
Observação
A variância é uma medida que não faz parte dos dados, apenas nos diz o quanto eles estão
dispersos em relação à média. Para que possa ser comparável com os dados, devemos expressá‑la na
mesma magnitude em que os dados se encontram, para tanto, devemos calcular o desvio padrão.
Nesse caso para dados não agrupados, que é obtido por meio da raiz quadrada da variância, como
nas fórmulas:
76
BIOESTATÍSTICA
∑ ( x − u)
2
σ=
N
2
s=
∑ (x − x )
n −1
Onde:
Observação
∑ ( xi − x )
2
.Fi
s=
n −1
Onde:
77
Unidade I
Observação
Existem outras fórmulas para calcular o desvio padrão de dados
agrupados, a opção foi utilizar a fórmula que tem referência à escolhida
para variância.
Exemplos:
1. No Hospital Baruch de Toulouse, as idades de 10 colaboradores são: 30, 30, 30, 32, 30, 30, 33, 29,
33 e 30, vamos calcular qual é a variância e o desvio padrão dessas idades:
Resolução:
s2 =
∑ (x − x )2
n −1
Devemos, em primeiro lugar, fazer a média aritmética dos valores:
x=
∑ xi
n
307
x= = 30, 7
10
Então, devemos determinar Σ(x-x)2, como mostra a tabela a seguir:
X (X - X)2 Resultado
30 (30 - 30,7)2 0,49
30 (30 - 30,7) 2
0,49
30 (30 - 30,7) 2
0,49
32 (32 - 30,7) 2
1,69
30 (30 - 30,7) 2
0,49
30 (30 - 30,7) 2
0,49
33 (33 - 30,7) 2
5,29
29 (29 - 30,7) 2
2,89
33 (33 - 30,7)2 5,29
30 (30 - 30,7)2 0,49
Total 18,1
78
BIOESTATÍSTICA
Portanto, temos:
(x-x)2= 18,1
2
s 2
=
∑ (x − x )
n −1
18,1
s2 =
10 − 1
18,1
s2 =
9
s2 = 2,01
Logo, a variância é de 2,01, isso significa que a idade média dos clientes é de 30,7 anos, com variação
de 2,01 para mais ou para menos.
Para colocarmos dentro das nossas idades devemos fazer o desvio padrão. Como ele é definido pela
a raiz quadrada da variância, temos:
s = 2, 01
s = 1,42
Então, podemos afirmar que a idade média dos colaboradores do Hospital Baruch de Toulouse
é de 30,7 anos com desvio de 1,42 anos para mais ou para menos, ou seja, a idade varia de 29,28
anos a 32,12 anos.
79
Unidade I
Resolução:
Cálculo da variância:
∑ (x − x )
2
2
s =
n −1
319, 63
s2 =
15 − 1
319, 63
s2 =
14
s2 = 22,83
Logo, a variância é de 22,83, isso significa que o tempo médio de espera para o atendimento na
recepção do hospital é de 14,5 minutos, com variação de 22,83 para mais ou para menos.
s = 22, 83
s = 4,78
Então, podemos afirmar que o tempo de espera para o atendimento na recepção do Hospital Baruch
de Toulouse é de 14,5 minutos com desvio padrão de 4,78 anos para mais ou para menos, ou seja, o
tempo varia de 9,72 minutos a 19,28 minutos.
80
BIOESTATÍSTICA
Nesse caso, há uma grande variação no tempo de espera, o que denota que o gestor do hospital deva
tomar alguma providência.
Observação
No caso, R3:R17 é o intervalo das células de que você deseja obter a variância.
Resolução:
Cálculo da variância:
Em primeiro lugar, calculamos a média aritmética para dados agrupados, que já foi feita anteriormente,
tendo como resultado: x = 2,2
Número de Fi Xi.Fi
Filhos (X - X)2 (X - X)2.Fi
Cálculos:
∑ ( xi − x )
2
2 .Fi
s =
n −1
81
Unidade I
64
s2 =
50 − 1
64
s2 =
49
s2 = 1,31
Isso significa que a média da quantidade de filhos que as pacientes da Maternidade Athena de
Toulouse já tiveram em suas instalações é de 2,2, com variação de 1,31.
s = 1,14
Isso significa que a média da quantidade de filhos que as pacientes da Maternidade Athena de
Toulouse já tiveram em suas instalações é 2, variando de 1 a 3 filhos.
2. Vamos determinar a variância e o desvio padrão na pesquisa das idades de 30 idosos que residem
na casa de repouso Cayro.
Resolução:
Cálculo da variância:
Em primeiro lugar, calculamos a média aritmética para dados agrupados, que já foi feita anteriormente
e teve como resultado:
x = 79,67
82
BIOESTATÍSTICA
Cálculos:
∑ ( xi − x )
2
2 .Fi
s =
n −1
1134,17
s2 =
29
s2 = 39,11
Isso significa que a média das idades de 30 idosos que residem na Casa de Repouso Cayro é de 79,67
anos, com variação de 39,11.
s = 39,11
s = 6,25
Isso significa que a média das idades de 30 idosos que residem na Casa de Repouso Cayro é de 79,67
anos, variando de 73,41 a 85,92 anos.
Lembrete
Observação
O Microsoft Excel não tem fórmula para cálculo de variância e desvio padrão para dados agrupados.
O coeficiente de variação é a razão entre o desvio padrão e a média. O resultado é multiplicado por
100 para que o coeficiente de variação seja dado em porcentagem.
83
Unidade I
s
cv = ×100
x
Onde:
S= desvio padrão.
x = média aritmética.
Exemplos:
s 4, 78
cv = × 100 → cv = × 100 → cv = 0, 33 × 100 = 33%
x 14, 5
2. Para as idades dos 30 idosos que residem na Casa de Repouso Cayro, temos:
s 6, 25
cv = × 100 → cv = × 100 → cv = 0, 0784 × 100 = 7, 84%
x 79, 67
Como podemos perceber, a primeira sequência tem 33% de variação, pois os dados estão muito
dispersos, enquanto que no segundo exemplo, a variação é de apenas 7,84%, pois as idades estão
menos dispersas.
Lembrete
Observação
84
BIOESTATÍSTICA
Saiba mais
Resumo
Qualitativa
nominal
Qualitativa ou
categorizada
Qualitativa
ordinal
Variável
Quantitativa
discreta
Quantitativa
Quantitativa
contínua
85
Unidade I
Para cada tipo de variável cabe um tipo de gráfico. Não é uma regra
geral, mas é o usual. Gráficos em linha e histogramas normalmente utilizam
variáveis contínuas, gráficos em colunas ou barras e setores utilizam
variáveis qualitativas. O gráfico em setores, deve ser uma opção apenas
quando o número de variáveis não é muito grande.
Não podemos esquecer que para fazer a mediana de dados não agrupados,
devemos colocar os dados em ordem crescente ou decrescente e, quando os
dados são agrupados, devemos abrir uma coluna na tabela de dados para a
frequência acumulada (Fa), pois é ela que nos apresentará a classe mediana,
de onde colheremos os dados para substituirmos na fórmula.
86
BIOESTATÍSTICA
Exercícios
Questão 1. Um pesquisador elaborou um estudo sobre agressividade, que visava avaliar o “grau médio
de agressividade” de um grupo de pacientes mentais de diversos tipos, todos do sexo masculino. Para
tanto, elaborou escalas de medida adequadas aos seus objetivos. Compareceu ao Hospital Psiquiátrico
de Franco da Rocha que contava com 3000 pacientes, de ambos os sexos, e efetuou um sorteio de 40
pacientes masculinos. Num primeiro levantamento fez uma classificação de doenças mentais. Num
segundo levantamento mediu os graus de agressividade (baixa, média, alta) dos pacientes de sua
amostra. A partir do enunciado, qual é a população, a amostra, a classificação da variável do primeiro
levantamento e a classificação da variável do segundo levantamento, respectivamente?
A) 3000 pacientes; 40 pacientes do sexo masculino; variável qualitativa nominal; variável quantitativa.
B) 3000 pacientes; 40 pacientes do sexo masculino; variável qualitativa nominal; variável qualitativa
ordinal.
C) 40 pacientes do sexo masculino; 3000 pacientes; variável qualitativa ordinal; variável quantitativa.
E) 3000 pacientes; 40 pacientes do sexo masculino; variável qualitativa ordinal; variável qualitativa
nominal.
A) Alternativa incorreta.
B) Alternativa correta.
Justificativa: esta alternativa apresenta todos os conceitos estatísticos corretos. A população diz
respeito ao total de pacientes do hospital, ou seja, 3000 pacientes. A amostra, que é uma parte da
população, diz respeito aos 40 pacientes do sexo masculino. A variável do primeiro levantamento, tipos
de doenças mentais, é classificada como variável qualitativa nominal, pois há uma nomeação dos tipos
de doenças e, finalmente, a variável do segundo levantamento, graus de agressividade (baixa, média,
alta), é classificada como variável qualitativa ordinal, pois entre as categorias há uma hierarquia entre
os graus de agressividade.
C) Alternativa incorreta.
Justificativa: houve uma inversão entre o que seria população e amostra: 40 pacientes não
caracterizam a população, mas sim a amostra, e 3000 pacientes não se referem à amostra, mas sim
à população. A classificação das variáveis também está incorreta: no primeiro levantamento deve ser
qualitativa nominal e a do segundo levantamento, qualitativa ordinal.
D) Alternativa incorreta.
Justificativa: novamente ocorre uma inversão dos conceitos de população e amostra e as classificações
das variáveis estão incorretas.
E) Alternativa incorreta.
Justificativa: nesta alternativa ocorreu uma inversão na classificação das variáveis estudadas. A do
primeiro levantamento deve ser qualitativa nominal e a do segundo levantamento, qualitativa ordinal,
e não o inverso, como foi apresentado na alternativa.
Questão 2. Analise a seguinte situação: um profissional da área de Saúde realizou uma pesquisa
com 50 pacientes internados em um hospital público para averiguar o nível de ansiedade apresentado
por eles. Construiu uma escala subjetiva para a variável ansiedade, que ia de 1 a 5, como demonstrado
pela tabela a seguir:
Tabela 1
88
BIOESTATÍSTICA
A partir dos resultados encontrados, qual o valor médio da ansiedade destes 50 pacientes?
A) 1,3.
B) 4,2.
C) 2,62.
D) 3,22.
E) 1,92.
89