Você está na página 1de 38

Bioestatística

Introdução à Bioestatística e Análise Exploratória de Dados

Responsável pelo Conteúdo:


Prof. Esp. Evandro Tadeu Rocha Junior

Revisão Textual:
Prof. Me. Luciano Vieira Francisco
Introdução à Bioestatística
e Análise Exploratória de Dados

• Apresentação e Discussão de Exemplos de Estudos Estatísticos;


• Estatística e Bioestatística: Objetivos e Métodos;
• Estatística Descritiva;
• Variáveis;
• Frequência Absoluta e Frequência Relativa;
• Representações Gráficas;
• Medidas de Tendência Central.

OBJETIVO DE APRENDIZADO
• Compreender os conceitos básicos da estatística descritiva, necessários para o desenvolvi-
mento do curso.
UNIDADE Introdução à Bioestatística e Análise Exploratória de Dados

Apresentação e Discussão
de Exemplos de Estudos Estatísticos
Um novo tratamento é descoberto e promete ter resultados excepcionais na cura
de uma doença. Isso acontece com muita frequência em diversas áreas da saúde,
como Psicologia, Farmácia, Odontologia, Enfermagem, Nutrição etc., mas como sa-
ber se esse tratamento é de fato efetivo? Existem interesses mercadológicos diversos
que influenciam na aceitação de um novo tratamento, como patrocínio de investi-
dores, status do pesquisador, potencial geração de receitas decorrentes da venda do
tratamento ou até a obsessão do paciente que anseia pela sua cura.

Entretanto, do ponto de vista ético, é extremamente importante ter um método


de avaliação crítica e independente de avaliações subjetivas, que indique, de fato, a
efetividade de um tratamento.

Imagine, por exemplo, que seu filho de apenas 3 meses de vida está com cólicas e
sua avó lhe aconselha o uso de chá de camomila. Provavelmente, esse conhecimento
empírico deve ter alguma lógica, pois é aceito por muitas gerações e “todos” que
usam sempre afirmam que se trata de um ótimo remédio. Para refletir um pouco
mais sobre o problema, vamos formular algumas perguntas:
• Será que a efetividade é devida exclusivamente ao chá de camomila, ou outros
chás também têm o mesmo efeito?
• Após dar chá ao bebê, os pais aguardam uma melhora ou continuam com ou-
tros tipos de tratamento (por exemplo, massagem na barriga, outro medicamen-
to antigases, flexão das pernas etc.)?
• O tratamento é efetivo para qualquer idade?
• Quanto chá e com que frequência deve ser utilizado no tratamento?
• Existem casos em que o tratamento não é efetivo? Se sim, ocorrem com
que frequência?
• Quanto tempo deve-se esperar para o chá fazer efeito?
• Será que o chá de camomila realmente faz efeito, ou o bebê poderia melhorar
ainda sem o chá?

Perceba que essas perguntas abordam o tratamento de uma forma científica,


colocando em “xeque” possíveis lendas. E apesar de terem sido formuladas para
um problema específico, podem ser generalizadas para diversas outras situações.
A questão a ser resolvida é como responder às perguntas aqui formuladas?

Todas as questões expostas podem ser traduzidas em termos de comparações,


sejam elas quantitativas, como na pergunta: “Quanto chá e com que frequência deve
ser utilizado no tratamento?”, sejam qualitativas, como na pergunta: “Será que a
efetividade é devida exclusivamente ao chá de camomila, ou outros chás também
têm o mesmo efeito?”

8
No caso da quantidade de chá, poderíamos experimentar várias quantidades di-
ferentes (20 mL, 50 mL, 100 mL etc.) e verificar por meio de uma comparação
qual teve melhor efeito. No caso do tipo de chá, poderíamos experimentar diversos
(camomila, erva-doce, melissa etc.).

Agora que já temos uma ideia de como proceder, precisamos pensar em como
colocar em prática os testes que nos darão os dados para responder às perguntas
levantadas. Isso, em geral, é um problema um tanto quanto complexo. No caso da
pergunta: “O tratamento é efetivo para qualquer idade?”, poderíamos testar o trata-
mento com chá no mesmo bebê durante fases diferentes da vida (1, 3, 6 e 9 meses)
e avaliar os resultados, porém, dado um bebê escolhido para o experimento, existe
a possibilidade deste não ter crises de cólica coincidentemente aos 3 meses, por
exemplo, o que impossibilitaria a coleta de dados.

Ainda que o bebê tivesse cólicas em todos os meses do experimento, o resultado


coletado (efetividade do chá) só seria aplicável para aquele bebê, de forma que a
generalização do resultado para todos os bebês seria um tanto quanto imprecisa.
Tal imprecisão pode ser devido às diferentes características de cada bebê, tais como:
• O bebê pode ter nascido prematuro;
• A alimentação, em geral, é diferente para diferentes famílias;
• A mãe pode ter consumido álcool, drogas e/ou tabaco durante/após a gestação;
• A etnia do bebê pode influenciar na quantidade de enzimas diferentes para digestão.

Dadas as limitações abordadas, faz-se necessária uma metodologia que considere


tais diferenças e, ainda assim, seja capaz de fornecer resultados confiáveis e genera-
lizáveis, ao menos com algum grau aceitável de confiança.

É claro que essa situação é só um exemplo. Os projetos que envolvem experimen-


tação em humanos requerem aprovação de um comitê de ética – mas isso é assunto
para metodologia científica. Continuaremos com nossos exemplos para que você com-
preenda a importância do papel da bioestatística no desenvolvimento das Ciências.

Estatística e Bioestatística:
Objetivos e Métodos
A estatística pode ter várias definições dependendo do livro consultado, mas nos
ateremos àquela sugerida por Robert Hogg. Em seu artigo científico, Hogg sugere
que a Estatística deve ser entendida como uma maneira de observar e analisar ques-
tões da natureza de forma científica. Tais observações nos levam à formulação de
questões que podem ser respondidas a partir da coleta e análise de dados.

Em particular, a Bioestatística pode ser entendida como a aplicação de conceitos


de Estatística em problemas relacionados às áreas da saúde ou biológicas.

9
9
UNIDADE Introdução à Bioestatística e Análise Exploratória de Dados

Um dos principais objetivos do desenvolvimento da disciplina de bioestatística é


apresentar os diversos métodos de comparação estatística que respondem a ques-
tões como àquelas desenvolvidas no tópico anterior, em que abordamos o estudo da
efetividade do chá de camomila.

O método utilizado para a elaboração de um estudo científico em Bioestatística


apresenta os passos a seguir:
1. Fazer observações: a observação de fenômenos naturais como preva-
lência de doenças em determinadas regiões de um país, é pontapé inicial
para o desenvolvimento de um estudo científico. A partir da observação
crítica de uma situação será possível formular questões relevantes;
2. Definir uma questão: assim que se tem o problema a ser abordado, o pes-
quisador deve definir o que se quer entender sobre o fenômeno escolhido.
É extremamente importante que essa definição seja feita antes de começar
o estudo, pois, em geral, o experimento envolve um custo relativamente alto
(seja financeiro, seja de tempo). Se a questão não estiver bem definida antes
do planejamento, em geral, ao fim do estudo não se terá os dados neces-
sários para responder à pergunta e todos os esforços terão sido perdidos;
3. Formulação de uma hipótese: com o conhecimento do pesquisador ad-
quirido por meio de experiências anteriores ou de outros experimentos
disponíveis na literatura científica, ele pode formular uma hipótese que
explica o fenômeno observado;
4. Coleta de dados: uma vez definidas a questão e a hipótese, deve-se co-
letar os dados para testar a hipótese definida. Neste ponto, é importante
que seja dimensionado o tamanho da amostra que será coletada para
representar a população do estudo de forma significativa;
5. Análise dos dados: após o experimento, aplicam-se as técnicas estatís-
ticas apropriadas para confrontar as características dos dados coletados
com a hipótese a ser testada;
6. Conclusões: a conclusão estatística deve ser cuidadosamente acompanhada
de suas limitações. Os testes estatísticos têm um poder limitado à definição
do estudo. O pesquisador deverá responder à pergunta formulada por ele,
entendendo que essa resposta não é definitiva, mas sim uma nova evidência
que poderá acrescentar conhecimentos acerca do fenômeno estudado.

Estatística Descritiva
O primeiro passo quando se deseja trabalhar com dados brutos, isto é, sem ne-
nhum tratamento, é tentar resumi-los em forma de gráficos, tabelas e medidas esta-
tísticas (ou simplesmente estatísticas), de forma que fique mais clara a apresentação
do estudo. Posteriormente essas medidas serão a base para o estudo comparativo
por meio do teste de hipótese.

10
Quando realizamos a coleta de dados ou extraímos informação de grandes bancos de da-
dos, nem sempre eles vêm de forma organizada ou estruturada (em formato de tabelas).
Geralmente eles estão disponíveis na sequência em que foram registrados e de forma não
classificada. Como os dados ainda não foram processados, classificados e organizados, cha-
mamos de dados brutos.
É como se fosse uma “joia” que ainda precisa ser lapidada. Se você não aperfeiçoar os de-
talhes, classificar as pedras de forma correta e “lustrá-la” de forma que seu brilho apareça,
será mais difícil vendê-la ou mostrar todo o valor que ela tem. Mas então o que devo fazer?
Qual é o meu primeiro passo? Organizar! Disponível em: https://bit.ly/37Mg82K

Variáveis
Em estatística, definimos como variável uma característica de interesse do indivíduo,
ou objeto de estudo. Voltando ao estudo inicialmente exposto, sobre o chá de camo-
mila no tratamento de cólicas, temos várias características que podem ser descritas
como variáveis: a idade (em meses) do bebê, o tempo (em horas) para o tratamento
fazer efeito, a etnia do bebê, a característica do parto (tempo normal ou prematuro), a
quantidade de chá utilizada como dose (em mL), a periodicidade de acompanhamento
pediátrico da criança (mensal, somente quando doente, ou não existe).

Perceba que as características aqui descritas podem ser numéricas (idade, tempo,
quantidade de chá) ou categóricas (etnia, parto, periodicidade de acompanhamento).
Quando a variável é numérica, chamamos de variável quantitativa, uma vez que
expressa uma quantidade. Por outro lado, se a variável é categórica chamamos de
variável qualitativa, uma vez que expressa uma qualidade.

As variáveis quantitativas podem ainda ser classificadas em discretas ou contínuas,


dependendo da escala de medição:
• Variável quantitativa discreta: apesar de ser expressa por um número, não
pode assumir qualquer valor. Um exemplo é a quantidade de filhos que um casal
possui. O casal pode ter 1 ou 2 filhos, mas nunca terá 1,5 filho. Perceba que
esse exemplo se trata de uma variável discreta por estar restringida ao conjunto
de números naturais (0, 1, 2...);
• Variável quantitativa contínua: ao contrário da variável quantitativa discreta,
a variável quantitativa contínua pode assumir qualquer valor em uma escala nu-
mérica. Por exemplo, o peso de uma criança (em kg) pode ter valores não intei-
ros (como 3,7 kg). As variáveis qualitativas, por sua vez, possuem também uma
subclassificação que depende da possibilidade de ordenação de seus valores;
• Variável qualitativa ordinal: é possível ordenar os valores da variável segun-
do algum critério. Como exemplo, poderíamos analisar a variável escolaridade
(sem escolaridade, Ensino Fundamental, Ensino Médio, Ensino Superior). Perce-
ba que é possível ordenar os valores da variável do maior nível (Ensino Superior)
até o menor (sem escolaridade);

11
11
UNIDADE Introdução à Bioestatística e Análise Exploratória de Dados

• Variável qualitativa nominal: ao contrário da variável qualitativa ordinal, a or-


denação não faz sentido quando tratamos de variáveis nominais. Por exemplo,
se considerarmos a cidade de moradia como uma variável em um estudo sobre
incidência de dengue, não faz sentido classificar as cidades.

A Estatística nos dias de hoje é uma ferramenta indispensável para qualquer profissional
que necessita analisar informações em suas tomadas de decisões diárias, seja no seu tra-
balho ou na sua vida pessoal. Pode-se até pensar que suas técnicas nasceram neste mundo
contemporâneo em que se valoriza cada vez mais a rapidez e a agilidade das informações,
de um mundo onde o avanço tecnológico (através da criação de computadores que pro-
cessam uma imensa quantidade de dados em um “piscar de olhos”) é constante. Porém,
a utilização da estatística como suporte para a tomada de decisões é verificada também
no mundo antigo, e indícios de sua utilização são encontrados até na Era antes de Cristo.
O artigo tem por objetivo destacar os principais eventos relacionados com a história da Es-
tatística, bem como procura discutir os aspectos importantes para o futuro dessa ciência.
Disponível em: https://bit.ly/34BZocj

Exemplos: Peso, altura,


pressão, volume, tamanho.

Quantitativa
Contínua
Sim

Variável A escala é
Quantitativa Contínua?
Exemplos: Idade,
Exemplos: Peso, altura, idade quantidade de filhos.
pressão, volume, tamanho, Não
Sim quantidade de filhos. Quantitativa
Discreta
A variável
é numérica?
Qualitativa
Não Ordinal
Sim Exemplos: Escolaridade.

Variável A ordenação
Qualitativa faz sentido?
Exemplos: Cidade, etnia,
sexo, espécie, cor, escolaridade, Não
uso de tabaco. Qualitativa
Nominal
Exemplos: Cidade.etnia,
sexo, espécie, cor, uso de tabaco.

Figura 1 – Esquema de identificação do tipo de variável


Fonte: Acervo do conteudista

A identificação do tipo de variável em que se está trabalhando será importante


quando estivermos desenvolvendo os testes de hipótese. Você verá adiante que a
escolha do teste estatístico para comprovar a hipótese do estudo depende essencial-
mente do tipo de variável.

Frequência Absoluta e Frequência Relativa


A frequência absoluta é a contagem de casos de uma determinada variável de
interesse. É muito comum usarmos uma tabela de frequência para resumir os dados

12
de variáveis qualitativas. Veja o exemplo a seguir, retirado do boletim epidemiológico
feito pelo Ministério da Saúde do Brasil em fevereiro de 2020. O boletim traz dados
gerais sobre o sarampo e a seguinte tabela, extraída do texto e que mostra a quan-
tidade de casos para cada faixa etária. Veja que além da contagem absoluta de ca-
sos, é também apresentada a porcentagem de casos por faixa etária, conhecida em
Estatística como frequência relativa. A frequência relativa pode ser calculada por
meio da divisão da quantidade absoluta da faixa pelo total de casos. Por exemplo, a
frequência relativa na faixa de 1 a 4 anos de idade é 2529/18023 = 0,140 ou 14,0%.

Tabela 1 – Distribuição dos novos casos confirmados de sarampo no Brasil em 2019 por faixa etária
Faixa Etária (em anos) Números de Casos %
<1 3.194 17,7%
1a4 2.529 14,0%
5a9 447 2,5%
10 a 14 337 1,9%
15 a 19 2.310 12,8%
20 a 29 5.651 31,4%
30 a 39 2.351 13,0%
40 a 49 1.115 6,2%
> 50 89 0,5%
Total 18.023 100,0%
Fonte: Secretaria da Saúde das Unidades Federadas, 2020

Quando se apresentam dados em uma tabela deve-se ter a preocupação de não dei-
xar dúvidas ao leitor. Isso pode ser feito considerando os seguintes elementos essenciais:
• Descrição da tabela: informa ao leitor de forma resumida o que é apresentado
na tabela. Além disso, (se fizer sentido) a descrição deve trazer a localidade e
quando foram coletados os dados em questão. Nesse exemplo, os dados foram
coletados no território brasileiro (localidade) no ano de 2019 (quando);
• Fonte: qual a instituição ou pesquisador responsável pela coleta dos dados. No exem-
plo, os dados foram coletados pela Secretaria de Saúde das Unidades Federadas.

Agora que já sabemos como apresentar os dados em uma tabela de frequências,


analisaremos a Tabela 1. Se você fosse o responsável pela Saúde no Brasil, que tipo
de elucidação os dados apresentados lhe trariam?

Repare que as quantidades absolutas isoladamente são difíceis de analisar. Por


exemplo, olhando somente a quantidade de casos na faixa etária de 40 a 49 anos de
idade (1.115 casos) você diria que são muitos casos? Essa faixa etária é uma das mais
críticas? Se você não comparar com todas as demais frequências da tabela sua con-
clusão pode ser precipitada. Uma forma alternativa de dar ao leitor essa noção sem
que este precise fazer múltiplas comparações ou cálculos é apresentar a frequência
relativa. Neste caso, vemos que os 1.115 casos representam apenas 6,2% das inci-
dências por faixa etária. Seguindo a mesma linha, você poderia verificar que 31,4%
dos casos aconteceram na população de faixa etária entre 20 e 29 anos. Essa seria
uma conclusão interessante, mas antes de dizer “Eureka! Descobri a faixa etária mais

13
13
UNIDADE Introdução à Bioestatística e Análise Exploratória de Dados

atingida”, veja a seguinte Tabela, que apresenta a população total (doentes e não
doentes) por faixa etária e o coeficiente de incidência para cada 100.000 habitantes,
além dos dados trazidos na Tabela 1:

Tabela 2 – Distribuição dos novos casos confirmados de sarampo


no Brasil e coeficiente de incidência em 2019 por faixa etária
Faixa Etária Números População Coeficiente de incidência (casos/
%
(em anos) de Casos (milhões) população 100.000 hab.)
<1 3.194 17,7% 1,4 228,14
1a4 2.529 14,0% 5,2 48,31
5a9 447 2,5% 6,8 6,57
10 a 14 337 1,9% 7,9 4,27
15 a 19 2.310 12,8% 7,9 29,24
20 a 29 5.651 31,4% 17,6 32,04
30 a 39 2.351 13,0% 15,6 15,07
40 a 49 1.115 6,2% 13,0 8,58
> 50 89 0,5% 20,0 0,45
Total 18.023 100,0% 95,5 18,88
Fonte: Secretaria da Saúde das Unidades Federadas, 2020

O coeficiente de incidência é definido como a divisão da quantidade nova de casos


em uma determinada população pela quantidade total de indivíduos nessa população.

Número de casos
Coeficiente de incidência =
População total

Calcularemos detalhadamente o coeficiente de incidência para a faixa etária “< 1 ano”:

3.194 3.194
Coeficiente de incidência (< 1 ano
=) = = 0, 0022814
1, 4 milhões 1.400.000

O coeficiente de incidência costuma ser um número bem pequeno, como pode ser
visto no exemplo anterior. Para facilitar a leitura, é comum usar essa medida para cada
100.000 habitantes, o que pode ser obtido multiplicando o resultado por 100.000:

Coeficiente de incidência por 100.000 hab=. 0, 0022814 ×100.000= 228,14

Agora que você já sabe como calcular o coeficiente de incidência, pensaremos


um pouco melhor sobre seu significado. Antes de começar o cálculo do coeficiente
de incidência, verificamos que a maior frequência relativa estava na faixa etária de
20 a 29 anos (31,4%). Porém, você pode pensar que se existem mais pessoas com
essa faixa etária no Brasil, naturalmente deveria se esperar mais casos de sarampo
exatamente nessa faixa etária. Ao dividir a quantidade de casos pela população em
questão (obtendo, assim, o coeficiente de incidência) eliminamos o fator “tamanho
da população”, deixando todas as faixas etárias numa mesma base de comparação.

14
Assim, você poderá verificar que a principal preocupação deve recair sobre a faixa
etária “< 1 ano”, uma vez que acumula o maior número de casos por habitante.

Estudos de casos – aplicação estatística segundo o Instituto


Brasileiro de Geografia e Estatística (IBGE)
Estatísticas > sociais.
Compreende as informações sobre educação, abrangendo condição de alfabetização, fre-
quência a creche ou escola, rede e área de ensino, grau de instrução e gestão da educação,
entre outros aspectos.
O que é contagem da população? Realizada no meio da década, tem como principal objetivo
atualizar os contingentes populacionais municipais e subsidiar no cálculo das estimativas
populacionais dos municípios nos anos subsequentes. Tem como unidade de coleta a pes-
soa residente, na data de referência, em domicílio do Território Nacional. A contagem da
população teve início em 1996, em todo o Brasil, uma vez que, a partir de 1989, o IBGE pas-
sou a ter a obrigação legal de fornecer, anualmente, estimativas municipais de população
residente, em cumprimento a dispositivo constitucional, regulamentado pela Lei Comple-
mentar n.º 59, de 22 de dezembro de 1988. Além disso, de acordo com o que estabelece o
Artigo 102 da Lei n.º 8.443, de 16 de julho de 1992, o IBGE passou a publicar no Diário Oficial
da União, até 31 de agosto de cada ano, a relação das estimativas populacionais anuais para
estados e municípios, e, até 31 de outubro, a encaminhar ao Tribunal de Contas da União
(TCU) tal relação, utilizada como um dos critérios para a repartição do Fundo de Participação
dos Municípios (FPM). Por razões de natureza orçamentária, a realização da contagem da
população, prevista para 2005, só ocorreu em 2007, em uma operação censitária conjunta
que abrangeu, também, o Censo Agropecuário 2006 e o Cadastro Nacional de Endereços
para Fins Estatísticos (CNEFE), com o objetivo duplo de atualizar as estimativas populacio-
nais e as informações sobre as atividades econômicas realizadas, no País, pelos indivíduos
e empresas agropecuárias. Por razões também orçamentárias, não foi possível efetuar o
levantamento da contagem da população em 2007 em todos os 5.564 municípios então
existentes. Após estudos, o IBGE concluiu que os recursos disponíveis permitiriam sua re-
alização nos municípios com até 170 mil habitantes, faixa em que o efetivo populacional
causa impacto direto nos valores repassados pelo FPM. Como, em algumas unidades da
Federação, apenas um ou dois municípios ficariam fora dessa faixa por terem mais de 170
mil habitantes, optou-se por incluí-los na pesquisa. Sendo assim, a contagem da população
em 2007 abrangeu 5.435 municípios – os 5.414 com até 170 mil habitantes e mais 21 con-
templados pelo critério anteriormente mencionado, perfazendo, dessa forma, 97% do total
de municípios do País. Para os 129 municípios restantes, a população de 2007 foi estimada.
A contagem da população fornece informações sobre os totais populacionais, por sexo, ida-
de e relação de parentesco com a pessoa responsável pelo domicílio, bem como sobre a
espécie dos domicílios visitados.
A periodicidade da pesquisa é decenal, excetuando-se os anos em que o levantamento foi
suspenso. Sua abrangência geográfica é nacional, com resultados divulgados para Brasil,
grandes regiões, unidades da Federação e municípios.
Leia mais, disponível em: https://bit.ly/2HCiAhL

15
15
UNIDADE Introdução à Bioestatística e Análise Exploratória de Dados

Representações Gráficas
Apesar de todo o conteúdo de um estudo estatístico poder ser descrito por meio
de tabelas de dados, muitas vezes as conclusões podem ser mais facilmente visualiza-
das por meio de gráficos. Existem diversos tipos de gráficos e veremos alguns deles
e suas aplicações mais comuns. É importante lembrar que, em geral, não existe certo
ou errado quando se trata de gráficos, mas a escolha do gráfico mais apropriado fará
com que o leitor entenda de forma mais clara a mensagem que se deseja passar.

Gráfico de Barras
O gráfico de barras é construído de forma que cada barra represente uma catego-
ria da variável a ser expressa e o tamanho da barra evidencie sua representatividade.
Este gráfico pode ser apresentado no formato vertical, normalmente empregado
quando as categorias são faixas de valores numéricos, ou no formato horizontal,
para facilitar a leitura quando as variáveis possuem nomes extensos.

Figura 2 – Distribuição dos casos confirmados de sarampo, por faixa etária (Brasil, 2019)
Fonte: Adaptado de Secretaria da Saúde das Unidades Federadas, 2020

Na Figura 2, podemos ver os dados já demonstrados sobre casos de sarampo no


Brasil no formato de tabela de frequências. Note que os elementos já utilizados na
descrição da tabela de frequências também devem ser considerados para o gráfico
(descrição, localização do estudo, referência temporal e fonte). Além disso, é muito
importante que os eixos sejam nomeados corretamente para que o leitor consiga
saber do que se trata claramente.

Veja que ao contrário da Tabela que exigia certo esforço para identificar a faixa
de maior representatividade, por meio do gráfico de barras verticais facilmente se
identificam os picos de casos. É válido observar que se ao invés de representar a
quantidade de casos (frequência absoluta) no eixo Y, representássemos a frequência
relativa, teríamos exatamente o mesmo formato de gráfico (faça o teste usando um
software como o Microsoft Office Excel).

Entretanto, conforme discutimos, se no eixo Y fosse apresentado o coeficiente


de incidência, o formato seria totalmente diferente, dada a característica do estudo:

16
Figura 3 – Comparação entre o formato do gráfico de frequência absoluta e coeficiente
de incidência por 100.000 habitantes dos casos de sarampo no Brasil, em 2019
Fonte: Adaptado de Secretaria da Saúde das Unidades Federadas, 2020

Agora, fica evidente que a preocupação deve realmente estar voltada para a faixa
etária de menos de 1 ano de idade, uma vez que no gráfico do coeficiente de incidên-
cia essa faixa se apresenta com uma coluna muito maior que as demais.

No mesmo boletim epidemiológico, podemos verificar o percentual de não vaci-


nados contra a febre amarela em cada unidade da Federação. Veja que a exibição no
formato horizontal facilita a leitura dos Estados:

Figura 4 – Proporção de não vacinados contra febre amarela por unidade Federativa (Brasil, 2019)
Fonte: Adaptada do Sistema de Informação do Programa Nacional de Imunizações, 2020

No caso de variáveis qualitativas nominais (em que não existe uma ordem entre
as categorias), como é o caso anterior, é interessante que se ordene a aparição das
barras da variável de menor frequência (no topo) para a de maior frequência (na base)
para facilitar a visualização do leitor.

Gráfico de Dispersão
Este tipo de gráfico é bastante útil quando se deseja demonstrar a relação entre
duas variáveis. Para a sua construção, os valores dos pares de variáveis são conside-
rados como pontos (x, y) em um plano cartesiano.

Considere os dados fictícios a seguir como uma amostra de peso e altura de 9 alunos:

17
17
UNIDADE Introdução à Bioestatística e Análise Exploratória de Dados

Tabela 3 – Peso e altura de uma amostra de 9 alunos


Aluno Altura (m) Peso (kg)
1 1,50 51,0
2 1,54 50,8
3 1,70 55,0
4 1,65 53,9
5 1,90 63,3
6 1,83 58,6
7 1,68 55,4
8 1,85 59,8
9 1,95 63,1

Primeiramente, deve-se definir em que eixo se deseja colocar cada uma das vari-
áveis. No nosso exemplo, consideraremos o peso (kg) no eixo Y (vertical) e a altura
no eixo X (horizontal). Cada linha da tabela de dados se tornará um ponto no gráfico
de dispersão. Neste caso, você deverá ler o par de valores de cada ponto por meio
da projeção deste nos eixos X e Y.
O importante neste tipo de gráfico, é tentar visualizar se os pontos formam uma
tendência (linear, exponencial, logarítmica etc.). Caso isso aconteça, o pesquisador
poderá inferir que existe alguma relação entre as duas variáveis estudadas.
No exemplo a seguir podemos verificar que existe uma tendência linear positi-
va, ou seja, à medida que a altura da criança cresce, seu peso também cresce de
forma proporcional.

Figura 5 – Gráfico de dispersão peso (kg) versus altura (m)


Fonte: Acervo do conteudista

Em geral, os eixos do gráfico partem do ponto zero tanto no Y como no X. Entre-


tanto, para facilitar a visualização da tendência, decidiu-se “espremer” o começo da
escala, de forma a deixar os valores 1,50 (eixo X) e 45,0 (eixo Y) como referências
iniciais. Para deixar clara a adaptação, é necessário utilizar duas barras // simboli-
zando a quebra de escala.

Gráfico de Linhas
A lógica de construção do gráfico de linhas é parecida com o gráfico de barras
verticais, porém, ao invés das barras, marca-se apenas um ponto com altura relativa

18
à representatividade da variável. Em seguida, unem-se os pontos com uma linha.
Em geral, usa-se este tipo de gráfico quando se deseja mostrar a evolução de uma
variável ao longo do tempo.
Considere o seguinte exemplo, em que se possui a quantidade total de casos de
dengue no Brasil por ano:

Tabela 4 – Casos de dengue no Brasil de 1998 a 2004


Ano Número de Casos
1998 516.456
1999 75.949
2000 136.709
2001 379.747
2002 698.734
2003 273.418
2004 75.749
Fonte: Ministério da Saúde, 2019

Veja que, apesar de a Tabela conter todos os dados necessários para a análise da
evolução de casos, é difícil visualizar o que acontece mês a mês. O gráfico de linhas
pode ajudar a verificar a tendência da incidência ao longo dos anos (se crescente ou
decrescente) e a velocidade em que a mudança ocorre.
Você poderá verificar, na Figura 6, que de 1998 para 1999 a quantidade de casos
registrados caiu abruptamente, porém, começou a subir novamente em 2000 e a
partir de 2001 cresce a cada ano de maneira mais intensa:

Figura 6 – Gráfico de linha dos casos de dengue no Brasil de 1998 a 2004


Fonte: Adaptado de Ministério da Saúde, 2019

Gráfico de Setores
O gráfico de setores é interessante quando se deseja comparar a proporção de ca-
sos de uma variável qualitativa nominal em relação ao todo. Considera-se um círculo
dividido em várias partes, sendo que cada parte deverá ter o tamanho representativo
da categoria em questão.

19
19
UNIDADE Introdução à Bioestatística e Análise Exploratória de Dados

O boletim epidemiológico de 2019 do Ministério da Saúde traz dados sobre a propor-


ção de síndrome congênita associada à infecção pelo vírus Zika por tipo de notificação:

Tabela 5 – Distribuição dos casos notificados de síndrome congênita


associada à infecção pelo vírus Zika por tipo de notificação (Brasil, 2019)
Tipo de Notificação Frequência Absoluta Frequência Relativa
Recém-nascido 1.127 77%
Criança 239 16%
Aborto 0 0%
Feto 77 5%
Natimorto 19 1%
Total 1.462
Fonte: Registro de Eventos em Saúde Pública, 2020

É possível se expressar os dados no formato de um gráfico de setores, tal como


mostrado na Figura 7. Note que a variável que representa 77% dos casos tem os
iguais 77% da área do círculo preenchida.

Figura 7 – Gráfico de setores dos casos notificados de síndrome congênita


associada à infecção pelo vírus Zika por tipo de notificação (Brasil, 2019)
Fonte: Adaptado de Registro de Eventos em Saúde Pública (2020)

Em geral, a comparação de diferentes áreas de um círculo não é algo tão intuitivo


quando se tem categorias com valores próximos. Dessa forma, deve-se ter cuidado
ao utilizar o gráfico de setores para representar proporções.

Histograma e Polígono de Frequências


O histograma é um tipo específico de gráfico de barras verticais usado essen-
cialmente para descrever uma distribuição de dados de uma variável contínua.
A principal diferença para um gráfico de barras comum é o cuidado que se deve ter
com alguns detalhes que são essenciais para que a interpretação da distribuição seja
bem feita.

20
Exemplifiquemos a construção de um histograma por meio da análise do peso de
camundongos. Antes do preparo de um experimento com 50 camundongos mediu-
-se o peso de cada um deles em gramas para verificar se havia anormalidades no
grupo selecionado (camundongos doentes com sobrepeso/baixo peso). Os dados
coletados são mostrados na seguinte Tabela:

Tabela 6 – Dados brutos de peso de 50 camundongos


26,8 32,6 24,9 29,6 24,7 30,0 29,5 33,4 30,4 29,3
28,4 30,3 27,9 25,1 24,1 33,1 32,5 29,2 28,8 26,6
29,8 31,3 25,9 29,5 30,0 35,2 28,8 31,1 30,5 30,2
27,3 27,9 31,7 29,6 34,1 28,9 27,7 31,9 31,1 31,8
29,0 27,0 31,4 27,6 30,3 35,1 32,1 31,3 28,0 27,8

Se houver anormalidades quanto ao peso será fácil identificá-las por meio de um


histograma. Detalharemos o processo de construção a partir dos dados brutos:
1. Verifica-se os valores máximo e mínimo da amostra de dados:
• Máximo: 35,2.
• Mínimo: 24,1.
2. Calcula-se a amplitude total dos dados, subtraindo-se o valor mínimo do
valor máximo:

Amplitude total = Máximo − Mínimo = 35, 2 − 24,1 = 11,1

Calcula-se o número de classes por meio da regra da raiz quadrada do tama-


nho da amostra (neste caso, a amostra possui 50 camundongos):

Classes
= n
= 50
= 7, 07 ~ 7

O número de classes deve ser arredondado para o inteiro mais próximo.


3. Divide-se a amplitude pela quantidade de classes para determinar a am-
plitude de classe:

Amplitude total 11,1


Amplitude de classe
= = = 1, 6
Classes 7

Constrói-se uma tabela de frequências usando os dados calculados para


montar as classes:
• Classe #1:
» Limite inferior: igual ao mínimo dos dados (24,1 no exemplo anterior).
» Limite superior: mínimo da classe #1 + amplitude de classe:

24,1 + 1,6 = 25,7


» Classe #1 → 24,1 |-- 25,7

21
21
UNIDADE Introdução à Bioestatística e Análise Exploratória de Dados

• Classe #2:
» Limite inferior: igual ao máximo da classe #1 (25,7 no exemplo anterior).
» Limite superior: mínimo da classe #2 + amplitude da classe:

25,7 + 1,6 = 27,3


» Classe #2 → 25,7 |-- 27,3

Devemos proceder aos cálculos dos limites inferior e superior até que se cubram
todas as classes (em nosso exemplo, 7 classes). Após isso, colocam-se as classes
numa Tabela conforme a seguinte:

Tabela 7 – Distribuição de pesos de uma amostra de 50 camundongos


Classe Frequência
24,1 | -- 25,7 4
25,7 | -- 27,3 5
27,3 | -- 28,9 10
28,9 | -- 32,5 15
30,5 | -- 32,1 9
32,1 | -- 33,7 4
33,7 | -- 35,3 3

A coluna Frequência da Tabela 7 foi preenchida com a quantidade de camun-


dongos com peso observado no intervalo de classe da linha respectiva. Dessa forma,
temos 4 camundongos com peso entre 24,1 e 25,7 gramas, 6 camundongos com
peso entre 25,7 e 27,3 gramas, e assim por diante. O símbolo |-- significa que o
intervalo é fechado à esquerda e aberto à direita, ou seja, no intervalo 24,1 |-- 25,7
são considerados os valores maiores ou iguais a 24,1 e menores que 25,7. Assim,
um camundongo com peso de 25,7 g deve ser contabilizado na classe 25,7 |-- 27,3.

A Tabela de frequências deve ter linhas mutuamente exclusivas, de forma que uma
observação não possa ser classificada em mais de um intervalo diferente.

A partir dos dados pode-se construir um histograma como o seguinte:

Figura 8 – Histograma para o peso (g) de uma amostra de 50 camundongos


Fonte: Acervo do conteudista

22
Vamos aos detalhes do histograma mencionados no começo do tópico:
• Não deve haver espaços entre as barras no histograma;
• Assim como a altura das barras deve ser proporcional à frequência absoluta da
classe, a largura da barra deve ser proporcional ao tamanho da classe. Normal-
mente, constrói-se o histograma com classes de igual tamanho, de forma que
as larguras também fiquem com igual tamanho. Se este não for o caso, deve-se
considerar a adaptação para classes menores ou maiores.

Os detalhes mencionados são importantes para que o histograma possa ser usado
a fim de estudar a forma da distribuição dos dados.

O gráfico da Figura 8 mostra-se simétrico em torno do intervalo 28,9|--30,5 (as


barras à esquerda têm tamanhos semelhantes às barras à direita). Este formato simé-
trico de sino mostra que os dados se concentram em torno desse intervalo, de forma
que camundongos com pesos significativamente maiores, ou significativamente me-
nores, tornam-se raros de encontrar. Mais adiante abordaremos especificamente o
significado do formato da distribuição de dados.

Outra forma de apresentar o formato de uma distribuição de dados é unir os


pontos médios das barras do histograma e traçar uma linha entre eles. Tal gráfico é
conhecido como polígono de frequência e está representado na Figura 9:

Figura 9 – Histograma e polígono de frequência para o peso (g) de uma amostra de 50 camundongos
Fonte: Acervo do conteudista

Todos os gráficos mencionados podem ser obtidos de forma fácil utilizando-se sof-
twares como o Office Excel, ou outros softwares estatísticos, de forma que o princi-
pal foco não deve ser em como construir um gráfico. Você deve se atentar em como
interpretar cada um deles, de modo a conseguir entender o que os dados mostram.

Outros exemplos:
Representação gráfica: como preparar uma pesquisa estatística para a representa-
ção gráfica?
Exemplo:
Pesquisa da idade de uma população de uma aldeia indígena com 2.000 habitantes.
1. Escolha uma amostra aleatória de 200 habitantes (10% da população da aldeia);

23
23
UNIDADE Introdução à Bioestatística e Análise Exploratória de Dados

2. Escolha de 9 classes com amplitude de 10 anos;


3. Produção de uma tabela como a mostrada a seguir:

Tabela 8
Frequência
Ordem da Limites Ponto Frequência Frequência
relativa
classe (anos) médio absoluta relativa (%)
acumulada (%)
1 0–9 4,5 25 12,5 12,5
2 10 – 19 14,5 15 7,5 20,0
3 20 – 29 24,5 20 10,0 30,0
4 30 – 39 34,5 35 17,5 47,5
5 40 – 49 44,5 40 20,0 67,5
6 50 – 59 54,5 30 15,0 82,5
7 60 – 69 64,5 20 10,0 92,5
8 70 – 79 74,5 10 5,0 97,5
9 80 – 89 84,5 5 2,5 100,0

Construção de um gráfico de barras:


• O eixo horizontal será o eixo das classes sendo dividido em 9 partes iguais (exis-
tem 9 classes);
• O eixo vertical será o eixo das frequências, sendo dividido em 4 partes iguais (a
frequência máxima é 40).
Cada parte será equivalente a 10 habitantes (40 / 4), ou 5% (20 / 4).

Figura 10
Fonte: Acervo do conteudista
Construção de um gráfico de barras com frequências acumuladas:
Repetimos o gráfico anterior marcando, no eixo vertical, as frequências acumuladas.

24
Figura 11
Fonte: Acervo do conteudista
Construção de um gráfico de linha:
• O eixo horizontal será o eixo das classes sendo dividido em 9 partes iguais (exis-
tem 9 classes);
• O eixo vertical será o eixo das frequências sendo dividido em 4 partes iguais (a
frequência máxima é 40).
Cada parte será equivalente a 10 habitantes (40 / 4) ou 5% (20 / 4).

Figura 12
Fonte: Acervo do conteudista
Construção de um gráfico de linha com frequências acumuladas:
Repetimos o gráfico anterior marcando, no eixo vertical, as frequências acumuladas.

25
25
UNIDADE Introdução à Bioestatística e Análise Exploratória de Dados

Figura 13
Fonte: Acervo do conteudista
Construção de um gráfico de setores.
O menor valor da frequência relativa é 2,5%, que corresponderá a um setor de x
graus, calculado como: x/2,5% = 360oº/100% >>> x = 9º
Os valores da abertura dos setores em graus serão dados pela seguinte Tabela:

Tabela 9
Limites (anos) Frequência relativa (%) Graus do setor
0–9 12,5 45
10 – 19 7,5 27
20 – 29 10,0 36
30 – 39 17,5 63
40 – 49 20,0 72
50 – 59 15,0 54
60 – 69 10,0 36
70 – 79 5,0 18
80 – 89 2,5 9

Vejamos o gráfico em setores:


20 – 29 anos

nos

30
19 a

–3
9a
10 –

no
s os
9 an
0–

80 – 89 anos
70 – 7
9 ano
nos s
49 a
40 –
60
–6
50 – 59 anos

9a
no
s

Figura 14
Fonte: Acervo do conteudista

26
Medidas de Tendência Central
Para caracterizar um conjunto de dados em estatística, é comum usarmos uma
medida de resumo, que é capaz de fornecer, com apenas um valor numérico, uma
boa noção de todos os dados observados.

As medidas de resumo estatísticas são conhecidas como medidas de tendência


central, pois o seu valor está associado ao centro da distribuição de dados. Podemos
citar como medidas mais usuais a média aritmética, a mediana e a moda.

Média Aritmética
Dado um conjunto de N dados, a média aritmética pode ser obtida somando-se
todos os dados e após, dividindo-se o resultado pela quantidade N.

Exemplo 1: para testar a eficiência de um termômetro foram realizadas 5


medidas sucessivas de um ambiente controlado. Foram obtidos os valores (em °C):

Tabela 10 – Medidas de temperatura


Medida Temperatura
1 20,0
2 21,0
3 20,5
4 20,8
5 20,3

Neste exemplo, temos N = 5 dados, relativos às medições realizadas. Desta for-


ma, a média aritmética será dada por:

20, 0 + 21, 0 + 20,5 + 20,8 + 20,3 102, 6


=x = = 20,5
5 5

A média aritmética é a medida de tendência central mais utilizada em estatística, e você


verá que muitas vezes utilizaremos este conceito como base para outros desenvolvimentos.

Apesar de ser um bom indicador para resumo de dados, a média aritmética nem
sempre é a melhor escolha. Existem situações em que alguns dados possuem valores
muito grandes ou muito pequenos em relação aos outros dados da amostra. Como
a média aritmética considera todos os valores da série de dados em seu cálculo, os
valores extremos acabam “puxando” a média para cima ou para baixo, deixando a
medida de resumo distorcida. Veja o Exemplo 2:

Exemplo 2: foram coletadas 10 tomadas de tempo de um atleta realizando uma


corrida de 100 metros rasos, que foram contabilizadas conforme a seguinte Tabela:

27
27
UNIDADE Introdução à Bioestatística e Análise Exploratória de Dados

Tabela 11 – Tomadas de tempo (segundos) de 100 metros rasos


Tomada Tempo (s)
1 15,0
2 15,3
3 15,1
4 14,9
5 15,5
6 17,0
7 15,1
8 15,0
9 15,0
10 15,2

Chamaremos a média das 10 tomadas desse atleta de x A sendo:

15, 0 + 15,3 + 15,1 + 14,9 + 15, 2 + 17, 0 + 15,1 + 15, 0 + 15,3 + 15, 2 152,9
xA =
10 10
x A =15,3segundos

Perceba que, exceto pela tomada 6, todas as outras tomadas ficaram entre 14,9 e
15,3. Porém, a média aritmética é de 15,3 quando consideramos o valor da tomada
6 de 17,0 segundos. Calcularemos a média aritmética novamente desconsiderando
a tomada 6( xB ) :

15, 0 + 15,3 + 15,1 + 14,9 + 15, 2 + 15,1 + 15, 0 + 15,3 + 15, 2 135,9
xB =
9 9
xB =15,1

A Figura 15 ilustra a situação exposta, colocando em escala os tempos de 14,9 a


17,0 segundos. Cada bolinha representa uma tomada de tempo realizada. Em escala,
é possível ver claramente que o valor 17,0 está muito longe dos demais valores, o que
acaba “puxando” a média aritmética para um valor distorcido:

Figura 15 – Distribuição das tomadas de tempo em 100 metros rasos


Fonte: Acervo do conteudista

Mediana
A mediana também é uma medida de tendência central, porém, ao invés de
considerar a soma dos dados, considera-se a sua ordenação. Após ordenar as obser-
vações, tomamos como mediana a observação que divide a série de dados ao meio.

28
Se a amostra de dados for par não haverá 1 observação central, mas sim 2. Neste
caso, a mediana será dada pela média das duas observações centrais.

Usando o exemplo das 10 tomadas de 100 metros rasos, temos:

Tabela 12 – Tomadas de tempo (s) de 100 metros rasos


Tomada Tempo (s)
1 15,0
2 15,3
3 15,1
4 14,9
5 15,2
6 17,0
7 15,1
8 15,0
9 15,1
10 15,2

Ordenando a tabela em ordem crescente dos valores de tempo:

Tabela 13
Tomada Tempo (s)
4 14,9
1 15,0
8 15,0
3 15,1
7 15,1
9 15,1
5 15,2
10 15,2
2 15,3
6 17,0

Como temos amostra par (N = 10 dados), verificamos dois dados centrais (toma-
das 7 e 9). Como explicado, a mediana será dada pela média desses valores:

15,1 + 15,1 30, 2


Mediana
= = = 15,1
2 2

Perceba que apesar de ter uma observação muito maior que as demais, a mediana
ainda retrata bem a posição central dos dados. Dessa forma, quando se tem dados
extremos que distorcem a distribuição dos dados em apenas um dos lados, é preferí-
vel o uso da mediana ao invés da média aritmética.

29
29
UNIDADE Introdução à Bioestatística e Análise Exploratória de Dados

Moda
Quando tratamos com variáveis qualitativas, os dados não são numéricos, de
forma que não é possível calcular a média aritmética ou a mediana. Neste caso, po-
demos usar a moda, que é dada pela observação de maior frequência.

Exemplo:

Foi feita uma pesquisa em um hospital para determinar qual era o principal sin-
toma descrito pelo paciente na triagem em casos de dengue confirmados posterior-
mente. Os dados são descritos na seguinte Tabela:

Tabela 14 – Principais sintomas relatados por pacientes com dengue na triagem


Sintomas Quantidade Pacientes
Dor Abdominal 20
Vômito 22
Tonturas/Desmaios 30
Sangramento na gengiva e nariz 37

Veja que, neste caso, a moda é o sintoma sangramento na gengiva e nariz, que
apareceu 37 vezes na pesquisa.

Medidas de Dispersão ou Variabilidade


Além das medidas de tendência central, é importante que seja determinado o
quão dispersos estão os dados de interesse. Existem situações em que duas amostras
possuem médias aritméticas muito próximas, porém, a variação entre os dados é
muito diferente.

Considere o caso de controle de qualidade de cápsulas dipirona sódica que, por


padrão, devem ter 500 mg com erro aceitável de +/- 5%, ou seja, são aceitos com-
primidos de 475 a 525 mg. Comprimidos fora deste padrão podem causar sérios
danos à saúde do paciente. Considere as amostras de dois lotes de dipirona sódica,
retiradas para verificação de conformidade:

Tabela 15 – Duas amostras de lotes de dipirona sódica de 10 comprimidos


Comprimido Lote 1 Lote 2
1 408 442
2 503 559
3 492 512
4 500 498
5 492 498
6 502 535
7 486 488
8 497 468

30
Comprimido Lote 1 Lote 2
9 502 516
10 483 507
Média 493,7 502,3

Considerando a especificação do comprimido, você liberaria os dois lotes? Colo-


caremos os dados histogramas para ver se você muda sua conclusão:

Figura 16 – Histogramas de pesos de amostras de 10


comprimidos de dipirona sódica (a) lote 1 e (b) lote 2
Fonte: Acervo do conteudista

Veja que, apesar de terem médias dentro do esperado da especificação do produ-


to, o lote 1 apresenta uma concentração de seus comprimidos entre 480 e 520 mg
(todos os comprimidos dentro da faixa aceitável de 475 a 525 mg), enquanto o lote
2 tem distribuição mais dispersa, indo de 440 a 560 mg (com alguns comprimidos
fora da especificação). Apesar de os dados serem fictícios para exemplificação do
conceito, máquinas compressoras de medicamentos mal calibradas apresentam exa-
tamente o padrão de dados do lote 2, com alta dispersão, causando risco ao cliente.

Para identificar o padrão de dispersão de dados, lança-se mão de medidas de va-


riação, como a amplitude, a variância, o desvio padrão e o coeficiente de variação.
Além de darem uma noção de dispersão dos dados, tais medidas também serão
utilizadas mais à frente, em outras aplicações.

Amplitude
Medida mais simples de variação de uma série de dados é dada pela subtração do
maior valor da série pelo menor valor:

Amplitude
= Máximo − Mínimo

No exemplo das cápsulas de dipirona sódica teríamos:

Amplitude ( Lote1) = 503 − 480 = 23


Amplitude ( Lote 2 ) = 559 − 442 =117

Ainda que seja um indicador simples, espera-se que a amostra do lote 2 tenha varia-
bilidade muito maior que a do lote 1, uma vez que apresenta amplitude 4 vezes maior.

31
31
UNIDADE Introdução à Bioestatística e Análise Exploratória de Dados

Variância
A variância de uma série de dados é uma medida de variabilidade mais acurada,
uma vez que leva em consideração todos os dados da série. Basicamente, é feita a
subtração de cada um dos dados da série em relação à média aritmética; elevam-se
os valores ao quadrado e divide-se pela quantidade de dados menos 1.

Exporemos a fórmula matemática a seguir a fim de demonstrar o cálculo por


meio de um exemplo. Lembre-se de que o intuito é demonstrar o conceito. Os cálcu-
los podem ser feitos usando o Microsoft Office Excel (ou outro software estatístico)
de forma bastante simples.

Usando os dados novamente de comprimidos de dipirona sódica, podemos calcu-


lar a variância (expressa por s2) por meio da construção de uma tabela auxiliar com
o quadrado das diferenças de cada medida em relação à média aritmética:

Tabela 16 – Duas amostras de lotes de dipirona sódica de 10


comprimidos e suas diferenças quadráticas em relação à média
Pesos (g)
Comprimido Lote 1 Lote 2
1 480 442
2 503 559
3 492 512
4 500 498
5 492 498
6 502 535
7 486 488
8 497 468
9 502 516
10 483 507
Média 493,7 502,3
Diferenças
Comprimido Lote 1 Lote 2
1 188 3.636
2 86 3.215
3 3 94
4 40 18
5 3 18
6 69 1.069
7 59 204
8 11 1.176
9 69 188
10 114 22
Média 642 9642

32
Exemplificando o cálculo da diferença quadrática em relação à média para o com-
primido 1 (dados marcados em vermelho):

Diferença 2 (Com.1, Lote1) =


(480 − 493, 7) 2 =
188

A variância pode, então, ser obtida pela divisão da soma das diferenças quadráti-
cas pela quantidade de dados menos 1.

642
s 2 ( Lote
= 1) = 71,3 g 2
10 − 1
9.642
s 2 ( Lote
= 2) = 1071,3 g 2
10 − 1

Veja que, novamente, foi capturada a grande diferença de variabilidade entre os


lotes por meio do cálculo das variâncias. Note que como elevamos as diferenças ao
quadrado, a dimensão da unidade da variância não é igual à dos dados originais (no
caso dos comprimidos, miligramas), mas sim a unidade ao quadrado.

Apesar de não ser possível interpretar diretamente o valor da variância de forma


fácil, ela será usada mais adiante como base para alguns dos testes de hipótese esta-
tísticos mais comuns.

Desvio Padrão
O desvio padrão de uma série de dados (simbolizado pela letra ) é definido como
a raiz quadrada da variância da série. Esta operação traz a unidade da medida da
variância para a mesma dimensão da série de dados, sendo, dessa forma, mais fácil
de interpretar. No exemplo das cápsulas de dipirona sódica teríamos:

s = s2
s ( Lote
= 1) 71,3 8, 4 g
=
( Lote 2)
s= 1.071,3 32, 7 g
=

Coeficiente de Variação
O coeficiente de variação é uma forma de relativizar o desvio padrão, tornando
possível a comparação entre séries de dados distintas. Para calcular o coeficiente de
variação, divide-se o desvio padrão pela média aritmética e multiplica-se o resultado
por 100 (para apresentação em %).

s
Coeficiente de derivação %(CV )= ×100
x

Para o exemplo da dipirona sódica temos:

33
33
UNIDADE Introdução à Bioestatística e Análise Exploratória de Dados

8, 4
CV %( Lote1)= ×100= 1, 7%
493, 7
32, 7
CV %( Lote 2)= ×100= 6,5%
502,3

Ou seja, o lote 2 apresenta variabilidade quase 3 vezes maior que o lote 1.

Em Síntese
Em seu estudo, Rodrigues, Lima e Barbosa (2017) apresentaram que o uso adequado da
estatística básica permite que o clínico possa sentir mais confiança nos resultados das
pesquisas e assim implantar novas intervenções ou fármacos na prática clínica. As prin-
cipais recomendações para minimizar os erros no relato de artigos científicos são: 7,8
descrever a hipótese da pesquisa; conceituar as variáveis usadas na pesquisa; resumir os
dados das variáveis por meio da estatística descritiva; descrever os métodos emprega-
dos na análise de cada variável e relacionar os métodos estatísticos empregados; verifi-
car a distribuição dos dados antes da execução das análises e relatar a técnica ou o teste
empregado; descrever os métodos de ajuste usados para múltiplas comparações; des-
crever como os valores discrepantes foram tratados; descrever o nível de significância;
descrever os parâmetros usados para a execução do cálculo do tamanho da amostra de
forma que os cálculos possam ser repetidos; descrever o programa ou pacote estatístico
usado na análise; usar a média e o desvio padrão para dados com distribuição normal;
usar a mediana e a amplitude interquartílica para dados com distribuição assimétrica;
não substituir o desvio padrão pelo erro padrão. Os maiores erros na interpretação de
dados provenientes de pesquisas científicas se devem ao uso inadequado da estatística
básica abordada nessa revisão narrativa. Os profissionais de saúde devem ser capazes
de avaliar criticamente os resultados de estudos para que as informações dispostas na
literatura possam influenciar positivamente nos cuidados aos pacientes. O entendi-
mento da validade das conclusões propicia a aplicabilidade dos achados aos pacientes.
A compreensão acerca do uso adequado da estatística básica propicia menores erros nos
relatos dos resultados de estudos executados e na interpretação das suas conclusões.

34
Material Complementar
Indicações para saber mais sobre os assuntos abordados nesta Unidade:

Vídeos
Gráfico de barras horizontais (ou colunas)
https://youtu.be/jNBAy4mPoNc
Gráfico de barras verticais
https://youtu.be/6PHPLh0WPKY
Gráfico de linhas
https://youtu.be/ArjZJXEEa9o
Gráfico de dispersão
https://youtu.be/9k2-qCAqXWo
Histograma
https://youtu.be/jGbyMUy_vFI
Medidas estatísticas básicas
https://youtu.be/wIRzYpOxnTg

35
35
UNIDADE Introdução à Bioestatística e Análise Exploratória de Dados

Referências
BRASIL. Ministério da Saúde. Secretaria de Vigilância em Saúde. Boletim Epide-
miológico. v. 51, n. 6, mar. 2020a. Disponível em: <https://www.saude.gov.br/
images/pdf/2020/April/08/Boletim-epidemiologico-SVS-06-v2.pdf>. Acesso em:
25/02/2020.

________. Boletim Epidemiológico. v. 51, n. 5, jan. 2020b. Disponível em: <ht-


tps://portalarquivos2.saude.gov.br/images/pdf/2020/fevereiro/05/Boletim-epide-
miologico-SVS-05.pdf>. Acesso em: 27/02/2020.

GLANTZ, S. A. Princípios de bioestatística. 7. ed. Porto Alegre, RS: AMGH, 2014.

HOGG, R. V. Statistical education: improvements are badly needed. The American


Statistician, v. 45, n. 4, p. 342-343, 1991.

MARTINEZ, E. Z. Bioestatística para os cursos de Graduação da área da Saúde.


São Paulo: Blucher, 2015.

RODRIGUES, C. F. de S.; LIMA, F. J. C. de; BARBOSA, F. T. Importância do uso


adequado da estatística básica nas pesquisas clínicas. Rev. Bras. Anestesiol.,
Campinas, SP, v. 67, n. 6, p. 619-625, dez. 2017. Disponível em: <http://www.
scielo.br/scielo.php?script=sci_arttext&pid=S0034-70942017000600619&lng=en
&nrm=iso>. Acesso em: 11/10/2020.

Sites Visitados
G1. Casos de dengue aumentam sete vezes no Brasil em 2019. Disponível em:
<https://g1.globo.com/bemestar/noticia/2019/09/11/casos-de-dengue-aumentam-
-sete-vezes-no-brasil-em-2019.ghtml>. Acesso em: 26/02/2020.

36

Você também pode gostar