Você está na página 1de 21

BIOESTATÍSTICA

AULA 2

Prof. Michael Pereira da Silva


CONVERSA INICIAL

Os resultados de pesquisas científicas podem ser apresentados em


diferentes formas, como em tabelas e gráficos, por exemplo. Para a
apresentação desses dados, podemos nos utilizar da estatística descritiva, plor
meio de média e desvio padrão, mediana e intervalos interquartílicos,
distribuição de frequências, entre outros procedimentos. Nesta aula, vamos
conversar sobre os mais comuns em estudos científicos.

TEMA 1 – MEDIDAS DE FREQUÊNCIA

Medidas de frequência ou distribuição de frequências fazem parte da


estatística descritiva e nos remetem à quantidade de vezes que um dado se
repete em determinada amostra, em que cada entrada na tabela e/ou gráfico
representa a frequência ou contagem de ocorrências de valores dentro da
amostra (Oliveira Filho, 2015). Pode ser descrita em frequência absoluta (f),
acumulada (fa), relativa (fr) ou relativa acumulada (fra).
Podemos apresentar os dados de distribuição de frequências em tabelas
ou gráficos, a depender dos dados que estamos apresentando, das normas da
revista em que está submetendo seu estudo, das normas da sua faculdade
quando ao uso de tabelas e gráficos, ou simplesmente sobre a forma como
melhor podemos descrever determinado conjunto de dados.

1.1 Frequência absoluta (f)

A frequência absoluta (ou frequência simples) nada mais é do que a


quantidade de vezes que determinada categoria ou valor aparece em sua tabela
de dados (Kirkwood; Sterne, 2010). É comum em alguns artigos ser relatada
como n, em substituição ao f. Observe a Tabela 1, que apresenta dados sobre o
tipo sanguíneo de 841 pacientes.

Tabela 1 – Distribuição de frequência absoluta para o tipo sanguíneo de 841


pacientes

Tipo sanguíneo f
A+ 127
A- 97

2
B+ 115
B- 103
AB+ 89
AB- 92
O+ 131
O- 87
Fonte: Silva, 2021.

1.2 Frequência acumulada (fa)

A frequência acumulada é a soma da classe anterior com a classe atual e


é muito útil para observamos quanto uma variável assume valor igual ou inferior
a um determinado valor. A tabela 2 apresenta um exemplo de frequência
absoluta e frequência acumulada, para uma amostra de tipos sanguíneos de 841
pacientes (Tabela 2).

Tabela 2 – Distribuição de f e fa para o tipo sanguíneo em uma amostra de 841


pacientes

Tipo sanguíneo f fa
A+ 127 127
A- 97 127 + 97 = 224
B+ 115 224 + 115 = 339
B- 103 339 + 103 = 442
AB+ 89 442 + 89 = 531
AB- 92 531 + 92 = 623
O+ 131 623 + 131 = 754
O- 87 754 + 87 = 841
Fonte: Silva, 2021.

1.3 Frequência relativa (fr)

Em alguns casos, precisamos de mais informações do que apenas a


quantidade de vezes que uma categoria aparece em nosso conjunto de dados,
então as porcentagens podem indicar informações relevantes (Oliveira Filho,
2015). Temos então a frequência relativa (fr), também chamada de frequência
percentual em alguns trabalhos, que nada mais é do que a proporção ou
3
porcentagem das observações do conjunto de dados (Kirkwood; Sterne, 2010).
Para se calcular a frequência relativa, temos duas possibilidades: podemos
multiplicar a frequência absoluta por 100 e dividir esse resultado pela soma de
todas as frequências absolutas de seu conjunto de dados (valor total). Ou
também podemos calcular a razão entre a frequência absoluta e a soma de todas
as frequências absolutas de seu conjunto de dados (valor total) (Quadro 1).

Quadro 1 – Cálculo da frequência relativa

(𝒇𝒂 × 𝟏𝟎𝟎) ÷ 𝑺𝒐𝒎𝒂 𝒅𝒆 𝒕𝒐𝒅𝒂𝒔 𝒂𝒔 𝒇𝒂 = 𝐟𝐫


ou
(𝒇𝒂 ÷ 𝑺𝒐𝒎𝒂 𝒅𝒆 𝒕𝒐𝒅𝒂𝒔 𝒂𝒔 𝒇𝒂) × 𝟏𝟎𝟎 = 𝐟𝐫

Fonte: Silva, 2021.

1.4 Frequência relativa acumulada (fra)


A frequência relativa acumulada também nos possibilita a visualização do
número de vezes que uma variável apresenta valor igual ou inferior a um
determinado valor. Para se obter a frequência relativa acumulada, a exemplo da
frequência acumulada, basta somar a classe atual com a classe anterior. A
Tabela 3 apresenta um exemplo para a frequência relativa e frequência relativa
acumulada em uma amostra de 841 pacientes (Tabela 3).

Tabela 3 – Distribuição de fr e fra para o tipo sanguíneo em uma amostra de 841


pacientes

Tipo sanguíneo fr (%) fra (%)


A+ 15,10 15,10
A- 11,53 15,10 + 11,53 = 26,63
B+ 13,67 26,63 + 11,53 = 38,16
B- 12,25 40,31 + 12,25 = 52,56
AB+ 10,58 52,56 + 10,58 = 63,14
AB- 10,94 63,14 + 10,94 = 74,08
O+ 15,58 74,08 + 15,58 = 89,66
O- 10,34 89,66 + 10,34 = 100,00
Fonte: Silva, 2021.

4
TEMA 2 – MEDIDAS DE TENDÊNCIA CENTRAL

Uma outra forma de apresentar os dados é por meio das medidas de


tendência central, que é uma maneira de resumir os dados que possibilita
observar um valor em torno do qual os dados tendem a se reunir ou se agrupar
(Kirkwood; Sterne, 2010; Oliveira Filho, 2015; Rosner, 2016). Normalmente, são
empregadas a média, a mediana ou a moda para a descrição dos dados, as
quais podem nos orientar quanto a distribuição dos dados e possibilitar diferentes
comparações, que, em linhas gerais, podem ser utilizadas de acordo com os
pressupostos da Tabela 4, adaptada de Oliveira Filho (2015).

Tabela 4 – Critérios para uso de medidas de tendência central

Tipo de Medida de tendência central


variável Média Mediana Moda
Nominal Não Não Sim
Ordinal Não Sim Sim
Discreta Sim Sim, em caso Sim
de distribuição
Contínua Sim não Não
paramétrica
Fonte: Oliveira Filho, 2015.

2.1 Média

Média é a soma das medidas, dividida pelo número de casos. Empregada


quando se deseja uma medida de posição estável, ou quando há a necessidade
de cálculos posteriores. Uma de suas características é sofrer grande influência
de valores extremos (Field, 2009; Oliveira Filho, 2015) (Quadro 2).

Quadro 2 – Cálculo da média

𝑿𝟏 + 𝑿𝟐 + ⋯ + 𝑿𝒏
̅=
𝑿
𝒏
𝟐+ 𝟑+𝟒
̅=
𝑿
𝟑
̅=𝟑
𝑿

Fonte: Silva, 2021.

5
Também não precisa ser um valor observado no conjunto de dados. Por
exemplo, em um curso de graduação, observamos que as turmas do último
período têm a respectiva quantidade de alunos: 25, 28, 23, 31 e 33. Calculando
a média do número de alunos (25 + 28 + 23 + 31 + 33) / 5 = 27,8, ou seja, um
valor diferente do contido nas observações.
Digamos que você tenha coletado amostras sanguíneas de adultos de
Curitiba e pretende comparar a quantidade de leucócitos com as tabelas de
referência para obter informações sobre o sistema imunológico desses
munícipes. Consultando tabelas de referência, você observou que os leucócitos
devem estar entre 4000 e 11000 / µL. Obviamente, você irá utilizar a média da
sua amostra para comparar com os valores de referência. Digamos que a média
de leucócitos totais observada em sua amostra seja de 7890 / µL, então
observando a tabela de referência, você chega à conclusão de que a amostra
observada encontra dentro dos padrões de normalidade para os leucócitos
totais.

2.2 Mediana

Mediana é o valor que se encontra na posição central do conjunto de


dados, ou seja, divide sua distribuição ao meio, em que uma metade das
observações é igual ou menor do que o valor mediano e a outra metade é maior
ou igual ao valor mediano (Oliveira Filho, 2015). Ela pode ser empregada quando
há valores extremos que possam afetar de modo acentuado a média, quando
representa melhor a variável do estudo, ainda em caso de uma análise de dados
não paramétricos. Alguns estudos a descrevem com o percentil 50 (Quadro 3).

Quadro 3 – Cálculo da mediana

Fonte: Silva, 2021.

Para calcular a mediana de seu conjunto de dados, lembre-se de


primeiramente ordenar os dados (de forma crescente ou decrescente) e depois
aplicar a equação abaixo (Quadro 4).

6
Quadro 4 – Etapas do cálculo da mediana em conjunto com número ímpar de
observações

Fonte: Silva, 2021.

No exemplo acima, trabalhamos com um conjunto de dados com número


ímpar de observações. Caso o conjunto de dados apresente um número par de
observações, você pode tirar a média dos valores centrais, como apresentado a
seguir (Quadro 5):

Quadro 5 – Etapas do cálculo da mediana em conjunto com número par de


observações

Fonte: Silva, 2021.

Digamos que na sua turma, as notas da última avaliação foram: 34, 42,
44, 49, 51, 58, 60, 62, 65, 67, 70, 75, 77, 82, 85, 88, 90, 92, 95, 97 e 100.
Encontramos a mediana 70. Considerando que a média para a aprovação na
disciplina é de 70 pontos, observamos que 50% da turma já atingiu a nota mínima
para a aprovação na disciplina.

7
2.3 Moda

Moda é a categoria ou valor que mais se repete em um conjunto de dados,


podendo inclusive ter mais de uma moda no conjunto de dados (Oliveira Filho,
2015). O exemplo abaixo traz as etapas para encontrar a moda em um conjunto
de dados (Quadro 6).

Quadro 6 – Etapas da identificação da moda

Fonte: Silva, 2021.

Agora, você deve estar atento para conjuntos de dados que possam
apresentar mais do que uma moda, por exemplo:

a. duas modas = bimodal;


b. três ou mais modas = multimodal.

Vamos imaginar que você está acompanhando a evolução in vitro de


algumas bactérias e, percebeu que elas atingiam determinado estágio em 24,
22, 18, 20, 24, 21, 26, 25, 17, 18, 24, 26, 27 e 30 dias respectivamente.
Observando o valor modal, percebemos que a maioria das bactérias leva 24 dias
para se desenvolverem nas condições as quais você as submeteu.

TEMA 3 – MEDIDAS DE DISPERSÃO

Como vimos anteriormente, as medidas de tendência central nos dão uma


clara ideia do ponto em torno do qual os dados se distribuem (Kirkwood; Sterne,
2010; Oliveira Filho, 2015; Rosner, 2016).

8
Entretanto, apenas conhecer a posição dos dados não é o suficiente para
uma correta interpretação. Assim, temos as medidas de dispersão ou
variabilidade, que nos permitem ter uma ideia da propagação dos dados (Rosner,
2016).
Imagine que temos os dados de cinco aferições da pressão arterial
sistólica de cinco diferentes pacientes e, a média da pressão arterial de todos é
igual a 120 mmhg. Logo, deduzimos que está tudo bem com todos, afinal a média
do grupo encontrasse dentro dos padrões de normalidade. Porém, se
observarmos a dispersão entre cada avaliação, podemos perceber que alguns
sujeitos talvez precisem de uma atenção especial (Tabela 5 e Gráfico 2).

Tabela 5 – Medidas de pressão arterial sistólica de pacientes em cinco diferentes


momentos

Paciente Avaliação
1 2 3 4 5 Média
A 122 120 119 120 121 120
B 135 105 130 110 120 120
C 120 120 120 120 120 120
D 115 118 116 125 124 120
E 137 105 134 102 120 120
Fonte: Silva, 2021.

Figura 1 – Gráfico de dispersão – pressão arterial sistólica de pacientes em cinco


diferentes momentos

A B C D E

160
Pressão arterial sistólica (mmHg)

140
120
100
80
60
40
20
0
0 1 2 3 4 5 6
Avaliação

Fonte: Silva, 2021.

9
Ou seja, conhecer apenas as medidas de posição não é o suficiente, pois
não sabemos sobre como a pressão arterial destes sujeitos está variando ao
longo do dia.

3.1 Amplitude

Amplitude é uma medida simples de dispersão e com limitadas


informações. Calculada com base na diferença entre o maior e o menor valor de
um conjunto de dados (Barros et al., 2012; Rosner, 2016).
Considerando o gráfico abaixo, temos o seguinte conjunto de dados =
1,1,2,2,2,3,4,5,5,6,8,26,35. Para calcular a amplitude destes dados basta então
calcular a diferença entre o maior e o menor valor (Quadro 7).

Quadro 7 – Etapas do cálculo da amplitude

𝐴 = 35 − 1
𝐴 = 34

Fonte: Silva, 2021.

Como mencionamos anteriormente, a amplitude nos fornece limitadas


informações. Essa medida não é afetada pela assimetria dos dados, no entanto
é sensível à adição ou remoção de valores discrepantes (Oliveira Filho, 2015).
Um exemplo do uso da amplitude com o qual nos deparamos diariamente
é em relação à temperatura. Quando a previsão do tempo apresenta a
temperatura estimada para o dia, também informa a amplitude, por exemplo, a
temperatura prevista para amanhã será de 15 °C, com mínima de 9 °C e máxima
de 18 °C. Diante disso, sabemos que a amplitude térmica daquele dia será de
9 °C.

3.2 Variância

A variância (s2) nos apresenta a média dos quadrados dos desvios. O


desvio representa a diferença entre cada valor observado no conjunto de dados
e a média de todas as observações (Barros, et al., 2012). Logo, a variância é o
quadrado da unidade de medida da variável, por exemplo, se a variável de
interesse for a pressão arterial, a variância terá como unidade mmhg2.

10
Para ficar mais claro, acompanhe a Tabela 6, na qual temos uma amostra
da pressão arterial sistólica de 18 sujeitos. Primeiramente calculamos a média
do grupo (𝑋̅ = 122,50 mmhg). Depois, calculamos o desvio de cada observação
em relação à média, por fim, calculamos a média dos desvios ao quadrado e
chegamos à variância (s2 = 74,47 mmhg2) (Tabela 6).

Tabela 6 – Cálculo da variância

PRESSÃO ARTERIAL Desvio Desvio2


SISTÓLICA
120 120 – 122,50 = - 2,50 (-2,50)2 = 6,25
122 120 – 122,50 = -0,50 (-0,50)2 = 0,25
135 135 – 122,50 = 12,50 (12,50)2 = 156,25
119 119 – 122,50 = -3,50 (-3,50)2 = 12,25
117 117 – 122,50 = -5,50 (-5,50)2 = 30,25
125 125 – 122,50 = 2,50 (2,50)2 = 6,25
145 145 – 122,50 = 22,50 (22,50)2 = 506,25
110 110 – 122,50 = -12,50 (-12,50)2 = 156,25
109 109 – 122,50 = -13,50 (-13,50)2 = 182,25
112 112 – 122,50 = -10,50 (-10,50)2 = 110,25
120 120 – 122,50 = -2,50 (-2,50)2 = 6,25
120 120 – 122,50 = -2,50 (-2,50)2 = 6,25
120 120 – 122,50 = -2,50 (-2,50)2 = 6,25
121 121 – 122,50 = -1,50 (-1,50)2 = 2,25
122 122 – 122,50 = -0,50 (-0,50)2 = 0,25
132 132 – 122,50 = 9,50 (9,50)2 = 90,25
129 129 – 122,50 = 6,50 (6,50)2 = 42,25
127 127 – 122,50 = 4,50 (4,50)2 = 20,25
VARIÂNCIA (S2) = 74,47 MMHG2
Fonte: Silva, 2021.

3.3 Desvio padrão

Vimos anteriormente que a variância apresenta uma unidade diferente da


medida nos dados, o que compromete sua utilidade ao representar a dispersão
dos dados. Com isso, podemos usar o desvio padrão (s ou dp), que é calculado
com base na raiz quadrada da variância. O desvio padrão apresenta a dispersão
dos valores do conjunto de dados, na mesma medida dos dados originais. Atente
para que, quanto maior o desvio padrão, maior é a variabilidade entre as
observações, indicando dados heterogêneos, enquanto um menor desvio padrão
indica uma menor variabilidade, consequentemente dados mais homogêneos. A
Tabela 7 apresenta a média, a variância e o desvio padrão do conjunto de dados
(Tabela 7).

11
Tabela 7 – Cálculo do desvio padrão (DP)

Média 122,50
Variância 74,47

DP √74,47 = 8,63
Fonte: Silva, 2021.

Considere que em duas diferentes cidades as crianças apresentam


médias de peso corporal de 24 Kg. Porém, uma das cidades apresenta poucas
crianças obesas e desnutridas, mas possui média de 24 kg. A outra cidade
apresenta muitas crianças obesas e desnutridas, mas ainda com média de
24 kg. Assim, apenas a média não apresenta informações suficientes sobre a
real situação das crianças. Então com o desvio padrão poderemos ter uma
melhor indicação sobre a variabilidade entre as crianças das duas cidades.

TEMA 4 – MEDIDAS DE SEPARATRIZES

Medidas de separatrizes ocupam posições abrangendo intervalos iguais


dentro do conjunto de dados. De acordo com a quantidade de partes que o
conjunto de dados está dividido, há uma mudança no nome da medida, podendo
ser mediana, quartis, decis e percentis, que utilizamos para dividir o conjunto de
dados em partes iguais (com o mesmo número de elementos da série) e muitas
vezes com o objetivo de classificarmos as observações de acordo com sua
posição no conjunto de dados.
Imaginem em uma avaliação de desempenho acadêmico voltada ao
ingresso na faculdade na qual um determinado concorrente atinge a nota 550 e
recebe como resultado que essa nota foi superior a 65% dos participantes. Para
esse resultado foi utilizado uma medida separatriz que posiciona o valor
individual do participante em relação aos valores de todos os participantes dessa
avaliação. Vamos discutir um pouco mais sobre essas medidas a seguir.

4.1 Quartis

Os quartis dividem o conjunto de dados em quatro partes iguais, de modo


que cada intervalo tenha 25% dos elementos. Então o primeiro quartil ou quartil
inferior (Q1) contempla os 25% menores valores do conjunto de dados e,
consequentemente 75% das observações são maiores do que a do Qi. Também

12
é interessante notar que o segundo quartil (Q2), que equivale a 50% das
observações, é exatamente o mesmo que a mediana. Por fim, o terceiro quartil
ou quartil superior (Q3) delimita os 25% maiores valores das observações,
consequentemente maiores do que 75% dos valores do conjunto de dados
(Figura 2).

Figura 2 – Conjunto de dados dividido em quartis.

Fonte: Silva, 2021.

Para calcular os quartis, você primeiramente deve ordenar o seu conjunto


de dados e, posteriormente encontrar a mediana desse conjunto. Depois,
calcular a mediana de cada metade do conjunto de dados, para encontrar
respectivamente o Q1 e Q2 (Figura 3).

Figura 3 – Cálculo dos quartis

Fonte: Silva, 2021.

4.2 Decis

Decis é a divisão do conjunto de dados em dez partes iguais, com o


mesmo número de observações, assim cada intervalo terá 10% dos elementos
coletados. Então, o primeiro decil separa os primeiros 10% das observações, o
segundo decil separa 20% das observações, e assim sucessivamente (Figura
4).

13
Figura 4 – Conjunto de dados divididos em decis

Fonte: Silva, 2021.

4.3 Centis

O centil é a divisão do conjunto de dados em cem partes iguais,


organizado em forma crescente. Assim, o primeiro centil corresponde a 1% dos
dados; o décimo percentil representa 10% dos dados e também é o primeiro
decil. O percentil 50 representa 50% dos dados e também é a mediana; o
percentil 98 representa 98% dos dados, por exemplo. Um bom exemplo da
utilização dos percentis são as curvas de crescimento. A curva abaixo (Figura 5)
mostra o crescimento em estatura de meninos até 5 anos onde, por exemplo, um
menino que se encontre no percentil 15, tem 85% das crianças de mesma idade
mais altas do que ele.

Figura 5 – Curvas de crescimento para meninos do nascimento aos 5 anos de


idade

Fonte: Organização Mundial da Saúde, S.d.

Para o cálculo dos centis, do P1 ao P99, basta seguir a seguinte fórmula:

14
Quadro 8 – Cálculo do percentil

𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 𝑥 = (𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑚𝑒𝑛𝑜𝑟𝑒𝑠 𝑞𝑢𝑒 𝑥 × 100)


÷ 𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠

Fonte: Silva, 2021.

Figura 6 – Cálculo do percentil de 124

Fonte: Silva, 2021.

TEMA 5 – APRESENTAÇÃO GRÁFICA DOS DADOS

Algumas vezes as tabelas podem dificultar a interpretação dos dados, por


exemplo, em caso de muitos valores a serem descritos. Um suplemento as
tabelas ou ainda uma alternativa a estas podem ser os gráficos, que tem como
propósito dar uma rápida e geral impressão (Rosner, 2016).

5.1 Gráfico de barras

Os gráficos de barras são um dos mais utilizados para apresentar dados


agrupados (categóricos). Para cada grupo ou caso, é construída uma coluna, de
igual espessura, mas com altura proporcional a frequência deste caso (Rosner,
2016). Normalmente apresenta as frequências no eixo vertical e as categorias
na horizontal, também pode apresentar barras agrupadas e empilhadas. Mas
existe também a possibilidade de utilizar gráficos de barras para dados
contínuos, através de histogramas (Oliveira Filho, 2015).

15
Figura 7 – Gráfico de barras

Gráfico de barras
20

15
fr (%)
10

0
Tipo sanguíneo

A+ A- B+ B- AB+ AB- O+ O-

Fonte: Silva, 2021.

Figura 8 – Gráfico de barras agrupadas

Gráficos de barras agrupadas


25

20

15
fr (%)

10

0
≤ 120 > 120

20 a 25 anos 26 a 30 anos 31 a 36 anos

Fonte: Silva, 2021.

Figura 9 – Gráfico de barras empilhadas

Gráfico de barras empilhadas


60
50
40
fr (%)

30
20
10
0
≤ 120 > 120

20 a 25 anos 26 a 30 anos 31 a 36 anos

Fonte: Silva, 2021.

16
0 ≤ 120 > 120
≤ 120 > 120
20 a 25 anos 26 a 30 anos 31 a 36 anos
20 a 25 anos 26 a 30 anos 31 a 36 anos

Figura 9: Gráfico de barras empilhadas. Fonte: Silva,2021


Figura 9:
Figura 10 – Gráfico deGráfico de barras empilhadas. Fonte: Silva,2021
histograma

Commented [ NGDP
extenso a categoria do e
favor?

Frequência absoluta

Pressão Arterial Sistólica (mmHg)

Fonte: Silva, 2021.


18 18

5.2 Gráficos de setor (pizza)

Neste tipo de gráfico, cada setor (fatia da pizza), deve ser proporcional a
frequência da categoria que representa. Como desvantagem, o gráfico de pizza
só pode representar uma variável por vez. Esse gráfico também é pouco utilizado
pela literatura científica, sendo muito mais abordado para os negócios (Oliveira
Filho, 2015).

Figura 11 – Gráfico de setor (pizza)

Gráfico de setor (pizza)

10,34 15,10

15,58
11,53
10,94 13,67
10,58
12,25

A+ A- B+ B- AB+ AB- O+ O-

Fonte: Silva, 2021.

17
5.3 Gráficos de linhas

Os gráficos de linha podem nos ajudar a observar a oscilação que


determinada variável sofre ao longo de um período, por exemplo. É muito útil
para observar, por exemplo, a frequência cumulativa para uma variável (Oliveira
Filho, 2015).

Figura 12 – Gráfico de linhas da incidência de dengue em Jacarezinho-PR

Gráfico de linhas
20
18
16
14
12
fr (%)

10
8
6
4
2
0
2011 2012 2013 2014 2015 2016 2017 2018 2019 2020

Incidência de casos de dengue em um município do interior do Paraná

Fonte: Silva, 2021.

5.3 Gráficos de dispersão

O gráfico de dispersão possibilita observar a posição de cada observação


do conjunto de dados, em relação a duas variáveis. Em nosso exemplo, a
pressão arterial sistólica em relação à idade dos sujeitos.

Figura 13 – Gráfico de dispersão

Gráfico de dispersão
50

40

30

20

10

0
100 110 120 130 140 150

Fonte: Silva, 2021.


18
NA PRÁTICA

Cuidado ao utilizar a média para representar a tendência central, afinal


valores muito baixos ou muito altos podem causar desvios na média. Veja o
exemplo a seguir:
Ao coletarmos dados de sobrevivência (em horas) in vitro de 5 cepas de
um determinado tipo de vírus (vírus X) em resposta à administração de um
determinado antiviral, verificamos os seguintes valores para o primeiro dia de
experimento:

Tabela 8 – Sobrevivência em horas do vírus X após a administração da droga


antiviral Y – dia 1

Cepas (vírus) Sobrevivência em horas


1 4
2 3
3 12
4 10
5 8
Nesse primeiro dia de experimento foi possível verificar que a média de
sobrevivência do vírus X foi de 7,4 horas.
No segundo dia de experimento, as cepas foram submetidas novamente
ao contato com a droga antiviral e verificamos os seguintes resultados:

Tabela 9 – Sobrevivência em horas do vírus X após a administração da droga


antiviral Y – dia 2

Cepas (vírus) Sobrevivência em horas


1 4
2 3
3 120
4 10
5 8

Ao calcularmos a média de sobrevivência no segundo dia, temos um valor


de 29,0 horas. Muito diferente dos valores de média do dia anterior e muito
distante até da maioria dos valores observados na própria amostra no dia 2.
19
Percebam que a cepa n. 3 apresentou 120 horas de sobrevivência e gerou essa
discrepância na média. Nesse caso, a média não é o melhor indicador de
tendência central desses dados bem como, seria interessante investigar o motivo
da cepa n. 3 ter essa discrepância em relação ao dia anterior e até mesmo em
relação às demais cepas testadas no dia 2.

FINALIZANDO

Vimos que é possível apresentar os dados de uma pesquisa de diferentes


formas, de acordo com o tipo de dados que temos, se categóricos ou contínuos,
podendo usar tabelas ou gráficos para representar medidas de posição e
tendência central por exemplo. Além das medidas de dispersão, estes são
essenciais para a interpretação dos resultados. Também temos as medidas de
separatrizes, que dividem os dados em partes iguais dentro de um conjunto.

20
REFERÊNCIAS

BARROS, M. V. G. et al. Análise de dados em saúde. 3. ed. Londrina: PR:


Midiograf, 2012.

FIELD, A. Descobrindo a estatistica usando o SPSS. Porto Alegre: Artmed,


2009.

KIRKWOOD, B. R.; STERNE, J. A. Essential medical statistics. New York:


John Wiley & Sons, 2010.

OLIVEIRA FILHO, P. F. Epidemiologia e bioestatística: fundamentos para a


leitura crítica. Rio de Janeiro: Rubio, 2015.

ROSNER, B. Fundamentals of Biostatistics. 8. ed. Boston: Cengage Learning,


2016.

21

Você também pode gostar