Você está na página 1de 13

BIOESTATÍSTICA

AULA 3

Prof. Michael Pereira da Silva


CONVERSA INICIAL

Nesta aula, vamos conversar sobre pontos significativos que precedem a


realização de testes estatísticos para responder às perguntas de pesquisa.
Também discutiremos a respeito da população da amostra e as diferentes
técnicas aplicadas na amostragem de determinada população.
Vamos definir ainda o que é variável e suas subdivisões e a importância
do conhecimento delas para a utilização de testes estatísticos. Por fim,
abordaremos a relevância do entendimento de probabilidades e da identificação
da distribuição dos dados para o bom andamento da análise e da interpretação
dos resultados.

TEMA 1 – POPULAÇÃO E AMOSTRA: TÉCNICAS DE AMOSTRAGEM DA


POPULAÇÃO

População (N) é o conjunto de indivíduos com características


semelhantes, de interesse para uma pesquisa, podendo contemplar pessoas,
objetos ou acontecimentos (Pocinho, 2004). Representa, então, toda a
população de interesse, podendo ser geral (por exemplo, todos os seres
humanos) ou muito específica (por exemplo, todos os alunos de biologia de uma
universidade), porém, raramente será possível ter acesso a cada membro de
uma população (Field, 2009).
Em pesquisas, normalmente são analisados subconjuntos de uma
população denominados amostras (n), para as quais são aplicados modelos
estatísticos adequados aos objetivos do trabalho, e posteriormente os resultados
são extrapolados para toda a população (Figura 1).

2
Figura 1 − Relação entre população, amostra e análise de dados para a
generalização dos resultados

Fonte: Silva, 2021.

Para termos sucesso em uma pesquisa, precisamos de muito mais do que


apenas dominar e descrever corretamente procedimentos estatísticos. Como
pesquisadores, estamos sempre interessados em extrapolar nossos dados,
como, a partir de amostras, entender processos que ocorram em todas as células
(Field, 2009).
No entanto, para se obter a representatividade de amostra em relação à
população que ela representa, é determinada uma série de procedimentos de
amostragem (Oliveira Filho, 2015).

1.1 Tipos de amostragem

Amostragem é o procedimento, a ação ou a técnica utilizada na seleção


das amostras (Thomas; Nelson; Silverman, 2012; Oliveira Filho, 2015). Esse
procedimento pode ser probabilístico ou não probabilístico.

1.2 Amostragem probabilística

A amostragem probabilística considera que todos os elementos/sujeitos


da população tiveram a mesma chance conhecida de ser selecionados −
obviamente esta é diferente de zero − e que o sorteio apresenta regras bem
definidas e para uma população finita e acessível (Costa Neto, 1977).

3
1.2.1 Aleatória simples

Também chamada de casual, ao acaso, aleatória, randômica, entre outros


termos, caracteriza-se por um sorteio a partir de qualquer dispositivo (Costa
Neto, 1977). O pesquisador tem acesso a uma listagem de todos os elementos
da população de interesse e com base nela fará o sorteio da amostra necessária
para seu estudo (Barros et al., 2012).

1.2.2 Amostragem sistemática

É utilizada quando os elementos da população estão ordenados e a


retirada da amostra é feita de forma ordenada (Costa Neto, 1977). De posse da
listagem dos elementos da população, dividimos o número total dos elementos
pelo tamanho da amostra necessária ao estudo. Por exemplo: em uma
população de 1.000 sujeitos, precisamos de uma amostra de 50; dividindo 1.000
por 50, chegamos a 20. Agora, sorteamos aleatoriamente um número entre 1 e
20; digamos que o número sorteado foi o 7, então a amostra será composta pelos
indivíduos 7, 27, 47, 67, 87 e assim por diante.
Esse tipo de amostragem é muito utilizado em pesquisas com setores
censitários, como as do IBGE, por exemplo, ou ainda para sortear números
telefônicos que serão contatados na pesquisa (Barros et al., 2012; Thomas;
Nelson; Silverman, 2012).

1.2.3 Amostragem estratificada

Em alguns casos, a população de interesse se divide em subgrupos (ou


estratos), e é preciso considerar que a variável de interesse pode se manifestar
de forma diferente nesses estratos. Assim, caso sua amostra não contemple os
distintos estratos da população, a variável pode estar sendo influenciada pelos
estratos mais numerosos presentes em sua coleta de dados (Costa Neto, 1977).
Digamos que sua população-alvo seja de adultos infectados por
determinado vírus e que o tamanho dela seja de 10.000 pessoas (4.500 homens
e 5.500 mulheres), das quais a amostra precisa contemplar 2.000 pessoas. Você
então coletaria informações de 1.000 homens e 1.000 mulheres, porém não
respeitou a representatividade dos estratos presentes no estudo. Então, para
uma correta representatividade, seria necessário coletar informações de 900

4
homens e 1.100 mulheres, compreendendo respectivamente 45% e 55% da
amostra de 2.000 sujeitos.

1.2.4 Amostragem por conglomerados

Em alguns casos, a população-alvo pode se subdividir em pequenos


grupos, denominados conglomerados. Assim, a coleta de dados precisa
contemplar todos os conglomerados existentes, e não necessariamente os
elementos da população (Costa Neto, 1977).
Imagine, por exemplo, que você pretende verificar a prevalência de
dengue em Curitiba. O município é dividido em regionais (no caso, nossos
conglomerados), e é interessante coletar informações de todas, afinal os focos
de dengue e contágios podem apresentar discrepância entre elas regionais.
Atente-se para não confundir conglomerados com estratos. Lembre-se:

• Conglomerados: todas as subdivisões da população-alvo, como todas as


cidades, todos os bairros, todas as regionais, todas as empresas etc.
• Estratos: os elementos da população, como sexo, praticantes e não
praticantes, infectados e não infectados etc.

1.3 Amostragem não probabilística

A amostragem não probabilística é empregada pela simplicidade, por não


ser possível a amostragem probabilística, por se tratar de uma população pouco
acessível ou quando a representatividade não é uma necessidade do estudo.
Em muitos casos, seus resultados podem ser equivalentes aos de uma
amostragem probabilística, ou seja, essas pesquisas também apresentam
relevância científica (Costa Neto, 1977). Outra característica é que a
probabilidade de os indivíduos serem selecionados a participar do estudo não é
conhecida.

1.3.1 Amostragem a esmo

Ela ocorre quando o pesquisador escolhe os elementos da amostra sem


a aleatoriedade de um sorteio. Os resultados dessa técnica podem ser
equivalentes aos da amostragem probabilística em caso de população
homogênea ou se não houver a possibilidade de o pesquisador

5
inconscientemente ser influenciado na escolha dos elementos da população
(Costa Neto, 1977).

1.3.2 Cotas

A amostragem por cotas apresenta maior rigor entre outros processos não
probabilísticos. Seu procedimento contempla a classificação e determinação da
população e posterior cálculo do tamanho proporcional dela em cada extrato
considerado. Difere de uma amostragem probabilística por não existir
informações suficientes da população de interesse para uma amostragem
aleatória simples (Freitag, 2018).

1.3.3 Julgamento

A amostragem por julgamento ou intencional ocorre quando o


pesquisador escolhe os sujeitos que vão compor a amostra por julgar tais
elementos representativos da população (Costa Neto, 1977).

1.3.4 Bola de neve

A amostragem por bola de neve começa com o pesquisador localizando


elementos-chave dentro da população geral, sujeitos com o perfil necessário
para a pesquisa. Em seguida, é solicitado a eles que indiquem outros para
participarem do estudo e assim sucessivamente, até que a amostra seja
suficiente ou que novos sujeitos não tragam informações novas ao estudo
(Vinuto, 2014).

TEMA 2 – TIPOS DE VARIÁVEIS

Variável é uma característica de interesse que o pesquisador irá medir


(avaliar, mensurar, aferir, estimar) em cada elemento da população, podendo ter
valores numéricos ou não numéricos, como sexo, idade, tipo sanguíneo, cor dos
olhos, estatura etc. (Oliveira Filho, 2015). Confira alguns exemplos na Tabela 1.

6
Tabela 1 − Exemplo de variáveis

Participante Sexo Idade Cor dos olhos


1 Masculino 18 Castanhos
2 Feminino 21 Verdes
3 Feminino 19 Azuis
Fonte: Silva, 2021.

2.1 Variáveis nominais

Variáveis nominais se caracterizam por não apresentar hierarquia entre


elas, além de não ter unidades de medida (Oliveira Filho, 2015). Por exemplo, a
variável sexo não tem hierarquia entre as respostas possíveis (masculino ou
feminino) nem unidade de medida (m, Kg, mmHg etc.). A Tabela 2 traz um
exemplo.

Tabela 2 − Exemplo da apresentação de uma variável nominal

Sexo N %
Feminino 412 51,6
Masculino 387 48,4
Total 799 100
Fonte: Silva, 2021.

2.2 Variáveis ordinais

As variáveis ordinais, como o próprio nome sugere, ordenam os dados,


mas ainda sem unidades de medida. Para isso, devemos utilizar métodos
lógicos, como consultar a literatura, por exemplo, e não a arbitrariedade (Oliveira
Filho, 2015). Veja um exemplo na Tabela 3.

Tabela 3 − Exemplo da apresentação de uma variável ordinal

Nível socioeconômico n %
A 17 9,0
B 65 34,4
C 54 28,6
D 32 16,9

7
E 21 11,1
- 189 100
Fonte: Silva, 2021.

2.3 Variáveis contínuas

As variáveis contínuas podem ser aferidas (mensuradas, medidas etc.) e


possuem unidades de medida. Indicam dados numéricos reais que podem ser
escritos em sequências numéricas (Oliveira Filho, 2015). A altura é um exemplo
de variável contínua (1,50 m; 1,70 m etc.). A Tabela 4 traz um exemplo.

Tabela 4 − Exemplo da apresentação de uma variável contínua

Participante Altura (m)


1 1,68
2 1,72
3 1,70
4 1,71
5 1,69
6 1,70
Fonte: Silva, 2021.

2.4 Variáveis discretas

As variáveis discretas servem para quantificar resultados a partir de


valores que diferem entre si por quantidades fixas, normalmente resultados de
contagens (Oliveira Filho, 2015). É o caso do número de filhos (0, 1, 2, 3...),
quantidade de dias da semana em que se realiza atividade física etc. A Tabela
5 traz um exemplo.

Tabela 5 − Exemplo da apresentação de uma variável discreta

Participante Atividade física dias/sem


1 2
2 4
3 1
4 3

8
5 5
6 4
Fonte: Silva, 2021.

TEMA 3 – PROBABILIDADES

A probabilidade é o estudo da aleatoriedade e da incerteza. Tendo ou não


conhecimento a seu respeito, muitas pessoas se interessam por suas regras,
dada a quantidade dos que apostam em loterias ou outras formas de jogos
(Martins, 2002).
Além das loterias, os conceitos de probabilidade podem ser aplicados a
diferentes situações, como para o lançamento de um produto, a vitória ou a
derrota de um time, a possibilidade de chuva no próximo dia, operações
financeiras etc. (Martins, 2002).

3.1 Aleatoriedade e amostra

Considerando eventos aleatórios, em que não podemos prever o


resultado, mesmo com repetições do evento e quando um resultado exclui
automaticamente os outros, vamos imaginar as seguintes situações: (i) o
lançamento de um dado pode ter seis diferentes resultados (1, 2, 3, 4, 5, 6); (ii)
jogar cara ou coroa pode resultar em dois diferentes resultados (1 ou 2); e (iii)
apostar em uma partida de futebol pode ter três diferentes resultados (empate,
vitória da equipe A ou vitória da equipe B).
Assim, os diferentes eventos possíveis dentro de uma situação aleatória
compreendem um espaço amostral: 1, 2, 3, 4, 5, 6 (no caso dos dados); 1 ou 2
(cara ou coroa); e empate, vitória da equipe A ou vitória da equipe B (partida de
futebol). Essas informações nos dão uma clara ideia da quantidade de eventos
possíveis, informação que será útil para calcularmos probabilidades.

3.2 Calculando a probabilidade de ocorrência de um evento

Considerando-se um espaço amostral equiprovável (quando todos os


eventos têm a mesma probabilidade de ocorrer), o cálculo da probabilidade pode
ser realizado pela seguinte fórmula:
𝒏𝒂
𝐏 (𝐄) =
𝒏

9
P = probabilidade
na = número de eventos favoráveis
n = resultados possíveis
E = evento

Assim, se um evento tem um na possíveis resultados favoráveis e n


resultados possíveis, a razão entre eles nos indica a P de ele ocorrer. Se
pensarmos no exemplo do lançamento dos dados, caso nosso objetivo seja
calcular a probabilidade de qualquer um dos resultados ocorrer, teremos um
resultado possível no evento (na = 1) dentre seis diferentes resultados (n = 6),
em um evento com seis diferentes possibilidades (E = 6).
𝒏𝒂
𝐏 (𝐄) =
𝒏
𝟏
𝐏 ( 𝟔) =
𝟔
𝐏 (𝟔) = 𝟎, 𝟏𝟔𝟔

Agora, imagine que um jogador precisa de um valor maior do que 4 para


vencer. Assim, temos dois resultados almejados (na = 2) em seis diferentes
possibilidades (n = 6), para um evento em que esperamos o 5 ou o 6 (E = 6).
𝒏𝒂
𝐏 (𝐄) =
𝒏
𝟐
𝐏 (𝟓, 𝟔) =
𝟔
𝐏 (𝟓, 𝟔) = 𝟎, 𝟑𝟑𝟑

Agora, se um jogador precisa de qualquer valor diferente do 3 para vencer,


faremos a conta da seguinte forma:

𝐏 (𝐧ã𝐨 𝐄) = 𝟏 − 𝐏 (𝐄)
𝟏
𝐏 (𝐧ã𝐨 𝟑) = 𝟏 −
𝟔
𝐏 (𝐧ã𝐨 𝟑) = 𝟎, 𝟖𝟑𝟒

TEMA 4 – DISTRIBUIÇÃO DE DADOS

Em um cenário ideal, os dados que coletamos estariam simetricamente


distribuídos ao redor do centro de todos os escores de uma população. Assim,
traçando uma linha vertical no ponto central dessa distribuição, teríamos uma
igual quantidade de dados em ambos os lados; além disso, eles seriam menos

10
numerosos quanto mais distantes da linha central estivessem, nos indicando
uma distribuição normal (ou paramétrica) dos dados (Field, 2009), conforme
ilustra a Figura 2.

Figura 2 − Distribuição normal de dados

Fonte: Silva, 2021.

TEMA 5 − TESTANDO A NORMALIDADE DOS DADOS

Os testes de Kolmogorov-Smirnov e de Shapiro-Wilk são utilizados para


verificar se uma distribuição de dados é diferente de uma distribuição normal de
forma estatisticamente significativa. Um valor significativo (p < 0,05) indica um
desvio da normalidade, ou seja, sua amostra é significativamente diferente de
95% da população (Field, 2009). Caso seus dados apresentem essa
característica, temos uma distribuição não normal (não paramétrica).
Esse procedimento é indicado antes de serem utilizados testes de
hipóteses, a fim de auxiliar o pesquisador em sua escolha (se paramétricos ou
não paramétricos), como no exemplo do Quadro 1.

11
Quadro 1 − Exemplos de testes estatísticos para dados paramétricos e não
paramétricos

Fonte: Silva, 2021.

NA PRÁTICA

Agora que sabemos a diferença entre uma população e uma amostra, fica
mais clara a necessidade de uma boa escolha em relação ao processo de
amostragem. Evidentemente, isso deve levar em conta os objetivos do trabalho
e as possibilidades e recursos para sua execução. Mas você tem subsídios para
uma amostragem que possa ser representativa à população de interesse.
Nesta aula, você também foi apresentado a diferentes tipos de variáveis
existentes e conheceu, de modo introdutório, o cálculo das probabilidades. Por
fim, lembre-se de que a forma como seus dados se distribuem indicará quais
testes de hipótese poderão ser utilizados em sua análise inferencial.

FINALIZANDO

Nesta aula, discutimos diferentes técnicas de amostragem que visam


garantir a representatividade de uma população, isto é, assegurar que os
resultados possam explicar com determinado grau de certeza o que realmente
acontece na população. Além disso, vimos como a distribuição dos dados reflete
a escolha de testes estatísticos específicos e aplicamos duas possibilidades de
testes estatísticos e estratégias visuais para a verificação da normalidade dos
dados.

12
REFERÊNCIAS

BARROS, M. V. G. et al. Análise de dados em saúde. 3. ed. Londrina:


Midiograf, 2012.

COSTA NETO, P. L. Estatística. São Paulo: Blucher, 1977.

FIELD, A. Descobrindo a estatística usando o SPSS. Porto Alegre: Artmed,


2009.

FREITAG, R. M. K. Amostras sociolinguísticas: probabilísticas ou por


conveniência? Revista de Estudos da Linguagem, v. 26, n. 2, p. 667-686,
2018.

MARTINS, G. A. Estatística geral e aplicada. São Paulo: Atlas, 2002.

OLIVEIRA FILHO, P. F. Epidemiologia e bioestatística: fundamentos para a


leitura crítica. Rio de Janeiro: Rubio, 2015.

THOMAS, J. R.; NELSON, J. K.; SILVERMAN, S. J. Métodos de pesquisa em


atividade física. 6. ed. Porto Alegre: Artmed, 2012.

VINUTO, J. A amostragem em bola de neve na pesquisa qualitativa: um debate


em aberto. Temática, Campinas, v. 22, n. 44, p. 203-220, ago./dez. 2014.

13

Você também pode gostar