Você está na página 1de 55

1 Tipos de dados numéricos e medidas de

tendência central e medidas de dispersão

Cesar Penazzo Lepri

Introdução
Neste capítulo, você terá a oportunidade de estudar dois conteúdos essenciais
a sua formação profissional: 1) Tipos de dados numéricos e 2) medidas de
tendência central e medidas de dispersão.

Objetivos
Ao final deste estudo, esperamos que você seja capaz de:
• explicar os tipos de dados numéricos;
• demonstrar medidas de tendência central e medidas de dispersão.

Esquema
1.1 Tipos de dados numéricos
1.1.1 Dados nominais
1.1.2 Dados ordinais
1.1.3 Dados substituídos por postos
1.1.4 Dados discretos
1.1.5 Dados contínuos
1.2 Medidas de tendência central e medidas de dispersão
1.2.1 Média
1.2.2 Mediana
1.2.3 Moda
1.2.4 Amplitude
1.2.5 Variância
1.2.6 Desvio padrão

1.1 Tipos de dados numéricos

O conhecimento aprofundado da classificação dos dados numéricos permitirá o


correto emprego dos testes estatísticos. Estudaremos nesse capítulo os
seguintes tipos de dados numéricos: nominais, ordinais, substituídos por postos,
discretos e contínuos.
1.1.1 Dados nominais

Neste tipo de dado, atribuímos um número à um nome ou à uma categoria de


dados. Por exemplo: um estudo que esteja tabulando os dados em relação aos
gêneros, masculino e feminino. Poderíamos atribuir a letra “M” para todos os
indivíduos do gênero masculino e a letra “F” para todos do gênero feminino.
Porém, pensando na classificação dos dados numéricos, utilizaremos números
em detrimento das letras. Dessa forma, podemos atribuir o número 0 (zero) para
o gênero masculino e o número 1 (um) para o gênero feminino. Uma propriedade
importante dos dados nominais é que tanto a ordem quanto a magnitude não são
importantes. Em relação à ordem, isso significa que, se atribuíssemos o número
0 (zero) para o gênero feminino e o número 1 (um) para o gênero masculino, isso
não causaria nenhuma alteração no trabalho, pois trata-se de um código, ou seja,
a proporção de indivíduos de cada gênero seria a mesma nesse estudo, por
exemplo. Quando nos referimos à magnitude, se ao invés dos números 0 (zero)
e 1 (um) escolhêssemos os números 1 (um) e 2 dois para os grupos, ou então
10 (dez) e 20 (vinte), isso também não causaria nenhuma alteração, pois não
realizaremos operações aritméticas com esses códigos. O que será apresentado
ao leitor será a proporção ou percentual para cada código/número atribuído ao
grupo.
Outro exemplo para os dados nominais pode ser em relação ao tipo sanguíneo.
Temos os seguintes tipos/grupos de sangue: A, B, AB e O. Podemos apontar
números para cada grupo sanguíneo, como por exemplo: 0 (zero) para o sangue
tipo A, 1 (um) para o sangue tipo B, 2 (dois) para o sangue tipo B, 3 (três) para
o tipo AB. Nota-se novamente que tanto a ordem quanto a magnitude não são
importantes.

Alguns dados nominais só permitem dois valores distintos. Esses dados são
denominados dicotômicos ou binários. A dicotomia nada mais é “ser uma coisa
ou outra”. Em outras palavras, temos por exemplo, em pesquisas realizadas com
questionários/entrevistas, muitas vezes o padrão de resposta só pode ser “SIM”
ou “NÃO”. Nesses dados, podemos atribuir o número 0 (zero) para “SIM” e o
número 1 (um) para “NÃO”. Em avaliações, também é muito utilizado a
elaboração de questões do tipo verdadeiro ou falso. Novamente, estamos diante
de uma dicotomia e podemos atribuir os códigos 0 (zero) e 1 (um) em
substituição às letras V ou F.

Dessa forma, precisamos sempre nos atentar ao número de classificação


possível para o dado nominal. Nesse sentido, quando estudados os grupos
sanguíneos, estão não são dados dicotômicos ou binários pois existem mais de
dois valores distintos. Agora, se for estudado o fator Rh do sangue, estaremos
diante de um dado dicotômico ou binário, que pode ser classificado da seguinte
forma: 0 (zero) = fator Rh negativo; 1 (um) = fator Rh positivo.

1.1.2 Dados ordinais

A classificação em dados ordinais é muito parecida com o já estudado nos dados


nominais, porém, para os dados ordinais, até mesmo pelo estudo da semântica,
a ordem aqui é importante. Isso significa que atribuiremos números à uma
categoria de dados, nos quais a ordem é importante, seja crescente ou
decrescente.
Vamos trabalhar com o seguinte exemplo: nível de severidade das lesões.
Podemos ter a seguinte classificação ordinal: 0 (zero) = leve; 1 (um) = moderada;
2 (dois) = severa. Neste caso, os dados seguiram uma ordem crescente, pois
conforme a severidade aumenta (de leve à severa), os números se tornam
maiores.

À exemplo dos dados nominais, as operações aritméticas não fazem sentido.

1.1.3 Dados substituídos por postos

Determinados tipos de dados possuem diversas classes distintas, possibilitando


um grande detalhamento do estudo. Considerando ainda o nível de severidade
das lesões, considere a seguinte classificação ordinal crescente: 0 (zero) =
insignificante; 1 (um) = muito leve; 2 (dois) = leve; 3 (três) = moderada; 4 (quatro)
= severa; 5 (cinco) = gravíssima. Esse tipo de detalhamento pode ser vantajoso
por um lado, entretanto, pode tornar a uma discussão dos dados dificultada, além
de extensa. Assim, existe a possibilidade de agruparmos classes próximas em
um mesmo posto: trata-se dos dados substituídos por postos.
Neste caso, o conhecimento das classes que devem ser agrupadas no mesmo
posto deve ser de competência do pesquisador responsável. Este deverá ter o
domínio da área específica que estiver sendo estudada, para poder justificar os
postos. Tecnicamente, em termos da estatística, primeiramente o grupo de
observações é arranjado a partir da mais alta para a mais baixa, ou vice-versa
(decrescente ou crescente). Após, desprezamos as magnitudes das
observações e consideramos somente suas posições relativas.

No exemplo acima, os postos poderiam ser constituídos da seguinte maneira:


Primeiro Posto: agrupamento das classes 0 (zero) = insignificante e 1 (um) =
muito leve. Segundo Posto: agrupamento das classes 2 (dois) = leve e 3 (três) =
moderada. Por fim, o Terceiro Posto passa a ser constituído das classes 4
(quatro) = severa e 5 (cinco) = gravíssima.

É importante saber que os postos não precisam, necessariamente, possuir o


mesmo número de classes. Vamos considerar o segundo exemplo de
agrupamento, a seguir: Primeiro Posto: agrupamento das classes 0, 1, 2 e 3.
Segundo Posto: classes 4 e 5. Esse caso também é perfeitamente possível. Para
tanto, o pesquisador deve inicialmente ordenar os dados (ordem crescente ou
decrescente) e na sequência, agrupar classes próximas, tendo conhecimento
técnico-científico para determinar quais classes ficarão no mesmo posto. Como
desvantagem, “perde-se” a magnitude dos dados.

1.1.4 Dados discretos

Nos dados discretos, o número de valores possíveis e ou um número finito ou


uma quantidade “enumerável”, ou seja, são números inteiros não negativos, o
que significa que nenhum valor intermediário é possível no momento da coleta
dos dados. Para esses dados, tanto a ordenação quanto a magnitude são
importantes.
Alguns exemplos de dados discretos: número de ovos que as galinhas botam,
número de acidentes de carros, número de filhos, número de peças produzidas
por determinada máquina, etc. Para todos esses exemplos, é importante notar
que, durante a coleta dos dados, nenhum valor fracionado é possível.
Exemplificando

Durante o ano de 2017, verificou-se que a média mensal do número de acidentes


de carros na cidade de Uberaba foi igual a 15,5. Pergunta: Em relação aos tipos
de dados numéricos, dê a classificação correta do número de acidentes de carros.
Resposta: o número de acidentes de carros é um dado discreto, pois apenas os
números inteiros são possíveis na coleta dos dados. Comentário: nessa questão,
é importante notar que embora a média de acidentes de carros no ano de 2017 foi
um número fracionado (15,5), para a classificação dos dados numéricos
precisamos nos atentar ao momento da coleta do dado. Em termos práticos, cada
mês terá um número inteiro de acidentes. Por exemplo, janeiro teve 20 acidentes,
fevereiro teve 17 acidentes, etc. Não é possível haver um mês tenha 7,8 ou 8,5
acidentes.

Então, aprendemos nesse exemplo que, embora a média seja um número não
inteiro, o número de acidentes de carros continua sendo um dado discreto, pois
não olhamos a média para classificá-lo.

1.1.5 Dados contínuos

Nos dados contínuos, tanto a ordenação quanto a magnitude são importantes.


Estes dados representam quantidades mensuráveis e, desta forma, os valores
fracionais são possíveis.
Temos como exemplos de dados contínuos: nível sérico de colesterol, diâmetro
das peças produzidas por determinada máquina, altura das pessoas,
temperatura, etc.

Para facilitar o entendimento e a diferenciação entre dados discretos e contínuos,


pode-se utilizar a seguinte linha de raciocínio: os dados contínuos e representam
quantidades mensuráveis (algo que se pode medir). Para ser medida, é
necessário um equipamento ou instrumento. Assim, a temperatura é um dado
contínuo, pois existe o termômetro para medi-la e os valores aferidos encontram-
se em uma escala contínua, pois os números podem ser inteiros ou fracionados.
Da mesma forma, o peso é um dado contínuo, pois existe a balança de medição.
Para medir o diâmetro das peças, existe o paquímetro, e assim sucessivamente.

Exemplificando

Durante a primeira semana de janeiro de 2018, verificou-se que as seguintes


temperaturas máximas (em graus Celsius) na cidade de Uberaba: segunda-
feira = 32ºC, terça-feira = 32ºC, quarta-feira = 33ºC, quinta-feira = 34ºC; sexta-
feira = 32ºC, sábado = 34ºC e domingo = 35ºC. Pergunta: Em relação aos tipos
de dados numéricos, dê a classificação correta da temperatura. Resposta: a
temperatura é um dado contínuo, pois os valores fracionais são possíveis na
coleta dos dados. Comentário: nessa questão, é importante notar que embora
as temperaturas de todos os dias da semana foram números inteiros, para a
classificação dos dados numéricos precisamos nos atentar ao momento da
coleta do dado. Em termos práticos, cada dia da semana poderia ter uma
temperatura máxima que fosse um número inteiro ou fracionado. Por exemplo,
a segunda-feira teve temperatura máxima de 32ºC, mas poderia ser 32,5ºC; a
terça-feira teve temperatura máxima de 32ºC, mas poderia ser 32,7ºC, etc.

Então, aprendemos nesse exemplo que, embora as temperaturas máximas


foram números inteiros, a temperatura continua sendo um dado contínuo, pois
os valores fracionais são possíveis no momento da coleta de dados. Deve-se
também lembrar que as temperaturas são medidas por um termômetro, que
apresenta uma escala contínua de valores.

1.2 Medidas de tendência central e medidas de dispersão

A pesquisa científica trabalha, na maioria das vezes, com banco de dados


suficientemente grandes, capazes de reduzir as possibilidades de vieses e
também aumentar o poder dos testes estatísticos. Dessa forma, imaginemos o
seguinte delineamento experimental: estudo clínico, com 8 (oito) grupos em
estudo, sendo que cada grupo avaliou 10 (dez) pacientes. Caso esse estudo
tenha apenas uma variável de resposta, teremos os dados tabulados no Excel
ocupando 80 (oitenta) células. É certo afirmar que a análise de 80 células não é
tarefa simples. Entretanto, podemos trabalhar com medidas que sumarizam o
que ocorreu, de maneira geral, em cada grupo. Essas medidas recebem o nome
de medidas-resumo e sua aplicação é indicada no sentido de facilitar a análise
e interpretação dos dados.
Abordaremos inicialmente as medidas de tendência central, assim divididas:
média, mediana e moda.

1.2.1 Média

A média aritmética simples é a média mais utilizada em Bioestatística. Ela


corresponde ao somatório de todas as observações dividido pelo número de
observações. Quando o conjunto de dados for homogêneo, podemos afirmar que
a média aritmética simples é um bom indicador de tendência central, ou seja,
será um número que representará satisfatoriamente um conjunto de dados do
qual for proveniente. Por outro lado, sabemos que em algumas distribuições há
valores não usuais, ou seja, números extremamente altos/grandes ou
baixos/pequenos, também conhecidos como valores discrepantes. Esses
valores acabam deslocando o valor calculado da média aritmética simples em
direção a eles, ou seja, para a esquerda ou para a direita da distribuição. Dessa
forma, podemos dizer que a média aritmética simples é sensível aos valores não
usuais.
Um segundo tipo de média, menos utilizada, é a média geométrica. É definida,
para números positivos, como a raiz n-ésima do produto de n elementos de um
conjunto de dados. Exemplificando: um conjunto com os números 5 (cinco) e 7
(sete), a média geométrica é o resultado da raiz quadrado do produto entre esses
dois números, ou seja, a raiz de 35 (trinta e cinco). Um segundo exemplo: um
conjunto com os números 2 (dois), 9 (nove) e 10 (dez), a média geométrica será
o resultado da raiz cúbica do produto entre esses três números, ou seja, a raiz
cúbica de 180 (cento e oitenta).
Ainda analisando a média geométrica, vamos considerar que uma disciplina
adota como sistema avaliativo duas avaliações teóricas escritas, com Notas de
0 (zero) a 10 (dez), e média mínima de 5 (cinco) pontos para aprovação. No
primeiro exemplo, considerando que o aluno tirou nota 5 (cinco) nas duas
avaliações, sua média aritmética simples seria 5 (cinco), assim como a média
geométrica. Agora, no segundo exemplo, considerando que o aluno tirou nota 4
(quatro) na primeira avaliação e 6 (seis) na segunda avaliação, a média
aritmética simples seria 5 (cinco), enquanto a média geométrica seria menor que
5 (cinco), pois a raiz quadrada de 24 (vinte e quatro) é um número menor que 5
(cinco).

O terceiro tipo de média utilizado em Bioestatística corresponde à média


aritmética ponderada. Ela é calculada multiplicando cada valor do conjunto de
dados pelo seu peso e, após, soma-se esses valores e divide-se pela soma dos
pesos. Exemplo: um sistema de avaliação no qual a primeira avaliação tem peso
2 (dois) e a segunda avaliação tem peso 3 (três). O aluno tirou 5 (cinco) na
primeira avaliação e 7 (sete) na segunda. Logo, sua média final será: (5X2 +
7X3) / 5 = 6,2. Se o aluno tirasse 4 (quatro) na primeira avaliação e 6 (seis) na
segunda avaliação, sua média aritmética ponderada seria: (4X2 + 6X3) / 5 = 5,2.

1.2.2 Mediana

Mediana é o 50º percentil em um conjunto de medidas. Em outras palavras: em


um conjunto de dados colocados de maneira ordinal (ordem crescente ou
decrescente), metade dos valores são maiores ou iguais a mediana, enquanto a
outra metade é menor ou igual a ela. Dessa maneira, a mediana não é sensível
ao valor de cada medida, uma vez que ela não é calculada e sim encontrada.
Em algumas situações, quando o número de dados em um conjunto for par,
existirão dois números centrais, que repartirão a distribuição em duas partes
iguais. Nesses casos, para se obter o valor da mediana, deve-se realizar a média
aritmética simples entre os dois termos centrais.
1.2.3 Moda

Moda é a observação que ocorre mais frequentemente. Em um conjunto de


dados, a moda é localizada através da contagem do número/observação que
mais se repetiu.
Existem distribuições que possuem duas modas, ou seja, quando houver empate
no número de repetições de dois números. Essa distribuição é conhecida como
bimodal. Da mesma forma, quando houver a presença de três modas, ou mais,
chamamos a distribuição de multimodal ou polimodal. Em distribuições que não
houver a presença de uma observação que ocorreu mais frequentemente, há
ausência de moda e, neste caso, trata-se de uma distribuição amodal.

A moda é muito utilizada em análises de lâminas histológicas. Por exemplo: ao


dizer que na análise de lâminas histológicas de infiltrado inflamatório agudo o
tipo celular predominante foi de neutrófilos, significa que foi realizada a contagem
dos tipos de células e a moda foi neutrófilos, ou seja, houve maior
repetição/contagem de neutrófilos.

Quando optamos por indicar ao leitor a medida de tendência central de cada


grupo e/ou subgrupo, não faz sentido também apresentar todos os dados
coletados, uma vez o emprego da medida da tendência central é para facilitar a
análise dos dados. Caso, mesmo assim, a tabela seja apresentada no trabalho,
esta receberá o nome de “Tabela dos Valores Originais” e será apresentada nos
Apêndices (quando o material for do próprio autor) ou nos Anexos (quando se
tratar de material de terceiros). A apresentação dessa Tabela é opcional.

É fundamental associar à medida de tendência central uma medida que dê um


norteamento de como os dados estão dispersos ao redor do centro. Assim, deve-
se também mostrar uma medida de dispersão. Aqui, abordaremos algumas
delas, a citar: amplitude, variância, desvio padrão e coeficiente de variação.

1.2.4 Amplitude

Amplitude é a diferença entre a maior e a menor observação. Geralmente


ordenamos os números do conjunto de dados numéricos, seja em ordem
crescente ou decrescente. A partir dessa ordenação, o cálculo da amplitude é
muito simples: localizamos o maior valor e subtraímos do menor valor.
A utilidade desta medida de dispersão é limitada. Em primeiro lugar, porque só
diz respeito aos valores extremos (mínimo e máximo), ou seja, não diz como se
comporta a dispersão dos outros valores do conjunto de dados. Segundo, é
altamente sensível aos valores excepcionalmente grandes ou pequenos (valores
não usuais).

2.2.5 Variância

A variância é uma medida de dispersão que indica o “quão longe” em geral os


valores coletados se encontram do centro da distribuição. Quantifica a
variabilidade ou o espalhamento ao redor da média das medidas.

O cálculo da variância equivale à média dos desvios elevados ao quadrado.


Primeiramente, devemos compreender que o termo “desvio” se refere à distância
de um valor coletado da média. Se simplesmente somarmos a distância de todos
os valores que estão abaixo da média com a distância de todos os valores que
estão acima da média, o resultado sempre será 0 (zero). Dessa forma, cada
desvio deve ser elevado ao quadrado, e após o somatório de todos os desvios,
dividimos pelo número total de observações, ou seja, dividimos por n.

Em virtude da necessidade de elevar os desvios ao quadrado, há duas


implicações que geralmente desfavorecem o uso da variância: seu valor
calculado se torna superestimado e a unidade de medida da variância é elevada
ao quadrado. Em termos práticos, se a média estiver expressa em Kg, a
variância será em Kg2; se a média estiver em mL, a variância estará em mL2, e
assim por diante.

Frente a essas limitações da variância, torna-se importante o emprego de uma


medida de dispersão que apresente a mesma unidade de medida da média e
também que seja um número mais fidedigno. Nesse sentido, estudaremos agora
o desvio padrão.
1.2.6 Desvio Padrão

Considerando o que foi abordado sobre a variância, para obtermos uma medida
de dispersão que apresente um valor mais fidedigno, precisamos realizar a
operação inversa à exponenciação. Portanto, o desvio padrão é a raiz quadrada
positiva da variância.
Em termos conceituais, não há diferenças entre variância e desvio padrão:
ambos quantificam a dispersão, variabilidade ou espalhamento ao redor da
média. Entretanto, há diferenças na fórmula para o cálculo, sendo que frisamos
novamente que o desvio padrão é a raiz quadrada positiva da variância. Dessa
forma, o desvio padrão tem a mesma unidade de medida que a média. Em
termos práticos, se a média estiver expressa em Kg, o desvio padrão será em
Kg; se a média estiver em mL, o desvio padrão estará em mL, e assim por diante.

Se considerarmos a comparação entre dois grupos com médias iguais, o grupo


com o menor desvio padrão tem as observações mais homogêneas; o grupo com
o maior desvio padrão exibe maior variabilidade.

Como o desvio padrão tem unidade de medida, não tem sentido comparar
desvios padrão para duas quantidades não relacionadas. Outro ponto
importante: “o que é grande para um grupo de dados pode ser pequeno para
outro”. Assim, deve-se sempre levar em consideração o valor do desvio padrão
em relação à média. Surge, a partir dessa análise comparativa, mais uma medida
de dispersão: coeficiente de variação.

1.2.7 Coeficiente de Variação

Coeficiente de correlação é uma medida de dispersão que mede variabilidade


relativa. É calculada dividindo-se o valor do desvio padrão pela média. Diz-se
que mede variabilidade relativa pois se trata de uma razão, ou seja, o desvio
padrão em relação à média.
Como desvio padrão e média apresentam a mesma unidade de medida, ao
realizarmos a divisão, a unidade de medida desaparece. Portanto, dizemos que
o coeficiente de variação é uma grandeza adimensional (não tem unidade de
medida). Seu valor final ainda pode ser multiplicado por 100%, caso a opção seja
apresentar o resultado em termos percentuais.

REFERÊNCIAS

Best J. Danned Lies and Statistics. Berkeley: University of California Press,


2001.
Freedman D, Pisani R, Purves R, Adhikari A. Statistics. 3rd ed. New York:
Norton, 1997.
National Center for Health Statistics, Advance Reports, 1986. Suplemento ao
Monthly Vital Statistics Report, série 24, mar. 1990.
National Center for Health Statistics. Health, United States, 1994 Chartbook:
maio 1995.
Reichmann W. Use and abuse of statistics. New York: Oxford University
Press, 1962.
Stigler S. The history of statistics. Cambridge, Mass.: Harvard University
Press, 1986.
2 Apresentação dos dados numéricos em
tabelas

Cesar Penazzo Lepri

Introdução
A apresentação dos dados é de grande relevância no contexto da estatística,
sendo a análise descritiva a fase inicial desse processo.

O tipo de variável determina a forma mais adequada de apresentá-los, devendo


as tabelas e os gráficos facilitarem a análise do fenômeno que está sendo
observado. Por outro lado, quando não são escolhidos adequadamente, podem
dificultar a interpretação dos dados.

Objetivos
Ao final deste estudo, esperamos que você seja capaz de:
• explicar a importância da apresentação dos dados;
• escolher a forma mais adequada de apresentá-los;
• contribuir com a interpretação dos dados.

Esquema
2.1 Dados e variáveis
2.2 Representação tabular
2.3 Componentes das tabelas
2.3.1 Elementos essenciais
2.3.2 Elementos complementares
2.4 Apresentação de dados qualitativos
2.4.1 Tabelas de contingências
2.5 Apresentação de dados numéricos
2.6 Medidas resumos
2.1 Dados e Variáveis

Variável é uma condição ou característica de interesse que pode assumir


diferentes valores ou classificações para diferentes sujeitos, organismos ou
objetos selecionados para o estudo. No planejamento de uma pesquisa,
devemos definir quais são as características de interesse, antes da coleta dos
dados.
Os dados são os valores da variável em estudo, obtidos por meio de uma
amostra. As variáveis são classificadas em dois tipos: 1) Qualitativas ou
Categorizadas e 2) Quantitativas ou Numéricas

As variáveis qualitativas ou categorizadas são aquelas cujos possíveis valores


representam atributos e/ou qualidades, podendo ser divididas em dois tipos:

• Qualitativa nominal: quando os dados são distribuídos em categorias


mutuamente exclusivas, mas são indicadas em qualquer ordem.

São exemplos:
Tipo de sangue: A, B, AB, O.
Gênero: M,F.
Tabagismo: fumante, ex-fumante, nunca fumou.
Cor de cabelos: loiro, castanho, preto, ruivo.

• Qualitativa ordinal: assumem classificações, atributos ou qualidades


que podem ser descritas em uma ordem natural.

São exemplos:
Classe social: A, B, C, D, E.
Escolaridade: 1º grau, 2º grau, superior.
Gravidade de uma doença: leve, moderada, severa.

Dentro das variáveis qualitativas ordinais, existe a possibilidade de realizarmos


a substituição por postos (agrupamento das classes próximas), conforme
abordado anteriormente.
As variáveis quantitativas ou numéricas são expressas por números e podem
ser classificadas em dois tipos:

• Discreta: pode assumir alguns valores em um dado intervalo.


São exemplos:
Número de filhos (nenhum, 1, 2, 3, 4).
Quantidade de moedas num bolso (zero, 1, 2, 3).
Número de pontos dolorosos: (0, 1, 2, ..., 16).

• Contínua: assume qualquer valor num dado intervalo


São exemplos:
Peso (em kg).
Altura (em cm).
Nível sérico de colesterol, em mg/100 mL.

Os dados são do mesmo tipo que o das variáveis. Por exemplo, uma variável
nominal produz dados nominais, assim como uma variável discreta produz dados
discretos.

2.2 Representação Tabular

A representação tabular é uma apresentação numérica que consiste em dispor


os dados obtidos, em linhas e colunas. Uma tabela deve ser autoexplicativa, ou
seja, simples, clara e objetiva.

2.3 Componentes das tabelas

De um modo geral, em uma tabela estatística devem ser considerados os


seguintes itens:

2.3.1 Elementos essenciais

A. Título: Explica o conteúdo que a tabela contém.


B. Corpo: É formado pelos dados, em linhas e colunas.
C. Cabeçalho: São as indicações que especificam o conteúdo das colunas.
D. Coluna indicadora: São as indicações que especificam o conteúdo das linhas.

2.3.2 Elementos complementares

A.Fonte: É a entidade responsável pelos dados contidos na tabela.


B. Nota: São informações que esclarecem critérios usados na confecção da
tabela.
C. Chamadas: Informações da natureza específica sobre determinada parte da
tabela, que tem como objetivo conceituar ou esclarecer sobre os dados obtidos.

Observe a Figura 1:

Figura 1: Formato de tabela.


Fonte: Elaborada pelo autor.

2.4 Apresentação de dados qualitativos

Para organizar os dados provenientes de uma variável qualitativa, é usual fazer


uma tabela de frequências. Quando observamos dados qualitativos,
classificamos cada unidade da amostra em uma dada categoria. Nosso
conhecimento sobre os dados aumenta se contarmos quantas unidades caem
em cada categoria. No exemplo a seguir, resumiremos as informações na forma
de uma tabela que mostre as contagens (frequências) em cada categoria, ou
seja, em uma tabela de distribuição de frequências.

Exemplo: Foram entrevistados 56 alunos da disciplina de Bioestatística da


Universidade de Uberaba para saber qual o tipo de lazer preferido. As respostas
foram: 15 preferem realizar um esporte, 10 utilizar o computador e vídeo game,
5 preferem ir ao shopping e 26 viajar. Como se organizam estes dados em uma
tabela de distribuição de frequências?
Observe a tabela 1:

Tabela 1: Tipo de lazer preferido pelos alunos da disciplina de Bioestatística

Lazer Frequência
Esporte 15
Computador e vídeo game 10
Shopping 5
Viagem 26

Total 56

Fonte: Elaborada pelo autor.

Nas tabelas de distribuição de frequências, é usual fornecer a proporção


(frequência relativa) das unidades de cada categoria. Para obter a frequência
relativa de uma dada categoria, basta realizar a divisão da frequência pelo
tamanho da amostra.

Observe a Tabela 2:

Tabela 2: Tipo de lazer preferido pelos alunos da disciplina de Bioestatística

Lazer Frequência Frequência relativa


Esporte 15 0,27
Computador e vídeo game 10 0,18
Shopping 5 0,09
Viagem 26 0,46
Total 56 1,00

Fonte: Elaborada pelo autor.


As frequências relativas são, em geral, dadas em porcentagens. Para
transformar uma frequência relativa em porcentagem, devemos multiplicar por
100. No exemplo dado na Tabela 3, a frequência relativa de respostas "Esporte"
é 0,27. Multiplicando esse resultado por 100, temos a porcentagem, que é 27%.

As frequências relativas em porcentagens fornecem a informação mais


relevante. Mas é conveniente exibir o total (tamanho da amostra), o que indica a
credibilidade da informação.

2.4.1 Tabelas de Contingência

Os elementos de determinada amostra ou população podem, muitas vezes, ser


classificados de acordo com duas variáveis qualitativas. Os dados devem então
ser apresentados em tabelas de contingência, isto é, tabelas de dupla entrada,
cada entrada relativa a uma das variáveis.

Exemplo: Foram realizados diagnósticos de Diabetes mellitus em 100 idosos de


uma Instituição de Longa Permanência da cidade de Uberaba, com idades entre
65 e 90 anos, sendo metade de cada sexo. Foram identificados 44 casos da
doença, sendo 30 no sexo feminino.

Observe a Tabela 3:

Tabela 3: Sexo e presença de Diabetes entre idosos institucionalizados

Depressão
Sexo Sim Não Total
Masculino 14 36 50
Feminino 30 20 50
Total 44 56 100

Fonte: Elaborada pelo autor.


As tabelas de contingência podem apresentar frequências relativas em
porcentagens. O tamanho da amostra é sempre importante uma vez que não se
pode confiar em resultados obtidos através de amostras muito pequenas.

Exemplo: Para verificar se o risco de doença cardiovascular é maior quando o


idoso apresenta doença periodontal, foram obtidos os dados da Tabela 4.

Tabela 4: Doença Cardiovascular e Doença Periodontal entre idosos

Doença
Cardiovascular
Idoso Sim Não Total Porcentagem
Com Doença Periodontal 5 20 25 20% (5/25)
Sem Doença Periodontal 20 321 341 5,9% (20/341)
Total 25 341 366

Fonte: Elaborada pelo autor.

Através desta tabela é possível observar que o risco de doença cardiovascular


é maior quando o idoso apresenta doença periodontal (20% de doença
cardiovascular em idosos com doença periodontal versus 5,9% de doença
cardiovascular em idosos sem doença periodontal).

2.5 Apresentação de Dados Numéricos

Os dados numéricos são apresentados na ordem em que são coletados.


Geralmente são obtidos dados relativos a diversos pacientes, podendo estes ser
identificados nas pesquisas por números.

Exemplo: Para avaliar o índice de rejeição de implantes dentários em pacientes


fumantes, foram obtidos valores de diversas variáveis de interesse.

Observe a Tabela 5:
Tabela 5: Idade em anos completos, tempo de tabagismo em anos e quantidades de cigarros
consumidos por dia

Número Idade Tempo Cigarros/ dia


do paciente Tabagismo
1 60 45 20
2 63 33 35
3 55 40 18
4 59 40 25
5 71 57 60
6 89 70 52
7 84 69 41
8 74 54 22
9 68 59 10

Fonte: Elaborada pelo autor.

Dados numéricos também podem ser apresentados em tabelas de distribuição


de frequências. Se os dados são discretos, para organizar a tabela de
distribuição de frequências devemos:

1- Escrever os dados em ordem crescente.

2- Contar quantas vezes cada valor se repete.

3- Organizar a tabela, colocando no lugar das categorias, os valores numéricos


em ordem natural.

Exemplo: A quantidade de filhos de 40 funcionários de uma Universidade está


na Tabela 6.

Tabela 6: Número de filhos de 40 funcionários de uma Universidade

1 2 1 0 3 1 0 4 2 0
3 1 0 0 2 3 5 1 2 3
4 0 0 2 2 3 1 4 2 2
1 1 0 1 3 5 4 1 0 2

Fonte: Elaborada pelo autor.

Observe a Tabela 7:
Tabela 7: Distribuição do número de filhos de 40 funcionários de uma Universidade
Número Frequência Percentual
de filhos
0 9 22,5%
1 10 25,0%
2 9 22,5%
3 6 15,0%
4 4 10,0%
5 2 5,0%
Total 40 100%

Fonte: Elaborada pelo autor.

Tabelas com grande número de dados não oferecem ao leitor visão rápida e
global do fenômeno, dificultando a interpretação dos resultados. Observe os
dados apresentados na Tabela 8: diante de uma quantidade excessiva de dados
torna-se difícil dizer como os valores estão distribuídos. Por esta razão, dados
contínuos, quando em grande número, são apresentados em tabelas de
distribuição de frequências.

Tabela 8: Altura de jogadores de basquete, em metros


1,90 2,10 2,18 1,88 1,87 2,13
2,05 2,12 2,22 2,13 1,78 2,17
1,93 2,07 1,85 2,23 1,82 2,16
1,86 1,95 2,15 2,28 2,07 2,22
1,79 1,87 2,21 2,15 1,98 1,99
2,28 2,26 1,75 1,79 1,89 1,83
2,08 1,96 1,78 1,79 1,83 1,95
1,69 1,79 1,95 1,84 1,69 2,03
1,78 2,04 2,09 2,11 2,09 1,94

Fonte: Elaborada pelo autor.

Para construir uma tabela de distribuição de frequências com dados contínuos,


devemos:

1. Encontrar o valor máximo e o valor mínimo do conjunto de dados.


O menor valor é 1,69 m e o maior valor 2,28 m.
2. Calcular a amplitude dos dados, que é a diferença entre o valor máximo e o
valor mínimo.

A amplitude dos dados é: 2,28 – 1,69 = 0,59 m.

3. Dividir a amplitude dos dados pelo número de faixas que pretende organizar
(no caso as faixas são de altura). Essas faixas recebem o nome de classes.
Vamos definir quatro classes. Então calcule:
0,59 / 4 = 0,147

4. O resultado da divisão é o intervalo de classe. Usualmente, arredonda-se esse


número para um valor mais alto, facilitando o trabalho.

Arredondar 0,147 para 0,20 e construir a primeira classe, que será de 1,60 m a
1,80m (esta classe contém o menor valor); depois, a segunda classe, que será
de 1,80 m a 2,0 m, e assim por diante.

Na classe de 1,60 m até menos de 1,80m são inseridos desde jogadores com
1,60 m até os que tem 1,79 m; na classe de 1,80 m até menos de 2,00 m são
inseridos jogadores com 1,80m até 1,99 m e assim por diante. Logo, cada classe
cobre um intervalo de 0,20 m.

Os extremos de classe correspondem aos limites dos intervalos de classe. Deve


ficar claro, na tabela de distribuição de frequências, se os valores iguais aos
extremos estão ou não incluídos na classe.

Exemplo: A primeira classe é: 1,60 ├ 1,80.

Sendo o intervalo é fechado à esquerda, pertencem à classe os valores iguais


ao extremo inferior da classe (por exemplo, 1,60 m na primeira classe) e sendo
este aberto à direita, não pertencem à classe os valores iguais ao extremo
superior (por exemplo, o valor 1,80 m não pertence à primeira classe).

Observe a Tabela 9:
Tabela 9: Distribuição da frequência para a altura dos jogadores de basquete, em metros

Classe Frequência

1,60 ├ 1,80 10
1,80 ├ 2,00 19
2,00 ├ 2,20 18
2,20 ├ 2,40 7

Fonte: Elaborada pelo autor.

O número de classes deve ser escolhido pelo pesquisador, em função do que


ele deseja mostrar. Se o número de classes for muito pequeno, muitas
informações serão perdidas. Por outro lado, se o número de classes for grande,
têm-se pormenores desnecessários.

2.6 Medidas-Resumo

São medidas que buscam sumarizar as informações disponíveis sobre o


comportamento de uma variável. O interesse é caracterizar o conjunto de dados
através de medidas que resumam a informação nele contida.

(a) Medidas de posição ou de tendência central: São medidas ao redor das quais
as observações tendem a se agrupar. Ex.: média, mediana, moda.

(b) Medidas de dispersão: Medem a variabilidade dos dados. Ex.: amplitude,


variância, desvio padrão, coeficiente de variação.

Exemplo: Em um estudo foi avaliada a influência da incorporação de um


nanomaterial na atividade antimicrobiana de um material de moldagem
odontológico. Para 3 micro-organismos avaliados, Candida albicans,
Pseudomonas aeruginosa e Streptococcus mutans, os dados apresentaram
distribuição normal, sendo aplicado um teste estatístico paramétrico.

Estes dados podem ser apresentados na forma de tabelas como segue:


Observe a Tabela 10:
Tabela 10: Halo de inibição, em milímetros, de um material de moldagem odontológico
incorporado com um nanomaterial

Concentração C. albicans P. S. mutans


aeruginosa
2.5% 11,97 22,04 (0,54)a 18,87
(0,36)a (0,90)a
5% 12,31 18,75 (1,24)b 23,24
(0,45)ab (1,25)b
10% 12,62 18,24 (0,79)b 24,58
(0,51)b (0,85)b

*Letras diferentes indicam diferença estatisticamente significante entre os grupos para


um mesmo micro-organismo. Os dados são expressos em média (desvio padrão).
Fonte: Elaborada pelo autor.

Em casos onde a distribuição dos dados não é normal, usualmente, utiliza-se a


mediana e o intervalo de confiança.

Exemplo: No mesmo estudo, para os outros 2 micro-organismos,


Staphylococcus aureus e Escherichia coli, os dados não apresentaram
distribuição normal, e um teste não paramétrico foi utilizado para análise.
Observe a Tabela 11:

Tabela 11: Halo de inibição, em milímetros, de um material de moldagem odontológico


incorporado com um nanomaterial

S. aureus E. coli
2.5% 15,88 [15,43; 16,42]a 10,39 [10,07; 11,16]a

5% 14,30 [13,10; 14,87]b 12,16 [11,57; 12,66]a

10% 12,93 [12,55; 13,08]b 14,71 [14,09; 15,38]b


*Letras diferentes indicam diferença estatisticamente significante entre os grupos para
um mesmo micro-organismo. Os dados são expressos em mediana (intervalo de
confiança).

Fonte: Elaborada pelo autor.


REFERÊNCIAS

Heyde C, Seneta E. Statisticians of the Centuries. New York: Springer-


Verlag, 2001.
Hollander M, Proschan F. The Statistical Exorcist: Dispelling Statistics
Anxiety. New York: Marcel Dekker, 1984.
Holmes C. The honest truth about lying with statistics. Springfield, Ill.:
Charles C. Thomas, 1990.
Kimble G. How to use (and misuse) statistics. Englewood Cliffs, NJ: Prentice-
Hall, 1978.
National Center for Health Statistics, “Advance Reports, 1986”. Suplemento ao
Monthly Vital Statistics Report, série 24, mar. 1990.
Tufte ER. The visual display of quantitative information. Cheshire, Conn.:
Graphics Press, 1983.
3 Apresentação dos dados numéricos em
gráficos

Cesar Penazzo Lepri

Introdução

Os gráficos representam uma forma de apresentação visual dos dados.


Normalmente, contém menos informações que as tabelas, mas são de mais fácil
leitura. O tipo de gráfico depende da variável em questão.

Um gráfico, quando bem construído, é capaz de transmitir uma ideia com muita
rapidez e de forma simples e atraente, levando o leitor a poupar tempo e a
despender menor esforço na compreensão de uma série de dados, os quais
podem ser muitas vezes de difícil percepção na forma tabular.

No entanto, se a relação entre os dados apresentados no gráfico não está clara,


este deve ser descartado, pois não contribuirá na compreensão dos resultados.

Os gráficos apresentam basicamente 4 objetivos principais:

• Possibilitar a rápida visualização dos valores ou frequências.


• Visualização da concentração e dispersão dos valores.
• Viabilizar conclusões sobre a evolução do fenômeno ou das suas
relações.
• Devem ser simples, claros e verídicos.

Objetivos
Ao final deste estudo, esperamos que você seja capaz de:
• explicar a importância da apresentação dos dados numéricos em gráficos;
• escolher a forma mais adequada de apresentá-los;
• contribuir com a interpretação dos dados.
Esquema
3.1 Apresentação de dados qualitativos
3.1.1 Gráfico de setores
3.1.2 Gráfico de barras
3.2 Apresentação de dados quantitativos
3.3 Outros gráficos para variáveis quantitativas
3.3.1 Diagrama de pontos ou de dispersão
3.3.2 Diagrama de linha
3.3.3 Polígono de frequências
3.4 Proporções das escalas
3.5 O boxplot
3.6 Considerações finais

3.1 Apresentação de dados qualitativos

Existem vários tipos de gráficos, dependendo do tipo de variável a ser


representada. Para as variáveis do tipo qualitativas, abordaremos dois tipos de
gráficos: os de setores e os de barras.

3.1.1 Gráfico de setores

Os gráficos de setores, também conhecidos como gráficos de pizza ou torta, são


excelentes recursos para comparar os valores de cada parcela de um conjunto
de dados com o total.

Este tipo de gráfico é construído, tomando por base a figura de um círculo


dividido em setores de tamanhos proporcionais aos valores que representam.
Após definir os percentuais de todas as parcelas, cada uma delas será o
elemento variável de uma regra de três que definirá a amplitude em graus, de
cada parte do círculo. O somatório dos setores deverá ser sempre de 360º ou
100% dos dados.
100% ___________ 360°
x % ___________ n graus

Ao lado de cada setor, podem ser inseridos os percentuais e os nomes de cada


parcela. Este gráfico não deve ser usado quando são muitas parcelas nem
quando existem muitas parcelas com valores muito semelhantes, sob pena de
se perder a função de comparação.

Exemplo: Por meio de um levantamento realizado em um hospital público da


cidade de Uberaba, foi avaliada a quantidade de diagnósticos da doença
Alzheimer (Tabela 1), de acordo com o sexo dos pacientes, no ano de 2015.

Tabela 1: Diagnóstico de Alzheimer de acordo com o sexo dos pacientes

Sexo Frequência absoluta Frequência relativa


Feminino 58 64,4%
Masculino 32 35,6%
Total 90 100%

Fonte: Elaborada pelo autor.

A Figura 1 mostra um gráfico de setores para a variável sexo, construído a partir


da Tabela 1.

Masculino
(32; 35,6%)

Feminino
(58; 64,4%)

Figura 1: Diagnóstico de Alzheimer de acordo com o sexo dos pacientes.

Através desse gráfico, fica fácil perceber que o maior número de diagnósticos da
doença Alzheimer foi em pacientes do sexo feminino.
Na presença de mais de duas categorias de uma variável nominal, a disposição
no gráfico de setores deve ser pela ordem decrescente das frequências, no
sentido horário. A categoria “outros”, quando existir, deve ser sempre a última,
mesmo que não seja a de menor frequência.

Exemplo: Na Tabela 2, é possível avaliar a cor do cabelo de 300 alunos


matriculados no Curso de Publicidade e Propaganda de uma Universidade, no
ano de 2015.

Tabela 2: Cor dos cabelos dos alunos do Curso de Publicidade e Propaganda

Cor dos cabelos Frequência absoluta Frequência relativa


Castanhos 98 32%
Pretos 54 18%
Loiros 44 15%
Ruivos 24 8%
Outros 80 27%
Total 300 100%

Fonte: Elaborada pelo autor.

Observe a Figura 2:

OUTROS CASTANHO
27% S
32%

RUIVOS
8%

LOIROS PRETOS
15% 18%
Figura 2: Cor dos cabelos dos alunos do Curso de Publicidade e Propaganda.
3.1.2 Gráfico de barras

O gráfico de barras (colunas) é uma alternativa aos gráficos de setores, nestes


casos, ao invés de dividirmos um círculo, dividimos uma barra. Em ambos os
gráficos, as frequências relativas das categorias devem somar 100%. Sendo
esse o objetivo dessas ilustrações: mostrar como se dá a divisão (distribuição)
do total de elementos (100%) em partes (fatias). Exemplo: A Figura 3 representa
uma opção de gráfico alternativa à Figura 1.

Figura 3: Diagnóstico de Alzheimer de acordo com o sexo dos pacientes

Quando desejamos comparar a distribuição de frequências de uma mesma


variável em vários grupos, como por exemplo, a frequência de alunos do tipo
sanguíneo A em 4 diferentes cursos da Universidade de Uberaba, temos uma
situação diferente. Para esta comparação, necessitaríamos de quatro gráficos
setoriais, um para cada curso.

Uma alternativa é a construção de um gráfico de colunas (barras), conforme as


Figuras 4 e 5, onde há uma barra para cada curso representando a frequência
de alunos com sangue do tipo A, em cada um deles. Além de economizar espaço
na apresentação, este tipo de gráfico facilita a comparação dos resultados.
Figura 4: Frequência de alunos do tipo sanguíneo A em diferentes cursos da Universidade de Uberaba.

Nesses casos, a soma das frequências relativas de alunos com este tipo
sanguíneo em cada curso não é 100% e nem deve ser, pois se tratam de
frequências calculadas nos diferentes cursos. A ordem dos grupos pode ser
qualquer, ou aquela que julgar mais adequada para a análise.

Figura 5: Frequência de alunos do tipo sanguíneo A em diferentes cursos da Universidade de Uberaba.

A Figura 6 corresponde a um gráfico de barras muito útil para a comparação da


distribuição de frequências de uma mesma variável em vários grupos. É também
uma alternativa ao uso de vários gráficos de setores, sendo, na verdade, a
junção de quatro gráficos. Porém, esse tipo de gráfico só deve ser usado quando
não houver muitos grupos para comparação, e a variável em estudo não tiver
muitas categorias.

Engenharia Química

Fisioterapia

Medicina

Odontologia

0% 20% 40% 60% 80% 100%

A B AB O

Figura 6: Frequência do tipo sanguíneo dos alunos em diferentes cursos da Universidade de Uberaba.

A comparação simultânea da distribuição de frequências de uma variável em


vários grupos pode ser interessante. Nesse caso, o uso de gráficos bem
selecionados e construídos facilita a interpretação. A Figura 7 representa a
distribuição de frequências de reprovações de alunos de uma Universidade, de
acordo com as variáveis sexo e período do curso.

Figura 7: Frequência de reprovações dos alunos, de acordo com o sexo e período do curso.
3.2 Apresentação de dados quantitativos

Variáveis discretas que assumem poucos valores podem ser tratadas da mesma
forma que as variáveis qualitativas ordinais ou seja, podemos assumir que cada
valor é uma classe e que existe uma ordem natural nessas classes.

A Tabela 7, apresentada no capítulo 2, mostra a distribuição de frequências do


número de filhos por funcionário de uma Universidade, que, nesse caso, assumiu
seis valores distintos (0, 1, 2, 3, 4 e 5). Estes dados podem ser expressos na
forma de gráfico, conforme a Figura 8, a seguir:

Figura 8: Frequência do número de filhos de 40 funcionários de uma Universidade.

Ao trabalhar com uma variável discreta, com grande número de valores distintos,
a construção da tabela de frequências e de gráficos considerando cada valor
como uma categoria fica inviável.

Exemplo: Foi realizado um levantamento do número de pontos dolorosos em


pacientes com fibromialgia. Nesses casos, o agrupamento dos valores em
classes pode ser uma solução.

Observe a Tabela 3:
Tabela 3: Distribuição de frequências do número de pontos dolorosos em 100 pacientes
portadores de fibromialgia.

Pontos dolorosos Frequência absoluta Frequência relativa


1a3 5 5%
4a6 20 20%
7a9 15 15%
10 a 12 25 25%
13 a 15 35 35%
Total 100 100%

Fonte: Elaborada pelo autor.

Observe a Figura 9:

Figura 9: Distribuição de frequências do número de pontos dolorosos em 100 pacientes portadores de


fibromialgia.

Como relatado anteriormente, a escolha do número e do tamanho das classes


depende da amplitude dos valores a ser representados e da quantidade de
observações no conjunto de dados. Classes muito grandes resumem demais a
informação contida nos dados.
Quando a variável em estudo é do tipo contínua, que assume muitos valores
distintos, o agrupamento dos dados em classes será sempre necessário na
construção das tabelas de frequências.
A representação gráfica da distribuição de frequências de uma variável contínua
pode ser feita através de um gráfico chamado histograma, conforme a Figura 10.

Figura 10: Distribuição de frequências do número de pessoas interessadas em realizar aula de música de
acordo com a idade.

Como relatado anteriormente, ao avaliar a distribuição dos dados, se os mesmos


apresentam normalidade, os resultados podem ser expressos em média e desvio
padrão.
Exemplo: Em uma pesquisa, foi avaliada a resistência à flexão de quatro
diferentes materiais odontológicos comerciais, comumente utilizados na
confecção de próteses dentárias.

Observe a Tabela 4:
Tabela 4: Resistência à flexão de diferentes materiais odontológicos

A B C D
Média 48,03 51,44 67,99 76,61
Desvio Padrão 5,58 6,02 10,7 11,54

Fonte: Elaborada pelo autor.


Observe a Figura 11:

100
90
Resistência à flexão (MPa)

80
70
60
50
40
30
20
10
0
A B C D
Material
Figura 11: Resistência à flexão de diferentes materiais odontológicos.

3.3 Outros gráficos para variáveis quantitativas

3.3.1 Diagrama de pontos ou de dispersão

Neste tipo de gráfico, cada par de observações é representado por um ponto no


cruzamento do sistema de coordenadas cartesianas (abscissa e ordenada,
normalmente intituladas como eixos X e Y, respectivamente). Esta
representação é muito útil para estudar a correlação entre duas variáveis.

A Tabela 5 e a Figura 12 mostram um esquema do desenho de diagrama de


dispersão.

Exemplo: Foram obtidos os valores de duas variáveis quantitativas, X e Y,


considerando 15 indivíduos. O eixo horizontal do gráfico representa a variável X
e o eixo vertical representa a variável Y.
Tabela 5: Comprimento dos bebês ao nascer e aos 12 meses de idade

Y X
Comprimento Comprimento
ao nascer (cm) aos 12 meses (cm)
45 70
46 70,3
48 71,9
51 78
46 70
46 71
47 71,9
46 73,5
48 72,9
48 76,8
51,5 74,9
52 74
51,9 76,8
52 77,3
52 78

Fonte: Elaborada pelo autor.

Observe a Figura 12:


Figura 12: Correlação entre o comprimento dos bebês ao nascer e o comprimento aos 12 meses de idade.

Diagrama de linhas

Séries temporais (ou séries históricas) representam um conjunto de observações


de uma mesma variável quantitativa (discreta ou contínua) ao longo do tempo.

Este tipo de gráfico possibilita identificar a variação dos dados em uma série
cronológica. Exemplo: Foram coletadas informações relacionadas ao número de
casos de dengue entre alunos de uma Universidade, de janeiro a maio de 2019.

Tabela 6: Casos de dengue entre alunos de uma Universidade, de janeiro a maio de 2019

Mês Casos de Dengue


Janeiro 5
Fevereiro 6
Março 17
Abril 14
Maio 22

Fonte: Elaborada pelo autor.

Observe a Figura 13:


Figura 13: Casos de dengue entre alunos de uma Universidade, de janeiro a maio de 2019.

Exemplo: A Tabela 7 apresenta a massa corpórea de camundongos, ao longo


do tempo, após a administração de dois tipos de dieta.

Tabela 7: Massa corpórea de camundongos alimentados com dieta padrão e dieta hiperlipídica

Início 1º mês 2º mês 3º mês


Dieta Padrão 14,3 17,5 23,4 30,5
Dieta Hiperlipídica 13,6 23,8 29,5 39,8

Fonte: Elaborada pelo autor.

A Figura 14, por meio de um diagrama de linhas, facilita a interpretação dos


resultados:

Figura 14: Massa corpórea de camundongos alimentados com dieta padrão e dieta hiperlipídica.
Polígono de frequências

Os dados apresentados em tabela de distribuição de frequências também podem


ser mostrados em gráficos denominados polígonos de frequências.
Exemplo: Em um hospital da rede pública, os pediatras registraram o peso de
138 bebês ao nascer. Observe a Tabela 8.

Tabela 8: Peso de 138 recém-nascidos (kg)

Peso ao nascer Frequência


1,2 0
1,7 4
2,2 30
2,7 35
3,2 40
3,7 20
4,2 5
4,7 4
5,2 0

Fonte: Elaborado pelo autor.

Observe a Figura 15:

Figura 15: Frequência do peso de 138 recém-nascidos (kg).


3.4 Proporções das escalas

Durante a elaboração de um gráfico, o uso de escalas com proporções corretas


é fundamental para a apresentação dos dados.

Exemplo: Foi realizado o levantamento do número de habitantes de uma cidade


do interior paulista de 1960 a 2010.

Observe a Figura 9:

Tabela 9: Número de habitantes de uma cidade do interior paulista


Ano Número de
habitantes
1960 5.595
1970 6.580
1980 6.975
1990 9.571
2000 9.890
2010 10.270
Fonte: Elaborada pelo autor.

Qual dos dois gráficos representa melhor os resultados?

Figura 16: Número de habitantes de uma cidade do interior paulista.


Observe a Figura 17:

Figura 17: Número de habitantes de uma cidade do interior paulista.

De acordo com as proporções adotas nas escalas vertical e horizontal, obtém-


se um gráfico “mais alto” ou “mais largo”, podendo distorcer o resultado.

Exemplo: 100 pessoas do sexo feminino e 100 pessoas do sexo masculino


receberam uma dieta balanceada. A tabela 9 e as figuras 18 e 19 apresentam a
porcentagem de pessoas, para cada um dos sexos, que apresentou redução na
massa corporal.

Tabela 10: Pessoas que apresentaram redução do peso, de acordo com o sexo (%)

Sexo n % com redução do peso


Feminino 100 52%
Masculino 100 48%

Fonte: Elaborado pelo autor.


Qual dos dois gráficos representa melhor os resultados?

(%)
Figura 18: Pessoas que apresentaram redução do peso, de acordo com o sexo.

Observe a Figura 19:


(%)

60
52%
50 48%

40

30

20

10

0
Feminino Masculino

Figura 19: Pessoas que apresentaram redução do peso, de acordo com o sexo.

3.5 O boxplot

O box-plot representa os dados (contínuos) através de um retângulo construído


com os quartis e fornece informações sobre os valores extremos.
Mais especificamente, consiste em um gráfico proposto para a detecção de
valores discrepantes (outliers), ou seja, valores muito diferentes do restante do
conjunto de dados, que podem representar erros no processo de coleta ou de
processamento dos dados, e, nesse caso, devem ser corrigidos ou excluídos do
banco de dados.

Em outros casos, os outliers podem ser valores corretos, que, por alguma razão,
são muito diferentes dos demais valores, devendo a análise desses dados ser
realizada cuidadosamente pois, como relatado, algumas estatísticas descritivas,
como a média e o desvio-padrão, são influenciadas por valores extremos.

Na construção do Boxplot são utilizados alguns percentis (mediana, primeiro e


terceiro quartis), que sofrem pouca influência de valores extremos. É necessário
conhecer os valores mínimo e máximo do conjunto de dados.

O Boxplot é constituído por uma caixa atravessada por uma linha, construído
usando um eixo com uma escala de valores, como mostra a Figura 20. O fundo
da caixa é marcado na escala de valores na altura do primeiro quartil (Q1). O
topo da caixa é marcado na altura do terceiro quartil (Q3). Uma linha é traçada
dentro da caixa na altura da mediana, que não precisa estar necessariamente
no meio da caixa. Entre o primeiro e o terceiro quartis, encontram-se 50% dos
dados. Essa caixa contém, portanto, metade dos dados do conjunto.

A altura da caixa é dada por (Q3 - Q1), que é denominada distância interquartílica
(DQ).Observe a Figura 20:
Maior valor
3º quartil (75%)
Unidades

Mediana

1º quartil (25%)

Menor valor

Variável

Figura 20: Representação esquemática do Boxplot.

Exemplo: Em um estudo foi avaliada a taxa de deformação de diferentes


materiais de moldagem odontológicos (A, B, C e D), após a aplicação de uma
força. Ao avaliar os dados, verificou-se que os mesmos não apresentaram
distribuição normal, e desta forma, optou-se por apresentá-los na forma de Box-
plot.

Observe a Figura 21:


Figura 21: Deformação plástica de diferentes materiais de moldagem odontológicos. Letras semelhantes
indicam igualdade estatística (P> 0,05; pós-teste de Kruskal-Wallis e Dunn).

3.6 Considerações finais

A apresentação dos dados numéricos é uma etapa de grande importância no


contexto estatístico, portanto, as tabelas e os gráficos devem ser construídos de
forma adequada para proporcionar a interpretação correta dos resultados.

REFERÊNCIAS

Gonick L, Smith W. The Cartoon Guide to Statistics. New York:


HarperCollins, 1993.
Hooke R. How to tell the liars from the statisticians. New York: Marcel
Dekker, 1983.
Paulos J. Innumeracy: Mathematical Illiteracy and Its Consequences. New
York: Hill and Wang, 2001.
Reichmann W. Use and abuse of statistics. New York: Oxford University
Press, 1962.
Spear ME. Charting Statistics. Nova York: McGraw-Hill, 1952.
Tanur J. Statistics: A guide to the unknown. 3rd ed. Belmont, Calif.: Wadsworth,
1989.
Tufte E. The visual display of quantitative information. 2nd ed. Cheshire,
Conn.: Graphics Press, 2001.
4 Noções de amostragem

Cesar Penazzo Lepri

Introdução

Amostragem é o processo de colher amostras de uma população. Já a amostra


é qualquer parte representativa de uma população.

O processo intuitivo de amostragem faz parte de nosso dia-a-dia. Alguns


exemplos: para saber se um sorvete de chocolate é gostoso, não é necessário
que se consuma todo o pote de 2,0 litros. Degustando apenas uma
bola/porção/pedaço de sorvete (amostra), podemos fazer suposições sobre o
restante do mesmo, pois se trata do mesmo pote (mesma população). O mesmo
se aplica, por exemplo, ao ato de ingerir café. Não é necessário tomar uma
garrafa de café para concluir se o mesmo está amargo ou não. Basta uma
pequena xícara (amostra). Um paciente que apresenta a suspeita de uma
determinada doença fará um exame de sangue, através da análise de uma
amostra.

As amostras geralmente são utilizadas em diversos tipos de pesquisa, sejam in


vitro, in situ ou in vivo. Também é utilizada na pesquisa nacional por amostragem
domiciliar (PNAD – IBGE), no teste de eficácia de novos medicamentos (indústria
farmacêutica), em vários tipos de exames médicos (sangue, biópsia, etc.), em
auditorias, no controle de qualidade (empresas, indústrias, hospitais, etc.).

Para conhecermos as características dos elementos de determinada população,


temos basicamente duas estratégias: estudarmos/pesquisarmos todos os
elementos da população (censo) ou então estudarmos/pesquisarmos uma
amostra dos elementos da população. O objetivo final dos estudos com amostras
será realizarmos a generalização dos resultados, que significar a extrapolação
dos resultados para a população da qual a amostra é proveniente.
O estudo de toda uma população (censo) é recomendado nos seguintes casos:
quando a população for pequena, por imposição legal e quando os dados
populacionais estiverem facilmente disponíveis em um banco de dados
eletrônico.

As principais vantagens de se realizar estudos com amostras são: economizar


tempo e dinheiro. Assim, há rapidez na obtenção dos resultados com um custo
mais baixo. Também é a única opção em testes destrutivos ou quando há
contaminação dos sujeitos e/ou amostras.

Objetivos
Ao final deste estudo, esperamos que você seja capaz de:
• explicar a importância da amostragem;
• escolher a forma mais adequada de amostragem;
• contribuir com a interpretação dos dados.

Esquema
4.1 Amostra e população
4.1.1 Amostra
4.1.2 População
4.2 Tipos de amostragem
4.2.1 Amostragens não-probabilísticas
4.2.2 Amostragens probabilísticas

4.1 Amostra e população

Vamos realizar detalhadamente, comparativos entre estudos com amostras e


populações, destacando as vantagens de cada uma.

4.1.1 Amostra

Quando se trabalha com amostras, o quantitativo de


sujeitos/pacientes/voluntários/espécimes/corpos-de-prova no estudo é menor
quando comparados aos estudos realizados em populações. Assim, é evidente
que haverá economia de mão-de-obra, tempo e dinheiro. Haverá também maior
rapidez na obtenção dos resultados. A amostra também é a única opção quando
o estudo resulta em destruição ou contaminação/morte dos elementos
pesquisados. Por ser de tamanho menor, também tende a ser mais atualizada,
possibilita maior controle de coordenação e maior uniformidade na coleta dos
dados. Em populações que ser demasiadamente grandes, que tendem ao
infinito, torna-se impossível trabalhar com toda a população (censo).

4.1.2 População

Já foi relatado algumas situações nas quais recomenda-se o estudo com


populações. Vejamos agora outras vantagens de sua utilização: em populações
pequenas o custo e o tempo de amostragem é o mesmo do censo. Outra
vantagem: se o tamanho da amostra é grande, em relação ao tamanho da
população, vale a pena fazer o censo. Por fim, o censo é o único método
aceitável quando se necessita de precisão total.

4.2 Tipos de amostragem

Existem basicamente dois tipos de amostragens: não-probabilísticas e


probabilísticas. Não amostragens não-probabilísticas, a chance de um indivíduo
da população fazer parte da amostra não é conhecida. Essa é a diferença entre
esses tipos de amostragens.

Na pesquisa científica, nem sempre o emprego de amostragens não-


probabilísticas é bem aceito. Entretanto, se os critérios de escolha forem bem
justificados, há espaço para os diferentes tipos. É claro que, considerando o
conteúdo programático de bioestatística, daremos mais ênfase nas amostragens
probabilísticas.
4.2.1 Amostragens não-probabilísticas

4.2.1.1 Bola de neve (Snowball sampling)

Neste tipo de amostragem, os indivíduos selecionados para serem estudados


convidam novos participantes e sua rede de amigos e contatos.

O nome dessa amostragem não-probabilística é oriundo justamente dessa ideia:


da mesma forma que a bola de neve aumenta de tamanho à medida que rola
ladeira abaixo, o tamanho da amostra também aumenta à medida que os
indivíduos selecionados convidam novos participantes.

Esse tipo de amostragem pode ser linear ou exponencial. Na linear, cada


indivíduo convida outro participante. Na exponencial, convida-se dois ou mais
participantes para integrar a amostra.

Trata-se de um processo muito utilizado em populações de baixa incidência


(doenças raras) e indivíduos de difícil acesso. É relativamente simples e
econômico.

A principal limitação é que não garante a representatividade, pois os


participantes são obtidos pelo convite dos outros. Também não há total controle
do tamanho da amostra e está tende a crescer muito rápido, notadamente
quando se trata do modelo exponencial.

4.2.1.2 Conveniência (acidental)

Técnica muito comum que consiste em selecionar uma amostra acessível. Isso
significa que os indivíduos foram selecionados para fazer parte da amostra pois
estavam prontamente disponíveis. A principal vantagem dessa amostragem é a
própria conveniência, tornando o processo simples, rápido e de baixo custo.

Como limitações, podemos citar: falta de representatividade e não há


possibilidade de realizar afirmações/inferências com rigor estatístico sobre a
população.
4.2.1.3 Intencional (julgamento)

O processo de amostragem intencional é aquele cuja seleção dos participantes


é feita baseada no conhecimento prévio sobre a população, considerando
também o propósito do estudo. Muito utilizada em pesquisas de opinião. O
pesquisador seleciona intencionalmente o grupo de pessoas das quais se deseja
saber a opinião.

Na pesquisa científica, esse tipo de amostragem geralmente não é bem aceito,


devendo ser evitado.

4.2.2 Amostragens probabilísticas

4.2.2.1 Amostragem aleatória simples

Nessa técnica de amostragem, os indivíduos da população têm chances


(probabilidade) iguais de serem selecionados para compor a amostra. A seleção
de cada indivíduo é feita através de sorteio aleatório, que pode ser feito no Excel
ou em algum software estatístico. É uma das técnicas mais simples de ser
utilizada e serve como base para o uso das outras técnicas.

Assim, considerando um rol de nomes de pacientes para participarem de um


determinado estudo, deve-se primeiramente atribuir um número para cada
nome. Na sequência, sorteia-se os números e, após, verifica-se a quais nomes
correspondem esses números sorteados para que os pacientes sejam
recrutados.

Esses sorteios podem ser realizados com repetição ou sem repetição. Na técnica
sem repetição, o indivíduo selecionado para a amostra só poderá ser
selecionado uma única vez. Quando da utilização da técnica com repetição, um
indivíduo selecionado em um sorteio não está impedido de ser selecionado nos
sorteios seguintes. Para determinador qual tipo de sorteio realizar, o pesquisador
deve conhecer profundamente o que está sendo estudo, notadamente as
variáveis de resposta.
Nessa técnica, quando os softwares estatísticos são utilizados, conseguimos a
obtenção de amostras bem representativas da realidade, de modo que o erro
que poderá ser introduzido será apenas referente ao “azar aleatório”.

4.2.2.2 Amostragem aleatória estratificada

Inicialmente, deve-se dividir a população em diferentes


estratos/grupos/subgrupos/segmentos diferentes, de maneira que cada
indivíduo pertença a um, e apenas um estrato.

Existem duas propriedades importantes que devem ser cumpridas durante a


estratificação: cada estrato deve apresentar características internamente
homogêneas e externamente heterogêneas, com respeito às variáveis
estudadas.

Para exemplificar, podemos considerar a estratificação de uma população de


acordo com o nível socioeconômico. Nesse caso, a população pode ser dividida
nos seguintes estratos: Estrato 1: renda de 1 a 3 salários; Estrato 2: renda acima
de 3 até 6 salários; Estrato 3: renda acima de 6 até 9 salários; Estrato 4: renda
acima de 9 salários. O critério para a faixa de renda de cada estrato deve ser
criado, e devidamente justificado, pelo pesquisador responsável. Note que os
indivíduos que estão dentro de um mesmo extrato possuem características
similares, configurando a homogeneidade interna.

Considerando que a população já esteja devidamente estratificada, passemos


agora à formação da amostra. Esta deverá ser constituída pelos mesmo estratos
populacionais. Assim, ainda no exemplo acima dos estratos de acordo com o
nível socioeconômico, a amostra também terá os 4 (quatro) estratos. É
importante que a proporção dos indivíduos nos diferentes estratos populacionais
seja mantida nos estratos da amostra, ou seja, manteremos o critério de
proporcionalidade. Assim, se o Estrato 1 (renda de 1 a 3 salários) tiver uma
proporção de 50% dos indivíduos da população, a proporção de indivíduos da
amostra do Estrato 1 também será 50%. Dessa forma, estamos diante de
Amostragem Aleatória Estratificada Proporcional. Trata-se da amostragem
estratificada mais utilizada e mais aceita na pesquisa científica.
4.2.2.3 Amostragem aleatória por conglomerados

A divisão inicial da população lembra a estratégia de amostragem aleatória


estratificada. No entanto, para os conglomerados (clusters), temos o inverso da
estratificação, ou seja: cada conglomerado possui características internamente
heterogêneas e externamente homogêneas.

Se, por exemplo, a variável de estudo for nível socioeconômico, teremos dentro
de um conglomerado as mais variáveis faixas de renda. Outro exemplo seria
para a variável escolaridade: o cluster teria internamente características
heterogêneas, ou seja, desde um indivíduo sem qualquer tipo de alfabetização
até um indivíduo com pós-doutorado estariam dentro de um mesmo
conglomerado. E, externamente, haveria uma característica homogênea, como
por exemplo a cidade destes indivíduos: “todos são de Uberaba-MG”. Esse
inclusive é um dos principais tipos de conglomerados, conhecido como “cluster
geográfico”.

A montagem de amostra pode ser feita de duas formas: por amostragem


aleatória simples dentro de cada conglomerado (sorteio aleatório) ou, quando o
conglomerado possui todas as variáveis em questão, podemos selecionar um
conglomerado para representar a população, tornando-se a amostra do estudo.
Em alguns casos, mais de um conglomerado é selecionado para compor a
amostra.

4.2.2.4 Amostragem aleatória sistemática

Nessa amostragem probabilística, realiza-se inicialmente um sorteio aleatório


entre todos os indivíduos da população, seguindo os mesmos critérios descritos
na amostragem aleatória simples. Após, são selecionados para a amostra cada
enésimo indivíduo da população.

Para determinação dos próximos indivíduos que serão sorteados após o primeiro
sorteio, seguimos a sistematização de k em k, onde k = N/n.
Exemplo: em uma população de 30 indivíduos, realizou-se o cálculo do
dimensionamento amostral e definiu-se que o tamanho da amostra será de n=5.
Para o uso da amostragem aleatória sistemática, primeiramente será feito um rol
destes 30 indivíduos (cada indivíduo receberá um número). Considerando que k
= N/n, temos que k = 30/5 = 6.

Assim, faremos um primeiro sorteio entre os números 1 a 6. Se o número


sorteado foi 5, os próximos números a serem incluídos na amostra serão obtidos
pela soma de 6 em 6 unidades, a partir do primeiro número selecionado.
Portanto, temos os seguintes números na amostra: {5, 11, 17, 23, 29, 35}.

Assim como a amostragem aleatória simples, a amostragem aleatória


sistemática apresenta boa representatividade, sem precisar realizar diversos
sorteios aleatórios. Com o advento e disseminação do uso dos softwares
estatísticos, esse tipo de amostragem acabou deixando de ser tão popular.

REFERÊNCIAS

Bennet D. Randomness. Cambrigdge: Harvard University Press, 1998.


Freedman D, Pisani R, Purves R, Adhikari A. Statistics. 3rd ed. New York:
Norton, 1997.
Huff D. How to lie with statistics. New York: Norton, 1993.
Kotz S, Stroup D. Educated Guessing – How to cope in an uncertain World.
New York: Marcel Dekker, 1983.
Mendenhall W, Ott L, Scheaffer RL. Elementary Survey Sampling. Belmont,
Califórnia: Wadsworth, 1971.
PNAD – IBGE. Pesquisa Nacional por Amostra de Domicílio. Disponível em:
https://www.ibge.gov.br/estatisticas/sociais/trabalho/9127-pesquisa-nacional-por-amostra-
de-domicilios.html?=&t=o-que-e. Acesso em: 9 out. 2019.

Simon J. Resampling: The new statistics. Belmont, Calif.: Duxbury Press, 1992.

Você também pode gostar