Você está na página 1de 6

Histograma - Como ler um histograma

Uma boa maneira de visualizar a distribuição de uma variável numérica é um


histograma. Mas no que eles consistem? Histogramas são uma forma de
exibir a distribuição de um conjunto de dados, representando o número ou
porcentagem de observações cujos valores se enquadram dentro de
intervalos numéricos predefinidos e, em seguida, plotando esses números ou
porcentagens em um gráfico de barras. Ou seja, em um histograma, os dados
são colocados em intervalos e a altura das barras representa o número de
casos que caem em cada intervalo. Em outras palavras, um histograma
fornece uma visão da densidade de dados.

Primeiro passo - eixo Y

A primeira coisa a se observar em um histograma é: onde está o seu pico?


Nesse caso, barras mais altas representam onde os dados são relativamente
mais comuns!

Moda ou Modalidade
As distribuições podem ser unimodais com um pico proeminente, bimodais
com dois picos proeminentes, ou uniformes sem picos proeminentes. Com
mais de dois picos proeminentes uma distribuição é geralmente dita ser
multimodal.

Você trabalhará mais de perto com a distribuição unimodal, também chamada


de distribuição normal, que você também pode conhecer como a curva de
sino como você pode ver acima. Uma distribuição bimodal pode indicar que
existem dois grupos distintos em seus dados.

Segundo passo - eixo X

A segunda coisa a se fazer é avaliar a dispersão da sua amostra para


entender o quanto seus dados variam. Será que meus dados são simétricos?
Ou seja, se eu dividir o gráfico no meio, o lado esquerdo vai ser igual ao lado
direito? É assimétrico? Ou seja, o lado direito não parece com o esquerdo?
Será que eu tenho outliers (valores extremos)?

Assimetria

Aqui, verei a assimetria (skewness) da minha curva. Se nenhuma assimetria é


aparente, então a distribuição é dita ser simétrica (em outras palavras o lado
direito da curva é igual ao esquerdo). Em uma distribuição assimétrica à
esquerda, a cauda mais longa está à esquerda na extremidade negativa, ou
seja, eu tenho alguns valores extremos menores/negativos. E em uma
distribuição assimétrica direita é o contrário, a cauda mais longa está à direita,
a extremidade positiva.
Exemplo

Supomos que eu queira analisar a pressão sistólica. A pressão arterial


sistólica (PAS), também conhecida como “pressão máxima”, se refere à
pressão do sangue no momento que o coração se contrai para impulsionar o
sangue para as artérias. Quanto mais o coração se contrai, maior é a pressão
sistólica. A leitura da pressão arterial é medida por milímetros de mercúrio
(mmHg). Dessa forma, se o paciente apresentar uma pressão arterial de
120/90 mmHg, isso significa que a sua pressão máxima sobre a parede da
artéria (sistólica) é de 120 mmHg.
Vamos dizer que temos uma amostra clínica de 113 homens selecionados
aleatoriamente de uma população clínica. Temos medidas sobre as pressões
sanguíneas sistólicas. Com isso, podemos criar um histograma com esses
dados coletados.
Então na figura acima vemos um histograma dessas 113 medidas com
intervalos iguais a 10 milímetros de mercúrio. Podemos ver inicialmente que
se trata de uma distribuição unimodal, com pico centrado entre 110 e 120
mmHg. Ou seja, esse é o intervalo em que mais temos observações.
Podemos ver também que quando chegamos a 90 temos uma crescente no
gráfico até chegar ao intervalo de 120 a 130, que então começa a diminuir
novamente. Sobre a distribuição e assimetria, temos que olhar com um pouco
mais de calma. Teoricamente, podemos dividir o histograma no meio e nos
perguntar se o seu lado esquerdo é igual ao direito. Nesse caso, percebemos
que não é igual, então podemos afirmar que tem uma certa assimetria,
correto? Mas também devemos lembrar que dificilmente vamos ter uma
distribuição 100% simétrica, apenas encontramos isso na teoria de uma
distribuição normal.

Outras formas de representação

Para tornar os histogramas comparáveis entre amostras de diferentes


tamanhos de amostra podemos em vez de apresentar o número absoluto
observado no eixo y, podemos, em vez disso, apresentar a proporção relativa,
que no nosso exemplo é a percentagem de homens, como visto na figura
abaixo.
Outra forma de representar seria colocando o intervalo de avaliação de
maneira diferente. Em vez de intervalos de 10 mmHg, quero torná-las mais
largas. Quero fazê-los 20 mmHg! E o que isso vai fazer com o nosso gráfico?
Veja na figura a seguir!

Aqui na figura acima, nós não temos tantos detalhes sobre a disseminação
dos valores e como eles estão centrados no meio e como a proporção deles
diminui quanto mais nos afastamos desse centro. Ele ainda está aqui, mas
não tão detalhadamente quanto vimos antes. Quanto maior colocarmos o
intervalo, mais detalhes perdemos.
Por outro lado, podemos exagerar na outra direção e fazer as caixas
realmente pequenas. Neste caso, eu fiz o histograma com caixas de um
milímetro de mercúrio de largura, e ainda vemos algo parecido com o que
vimos quando tínhamos caixas de 10 milímetros de mercúrio de largura, mas
talvez com mais detalhes do que é necessário pelo menos para esta amostra
única! Podendo, então, prejudicar a nossa análise.

Agora, você deve estar se perguntando, como eu calculo a quantidade de


“caixas” no histograma e suas larguras? Bem, essa parte é fácil. Em teoria, o
número de classes seria a raiz quadrada no número de observações. Outro
método utilizado é a regra Sturges, onde k = 1 + 3,322 * log 10 (N), sendo k o
número de classes, N o número total de observações na amostra e Log é o
logaritmo comum da base 10.

Já para saber a amplitude, basta calcular o valor máximo menos o valor


mínimo e dividir pelo número de classes. Você pode usar desta forma, mas a
ideia é que sejam exemplos menos “teóricos” e mais aplicados à vida real.
Depende do seu problema ou interesse. Pode ser que para sua pergunta de
pesquisa seja mais interessante colocar de 5 em 5 mmHg do que 10 em 10
mmHg.

Você também pode gostar