Você está na página 1de 20

Material Didático

Licenciatura em Ciências Biológicas

Tópicos de Estatística

Visualização e Apresentação Gráfica de Dados:


Dados Qualitativos

Lino Marcos da Silva


Sumário

1. Competência 01 | Organizando a Apresentação de Dados

2. Competência 02 | Apresentação Gráfica de Dados: Dados Qualitativos

3. Competência 03 | Apresentação Gráfica de Dados: Dados Quantitativos

4. Competência 04 | Medidas de Tendência Central

5. Competência 05 | Medidas de Dispersão: Amplitude, Quartis e Gráfico de


Caixa

6. Competência 06 | Medidas de Dispersão: Variância e Desvio Padrão

7. Competência 07 | Correlação Linear

8. Competência 08 |Regressão Linear


2. Competência 02 | Apresentação Gráfica de Dados: Dados Qualitativos

Introdução

Neste Fascículo, trataremos da construção e visualização de gráficos, que são importante


recursos utilizados na análise exploratória de dados, bem como na sua apresentação e
comunicação. Essa tarefa é chamada de visualização de dados.
A visualização de dados consiste no uso de representações visuais para explorar,
compreender e comunicar os dados.
Na prática, esta tarefa consiste na construção de infográficos, diagramas e gráficos
estatísticos usando uma ou mais variáveis.
Para essa tarefa é fundamental o uso de ferramentas computacionais adequadas, como
planilhas eletrônicas (excel, LibreOffice Calc, Google Sheets) ou softwares como o R e o
Orange.
A visualização de dados consiste no uso de representações visuais como os
diferentes tipos de gráficos para explorar, compreender e comunicar os dados.

Por quê usar gráficos para representar dados?


Gráficos têm a característica de apresentarem, em uma única imagem, uma
variedade de informações, revelando-as com muita rapidez e de uma maneira que as
pessoas entendem.
Além disso, a visualização de dados por meio de gráficos possibilita, de maneira
mais rápida, verificar o formato da distribuição dos dados, bem como a existência de
lacunas e valores discrepantes (outliers).
É recomendável iniciar a visualização de dados usando-se uma variável por vez
(análise univariada).
Além disso, é importante identificar quais variáveis são numéricas (dados
quantitativos) e quais são categóricas (dados qualitativos), pois elas requerem técnicas
diferentes de visualização.
Ao iniciarmos uma análise exploratória por meio da visualização dos dados é
interessante termos em mente algumas questões como:
 Tenho todos os dados que preciso para responder a minha pergunta ou o meu
problema?
 O conjunto de dados apresenta lacunas ou aglomeração de dados?
 Existem dados discrepantes?
 Os dados contém algum tipo de erro?

As principais técnicas de visualização de dados utilizam-se da construção de gráficos


de linhas (tendência), gráfico de barra, gráfica de pizza (de setores), gráfico de dispersão,
histogramas e mapas de calor.
Neste fascículo, ao lado do nome de cada tipo de gráfico colocaremos, entre
parênteses, o nome equivalente em inglês. Isso será importante para que o leitor possa ir se
familiarizando com ícones do software Orange ou comandos do R ou da linguagem Python
para construção de gráficos.
As planilhas eletrônicas (Libreoffice, Excel e Google Planilhas) e as linguagens de
programação Pyhton e R possuem recursos potentes para a construção dos vários tipos de
gráficos.

Visualização de Dados Categóricos

Os principais tipos de gráfico para visualização de dados categóricos são o gráfico de


barra e o gráfico de setores, também chamado de gráfico de pizza. Porém, antes de
estudarmos esses tipos de gráficos, vamos falar sobre uma tarefa importante quando se
trata de variáveis categóricas: a contagem.
Para exemplificar uma contagem de valores de uma variável categórica, vamos usar
algumas linhas e colunas do dataset Animais (Fascículo 1).
Usando a Tabela 2.1 abaixo, vamos usar a contagem de valores de variáveis para
responder as seguintes perguntas:
 Existem mais animais da espécie cão ou da espécie gato?
 Qual a proporção de animais castrados?
 Quantos animais são fêmeas?
Tabela 2.1 – Registro dos animais do Abrigo

Tempo de
Idade Peso
Animal ID Espécie Sexo Castrado Patas adoção
(ano) (kg)
(semanas)

0101 gato fêmea 1 Não 4 2,9 3

0201 coelho fêmea 3 Sim 4 1,6 8

0301 gato fêmea 2 Sim 4 3,4 1

0401 gato fêmea 5 Sim 4 3,7 6

0501 gato macho 16 Sim 4 4,2 5

0601 gato fêmea 7 Sim 4 3,8 6

0701 caracol hermafrodita 0,5 Não 0 0,1 3

0801 gato fêmea 2 Sim 4 2,9 5

0901 gato macho 1 Não 4 1,5 1

Nessa contagem, a quantidade de vezes que um determinado valor aparece na


variável é chamado de frequência. Assim, quanto maior a frequência de um determinado
valor, mais vezes ele aparece na variável.
Por exemplo, na Tabela 2.1, a frequência do valor gato é 7; a frequência do sexo
fêmea é 6; a frequência do valor macho é 2; e a frequência do valor Sim, na variável castrado
é 6. Esse tipo de frequência é chamada de frequência absoluta ou simplesmente
frequência.
Uma forma de organizar dados categóricos é escrevendo uma Tabela de
distribuição de frequências, como a apresentada abaixo para a variável Sexo.

Sexo Frequência Frequência Frequência


acumulada relativa

Macho 6 6 66,7%

Fêmea 2 8 22,2%

Hermafrodita 1 9 1,1%
A frequência acumulada contém, em cada linha, a soma parcial dos valores da
variável até uma determinada linha.
A frequência relativa é a proporção que determinada categoria representa em
relação a totalidade dos valores de uma variável. Essa proporção, geralmente apresentada
em porcentagem, é obtida dividindo-se a frequência dessa categoria pelo número total de
valores da variável (tamanho da amostra dos dados)..

Frequência
Frequência relativa=
Tamamho da amostra

Por exemplo, a frequência relativa de fêmeas na amostra da Tabela 2.1 é calculada


da seguinte maneira:
6
Frequência relativa= =0,6666666. ..
9
Multiplicando esse valor por 100 e fazendo-se um arrendondamento na primeira
casa decimal após a vírgula, obtemos 66,7%.

Exercício Resolvido 1
Usando os dados da Tabela 2.1, construir a Tabela de Frequências (absoluta, acumulada e
relativa) da variável Castrado.
Resolução

Fazendo a contagem de cada valor, obtemos a seguinte tabela:

Castrado Frequência Frequência Frequência


acumulada relativa

Sim 6 6 66,7%

Não 3 9 33,3%
Gráfico de Barras (bar chart)
São indicados quando existem dados categóricos ou dados numéricos bem
segmentados entre diferentes categorias. Neste tipo de gráfico, as barras podem ser
horizontais ou verticais.
No dataset Animais, a variável “Sexo” possui 3 valores distintos: macho, fêmea e
hermafrodita. Logo, os valores dessa variável estão segmentados em 3 categorias distintas.
Logo, um gráfico de barra pode ser utilizado para possibilitar, com clareza, a visualização e
comparação dessas categorias, no caso macho, fêmea e hermafrodita.
Em gráficos de barras, como o da Figura 2.1, cada barra representa uma categoria
de valor da variável. Neste exemplo, o comprimento da barra representa a quantidade de
animais de cada sexo.
Note que a maioria dos animais são machos, pois a barra que representa essa
categoria de valores possui o maior comprimento.

Figura 2.1 – Gráfico de barras da variável sexo (dataset Animais).

A variável “Espécie” (dataset Animais) também possui várias categorias, sendo uma
para cada espécie. Dessa maneira, também podemos usar um gráfico de barras para
visualizar a quantidade de animais por espécie. Para isso basta construir um gráfico de
barras para a variável.
Figura 2.2 – Gráfico de barras da variável Espécie (dataset Animais).

Por meio da análise do gráfico de barras da Figura 2.2, podemos concluir que as
espécies com o maior número de animais adotados no abrigo são cão e gato, visto que essas
categorias são representadas pelas barras de maiores comprimento.

Gráficos de barras também são úteis para visualizar dados de duas variáveis. Por
exemplo, pense na seguinte pergunta:

Qual é a espécie de animais do abrigo com maior tempo médio de adoção?

Para responder a essa pergunta, precisaremos fazer um agrupamento dos valores


da variável “tempo de adoção” por “espécie”.
Isto é, devemos agrupar os valores do tempo de adoção para cada umas espécies e,
em seguida, calcular a média de cada um desses agrupamentos. Essa tarefa resultará numa
tabela como a Tabela 2.1.
Depois disso, podemos plotar um gráfico de barras contendo informações sobre as
espécies e o tempo médio de adoção de cada uma delas, conforme Figura 2.3.

Observe que os dados da Tabela 2.1 indicam que a espécie cão possui, em média, o
maior tempo de adoção. Isto é, cão é a espécie do abrigo, cujos animais demoram mais
tempo, em média, para serem adotados.
Tabela 2.1 – Tempo médio de adoção por espécie.

Tempo Médio de
Espécie
Adoção

Cão 8,33

Gato 3,46

Coelho 3,00

Lagarto 3,50

Caracol 3,00

Tarântula 1,00

Com os dados dessa tabela podemos construir um gráfico de barra, por meio do
qual podemos visualizar dados das variáveis Espécie e Tempo de adoção. Veja o gráfico na
Figura 2.3.

Figura 2.3 – Gráfico de barras Espécie x Tempo Médio de adoção

Cuidados ao construir um gráfico


Para construir um gráfico de barras manualmente, devemos atentar para os
seguintes procedimentos:
 Desenhar o sistema de eixos cartesianos (horizontal x vertical).
 Anotar as categorias da variável estudada no eixo horizontal.
 Escrever as frequências ou as frequências relativas (porcentagens) no eixo vertical,
obedecendo a uma escala.
 Desenhar barras verticais de mesma largura para representar as categorias da
variável em estudo. A altura de cada barra deve ser dada pela frequência (ou pela
frequência relativa) da categoria.
 Colocar legendas nos dois eixos e inserir um título, em geral, no topo da figura.

Exercício Resolvido 2
Num determinado município foi realizado uma pesquisa com 100 pequenos produtores
rurais. Quando indagados se estavam satisfeitos com o serviço de assistência técnica de e
extensão rural (ATER) ofertado pela prefeitura municipal, responderam da seguinte maneira:
60 afirmaram que sim, 27 disseram que em parte, 8 disseram que não e 5 não quiseram
responder. Construir um gráfico de barras para apresentar os resultados dessa pesquisa. O
Resolução

Primeiro, podemos organizar os dados da pesquisa em uma tabela de frequências, como ilustrado
abaixo.

Tabela 1 – satisfação com o serviço de ATER

Resposta Frequência

Sim 60

Em parte 27

Não 8

Sem resposta 5

Total 100

Agora, construímos o gráfico de barras (verticais) colocando-se os quatro tipos de respostas no eixo
horizontal e as frequências das respostas no eixo vertical. Note que a barra mais alta representará a
resposta sim e a mais baixa a ausência de resposta. A Figura 2.4 apresenta o gráfico de barra feito
com os dados da Tabela 1 no LibreOffice Calc.
Frequência Satistação com serviço de ATER
70
60
50
40
30
20
10
0
Sim Em parte Não Sem
resposta
Figura 2.4– Gráfico de barras feito no LibreOffice.

Gráfico de pizza ou de setores (pie chart)


Este tipo de gráfico é indicado, principalmente, para visualização de dados
categóricos (qualitativos), porém, desde que o número de categorias seja pequeno.
Vale destacar que gráficos de pizza somente deve ser utilizado para ilustrar
proporções relativas de uma medida específica, como os exemplos das figuras 2.5 e 2.6

Figura 2.5 – Gráficos de Setores das variáveis sexo e espécie.

Em um gráfico de pizza, quanto maior a frequência de um determinado valor na


variável, maior é a área do setor circular que representa essa categoria de valor.
Observe na Figura 2.6 que animais castrados são a maioria no abrigo, enquanto que
animais com número de patas diferentes de 4 são a minoria.

Figura 2.6 – Gráficos de Setores das variáveis castrado e patas.

Se a quantidade de categorias a serem exibidas for muito grande deve-se considerar


o uso de um gráfico de barras em vez do gráfico de pizza.
Alguns especialistas consideram que o número máximo de categorias a ser
representado em um gráfico de pizza é 4, enquanto outros apontam o número 7. No
entanto, o que deve prevalecer é o bom senso.
De fato, a função principal de um gráfico é facilitar a visualização dos dados. Se ao
fazer um gráfico de pizza, perceber-se que a visualização dos dados não está clara, então é
melhor tentar usar outro tipo de gráfico.
A construção manual de um gráfico de setores requer que se trace uma
circunferência (que representará o total, ou seja, 100% dos dados) e que, em seguida,
divida-se essa circunferência em tantos setores quantas sejam as categorias da variável em
estudo. Mas, para isso é preciso calcular o ângulo de cada setor, que é igual à proporção de
respostas na categoria, multiplicada por 360°.

No entanto, na prática, é preferível usar um recurso computacional como os


indicados na próxima seção e no próximo exercício resolvido.

Exercício Resolvido 2
Usando uma planilha eletrônica (Excel, LibreOficceCalc ou Google sheet), construir um
gráfico de setores com os dados da pesquisa apresentada no Exercício Resolvido 1.
Resolução

Primeiro, copiamos os dados da Tabela 1 para a planilha eletrônica escolhida. Neste exercício,
usaremos o LibreOffice Calc.

Passo 1 – Copiamos os dados para a planilha eletrônica.

Passo 2 – Selecionamos todas as 5 linhas e 2 colunas de dados e clicamos no ícone localizado


na barra de ferramentas da planilha.
Passo 3 – Escolhemos o tipo de gráfico Pizza, selecionamos o formato desejado e clicamos
em próximo (para incluir título e outros detalhes) ou em finalizar.

Passo 4 – Editar, caso seja necessário, e copiar o gráfico para o seu arquivo de texto ou
salvar com uma imagem.

Satisfação com serviços ATER

Sim
Em parte
Não
Sem resposta

Figura 2.7 – Gráficos de Setores das variáveis castrado e patas.


Ferramentas computacionais para a construção de gráficos

Dentre as ferramentas computacionais para o trabalho com estatística, de um modo


geral, e com a elaboração de gráficos, de um modo particular, as planilhas eletrônicas são
um destaque. Isso se deve ao fato de que essas ferramentas são de fácil acesso e também de
fácil usabilidade.
Dentre estas, as mais conhecidas são LibreOffice Calc, o Excel e o Google planilhas
(Googe sheets), que possuem ícones próprios para a construção de gráficos. Para utilizar
essa funcionalidade em cada um desses softwares, basta realizar uma pesquisa na internet.
Existem vários bons tutoriais disponíveis!
De uma forma mais sofisticada, softwares como o R e Orange também possibilitam
a realização de análises estatísticas, incluindo a elaboração de diversos tipos de gráficos. No
entanto, no caso do primeiro, é importante a ter uma pequena noção de programação para
um melhor aproveitamento da ferramenta. Por outro lado, os software Orange é livre de
comandos e trabalha apenas com ícones, sem a necessidade de qualquer conhecimento de
linguagens de programação.
Por fim, a análise de dados e a construção de gráficos também pode ser realizadas
com a linguagem de programação Python, por meio de suas bibliotecas Matplotlib e
Seaborn e de seus respectivos comando.
ção de dados no Orange

Exercício Resolvido 3
Uma doença pode ser classificada em três estágios (leve; moderada; severa). Foram
examinados 20 pacientes e obtidos os seguintes dados: moderado, leve, leve, severo, leve,
moderado, moderado, moderado, leve, leve, severo, leve, moderado, moderado, leve,
severo, moderado, moderado, moderado, leve. Com base nesses dados, faça o que se
pede:
a) construa a tabela de frequência desses dados.
b) desenhe um gráfico de setores para apresentar a distribuição de frequências da tabela do
item a).
c) desenhe um gráfico de barras para apresentar a distribuição de frequências da tabela do
item a).
Resolução

a) Para construir a tabela de frequência basta contar o número de vezes que cada um dos valores
leve, moderada e severa aparecem nos resultados.

Estágio Frequência

Leve 8

Moderada 9

Severa 3

Total 20

b) Usando o LibreOffice Calc e fazendo-se os procedimentos adotados no Exercício Resolvido 2,


obtemos o seguinte gráfico de setores:

Estágio da Doença

15%
Leve
Moderada
40%
Severa

45%

c) Usando o LibreOffice Calc e fazendo-se os procedimentos adotados no item (b), mas escolhendo o
tipo de gráfico como gráfico de colunas ou gráfico de barras, obtemos o seguinte gráfico de barras:
Obs. Escolhendo-se Barras como o tipo de gráfico, o LibreOffice Cal constrói um gráfico com barras
horizontais.
Estágios da Doença

Severa

Frequência
Moderada

Leve

0 1 2 3 4 5 6 7 8 9 10
Agora, escolhendo -se Coluna como o tipo de gráfico, o LibreOffice Calc constrói um gráfico
com as barras verticais.

Estágios da Doença
10

6 Frequência
4

0
Leve Moderada Severa

Que tal aprender um pouco mais?


Para saber mais sobre gráficos:
Acesse a página Principais tipos de gráficos para a educação básica.

Links para as páginas dos softwares citados neste Fascículo.


LibreOffice Calc
Google Sheets
R
Orange
Exercícios Propostos

1. O gráfico a seguir mostra a quantidade de irmãos que cada aluno do 2º ano A tinha. Os
alunos que eram filhos únicos não participaram da pesquisa. Ao analisar o gráfico, o
professor percebeu que os estudantes se esqueceram de colocar as porcentagens referentes
a cada um dos valores.

Quantidade de irmãos dos alunos do 2º A

Fonte: https://exercicios.brasilescola.uol.com.br/exercicios-matematica/exercicios-sobre-estatistica.htm

Ainda que o gráfico não tenha as porcentagens, analisando-o é possível concluir que:
A) menos da metade dos estudantes pesquisados tem 2 irmãos ou mais.
B) menos da metade dos estudantes pesquisados possui no máximo 2 irmãos.
C) a maior parte dos estudantes pesquisados possui exatamente 1 irmão.
D) mais da metade dos estudantes pesquisados tem 3 irmãos ou mais.
E) mais da metade dos estudantes pesquisados possui pelo menos 2 irmãos.

2. Durante uma pesquisa feita por um petshop, o atendente da loja realizava duas perguntas
para cada um dos clientes atendidos naquele dia:
 Quais são as espécies de seus animais de estimação?
 Quantos animais de estimação de cada espécie você tem?
 O resultado da pesquisa foi representado no gráfico a seguir:

Quantidade de animais dos clientes do petshop

Fonte: https://exercicios.brasilescola.uol.com.br/exercicios-matematica/exercicios-sobre-estatistica.htm

Após analisar o gráfico, julgue como verdadeira ou falsa cada uma das afirmativas a seguir:
I – Podemos inferir que a pesquisa foi respondida por 45 clientes.
II – O animal mais frequente é o cachorro, que representa aproximadamente 47% dos
animais.
III – Há somente 3 animais diferentes de gato, cachorro e peixe.
Marque a alternativa correta:
A) Todas as afirmativas são verdadeiras.
B) Somente a afirmativa I é falsa
C) Somente a afirmativa II é falsa
D) Somente a afirmativa III é falsa.
Gabarito

1. E, 2. B

Você também pode gostar