Você está na página 1de 21

Análise exploratória

de dados
Conforme a necessidade de trabalhar com dados cresce entre as empresas e profissionais, é
necessário coletar e processar os dados. Contudo, antes de criarmos qualquer modelo ou iniciar
um processo de tomada de decisão, precisamos conhecer a fundo os nossos dados. Por isso,
utilizamos a análise exploratória de dados, uma das etapas mais importantes do processo de
análise de dados, por meio da qual é possível:

1 gerar insights sobre os dados;

2 verificar suposições;

3 preparar os dados para realizar as segmentações;

4 corrigir informações;

realizar, se necessário, o pré-processamento dos dados, que é um conjunto de


5 atividades que envolva preparação, organização e estruturação dos dados.
Para garantir que os dados que foram coletados estejam corretos, precisamos analisar e
corrigir nossa base de dados. Como vimos no tópico padronização, limpeza e transformação dos
dados, procuramos por:

1 valores faltantes (missing values);

2 valores inconsistentes;

3 categorização incorreta.

Para limpar a base de dados é preciso analisar de forma aprofundada os impactos que esses
dados inconsistentes podem trazer para nossa análise e definir os principais caminhos a serem
percorridos nesse processo, tais como: correção dos valores, coleta de novos dados ou ainda
verificar se um determinado dado deverá ser utilizado em nossa análise.
Uma vez que os dados estão corretos, começamos nosso processo de
análise descritiva dos dados.

Podemos realizar análises univariadas para entender melhor cada uma


dessas variáveis. A análise univariada é a análise individual de cada uma das
variáveis do nosso banco de dados. Podemos realizar uma análise de
medida central, em que analisamos média, mediana e moda; análise de
dispersão, em que podemos analisar o maior e menor valor, os quartis,
variância e desvio padrão; e análises gráficas, como histograma e boxplot.

Quando analisamos mais de uma variável ao mesmo tempo, podemos


realizar análises bivariadas e multivariadas, nas quais podemos utilizar
tabulação cruzada ou tabelas para sumarizar os valores, gráficos de
dispersão, análise quantitativa de dependência entre variáveis.
O conteúdo a seguir
está disponível nos
Epsódios “Análise
exploratória de dados ”
EPISÓDIO 1 - Base de dados

O DATASUS disponibiliza informações que podem servir para subsidiar análises objetivas
da situação sanitária, tomadas de decisão baseadas em evidências e elaboração de programas de
ações de saúde.

Vamos imaginar o seguinte cenário: recebemos uma demanda para a qual será necessário analisar os
dados do Sistema de Informações Hospitalares (SIH/SUS) e identificar as principais características da
base de dados e o impacto de cada variável.

Para realizar as análises, será utilizada apenas uma parte dos dados do SIH/SUS, compreendendo o
período de um mês, e contendo todos os municípios do Rio de Janeiro.
EPISÓDIO 2 - Análise quantitativa

Para realizar uma análise exploratória, vamos utilizar como exemplo a base de dados do
Sistema de Informações Hospitalares (SIH/SUS), na qual observamos 46 colunas, que correspondem às
variáveis disponíveis no banco de dados, e 100 observações, que são representadas pelas linhas do
banco de dados.

Antes de realizar qualquer operação, precisamos definir o tipo de cada variável. Vamos utilizar como
exemplo as variáveis, ESPEC, SEXO, QT_DIARIAS, VAL_SH e DIAS_PERM.

Para facilitar a visualização, adicionamos um filtro no Excel que nos permite selecionar os valores. Na
variável ESPEC, podemos notar que existem três categorias nessa base de dados: cirúrgico, clínico e
pediátrico. Nesse caso, já podemos definir que temos uma variável qualitativa, e, como não se trata de
uma hierarquia, temos, portanto, uma variável nominal.
EPISÓDIO 2 - Análise quantitativa

Para SEXO podemos utilizar a mesma lógica, duas categorias, sem nenhuma hierarquia,
então temos uma variável qualitativa nominal.

Já as variáveis QT_DIARIAS, que é a quantidade de diárias, e DIAS_PERM, que é a quantidade de dias de


permanência, são numéricas e, analisando a natureza das variáveis, podemos notar que são contagens
de dias. Dessa forma, quando a variável é resultado de uma contagem, temos uma variável quantitativa
discreta.

Agora veja a variável VAL_SH, que é o valor de serviços hospitalares. Podemos observar que essa
variável representa valores monetários e são fracionados, assim, trata-se de uma variável quantitativa
contínua.
EPISÓDIO 2 - Análise quantitativa

Variáveis “valor total”, “diárias de acompanhantes”, “nacionalidade” e “morte”. Quais são


os tipos dessas variáveis?

VAL_TOT [Quantitativa contínua]

DIAR_ACOM [Quantitativa discreta]

NACIONAL [Qualitativa nominal]

MORTE [Qualitativa nominal]

Isso mesmo, a variável “valor total” é uma variável monetária, e podemos observar os números após a
vírgula, portanto, temos uma variável quantitativa contínua. A variável “diárias de acompanhantes” é
uma variável quantitativa discreta, pois representa a contagem de dias. Já as variáveis “nacionalidade”
e “morte” representam categorias sem hierarquia, portanto, são variáveis qualitativas nominais.
EPISÓDIO 3 - Análise univariada categórica

A análise univariada categórica consiste na investigação de uma única variável no banco


de dados. Vamos começar analisando a variável “especialidade” (ESPEC). Antes de iniciar a análise,
vamos utilizar uma tabela dinâmica para facilitar a visualização dessas variáveis categóricas. Vamos
acessar a planilha contendo nossa base de dados, clicar em Inserir, em seguida clicar em tabela
dinâmica, verificar se todo o intervalo foi selecionado, e clicar em OK.

Note que na aba contendo a tabela dinâmica agora é possível selecionar as variáveis desejadas para
serem analisadas. Vamos começar analisando a variável “especialidade”. Para isso, basta marcar essa
variável nos campos da tabela dinâmica.

Para essa amostra da base de dados, nota-se que a variável possui três categorias distintas: cirúrgico,
pediátrico e clínico.
EPISÓDIO 3 - Análise univariada categórica

Para contabilizar a quantidade de vezes que cada categoria aparece, basta arrastar o
campo “especialidade” para o quadrante de valores. Com isso, temos nossa frequência absoluta, ou
seja, a contagem total de cada uma dessas categorias. Para analisar o peso de cada uma delas,
realizamos a frequência relativa. Para isso, basta arrastar o campo “especialidade” novamente para a
caixa de valores, clicar em “configurações do campo de valor”, em seguida, selecionar “mostrar valores
como” e escolher “% do total geral” e clicar em OK.

Note que a soma da frequência relativa será sempre 100% e as categorias são representadas pelos
valores percentuais de cada uma delas. Em nosso exemplo: a especialidade “cirúrgico” representa 20%
dos valores, “clínico” representa 34% e “pediátrico” representa 46%. Esses valores podem ser
representados de forma gráfica também, em que o valor absoluto pode ser representado por gráficos
de coluna e o valor percentual por gráficos como o de pizza.

É importante conhecer a representatividade de todas as categorias em nosso banco de dados, pois


isso nos permite ter mais controle sobre as características mais recorrentes em nossas análises.
EPISÓDIO 4

Análise univariada numérica - Para analisar os valores numéricos, vamos utilizar as


análises que levam em conta as medidas de posição e as medidas de variabilidade dos dados. A análise
univariada é o primeiro passo para entender o comportamento individual de cada uma das variáveis e
definir a estrutura de análise.

Mínimo e máximo - Podemos começar analisando o intervalo em que nossos dados se encontram
analisando o valor mínimo e o valor máximo de nossa variável. É importante estar atento a esse
intervalo para saber os limites disponíveis para a variável. Vamos analisar a variável “valor total”: para
encontrar o menor valor da base de dados, basta utilizar a fórmula Mínimo no Excel. Passamos o
intervalo a ser calculado e o menor valor na nossa base de dados é R$ 9.527,09. Para encontrar o maior
valor, basta utilizar a fórmula Máximo, informar o intervalo a ser calculado e o valor retornado será de
R$ 140.688,61. Ou seja, podemos afirmar que os valores dessa variável estão entre R$ 9.527,00 e
R$ 140.688,00.
EPISÓDIO 4

Média - Uma das métricas mais utilizadas por quem trabalha com relatórios e análise de
dados, é a média. A média, também conhecida como média aritmética, é uma das medidas de
centralidade, pois resulta da divisão entre a soma dos números de uma lista e a quantidade de
observações. Por exemplo, para obtermos a média da variável “valor total” em nosso banco de dados,
será necessário somar todos os valores dessa variável e dividir por 100, que é a quantidade de
observações presentes no nosso banco. A forma mais simples de fazer isso é por meio da utilização da
fórmula Média, em que informamos o intervalo que deve ser calculado e chegamos no valor de
R$ 43.323,19, ou seja, um paciente que ficou internado nesse período, gerou um valor total médio de
R$ 43.323,19.
EPISÓDIO 4

Mediana - A mediana é uma métrica muito importante para analisarmos a centralidade


dos dados. Enquanto a média analisa a soma total dos valores e divide pela quantidade de
observações, a mediana vai utilizar a posição central do banco de dados, separando o banco de dados
em metade maior e metade menor. Observe este banco de dados com cinco observações. O primeiro
passo aqui é ordenar os valores do menor para o maior. Note que agora o ponto central é 6, porque
temos duas linhas acima e duas linhas abaixo, ou seja, a mediana dessa base de dados é 6. Mas, e se
esse banco tiver uma quantidade par de observações? Nesse caso, basta pegar os dois pontos
centrais, somar e dividir por dois.

Agora vamos encontrar a mediana da variável “valor total”, para isso, basta utilizar a fórmula MED no
Excel e informar o intervalo que será calculado. Veja que a mediana da variável total é R$ 38.790,68, ou
seja, 50% dos pacientes possuem até esse valor como gasto e 50% possuem valor maior do que isso.
A mediana é calculada por posição, por isso sofre menos impacto de valores discrepantes quando
comparada com a média.
EPISÓDIO 4

Quartil - Para analisar como nossos dados estão distribuídos, podemos utilizar os quartis.
Os quartis, assim como a mediana, são valores que dividem uma amostra de dados em quatro partes
iguais. Com eles você pode rapidamente avaliar a dispersão e a tendência central de um conjunto de
dados, que são etapas importantes para a compreensão dos dados. Por exemplo, o primeiro quartil
indica que 25% da base de dados possui valores até esse indicador. O segundo quartil, que é a
mediana, indica que 50% da base possui valores até esse indicador. Já o valor do terceiro quartil,
representa 75% da base. Podemos calcular os quartis da variável “valor total” no Excel utilizando a
fórmula QUARTIL.EXC e passar o intervalo de dados a ser calculado, note que, para essa fórmula, é
necessário passar um parâmetro a mais, que é referente ao quartil que estamos calculando, que pode
ser quartil 1, 2 ou 3.

Podemos observar, pelo quartil 1, que 25% dos pacientes geram um valor total de R$ 29.036,43; pelo
quartil 2, 50% dos pacientes geram valores de até R$ 38.790,68; e pelo quartil 3, 75% dos pacientes
geram valores de até R$ 49.785,57. Isso indica que a maioria dos pacientes gasta menos da metade do
valor máximo, que é de R$ 140.688,00, ou seja, é necessário verificar se existem valores discrepantes
na base de dados.
EPISÓDIO 4

Boxplot - Uma forma visual de analisar as distribuições é por meio do boxplot, em que as
linhas horizontais da caixa representam a posição de cada quartil e as linhas da extremidade
representam os limites superiores e inferiores. O boxplot é muito útil para definir se existem valores
discrepantes em nossos dados, pois ele calcula limites que consideramos aceitáveis para um valor ser
considerado discrepante ou não. Para calcular esses limites, primeiro precisamos encontrar nossos
quartis e nosso intervalo interquartílico, que, no caso, é a diferença entre o Q3 e o Q1. Então, para
calcular os limites utilizamos as seguintes fórmulas:

IQQ = Terceiro Quartil – Primeiro Quartil

Limite Inferior = Primeiro Quartil – 1,5 * IQQ

Limite Superior = Terceiro Quartil + 1,5 * IQQ


EPISÓDIO 4

Boxplot - Para gerar o boxplot de maneira simplificada, vamos selecionar o intervalo que
queremos calcular, no caso, a variável “valor total”. Para isso, basta selecionar a variável, clicar em
“inserir”, ir em “gráficos” e clicar em “caixa estreita”. Mover esse gráfico para a aba “métricas” para
facilitar a comparação. Para analisar o boxplot, basta analisar a caixa que foi gerada, em que a parte de
baixo representa o quartil 1, que é R$ 29.036,00, e a parte superior é o quartil 3, cujo valor é R$
49.785,00.

Os limites serão representados pelas arestas, em que a linha indica o limite superior e o limite inferior.
Ao encontrar pontos que ultrapassem esses limites, tanto na parte superior quanto na inferior,
podemos dizer que temos pontos discrepantes em nossa base. Antes de remover qualquer ponto
discrepante, devemos analisar com cautela o impacto desses valores em nossas análises e decidir se
serão mantidos ou não. Um ponto que também vale destacar é que, dependendo do tipo de
ferramenta utilizado para construir o boxplot, a visualização gráfica pode variar — por conta de cores,
formatos ou mesmo com os eixos posicionados na horizontal ou vertical. Por isso, sempre que
possível, é importante consultar a documentação da ferramenta.
EPISÓDIO 4

Variância - Suponha que o gestor do hospital precisa analisar a média do valor total dos
pacientes do sexo masculino e feminino e fazer um comparativo. Ao realizar a média, ele constatou
que os dois perfis possuem a média de valor total igual, mas esse gerente sabe que nem todos os
pacientes possuem o mesmo gasto, por isso, gerou a seguinte tabela:

Veja que, para ambos os perfis, a média de valor total foi de R$ 40.000,00. Mas, como essa tabela é
pequena e os valores estão arredondados, podemos afirmar que as mulheres possuem maior variação
nos dados, pois os valores variam em torno de R$ 15.000,00 (para mais e para menos), ao passo que os
valores referentes aos homens variam na faixa de R$ 2.000,00.

Agora, imagine se houvesse a necessidade de analisar essas informações para milhões de pacientes,
seria impossível calcular de cabeça, então, para facilitar essa análise, utilizamos a variância. A variância
nos ajuda a analisar qual o perfil que mais se distancia da média.
EPISÓDIO 4

Variância - E para calcular esse valor é preciso analisar o desvio do valor para a média. Uma
vez que encontramos os desvios, é preciso elevar cada um deles ao quadrado e dividir pela quantidade
de observações. Para facilitar o cálculo, vamos utilizar a fórmula VAR.A, informando o intervalo.
Realizando essa operação, temos a variância amostral de nossos dados, que terá o valor de 5.333.333
para o perfil masculino e 166.666.667 para o perfil feminino. Note que esses valores são bem altos e
estão muito distantes da média. Além disso, o fato de a variância ser calculada “ao quadrado” causa
uma certa camuflagem dos valores, dificultando sua interpretação. Uma alternativa para solucionar
esse problema é o desvio padrão, outra medida de dispersão.

O desvio padrão é simplesmente o resultado positivo da raiz quadrada da variância. Em nosso exemplo,
o desvio padrão do perfil masculino será R$ 2.309,00 e do feminino R$ 12.909,00, ou seja, o perfil
masculino possui um valor mais homogêneo e com menor dispersão dos dados, variando cerca de
R$ 2.309,00 para mais ou para menos em torno de nossa média. Durante as análises, é muito comum
calcular somente o desvio padrão sem a necessidade da variância. Inclusive, muitos softwares já
disponibilizam o desvio padrão diretamente na etapa de análise descritiva.
EPISÓDIO 4 - Coeficiente de determinação

Em alguns casos estamos trabalhando com dados de grandeza diferente, ou seja, alguns
trabalham na escala de dezenas e outros na casa de milhares, e realizar a comparação desses dois
valores utilizando desvio padrão fica difícil. Para isso, podemos então utilizar o coeficiente de variação.
O coeficiente de variação é usado para analisar a dispersão em termos relativos ao seu valor médio.

O cálculo do coeficiente de variação é feito através da fórmula: Como o coeficiente de variação


analisa a dispersão em termos relativos, ele será dado em percentual. Quanto menor o valor do
coeficiente de variação, mais homogêneos serão os dados, ou seja, menor será a dispersão em torno
da média. De uma forma geral:

Se o CV for menor ou igual a 15% → baixa dispersão: dados homogêneos

Se o CV for entre 15 e 30% → média dispersão

Se o CV for maior que 30% → alta dispersão: dados heterogêneos

Você também pode gostar