Escolar Documentos
Profissional Documentos
Cultura Documentos
Estatística Aplicada
Estatística Aplicada
A estatística descritiva é um dos fundamentos mais básicos da análise de dados. Neste tutorial,
vamos ver algumas das operações mais utilizadas para trabalhar com dados quantitativos.
Aqui, vamos entender um pouco mais sobre o contexto básico de aplicação de cada uma de
cada um dos seguintes tópicos:
Mínima e máxima
Outliers
Vamos nos referir às colunas das tabelas como variáveis e às linhas como observações.
MÍNIMA E MÁXIMA
Uma das etapas mais simples da análise de dados envolve a ordenação de valores numéricos.
Simplesmente arrumar os números em ordem crescente já pode nos fornecer informações
preciosas, como a mínima e a máxima (ou a mediana, que veremos a seguir).
Então, reflita: por que faz mais sentido informar a menor e a maior temperatura do dia – e não
a média? Qual das duas informações seria mais útil na hora de decidir o que vestir, por
exemplo?
OUTLIERS
São valores atípicos entre os dados analisados. Isto é avaliado a partir do quanto um
determinado valor difere dos demais em um conjunto de dados. Eles podem trazer tanto uma
má notícia, como erros na coleta ou limpeza dos dados, como também boas novas, como os
casos que fogem da regra e podem ganhar destaque na sua análise.
Por um lado, os outliers podem revelar um erro a ser corrigido ou pelo menos considerado,
antes de avançarmos com a análise. Por isso, é importante começar as análises identificando-
os, pois eles podem ser indícios de erros de medição ou falhas na limpeza de dados.
Nome Idade
Paulo 3
Julia 10
Ricardo 209
Samuel 234
Samara 25
Os valores de Ricardo e Samuel ( ‘209’ e ‘234’ ) chamam atenção, certo? Apenas olhando os
dígitos das 4 idades e comparando os números entre si, é possível perceber que o valor destas
linhas/observações estão acima dos demais.
No nosso exemplo acima, os valores “209” e “234” certamente são erros se o campo “idade”
for expresso em anos.
Porém, imagine que este hospital é uma maternidade e os pacientes são recém-nascidos. A
variável/coluna poderia estar expressa em “dias” e, então, os outliers ganham outro sentido.
Por alguma razão a ser investigada, Ricardo e Samuel realmente podem ser os mais velhos do
hospital.
Ou seja, os outliers nem sempre são erros. Quando os valores são reais, eles podem ser
justamente a novidade ou o diferencial que você buscava. Assim, um valor diferente dos
demais pode ser simplesmente resultado de uma grande variação (ou dispersão) dos dados.
Atrás deles, podem estar as melhores histórias ou descobertas que você irá encontrar durante
a análise.
Por fim, independente se serão positivos ou negativos para sua análise, a presença de outliers
deve sempre ser considerada ao realizar uma análise de um conjunto de valores numéricos. No
final do tutorial, vamos ver uma das abordagens matemáticas para se identificar e definir um
valor outlier.
Enquanto a média leva em consideração todos os valores e é afetada pelos outliers, a mediana
ordena os valores de forma crescente e busca por aquele que está no meio.
Resumindo, a média consiste na soma dos valores dividido pelo número de observações. Já a
moda representa o valor mais recorrente naquele conjunto de observações, e a mediana, o
valor que está no meio deste conjunto de dados ordenados.
Ao analisar os dados, sempre é interessante conferir todos, mas como e quando utilizá-los?
MÉDIA
Imagine a tabela salarial de uma empresa fictícia chamada Xtreme. Ela tem 7 pessoas
identificadas (‘ID’, primeira coluna) por números distintos, cada uma ocupando um cargo
diferente (‘Cargo’, segunda coluna) e com uma remuneração (‘Salário mensal’, terceira
coluna).
Empresa Xtreme
ID Cargo Salário mensal
1 Presidente 200.000
4 Administrador 4.000
5 Vendedor 3.000
6 Secretário 2.000
7 Faxineiro 1.000
Somando todos os salários, chegamos ao valor total de R$ 220 mil por mês. Com a operação
mais comum, a média, se dividirmos o valor total pelo número de pessoas (7), teríamos um
salário médio de R$ 31 mil por mês, em valores arredondados.
A média está correta, mas no caso representa não bem os dados, já que ninguém ganha nada
próximo disso. Isto se dá por conta do valor outlier do salário do presidente, que “puxa” a
média pra cima.
Tenha sempre em mente estas questões ao utilizar a média. Para adotá-la ou descartá-la como
representativa dos dados analisados, considere sempre a presença dos outliers e como os
dados estão distribuídos.
Uma estratégia para analisar dados com valores muito discrepantes pode ser isolar os outliers
e analisá-los à parte. No caso acima, poderíamos separar o presidente, que ganha muito acima
dos demais funcionários, e fazer a média do restante.
Assim, poderíamos dizer: “enquanto o presidente ganha R$ 200 mil, os demais funcionários
recebem em média R$ 3,3 mil”. Se também existissem outros executivos recebendo tanto
quanto o presidente, poderíamos mencionar a média deles entre si, por um lado, e a dos
demais trabalhadores, por outro.
MEDIANA
Poderíamos também usar a mediana, que funciona melhor que a média para contornar os
outliers. Para encontrar a mediana, basta verificar o valor que se encontra no meio, após os
dados terem sido ordenados. O valor do meio é o que separa a metade superior da metade
inferior em um conjunto de dados ordenados.
No exemplo acima, que já está ordenado, o valor da mediana seria de “4.000”, que é o salário
do administrador, pois abaixo dele temos 3 linhas/observações (vendedor, secretário e
faxineiro) e acima, outras 3 (gerente de produção, de vendas e o presidente). Neste caso,
como nossa série tem 7 posições, basta buscarmos a quarta delas.
Mas se nossa série tivesse um número par de observações? Neste caso, escolheríamos os dois
números que ocupam a posição central da lista ordenada e faríamos a média deles.
Vamos imaginar uma outra empresa, mas esta se chama Ygual e tem 8 funcionários. Agora,
não temos uma única linha/observação que separa nosso conjunto de dados ordenados na
meta, com duas partes de igual tamanho de cada lado. Portanto, vamos somar os 2 valores
intermediários (em cinza) e fazer a média deles.
Empresa Ygual
1 Presidente 200.000
5 Administrador 4.000
6 Vendedor 3.000
7 Secretário 2.000
8 Faxineiro 1.000
Ou seja, a empresa Ygual teria uma mediana de R$ 4.500. Como a mediana não é uma
operação tão famosa como a média, podemos formular construções que a representem de
forma mais próxima do leitor, como por exemplo: “na empresa Ygual, metade dos funcionários
da empresa ganha menos que R$ 4.500”.
MODA
Por fim, a moda serve para revelar o valor que mais se repete em um conjunto de dados. Nos
nossos exemplos acima, para as duas empresas, a resposta seria “5.000”, que o valor de salário
mais recorrente, pois em ambas há mais de um gerente ganhando este mesmo valor,
enquanto os demais valores não se repetem entre os outros cargos.
MEDIDAS DE DISPERSÃO
Com isso, mostramos o quão os dados (no caso, salários) estão dispersos. Na estatística, a
diferença entre a mínima e a máxima de uma série de dados ordenados se chama amplitude,
que é uma das abordagens para se analisar a variação de um conjunto de dados.
Ao contrário das operações anteriores, que buscam apreender algo em comum entre os dados
observados, as medidas de dispersão permitem quantificar o quanto eles diferem entre si. Um
exemplo simples é a amplitude, que já explicamos, ou seja, a diferença simples entre a máxima
e a mínima. Mas há outra abordagens, que fazem uso da média ou da mediana para
quantificar a dispersão de um conjunto de dados: respectivamente, o desvio padrão e a
variação interquartil.
DESVIO PADRÃO
Provavelmente, você irá usar um computador para calcular a variância e o desvio padrão para
você, mas tenha em mente que, ao contrário da primeira, o desvio padrão é expresso na
mesma unidade utilizada na média, por isso é mais fácil de ser utilizado para fins comparativos.
Ainda que este conceito não seja claro para a maioria das pessoas e você não o utilize no seu
conteúdo final, saber o básico sobre a interpretação dos valores de desvio padrão pode te
ajudar a ter bons insights e analisar seus dados de forma mais eficiente.
Imagine agora a empresa Zoutra, onde todos 7 funcionários ganhem R$ 31 mil. Ao contrário da
Xtreme, aqui, os dados não possuem dispersão nenhuma, pois agora todos os funcionários
ganham o mesmo valor.
A Zoutra teria a mesma média da Xtreme, mas agora os dados são todos homogêneos, ou seja
não, há dispersão. Portanto, sua variância e – por consequência seu desvio padrão – seria zero.
Se a medida de dispersão de um conjunto de dados é zero isto significa que eles são todos
iguais.
Podemos voltar a falar sobre desvio padrão em outra oportunidade, mas neste tutorial vamos
ver como usar outra medida de dispersão para identificar outliers.
Tanto o desvio padrão quanto a variância dependem da média, portanto, são afetados por
valores extremos. Mas há uma medida de dispersão baseada na mediana, que consegue
contornar a presença destes outliers: a variação interquartil, abreviada para IQR em inglês.
Agora, você subtrai a mediana da metade superior (terceiro quartil ou Q3) com a mediana da
metade inferior (primeiro quartil ou Q1). A vantagem deste método é que ele, por definição, já
isola os outliers, seja inferiores ou superiores.
Presidente 200.000
Vendedor 3.000
Secretário 2.000
Faxineiro 1.000
Portanto, deveríamos subtrair o valor 5.000 por 2.000, tendo R$ 3.000 como variação
interquartil desta firma.
IDENTIFICANDO OUTLIERS
A variação interquartil (IQR) pode ser usada para identificar matematicamente os outliers de
um conjunto de dados. Estas fórmulas não são uma regra do universo, mas de certo modo
sintetizam algum nível de consenso mínimo entre estatísticos para responder à pergunta: mas
afinal matematicamente o que é um outlier?
Em geral, para encontrar o valor base para os outliers de baixo, você multiplica o IQR por 1,5,
diminuindo o resultado do valor do primeiro quartil (Q1).
Já para os outliers de cima, ao invés de diminuir o resultado pelo Q1, você deve somar o
produto daquela multiplicação com o terceiro quartil (Q3).
No nosso exemplo anterior, esta conta daria um número negativo no primeiro caso, ou seja,
não temos outliers com baixos salários.
No segundo caso, somando 4.500 (resultado de IQR*1,5) com 5.000 (valor do terceiro quartil)
chegaríamos ao valor de R$ 9.500 – ou seja, poderíamos considerar qualquer salário acima
disto como um valor outlier em nossos dados.
VISUALIZANDO RESULTADOS
Uma forma fácil de visualizar quase todas estas informações de uma só vez é usando o
diagrama de caixa (box plot).
Visualizando suas variáveis com este diagrama, você consegue visualizar algumas informações
preciosas, tais como:
a mediana, representada pela linha central dentro da caixa (em amarelo, na figura acima);
o primeiro e o terceiro quartil, assim como o IQR (representado pela caixa em rosa);
os valores limites para identificação de outliers, representado pelas hastes da caixa, em ambos
os lados;
Por conta disto, este tipo de gráfico é muito utilizado quando desejamos fazer uma análise
exploratória.de variáveis numéricas contínuas.
REVISÃO E APROFUNDAMENTOS
Este tutorial é o primeiro desdobramento deste post introdutório que fizemos, com uma
introdução geral à análise de dados.
Para revisar e aprofundar os conceitos e técnicas que abordamos aqui, você pode explorar a
seção ‘Como resumir dados quantitativos’ da Khan Academy, que tem bons materiais em
vídeo, texto e exercícios a respeito dos conceitos abordados aqui.
COMMENTS (5)
ALDO ESCOBAR
Na explicação sobre a MÉDIA o total dos salários dos funcionários da empresa XTreme é R$
220 mil e não R$ 230 como foi postado.
ADRIANO BELISÁRIO
SALEH ALTARAWNEH
SERGIO
DEIXE UM COMENTÁRIO
Name *
Mail *
Website
ENVIAR
Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são
processados.
HISTÓRIA
2013
2014
Primeira turma da Escola de Dados no Rio de Janeiro (RJ), São Paulo (SP) e Salvador (BA), como
parte do programa Partnership for Open Data
2015
2016
2017
2018
2019
adriano
ADRIANO BELISÁRIO
belisario@ok.org.br
alvaro_justen-1
ÁLVARO JUSTEN
Álvaro Justen é programador e professor. Ativista de software livre desde 2004 e programador
Python desde 2005, atualmente trabalha capturando, convertendo, limpando e analisando
dados em diversos projetos jornalísticos e de inovação cívica brasileiros; é fundador do portal
de dados abertos acessíveis Brasil.IO e quando não está programando, dá aulas, viaja a
congressos, prova e torra cafés especiais.
alvarojusten@gmail.com
edilaine
EDILAINE SANTOS
É original do Alvarenga em São Bernardo do Campo – SP. É atriz, jornalista com formação da
Escola de Jornalismo da Énois e graduanda do Bacharelado em Ciências e Humanidades e
Políticas Públicas na Universidade Federal do ABC (UFABC), em que realiza pesquisa de
iniciação científica. Integra a equipe da Open Knowledge Brasil como estagiária na Escola de
Dados.
edilaine@ok.org.br
fernanda
FERNANDA CAMPAGNUCCI
fernanda@ok.org.br
isis
ISIS REIS
isis@ok.org.br
juan_torres
JUAN TORRES
Editor de Inovação do Correio e diretor da Abraji. Foi fellow ICFJ no programa Caminho Digital
para Empreendedorismo e Inovação na América Latina. Teve trabalhos reconhecidos nos
prêmios INMA Global Media Awards, Latam Digital Media, Petrobras de Jornalismo, Vladimir
Herzog de Anistia e Direitos Humanos, Tim Lopes de Jornalismo Investigativo, Data Journalism
Awards, Kurt Schork Awards e Prêmio Esso.
juantorresemail@gmail.com
natalia_mazotte
NATÁLIA MAZOTTE
natalia@ok.org.br
SOBRE A ESCOLA DE DADOS
REDE GLOBAL
A Escola de Dados surgiu em 2012 no Reino Unido, como parte da Open Knowledge
Internacional, com o propósito de incentivar a aplicação efetiva dos dados abertos pela
sociedade civil. Os recursos e metodologias criados foram sendo adaptados por indivíduos e
organizações interessados em aplicá-los em seus contextos locais, e organicamente a iniciativa
começou a se constituir como uma rede. Hoje possui membros e colaboradores ativos em
diversos países do mundo, incluindo Brasil, México, Espanha, Itália, França, Romênia, Hungria,
Indonésia, Índia, Nigéria e África do Sul. A rede atende diversos atores da sociedade com
interesse nas múltiplas aplicações de dados para o avanço democrático.
A Escola de Dados é uma rede global comprometida com o avanço do uso de dados para
resolver problemas reais em prol de sociedades mais conscientes, sustentáveis e justas.
Acreditamos que o debate bem informado e embasado pode diminuir espaços de polarização,
criar abertura para a diversidade de vozes e formar pontes entre importantes atores para
influenciar políticas públicas e gerar mudança social.
Dados que afetam diretamente a vida das pessoas estão cada vez mais acessíveis, mas muitos
dos que estão mais próximos dos problemas – movimentos, jornalistas, agentes públicos – não
conseguem fazer uso efetivo destes dados. Buscamos equilibrar o jogo, garantindo que estes
agentes de mudança tenham conhecimento, recursos e ferramentas suficientes para participar
plenamente da era da informação.