Você está na página 1de 16

Estatística Aplicada

Estatística Aplicada

Estatística Aplicada

ANÁLISE COM ESTATÍSTICA DESCRITIVA PARA LEIGOS

A estatística descritiva é um dos fundamentos mais básicos da análise de dados. Neste tutorial,
vamos ver algumas das operações mais utilizadas para trabalhar com dados quantitativos.
Aqui, vamos entender um pouco mais sobre o contexto básico de aplicação de cada uma de
cada um dos seguintes tópicos:

Mínima e máxima

Outliers

Medidas de tendência central: média, mediana e moda

Medidas de dispersão: desvio padrão e variação interquartil

Vamos nos referir às colunas das tabelas como variáveis e às linhas como observações.

MÍNIMA E MÁXIMA

Uma das etapas mais simples da análise de dados envolve a ordenação de valores numéricos.
Simplesmente arrumar os números em ordem crescente já pode nos fornecer informações
preciosas, como a mínima e a máxima (ou a mediana, que veremos a seguir).

A mínima e a máxima são os valores nos “extremos” de um conjunto de dados ordenados: ou


seja, o menor e o maior valor. Ambos são utilizados cotidianamente e facilmente
compreensíveis para quase toda população, pense – por exemplo – em seu uso diário na
previsão do tempo.

Então, reflita: por que faz mais sentido informar a menor e a maior temperatura do dia – e não
a média? Qual das duas informações seria mais útil na hora de decidir o que vestir, por
exemplo?

OUTLIERS
São valores atípicos entre os dados analisados. Isto é avaliado a partir do quanto um
determinado valor difere dos demais em um conjunto de dados. Eles podem trazer tanto uma
má notícia, como erros na coleta ou limpeza dos dados, como também boas novas, como os
casos que fogem da regra e podem ganhar destaque na sua análise.

Por um lado, os outliers podem revelar um erro a ser corrigido ou pelo menos considerado,
antes de avançarmos com a análise. Por isso, é importante começar as análises identificando-
os, pois eles podem ser indícios de erros de medição ou falhas na limpeza de dados.

Para identificá-los e tratá-los adequadamente, é importante você não só comparar os números


entre si matematicamente, mas também entender os dados que possuem em mãos: o que eles
representam? quais são as unidades utilizadas? Como foram coletados ou produzidos?

Imagine, por exemplo, os seguintes dados de pacientes de um hospital:

Nome Idade

Paulo 3

Julia 10

Ricardo 209

Samuel 234

Samara 25

Os valores de Ricardo e Samuel ( ‘209’ e ‘234’ ) chamam atenção, certo? Apenas olhando os
dígitos das 4 idades e comparando os números entre si, é possível perceber que o valor destas
linhas/observações estão acima dos demais.

No nosso exemplo acima, os valores “209” e “234” certamente são erros se o campo “idade”
for expresso em anos.

Porém, imagine que este hospital é uma maternidade e os pacientes são recém-nascidos. A
variável/coluna poderia estar expressa em “dias” e, então, os outliers ganham outro sentido.
Por alguma razão a ser investigada, Ricardo e Samuel realmente podem ser os mais velhos do
hospital.
Ou seja, os outliers nem sempre são erros. Quando os valores são reais, eles podem ser
justamente a novidade ou o diferencial que você buscava. Assim, um valor diferente dos
demais pode ser simplesmente resultado de uma grande variação (ou dispersão) dos dados.
Atrás deles, podem estar as melhores histórias ou descobertas que você irá encontrar durante
a análise.

Por fim, independente se serão positivos ou negativos para sua análise, a presença de outliers
deve sempre ser considerada ao realizar uma análise de um conjunto de valores numéricos. No
final do tutorial, vamos ver uma das abordagens matemáticas para se identificar e definir um
valor outlier.

MEDIDAS DE TENDÊNCIA CENTRAL

Com estas medidas, buscamos justamente valores representativos ou recorrentes de um certo


conjunto de dados. A média – uma das operações estatísticas mais famosas – opera desta
forma, mas há também sua irmã menos conhecida, a mediana.

Enquanto a média leva em consideração todos os valores e é afetada pelos outliers, a mediana
ordena os valores de forma crescente e busca por aquele que está no meio.

Resumindo, a média consiste na soma dos valores dividido pelo número de observações. Já a
moda representa o valor mais recorrente naquele conjunto de observações, e a mediana, o
valor que está no meio deste conjunto de dados ordenados.

Ao analisar os dados, sempre é interessante conferir todos, mas como e quando utilizá-los?

MÉDIA

Imagine a tabela salarial de uma empresa fictícia chamada Xtreme. Ela tem 7 pessoas
identificadas (‘ID’, primeira coluna) por números distintos, cada uma ocupando um cargo
diferente (‘Cargo’, segunda coluna) e com uma remuneração (‘Salário mensal’, terceira
coluna).

Empresa Xtreme
ID Cargo Salário mensal

1 Presidente 200.000

2 Gerente de vendas 5.000

3 Gerente de produção 5.000

4 Administrador 4.000

5 Vendedor 3.000

6 Secretário 2.000

7 Faxineiro 1.000

Somando todos os salários, chegamos ao valor total de R$ 220 mil por mês. Com a operação
mais comum, a média, se dividirmos o valor total pelo número de pessoas (7), teríamos um
salário médio de R$ 31 mil por mês, em valores arredondados.

A média está correta, mas no caso representa não bem os dados, já que ninguém ganha nada
próximo disso. Isto se dá por conta do valor outlier do salário do presidente, que “puxa” a
média pra cima.

A média também é afetada pelo número de indivíduos/observações: por exemplo, se a


empresa Xtreme atuar com limpeza e contratasse não 1, mas centenas de faxineiros, então,
toda média iria cair, mesmo com uma grande diferença entre o maior e menor salário.

Tenha sempre em mente estas questões ao utilizar a média. Para adotá-la ou descartá-la como
representativa dos dados analisados, considere sempre a presença dos outliers e como os
dados estão distribuídos.

Uma estratégia para analisar dados com valores muito discrepantes pode ser isolar os outliers
e analisá-los à parte. No caso acima, poderíamos separar o presidente, que ganha muito acima
dos demais funcionários, e fazer a média do restante.

Assim, poderíamos dizer: “enquanto o presidente ganha R$ 200 mil, os demais funcionários
recebem em média R$ 3,3 mil”. Se também existissem outros executivos recebendo tanto
quanto o presidente, poderíamos mencionar a média deles entre si, por um lado, e a dos
demais trabalhadores, por outro.
MEDIANA

Poderíamos também usar a mediana, que funciona melhor que a média para contornar os
outliers. Para encontrar a mediana, basta verificar o valor que se encontra no meio, após os
dados terem sido ordenados. O valor do meio é o que separa a metade superior da metade
inferior em um conjunto de dados ordenados.

No exemplo acima, que já está ordenado, o valor da mediana seria de “4.000”, que é o salário
do administrador, pois abaixo dele temos 3 linhas/observações (vendedor, secretário e
faxineiro) e acima, outras 3 (gerente de produção, de vendas e o presidente). Neste caso,
como nossa série tem 7 posições, basta buscarmos a quarta delas.

Mas se nossa série tivesse um número par de observações? Neste caso, escolheríamos os dois
números que ocupam a posição central da lista ordenada e faríamos a média deles.

Vamos imaginar uma outra empresa, mas esta se chama Ygual e tem 8 funcionários. Agora,
não temos uma única linha/observação que separa nosso conjunto de dados ordenados na
meta, com duas partes de igual tamanho de cada lado. Portanto, vamos somar os 2 valores
intermediários (em cinza) e fazer a média deles.

Empresa Ygual

ID Cargo Salário mensal

1 Presidente 200.000

2 Gerente de vendas 5.000

3 Gerente de produção 5.000

4 Gerente de mídia 5.000

5 Administrador 4.000

6 Vendedor 3.000

7 Secretário 2.000

8 Faxineiro 1.000

Ou seja, a empresa Ygual teria uma mediana de R$ 4.500. Como a mediana não é uma
operação tão famosa como a média, podemos formular construções que a representem de
forma mais próxima do leitor, como por exemplo: “na empresa Ygual, metade dos funcionários
da empresa ganha menos que R$ 4.500”.

MODA

Por fim, a moda serve para revelar o valor que mais se repete em um conjunto de dados. Nos
nossos exemplos acima, para as duas empresas, a resposta seria “5.000”, que o valor de salário
mais recorrente, pois em ambas há mais de um gerente ganhando este mesmo valor,
enquanto os demais valores não se repetem entre os outros cargos.

MEDIDAS DE DISPERSÃO

Se quisermos descrever a diferença salarial da empresa Xtreme, poderíamos também destacar


o menor salário e o maior para demonstrar a discrepância salarial, citando a mínima e a
máxima – ou mesmo a diferença entre elas, de R$ 199 mil.

Com isso, mostramos o quão os dados (no caso, salários) estão dispersos. Na estatística, a
diferença entre a mínima e a máxima de uma série de dados ordenados se chama amplitude,
que é uma das abordagens para se analisar a variação de um conjunto de dados.

Ao contrário das operações anteriores, que buscam apreender algo em comum entre os dados
observados, as medidas de dispersão permitem quantificar o quanto eles diferem entre si. Um
exemplo simples é a amplitude, que já explicamos, ou seja, a diferença simples entre a máxima
e a mínima. Mas há outra abordagens, que fazem uso da média ou da mediana para
quantificar a dispersão de um conjunto de dados: respectivamente, o desvio padrão e a
variação interquartil.

DESVIO PADRÃO

Matematicamente, existem formas diferentes de se calcular o desvio padrão, a depender se os


dados representam toda uma população ou apenas uma amostra. No caso da empresas
fictícias, por exemplo, supondo que elas só tivessem o número de funcionários listados, então,
estaríamos com dados que representam toda população em questão. Já se a tabela não
representasse todo conjunto de trabalhadores da firma, então, seria uma amostra.

Provavelmente, você irá usar um computador para calcular a variância e o desvio padrão para
você, mas tenha em mente que, ao contrário da primeira, o desvio padrão é expresso na
mesma unidade utilizada na média, por isso é mais fácil de ser utilizado para fins comparativos.
Ainda que este conceito não seja claro para a maioria das pessoas e você não o utilize no seu
conteúdo final, saber o básico sobre a interpretação dos valores de desvio padrão pode te
ajudar a ter bons insights e analisar seus dados de forma mais eficiente.

Imagine agora a empresa Zoutra, onde todos 7 funcionários ganhem R$ 31 mil. Ao contrário da
Xtreme, aqui, os dados não possuem dispersão nenhuma, pois agora todos os funcionários
ganham o mesmo valor.

A Zoutra teria a mesma média da Xtreme, mas agora os dados são todos homogêneos, ou seja
não, há dispersão. Portanto, sua variância e – por consequência seu desvio padrão – seria zero.
Se a medida de dispersão de um conjunto de dados é zero isto significa que eles são todos
iguais.

Podemos voltar a falar sobre desvio padrão em outra oportunidade, mas neste tutorial vamos
ver como usar outra medida de dispersão para identificar outliers.

VARIAÇÃO INTERQUARTIL (Q3-Q1)

Tanto o desvio padrão quanto a variância dependem da média, portanto, são afetados por
valores extremos. Mas há uma medida de dispersão baseada na mediana, que consegue
contornar a presença destes outliers: a variação interquartil, abreviada para IQR em inglês.

Para descobrir a variação interquartil, primeiramente, dividimos os dados em duas metades,


como na mediana, para em seguida refazer esta operação com cada uma das duas metades.
Obtemos então quatro partes iguais – ou quartis.

Agora, você subtrai a mediana da metade superior (terceiro quartil ou Q3) com a mediana da
metade inferior (primeiro quartil ou Q1). A vantagem deste método é que ele, por definição, já
isola os outliers, seja inferiores ou superiores.

Cargo – Empresa Xtreme Salário mensal

Presidente 200.000

Gerente de vendas 5.000

Gerente de produção 5.000


Administrador 4.000

Vendedor 3.000

Secretário 2.000

Faxineiro 1.000

No caso da empresa Xtreme, destacamos o valor/linha da mediana em vermelho.

Já a primeira e terceira variação interquartil estão em amarelo.

Portanto, deveríamos subtrair o valor 5.000 por 2.000, tendo R$ 3.000 como variação
interquartil desta firma.

IDENTIFICANDO OUTLIERS

A variação interquartil (IQR) pode ser usada para identificar matematicamente os outliers de
um conjunto de dados. Estas fórmulas não são uma regra do universo, mas de certo modo
sintetizam algum nível de consenso mínimo entre estatísticos para responder à pergunta: mas
afinal matematicamente o que é um outlier?

Em geral, para encontrar o valor base para os outliers de baixo, você multiplica o IQR por 1,5,
diminuindo o resultado do valor do primeiro quartil (Q1).

Já para os outliers de cima, ao invés de diminuir o resultado pelo Q1, você deve somar o
produto daquela multiplicação com o terceiro quartil (Q3).

No nosso exemplo anterior, esta conta daria um número negativo no primeiro caso, ou seja,
não temos outliers com baixos salários.

No segundo caso, somando 4.500 (resultado de IQR*1,5) com 5.000 (valor do terceiro quartil)
chegaríamos ao valor de R$ 9.500 – ou seja, poderíamos considerar qualquer salário acima
disto como um valor outlier em nossos dados.

VISUALIZANDO RESULTADOS
Uma forma fácil de visualizar quase todas estas informações de uma só vez é usando o
diagrama de caixa (box plot).

Visualizando suas variáveis com este diagrama, você consegue visualizar algumas informações
preciosas, tais como:

a mediana, representada pela linha central dentro da caixa (em amarelo, na figura acima);

o primeiro e o terceiro quartil, assim como o IQR (representado pela caixa em rosa);

os valores limites para identificação de outliers, representado pelas hastes da caixa, em ambos
os lados;

os outliers, que no caso da figura acima são os pontos verdes;

Por conta disto, este tipo de gráfico é muito utilizado quando desejamos fazer uma análise
exploratória.de variáveis numéricas contínuas.

REVISÃO E APROFUNDAMENTOS

Este tutorial é o primeiro desdobramento deste post introdutório que fizemos, com uma
introdução geral à análise de dados.

Para revisar e aprofundar os conceitos e técnicas que abordamos aqui, você pode explorar a
seção ‘Como resumir dados quantitativos’ da Khan Academy, que tem bons materiais em
vídeo, texto e exercícios a respeito dos conceitos abordados aqui.

COMMENTS (5)

ALDO ESCOBAR

15 de agosto de 2019 at 11:24 am RESPONDER

Exercício, prática é fundamental.

PAULO DE ALMEIDA OURIVES


17 de agosto de 2019 at 1:04 pm RESPONDER

Na explicação sobre a MÉDIA o total dos salários dos funcionários da empresa XTreme é R$
220 mil e não R$ 230 como foi postado.

ADRIANO BELISÁRIO

19 de agosto de 2019 at 7:36 pm RESPONDER

Obrigado por avisar, Paulo! Já corrigimos.

SALEH ALTARAWNEH

25 de agosto de 2019 at 4:26 am RESPONDER

good this statistics

SERGIO

1 de setembro de 2019 at 8:45 pm RESPONDER

Grato pela dica da Khan Academy

DEIXE UM COMENTÁRIO

Escreva aqui seu comentário

Name *

Mail *

Website

ENVIAR

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são
processados.
HISTÓRIA

Alguns dos principais marcos da história da Escola de Dados no Brasil…

2013

Lançamento da Escola de Dados no Brasil, no Rio de Janeiro.

2014

Primeira turma da Escola de Dados no Rio de Janeiro (RJ), São Paulo (SP) e Salvador (BA), como
parte do programa Partnership for Open Data

2015

Primeiro curso online (MOOC) com o Knight Center.

2016

Primeira edição do Coda.Br, em São Paulo.

Primeiro Laboratório Experimental de Dados (LED), com o Observatório de Favelas/Data Labe,


no Complexo da Maré, no Rio de Janeiro.

2017

Primeira edição do Cerveja com Dados, em São Paulo


Segunda edição do Coda.Br se firmou como principal evento da área no Brasil e discutiu temas
relacionados à eleição de 2018

2018

Terceira edição do Coda.Br em 2018 bateu recorde de público

Curso presencial em Salvador (BA)

2019

Primeiro financiamento coletivo

Cerveja com Dados é realizado em todas as regiões do Brasil

Cursos presenciais no Rio de Janeiro, São Paulo, Salvador e Fortaleza (CE)

II curso online (MOOC) com o Knight Center

Lançamento do Prêmio Cláudio Weber Abramo


EQUIPE

adriano

ADRIANO BELISÁRIO

Coordenador da Escola de Dados, jornalista e há mais de 10 anos pesquisa e desenvolve


projetos na área de tecnologias abertas e mídia. Desde 2012, atua com investigações baseadas
em dados e hoje é pesquisador associado do Medialab/UFRJ, onde desenvolve investigações e
produção de evidência baseadas em fontes abertas (OSINT), além de atuar com jornalismo
investigativo baseado em dados, tendo colaborado com veículos, como a Agência Pública,
onde foi editor do projeto de checagem de fatos Truco, e o The Intercept Brasil.

belisario@ok.org.br

alvaro_justen-1

ÁLVARO JUSTEN

Álvaro Justen é programador e professor. Ativista de software livre desde 2004 e programador
Python desde 2005, atualmente trabalha capturando, convertendo, limpando e analisando
dados em diversos projetos jornalísticos e de inovação cívica brasileiros; é fundador do portal
de dados abertos acessíveis Brasil.IO e quando não está programando, dá aulas, viaja a
congressos, prova e torra cafés especiais.

alvarojusten@gmail.com

edilaine

EDILAINE SANTOS

É original do Alvarenga em São Bernardo do Campo – SP. É atriz, jornalista com formação da
Escola de Jornalismo da Énois e graduanda do Bacharelado em Ciências e Humanidades e
Políticas Públicas na Universidade Federal do ABC (UFABC), em que realiza pesquisa de
iniciação científica. Integra a equipe da Open Knowledge Brasil como estagiária na Escola de
Dados.

edilaine@ok.org.br

fernanda

FERNANDA CAMPAGNUCCI

É diretora-executiva da Open Knowledge Brasil. Graduada em Jornalismo e mestre em


Educação, foi integrante da carreira de Analista de Políticas Públicas e Gestão Governamental
na Prefeitura de SP, onde desenvolveu projetos de transparência e integridade pública desde
2013. Coordenou o Pátio Digital, iniciativa de governo aberto da Secretaria Municipal de
Educação. É fellow de governo aberto da OEA e integrante da Rede de Líderes em Dados
Abertos do Open Data Institute, de Londres.

fernanda@ok.org.br

isis

ISIS REIS

Formada em Publicidade e Propaganda pela Universidade Federal do Rio de Janeiro (UFRJ),


trabalhou na comunicação do Instituto Brasileiro de Análises Sociais e Econômicas (Ibase),
produzindo conteúdo digital, traduções e visualizações de dados para diversos projetos da
instituição. Atualmente, trabalha na Open Knowledge Brasil, lidando com curadoria de
conteúdo, mídias sociais e a comunicação da Escola de Dados Brasil.

isis@ok.org.br

juan_torres

JUAN TORRES

Editor de Inovação do Correio e diretor da Abraji. Foi fellow ICFJ no programa Caminho Digital
para Empreendedorismo e Inovação na América Latina. Teve trabalhos reconhecidos nos
prêmios INMA Global Media Awards, Latam Digital Media, Petrobras de Jornalismo, Vladimir
Herzog de Anistia e Direitos Humanos, Tim Lopes de Jornalismo Investigativo, Data Journalism
Awards, Kurt Schork Awards e Prêmio Esso.

juantorresemail@gmail.com

natalia_mazotte

NATÁLIA MAZOTTE

Co-fundadora da Escola de Dados, atualmente é JSK Stanford fellow. Também co-fundou a


revista digital Gênero e Número. Atua como instrutora e palestrante em temas relacionados a
métodos digitais, dados abertos e acesso à informação. É docente nos cursos de pós-
graduação em Jornalismo Digital da PUC-RS e da IESB e instrutora em cursos do Knight Center,
da Universidade do Texas. Tem mestrado em comunicação na UFRJ e pós-graduação em
Estratégia Digital na Universidade Pompeu Fabra.

natalia@ok.org.br
SOBRE A ESCOLA DE DADOS

DADOS EM PROL DE SOCIEDADES MAIS CONSCIENTES, SUSTENTÁVEIS E JUSTAS

REDE GLOBAL

A Escola de Dados surgiu em 2012 no Reino Unido, como parte da Open Knowledge
Internacional, com o propósito de incentivar a aplicação efetiva dos dados abertos pela
sociedade civil. Os recursos e metodologias criados foram sendo adaptados por indivíduos e
organizações interessados em aplicá-los em seus contextos locais, e organicamente a iniciativa
começou a se constituir como uma rede. Hoje possui membros e colaboradores ativos em
diversos países do mundo, incluindo Brasil, México, Espanha, Itália, França, Romênia, Hungria,
Indonésia, Índia, Nigéria e África do Sul. A rede atende diversos atores da sociedade com
interesse nas múltiplas aplicações de dados para o avanço democrático.

A Escola de Dados é uma rede global comprometida com o avanço do uso de dados para
resolver problemas reais em prol de sociedades mais conscientes, sustentáveis e justas.
Acreditamos que o debate bem informado e embasado pode diminuir espaços de polarização,
criar abertura para a diversidade de vozes e formar pontes entre importantes atores para
influenciar políticas públicas e gerar mudança social.

PROBLEMAS > DADOS > MUDANÇAS

Dados que afetam diretamente a vida das pessoas estão cada vez mais acessíveis, mas muitos
dos que estão mais próximos dos problemas – movimentos, jornalistas, agentes públicos – não
conseguem fazer uso efetivo destes dados. Buscamos equilibrar o jogo, garantindo que estes
agentes de mudança tenham conhecimento, recursos e ferramentas suficientes para participar
plenamente da era da informação.

Nossa missão é aumentar a alfabetização em dados em todo o mundo, e para isso


desenvolvemos capacitações, engajamos comunidades e produzimos novos recursos e
metodologias de aprendizagem. Também promovemos reflexões e pesquisas sobre as
implicações sociopolíticas de uma sociedade cada vez mais guiada por dados e pelo viés
científico-tecnológico.

Atuamos no Brasil desde novembro de 2013 e já formamos mais de 6 mil pessoas em


atividades presenciais e online, além de conduzir treinamentos sob demanda para diferentes
organizações.
Nossas metodologias baseadas em treinamentos “mão na massa”, que partem da identificação
de problemas reais, e nossa organização do fluxo de trabalho com dados (data pipeline) se
tornaram referências no ensino de dados.

Você também pode gostar