Estatística
Sumário
CAPÍTULO 3 – Análise Exploratória...................................................................................05
Introdução.....................................................................................................................05
Síntese...........................................................................................................................23
Referências Bibliográficas.................................................................................................24
03
Capítulo 3 Análise Exploratória
Introdução
A partir deste estudo, você vai explorar o fabuloso universo da análise de dados. Você sabe como
se organizam os dados coletados depois que o pesquisador define seus objetivos e confecciona
o projeto de pesquisa? Durante a análise exploratória de dados, identificamos padrões e ten-
dências e extraímos informações ocultas de conjuntos de dados. Ao passo que um leigo enxerga
apenas números em tabelas extensas e figuras incompreensíveis, o analista encontra respostas,
faz descobertas e transmite informações de forma prática e objetiva. E você? Consegue identifi-
car as informações relevantes ao observar uma dessas tabelas?
Ao longo deste capítulo, você conhecerá algumas ferramentas que permitem resumir informações
fazendo uso de medidas de posição central. Compreenderá os conceitos de média, mediana e
moda e sua aplicabilidade na análise exploratória de dados. Fique atento, pois muitos conceitos
podem parecer banais, mas, na verdade, todos são muito importantes. Procure fixar bem o con-
teúdo: leia com atenção e, se necessário, releia o material.
Muitas vezes, você pode pensar que uma simples olhada em tabelas e quadros dispensa qualquer
análise estatística. Isso é normal, pois, a fim de exemplificar cálculos e aplicação das metodolo-
gias apresentadas, criamos situações hipotéticas com pequenos conjuntos de dados. Isso facilita
muito a interpretação de dados e permite que você construa conhecimento enquanto tira suas
próprias conclusões. Mas lembre-se de que, na vida real, lidamos com grandes conjuntos de
dados, em que nada é tão óbvio assim. E é justamente nesse momento que todo o conhecimento
transmitido nesta disciplina faz a diferença para o profissional do serviço social. Nesse ponto,
suas conclusões serão mais respeitadas e suas interpretações de trabalhos alheios, melhor com-
preendidas e avaliadas.
Para tanto, você verá aspectos da distribuição de dados e alguns gráficos muito utilizados para sin-
tetizar informações. Não espere encontrar, neste estudo, soluções computacionais para cálculos,
análises ou representações gráficas. Mas você deve saber que, atualmente, é praticamente impos-
sível sequer pensar em realizar análise de dados sem recorrer a algum tipo de software estatístico.
Bons estudos!
05
Estatística
Essas medidas podem ser calculadas a partir de dados amostrais e de dados populacionais, mas,
tanto para amostras quanto para populações, as equações e os princípios estatísticos são muito
similares. Para começar, conheça a seguir a medida de tendência central mais utilizada, a média.
O somatório de uma série de valores ∑ (letra sigma maiúscula do alfabeto grego) é representado
por:
∑i
i=p
Essa notação matemática representa o somatório de n valores ordenados variando de i=p até n,
em que p representa o limite inferior da série e n o limite superior. Nesse caso, a letra i representa
o índice ou posição do valor dentro da série. O índice é sempre apresentado subscrito à direita
do valor ou variável. Por exemplo, dado um conjunto de dados h={21, 52, 53, 54, 65, 76, 87, 98},
a soma de todos os elementos pode ser representada por:
∑h i
i=1
∑x 3
i=2
Ou seja, o somatório dos elementos da variável x variando da posição i=2 até a posição i=7. É
importante dizer que o índice raramente é explicitado quando são apresentados os valores que
uma variável pode assumir. O índice é uma forma de identificar ou dar nome aos elementos de
um conjunto.
25
∑ x =x
i 5
+ x6 + x7 ...+ x25
i=5
É importante que você não confunda o índice de uma determinada variável x com o valor que
essa variável pode assumir. O índice indica apenas a posição de um determinado elemento den-
tro de um conjunto de dados.
Agora, retome a discussão sobre a média. O valor da média é o resultado do somatório de todos
os valores de uma determinada variável divido pelo número de elementos. Uma das característi-
cas da média é que esta possui a mesma unidade dimensional dos dados.
Você pode entender a média como o ponto de equilíbrio de um conjunto de valores. Imagine que
você possui um eixo horizontal no qual são posicionados pesos de um quilo (1 kg) para cada
dado observado de acordo com o seu valor em uma determinada escala de distância do ponto
de referência inicial. A posição exata do único ponto onde se pode colocar um apoio que susten-
te todo em equilíbrio é o local que corresponde à média aritmética dos dados (BARBETTA, 2014).
x1 + x2 + x3 + ... + xn ∑ ni=1 x
x= = i
n n
Com base no exposto, você poderia dizer se está se referindo à média amostral ou à populacio-
nal? Lembre-se sempre de que o número de elementos da população é representado pela letra
N e da amostra pela letra n.
07
Estatística
Silas 2 3 7 6 8
Petros 6 4 4 6 3
Salete 5 5 3 10 10
Marius 1 3 2 4 5
Helena 1 4 7 5 3
Charles 4 0 5 3 1
Para descrever a produtividade anual de artigos de cada professor, calcule a média anual das
publicações de cada professor. Para o professor Silas, por exemplo, a produtividade média anual
é dada por:
∑ 5i=1 p 2+3+7+6+8 26
x= i = = = 5,2 artigos
5 5 5
Da mesma forma, podemos calcular a produtividade média dos demais pesquisadores do pro-
grama. Agora vamos calcular a produtividade média anual do professor Petros.
∑ 5i=1 p 6+4+4+6+3 23
x= i = = = 4,6 artigos
5 5 5
Parece que Silas tem publicado, em média, mais artigos que Petros. Que tal calcular as médias
para os demais professores? Aproveite essa questão para exercitar seu conhecimento.
A média pode não ser a medida mais apropriada para resumir a tendência central de um con-
junto de dados. Nos casos, verifica-se a presença de valores extremos ou discrepantes, também
chamados de outliers, a média geralmente é deslocada da região central. Nesse caso, você não
poderia confiar na média para resumir os dados. Retome o exemplo dos artigos publicados por
professores do programa de pós-graduação. Suponha que, em 2010, o professor Silas tenha pu-
blicado 30 artigos em vez de 2 artigos e veja, a seguir, como o valor da média pode ser alterado.
∑ 5i=1 p 30+3+7+6+8 54
x= i = = = 10,8 artigos por ano
5 5 5
O valor da média foi alterado de 5,2 para 10,8 publicações por ano. Observe que o valor da
média agora não descreve adequadamente a tendência central dos dados, e isso pode levar o
pesquisador inexperiente a uma interpretação distorcida da realidade. Tente entender melhor
esse aumento súbito no valor da média: descobriu-se que o professor Petros realizou uma viagem
de pós-doutorado e colaborou com muitos colegas da universidade que o acolheu. Em função
disso, o valor da média que resume seu desempenho aumentou consideravelmente. Agora que
você conheceu melhor o fenômeno que originou os dados, pode ponderar se, de fato, essa mé-
dia será realmente útil para resumir o desempenho dos professores.
VOCÊ O CONHECE?
Nascido na Suécia em 1948, o médico e professor Hans Rosling é também conhecido
como o “guru” da estatística moderna. Por meio de recursos gráficos e palestras anima-
das, Rosling traduz a monotonia dos dados estatísticos de maneira cativante e divertida,
possibilitando aos leigos a compreensão de um assunto comumente dominado por
especialistas. Saiba mais sobre Hans Rosling acessando o endereço: <https://www.ted.
com/talks/hans_rosling_shows_the_best_stats_you_ve_ever_seen?language=pt-br>.
Importante, você deve se lembrar de que a média é muito influenciada por valores discrepantes e,
quando temos distribuições assimétricas, essa medida deve ser utilizada com cautela. Para esses ca-
sos, outras medidas de posição central podem ter mais utilidade. Você já ouviu falar da mediana?
Mediana
Dado um conjunto de dados ordenados, a mediana corresponde ao valor do elemento central.
Em outras palavras, a mediana divide a distribuição de dados em duas partes iguais de acordo
com os índices dos elementos. Dado que essa medida de tendência central leva em consideração
índices e não valores, ela não se altera com a presença de outliers.
= x(n+1/2)
= x(5+1/2) = x(3) = 4
Para um número par de elementos, mediana continua sendo o valor que se encontra exatamente
no ponto central da distribuição dos dados:
x(n/2) + x(n/2+1)
=
2
09
Estatística
Você se lembra da viagem realizada pelo professor Petros na qual ele publicou 30 artigos em
um único ano? De fato, este foi um ano atípico e os dados mostram que, no Brasil, o seu ritmo
de publicações é bem menos intenso. Você viu que uma média de 10,8 artigos publicados por
ano pode não refletir o verdadeiro rendimento acadêmico desse professor e, portanto, resolveu
calcular a mediana. O resultado obtido foi 4 artigos por ano. E agora, qual dos dois valores
você acha que melhor representa o rendimento acadêmico do professor Petros? Dado que você
identificou um valor atípico e que tem informações a respeito desse valor, parece que a mediana
pode representar melhor o rendimento dos professores. Outra estratégia poderia ser retirar o
valor atípico e tentar novamente utilizar a média.
Em distribuições simétricas (figura 1-b), a média, a moda e a mediana são iguais. Já distribuições
assimétricas possuem médias deslocadas na direção da cauda mais longa, e a mediana tende a
permanecer entre a média e a moda (figuras 1-a e 1-c).
μ μ~ μ = μ~ μ μ~
(a) Inclinação negativa (b) Simétrica (c) Inclinação positiva
Quando se deve realmente usar a média ou a mediana ou até mesmo a moda como medida de
posição central? O coeficiente de assimetria de Pearson vai dizer se essa distribuição pode ser
considerada simétrica, assimétrica moderada ou assimétrica forte (AMARO; SILVESTRE; FERNAN-
DES, 2009). O coeficiente de assimetria de Pearson (A) é dado pela razão da diferença entre a
média (x) e a mediana ( ) pelo desvio padrão (S):
x–
A=
S
VOCÊ O CONHECE?
Karl Pearson foi um cientista e matemático inglês precursor das disciplinas de estatística
e bioestatística. Pearson (Londres, 1857-1936) também se destacou como historiador e
é tido como um dos grandes pensadores de sua época. Sua obra teve grande influência
nos trabalhos de Albert Einstein (VILLEGAS, 2009).
O primeiro quartil separa os primeiros 25% dos dados dos 75% restantes, o segundo quartil se-
para os primeiros 50% dos dados dos 50% maiores, ou seja, divide a série no meio assim como
a mediana, e o terceiro quartil divide os 75% primeiros valores dos 25% maiores que restam. De
forma análoga, o primeiro decil divide os primeiros 10% dos valores da distribuição dos 90%
maiores, o segundo divide os primeiros 20% dos 80% superiores e assim por diante. Da mesma
maneira, o primeiro percentil divide os primeiros 1% dos dados dos 99% maiores.
O cálculo dos quartis, decis e percentis pode ser realizado a partir das três equações dadas a
seguir, sendo n o número de dados da amostra; i o índice nesse caso do quartil; PQ, quartil; PD,
decil e PC, percentil:
n n n
PQi = × i , PDi = ×i, PCi = ×i
4 10 100
Veja um exemplo: para uma distribuição de 1.000 valores, a posição do 3º quartil, do 9º decil
e do 20º percentil serão, respectivamente:
Após calcular a posição dos quartis, decis e percentis, localiza-se na tabela de dados ordenados
qual é o índice do elemento. Veja que as equações anteriores fornecem a posição (i) do elemento
na qual ocorre a divisão dos dados. Suponha que, no exemplo anterior, ao calcular o percentil,
verificamos que, no elemento cujo índice i=200, a variável assume um valor igual a 10 mil. En-
tão, o valor do 20º percentil será 10 mil. Com esse resultado, sabe-se que, nos dados, 20% dos
valores encontram-se abaixo de 10 mil e 80% acima de 10 mil. Suponha agora que o resultado
do cálculo do 3º quartil, que lhe fornece um índice ou posição igual a 750, fosse o elemento
11
Estatística
cujo valor é 10 mil. Nesse caso, dado que os quartis dividem a distribuição em 4 partes iguais,
você saberia que 75% dos valores estão abaixo de 10 mil e que 25% dos valores estão acima
de 10 mil.
Em caso de valores fracionados, utiliza-se a média dos elementos mais próximos. Por exemplo,
no caso da posição 1,5, você fará a média dos valores do primeiro elemento com o segundo.
De forma similar, no caso da posição 12,5, fará a média dos valores do décimo segundo e do
décimo terceiro elementos.
Média aparada
A média é muito sensível a um outlier único, e a mediana é insensível à presença de muitos
outliers. Como essas características extremas das duas medidas são indesejáveis em uma análise
mais precisa, podemos utilizar uma medida que não é tão excludente dos extremos quanto a
mediana nem tão permissiva quanto a média. Essa medida é chamada de média aparada. Uma
média aparada é uma medida intermediária entre a média e mediana; nela, escolhemos qual
é o percentil de valores que desejamos desprezar nos extremos superior e inferior do conjunto
de dados. Por exemplo, uma média aparada de 20% significa que estamos calculando a média
desprezando os 20% superiores e 20% inferiores da distribuição de dados, obtendo, então, a
média do restante.
Amplitude
A amplitude (A) total, ou como também é chamada, o range, é a diferença entre o maior e o
menor valor do conjunto de dados. A amplitude da distribuição de uma variável x com extremos
inferior (xn) e superior (x1) é dada por:
A = xn – x1
1 5 20 5
2 10 29 53
3 7 25 53
4 8 22 55
5 9 25 54
6 14 22 56
7 35 23 55
8 44 26 55
9 70 28 52
10 18 29 57
11 50 29 50
12 44 30 70
13 65 22 50
Comece pela linha 1. Primeiramente, ordene os dados do menor para o maior valor:
5 7 8 9 10 14 18 35 44 44 50 65 70
E então aplique a equação A = xn – x1, como n=13, temos que A = x13 – x1 = 70 – 5, assim a
linha 1 apresenta uma amplitude A = 65 embarques. O cálculo da amplitude para o número
de embarques das linhas 2 e 3 é A=10 e A=65, respectivamente. Fica claro que a linha 2 apre-
senta menor variabilidade do que a linha 1 ao longo das 13 horas. Isso significa que os dados
referentes ao número de embarques da linha 2 são muito mais homogêneos, apresentam pouca
variabilidade. Mas a amplitude não diz muito sobre o que acontece entre os extremos. Veja que
a distribuição de dados das linhas 1 e 3 possui a mesma amplitude, mas a variabilidade na dis-
tribuição da linha 3, na verdade, é muito menor. O gerente da empresa de transporte não ficou
muito satisfeito com o relatório apresentado e pede ao técnico que forneça mais informações
sobre os embarques na plataforma. Vamos tentar descrever melhor a variabilidade dos dados?
Desvio médio
Suponha que, em uma determinada empresa, há 1 mil empregados e que cada um deles tem
3 filhos. Não importa o setor ou o salário. Todos têm 3 filhos. Nesse caso, qualquer cálculo da
média do número de filhos teria como resultado o número 3, e o desvio de cada valor em relação
à média seria zero. Por outro lado, se apenas 10 funcionário tivessem 4 filhos, e 10 funcionários
tivessem 2 filhos, a média ainda seria um valor muito próximo de 3 (3,02). A média por si só
não diz muito a respeito dos dados e se faz necessário ter uma ideia de quão longe da média se
encontram nossos dados. Para isso, pode-se calcular o desvio de cada valor em relação à média.
13
Estatística
A partir de então, você teria outros 1.000 valores referentes aos desvios de cada valor. Isso seria
pouco prático, de modo que vamos resumir essa informação calculando a média dos desvios. O
problema é que a média da soma dos desvios sempre será igual a zero. Isso acontece por-
que, ao somar os desvios negativos (abaixo da média) e os desvios positivos (acima da média),
os valores se anulam. Para evitar esse problema, antes de efetuar a soma, vamos elevar cada
desvio ao quadrado. Lembre-se de que o resultado de qualquer número negativo elevado a uma
potência par será sempre um número positivo. Agora sim você pode mensurar quanto, em média,
os dados se distanciam de um valor central. Esse valor é conhecido como variância.
Variância
A variância representa a média dos desvios quadráticos de um conjunto de dados em relação à
média. Lembre-se de que você não está interessado em conhecer o desvio de cada um dos da-
dos, mas, sim, em obter um valor que possa resumir os desvios quadráticos de todos os dados.
Por isso, calculou uma média. Para o cálculo da variância, precisará primeiramente calcular os
desvios quadráticos de cada um dos valores em relação a um valor central, ou seja, a distância
de cada elemento em relação à média do conjunto:
Agora sim você pode resumir os valores individuais e obter a média dos desvios quadráticos de
todo o conjunto de dados, de modo que vai dividir o total da soma pelo número de elementos do
conjunto de dados. A variância da população (σ2) é igual ao somatório dos desvios quadráticos
dividido pelo número de elementos do conjunto de dados.
∑ ni=1 (x – x)2
s2 = i
Ok, você já tem uma informação que resume a variabilidade dos dados em torno de um valor
central. Para que possa obter essa informação nas mesmas unidades dos dados originais, extraia
a raiz quadrada dessa média. Esse valor é conhecido como desvio padrão. Para o cálculo da
variância da amostra, o denominador deve ser n - 1.
Ao calcular estatísticas sobre uma amostra, tem-se interesse em generalizar os dados para toda
a população. Ao substituir o denominador N por n - 1, você obterá um valor mais aproximado
da variância populacional. Dizemos que o cálculo da variância amostral possui n - 1 graus de
liberdade.
∑ ni=1 (x – x)2
s= s = 2 i
A seguir, tome novamente o exemplo do transporte público, só que nesse momento se quer des-
crever como é a variação média do número de passageiros que embarcam nas 13 chegadas e
partidas. Comece pela linha 1.
∑ 13
i=1 x i 5+10+7+8...+65 379
x= = = , simplificando o resultado na primeira casa decimal,
13 12 12
temos que x = 31,6 a cada hora.
O segundo passo é calcular os desvios em relação à média. Para organizarmos os cálculos, uti-
lizamos a Tabela 3 com os dados levantados e mais duas colunas adicionais, uma com desvios
em relação à média e outra com os desvios quadráticos.
1 5 -24.2 583.4
2 10 -19.2 366.9
3 7 -22.2 490.8
4 8 -21.2 447.5
5 9 -20.2 406.2
6 14 -15.2 229.6
7 35 5.8 34.2
8 44 14.8 220.4
9 70 40.8 1668.4
10 18 -11.2 124.4
11 50 20.8 434.6
12 44 14.8 220.4
13 65 35.8 1284.9
15
Estatística
∑ ni=1 (x – x)2
S2 = i = 500.9
n
s = s2 = 500.9 = 22,4
Mas como interpretar esses valores? Pois bem, a conclusão é que o número de passageiros por
viagem na linha 1 é, em média, igual a 29,2 pessoas, e que a variação média em torno desse
valor central é s =22,4. Dependendo do horário, podemos observar 29,2 (±22,4) embarques.
O desvio padrão da linha 3 é s =14,7 e da linha 2 s =3,3. Ou seja, o número de embarques
na linha 3 é mais homogêneo mesmo apresentando a mesma amplitude que a linha 1. Podemos
imaginar que o gerente da empresa, ao receber essa informação, entende que o relatório enviado
pelo técnico agora está mais consistente e que apresenta informações relevantes sobre os embar-
ques na plataforma. Esta é uma situação hipotética para efeitos apenas ilustrativos. Se um estudo
similar fosse levado a cabo, deveria ser realizado um delineamento experimental adequado.
A fim de melhorar os serviços da empresa e otimizar os custos, será necessário identificar os perí-
odos nos quais o fluxo de passageiros é, em média, mais intenso na linha 1. Aproveite essa tarefa
como exercício. A partir da média, construa dois grupos: “muito intenso” e “pouco intenso”. Para
cada um dos grupos, calcule a média, a variância e o desvio padrão. A partir desse novo relató-
rio, será possível montar uma estratégia para melhor atender os passageiros sem comprometer
os custos da empresa?
Amostra População
Número de elementos n N
Variância S2 σ2
Desvio padrão S σ
Primeiramente calcula-se o desvio entre quartis, restando o quartil superior menos o quartil in-
ferior (DQ = Qs - Qi). Qualquer valor acima de DQ*1,5 + Qs pode ser considerado um dado
discrepante. De forma análoga, qualquer valor abaixo de DQ*1,5-Qi também pode ser consi-
derado um valor discrepante. A Figura 2 mostra uma distribuição simétrica e uma distribuição
assimétrica delimitadas pelos intervalos quartílicos. As linhas pontilhadas representam os valores
DQ*1,5 acima e abaixo dos quartis superior e inferior, respectivamente. O ponto isolado à direi-
ta da distribuição assimétrica representa um valor discrepante.
25%
25% 25% 25%
25%
25% 25% 25%
Qi Qs Qi Qs
Figura 2 – Distribuições simétrica (esquerda) e assimétrica (direita) e seus respectivos intervalos interquartíli-
cos. As duas distribuições foram divididas em 4 partes iguais. A linha reta representa o intervalo DQ=Qs-Qi,
as linhas pontilhadas representam as distâncias DQ*1,5 além de Qi e Qs e o ponto isolado representa um
dado discrepante. Repare como 50% dos dados encontram-se entre o quartil inferior e o quartil superior.
Fonte: Adaptada de Barbetta (2014).
Uma vez identificados, o que fazer com dados discrepantes? Antes de responder a essa pergunta,
tente descobrir por que motivo nossos dados apresentam esse tipo de valores. Uma das causas
muito recorrentes é algum tipo de erro de coleta, inserção ou processamento de dados. Digamos
que, ao estudar a temperatura média das salas de uma maternidade, você encontre um valor
de 125°C. Muito provavelmente, o valor correto é 25°C, mas, devido a um erro de digitação ou
processamento, esse valor acabou aparecendo nos dados. Nesse caso, o certo é eliminar esse
valor e refazer as análises.
Por outro lado, dados atípicos não são necessariamente sinônimo de erro. Digamos que um
aquecedor muito potente foi posicionado por alguns instantes logo abaixo do termômetro da
maternidade no momento do registro. Ou que o entrevistado realmente possui uma característica
diferenciada em relação aos demais entrevistados. Nesses casos, os dados podem permanecer
com os demais ou podem ser retirados e analisados separadamente. Também existe a possibi-
lidade de descarte, caso seja do interesse do pesquisador. Independentemente do motivo que
originou esses dados atípicos e do destino que lhes será outorgado, é sempre importante dedicar-
-lhes um pouco de atenção e deixar registrada sua ocorrência. Lembre-se: outliers podem ser
descartados, analisados separadamente ou mantidos com o restante dos dados originais.
17
Estatística
35 55 60 60 7 64 75
Já é possível identificar algumas características dos dados coletados. Agora você sabe que todos
os funcionários ingeriram algum tipo de medicamento e que o número mínimo é de 35 inges-
tões. Também é possível observar que aqueles que mais consumiram medicamentos o fizeram
75 vezes. Dado os valores dos quartis inferior e superior, fica claro que 50% dos funcionários
consumiram medicamentos 55 a 64 vezes, que 25% dos funcionários consumiram medicamentos
entre 35 e 55 vezes e, ainda, vemos que outros 25% consumiram medicamentos entre 64 e 75
vezes no último ano.
Como a média e a mediana apresentam o mesmo valor, nossa distribuição de dados é simétrica,
portanto, é possível estimar um consumo médio de 60 ingestões (±7) no último ano. A discussão,
nesse momento, não gira em torno de um valor aceitável de ingestões de medicamentos pelos
funcionários em um determinado intervalo de tempo.
A seguir, observe os dados sob outra perspectiva. Os dados referentes ao consumo de medicamen-
tos pelos funcionários nos últimos 365 dias encontram-se resumidos no histograma da Figura 3.
35 40 45 50 55 60 65 70 75
Ingestão de qualquer medicamento
Com base nas informações extraídas a partir do histograma e de algumas medidas descritivas,
foi possível obter um panorama da relação dos funcionários com o consumo de medicamentos
durante o período avaliado. Agora vamos apresentar outra forma gráfica muito utilizada para
descrever o comportamento de dados.
O boxplot ou diagrama de caixas é um gráfico muito utilizado para resumir características como
centro, dispersão, extensão dos desvios em relação à simetria e dados discrepantes (DEVORE,
2014). Vamos dar uma olhada na estrutura desse tipo de gráfico. Um retângulo representa o
intervalo entre o quartil inferior e o quartil superior que contém 50% dos dados mais próximos do
centro da distribuição. O retângulo é dividido de forma transversal pela mediana que separa a
distribuição em duas partes contendo 50% dos dados. Em alguns casos, quando a média é utili-
zada em detrimento da mediana, deve haver uma indicação na legenda ou na própria figura que
contém o gráfico. De forma geral, diagramas de caixas utilizam a mediana por não ser sensível
a dados discrepantes.
Das extremidades do retângulo, partem duas retas que se estendem até os limites superior e infe-
rior da distribuição ou DQ*1,5 além dos quartis inferior e superior. Neste último caso, os outliers
são representados por pontos ou asteriscos. A Figura 4 apresenta um gráfico do tipo boxplot do
consumo de medicamentos pelos funcionários da empresa objeto de nosso estudo.
19
Estatística
A caixa nos mostra que 50% dos dados se distribuem em torno do valor 60. A mediana encontra-
-se no meio da caixa indicando uma distribuição simétrica, e as linhas pontilhadas (bigodes)
mostram caudas nem muito longas nem muito estreitas. Caudas relativamente curtas e distri-
buição simétrica nos permitem utilizar o valor da média igual a 60 como medida de tendência
central. Os bigodes representam 25% acima e abaixo do intervalo interquartílico que delimita
50% dos dados centrais, e uma pequena circunferência indica que há um dado discrepante à
esquerda (abaixo) da distribuição. Esta é uma das características mais importantes de um gráfico
de caixas. Ele nos fornece uma informação visual muito clara sobre a existência de dados discre-
pantes e sua relação com os demais valores de nosso conjunto de dados.
Ano 1 36 72 81 81 14 89 130
Ano 2 0 80 84 76 26 88 99
A partir do Quadro 3, você pode ver que os extremos do ano 1 apresentam valores mais elevados
do que ano 2. O intervalo interquartílico do ano 1 é maior, portanto, no ano 1, a distribuição de
50% dos dados em torno da mediana deve ser maior. O ano 2 apresenta um grau de assimetria
com cauda mais longa à esquerda. Veja que a mediana é 8 unidades maior que a média. A mé-
dia dos dois conjuntos de dados nos diz que o consumo de medicamentos foi um pouco maior no
primeiro ano. Você concorda? Vamos dar uma olhada no boxplot dos dados (Figura 5).
120
100
Ingestões por ano
80
60
40
20
0
1 2
A partir dos gráficos, fica mais fácil comparar os dois conjuntos de dados. Lembre-se de que o
valor da média de consumo no ano 1 é maior, mas, de acordo com o gráfico, o consumo parece
ter aumentado. De fato, o valor da mediana do ano 2 (=84) é um pouco maior que o valor da
mediana do ano 1 (=81). No gráfico, fica fácil entender que a média foi influenciada por um
conjunto de dados discrepantes com valores muito baixos. Parece que algumas pessoas no ano 2
não consumiram remédio algum, mas uma grande quantidade de funcionários aumentou o con-
sumo de medicamentos. Se desconsiderarmos os outliers, a dispersão dos dados no segundo ano
é muito menor, portanto, indica que há maior uniformidade no comportamento dos funcionários
em relação ao consumo de medicamentos.
A Figura 6 apresenta os gráficos de caixa referentes aos 6 anos de monitoramento da saúde dos
funcionários de uma empresa fictícia. Aproveite a interpretação dos resultados como exercício.
100
50
0
1 2 3 4 5 6
21
Estatística
Neste tópico, você aprendeu algumas ferramentas gráficas que auxiliam na interpretação de
conjuntos de dados. Uma das principais regras da estatística é: coloque seus dados no gráfico
(THURMAN, 2014). Lembre-se de que uma imagem diz mais do que mil palavras; que muitos
detalhes podem passar despercebidos em planilhas; e que textos saltam aos olhos quando apre-
sentados na forma de gráficos. Na estatística, um é pouco, dois é bom e três é melhor ainda.
Sendo assim, procure apresentar seus dados de várias formas. Faça cálculos e apresente seus
resultados na forma de gráficos, quadros, esquemas e tabelas. Dessa forma, você verá que é
possível realizar descobertas incríveis. Uma boa descrição dos dados também permite realizar
ajustes, identificar e corrigir erros antes de tornar público nosso trabalho.
• viu que, de acordo com a forma da distribuição de dados e com a ocorrência de dados
atípicos, é preferível utilizar uma ou outra medida de posição central, compreendendo
que médias são mais indicadas quando temos distribuições simétricas, ao passo que a
moda e a mediana são mais indicadas para distribuições assimétricas de caudas longas;
• conheceu algumas técnicas que permitem explicar a distribuição dos dados em torno
de valores centrais, além dos conceitos de desvio que representam a distância de cada
elemento em relação à média, variância, que é o desvio quadrático, e desvio padrão, que
é a raiz quadrada da variância;
• por fim, aprendeu que uma das regras básicas da estatística é sempre plotar os dados.
Gráficos fornecem informações de forma muito clara e ilustrativa e, por isso, foram
apresentados alguns gráficos que permitem descrever as medidas apresentadas ao longo
do capítulo. Finalizamos com o gráfico de barras, que fornece informações relevantes a
respeito da distribuição, range, mediana e quartis de um conjunto de dados. Os conceitos
abordados constituem a base da análise de dados e são imprescindíveis para qualquer
profissional da área do serviço social, que cada vez mais é impelido a confeccionar e
interpretar informações na forma de estatísticas e representações gráficas.
23
Referências Bibliográficas
AMARO, A.; SILVESTRE, C.; FERNANDES, L. Estatística descritiva. O segredo dos dados. 1.
ed. Lisboa: Editora Lulu, 2009. 114 p.
KIRSTEN, J. T.; ALVES, V.; PEREIRA, W. Estatística para as ciências sociais: teoria e aplicações.
São Paulo: Saraiva, 1980.
PASSARI, L. M. Z. G.; SOARES, P. K.; BRUNS, R. E. Estatística aplicada à química: dez dúvidas
comuns. Química Nova, São Paulo, v. 34, n. 5, p. 888-892, ago. 2001.
SPIEGEL, M. R. Estatística. 3. ed. São Paulo: Makron Books (Coleção Schaum), 1993. 639 p.