Você está na página 1de 24

Alejandro Donnangelo

Estatística
Sumário
CAPÍTULO 3 – Análise Exploratória...................................................................................05

Introdução.....................................................................................................................05

3.1 Medidas de posição e dispersão.................................................................................05

3.1.1 Medidas de posição central...............................................................................06

3.1.2 Média, mediana, moda e distribuição................................................................10

3.1.3 Medidas de dispersão.......................................................................................12

3.2 Representações gráficas.............................................................................................16

3.2.1 O que é um dado discrepante?..........................................................................17

3.2.2 Diagrama boxplot............................................................................................18

Síntese...........................................................................................................................23

Referências Bibliográficas.................................................................................................24

03
Capítulo 3 Análise Exploratória

Introdução
A partir deste estudo, você vai explorar o fabuloso universo da análise de dados. Você sabe como
se organizam os dados coletados depois que o pesquisador define seus objetivos e confecciona
o projeto de pesquisa? Durante a análise exploratória de dados, identificamos padrões e ten-
dências e extraímos informações ocultas de conjuntos de dados. Ao passo que um leigo enxerga
apenas números em tabelas extensas e figuras incompreensíveis, o analista encontra respostas,
faz descobertas e transmite informações de forma prática e objetiva. E você? Consegue identifi-
car as informações relevantes ao observar uma dessas tabelas?

Ao longo deste capítulo, você conhecerá algumas ferramentas que permitem resumir informações
fazendo uso de medidas de posição central. Compreenderá os conceitos de média, mediana e
moda e sua aplicabilidade na análise exploratória de dados. Fique atento, pois muitos conceitos
podem parecer banais, mas, na verdade, todos são muito importantes. Procure fixar bem o con-
teúdo: leia com atenção e, se necessário, releia o material.

Muitas vezes, você pode pensar que uma simples olhada em tabelas e quadros dispensa qualquer
análise estatística. Isso é normal, pois, a fim de exemplificar cálculos e aplicação das metodolo-
gias apresentadas, criamos situações hipotéticas com pequenos conjuntos de dados. Isso facilita
muito a interpretação de dados e permite que você construa conhecimento enquanto tira suas
próprias conclusões. Mas lembre-se de que, na vida real, lidamos com grandes conjuntos de
dados, em que nada é tão óbvio assim. E é justamente nesse momento que todo o conhecimento
transmitido nesta disciplina faz a diferença para o profissional do serviço social. Nesse ponto,
suas conclusões serão mais respeitadas e suas interpretações de trabalhos alheios, melhor com-
preendidas e avaliadas.

Para tanto, você verá aspectos da distribuição de dados e alguns gráficos muito utilizados para sin-
tetizar informações. Não espere encontrar, neste estudo, soluções computacionais para cálculos,
análises ou representações gráficas. Mas você deve saber que, atualmente, é praticamente impos-
sível sequer pensar em realizar análise de dados sem recorrer a algum tipo de software estatístico.

Bons estudos!

3.1 Medidas de posição e dispersão


Você já aprendeu a confeccionar tabelas e gráficos, certo? Também sabe que estas são ferra-
mentas úteis para organizar e apresentar visualmente os resultados de uma pesquisa, dando uma
ideia inicial do fenômeno observado, concorda? Mas vamos supor que, agora, você deve ser
mais preciso em sua descrição e dizer qual é a tendência ou o comportamento típico do fenôme-
no que está estudando. Como você faria? Por exemplo, para saber a longevidade das pessoas de
um país, você pode calcular a média da expectativa de vida de sua população. Por outro lado,
para saber a variação típica da expectativa de vida dessas pessoas em torno da média, pode-se
calcular o desvio padrão. Dessa forma, terá uma ideia da expectativa de vida por meio de um só
valor referente à média, mas também uma pista de quanto de fato você pode confiar nesse valor
para resumir os dados. Com medidas de posição e dispersão (média, mediana, desvio padrão), é
possível descrever as principais tendências de um determinado fenômeno de estudo. Quer saber
mais? Leia a seguir.

05
Estatística

3.1.1 Medidas de posição central


As medidas de posição central de um conjunto de dados resumem em um só valor numérico
qual é o centro de sua distribuição de valores. Da mesma forma que existem muitos tipos de
fenômenos na natureza que podem ser medidos, existem muitos tipos diferentes de dados com
distribuições de valores diferentes e, portanto, existem medidas de posição central apropriadas
para cada uma delas. Você entenderá porque a média é indicada para dados que possuem va-
lores que estão próximos uns aos outros, portanto, próximos da posição central. Saberá também
que a mediana é mais apropriada em casos em que existem valores atípicos que se distanciam
muito da maior parte dos demais valores do conjunto de dados.

Essas medidas podem ser calculadas a partir de dados amostrais e de dados populacionais, mas,
tanto para amostras quanto para populações, as equações e os princípios estatísticos são muito
similares. Para começar, conheça a seguir a medida de tendência central mais utilizada, a média.

Média aritmética simples


A média aritmética é uma medida de tendência central calculada a partir de todos os dados de
uma amostra ou de uma população. Antes de defini-la melhor, relembre o conceito de somatório.

O somatório de uma série de valores ∑ (letra sigma maiúscula do alfabeto grego) é representado
por:

∑i
i=p

Essa notação matemática representa o somatório de n valores ordenados variando de i=p até n,
em que p representa o limite inferior da série e n o limite superior. Nesse caso, a letra i representa
o índice ou posição do valor dentro da série. O índice é sempre apresentado subscrito à direita
do valor ou variável. Por exemplo, dado um conjunto de dados h={21, 52, 53, 54, 65, 76, 87, 98},
a soma de todos os elementos pode ser representada por:

∑h i
i=1

O que significa que estamos somando os elementos de índice 1 a 9 (soma 2+5+5+5+6+7+8+9),


nesse caso, todos os elementos do conjunto. De forma análoga, para representar a soma dos
valores localizados entre o 2º e o 7º elemento da variável x={23, 33, 43, 53+ 63, 73, 83 e 93}
escrevemos:

∑x 3

i=2

Ou seja, o somatório dos elementos da variável x variando da posição i=2 até a posição i=7. É
importante dizer que o índice raramente é explicitado quando são apresentados os valores que
uma variável pode assumir. O índice é uma forma de identificar ou dar nome aos elementos de
um conjunto.

06 Laureate- International Universities


Vamos tomar outro exemplo: a soma do 5º até o 25º elemento de um conjunto de dados da
variável x, representada por ∑ 25
i=5 x i , equivale a:

25

∑ x =x
i 5
+ x6 + x7 ...+ x25
i=5

É importante que você não confunda o índice de uma determinada variável x com o valor que
essa variável pode assumir. O índice indica apenas a posição de um determinado elemento den-
tro de um conjunto de dados.

NÃO DEIXE DE VER...


Para fixar melhor a notação de somatório, você pode acessar o vídeo Somatório, no site
Kuadro, disponível no endereço: <http://kuadro.querobolsa.com.br/videoaula/mate-
matica/probabilidade-e-estatistica/somatorio>.

Agora, retome a discussão sobre a média. O valor da média é o resultado do somatório de todos
os valores de uma determinada variável divido pelo número de elementos. Uma das característi-
cas da média é que esta possui a mesma unidade dimensional dos dados.

A média amostral é geralmente representada por x. No caso de quadros e tabelas em que há


muitas variáveis, é comum o emprego de outras letras para representar a média amostral. Por
exemplo, as variáveis tempo, volume e cor podem ser representadas por t, v e c respectivamente.
A média da população é denotada pela letra grega m (mi).

Você pode entender a média como o ponto de equilíbrio de um conjunto de valores. Imagine que
você possui um eixo horizontal no qual são posicionados pesos de um quilo (1 kg) para cada
dado observado de acordo com o seu valor em uma determinada escala de distância do ponto
de referência inicial. A posição exata do único ponto onde se pode colocar um apoio que susten-
te todo em equilíbrio é o local que corresponde à média aritmética dos dados (BARBETTA, 2014).

A média aritmética simples de um conjunto de n valores de uma variável x é dada por:

x1 + x2 + x3 + ... + xn ∑ ni=1 x
x= = i

n n

Com base no exposto, você poderia dizer se está se referindo à média amostral ou à populacio-
nal? Lembre-se sempre de que o número de elementos da população é representado pela letra
N e da amostra pela letra n.

Veja outro exemplo: em um programa de pós-graduação em serviço social, os professores dese-


jam saber qual é a produtividade científica de seus laboratórios e de seus pesquisadores em ter-
mos de artigos publicados. Foi realizado um levantamento dos artigos publicados por professor
no período de 2010 até 2014. Os dados obtidos são apresentados na Tabela 1.

07
Estatística

Publicações Publicações Publicações Publicações Publicações


Professor
em 2010 em 2011 em 2012 em 2013 em 2014

Silas 2 3 7 6 8
Petros 6 4 4 6 3
Salete 5 5 3 10 10
Marius 1 3 2 4 5
Helena 1 4 7 5 3
Charles 4 0 5 3 1

Tabela 1 – Artigos científicos publicados anualmente pelos professores de um pro-


grama de pós-graduação em serviço social no período de 2010 a 2014.
Fonte: Elaborada pelo autor, 2015.

Para descrever a produtividade anual de artigos de cada professor, calcule a média anual das
publicações de cada professor. Para o professor Silas, por exemplo, a produtividade média anual
é dada por:

∑ 5i=1 p 2+3+7+6+8 26
x= i = = = 5,2 artigos
5 5 5

Da mesma forma, podemos calcular a produtividade média dos demais pesquisadores do pro-
grama. Agora vamos calcular a produtividade média anual do professor Petros.

∑ 5i=1 p 6+4+4+6+3 23
x= i = = = 4,6 artigos
5 5 5

Parece que Silas tem publicado, em média, mais artigos que Petros. Que tal calcular as médias
para os demais professores? Aproveite essa questão para exercitar seu conhecimento.

A média pode não ser a medida mais apropriada para resumir a tendência central de um con-
junto de dados. Nos casos, verifica-se a presença de valores extremos ou discrepantes, também
chamados de outliers, a média geralmente é deslocada da região central. Nesse caso, você não
poderia confiar na média para resumir os dados. Retome o exemplo dos artigos publicados por
professores do programa de pós-graduação. Suponha que, em 2010, o professor Silas tenha pu-
blicado 30 artigos em vez de 2 artigos e veja, a seguir, como o valor da média pode ser alterado.

∑ 5i=1 p 30+3+7+6+8 54
x= i = = = 10,8 artigos por ano
5 5 5

O valor da média foi alterado de 5,2 para 10,8 publicações por ano. Observe que o valor da
média agora não descreve adequadamente a tendência central dos dados, e isso pode levar o
pesquisador inexperiente a uma interpretação distorcida da realidade. Tente entender melhor
esse aumento súbito no valor da média: descobriu-se que o professor Petros realizou uma viagem
de pós-doutorado e colaborou com muitos colegas da universidade que o acolheu. Em função
disso, o valor da média que resume seu desempenho aumentou consideravelmente. Agora que
você conheceu melhor o fenômeno que originou os dados, pode ponderar se, de fato, essa mé-
dia será realmente útil para resumir o desempenho dos professores.

08 Laureate- International Universities


É por isso que você deve tomar muito cuidado quando fala e quando ouve falar em médias. Essa
medida pode não ser o melhor descritor da posição central de um conjunto de dados e, muitas
vezes, pode distorcer o verdadeiro significado das informações.

No vídeo O Prazer da Estatística (The Joy of Stats, 2010), em um comentário bem-humorado, o


palestrante Hans Rosling diz que, em média, nenhum sueco tem duas pernas. Este é um dos casos
típicos nos quais a média proporciona uma informação um tanto distorcida. Muitos suecos não
possuem uma perna e muitos outros nem mesmo duas pernas. Mas dado que ninguém possui três
pernas, o cálculo da média do número de pernas por habitante na Suécia é de aproximadamente
1,9 pernas por cidadão.

VOCÊ O CONHECE?
Nascido na Suécia em 1948, o médico e professor Hans Rosling é também conhecido
como o “guru” da estatística moderna. Por meio de recursos gráficos e palestras anima-
das, Rosling traduz a monotonia dos dados estatísticos de maneira cativante e divertida,
possibilitando aos leigos a compreensão de um assunto comumente dominado por
especialistas. Saiba mais sobre Hans Rosling acessando o endereço: <https://www.ted.
com/talks/hans_rosling_shows_the_best_stats_you_ve_ever_seen?language=pt-br>.

Importante, você deve se lembrar de que a média é muito influenciada por valores discrepantes e,
quando temos distribuições assimétricas, essa medida deve ser utilizada com cautela. Para esses ca-
sos, outras medidas de posição central podem ter mais utilidade. Você já ouviu falar da mediana?

Mediana
Dado um conjunto de dados ordenados, a mediana corresponde ao valor do elemento central.
Em outras palavras, a mediana divide a distribuição de dados em duas partes iguais de acordo
com os índices dos elementos. Dado que essa medida de tendência central leva em consideração
índices e não valores, ela não se altera com a presença de outliers.

A mediana da amostra e a da população são comumente representadas por e respectiva-


mente. O cálculo da mediana para um conjunto ímpar de dados de uma variável x é dado por:

= x(n+1/2)

Tomando como exemplo os dados referentes às publicações do programa de pós-graduação,


calcule a mediana das publicações do professor Petros. Primeiramente coloque os dados em
ordem crescente de valores:

x1 = 3,   x2 = 4,   x3 = 4,   x4 = 6,   x5 = 6.

Utilizando a fórmula da mediana para n=ímpar, temos:

= x(5+1/2) = x(3) = 4

Para um número par de elementos, mediana continua sendo o valor que se encontra exatamente
no ponto central da distribuição dos dados:

x(n/2) + x(n/2+1)
=
2

09
Estatística

Por exemplo, o cálculo da mediana do conjunto de valores (n=8) x={5,7,8,11,12,13,14,15}


corresponde a:

x(4) + x(5) 11+12


= = = 11,5
2 2

Você se lembra da viagem realizada pelo professor Petros na qual ele publicou 30 artigos em
um único ano? De fato, este foi um ano atípico e os dados mostram que, no Brasil, o seu ritmo
de publicações é bem menos intenso. Você viu que uma média de 10,8 artigos publicados por
ano pode não refletir o verdadeiro rendimento acadêmico desse professor e, portanto, resolveu
calcular a mediana. O resultado obtido foi 4 artigos por ano. E agora, qual dos dois valores
você acha que melhor representa o rendimento acadêmico do professor Petros? Dado que você
identificou um valor atípico e que tem informações a respeito desse valor, parece que a mediana
pode representar melhor o rendimento dos professores. Outra estratégia poderia ser retirar o
valor atípico e tentar novamente utilizar a média.

3.1.2 Média, mediana, moda e distribuição


Outro descritor que pode ser utilizado para resumir os dados é a moda. A moda é igual ao va-
lor, ou intervalo de valores, mais frequente em um conjunto de dados. A moda é muito fácil de
identificar em histogramas e polígonos de frequência, bastando apenas localizar o ponto mais
alto da função ou o retângulo mais alto.

As distribuições de frequência obtidas em pesquisas e trabalhos no âmbito do serviço social ra-


ramente são 100% simétricas. Se o grau de assimetria for muito grande, então a média já não
resumirá nosso conjunto de dados de forma correta.

Em distribuições simétricas (figura 1-b), a média, a moda e a mediana são iguais. Já distribuições
assimétricas possuem médias deslocadas na direção da cauda mais longa, e a mediana tende a
permanecer entre a média e a moda (figuras 1-a e 1-c).

μ μ~ μ = μ~ μ μ~
(a) Inclinação negativa (b) Simétrica (c) Inclinação positiva

Figura 1 – Três distribuições populacionais e suas respectivas medidas de ten-


dência central. A posição da moda é indicada pelas setas.
Fonte: Adaptada de Devore, 2014

Quando se deve realmente usar a média ou a mediana ou até mesmo a moda como medida de
posição central? O coeficiente de assimetria de Pearson vai dizer se essa distribuição pode ser
considerada simétrica, assimétrica moderada ou assimétrica forte (AMARO; SILVESTRE; FERNAN-
DES, 2009). O coeficiente de assimetria de Pearson (A) é dado pela razão da diferença entre a
média (x) e a mediana ( ) pelo desvio padrão (S):

x–
A=
S

10 Laureate- International Universities


A classificação do grau de assimetria é dada pelo módulo de A:

A < 0,15 = distribuição simétrica;

0,15 ≤ A < 1,00 = distribuição assimétrica moderada;

A ≥ 1 = disribuição assimétrica forte.

VOCÊ O CONHECE?
Karl Pearson foi um cientista e matemático inglês precursor das disciplinas de estatística
e bioestatística. Pearson (Londres, 1857-1936) também se destacou como historiador e
é tido como um dos grandes pensadores de sua época. Sua obra teve grande influência
nos trabalhos de Albert Einstein (VILLEGAS, 2009).

Quartil, decil e percentil


A fim de obter medidas de localização que descrevam melhor uma distribuição de valores,
podemos dividir os dados em mais de duas partes iguais. Da mesma forma que a mediana, os
quartis, decis e percentis são medidas de posição que dividem os dados, porém de forma mais
detalhada. Os quartis dividem o conjunto de dados em quatro partes iguais, os decis em dez
partes iguais e os percentis em cem partes iguais, o que nos dá três quartis, nove decis e 99
percentis, respectivamente.

O primeiro quartil separa os primeiros 25% dos dados dos 75% restantes, o segundo quartil se-
para os primeiros 50% dos dados dos 50% maiores, ou seja, divide a série no meio assim como
a mediana, e o terceiro quartil divide os 75% primeiros valores dos 25% maiores que restam. De
forma análoga, o primeiro decil divide os primeiros 10% dos valores da distribuição dos 90%
maiores, o segundo divide os primeiros 20% dos 80% superiores e assim por diante. Da mesma
maneira, o primeiro percentil divide os primeiros 1% dos dados dos 99% maiores.

O cálculo dos quartis, decis e percentis pode ser realizado a partir das três equações dadas a
seguir, sendo n o número de dados da amostra; i o índice nesse caso do quartil; PQ, quartil; PD,
decil e PC, percentil:

n  n   n 
PQi =   × i , PDi =   ×i, PCi =   ×i
4  10   100 

Veja um exemplo: para uma distribuição de 1.000 valores, a posição do 3º quartil, do 9º decil
e do 20º percentil serão, respectivamente:

 1.000   1.000   1.000 


PQ3 =   × 3=750 , PD9 =   × 9=900 , PC20 =   × 20=200
 4   10   100 

Após calcular a posição dos quartis, decis e percentis, localiza-se na tabela de dados ordenados
qual é o índice do elemento. Veja que as equações anteriores fornecem a posição (i) do elemento
na qual ocorre a divisão dos dados. Suponha que, no exemplo anterior, ao calcular o percentil,
verificamos que, no elemento cujo índice i=200, a variável assume um valor igual a 10 mil. En-
tão, o valor do 20º percentil será 10 mil. Com esse resultado, sabe-se que, nos dados, 20% dos
valores encontram-se abaixo de 10 mil e 80% acima de 10 mil. Suponha agora que o resultado
do cálculo do 3º quartil, que lhe fornece um índice ou posição igual a 750, fosse o elemento

11
Estatística

cujo valor é 10 mil. Nesse caso, dado que os quartis dividem a distribuição em 4 partes iguais,
você saberia que 75% dos valores estão abaixo de 10 mil e que 25% dos valores estão acima
de 10 mil.

Em caso de valores fracionados, utiliza-se a média dos elementos mais próximos. Por exemplo,
no caso da posição 1,5, você fará a média dos valores do primeiro elemento com o segundo.
De forma similar, no caso da posição 12,5, fará a média dos valores do décimo segundo e do
décimo terceiro elementos.

NÃO DEIXE DE VER...


A videoaula do professor Matusalém Martins sobre quartis e percentis lhe ajudará a
fixar este conteúdo. O vídeo pode ser acessado no endereço <https://www.youtube.
com/watch?v=szKwOaWY-Nk>.

Média aparada
A média é muito sensível a um outlier único, e a mediana é insensível à presença de muitos
outliers. Como essas características extremas das duas medidas são indesejáveis em uma análise
mais precisa, podemos utilizar uma medida que não é tão excludente dos extremos quanto a
mediana nem tão permissiva quanto a média. Essa medida é chamada de média aparada. Uma
média aparada é uma medida intermediária entre a média e mediana; nela, escolhemos qual
é o percentil de valores que desejamos desprezar nos extremos superior e inferior do conjunto
de dados. Por exemplo, uma média aparada de 20% significa que estamos calculando a média
desprezando os 20% superiores e 20% inferiores da distribuição de dados, obtendo, então, a
média do restante.

NÓS QUEREMOS SABER!


Saiba como usar as médias aparadas no artigo A média aparada assimétrica como
indicador de tendência da inflação, de Marques e Mota (2000), no qual os autores
apontam esse método como indicadores de tendência de inflação.

3.1.3 Medidas de dispersão


As medidas de posição não são suficientes para descrever o comportamento de uma série de
valores e também se faz necessário entender como esses valores variam em torno de um valor
central. A medida de dispersão e variabilidade dos dados mais simples a ser utilizada é a ampli-
tude. Veja a seguir.

Amplitude
A amplitude (A) total, ou como também é chamada, o range, é a diferença entre o maior e o
menor valor do conjunto de dados. A amplitude da distribuição de uma variável x com extremos
inferior (xn) e superior (x1) é dada por:

A = xn – x1

12 Laureate- International Universities


Suponha que, em um terminal rodoviário urbano, é computado o número de pessoas que utili-
zam três linhas de ônibus e que os embarques ocorrem de hora em hora. O gerente da empresa
solicita um relatório técnico que lhe auxilie em algumas tomadas de decisão. A Tabela 2 apre-
senta os registros de embarques em um período de 13 horas para três linhas de ônibus, linha 1,
linha 2 e linha 3.

Hora Embarques linha1 Embarques linha2 Embarques linha3

1 5 20 5
2 10 29 53
3 7 25 53
4 8 22 55
5 9 25 54
6 14 22 56
7 35 23 55
8 44 26 55
9 70 28 52
10 18 29 57
11 50 29 50
12 44 30 70
13 65 22 50

Tabela 2 – Registro do número de embarques em 3 linhas de ônibus por um período de 13 horas.


Fonte: Elaborada pelo autor, 2015.

Comece pela linha 1. Primeiramente, ordene os dados do menor para o maior valor:

5 7 8 9 10 14 18 35 44 44 50 65 70

E então aplique a equação A = xn – x1, como n=13, temos que A = x13 – x1 = 70 – 5, assim a
linha 1 apresenta uma amplitude A = 65 embarques. O cálculo da amplitude para o número
de embarques das linhas 2 e 3 é A=10 e A=65, respectivamente. Fica claro que a linha 2 apre-
senta menor variabilidade do que a linha 1 ao longo das 13 horas. Isso significa que os dados
referentes ao número de embarques da linha 2 são muito mais homogêneos, apresentam pouca
variabilidade. Mas a amplitude não diz muito sobre o que acontece entre os extremos. Veja que
a distribuição de dados das linhas 1 e 3 possui a mesma amplitude, mas a variabilidade na dis-
tribuição da linha 3, na verdade, é muito menor. O gerente da empresa de transporte não ficou
muito satisfeito com o relatório apresentado e pede ao técnico que forneça mais informações
sobre os embarques na plataforma. Vamos tentar descrever melhor a variabilidade dos dados?

Desvio médio
Suponha que, em uma determinada empresa, há 1 mil empregados e que cada um deles tem
3 filhos. Não importa o setor ou o salário. Todos têm 3 filhos. Nesse caso, qualquer cálculo da
média do número de filhos teria como resultado o número 3, e o desvio de cada valor em relação
à média seria zero. Por outro lado, se apenas 10 funcionário tivessem 4 filhos, e 10 funcionários
tivessem 2 filhos, a média ainda seria um valor muito próximo de 3 (3,02). A média por si só
não diz muito a respeito dos dados e se faz necessário ter uma ideia de quão longe da média se
encontram nossos dados. Para isso, pode-se calcular o desvio de cada valor em relação à média.

13
Estatística

x1 – x,  x2 – x,  x3 – x, ... , xn – x

A partir de então, você teria outros 1.000 valores referentes aos desvios de cada valor. Isso seria
pouco prático, de modo que vamos resumir essa informação calculando a média dos desvios. O
problema é que a média da soma dos desvios sempre será igual a zero. Isso acontece por-
que, ao somar os desvios negativos (abaixo da média) e os desvios positivos (acima da média),
os valores se anulam. Para evitar esse problema, antes de efetuar a soma, vamos elevar cada
desvio ao quadrado. Lembre-se de que o resultado de qualquer número negativo elevado a uma
potência par será sempre um número positivo. Agora sim você pode mensurar quanto, em média,
os dados se distanciam de um valor central. Esse valor é conhecido como variância.

Variância
A variância representa a média dos desvios quadráticos de um conjunto de dados em relação à
média. Lembre-se de que você não está interessado em conhecer o desvio de cada um dos da-
dos, mas, sim, em obter um valor que possa resumir os desvios quadráticos de todos os dados.
Por isso, calculou uma média. Para o cálculo da variância, precisará primeiramente calcular os
desvios quadráticos de cada um dos valores em relação a um valor central, ou seja, a distância
de cada elemento em relação à média do conjunto:

(x1 – x)2,(x2 – x)2,(x3 – x)2, ... ,(xn – x)2

Agora sim você pode resumir os valores individuais e obter a média dos desvios quadráticos de
todo o conjunto de dados, de modo que vai dividir o total da soma pelo número de elementos do
conjunto de dados. A variância da população (σ2) é igual ao somatório dos desvios quadráticos
dividido pelo número de elementos do conjunto de dados.

∑ ni=1 (x – x)2
s2 = i

Ok, você já tem uma informação que resume a variabilidade dos dados em torno de um valor
central. Para que possa obter essa informação nas mesmas unidades dos dados originais, extraia
a raiz quadrada dessa média. Esse valor é conhecido como desvio padrão. Para o cálculo da
variância da amostra, o denominador deve ser n - 1.

Ao calcular estatísticas sobre uma amostra, tem-se interesse em generalizar os dados para toda
a população. Ao substituir o denominador N por n - 1, você obterá um valor mais aproximado
da variância populacional. Dizemos que o cálculo da variância amostral possui n - 1 graus de
liberdade.

NÃO DEIXE DE LER...


Estatística aplicada à química: dez dúvidas comuns, de Passari, Soares e Bruns (2011),
no qual os autores apresentam de forma detalhada a influência dos graus de liberdade
no cálculo de estatísticas. Boa leitura!

14 Laureate- International Universities


Desvio padrão
O desvio padrão é o resultado da raiz quadrada da variância e, no caso da população, é repre-
sentado pela letra grega sigma (σ):

∑ ni=1 (x – x)2
s= s = 2 i

Para o cálculo do desvio padrão da amostra, o denominador deve ser n - 1.

A seguir, tome novamente o exemplo do transporte público, só que nesse momento se quer des-
crever como é a variação média do número de passageiros que embarcam nas 13 chegadas e
partidas. Comece pela linha 1.

O primeiro passo é calcular a média da série de valores,

∑ 13
i=1 x i 5+10+7+8...+65 379
x= = = , simplificando o resultado na primeira casa decimal,
13 12 12
temos que x = 31,6 a cada hora.

O segundo passo é calcular os desvios em relação à média. Para organizarmos os cálculos, uti-
lizamos a Tabela 3 com os dados levantados e mais duas colunas adicionais, uma com desvios
em relação à média e outra com os desvios quadráticos.

Quantidade de passageiros Desvio em relação Desvio quadrático


Hora
que embarcam no terminal à média em relação à média

1 5 -24.2 583.4
2 10 -19.2 366.9
3 7 -22.2 490.8
4 8 -21.2 447.5
5 9 -20.2 406.2
6 14 -15.2 229.6
7 35 5.8 34.2
8 44 14.8 220.4
9 70 40.8 1668.4
10 18 -11.2 124.4
11 50 20.8 434.6
12 44 14.8 220.4
13 65 35.8 1284.9

Tabela 3 – Embarques no terminal e desvios em relação à média.


Fonte: Elaborada pelo autor, 2015.

15
Estatística

Agora que temos todos os desvios quadráticos, podemos calcular a variância:

∑ ni=1 (x – x)2
S2 = i = 500.9
n

O desvio padrão é dado por:

s = s2 = 500.9 = 22,4

Mas como interpretar esses valores? Pois bem, a conclusão é que o número de passageiros por
viagem na linha 1 é, em média, igual a 29,2 pessoas, e que a variação média em torno desse
valor central é s =22,4. Dependendo do horário, podemos observar 29,2 (±22,4) embarques.
O desvio padrão da linha 3 é s =14,7 e da linha 2 s =3,3. Ou seja, o número de embarques
na linha 3 é mais homogêneo mesmo apresentando a mesma amplitude que a linha 1. Podemos
imaginar que o gerente da empresa, ao receber essa informação, entende que o relatório enviado
pelo técnico agora está mais consistente e que apresenta informações relevantes sobre os embar-
ques na plataforma. Esta é uma situação hipotética para efeitos apenas ilustrativos. Se um estudo
similar fosse levado a cabo, deveria ser realizado um delineamento experimental adequado.

A fim de melhorar os serviços da empresa e otimizar os custos, será necessário identificar os perí-
odos nos quais o fluxo de passageiros é, em média, mais intenso na linha 1. Aproveite essa tarefa
como exercício. A partir da média, construa dois grupos: “muito intenso” e “pouco intenso”. Para
cada um dos grupos, calcule a média, a variância e o desvio padrão. A partir desse novo relató-
rio, será possível montar uma estratégia para melhor atender os passageiros sem comprometer
os custos da empresa?

As estatísticas da amostra e os parâmetros da população não são representados da mesma forma.


O quadro apresenta a notação utilizada para estatísticas da amostra e parâmetros da população.

Amostra População

Número de elementos n N
Variância S2 σ2
Desvio padrão S σ

Quadro 1 – Notação utilizada para estatísticas da amostra e parâmetros da população.


Fonte: Elaborado pelo autor, 2015.

3.2 Representações gráficas


Você aprendeu como é possível realizar uma coleta de dados. Muito bem, depois de finaliza-
dos os processos de amostragem, o pesquisador possui um montante de dados para analisar. E
agora, que caminho seguir? Já é possível apresentar algum resultado? Antes de tecer qualquer
suposição a respeito do seu fenômeno de estudo, você começará a explorar os dados. Nesse
ponto, é importante que você se atenha apenas às informações que podem ser extraídas dos
dados sem tirar conclusões precipitadas ou distorcidas. A seguir, você verá o passo a passo de
como proceder.

16 Laureate- International Universities


3.2.1 O que é um dado discrepante?
Dados discrepantes são valores atípicos que interferem na simetria de nossas distribuições. Mas
como saber se um determinado dado é discrepante ou não? Barbetta (2014) apresenta a seguin-
te forma de cálculo para identificação de valores discrepantes:

Primeiramente calcula-se o desvio entre quartis, restando o quartil superior menos o quartil in-
ferior (DQ = Qs - Qi). Qualquer valor acima de DQ*1,5 + Qs pode ser considerado um dado
discrepante. De forma análoga, qualquer valor abaixo de DQ*1,5-Qi também pode ser consi-
derado um valor discrepante. A Figura 2 mostra uma distribuição simétrica e uma distribuição
assimétrica delimitadas pelos intervalos quartílicos. As linhas pontilhadas representam os valores
DQ*1,5 acima e abaixo dos quartis superior e inferior, respectivamente. O ponto isolado à direi-
ta da distribuição assimétrica representa um valor discrepante.

25%
25% 25% 25%
25%
25% 25% 25%
Qi Qs Qi Qs

Figura 2 – Distribuições simétrica (esquerda) e assimétrica (direita) e seus respectivos intervalos interquartíli-
cos. As duas distribuições foram divididas em 4 partes iguais. A linha reta representa o intervalo DQ=Qs-Qi,
as linhas pontilhadas representam as distâncias DQ*1,5 além de Qi e Qs e o ponto isolado representa um
dado discrepante. Repare como 50% dos dados encontram-se entre o quartil inferior e o quartil superior.
Fonte: Adaptada de Barbetta (2014).

Uma vez identificados, o que fazer com dados discrepantes? Antes de responder a essa pergunta,
tente descobrir por que motivo nossos dados apresentam esse tipo de valores. Uma das causas
muito recorrentes é algum tipo de erro de coleta, inserção ou processamento de dados. Digamos
que, ao estudar a temperatura média das salas de uma maternidade, você encontre um valor
de 125°C. Muito provavelmente, o valor correto é 25°C, mas, devido a um erro de digitação ou
processamento, esse valor acabou aparecendo nos dados. Nesse caso, o certo é eliminar esse
valor e refazer as análises.

Outra causa recorrente é falha no equipamento de coleta. O termômetro da maternidade apre-


sentou uma falha e, para um determinado instante, registrou uma temperatura incorreta. Falhas
também podem ocorrer ao registrar ou responder perguntas de um questionário. Também nesses
casos é comum retirar os valores discrepantes.

Por outro lado, dados atípicos não são necessariamente sinônimo de erro. Digamos que um
aquecedor muito potente foi posicionado por alguns instantes logo abaixo do termômetro da
maternidade no momento do registro. Ou que o entrevistado realmente possui uma característica
diferenciada em relação aos demais entrevistados. Nesses casos, os dados podem permanecer
com os demais ou podem ser retirados e analisados separadamente. Também existe a possibi-
lidade de descarte, caso seja do interesse do pesquisador. Independentemente do motivo que
originou esses dados atípicos e do destino que lhes será outorgado, é sempre importante dedicar-
-lhes um pouco de atenção e deixar registrada sua ocorrência. Lembre-se: outliers podem ser
descartados, analisados separadamente ou mantidos com o restante dos dados originais.

17
Estatística

3.2.2 Diagrama boxplot


Tome como exemplo um estudo hipotético que visa a descrever o estado de saúde dos funcioná-
rios de uma determinada empresa. A fim de obter um panorama geral da saúde dos funcionários,
os agentes de serviço social levaram em conta uma série de aspectos, entre os quais o consumo
de qualquer tipo de medicamento que os funcionários ingerem por ano. Cem funcionários res-
ponderam um questionário, no qual foi computado o número total de ingestões de medicamen-
tos por ano. As medidas descritivas dos dados coletados são apresentadas no Quadro 2.

Extremo Quartil Quartil Extremo


Mediana Média Desv. P.
inferior inferior superior superior

35 55 60 60 7 64 75

Quadro 2 – Medidas descritivas referentes aos dados de consu-


mo de medicamentos pelos funcionários da empresa.
Fonte: Elaborado pelo autor, 2015.

Já é possível identificar algumas características dos dados coletados. Agora você sabe que todos
os funcionários ingeriram algum tipo de medicamento e que o número mínimo é de 35 inges-
tões. Também é possível observar que aqueles que mais consumiram medicamentos o fizeram
75 vezes. Dado os valores dos quartis inferior e superior, fica claro que 50% dos funcionários
consumiram medicamentos 55 a 64 vezes, que 25% dos funcionários consumiram medicamentos
entre 35 e 55 vezes e, ainda, vemos que outros 25% consumiram medicamentos entre 64 e 75
vezes no último ano.

Como a média e a mediana apresentam o mesmo valor, nossa distribuição de dados é simétrica,
portanto, é possível estimar um consumo médio de 60 ingestões (±7) no último ano. A discussão,
nesse momento, não gira em torno de um valor aceitável de ingestões de medicamentos pelos
funcionários em um determinado intervalo de tempo.

A seguir, observe os dados sob outra perspectiva. Os dados referentes ao consumo de medicamen-
tos pelos funcionários nos últimos 365 dias encontram-se resumidos no histograma da Figura 3.

Consumo anual de medicamentos pelos funcionários da empresa


30
25
Frequência (funcionários)
20
15
10
5
0

35 40 45 50 55 60 65 70 75
Ingestão de qualquer medicamento

Figura 3 – Histograma gerado a partir dos dados de consumo total de medi-


camentos pelos funcionários da empresa durante o último ano.
Fonte: Elaborada pelo autor, 2015.

18 Laureate- International Universities


Um histograma permite ter uma ideia mais clara a respeito da distribuição dos dados. O gráfico
mostra que a distribuição é unimodal e que, portanto, os dados decrescem a partir de um único
pico. Lembre-se de que, no caso de distribuições bimodais ou multimodais, medidas descritivas
como médias devem ser utilizadas com muita cautela. Nossa distribuição é simétrica em torno
de um valor central, muito embora haja uma tendência com uma cauda um pouco mais longa à
esquerda. Em função dessa tendência, podemos pressupor a existência de dados discrepantes.
Ainda, a relação entre a frequência e os extremos descreve uma curva muito próxima de uma
curva gaussiana, sendo este último aspecto muito importante para o cálculo de probabilidades.

Uma informação interessante é que aproximadamente 20 funcionários consumiram medicamen-


tos entre 65 e 70 vezes. Essa informação poderia ter sido extraída dos dados calculando os decis,
porém de uma forma muito menos explicativa.

NÓS QUEREMOS SABER!


Você viu que os funcionários consomem medicamentos, em média, 60 vezes ao ano.
Isso resulta, em média, 1,16 ingestões de medicamentos por semana. Ou, ainda, 15
ingestões trimestrais. Você acredita que essas médias podem ser úteis para descrever o
comportamento dos funcionários em relação ao consumo de medicamentos? De fato
não, pois nossa unidade de tempo é o ano. Imagine funcionários que consomem em
média 60 medicamentos ao ano, mas em uma semana. Esses indivíduos não aparecem
nos dados. Para tal, deveríamos calcular médias semanais. Cuidado com médias!

Com base nas informações extraídas a partir do histograma e de algumas medidas descritivas,
foi possível obter um panorama da relação dos funcionários com o consumo de medicamentos
durante o período avaliado. Agora vamos apresentar outra forma gráfica muito utilizada para
descrever o comportamento de dados.

O boxplot ou diagrama de caixas é um gráfico muito utilizado para resumir características como
centro, dispersão, extensão dos desvios em relação à simetria e dados discrepantes (DEVORE,
2014). Vamos dar uma olhada na estrutura desse tipo de gráfico. Um retângulo representa o
intervalo entre o quartil inferior e o quartil superior que contém 50% dos dados mais próximos do
centro da distribuição. O retângulo é dividido de forma transversal pela mediana que separa a
distribuição em duas partes contendo 50% dos dados. Em alguns casos, quando a média é utili-
zada em detrimento da mediana, deve haver uma indicação na legenda ou na própria figura que
contém o gráfico. De forma geral, diagramas de caixas utilizam a mediana por não ser sensível
a dados discrepantes.

Das extremidades do retângulo, partem duas retas que se estendem até os limites superior e infe-
rior da distribuição ou DQ*1,5 além dos quartis inferior e superior. Neste último caso, os outliers
são representados por pontos ou asteriscos. A Figura 4 apresenta um gráfico do tipo boxplot do
consumo de medicamentos pelos funcionários da empresa objeto de nosso estudo.

19
Estatística

Consumo anual de medicamentos


70
Ingestões por ano
60
50
40

Figura 4 – Boxplot referente ao consumo de medicamentos por fun-


cionários de uma empresa pelo período de um ano.
Fonte: Elaborada pelo autor, 2015.

A caixa nos mostra que 50% dos dados se distribuem em torno do valor 60. A mediana encontra-
-se no meio da caixa indicando uma distribuição simétrica, e as linhas pontilhadas (bigodes)
mostram caudas nem muito longas nem muito estreitas. Caudas relativamente curtas e distri-
buição simétrica nos permitem utilizar o valor da média igual a 60 como medida de tendência
central. Os bigodes representam 25% acima e abaixo do intervalo interquartílico que delimita
50% dos dados centrais, e uma pequena circunferência indica que há um dado discrepante à
esquerda (abaixo) da distribuição. Esta é uma das características mais importantes de um gráfico
de caixas. Ele nos fornece uma informação visual muito clara sobre a existência de dados discre-
pantes e sua relação com os demais valores de nosso conjunto de dados.

Em função da simplicidade e da relevância das informações fornecidas, gráficos de caixa tam-


bém podem ser muito úteis para comparar dois ou mais conjuntos de dados. Vamos supor que a
empresa ficou muito satisfeita com a pesquisa sobre a saúde de seus funcionários e publicou os
resultados. Outra empresa ficou muito interessada e contratou a equipe de serviço social, mas,
dessa vez, para um monitoramento por um período de 6 anos. Medidas descritivas referentes ao
resultado do monitoramento no primeiro e segundo ano encontram-se no Quadro 3.

Extremo Quartil Quartil Extremo


Mediana Média Desv. P.
inferior inferior superior superior

Ano 1 36 72 81 81 14 89 130
Ano 2 0 80 84 76 26 88 99

Quadro 3 – Medidas descritivas referentes ao monitoramento de saú-


de dos funcionários realizado por um período de 6 anos.
Fonte: Elaborado pelo autor, 2015.

A partir do Quadro 3, você pode ver que os extremos do ano 1 apresentam valores mais elevados
do que ano 2. O intervalo interquartílico do ano 1 é maior, portanto, no ano 1, a distribuição de
50% dos dados em torno da mediana deve ser maior. O ano 2 apresenta um grau de assimetria
com cauda mais longa à esquerda. Veja que a mediana é 8 unidades maior que a média. A mé-
dia dos dois conjuntos de dados nos diz que o consumo de medicamentos foi um pouco maior no
primeiro ano. Você concorda? Vamos dar uma olhada no boxplot dos dados (Figura 5).

20 Laureate- International Universities


Consumo anual de medicamentos

120
100
Ingestões por ano

80
60
40
20
0

1 2

Figura 5 – Gráficos boxplot referentes ao monitoramento da saúde de funcionários de uma empresa.


Fonte: Elaborada pelo autor, 2015.

A partir dos gráficos, fica mais fácil comparar os dois conjuntos de dados. Lembre-se de que o
valor da média de consumo no ano 1 é maior, mas, de acordo com o gráfico, o consumo parece
ter aumentado. De fato, o valor da mediana do ano 2 (=84) é um pouco maior que o valor da
mediana do ano 1 (=81). No gráfico, fica fácil entender que a média foi influenciada por um
conjunto de dados discrepantes com valores muito baixos. Parece que algumas pessoas no ano 2
não consumiram remédio algum, mas uma grande quantidade de funcionários aumentou o con-
sumo de medicamentos. Se desconsiderarmos os outliers, a dispersão dos dados no segundo ano
é muito menor, portanto, indica que há maior uniformidade no comportamento dos funcionários
em relação ao consumo de medicamentos.

A Figura 6 apresenta os gráficos de caixa referentes aos 6 anos de monitoramento da saúde dos
funcionários de uma empresa fictícia. Aproveite a interpretação dos resultados como exercício.

Consumo anual de medicamentos


150
Ingestões por ano

100
50
0

1 2 3 4 5 6

Figura 6 – Gráficos de caixa referentes ao monitoramento da saúde de funcionários de uma empresa.


Fonte: Elaborada pelo autor, 2015.

21
Estatística

Neste tópico, você aprendeu algumas ferramentas gráficas que auxiliam na interpretação de
conjuntos de dados. Uma das principais regras da estatística é: coloque seus dados no gráfico
(THURMAN, 2014). Lembre-se de que uma imagem diz mais do que mil palavras; que muitos
detalhes podem passar despercebidos em planilhas; e que textos saltam aos olhos quando apre-
sentados na forma de gráficos. Na estatística, um é pouco, dois é bom e três é melhor ainda.
Sendo assim, procure apresentar seus dados de várias formas. Faça cálculos e apresente seus
resultados na forma de gráficos, quadros, esquemas e tabelas. Dessa forma, você verá que é
possível realizar descobertas incríveis. Uma boa descrição dos dados também permite realizar
ajustes, identificar e corrigir erros antes de tornar público nosso trabalho.

NÓS QUEREMOS SABER!


Qual é o software mais indicado para análises de dados? Atualmente há muitos sof-
twares que oferecem a possibilidade de analisar dados. Claramente, cada um deles
apresenta vantagens e desvantagens. O software “R” constitui uma ferramenta com-
putacional robusta e cada vez mais utilizada em todo o mundo. Esse tipo de software
apresenta certo grau de dificuldade para iniciantes, mas, se houver um pouco de per-
sistência, você realmente ficará surpreso com as possibilidades que o software oferece.
E mais, é gratuito. Para mais informações, acesse o site: <http://www.r-project.org/>.

22 Laureate- International Universities


Síntese Síntese
Você concluiu este capítulo, em que:

• conheceu as principais ferramentas estatísticas que permitem descrever distribuições em


relação a medidas de posição central e dispersão de dados;

• entendeu que, no âmbito da estatística, a notação matemática está muito presente,


conforme você viu na breve revisão de somatório;

• aprendeu a calcular as medidas de posição mais recorrentes em estudos estatísticos a


partir de alguns exemplos;

• viu que, de acordo com a forma da distribuição de dados e com a ocorrência de dados
atípicos, é preferível utilizar uma ou outra medida de posição central, compreendendo
que médias são mais indicadas quando temos distribuições simétricas, ao passo que a
moda e a mediana são mais indicadas para distribuições assimétricas de caudas longas;

• aprendeu a identificar, a partir do coeficiente de assimetria de Pearson, quando uma


distribuição é – ou não – assimétrica, bem como seu grau de assimetria, entendendo que
isso também pode ser feito de forma preliminar por meio de gráficos, como polígonos de
frequências, histogramas e gráficos de caixas;

• reconheceu o cálculo de amplitude como uma forma preliminar de entender a distribuição


de dados, e também que é possível obter maior detalhamento por meio do cálculo de
quartis, decis e percentis;

• conheceu algumas técnicas que permitem explicar a distribuição dos dados em torno
de valores centrais, além dos conceitos de desvio que representam a distância de cada
elemento em relação à média, variância, que é o desvio quadrático, e desvio padrão, que
é a raiz quadrada da variância;

• estudou a metodologia objetiva para a identificação de dados discrepantes e como esses


dados podem influenciar distribuições e medidas de posição central. Também viu que, na
presença de outliers, o pesquisador deve ter cuidado na interpretação dos dados e que,
em alguns casos, é importante remover esses outliers e tornar a fazer as análises;

• por fim, aprendeu que uma das regras básicas da estatística é sempre plotar os dados.
Gráficos fornecem informações de forma muito clara e ilustrativa e, por isso, foram
apresentados alguns gráficos que permitem descrever as medidas apresentadas ao longo
do capítulo. Finalizamos com o gráfico de barras, que fornece informações relevantes a
respeito da distribuição, range, mediana e quartis de um conjunto de dados. Os conceitos
abordados constituem a base da análise de dados e são imprescindíveis para qualquer
profissional da área do serviço social, que cada vez mais é impelido a confeccionar e
interpretar informações na forma de estatísticas e representações gráficas.

23
Referências Bibliográficas
AMARO, A.; SILVESTRE, C.; FERNANDES, L. Estatística descritiva. O segredo dos dados. 1.
ed. Lisboa: Editora Lulu, 2009. 114 p.

BARBETTA, P. A. Estatística aplicada às ciências sociais. ed. 9. Florianópolis: UFSC, 2014.

DEVORE, J. L. Probabilidade e estatística para engenharia e ciências. 6. ed. São Paulo:


Cengage Learning, 2011.

HOEL, P. G. Estatística elementar. São Paulo: Atlas, 1980.

KIRSTEN, J. T.; ALVES, V.; PEREIRA, W. Estatística para as ciências sociais: teoria e aplicações.
São Paulo: Saraiva, 1980.

KUADRO. Videoaula: somatório. Vídeo, 4’30’’. Disponível em: <http://kuadro.querobolsa.


com.br/videoaula/matematica/probabilidade-e-estatistica/somatorio>. Acesso em: 26 jun.
2015.

MARQUES, C. R.; MOTA, J. M. A média aparada assimétrica como indicador de tendência da


inflação. Banco de Portugal, Boletim económico, set. 2000. Disponível em: <http://www.
bportugal.pt/pt-PT/BdP%20Publicaes%20de%20Investigao/AB200005_p.pdf>. Acesso em: 29
jun. 2015.

PASSARI, L. M. Z. G.; SOARES, P. K.; BRUNS, R. E. Estatística aplicada à química: dez dúvidas
comuns. Química Nova, São Paulo, v. 34, n. 5, p. 888-892, ago. 2001.

ROSLING, H. O prazer da estatística. Documentário, 59’22’’. Disponível em: <https://www.


youtube.com/watch?v=xLr68J2yDJ8>. Acesso em: 5 jul. 2015.

SPIEGEL, M. R. Estatística. 3. ed. São Paulo: Makron Books (Coleção Schaum), 1993. 639 p.

THURMAN, P. W. Estatística. São Paulo: Editora Saraiva, 2014.

VILLEGAS, M. A. G. Karl Pearson, el creador de la estadística matemática. In: Historia de la


probabilidad y la estadística (IV). Huelva: Universidad de Huelva, 2009.

24 Laureate- International Universities

Você também pode gostar