Você está na página 1de 55

Análise Exploratória de Dados (CC0269)

Professor: Paulo Rogério Faustino Matos


Monitor: A ser definido
Contatos: paulomatos@caen.ufc.br
Período: 2014 – I
Carga horária/ Créditos: 64 horas/ 4 créditos
Horário da Disciplina: 3a e 5a (20:30 – 22:10)
Horário de atendimento do monitor: A ser definido (Local: NCF/CAEN)
Pré-requisitos: - x -
Programa da disciplina

I – OBJETIVO
 Com a atual disponibilidade dos recursos computacionais e a partir do aprofundamento do estudo
das ciências matemática e estatística, inúmeros são os avanços evidenciados na análise de dados e
modelagem de fenômenos, sejam estes de natureza comportamental, na área de saúde, econômica ou
atuarial, diferenciando estas ciências das demais, ao permitir que se testem empiricamente arcabouços
e modelos, por exemplo.
 Em suma, em um estudo empírico o pesquisador se depara com o usual problema de analisar e
entender um determinado conjunto de dados relevante ao seu objetivo particular. Assim, o primeiro
passo em estudos aplicados consiste em sujar as mãos com os dados, visando transformá-los em
informações, de forma que possam fundamentar comparações e conclusões.
 Os objetivos serão: (i) propiciar ao aluno não somente um maior contato com métodos quantitativos
per si, mas sim familiarizá-lo com as técnicas, fazendo-o reconhecer sua relevância e aplicação quando
da solução de modelos econômicos e (ii) conjugar conhecimentos acadêmicos e profissionais através
de uma exposição clara, didática e objetiva, abordando conceitos teóricos que norteiam a análise e o
raciocínio analítico, como também propondo casos e exercícios, dos mais simples e usuais aos mais
complexos e específicos.

II – EMENTA
Introdução; Análise dos dados; Métricas estatísticas; Análise bidimensional.

III – CONTEÚDO PROGRAMÁTICO


#1. Introdução
Estatística descritiva e inferencial
População e amostra
Variáveis qualitativas e quantitativas
#2. Análise dos dados (B&M: 2 e FBS&C: 2)
Tipos de variáveis
Representação gráfica
Representação tabular
#3. Métricas estatísticas (B&M: 3 e FBS&C: 3)
Medidas de posição
Medidas de dispersão

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Quantis
Assimetria e curtose
Box plot
#4. Análise bidimensional (B&M: 4)
Variáveis qualitativas
Variáveis quantitativas

IV – REFERÊNCIAS BIBLIOGRÁFIAS
Bibliografia Básica:
[B&M] Bussab, Wilson e Morettin, Pedro, “Estatística básica”. Ed. Saraiva, 6ª edição, 2010
[FBS&C] Fávero, L. Belfiore, P., Silva, F. e Chan, B., “Análise de dados”. Ed. Campus, 1ª ed, 2009

V – METODOLOGIA
 Aulas presenciais teóricas
 Apresentação de estudos de caso
 Resolução de exercícios
 Utilização de softwares (Excel)

VI – AVALIAÇÃO
A nota final será determinada pela média ponderada das seguintes notas parciais:
 80% referentes a avaliações individuais
 20% referentes ao trabalho em equipe

VII – CURRICULUM RESUMIDO DO PROFESSOR


Paulo Rogério Faustino Matos é Doutor em Economia pela Fundação Getulio Vargas (EPGE/FGV-RJ, 2003
- 2006), onde foi bolsista Nota 10 da FAPERJ – destinada ao primeiro lugar do curso – e Engenheiro Civil
pela Universidade Federal do Ceará (UFC, 1997 - 2002). Atualmente é Professor Adjunto III nos programas
de Graduação em Ciências Atuariais da UFC e de Pós-Graduação em Economia da UFC (CAEN/UFC). Em
termos de pesquisa, é pesquisador do CNPq, compõe o grupo de pesquisadores do Laboratório de Estudo da
Pobreza (LEP/CAEN), coordena o Núcleo de Conjuntura Econômico-Financeira (NCF/CAEN) e é
parecerista de algumas das principais revistas em finanças e economia do país, membro da Sociedade
Brasileira de Finanças (SBFin). Suas áreas de pesquisa são: i) Finanças Internacionais; ii) Apreçamento de
Ativos e iii) Sistema Financeiro e Desenvolvimento. Endereço para CV lattes:
http://lattes.cnpq.br/0288522400109962

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Sumário

1. Introdução ............................................................................................................................................................................ 5

2. Análise dos dados ..................................................................................................................................................... 10

3. Métricas estatísticas ............................................................................................................................................... 25

4. Análise bidimensional ....................................................................................................................................... 52

Análise Exploratória de Dados Prof. Dr. Paulo Matos


1. Introdução
1.1. Contexto histórico
Desde a antigüidade, as civilizações já demonstravam preocupação em registrar o número de
habitantes, de nascimento, de óbitos e até faziam estimativas das riquezas individual ou social. Uma aplicação
bastante comum era a cobrança de impostos por parte do estado, o que possivelmente motivou o uso da
ciência estatística, cuja origem vem de status, que significa em latim Estado. Com essa palavra faziam-se as
descrições e dados relativos aos Estados, tornando a Estatística um meio de administração para os
governantes.
Mais recentemente se passou a falar em estatística em várias ciências de todas as áreas do
conhecimento humano, onde pode definir a Estatística como “um conjunto de métodos e processos
quantitativos que servem para estudar e medir os fenômenos coletivos”. Ao se estudar os fenômenos coletivos,
o que interessa são os fatos que envolvem os elementos desses fenômenos, como eles se relacionam e qual o
seu comportamento.

1.2. Áreas da estatística


A estatística consiste em uma espécie de matemática aplicada, podendo ser vista como um conjunto
de técnicas utilizadas para planejar experimentos, obter dados e organizá-los, resumi-los, analisá-los, interpretá-
los e deles extrair conclusões. Esta ciência tal e qual a estudamos hoje em dia, faz uso do sistema numérico
hindu-arábico, o qual foi introduzido nas sociedades que habitam o ocidente há cerca de oito séculos.
Em uma sequência tradicional, o estudo da estatística tem seu início caracterizado pela análise
exploratória dos dados, ou seja, análise através de gráficos, tabelas ou métricas estatísticas descritivas a partir
das informações coletadas junto às entidades portadoras de características comuns úteis na compreensão do
comportamento de interesse.
Após esta etapa, já de conhecimento dos elementos de probabilidade incondicional e condicional,
faz-se uso de relações matemáticas funcionais paramétricas de forma que se possa modelar a probabilidade de
se observar determinadas realizações em variáveis aleatórias isoladamente ou conjuntamente.
Assim, somente a partir de uma amostra coletada, o fenômeno poderá ser estudado estatisticamente,
sendo para tal, necessário descobrir qual distribuição que possui o melhor fitting e uma vez descrita esta
distribuição, fazer uso de técnicas de estimação para que se obtenha valores para os parâmetros da distribuição
ou de outras características de interessa desta população. Como estimar tais valores dos parâmetros
populacionais a partir de amostras e analisar as propriedades destes parâmetros são etapas do estudo de
inferência estatística.
Por fim, é possível que um pesquisador se dedique mais especificamente às inúmeras técnicas de
estimação dos parâmetros, as quais compõem a análise multivariada, onde se estuda análise de regressão,
análise discriminante, correlação canônica, componentes principais, dentre outras ferramentas. Uma vez
modelado corretamente o fenômeno e usada a técnica de estimação adequada, além de se entender sobre os
parâmetros populacionais, pode-se ainda realizar exercícios de previsão, de forma que tentemos antever
resultados prováveis. Em suma, em um estudo científico rigoroso o qual envolva estatística, é estritamente
necessário que se observe com detalhes os dados antes de levantar suposições estatísticas e testes de hipóteses.
Mas o uso indiscriminado de pacotes estatísticos computacionais, sem o exame cuidadoso dos dados
profissionais da área, conduz, às vezes, a resultados aberrantes.
1.3. Amostra e população
Análise Exploratória de Dados Prof. Dr. Paulo Matos
Como veremos em detalhes na subseção a seguir, iremos trabalhar com dados numéricos ou não, os
quais precisam ser coletados. A vertente da ciência que lida com a extração de dados consiste na teoria da
amostragem, cujo estudo se dá durante o curso de inferência estatística.
Mesmo antes de um estudo detalhado sobre esta teoria de amostragem, os conceitos de população a
mostra precisam ser abordados.
Definição 1: (População) População é o conjunto constituído por todos os indivíduos que
representam pelo menos uma característica comum, cujo comportamento interessa analisar (inferir). Assim
sendo, o objetivo das generalizações estatísticas está em dizer se algo acerca de diversas características da
população estudada, com base em fatos conhecidos.
Definição 2: (Amostra) Amostra pode ser definida como um subconjunto, uma parte selecionada
da totalidade de observações abrangidas pela população, através da qual se faz inferência sobre as
características da população. Uma amostra tem que ser representativa, a tomada de uma amostra bem como
seu manuseio requer cuidados especiais para que os resultados não sejam distorcidos.
Mas qual a relevância de se estudar uma amostra? Bem, em muitos fenômenos, ou é muito custoso,
toma muito tempo, destrói a população ou é mesmo impossível se observar todos os elementos que compõem
a população completa. Nestes casos, se observa um subconjunto, ou seja, uma amostra. Um exemplo
interessante consiste na coleta de dados sobre a população brasileira.
Exemplo 1: Em 2010, o IBGE realizou o XII Censo Demográfico, que é o grande retrato em extensão
e profundidade da população brasileira e das suas características sócio-econômicas e, ao mesmo tempo, na
base sobre a qual deverá se assentar todo o planejamento público e privado da próxima década. O Censo
2010 será um retrato de corpo inteiro do país com o perfil da população e as características de seus domicílios.
A fase preparatória da operação censitária teve início em 2007 e seus trabalhos foram intensificados
a partir de 2008. A coleta está fixada para começar em 1º de agosto de 2010 e o início da divulgação dos
resultados em dezembro do mesmo ano. Percorrer por inteiro um país como o Brasil, de dimensões
continentais, com cerca de 8 milhões de km2 de um território heterogêneo e, muitas vezes, de difícil acesso,
é uma tarefa que envolve grandes números. Veja, a seguir, as dimensões do Censo 2010.
- Universo a ser recenseado: todo o Território Nacional
- Número de municípios: 5.565 municípios
- Número de domicílios: aproximadamente 58 milhões de domicílios
- Número de setores censitários: 314.018 setores censitários
- Pessoal a ser contratado e treinado: cerca de 240 mil pessoas
- Orçamento previsto: R$ 1,4 bilhão
A Pesquisa Nacional por Amostra de Domicílios - PNAD investiga anualmente, de forma
permanente, características gerais da população, de educação, trabalho, rendimento e habitação e outras, com
periodicidade variável, de acordo com as necessidades de informação para o País, como as características sobre
migração, fecundidade, nupcialidade, saúde, segurança alimentar, entre outros temas.
A PNAD 2009 investigou 399.387 pessoas em 153.837 domicílios por todo o país a respeito de
temas como população, migração, educação, trabalho, família, domicílios e rendimento, tendo setembro
como mês de referência.

1.4. Definições relevantes


A seguir, apresentaremos as definições mais relevantes da estatística descritiva.

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Definição 3: (Dados estatísticos) Dados são tido como os elementos mais importantes quando do
uso da estatística, os dados são os fatos e números coletados, a matéria-prima a ser analisada e sintetizada para
apresentação e interpretação.
É importante também que venhamos a trabalhar outras definições básicas, a fim de evitarmos o uso
incorreto e impreciso da linguagem estatística.
Definição 4: (Elementos) Elementos são as “entidades” sobre as quais os dados são coletados.
Definição 5: (Variáveis) Variáveis são as características de interesse para os elementos, podendo ser
observadas ou medidas
Definição 6: (Observações) Observações são o conjunto de medidas coletadas para um determinado
elemento.
A mensuração de determinado fenômeno ou objeto é um processo por meio do qual os números
ou símbolos são anexados a uma característica, em função de determinados procedimentos.
Definição 7: (Variável qualitativa) Variável cujos “valores” não são numericamente mensuráveis,
sendo expressos por atributos, classes, categorias ou qualidades: sexo, cor da pele, classe social, formação, etc.
Se tais variáveis possuem uma ordenação natural, indicando intensidades crescentes de realização, são
classificadas de qualitativas ordinais (por ex: classe social - baixa, média ou alta). Se não for possível estabelecer
uma ordem natural entre seus valores, são classificadas como qualitativas nominais (por ex: sexo - masculino
ou feminino).
Definição 8: (Variável quantitativa) Variável que assume valores numéricos. Tais variáveis podem
ser classificadas ainda em discretas ou contínuas. Variáveis discretas podem ser vistas como resultantes de
contagens, e assumem, em geral, valores inteiros, como por exemplo, anos de estudo. Neste caso, é possível
uma bijeção com um conjunto enumerável não necessariamente finito, como os inteiros. Já as variáveis
contínuas podem assumir qualquer valor dentro de um intervalo especificado e são, geralmente, resultados
de uma mensuração. Neste caso, a escala numérica de seus possíveis valores corresponde ao conjunto dos
números reais, ou seja, podem assumir, teoricamente, qualquer valor entre dois limites, como o peso em kg
de uma pessoa mensurado por uma balança muito acurada.
Para exemplificar, observemos a tabela 1.1. a seguir. Nesta tabela, podemos identificar inicialmente
que há 6 características de interesse, ou variáveis: formação, ter concluído pós-graduação, anos de estudo,
altura e peso. Os dados (90 ao todo) desta amostra foram obtidos ao coletarmos as medidas ou observações
para cada um dos elementos, ou seja, cada um dos funcionários.
Uma primeira curiosidade que “salta aos olhos” consiste no fato de que há variáveis que assumem
valores numéricos enquanto outras não, como a altura e a formação, respectivamente. Tal distinção ocorre,
pois é possível analisarmos, para qualquer amostra, tanto variáveis qualitativas, como quantitativas.
Outro aspecto a ser destacado nesta tabela é que a mesma nos fornece dados de apenas uma amostra
dos funcionários e não de todos os funcionários da empresa em questão. Entendendo o termo população
como o conjunto total de elementos portadores de, pelo menos, uma característica comum, definimos então
amostra como sendo uma “pequena” parcela representativa da população que é examinada com o propósito
de tirarmos conclusões sobre a essa população.
Isso ocorre, pois em qualquer estudo científico enfrentamos o dilema de se analisar a população ou
uma amostra. Obviamente teríamos uma precisão muito superior se fosse analisado o grupo inteiro, ou seja,
a população, do que uma pequena parcela representativa, denominada amostra.
Observa-se que é impraticável na grande maioria dos casos, estudarmos a população em virtude de
distâncias, custo, tempo, logística, entre outros motivos.

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Tabela 1.1.
Amostra dos funcionários da Empresa XXX com suas respectivas características
Pós- Anos de Salário Altura
Funcionário Formação Peso (Kg)
graduação estudo (R$) (cm)
Antônio Filho Administração Sim 24 5.500,00 156 65,8
Bernardo Aguiar Contabilidade Não 21 3.650,00 175 80,9
Carlos Smitch Economista Não 22 3.650,00 202 99,9
Ciro Alcântara Engenharia Sim 25 35.000,00 180 79,1
Débora Lima Psicologia Não 20 5.500,00 145 46,1
Eduardo Rossi Marketing Sim 24 7.800,00 180 85,1
Flavio Gomes Economista Não 23 2.800,00 165 67,7
Ingrid Paes Engenharia Não 20 3.650,00 180 76,9
João Mendonça Jornalista Sim 23 5.120,00 178 75,5
Marcelo Vilar Direito Não 21 8.930,00 161 60,9
Mirian Carvalho Comunicação Sim 24 4.500,00 168 65,1
Noraide Mendes Direito Sim 22 8.930,00 150 54,7
Orlando Moraes Odontologia Não 22 6.500,00 179 80,8
Pedro Malta Engenharia Não 21 3.650,00 190 89,9
Rodrigo Broa Nutrição Não 22 2.800,00 187 78,9

A alternativa praticada nestes casos é o trabalho com uma amostra confiável. Se a amostra é confiável
e proporciona inferir sobre a população, chamamos de inferência estatística. Neste contexto, mesmo não
sendo pertencendo ao escopo desta seção, é importante que venhamos a saber que os parâmetros são valores
singulares que existem na população e que servem para caracterizá-la, sendo necessário examinar toda a
população, enquanto, estimativa é um valor aproximado do parâmetro, calculado com o uso apenas de uma
amostra.
Neste contexto, devemos ainda definir o que seria uma estatística. Ainda com o objetivo de resumir,
ou descrever o conjunto de dados, usaremos algumas medidas características, usadas para representar, de uma
forma ou de outra, a própria distribuição do conjunto de dados. Qualquer medida obtida a partir das
informações dos dados é chamada estatística.
O objetivo de se calcular estatísticas é resumir as informações obtidas em um único valor, de modo
que esse valor dê uma característica da amostra, que possa nos levar a ter uma idéia de uma característica da
população. Exemplos básicos de estatísticas seriam, por exemplo, a soma dos anos de estudo dos funcionários
pertencentes á amostra, ou mesmo, o valor de peso do aluno mais “magro” desta sala.
Para que a inferência seja válida, é necessário que haja um bom uso da técnica de amostragem,
determinando corretamente a população, dimensionando precisamente o tamanho da amostra e primando
pela aleatoriedade, sendo esta última característica extremamente relevante para que venhamos a garantir,
tanto quanto possível, o acaso na escolha.
Um último aspecto a ser analisado é disposição dos dados em questão, se estes se encontram
identificados pelo caráter variável ao longo do tempo ou se dentre diferentes elementos.
Para melhor entendermos o primeiro caso, observemos a tabela 1.2. a seguir.

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Tabela 1.2.
Indicadores financeiros selecionados da Empresa XXX (quadriêncio 2003 – 2006)

Indicador 2003 2004 2005 2006


Receita operacional bruta (R$ milhões) 20.895 29.020 35.350 46.746
Exportações (US$ milhões) 4.229 5.534 7.021 9.656
Exportações líquidas (US$ milhões) 3.672 4.618 6.339 8,784
Lucro líquido (R$ milhões) 4.509 6.460 10.443 13.431
Investimentos (US$ milhões) 1.988 2.092 4.998 26.324

Nela, possuímos valores coletados de várias características, como por exemplo, receita operacional,
exportações, etc., para apenas um elemento, ou seja, a Empresa XXX. Claramente os valores para cada uma
dessas características estão sofrendo alteração de uma observação para outra em razão do efeito temporal.
Estamos diante, portanto de séries temporais de características de uma mesma empresa.
Para segundo caso, voltemos a observar a tabela 1.1. Nela não há efeito temporal influenciando os
valores, uma vez que foram todos coletados em um mesmo período. O que faz com que haja diversos valores
para uma mesma característica, como salário, por exemplo, são os diversos elementos observados, ou seja, os
diversos funcionários da amostra. Dizemos comumente que estamos diante de dados cross-section, ou em corte
transversal. Este detalhamento será explorado na seção seguinte.
Em softwares como o Statistical Package for the Social Sciences (SPSS), ou ainda o Microsoft Access, é
possível criar rótulos (labels) de variáveis qualitativas, sejam estas nominais ou ordinais, assim como planilhas
ricas em macros para variáveis quantitativas.
Com relação à obtenção direta dos dados a partir de questionários, é preciso que este seja estruturado
tendo em vista o tratamento a ser realizado nos dados, assim como o objetivo final da pesquisa. Em teoria da
amostragem, assim como nas disciplinas aplicadas, são abordadas práticas úteis na elaboração de
questionários.

Análise Exploratória de Dados Prof. Dr. Paulo Matos


2. Análise de dados
2.1. Introdução
A análise exploratória de dados nos fornece um extenso repertório de métodos para um estudo
detalhado dos dados, antes de adaptá-los, ou mesmo usá-los em inferências ou regressões. Nessa abordagem,
a finalidade é obter dos dados a maior quantidade possível de informação, que indique modelos plausíveis a
serem utilizados numa fase posterior, a análise confirmatória de dados ou inferência estatística.
Em um estudo estatístico, uma vez definido o que se pretende pesquisar, ou seja, especificado
corretamente o problema, as próximas etapas seriam o planejamento, a qual visa definir as questões
relacionadas ao levantamento das informações e a coleta de dados, na qual se registra sistematicamente os
dados observados.
De posse dos dados, precisamos começar a “tratá-los”, “manipulá-los”, para assim poder apresentá-
los e usá-los em inferências.
Assim, de uma maneira mais formal, definimos as atividades de coleta, organização, descrição dos
dados, cálculo e interpretação de coeficientes como compondo a estatística descritiva.
Iremos nos ater aqui nesta seção à organização e descrição dos dados. Nas seções seguintes, iremos
lidar com o cálculo e interpretação das estatísticas calculadas.

2.2. Representação tabular e gráfica


Basicamente, há duas formas de apresentação, que não se excluem mutuamente. A apresentação
tabular, ou seja é uma apresentação numérica dos dados em linhas e colunas distribuídas de modo ordenado,
segundo regras práticas fixadas pelo Conselho Nacional de Estatística.
A apresentação gráfica dos dados numéricos constitui uma apresentação geométrica permitindo uma
visão rápida e clara do fenômeno.
É importante conhecer e saber construir os principais tipos de tabelas, gráficos e medidas resumo
para realizar uma boa análise descritiva dos dados. Vamos tentar entender como os dados se distribuem, onde
estão centrados, quais observações são mais freqüentes, como é a variabilidade, etc., tendo em vista responder
às principais questões do estudo.
Cada ferramenta fornece um tipo de informação e o seu uso depende, em geral, do tipo de variável
que está sendo investigada.
A seguir, algumas das abordagens mais usadas e relevantes.

2.2.1. Representação tabular


Apresentação tabular numérica de dados é a representação das informações por intermédio de uma
tabela. Uma tabela é uma maneira bastante eficiente de mostrar os dados levantados e que facilita a
compreensão e interpretação dos dados. Para organizar uma série estatística ou uma distribuição de
frequências, existem algumas normas nacionais ditadas pela Associação Brasileira de Normas Técnicas
(ABNT) as quais devem ser respeitadas. Assim, toda tabela estatística de conter:
a) Elementos essenciais
· Título – indica a natureza do fato estudado (o quê?), as variáveis escolhidas na análise do fato (como?),
o local (onde?) e a época (quando?).

Análise Exploratória de Dados Prof. Dr. Paulo Matos


· Corpo – é o conjunto de linhas e colunas que contém, respectivamente, as séries horizontais e
verticais de informações.
· Cabeçalho – designa a natureza do conteúdo de cada coluna.
· Coluna indicadora – mostra a natureza do conteúdo de cada linha.
b) Elementos complementares (se necessário)
· Fonte – é o indicativo, no rodapé da tabela, da entidade responsável pela sua organização ou
fornecedora dos dados primários.
· Notas – são colocadas no rodapé da tabela para esclarecimentos de ordem geral.
c) Sinais convencionais
· – (hífen), quando o valor numérico é nulo;
· ... (reticência), quando não se dispõe de dado;
· ? (ponto de interrogação), quando há dúvidas quanto à exatidão do valor numérico;
· 0; 0,0; 0,00 (zero), quando o valor numérico é muito pequeno para ser expresso pela unidade
utilizada, respeitando o número de casas decimais adotado;
· X (letra x), quando o dado for omitido.
d) Numerar as tabelas quando houver mais de uma.
e) As tabelas devem ser fechadas acima e abaixo por linha horizontal, não sendo fechadas à direita
e à esquerda por linhas verticais. É facultativo o emprego de traços verticais para separação de colunas no
corpo da tabela.
f) Os totais e subtotais devem ser destacados.
g) Manter a uniformidade do número de casas decimais.
A título de ilustração, observemos as tabelas 2.1. e 2.2. a seguir.
Como exemplo, observemos este trecho abaixo extraído de Matos, Oquendo e Trompieri (2012).

“Utilizam-se 155 observações de retornos mensais de índices de bolsas de valores dos BRICs entre janeiro/1998
e novembro/2010 (fontes: CMA e Bloomberg). São eles Índice Bovespa (São Paulo, Brasil), Shanghai Composite (Xangai,
China), SENSEX-30 (Bombaim, Índia) e o Russian Trading System Index (Moscou, Rússia).
As características e códigos dos índices são descritas na tabela 2.1., enquanto as principais estatísticas descritivas
estão na Tabela 2.2.”

Tabela 2.1.

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Tabela 2.2. Estatísticas descritivas dos índices de mercado dos BRIC
Statistic/ Stock market index SSE IBOVESPA SENSEX-30 RTS

mean 0.918% 1.672% 1.398% 2.009%


minimum -24.632% -39.554% -23.890% -56.158%
gain
maximum 32.056% 24.046% 31.665% 55.981%
cumulative 136.176% 564.035% 428.384% 302.497%

standard deviation 8.539% 9.226% 8.001% 14.389%


risk semivariance 5.983% 6.920% 5.785% 10.591%
drawdown 70.968% 51.616% 56.171% 88.961%

other asymmetry 0.103 -0.667 -0.064 -0.350


moments kurtosis 4.417 5.044 3.825 5.427
a
Statistics of the monthly returns on the each stock market index in termos of the local investor's currency, during the
period from January 1998 to November 2010. b The data source is CMA Trade.

O interessante nestas tabelas é que na primeira, há somente dados cadastrais, ou seja, qualitativos
sobre os índices das bolsas, enquanto na segunda tabela, constam apenas dados numéricos, os quais não
foram exatamente coletados de alguma fonte, mas sim calculados pelos autores. Trata-se de estatísticas
descritivas associadas aos 4 momentos da distribuição de probabilidade, objeto de estudo da seção 3.

2.2.2. Representação gráfica


A seguir, algumas das representações mais usuais de dados através de gráficos.
Diagrama circular: para construir um diagrama circular ou gráfico de pizza, repartimos um disco em
setores circulares correspondentes às porcentagens de cada valor (multiplica-se a freqüência relativa por 100).
Este tipo de gráfico adapta-se muito bem para as variáveis qualitativas nominais. A título de ilustração,
observemos os diagramas a seguir na figura 2.1. Como exemplo, segue trecho de Matos e Nogueira (2012).
“O presente trabalho foca-se nos Fundos Multimercados Multiestratégia por poderem adotar mais de uma
estratégia de investimento, sem o compromisso declarado de se dedicarem a uma em particular, admitindo alavancagem.
Segundo a ANBIMA (2011), esse seguimento representa 54,5% da indústria Brasileira de Multimercados com mais de
2.900 fundos e patrimônio total superior a R$ 216 bilhões, conforme observa-se na figura a seguir.”

Figura 2.1: Participação % dos Fundos de Investimento Multimercado por Modalidade

0,65 1,00 Balanceados


1,48
1,96 1,48 Capital Protegido
Long And Short - Neutro
11,91 0,40
23,53
3,11 Long And Short - Direcional
Multimercados Macro
Multimercados Trading
54,50 Multimercados Multiestrategia
Multimercados Multigestor
Multimercados Juros e Moedas
Multimercados Estrategia Especifica

Fonte: ANBIMA (09/2011)

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Gráfico de barras: para construir um gráfico de barras, representamos os valores da variável no eixo
das abscissas e suas as freqüências ou porcentagens no eixo das ordenadas. Para cada valor da variável
desenhamos uma barra com altura correspondendo à sua freqüência ou porcentagem. Este tipo de gráfico é
interessante para as variáveis qualitativas ordinais ou quantitativas discretas, pois permite investigar a presença
de tendência nos dados. Observe a figura 2.2. a seguir.

Figura 2.2: Relação dívida/PIB

Dispersão X vs. Y: Pode ser útil para a análise que se consiga visualizar em um locus gráfico, possíveis
padrões de relação entre duas variáveis distintas, sendo neste caso aconselhável o uso de um gráfico de
dispersão nos eixos X e Y. A título de ilustração, observemos os diagramas a seguir na figura 2.3.

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Como exemplo, observemos este trecho abaixo extraído de Pinto, Matos e Simonassi (2012).
“Ainda sob esta ótica, Caetano (2006) afirma que países com características demográficas similares às
brasileiras despendem com previdência como proporção do PIB algo em torno de 4%. O autor ainda ressalta, dentre os 52
países analisados em sua pesquisa, que o Brasil possui percentual de contribuintes na força de trabalho inferior a mediana
internacional e valor médio da aposentadoria em relação à renda per capta equivalente a 59,4%, enquanto a medida
internacional se situa em 48,3%. Tais indicadores demonstram que proporcionalmente o país possui representatividade
contributiva modesta para níveis elevados de benefícios, revelando um perfil desastroso para a sustentabilidade de qualquer
sistema previdenciário.

Figura 2.3: Gastos com Previdência Social e proporção da população com 65 anos ou mais

Fonte: Giambiagi et al. (2007, p.181)

Perfazendo a análise de variáveis abordadas no estudo de Giambiagi et al. (2007), seria acertado esperar que
a proporção de pessoas acima de 65 anos na população do país e o percentual do PIB gasto com benefícios previdenciários
apresente uma correlação positiva. A Figura 5 traz esta realidade, em que se observa que países com populações mais
idosas gastam mais com previdência, o que os coloca no quadrante direito superior. Por outro lado, países considerados
jovens tendem a permanecer no quadrante esquerdo inferior. Já no quadrante direito inferior, apesar da população mais
velha, situam-se nações que registram gastos modestos, geralmente explicado por questões culturais, sistemas eficientes
alcançados por reformas prévias ou forte crescimento do PIB. O Brasil é o único país da análise que se encontra deslocado
de sua realidade demográfica, mas com dispêndios em níveis semelhantes a de países como Holanda e Reino Unido.
Diante deste cenário, verifica-se que o Brasil é um país fora do padrão internacional, com regras generosas,
incompatibilidade demográfica, baixo esforço contributivo ao mesmo tempo em que repõe parcelas elevadas da renda. Um
panorama tão custoso do ponto de vista fiscal exige a adoção mandatória de medidas em esforço mútuo por parte do
Estado e da sociedade.”

Distribuição de freqüência: quando da análise de dados, é comum procurar conferir certa ordem
aos números tornando-os visualmente mais amigáveis. O procedimento mais comum é o de divisão por classes

Análise Exploratória de Dados Prof. Dr. Paulo Matos


ou categorias, verificando-se o número de indivíduos pertencentes a cada classe. Não há um modo único de
se alocar valores em intervalos, mas sugere-se o seguinte procedimento:
1. Determina-se o menor, o maior valor para o conjunto e a amplitude (maior – menor);
2. Definir o limite inferior da primeira classe (Li) que deve ser igual ou ligeiramente inferior ao
menor valor das observações;
3. Definir o limite superior da última classe (Ls) que deve ser igual ou ligeiramente superior ao
maior valor das observações;
4. Definir o número de classes (K), que será calculado usando 𝑲 = 𝟏 + 𝟑, 𝟑. 𝒍𝒐𝒈(𝒏) ou 𝑲 = √𝒏
, onde n é a quantidade de observações. K deve estar compreendido entre 5 a 15;
5. Conhecido o número de classes define-se a amplitude das classes assim: Ac = (Ls – Li)/K. Não é
necessário que as classes tenham exatamente a mesma amplitude, mas usualmente assume-se isso;
6. Com o conhecimento da amplitude de cada classe, definem-se os limites para cada classe
(inferior e superior).
Comumente, usamos o histograma para representar graficamente uma distribuição de freqüências.
Este recurso consiste em retângulos contíguos com base nas faixas de valores da variável e com área igual à
freqüência relativa da respectiva faixa. Desta forma, a altura de cada retângulo é denominada densidade de
freqüência ou simplesmente densidade definida pelo quociente da área pela amplitude da faixa. Alguns
autores utilizam a freqüência absoluta ou a porcentagem na construção do histograma, o que pode ocasionar
distorções (e, conseqüentemente, más interpretações) quando amplitudes diferentes são utilizadas nas faixas.
Abaixo um histograma ilustrativo contendo a distribuição de freqüência (figura 2.4.).

Figura 2.4: Histograma e possíveis distribuições (fitting) de operações descobertas de aquisição de títulos
públicos do governo americano de curto prazo

Normalmente, as operações com ativos financeiros possuem retornos brutos em torno de 1,0, sendo
possível observar neste histograma (statigraphics ou easyfit) que há uma maior frequência de retornos entre
0,93 e 1,03, com poucas observações a partir de 1,15 ou abaixo de 0,89. É possível ainda observar que
distribuições melhor fitam o histograma.

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Gráficos ou lineares: são freqüentemente usados para representação de séries cronológicas com um
grande número de períodos de tempo. As linhas são mais eficientes do que as colunas, quando existem
intensas flutuações nas séries ou quando há necessidade de se representarem várias séries em um mesmo
gráfico. A título de ilustração, observemos os diagramas a seguir na figura 2.5.
Como exemplo, observemos este trecho extraído de Matos, Oquendo e Trompieri (2012).
“É evidente ao se analisar os gráficos de retornos acumulados (Figura 3) que as bolsas destes países dividem uma
tendência de longo prazo comum. A bolsa chinesa apresenta certo descolamento em alguns momentos. Todas apresentam
valorização no período de “boom” econômico entre 2002 e 2007 aproximadamente, assim como forte queda por ocasião
da crise financeira internacional de 2008, tendo as bolsas de China e Índia iniciado seu período de perdas mais cedo que
Brasil e Rússia. Todas ainda apresentaram recuperação importante durante os anos 2009 e 2010, embora neste período
a intensidade de recuperação tenha sido mais heterogêneo.”

Figura 2.5: Retorno acumulado nominal mensal dos índices dos BRIC´s.

0
Dec-97 Dec-98 Dec-99 Dec-00 Dec-01 Dec-02 Dec-03 Dec-04 Dec-05 Dec-06 Dec-07 Dec-08 Dec-09

IBOVESPA SENSEX-30 SSE RTS

Mapa: o uso de mapas com cores diferentes para variáveis quantitativas ou qualitativas é menos comum,
mas igualmente útil quando da necessidade em se observar muitas observações ao mesmo tempo, todas elas
sobre uma mesma variável, a qual assume diferentes valores em um mesmo instante de tempo para várias
economias.
Observe o exemplo da figura 2.6.

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Figura 2.6: Dívida pública per capita em diversas economias

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Como exemplo, visando apresentar um mix de tabelas e recursos gráficos disponíveis, observemos
este trecho abaixo extraído de Pinto, Matos e Simonassi (2012).
“No início de sua história como instituição, a previdência encontrava-se figurada através dos IAPs e CAPs.
Ressalte-se que tais institutos eram configurados em moldes semelhantes aos fundos de previdência complementar
conhecidos atualmente e regidos pela acumulação de seus recursos.
Baseada em regimes capitalizados, a previdência, muitas vezes era utilizada como fonte de financiamento para
diversos setores da economia. Segundo Oliveira et al. (1999), muitos recursos dos institutos foram investidos em hospitais
e ambulatórios, na Companhia Vale do Rio Doce, na Companhia Hidroelétrica do Vale de São Francisco, bem como na
construção de Brasília. O baixo rendimento das aplicações, associado ao não pagamento da cota de responsabilidade da
União, a sonegação por parte dos empregadores e o processo inflacionário, impossibilitaram, já na década de 1950, a
manutenção de um sistema capitalizado, o que ocasionou a adoção do sistema praticado nos dias de hoje, o de repartição
simples.
Nas últimas décadas, tem-se observado as consideráveis dificuldades de países que adotam este tipo de regime e
um movimento crescente de reformas e migrações a sistemas capitalizados. Tais modificações possuem origem na
inadequação destes sistemas frente às mudanças demográficas, econômicas e sociais pelas quais o mundo tem passado.
Em relação aos aspectos demográficos, destacam-se o forte processo de envelhecimento, o aumento progressivo da
longevidade e as baixas taxas de natalidade. No Brasil, cenário semelhante ocasiona a diminuição da base de
financiamento e o aumento das despesas com benefícios. Enquanto na década de 1940, registrava-se 31 contribuintes por
beneficiário, esta proporção reduz para menos de 3 para 1 já no início dos anos 80. Somado a este fator o alto grau de
informalidade registrado durante anos, a ampliação da cobertura sem apropriada fonte de custeio e a concessão de
aposentadorias precoces, foi possível observar o surgimento do déficit previdenciário, despertando as discussões em torno do
equilíbrio financeiro do RGPS.
A Tabela 2.3 traz o histórico dos resultados anuais do RGPS. Nota-se o grande aumento no saldo previdenciário
negativo na última década, chegando a contabilizar valores 60 vezes maiores do que há 15 anos.
Segundo Dantas (2009), o ritmo de crescimento das despesas com benefícios do RGPS associado a pouca
expansão da arrecadação desencadearam o debate sobre a necessidade de uma reforma da Previdência no Brasil. Na
Figura 2.7, acompanha-se claramente este processo de ampliação dos gastos previdenciários, iniciado com o advento da
Lei nº 8.213/91, em que se determinou a padronização dos benefícios urbanos e rurais.
Notórias são as particularidades associadas aos benefícios rurais que contribuem para este movimento.
Compostos em sua grande maioria de benefícios praticamente de caráter assistencial, mesmo que arrolados dentro do grupo
dos previdenciários, apresentam-se carentes de financiamento através de contribuições, pela própria fragilidade e larga
inexistência de relações de trabalho formalizadas. A segunda característica refere-se à menor idade de concessão de benefício
em relação aos trabalhadores urbanos, que são os principais contribuintes do sistema.
Em relação à arrecadação, também se observa a tendência de crescimento, porém em níveis inferiores às despesas.
Segundo Dantas (2009), entre 1993 e 1992, as despesas com benefícios tiveram um aumento de 34,5%, enquanto as
receitas cresceram 13,6%.
Em 2010, os gastos previdenciários alcançaram a ordem de 6,9% do PIB, enquanto se registrou receitas
correspondentes a 5,7%, gerando um déficit de 1,2% do PIB, porém, no início da década de 90, este resultado era
superavitário.

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Tabela 2.3.
a, b
Arrecadação líquida, Despesa com Benefícios e Saldo Previdenciário de 1990 a 2010

Arrecadação Líquida Despesas com Benefícios Saldo Previdenciário


Ano
(em milhões R$) (em milhões R$) (em milhões R$)

1990 70.902,98 43.934,75 26.968,23


1991 63.736,56 46.067,49 17.669,07
1992 62.878,05 50.144,89 12.733,16
1993 71.451,90 67.463,36 3.988,55
1994 76.251,67 74.429,94 1.821,73
1995 91.596,05 92.326,85 (730,80)
1996 99.851,29 100.488,95 (637,66)
1997 103.285,17 110.463,79 (7.178,62)
1998 105.202,85 121.220,77 (16.017,92)
1999 105.448,80 125.598,18 (20.149,38)
2000 101.938,93 132.935,27 (30.996,34)
2001 117.467,40 141.404,53 (23.937,13)
2002 120.848,69 149.592,04 (28.743,35)
2003 117.727,41 156.130,44 (38.403,03)
2004 128.736,02 172.572,83 (43.836,81)
2005 140.843,11 189.625,33 (48.782,21)
2006 155.438,53 208.465,90 (53.027,37)
2007 169.617,72 223.915,81 (54.298,09)
2008 185.151,91 226.372,20 (41.220,29)
2009 196.511,04 242.945,40 (46.434,36)
2010 217.525,07 261.878,31 (44.353,24)
a
Valores expressos em reais constantes, atualizados pelo INPC mensal, a preço de dezembro/2010.
b
Fonte: Anuário Estatístico da Previdência Social.

A partir de 1995, o aumento do universo de beneficiários, a crise econômica e a política de concessão de ganhos
reais do salário mínimo serviram como catalisadores do déficit. Quando se registrou o primeiro resultado previdenciário
negativo, iniciaram-se as tentativas de combate à sua expansão. Como reflexos desta necessidade, foram aprovadas a
Emenda Constitucional n.º 20 de 1998, que estabeleceu, em linhas gerais, a relação entre a fonte de custeio e os benefícios,
e a Lei n.º 9.876/99, normativo que instituiu o fator previdenciário com objetivo de desestimular a aposentadoria precoce.

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Figura 2.7: Evolução do saldo previdenciário, da arrecadação líquida e de despesas (benefícios) do RGPS

300.000 8%

7%
250.000
6%

200.000
5%

150.000 4%
Milhões

3%
100.000
2%

50.000 1%

0%
0
1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010
-1%
-50.000
-2%

-100.000 -3%

Saldo Previdenciário Arrecadação líquida Despesa com benefícios

Saldo previdenciário/ PIB Arrecadação líquida/ PIB Despesa com benefícios/ PIB

Fonte: MPAS e BACEN.


a
Valores expressos em reais constantes, atualizados pelo INPC mensal, a preço de dezembro/2010.

2.3. Exercícios
Exercício #1. Observe a base de dados contida na Tabela 2.3.
a) Construa um histograma para o saldo previdenciário. Comente.
b) Construa um gráfico de dispersão (eixos X e Y) para as variáveis arrecadação líquida e despesas
com benefícios. Comente se há algum padrão entre estas duas grandezas.

Exercício #2. Observe os dados contendo índices de variação de preço (inflação) de diversas
economias em vários continentes na Tabela 2.4.
a) Identifique a melhor forma de representar graficamente estes dados.
b) Monte um histograma para as inflações de 2007 e outro para as inflações de 2011. Compare e
comente.

Tabela 2.4.

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Country 2007 2011 Country 2007 2011 Country 2007 2011 Country 2007 2011
Tanzania 6,40 19,80 Kazakhstan 10,80 7,40 Indonesia 6,59 3,79 Euro Area 3,10 2,70
Kenya 12,00 18,93 Hong Kong 3,80 5,70 Latvia 14,00 4,00 France 2,60 2,50
Vietnam 12,75 18,13 Hungary 7,40 4,10 U. Kingodm 2,10 4,20 Ireland 4,70 2,50
Angola 11,78 11,38 Singapore 3,70 5,50 Colombia 5,69 3,73 Netherlands 1,90 2,40
Mongolia 15,10 11,10 Saudi Arabia 6,47 5,30 Portugal 2,70 3,70 C. Republic 5,40 2,40
Turkey 8,39 10,45 Algeria 3,51 5,16 Lithuania 8,10 3,40 Taiwan 3,33 2,03
Egypt 6,90 10,40 China 6,50 4,10 South Korea 3,61 4,20 Bulgaria 12,50 2,80
Nigeria 6,60 10,30 Estonia 9,57 3,70 Thailand 3,20 3,60 Canada 2,40 2,30

Comente possíveis razões.


Pakistan 8,79 9,75 Mexico 3,76 3,82 Austria 3,50 3,20 Greece 3,90 2,40

Análise Exploratória de Dados


Argentina 8,50 9,50 Paraguay 6,00 4,90 Belgium 3,10 3,20 Slovenia 5,60 2,00
Botswana 8,10 9,20 Peru 3,93 4,72 Italy 2,60 3,30 Sweden 3,50 2,30
Ghana 12,70 8,58 Chile 6,27 4,40 Luxembourg 3,40 3,20 Israel 3,40 2,20
Rwanda 6,60 8,34 Russia 11,90 6,10 Australia 3,00 3,10 Germany 3,10 2,10

arrecadação líquida e despesas com benefícios.


Namibia 7,10 7,20 Tunisia 5,10 4,20 Malaysia 2,40 3,00 Spain 4,20 2,40
Bolivia 11,73 6,90 Poland 4,00 4,60 United States 4,10 3,00 New Zealand 3,20 1,80
Iceland 5,86 6,50 Philippines 3,90 4,20 Finland 2,60 2,90 Norway 2,80 0,20
India 5,51 6,49 Slovakia 3,40 4,40 Denmark 2,30 2,50 U. Arab E. 11,10 0,20
Brazil 4,46 6,50 Sri Lanka 18,80 4,90 Macedonia 4,90 2,80 Japan 0,70 -0,20
South Africa 8,90 6,10 Ukraine 16,60 4,60 Romania 6,60 3,14 Switzerland 2,00 -0,70

a) Comente se há algum padrão entre estas duas grandezas.


Inflações de um cross-section de economias

Prof. Dr. Paulo Matos


b) Há algum sinal de sazonalidade, ou seja, comportamento atípico de determinados meses do ano.
Exercício #3. Observe os dados na Tabela 2.5. Construa um gráfico linear mensal para as variáveis
Tabela 2.5.
Rubricas previdenciárias
Arrecadação líquida (em Despesa com benefícios
R$ constantes de previdenciários (em R$
dez/2010, com base no constantes de dez/2010,
Data INPC) com base no INPC)
Fonte: Ministério da Fonte: Ministério da
Previdência Previdência
jan-08 R$ 13.136.719.488,11 R$ 19.101.981.368,67
fev-08 R$ 13.914.652.924,72 R$ 16.279.693.997,70
mar-08 R$ 14.083.655.906,04 R$ 17.143.108.589,12
abr-08 R$ 14.579.536.959,18 R$ 17.794.034.758,48
mai-08 R$ 14.450.551.944,75 R$ 17.595.963.323,85
jun-08 R$ 14.651.635.955,58 R$ 17.893.000.207,87
jul-08 R$ 14.890.654.608,24 R$ 17.341.226.683,78
ago-08 R$ 14.817.939.080,00 R$ 19.378.247.043,72
set-08 R$ 15.061.302.428,95 R$ 23.378.659.125,25
out-08 R$ 15.037.390.509,53 R$ 17.167.824.220,64
nov-08 R$ 15.073.245.317,91 R$ 19.769.724.189,65
dez-08 R$ 25.454.628.028,69 R$ 23.528.738.804,19
jan-09 R$ 13.251.852.623,69 R$ 20.232.230.517,16
fev-09 R$ 14.459.740.664,57 R$ 17.300.501.644,76
mar-09 R$ 15.570.977.058,99 R$ 19.001.555.312,52
abr-09 R$ 15.355.171.289,37 R$ 18.732.887.606,59
mai-09 R$ 15.600.531.036,88 R$ 18.568.515.481,32
jun-09 R$ 15.171.832.478,08 R$ 18.819.665.713,72
jul-09 R$ 15.377.570.789,89 R$ 18.707.118.886,46
ago-09 R$ 15.486.615.247,63 R$ 21.069.840.498,57
set-09 R$ 15.129.898.190,81 R$ 24.978.985.964,58
out-09 R$ 15.922.634.805,59 R$ 18.894.270.131,49
nov-09 R$ 17.938.128.217,27 R$ 21.263.839.552,30
dez-09 R$ 27.246.091.981,71 R$ 25.375.989.760,03
jan-10 R$ 14.855.323.907,21 R$ 18.769.047.175,40
fev-10 R$ 15.937.738.791,82 R$ 19.900.395.957,84
mar-10 R$ 16.528.421.372,26 R$ 23.528.196.285,23
abr-10 R$ 16.870.588.671,01 R$ 19.982.094.010,55
mai-10 R$ 17.057.213.183,57 R$ 19.720.992.901,31
jun-10 R$ 17.074.542.192,17 R$ 19.935.688.207,42
jul-10 R$ 17.358.693.215,77 R$ 20.002.666.791,96
ago-10 R$ 17.872.271.156,77 R$ 23.457.111.363,54
set-10 R$ 17.567.935.279,61 R$ 26.995.411.173,70
out-10 R$ 17.850.969.383,15 R$ 20.059.136.441,42
nov-10 R$ 18.027.644.911,00 R$ 22.478.634.723,89
dez-10 R$ 30.523.729.644,36 R$ 27.048.937.407,80

Exercício #4. Observe os Patrimônios líquidos das empresas registradas junto à ANS como
filantrópicas nos anos de 2008 a 2010 (Tabela 2.6.). Monte um histograma de cada cross-section para cada ano.
É possível inferir algo sobre a crise financeira de 2008 sobre este segmento? Seria necessário ou recomendável
retirar algumas das observações, em razão do seu comportamento extremo na amostra?

Análise Exploratória de Dados Prof. Dr. Paulo Matos


PL (R$ mil) PL (R$ mil)
Operadora filantrópica Operadora filantrópica
2010 2009 2008 2010 2009 2008
ASSOCIAÇÃO ADVENTISTA NORTE BRAS. DE PREV. E ASSIST. A SAÚDE 65.237 64.257 54.298 IRMANDADE DA SANTA CASA DE MISERICÓRDIA DE STA R. P. QUATRO 223 1.496 2.428
ASSOCIAÇÃO BENEFICENTE CATÓLICA 8.264 7.116 6.904 IRMANDADE DA SANTA CASA DE MISERICORDIA DE VALINHOS 649 -2.622
ASSOCIAÇÃO CASA FONTE DA VIDA 11.929 8.444 933 IRMANDADE DA SANTA CASA DE MISERICORDIA DE VITORIA 49.154 48.011 46.286
ASSOCIAÇÃO DOS FUNCIONÁRIOS PÚBLICOS DO ESPÍRITO SANTO -3.207 -2.079 187 IRMANDADE DA SANTA CASA DE MISERICÓRDIA E M. DONA ZILDA SALVAGNI 4.622 3.426 2.665
ASSOCIAÇÃO DR. BARTHOLOMEU TACCHINI 69.741 28.360 25.552 IRMANDADE DE MISERICORDIA DE AMERICANA 10.827 3.044 2.603
ASSOCIAÇÃO EVANGELICA BENEFICENTE DE LONDRINA -57.943 -78.153 IRMANDADE DE MISERICÓRDIA DE MONTE ALTO 16.195 5.278 5.006
ASSOCIAÇÃO HOSPITAL DE CARIDADE IJUI 10.695 10.288 7.047 IRMANDADE DE MISERICORDIA DE PORTO FERREIRA 5.405 5.736 6.107
ASSOCIACAO HOSPITALAR SANTA ROSALIA 17.843 19.678 19.472 IRMANDADE DO HOSPITAL DE NOSSA SENHORA DAS DORES 6.370 7.352 8.669
BENEFICENCIA CAMILIANA DO SUL 50.875 47.013 43.633 IRMANDADE DO SENHOR B. JESUS DOS PASSOS DA STA CASA DE M. DE B. PAULISTA 354 965 2.985
BENEFICENCIA NIPO-BRASILEIRA DA AMAZONIA 8.513 8.614 10.264 IRMANDADE NOSSA SENHORA DAS GRAÇAS 67.840 12.282 11.464
CENTRO BARBACENENSE DE ASSISTÊNCIA MEDICA E SOCIAL 3.440 2.959 2.900 IRMANDADE NOSSA SENHORA DAS MERCES DE MONTES CLAROS 29.419 29.263 31.593
CIRCULO OPERARIO CAXIENSE 103.887 38.635 37.605 IRMANDADE SANTA CASA DE MISERICÓRDIA DE MARINGÁ 7.929 7.114
CONFERÊNCIA SÃO JOSÉ DO AVAÍ 60.830 58.140 48.246 IRMANDADE SANTA CASA MISERICORDIA DE SÃO JOSÉ DOS CAMPOS 17.336 27.804 33.257
FUNDAÇÃO ASSISTENCIAL VIÇOSENSE 5.555 7.106 8.223 REAL SOCIEDADE PORTUGUESA DE BENEFICENCIA -37.160 -9.473 -840,00
FUNDAÇÃO BENEFICENTE RIO DOCE 7.885 7.606 7.264 SANTA CASA DA MISERICÓRDIA DE SÃO JOÃO DEL REI 609.999 473.632 435.340,00
FUNDAÇÃO FILANTRÓPICA E BENEFICIENTE DE SAÚDE ARNALDO GAVAZZA FILHO6.802 7.114 7.706 SANTA CASA DE MISERICORDIA DA BAHIA 0 105.657 104.233,00
FUNDAÇÃO GERALDO CORREA 16.336 25.777 23.043 SANTA CASA DE MISERICÓRDIA DE ARAÇATUBA 9.002 11.692 18.800,00
FUNDACAO LEONOR DE BARROS CAMARGO 42.229 35.235 34.302 SANTA CASA DE MISERICORDIA DE BARRA MANSA 17.147 4.879 7.503,00
FUNDAÇÃO PADRE ALBINO 84.342 64.702 59.583 SANTA CASA DE MISERICÓRDIA DE BARRETOS 6.393 1.602 4.687,00
FUNDAÇÃO SÃO FRANCISCO XAVIER 157.790 122.185 104.686 SANTA CASA DE MISERICORDIA DE CASA BRANCA -6.684 -5.683 -4.182,00

Análise Exploratória de Dados


HOSPITAL CÉSAR LEITE 10.310 9.632 8.918 SANTA CASA DE MISERICORDIA DE ITABUNA 38.084 2.091 3.244,00
HOSPITAL DE CARIDADE DE VARGEM GRANDE DO SUL 3.958 3.883 4.112 SANTA CASA DE MISERICÓRDIA DE ITAPEVA 22.214 22.647 19.293,00
HOSPITAL DE CATAGUASES 10.502 9.753 9.340 SANTA CASA DE MISERICORDIA DE JOSE BONIFACIO 2.246 2.160
HOSPITAL EVANGÉLICO DE RIO VERDE 4.975 4.975 8.067 SANTA CASA DE MISERICÓRDIA DE JUIZ DE FORA 81.954 52.111 50.957,00
HOSPITAL IMACULADA CONCEIÇÃO - AMHIC-SAÚDE -82 6 6 SANTA CASA DE MISERICÓRDIA DE LORENA -851 -2.271 -8.492,00
HOSPITAL PADRE JÚLIO MARIA 4.647 4.210 4.210 SANTA CASA DE MISERICÓRDIA DE MARINGÁ 7.114 5.408,00
HOSPITAL SAO PAULO 8.100 9.382 9.382 SANTA CASA DE MISERICÓRDIA DE PASSOS 26.121 23.805 19.639,00
IEAS - INSTITUTO DE ENSINO E ASSISTÊNCIA SOCIAL 46.619 47.470 46.334 SANTA CASA DE MISERICORDIA DE SÃO JOSÉ DO RIO PARDO - HOSPITAL SÃO VICENTE6.517 6.546 6.630,00
IRMANDADE DA SANTA CASA DA MISERICÓRDIA DE SANTOS 115.330 46.425 49.816 SANTA CASA DE MISERICÓRDIA DE TUPÃ 4.314 3.502 2.630,00
IRMANDADE DA SANTA CASA DE MISERICÓRDIA DE ARARAS 13.161 11.200 10.398 SANTA CASA DE MISERICORDIA DE VITÓRIA DA CONQUISTA 18.182 1.553 706,00
IRMANDADE DA SANTA CASA DE MISERICÓRDIA DE CURITIBA 33.851 30.843 30.777 SANTA CASA DE MISERICÓRDIA DE VOTUPORANGA 40.598 26.438 20.206,00
IRMANDADE DA SANTA CASA DE MISERICORDIA DE ILHEUS 596 2.014 SANTA CASA DE MISERICORDIA DONA CAROLINA MALHEIROS 19.552 22.102 23.615,00
IRMANDADE DA SANTA CASA DE MISERICÓRDIA DE LEME -3.129 -3.849 SANTA CASA DE MISERICÓRDIA E ASILO DOS POBRES DE BATATAIS 17.271 18.131 18.697,00
Tabela 2.6.

IRMANDADE DA SANTA CASA DE MISERICORDIA DE LIMEIRA 6.221 4.876 5.612 SBH SANTA CASA DE MISERICORDIA DE RIBEIRAO PRETO -21.270 -17.861 -17.889,00
IRMANDADE DA SANTA CASA DE MISERICÓRDIA DE MAUÁ 1.021 2.511 2.436 SOCIEDADE BENEFICENTE UNIÃO OPERÁRIA DE ARARAQUARA 1.755 1.217 1.021,00
PL de filantrópicas

IRMANDADE DA SANTA CASA DE MISERICÓRDIA DE MUZAMBINHO 1.669 1.918 2.145 SOCIEDADE DE BENEFICÊNCIA E FILANTROPIA SÃO CRISTOVÃO 51.674 45.197 45.650,00
IRMANDADE DA SANTA CASA DE MISERICÓRDIA DE OSVALDO CRUZ 809 778 706 SOCIEDADE ESPANHOLA DE BENEFICENCIA 6.546 6.160
IRMANDADE DA SANTA CASA DE MISERICÓRDIA DE PIRACICABA 35.032 31.359 27.535 SOCIEDADE ITALIANA DE BENEFICÊNCIA E MUTUO SOCORRO -3.341 -2.744 945,00
IRMANDADE DA SANTA CASA DE MISERICÓRDIA DE RIO CLARO 13.110 10.497 7.423 SOCIEDADE LITERÁRIA E CARITATIVA SANTO AGOSTINHO 53.810 54.824 54.545,00
IRMANDADE DA SANTA CASA DE MISERICÓRDIA DE SÃO JOSÉ DO RIO PRETO 28.620 24.779 21.108 SOCIEDADE OPERÁRIA HUMANITÁRIA 2.857 3.779 3.713,00
IRMANDADE DA SANTA CASA DE MISERICÓRDIA DE SÃO ROQUE 2.728 2.994 1.916 STA CASA MIS N SRA FÁTIMA E BENEF PORTUGUESA DE ARARAQUARA 7.650 -729 -1.140,00
IRMANDADE DA SANTA CASA DE MISERICÓRDIA DE SOROCABA 30.991 23.471 28.238

Prof. Dr. Paulo Matos


Exercício #5. Observe os retornos (variação de cotação) dos índices das principais bolsas de valores
da A. Latina (Tabela 2.7). Identifique qual a melhor representação gráfica para ambas as séries temporais.

Tabela 2.7.
PL de filantrópicas
BOGOTÁ BUENOS AIRESCARACAS LIMA SANTIAGO SÃO PAULO
Data
IGBC MERVAL IBVC IGBVL IPSA IBOVESPA

jan-08 -12,519% -7,743% -8,087% -13,183% -3,732% -7,334%


fev-08 1,053% 2,512% -6,543% 14,908% -1,646% 6,212%
mar-08 2,109% 0,547% 4,717% 6,520% 10,269% -4,496%
abr-08 8,420% -4,669% 2,871% -7,666% -5,701% 10,446%
mai-08 -1,090% 0,904% -11,792% -5,197% -6,405% 6,175%
jun-08 -19,444% -4,227% 4,431% -11,980% -11,808% -10,907%
jul-08 3,946% -10,620% 4,717% -12,309% 2,007% -8,734%
ago-08 -0,135% -3,674% 6,546% -4,609% -2,731% -6,670%
set-08 2,211% 1,688% 8,763% -3,454% 3,677% -11,424%
out-08 -20,712% -34,712% 3,346% -32,784% -17,266% -25,066%
nov-08 13,338% 8,164% 6,381% 15,594% 7,154% -2,048%
dez-08 6,456% 4,671% 1,490% -6,305% 3,258% 2,118%
jan-09 -5,876% -1,668% -0,445% -4,333% 8,604% 4,089%
fev-09 -2,713% -6,361% 7,704% -3,779% 2,028% -0,200%
mar-09 -0,661% 3,192% 13,591% 38,385% -0,459% 3,638%
abr-09 8,780% 6,062% -5,144% 6,682% -0,224% 15,007%
mai-09 7,310% 12,324% -12,026% 21,844% 9,204% 12,091%
jun-09 4,379% -4,932% 1,925% -5,012% 4,972% -3,489%
jul-09 5,824% 3,765% -1,703% 4,939% -2,368% 6,253%
ago-09 3,592% 4,120% 11,099% 1,361% -2,648% 2,901%
set-09 5,652% 9,462% -6,355% 2,973% 0,670% 8,599%
out-09 -10,612% -0,407% -1,437% -8,987% -1,390% -0,363%
nov-09 5,031% 1,491% 5,125% 0,621% 5,320% 8,532%
dez-09 -0,467% 6,704% 1,838% -1,632% 6,356% 1,541%

Análise Exploratória de Dados Prof. Dr. Paulo Matos


3. Métricas estatísticas
3.1. Introdução
Comumente, ouvimos notícias em jornais tais como esta: “....... ao longo do último mês, o retorno médio
de uma ação ON da Companhia Vale do Rio Doce (VALE 3) foi de 5,45 %, tendo portanto batido o mercado, apesar
de ter apresentado uma maior oscilação, cerca de 1,98 % ....”
Assim como a maioria das informações estatísticas contidas nos jornais, revistas e demais tipos de
publicação, os fatos numéricos acima reportados consistem na manipulação de dados ou observações, de
forma a reuni-los e apresentá-los de forma clara para que o leitor possa entender. Tais sumários, sejam
tabulares, gráficos ou numéricos, são conhecidos como estatísticas descritivas.
Vimos inicialmente, no capítulo anterior, que a representação gráfica adequada pode ser bem mais
informativa que uma simples representação tabular, por permitir obervar comportamentos ao longo do tempo
ou dentre um corte transversal de dados. Um passo adiante neste processo consiste no cálculo de métricas
estatísticas a partir da amostra, ou mesmo, a partir de toda a população. A partir destes cálculos, será possível
sumarizar em um ou poucos números representativos toda uma amostra.

3.2. Conceitos básicos e definições


Suponha que você esteja diante de um processo de entendimento sobre a distribuição de renda de
toda uma população de funcionários públicos no Brasil, a qual segue uma determinada “função de
distribuição de probabilidade”. Sua suspeita é a de que na média, a faixa salarial é superior à média observada
na iniciativa privada, em torno de R$2.300,00. A partir de uma amostra “aleatória”, se observa a média
amostral 𝑋̅ e pode se fazer inferência sobre sua hipótese em investigação. Mas o quão próximo teria que ser
𝑋̅ de R$2.300,00 para se afirmar que o setor público ganha melhor ou pior que o setor privado?
Perceba que o estudo das propriedades da distribuição de 𝑋̅ são fundamentais neste caso! Mesmo
sendo este um assunto estudado apenas em inferência estatística, nesta etapa inicial e descritiva da pesquisa
estatística, procede-se com o cálculo das estatísticas descritivas. Mais especificamente, iremos definir agora o
que é uma estatística e depois apresentar as mais comumente extraídas da amostra.
Definição 1: Seja 𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑛 uma amostra aleatória de tamanho n de uma população e
𝑇(𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑛 ) uma função com contradomínio em ℝ𝑛 e cujo domínio contenha o espaço amostral de
𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑛 . Então, uma variável ou vetor aleatório 𝑌 = 𝑇(𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑛 ) que consista em uma
função dos valores da amostra será dito uma estatística e sua distribuição de probabilidade será a dita
distribuição amostral. Observe que esta definição é muito ampla, sendo a única restrição mais técnica, que
esta não possa depender de um parâmetro da distribuição dos elementos da amostra aleatória. A estatística
deverá ser simplesmente uma função dos elementos da amostra aleatória.
As inúmeras estatísticas vão desde funções muito simples, como o maior valor da amostra, ás médias,
ou métricas de dispersão, por exemplo, dentre outras.

3.3. Medidas de tendência central


3.3.1. Aspectos teóricos
Qual seria o peso médio em Kg dos alunos desta turma? Apesar de delicada, essa seria uma questão
simples, facilmente a partir de uma coleta direta de dados junto aos próprios alunos. Estamos assim, diante
de uma situação que requer o uso de estatísticas que de certa forma procuram identificar um valor em torno

Análise Exploratória de Dados Prof. Dr. Paulo Matos


do qual os dados tendem a se agrupar. Podemos definir medidas de posição como sendo as estatísticas que
representam uma série de dados orientando-nos quanto à posição da distribuição em relação ao eixo
horizontal do gráfico um histograma. Apesar desta definição um tanto prolixa, tais medidas são bem simples
e extremamente comuns, como veremos a seguir.
Dentre todas as medidas de posição, destacamos como as mais importantes, as medidas de tendência
central ou promédias – estatísticas que visam localizar o centro de um conjunto de dados.1
As medidas de tendência central mais utilizadas são: a média aritmética, a moda e a mediana.2
Média aritmética: Definimos a média aritmética amostral (𝑿 ̅ ) como sendo simplesmente a razão
entre a soma dos valores de todas as observações e a quantidade total destas observações que compõem a
amostra. Formalmente, esta estatística pode ser obtida através da seguinte fórmula:

𝑛
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 𝑥𝑖
𝑋̅ = =∑
𝑛 𝑛
𝑖=1

Quando do cálculo de algumas estatísticas, passa a ser relevante que venhamos a definir se estamos
trabalhando com toda a população ou se apenas com uma amostra desta. Sendo a média a estatística em
questão, quando do estudo de uma população e não de uma amostra, o que muda é apenas a letra que
denota a média populacional aritmética (𝝁), apesar de 𝝁 e 𝑿 ̅ possuírem exatamente a mesma fórmula.
Exemplo 3.1: Calcule o a receita operacional média e o lucro líquido médio da empresa XXX, com
base na amostra de tempo durante 2003 a 2006. Compare estes valores. Ver Tabela 3.1., a seguir.

Tabela 3.1.
Indicadores financeiros selecionados da Empresa XXX (quadriêncio 2003 – 2006)

Indicador 2003 2004 2005 2006


Receita operacional bruta (R$ milhões) 20.895 29.020 35.350 46.746

Exportações (US$ milhões) 4.229 5.534 7.021 9.656

Exportações líquidas (US$ milhões) 3.672 4.618 6.339 8,784

Lucro líquido (R$ milhões) 4.509 6.460 10.443 13.431

Investimentos (US$ milhões) 1.988 2.092 4.998 26.324

Baseado na definição, podemos constatar que a média aritmética várias propriedades:


1ª propriedade: Somando-se (ou subtraindo-se) uma constante (c) a todos os valores das observações
de uma variável, a média do conjunto fica aumentada (ou diminuída) dessa constante.
2ª propriedade: Multiplicando-se (ou dividindo-se) todos os valores observados de uma variável por
uma constante (c), a média do conjunto fica multiplicada (ou dividida) por essa constante.
3ª propriedade: Uma característica que torna a utilização da média vantajosa em certas aplicações é
o fato de que quando se pretende representar a quantidade total expressa pelos dados, podemos utilizar a
média, uma vez que, ao multiplicar a média pelo número total de elementos, obtemos a quantidade
pretendida.

1
Algumas das outras medidas de posição existentes são as separatrizes, as quais que englobam: os decis, os quartis e os percentis.
2
Outros promédios menos usados são as médias: geométrica, harmônica, quadrática, cúbica e biquadrática.

Análise Exploratória de Dados Prof. Dr. Paulo Matos


4ª propriedade: A soma algébrica do desvio de cada uma das observações em relação à média
aritmética é nula.
5ª propriedade: Há unicidade na média de uma amostra.
É importante que se tenha maturidade para perceber que se por um lado tal estatística possui
características desejáveis, como por exemplo, a extrema facilidade de seu cálculo e sua interpretação, por outro
lado, trata-se de uma medida extremamente sensível aos dados, ou mais especificamente, bastante sensível a
mudanças nos valores observados, sendo, portanto necessário ter cuidado com a sua utilização, pois a mesma
pode dar uma imagem “distorcida” dos dados.
Mais especificamente, veremos nos exemplos que, ao levar em consideração todos os dados coletados
da amostra ou população, a média passa a depender dos valores extremos, ou outliers. Outras métricas de
tendência central, não necessariamente.
Extensões: Arquitas de Tarento, um matemático pitagórico que floresceu por volta de 400 a.C.,
definiu que existiam três tipos de média: i) um número é a média aritmética de dois outros quando o excesso
do primeiro para o segundo é igual ao excesso do segundo para o terceiro, ii) a média geométrica quando a
proporção do segundo para o terceiro é igual à proporção do primeiro para o segundo, e iii) a média
harmônica quando a quantidade que o primeiro excede o segundo em relação ao primeiro é igual à
quantidade que o segundo excede o terceiro em relação ao terceiro.
Assim, quando diante de uma série que evolua, ao longo do tempo, por exemplo, não de maneira
linear, mas exponencial, então a média geométrica (𝐺) pode ser mais indicada, assim como no caso de uma
evolução recíproca, onde a média harmônica (𝐻) é mais indicada.
Seguem as relações destas métricas, ambas para um conjunto de observações positivas:

𝑛
𝑛
𝑛
𝐺 = √𝑥1 . 𝑥2 … . 𝑥𝑛 = √∏ 𝑥𝑖
𝑖=1

𝑛
𝑛 1
𝐻= = 𝑛. ∑
1 1 1 𝑥𝑖
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 𝑖=1

Exemplo 3.2: Em uma certa situação, a média harmônica provê a correta noção de média. Por
exemplo, se metade da distância de uma viagem é feita a 40 km por hora e a outra metade da distância a 60
km por hora, então a velocidade média para a viagem é dada pela média harmônica, que é 48; isso é, o total
de tempo para a viagem seria o mesmo se se viajasse a viagem inteira a 48 quilômetros por hora. Note,
entretanto que se a viagem fosse metade do tempo em uma velocidade e a outra metade na outra velocidade,
a média aritmética, nesse caso 50 km por hora, proveria a correta noção de média.
Exemplo 3.3: Em finanças, a média harmônica é usada para calcular o custo médio de ações
compradas durante um período. Por exemplo, um investidor compra $1000 em ações todo mês durante três
meses. Se os preços na hora de compra forem de $8, $9 e $10, então o preço média que o investidor pagou
por ação é de $8,926. Entretanto, se um investidor comprasse 1000 ações por mês, a média aritmética seria
usada. Outras utilizações são em previsões do tempo que é o campo estudado pelos meteorologistas.
Exemplo 3.4: Se um investimento rende 50% no primeiro ano e 90% no segundo ano, qual o
rendimento médio desse investimento?

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Moda: A moda (𝑴𝒐) ou valor modal, como o próprio nome diz, trata-se do valor mais observado
dentro da amostra, do conjunto de dados em questão, isto é, aquele valor que ocorre com maior frequência
em uma série de valores. A moda deve ser utilizada quando desejamos obter uma medida rápida e aproximada
de posição ou quando a medida de posição deva ser o valor mais “típico da distribuição”.
Assim, da representação gráfica dos dados, obtém-se imediatamente o valor que representa a moda.
Esta medida é especialmente útil para reduzir a informação de um conjunto de dados qualitativos,
apresentados sob a forma de nomes ou categorias, para os quais obviamente não se pode calcular a média e
por vezes a mediana. Quando estivermos lidando com dados em tempo contínuo, então graficamente
poderemos identificar a classe modal.
É interessante que observemos que apesar de simples e intuitiva, não há necessidade formalizarmos
muito a definição desta estatística, como por exemplo, através de uma fórmula.
Exemplo 3.5: (Qualitativamente) Qual seria a formação modal de todos os estudantes desta sala de
aula?
Exemplo 3.6: (Quantitativamente) Qual seria o peso modal dos alunos desta sala?
Baseado na definição, podemos analisar as propriedades da moda:
1ª propriedade: Não se pode assegurar a unicidade da moda, nem mesmo a sua existência. Sendo,
portanto a moda uma estatística facilmente reconhecida, bastando para isso procurar o valor (ou a categoria
para casos qualitativos) que mais apareça, o que poderíamos dizer no caso de uma amostra onde nenhum
valor se repete mais de uma vez? E isso ocorre com freqüência? Neste caso, estamos diante de uma amostra
amodal.
Exemplo 3.7: Qual seria a data de aniversário modal das alunas desta sala?
E o que poderíamos dizer no caso da existência de mais de um valor ou mais de uma categoria que
se repete bastante? Teríamos uma amostra bimodal, caso houvesse duas modas, trimodal, se três e assim
sucessivamente.
Exemplo 3.8: (Quantitativamente) Qual a idade modal de todos os estudantes desta sala?
Mediana: A mediana (𝑴𝒅) de um conjunto de valores observados, os quais estejam dispostos
segundo uma ordem (crescente ou decrescente), é o valor (pertencente ou não ao conjunto) situado de tal
forma que, o separa em dois subconjuntos de mesmo número de elementos, ou seja, a mediana é o valor que
divide esse conjunto ordenado ao meio, com 50% dos elementos sendo menores ou iguais à mediana e os
outros 50% sendo maiores ou iguais à mediana.
De outra forma, podemos entender esta estatística como sendo o valor que ocupa a posição central
dos dados ordenados. Com base na definição, atentemos para o fato de que o primeiro passo para o cálculo
de uma mediana é ordenar os dados, na ordem crescente ou decrescente, indiferentemente. Feito isto, uma
primeira especificidade desta estatística consiste no fato de que sua fórmula muda dependendo da quantidade
de observações.
Assim, se o número de observações for ímpar, teremos que a mediana será o termo da amostra de
ordem dada por (𝑛 + 1)/2. Quando de uma amostra contendo uma quantidade par de observações, o valor
mediano será então a média aritmética dos dois valores centrais, ou seja, os termos de ordem 𝑛/2 e (𝑛 +
2)/2 .
Baseado na definição, podemos analisar as propriedades da mediana:
1ª propriedade: Quando o número de elementos da série estatística for ímpar, haverá coincidência
da mediana com um dos elementos da série.
2ª propriedade: Porém, quando o número de elementos da série estatística for par, nunca haverá
coincidência da mediana com um dos elementos da série.

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Veremos a seguir, que uma vez exemplificado, torna-se bem simples esta de obter esta intuitiva
estatística.
Exemplo 3.9: Qual seria a mediana do rendimento mensal que os funcionários desta sala gostariam
de possuir quando da aposentadoria? Qual seria agora esse valor do rendimento mensal desejado mediano,
caso essa amostra incluísse também o professor?
Em suma, vimos as 3 métricas de tendência central mais comumente reportadas em estudos
empíricos. Listaremos a seguir algumas observações, as quais estabelecem comparações interessantes entre as
estatísticas de medida central aqui estudadas.
1ª observação: Em uma série, em um conjunto qualquer de valores observados, a mediana, a média
e a moda não possuem, necessariamente, o mesmo valor.
2ª observação: A mediana depende da posição e não dos valores per si dos elementos na série
ordenada. Essa é uma das diferenças mais marcantes entre mediana e a média, uma vez que esta última por
refletir todos os dados da amostra, se deixa influenciar fortemente pelos valores extremos.
3ª observação: Suponhamos um caso em que os dados estejam distribuídos de uma maneira
aparentemente, ou graficamente, simétrica. Podemos claramente deduzir que neste caso, a média aproxima-
se da mediana. De fato, isto somente ocorrerá, quando em distribuições simétricas ou pertencentes à família
Cauchy. Ver Casela e Berger (2002) para maiores detalhes deste teorema.
Exemplo 3.10: Seja a unidade de Carajás, a que possui atualmente o maior volume anual de extração
de minério de ferro extraído. Suponha que, esta apresente no próximo ano um aumento muito significativo
desse volume, enquanto as demais unidades permaneçam com o mesmo volume, teremos então que o volume
médio de uma unidade sofrerá um notável aumento (a média é muito sensível a valores extremos), o mesmo
não ocorrendo com a mediana, a qual permanece constante. Tal diferença faz com que o uso da mediana seja
recomendado quando da observação de valores muito extremos, "muito grandes" ou "muito pequenos",
mesmo que estes valores surjam em pequeno número na amostra. Estes valores são os responsáveis pela má
utilização da média em muitas situações em que teria mais significado utilizar a mediana, como podemos
observar no exemplo a seguir.
Exemplo 3.11: Suponha que nesta sala, dos n funcionários, n-1 possuam salários cujos valores
possuem uma mesma ordem aproximada de grandeza e apenas um dos alunos (felizardo) possua um salário
extremamente mais elevado que os dos demais. Neste caso, seria justo e “informativo” incluir este funcionário
com melhor remuneração na amostra, tira a média aritmética e divulgar na imprensa o salário médio de um
funcionário da companhia? Não seria mais apropriado e intuitivo obter a mediana?
Exemplo 3.12: Observemos a Tabela 3.1, seria mais informativo reportar o investimento anual
médio ou mediano da empresa XXX, ao longo do período compreendido entre 2003 e 2006?
Tomemos cuidado, pois o “mau” uso da estatística descritiva, por mais simples que seja, pode
informar de maneira distorcida a amostra em questão. É preciso que se use a medida de tendência central
que melhor represente esta amostra.

3.4. Medidas de dispersão


3.4.1. Aspectos teóricos
Observe a seguinte afirmação: “Imaginem uma situação na qual o professor avisa aos alunos de uma turma
que a média aritmética das notas desta turma em uma prova final foi 8,0. Essa parece sempre uma boa nota, de forma
que nenhum aluno deveria se preocupar, não é verdade? Ou não!”

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Esse é um exemplo simples e bastante comum, no qual são conhecidas apenas as medidas de
tendência central – estatísticas de localização do centro de uma distribuição de dados. O problema é que
apesar de sempre fornecem informações valiosas, tais estatísticas em geral, não são suficientes para descrever
e discriminar diferentes conjuntos de dados.
Para constatar tal fato, analisemos o caso acima ilustrado. Suponha que houvesse duas turmas, ambas
com a mesma média na prova do professor, porém uma delas com notas muito dispersas, enquanto outra
com dispersão baixíssima. Em qual delas um aluno deveria ter mais motivos para se preocupar com
reprovação?
Visando melhor compreender a distribuição das notas de cada uma das turmas e responder esse tipo
de pergunta, é necessário que estudemos as medidas de dispersão ou variabilidade, as quais nos permitem
quantificar e visualizar a maneira como os dados espalham-se (ou concentram-se) em torno de um valor central
tomado como ponto de comparação.
Para mensurarmos esta dispersão, as estatísticas mais utilizadas seriam: a amplitude total, a
variância, o desvio padrão e coeficiente de variação.3
Amplitude total: Podemos definir a amplitude total, 𝑨𝑻, como sendo a diferença entre o maior e o
menor valor observado na amostra. Formalmente:

𝐴𝑇 = 𝑥𝑚á𝑥 − 𝑥𝑚í𝑛

Nesta relação, 𝑥𝑚á𝑥 e 𝑥𝑚í𝑛 são as observações de maior e menor valor na amostra, respectivamente.
Observemos o exemplo básico a seguir, para melhor compreendermos tal medida, a única estatística
de dispersão que não faz uso de nenhuma medida de posição como ponto de referência.
Exemplo 3.13: Observemos novamente a tabela 3.1. Qual a amplitude do investimento da empresa
XXX, ao longo do período compreendido entre 2003 e 2006?
Observando os dados e aplicando a definição de a amplitude, obtemos o valor de dado por 25.324
– 1988, em US$ milhões.
O mais sério inconveniente em se usar apenas a amplitude total como medida de dispersão em uma
análise consiste no fato de que esta estatística só leva em conta os dois valores extremos da série,
desconsiderando todo o conjunto de valores intermediários. Porém, por mais simples e pouco informativa
que possa parecer, fazemos uso da amplitude total diariamente, quando, por exemplo, queremos determinar
a amplitude da temperatura ao longo de um dia, ou mesmo no controle de qualidade ou como uma medida
de cálculo bem rápido, sem muita exatidão.
Inconveniências e limitações a parte, passamos agora ao estudo de medidas de dispersão mais
relevantes, as quais fazem uso da média aritmética como referência, por a considerarem a mais importante
das medidas de tendência. Neste contexto, novamente passa a ser relevante que venhamos a definir se estamos
trabalhando com toda a população ou se apenas com uma amostra desta.
Variância: A variância populacional, 𝜎 2, é uma medida dada pela razão entre soma dos quadrados
dos desvios de todas as observações (relativamente à sua média) e quantidade total de observações dessa
população. A razão dos desvios elevados ao quadrado se dá, pois, de acordo com a propriedade 4 da média,
caso fizéssemos uso apenas dos desvios, esta soma seria nula!
A priori, tida como complicada e de difícil determinação, estamos diante de uma medida
extremamente relevante e de fácil manuseio, como veremos a partir dos exemplos e exercícios.

3
Para casos bem específicos de análise de dispersão, poderia vir a ser útil ainda o uso da distância interquartílica.

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Visando calcular a variância, primeiramente é necessário obter a média populacional, 𝜇, a partir de
todas as observações coletadas. O segundo passo consiste em se calcular o desvio de cada uma das observações
em relação à média e depois. Em seguida, elevamos cada um desses desvios ao quadrado e depois somamos.
Por fim, dividimos tal somatório pela quantidade total de observações da amostra. Formalmente:

𝑛
2
(𝑥1 − 𝜇)2 + (𝑥2 − 𝜇)2 + ⋯ + (𝑥𝑛 − 𝜇)2 (𝑥𝑖 − 𝜇)2
𝜎 = =∑
𝑛 𝑛
𝑖=1

Novamente, temos que na maioria das aplicações estatísticas, os dados que estão analisados são para
uma amostra apenas, em razão da dificuldade ou mesmo da inviabilidade de se observar toda a população.
Assim, como nas demais estatísticas, quando calculamos uma variância amostral, 𝑆 2 , estamos na realidade
interessados em usá-la para inferir algo sobre a variância populacional. Sendo esse o caso, podemos assegurar
que para que tenhamos uma estimativa não viesada de 𝜎 2, a fórmula da variância amostral terá que sofrer
uma “curiosa” modificação, passando a ser dada pela seguinte relação:

𝑛
2
(𝑥1 − 𝑋̅)2 + (𝑥2 − 𝑋̅)2 + ⋯ + (𝑥𝑛 − 𝑋̅)2 (𝑥𝑖 − 𝑋̅)2
𝑆 = =∑
𝑛−1 𝑛−1
𝑖=1

Não iremos nos ater à a explicação detalhada deste resultado, uma vez que a demonstração
matemática do mesmo “foge” do escopo desta disciplina. A mesma será dada em inferência estatística.

Definição 2 (Viés): Um conceito desejável para toda estatística é que esta seja não viesada, ou seja,
o valor esperado desta é igual ao respectivo parâmetro populacional. Ou seja, dado que 𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑛
compõem uma amostra aleatória de tamanho n de uma população função de distribuição de probabilidade
𝑓𝑋 (𝑥|𝜃1 , 𝜃2 , … , 𝜃𝑘 ), um estimador 𝑊1 do parâmetro 𝜃1 será não viesado, se satisfizer a seguinte relação:
𝔼(𝑊1 ) = 𝜃1 .
Exemplo 3.14: Calcule a variância da receita operacional bruta e do lucro líquido da empreza XXX,
com base nos valores de 2003 a 2006 contidos na tabela 3.1. Em termos de que unidade você expressaria esse
resultado? Qual a intuição desse resultado? Estamos diante de um conjunto de observações que constitui toda
a população ou apenas uma amostra? Compares os valores e diga qual das duas amostras parece ser mais
dispersa. Agora coloque ambas em um gráfico e veja se o resultado anterior, com relação à amostra mais
dispersa se mantém.
O exemplo anterior ilustra bem duas das principais desvantagens da variância com medida de
dispersão: i) o fato de não ser tão intuitiva ou informativa, em razão da própria unidade em que a expressamos
e ii) a sensibilidade da variância à ordem de grandeza dos dados em questão, limitando a comparação entre
duas amostras. 4
Desvio padrão: De forma bastante objetiva, definimos o desvio padrão populacional (amostral)
como sendo a raiz quadrada da variância populacional (amostral). Dessa forma, denotamos os desvios
populacional e amostral, respectivamente por 𝜎 e 𝑆.

4
Por envolver a soma de quadrados, a unidade em que se exprime a variância não é a mesma dos dados.

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Por levar em consideração a totalidade dos valores da variável em estudo, por ser um indicador de
variabilidade bastante estável e por possuir a mesma unidade dos valores observados, o desvio padrão é sem
dúvidas a estatística de dispersão mais empregada!
1ª propriedade: Somando-se (ou subtraindo-se) uma constante (c) a todos os valores de uma variável,
o desvio padrão não se altera.
2ª propriedade: Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma
constante (c) diferente de zero, o desvio padrão fica multiplicado (ou dividido) por essa mesma constante.
Exemplo 3.15: Calcule o desvio padrão do PL das operadoras filantrópicas para os anos de 2008 a
2010 e identifique em qual deles houve maior dispersão. Este resultado é corroborado a partir da análise do
histograma?
Exemplo 3.16: O que ocorreria se todos os dados tivessem que ser corrigidos pela inflação, de forma
que fossem comparados os PL´s em R$ de 2008? Para tal, considere que as inflações de 2008 a 2010 foram
de: 5, 91%, 4,31%, e 5,90%, respectivamente.
Coeficiente de variação: Observe que o desvio padrão visava aperfeiçoar a variância, uma vez que
esta possuía a mesma unidade dos dados da amostra ou população. Com o intuito de lidar com a sensibilidade
de ambas à ordem de grandeza dos dados, iremos fazer uso do coeficiente de variação. Assim, em
determinadas situações, podemos estar interessados não no índice desvio padrão, como no exemplo anterior,
mas sim na relação entre o desvio e a média. Tal fato se justifica, pois ao ser informado que uma determinada
amostra de observações sobre salários possui um desvio de R$100,00, você pode se perguntar se isso reflete
uma dispersão significativa ou não, o que obviamente depende da ordem de grandeza dos salários. Se
estivéssemos falando de salários na ordem de menos de R$ 500,00, estaríamos diante de um quadro
possivelmente com uma considerável desigualdade de renda. Porém, no caso de tais salários serem da ordem
de R$ 10.000,00, então certamente, tal desvio não deveria estar sinalizando uma desigualdade preocupante.
Uma vez que ambas as estatísticas em questão são expressas na mesma unidade, então podemos
ainda obter esta última relação em termos percentuais. Estamos assim, interessados em uma estatística
adimensional de variabilidade relativa chamada coeficiente de variação de Pearson (CVP).
Formalmente, no caso populacional, o coeficiente de variação passa a ser expresso pela relação

𝜎
𝐶𝑉𝑃 =
𝜇

A relação amostral é análoga, porém com base nos momentos amostrais e não populacionais.
Alguns especialistas consideram:
· Baixa dispersão: CVP ≤ 15%
· Média dispersão: 15% < CVP < 30%
· Alta dispersão: CVP ≥ 30%
Por fim, lembremos ainda que em alguns casos, nos quais, a média possa não ser tão informativa,
em razão, por exemplo, da presença de outliers, então a mediana poderia ser considerada como uma medida
de tendência central mais adequada. Neste contexto, podemos passar a usar o coeficiente de variação de
Thorndike, o qual é semelhante ao coeficiente de Pearson, sendo a única alteração o uso da mediana, em
substituição à média.
Exemplo 3.17: Caso a companhia tivesse interesse em obter algum índice que mensurasse a
redistribuição salarial, que índice você aconselharia ao setor de Recursos Humanos? Caso a amostra de

Análise Exploratória de Dados Prof. Dr. Paulo Matos


observações disponíveis fosse a da tabela 3.2, qual índice você aconselharia? Por fim, caso o setor de RH
julgasse haver uma má distribuição, que medida você aconselharia?
Parece ser intuitivo, realista e bastante informativo o uso de alguma medida como o coeficiente de
variação, seja o de Pearson ou o de Thorndike, o qual nos dá uma noção de dispersão, cuja ordem de grandeza
permite interpretação. Observando a tabela 3.6, sabemos que o coeficiente de Pearson assume o valor de
1,1052, decorrente de um desvio superior à média, o que em geral pode ser considerado como um indicativo
de uma significativa má distribuição salarial. Porém, é preciso observar que nesse caso há um outlier, o qual
influencia fortemente no desvio padrão e na média. Mesmo que usássemos o coeficiente de Thorndike, o
desvio padrão ainda assim seria influenciado. Uma possível medida, bastante aceitável nesse caso seria excluir
o outlier e recalcular o coeficiente. Nesse caso, o coeficiente de Pearson, assumiria o valor de 0,4055, bastante
próximo do coeficiente de Thorndike.

Tabela 3.2.
Amostra dos funcionários da CVRD com suas respectivas características5
Pós- Anos de Salário Altura
Funcionário Formação Peso (Kg)
graduação estudo (R$) (cm)
Antônio Filho Administração Sim 24 5.500,00 156 65,8
Bernardo Aguiar Contabilidade Não 21 3.650,00 175 80,9
Carlos Smitch Economista Não 22 3.650,00 202 99,9
Ciro Alcântara Engenharia Sim 25 35.000,00 180 79,1
Débora Lima Psicologia Não 20 5.500,00 145 46,1
Eduardo Rossi Marketing Sim 24 7.800,00 180 85,1
Flavio Gomes Economista Não 23 2.800,00 165 67,7
Ingrid Paes Engenharia Não 20 3.650,00 180 76,9
João Mendonça Jornalista Sim 23 5.120,00 178 75,5
Marcelo Vilar Direito Não 21 8.930,00 161 60,9
Mirian Carvalho Comunicação Sim 24 4.500,00 168 65,1
Noraide Mendes Direito Sim 22 8.930,00 150 54,7
Orlando Moraes Odontologia Não 22 6.500,00 179 80,8
Pedro Malta Engenharia Não 21 3.650,00 190 89,9
Rodrigo Broa Nutrição Não 22 2.800,00 187 78,9

3.4.2. Métricas de dispersão alternativas em finanças


Além da amplitude (máximo menos mínimo, útil em temas climáticos) e do coeficiente de variação
de Pearson (dado pela relação percentual entre desvio-padrão e média, útil quando do interesse adimensional
e relativo da dispersão), a estatística descritiva universalmente utilizada visando mensurar a dispersão de uma
variável aleatória, consiste no desvio padrão, por razões bastante óbvias:
- leva em consideração a totalidade dos valores da variável em estudo,

5
Tal amostra é completamente fictícia, sendo usada apenas para auxílio na compreensão da teoria e como base de dados para exemplos
e exercícios.

Análise Exploratória de Dados Prof. Dr. Paulo Matos


- é um indicador de variabilidade bastante estável
- possui a mesma unidade dos valores observados
- robusta à soma ou subtração de constante a todos os valores da variável
- fácil obtenção quando da multiplicação de toda a série por uma constante
- é construída a partir de desvios de valor absoluto, sendo uma estatística tida como simétrica
- facilmente calculável para carteiras complexas e dinâmicas, sendo útil em problemas de otimização
pela linearidade envolvida.
Porém, em teoria financeira, em casos muito particulares, a variável aleatória em questão,
comumente o retorno de um ativo financeiro, é tal que, sua dispersão não é sentida pelos agentes econômicos
interessados de forma simétrica. Neste contexto, surgem críticas quanto à capacidade desta estatística de
captar o comportamento dos investidores, os quais normalmente reagem de forma diferente a informações
boas e ruins de mesma magnitude ou importância, ou a ganhos e perdas de mesmo valor. Uma notícia dada
ao investidor de que a ação obteve um retorno nominal ao longo do dia de 10% gera uma felicidade, que se
mensurada atingiria um valor diferente do valor absoluto da tristeza, quando do anúncio de uma queda de
10%, em vez de uma elevação de 10%, por exemplo. Os investidores estariam preocupados com oscilações,
quando estas implicassem em perda de dinheiro, não em aumento. Ou seja, oscilações não são
necessariamente ruins, apenas quando estas implicam em queda.
Em outras palavras, é como se as surpresas boas fossem desejáveis, mas as ruins não. Sendo isso
verdade no psicológico de um investidor, o desvio padrão ou qualquer outra métrica simétrica não deve então,
ser tão adequada. Assim, há artigos científicos que fazem uso de outras métricas de dispersão adequadas para
finanças. Neste contexto, diversos autores vêm propondo medidas de risco e consequentemente de risco-
retorno (conhecidas também como medidas de performance) mais consistentes com a distribuição esperada
de ganhos observadas na prática, isto é, distribuições não normais. Observe a seguinte gama de métricas de
risco (Tabela 3.3) apresentadas em Castro e Baydia (2009), seguindo Duarte (1997), onde 𝑟𝑖,𝑡 significa o
retorno nominal real líquido do ativo 𝑖 no período 𝑡:

Tabela 3.3.
Métricas Alternativas de dispersão mensurando risco

𝐷𝑟𝑎𝑤𝑑𝑜𝑤𝑛(𝑟𝑖,𝑡 ) = 𝑞𝑢𝑒𝑑𝑎 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎 (𝑟𝑖,𝑡 )


𝑛
1
𝑟𝑖 0)]2
𝑆𝑒𝑚𝑖𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑟𝑖,𝑡 ) = √ ∑[𝑀í𝑛(𝑟𝑖,𝑡 − ̅;
𝑇
𝑡=0

𝑛
1
𝐷𝑜𝑤𝑛𝑠𝑖𝑑𝑒 𝑟𝑖𝑠𝑘(𝑟𝑖,𝑡 ) = √ ∑[𝑀í𝑛(𝑟𝑖,𝑡 − 𝑇𝑀𝐴𝑡 ; 0)]2
𝑇
𝑡=0

Estas métricas podem ser modificadas, substituindo-se a elevação ao quadrado e o respectivo uso da
raiz quadrada, pela simples média aritmética dos desvios absolutos em relação à média ou ao benchmark.
Apesar de a métrica desvio padrão não satisfazer as características teóricas desejáveis no sentido de
Artzner et al (1999), tais como alocação, subatividade, monotonicidade e homogeneidade de grau 1, a crítica
aqui feita está mais associada ao caráter pscilógico do investidor não captado por esta métrica. Um exemplo
interessante reportado em Castro e Baydia (2009) consiste na Figura 3.14, a seguir, em que há duas

Análise Exploratória de Dados Prof. Dr. Paulo Matos


distribuições com mesma média e desvio padrão, porém, com características e demais momentos bem
diferentes.

Figura 3.1: Exemplos de distribuições com media 10 e variância de 152.

3.4.3. Medidas de dispersão em dados repetitivos


Em alguns casos, os dados discretos em uma amostra bastante numerosa se repetem, passam a
ocorrer com uma frequência não desprezível. Em casos como estes, as fórmulas de dispersão, assim como a
média, podem ser reescritas. A seguir, as relações de média aritmética e desvio-padrão reescritas, onde 𝑓𝑖
corresponde à frequência da observação 𝑥𝑖 :

𝜇 = 𝑓1 𝑥1 + 𝑓2 𝑥2 + ⋯ + 𝑓𝑛 𝑥𝑛

𝜎 = 𝑓1 (𝑥1 − 𝜇)2 + 𝑓2 (𝑥2 − 𝜇)2 + ⋯ + 𝑓𝑛 (𝑥𝑛 − 𝜇)2

Nestes casos, não há exatamente 𝑛 observações, mas sim 𝑛 tipos de observações diferentes!
Exemplo 3.18: Suponha assim, que várias taxas de retorno nas ações VALE5 sejam possíveis
dependendo do estado da economia, da própria companhia e demais companhias concorrentes ou que
possuam algum tipo de sinergia. Simplificando, vamos nos ater apenas a três estados possíveis da economia:
forte, normal e fraco. No estado forte, as vendas da companhia devem sofrer uma boa influência, sendo o
retorno das ações VALE5 nesse caso de 20%.
No estado normal, esse retorno será de 10%, enquanto no pior dos estados da economia, em razão
de um enfraquecimento generalizado tal retorno será negativo, -15%. Observemos as tabelas 3.4. a 3.6, nas
quais há a distribuição de probabilidade do retorno na VALE5, PETR4 e BBDC4.

Tabela 3.4.
Distribuição de probabilidade do retorno da VALE5 (2009.2)
Estado da Taxa de retorno Probabilidade
economia da VALE5 de ocorrência
Forte 20% 0,20
Normal 10% 0,70

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Fraco -15% 0,10

Tabela 3.5.
Distribuição de probabilidade do retorno da PETR4 (2009.2)
Estado da Taxa de retorno Probabilidade
economia da VALE5 de ocorrência
Forte 35% 0,20
Normal 10% 0,70
Fraco -45% 0,10

Tabela 3.6.
Distribuição de probabilidade do retorno da BBDC4 (2009.2)
Estado da Taxa de retorno Probabilidade
economia da VALE5 de ocorrência
Forte -15% 0,20
Normal 15% 0,70
Fraco 20% 0,10

De posse destes dados, calculemos o retorno médio e o desvio padrão dos retornos para as 3 ações.
Qual delas você compraria. E se mudassem as médias obtidas, como proceder para escolher?

3.4.4. Medidas de performance de ativos financeiros


Em um arcabouço cujos agentes econômicos não sejam neutros ao risco, uma métrica estatística de
performance que vise sintetizar informações sobre o retorno do ativo necessariamente precisa incorporar
informações sobre os dois primeiros momentos da função de distribuição de probabilidade deste retorno.
Estes dois momentos podem ser suficientes, caso esta distribuição seja caracterizada completamente pelos
parâmetros associados à média e ao desvio padrão – aspecto comum às distribuições da família location-scale –
, ou os agentes considerem com de segunda ordem os demais momentos centrados da distribuição.
Neste contexto, dentre as medidas de avaliação de performance mais conhecidas, destaca-se o
tradicional Índice de Sharpe (ISH), cuja interpretação geométrica está associada à inclinação da Linha de
Alocação de Capital do referido ativo.6 Além da vantagem em termos de interpretação, esta métrica pode ser
calculado diretamente a partir da série temporal de qualquer ativo financeiro, sem necessitar de dados
adicionais sobre o ativo. Outra vantagem consiste em se calcular seu valor não somente para ativos individuais,
mas também para portfolios. Portanto, no caso do cálculo de otimização do Índice de Sharpe de carteiras, tem‐
se que, por serem o numerador e o denominador funções lineares dos momentos centrados de primeira e
segunda ordem, o mesmo se dá de forma computacionalmente acessível, sendo mais provável que se assegure
propriedades interessantes de um problema de otimização com restrições, tais como existência e unicidade.
Esta métrica consiste na razão entre o prêmio de risco pago pelo ativo em questão e sua volatilidade
mensurada pelo respectivo desvio padrão. Formalmente, esta é a relação para o Índice de Sharpe do ativo 𝑖:

6
Amplamente utilizado por acadêmicos e também no mercado financeiro, este índice Inicialmente foi chamado de reward‐to-variability
ratio, e somente em 1994 intitulado com o nome de William Forsyth Sharpe.

Análise Exploratória de Dados Prof. Dr. Paulo Matos


𝐸(𝑟𝑖,𝑡 ) − 𝑟 𝑓
𝐼𝑆𝐻(𝑟𝑖,𝑡 ) =
𝜎(𝑟𝑖,𝑡 )

onde, 𝑟𝑖,𝑡 significa o retorno nominal real líquido do ativo 𝑖 no período 𝑡, 𝐸(𝑟𝑖,𝑡 ) corresponde ao valor
esperado incondicional para o retorno do ativo em questão, 𝜎(𝑟𝑖,𝑡 ) consiste no desvio padrão incondicional
deste retorno e 𝑟𝑓 denota o retorno nominal líquido da taxa livre de risco. Elemento central da moderna
Teoria de Finanças desenvolvida em Markowitz (1952), por consistir na própria função objetivo a ser
maximizada quando da composição de uma carteira com um portfolio arriscado e uma ativo livre de risco, este
índice possui limitações associadas à métrica de risco utilizada. Em finanças, a variável aleatória em questão,
comumente o retorno de um ativo financeiro, é tal que, sua dispersão não é sentida pelos agentes econômicos
interessados de forma simétrica.
Neste contexto, surgem críticas quanto à capacidade desta estatística captar o comportamento dos
investidores, os quais normalmente reagem de forma diferente a informações boas e ruins de mesma
magnitude ou importância, ou a ganhos e perdas de mesmo valor. Os investidores estão preocupados com
oscilações, quando estas implicam em perda de dinheiro, não em ganho, de forma que nem todas as oscilações
sejam necessariamente ruins. Nem toda incertza é compreendida como risco. Assim, diversos autores vêm
propondo medidas de risco e consequentemente de performance risco-retorno mais consistentes com a
distribuição esperada de ganhos observadas na prática, isto é, distribuições não normais e com a racionalidade
de investidores. Assim, apesar de a métrica desvio padrão não satisfazer as características teóricas desejáveis
no sentido de Artzner et al (1999), tais como alocação, subatividade, monotonicidade e homogeneidade de
grau 1, a crítica aqui feita está mais associada ao caráter psicológico do investidor não captado por esta métrica.
Mais recentemente, especificamente na década de 80, foi proposto o Índice de Sortino, com
aplicação em Sortino e Lee (1994). Esta métrica de performance oferece um valor para a compensação do
ganho adicional relativo a um benchmark tido como minimamente atrativo (TMA) por unidade de risco
assimétrica, a qual penaliza apenas desvios abaixo da média ou do referencial definido, diferentemente do
desvio padrão que penaliza desvios oriundos de boas e más surpresas.
Este índice para o ativo 𝑖 é expresso através da seguinte relação:

𝐸(𝑟𝑖,𝑡 ) − 𝑇𝑀𝐴𝑡
𝐼𝑆𝑂(𝑟𝑖,𝑡 ) =
√ 1 ∑𝑛𝑡=0[𝑀í𝑛(𝑟𝑖,𝑡 − 𝑇𝑀𝐴𝑡 ; 0)]2
𝑇

Neste caso, o denominador é conhecido como downside risk e será definido neste artigo a poupança
como Taxa Mínima de Atratividade.
O Índice de Calmar (ICA), foi proposto em Young (1991), menos usado e conhecido, cuja aplicação
é mais restrita para hedge funds e operações envolvendo commodities. A diferença consiste somente na métrica
de risco, a qual capta através do drawdown a queda acumulada na série de retorno do ativo financeiro em
questão. Esta métrica evolui lentamente com o tempo, mas reage mais rapidamente aos movimentos dos
ativos citados que métricas mais tradicionais. O Índice de Calmar do ativo 𝑖 é definido por:

𝐸(𝑟𝑖,𝑡 ) − 𝑟 𝑓
𝐼𝐶𝐴(𝑟𝑖,𝑡 ) =
𝑑𝑟𝑎𝑤𝑑𝑜𝑤𝑛(𝑟𝑡𝑖 )

Análise Exploratória de Dados Prof. Dr. Paulo Matos


3.5. Medidas de assimetria e curtose
3.5.1. Aspectos teóricos
Não é incomum que um pesquisador, um investidor, um cidadão comum se depare com amostras
as quais possuem a mesma média e o mesmo desvio padrão. Caso a análise se limitasse a esses dois primeiros
momentos da distribuição, seria razoável inferir sobre a semelhança das duas distribuições, mesmo que ambas
sejam completamente diferentes. Como exemplo, observe as seguintes bases de dados.
Exemplo 1: Empresa 1: Balanços trimestrais em milhões de R$
Trimestre 1: R$0,00 Trimestre 2: R$30,00 Trimestre 3: R$45,00 Trimestre 4: R$45,00
Empresa 2: Balanços trimestrais em milhões de R$
Trimestre 1: R$15,00 Trimestre 2: R$15,00 Trimestre 3: R$30,00 Trimestre 4: R$60,00
Ambas possuem mesma média, R$30,00, mesmo desvio padrão, R$18,37, porém parecem ser bem
diferentes, se observados os respectivos histogramas. Parece que a empresa 1, ao possuir um valor mínimo
muito distante da média, apresenta uma cauda pra esquerda mais longa que a empresa 2, a qual possui cauda
pra direita longa, ao possuir um valor máximo distante. Ambas parecem ser assimétricas, ou seja, não parece
ser possível rebater a distribuição em torno da média, sem que sejam alterados os valores dos momentos. Este
simples exemplo, principalmente quando aplicado à teoria financeira de carteiras, justifica a relevância de se
estudar os desvios elevados ao cubo, ou à quarta potência, de forma que diferentes distribuições possam de
fato ser distinguidas, mesmo que apresentem mesma média e desvio. Observe, como exemplo a figura abaixo.

Figura 3.2: Exemplos de distribuições com media 10 e variância de 152.

Parece que ambas são bem distintas, hein? Enquanto a vermelha apresenta-se como simétrica, em
formato bem comportado de sino, a verde apresenta dois picos, comportamento bem assimétrico!
Assimetria: Quando do estudo de distribuições de observações, uma característica relevante a ser
analisada e mensurada, tanto analítica, como graficamente, consiste na simetria. Definimos formalmente que
uma distribuição é simétrica, quando: média = mediana = moda.

Figura 3.3: Gráficos ilustrativos de distribuições simétricas.

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Caso contrário, teremos uma distribuição assimétrica, com algum viés para um lado ou para outro,
obviamente. Neste sentido, dizemos que há assimetria à esquerda ou negativa quando : média < mediana <
moda. Analogamente, existirá assimetria à direita ou positiva quando : média > mediana > moda.

Figura 3.4: Gráficos ilustrativos de distribuições simétricas e assimétricas para direita e esquerda.

Distribuição simétrica Distrib. assimétrica p/ direita Distrib. assimétrica p/ esquerda

Observemos que de conhecimento apenas de medidas de tendência e de dispersão, ou mais


especificamente, da média aritmética e do desvio padrão, não se pode falar muito sobre a assimetria, uma vez
que o desvio padrão, assim como a variância, são medidas absolutas, levando em consideração os desvios (das
observações em relação á média) ao quadrado, ou seja, negligenciando se tais desvios são em uma direção ou
em outra.
Apesar de em muitos casos ser possível detectar graficamente tal assimetria, como nos gráficos
anteriores, é necessário e interessante que tenhamos como mensurá-la, o que se dá através do uso de uma
nova estatística, o coeficiente de assimetria de Pearson.
Para o caso amostral, tal coeficiente é dado expressão pela seguinte relação:

(𝑥1 − 𝑋̅)3 + (𝑥2 − 𝑋̅)3 + ⋯ + (𝑥𝑛 − 𝑋̅)3 (𝑥 − 𝑋̅)3


∑𝑛𝑖=1 𝑖
𝐴𝑠𝑠𝑖𝑚𝑒𝑡𝑟𝑖𝑎 = 𝑛 = 𝑛
𝑆3 𝑆3

No caso populacional, basta substituir as estatísticas amostrais pelas populacionais. A interpretação


dos valores desta estatística, no sentido da ordem de grandeza, se dá de forma que se a assimetria for negativa
(positiva), então há assimetria para esquerda (positiva). Caso seja nula, há simetria na distribuição. Para inferir
sobre a assimetria, se esta é pequena, moderada ou elevada, é comum se fazer uso de uma “receita de bolo”,
comparando-se o valor da relação entre a diferença entre a média e a mediana, esta dividida pelo respectivo
desvio padrão. Caso seja em termos absolutos, inferior a 0,05, então tem-se assimetria leve, entre 0,05 e 0,33,
assimetria moderada e superior a 0,33, assimetria elevada.
Curtose: Uma última característica específica, mas de relevância considerável para analistas e
consultores financeiros, por exemplo, consiste nas “caudas” de uma distribuição. Dizemos que uma
distribuição possui "caudas" finas (grossas), quando observamos que nas extremidades há uma pequena
(grande) concentração de dados em relação aos concentrados na região central da distribuição.

Figura 3.5: Gráfico ilustrativo de distribuições com caudas leves, moderadas e pesadas.

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Visando mensurar este aspecto, fazemos uso da curtose, uma medida do grau de achatamento de
uma distribuição em relação a uma distribuição padrão, denominada curva normal (curva correspondente a
uma distribuição teórica de probabilidade).
Assim, a curva normal, que é nossa base referencial, recebe o nome de mesocúrtica. Já, uma
distribuição que apresentar uma curva de frequência mais achatada do que a normal é denominada de
leptocúrtica, e a que apresentar uma curva de frequência mais aberta, recebe o nome de platicúrtica
Formalmente, a curtose é dada pela seguinte relação:

(𝑥1 − 𝑋̅)4 + (𝑥2 − 𝑋̅)4 + ⋯ + (𝑥𝑛 − 𝑋̅)4 (𝑥 − 𝑋̅)4


∑𝑛𝑖=1 𝑖
𝐶𝑢𝑟𝑡𝑜𝑠𝑒 (𝐾) = 𝑛 = 𝑛
𝑆4 𝑆4

A curva normal, tida como base referencial, possui curtose de valor 3, de forma que distribuições
com cauda grossa ou pesada (fina ou leve) possuem curtose acima de 3 (abaixo de 3).
Observe a figura a seguir.

Figura 3.6: Best fitting distribution for returns on trading with foreign government bonds.

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Análise Exploratória de Dados Prof. Dr. Paulo Matos
Segundo Matos, Bevilaqua e Filho (2010), para um painel de 18 fundos cambiais, a melhor
distribuição varia entre a Loglogistic e a Burr 4p, enquanto para os 66 fundos de renda fixa, tem-se que a
Logistic e a Weibull geram o melhor fitting. Em ambos os casos, o período ia de janeiro de 2000 a dezembro
de 2009, com freqüência mensal. Observando ainda os momentos centrados de terceira e quarta ordem
(assimetria e curtose), percebe-se que para a maioria dos fundos cambiais (diferentemente da normal em que
média=mediana=moda), há assimetria moderada/elevada para direita (cauda direita mais longa que a
esquerda), enquanto os fundos de renda fixa possuem assimetria para esquerda. Para ambos, há caudas
pesadas para a grande maioria dos fundos em questão, ou seja, curtose > 3 (normal). Portanto, assumir
normalidade de fato pode não se adequado e assim gerar resultados equivocados e pouco confiáveis. Matos,
Costa e Filho (2010) abordam esta questão para títulos estrangeiros e suas implicações.
O estudo do quarto momento em gestão de risco é fundamental, pois lida com a probabilidade de
se observar valores extremos, principalmente na cauda da esquerda. Isso pode ser mensurado pela própria
curtose, no caso, semicurtose, ou por outras métricas mais refinadas, como expected value e conditional value at
risk, dentre outros.

3.6. Outliers
3.6.1. Aspectos teóricos
Possivelmente, uma das melhores frases sobre um oulier é esta, de Nassim Taleb: “O fato de você ainda não ter
visto um cisne negro, não lhe permite afirmar que este não exista!”
Um “outlier” pode ocorrer por acaso em qualquer amostra ou população, indicando um erro de
medição ou sinalizando que a população tem uma distribuição de cauda pesada.
No primeiro caso, ou seja, esses pontos aberrantes podem indicar dados defeituosos, procedimentos
errados ou áreas onde uma determinada teoria poderá não ser válida normalmente. Assim, sugere-se o
descarte desta observação distante, aberrante, ou ao menos, sugere-se o uso de estatísticas que sejam robustas
à presença de valores extremos.
No segundo caso, principalmente em amostras maiores de dados, a presença de alguns pontos de
dados mais distantes da média da amostra do que o que é considerado razoável pode ser verdadeira mesmo,
típica dos doados em questão. Ou seja, em grandes amostras, um pequeno número de valores aberrantes é
de se esperar (e não devido a qualquer condição anômala).
Os outliers, sendo as observações mais extremas, podem incluir o máximo de amostra ou amostra
mínimo ou ambos, dependendo se eles são extremamente de alta ou de baixa. No entanto, o exemplo máximo
e mínimo, nem sempre são "outliers" porque eles podem não ser invulgarmente longe de outras observações.
Interpretação ingênua de estatísticas derivadas de conjuntos de dados que incluem valores atípicos pode ser
enganosa, pois valores extremos podem ser indicativos de pontos de dados que pertencem a uma população
diferente do que o resto do conjunto de amostras.
No caso de dados distribuídos normalmente, cerca de 1 em 22 observações serão diferentes por duas
vezes o desvio padrão ou mais da média, e 1 em 370 irá desviar-se três vezes o desvio padrão. Em uma amostra
de 1000 observações, a presença de até cinco observações distantes da média em mais de três vezes o desvio
padrão está dentro do intervalo de que se pode esperar, sendo inferior a duas vezes o número esperado e,
portanto, dentro de um desvio padrão de o número esperado. Se o tamanho da amostra é de apenas 100, no
entanto, apenas três valores extremos já são motivo de preocupação, sendo mais de 11 vezes o número
esperado.

Análise Exploratória de Dados Prof. Dr. Paulo Matos


3.6.2. Causas
Outliers podem ter muitas causas anômalas. Um aparato físico para a tomada de medidas pode ter
sofrido uma avaria passageira. Pode ter havido um erro na transmissão de dados ou de transcrição. Assim,
outliers podem surgir devido às mudanças no comportamento do sistema, comportamento fraudulento, erro
humano, erro de instrumento ou, simplesmente, através de desvios naturais nas populações. Uma amostra
pode ter sido contaminada com elementos de fora da população a ser examinada. Alternativamente, um
outlier poderia ser o resultado de uma falha na teoria assumida, chamando para uma investigação mais
aprofundada pelo pesquisador. Além disso, a aparência patológica de outliers de uma certa forma aparece
numa variedade de conjuntos de dados, o que indica que o mecanismo causador para os dados podem diferir
no extremo (efeito King).
Porém, a menos que se possa garantir que o desvio não é significativo, é imprudente ignorar a
presença de outliers. Outliers que não podem ser facilmente explicada exigem atenção especial - ver risco de
curtose e da teoria do cisne negro.

3.6.3. Identificação de outliers


Não existe uma definição rígida matemática do que constitui um outlier, de forma que determinar
ou não se uma observação é um outlier é basicamente um exercício subjetivo.
A detecção de um outlier pode identificar falhas de sistema e de fraude antes que cresçam com
consequências potencialmente catastróficas. Os métodos de detecção de outlier originais eram arbitrárias,
mas agora, as técnicas baseadas em princípios e sistemática são usados, provenientes de toda a gama de ciência
da computação e da estatística.
Há basicamente três abordagens fundamentais para o problema da detecção de outlier, as quais
residem na hipótese de que os dados sejam normais. Em geral, os outliers são determinados sem o
conhecimento prévio dos dados. Esta é essencialmente uma abordagem de aprendizagem semelhante ao de
agrupamento não supervisionado. A abordagem processa os dados como uma distribuição estática, identifica
os pontos mais remotos, e sinaliza-los como outliers potenciais.
Outros métodos de observações bandeira com base em medidas como o intervalo interquartil. Por
exemplo, se q1 e q3 são os quartis superiores e inferiores, respectivamente, em seguida, o pesquisador poderia
definir um outlier para ser qualquer observação fora do intervalo, para um k previamente especificado:

[𝑞1 − 𝑘. (𝑞3 − 𝑞1 ) ; 𝑞3 + 𝑘. (𝑞3 − 𝑞1 )]

3.6.4. Lidando com outliers


A escolha de como lidar com um outlier deveria depender da causa.
Retenção: Mesmo quando um modelo de distribuição normal é apropriado para os dados a serem analisados,
valores extremos são esperados para grandes tamanhos de amostra e não deve ser automaticamente descartado
se for esse o caso. O aplicativo deve usar um algoritmo de classificação que é robusto a outliers para os dados
do modelo com que ocorrem naturalmente pontos discrepantes.
Exclusão: Eliminação de dados discrepantes é uma prática controversa e franziu a testa em muitos cientistas
e professores de ciências. Enquanto critérios matemáticos prevêem um método objetivo e quantitativo para
a rejeição de dados, eles não fazem a prática mais cientificamente ou metodologicamente, especialmente em
pequenos conjuntos ou onde um normal distribuição não pode ser assumida. Rejeição de outliers é mais
aceitável em áreas de prática em que o modelo subjacente ao processo que está sendo medido e da distribuição

Análise Exploratória de Dados Prof. Dr. Paulo Matos


normal de erros de medição são confiança conhecido. Assim , um outlier resultante de um erro de leitura do
instrumento pode ser excluída, mas é desejável que a leitura seja, pelo menos, verificada. Se um ponto (ou
pontos) é excluído da análise de dados, este deve ser claramente indicada em qualquer relatório subseqüente.

3.7. Separatrizes
3.7.1. Aspectos teóricos
Apesar de extremamente úteis e de forte capacidade informativa sobre a base de dados, muitas das
métricas usuais vista até aqui, associadas a qualquer um dos momentos da distribuição, possuem o defeito
generalizado de serem muito sensíveis a valores extremos, uma vez que levam em consideração todos os valores
coletados. Outra limitação já abordada consiste em se ater somente aos dois primeiros momentos, o que não
permite visualizar aspectos associados à simetria ou caudas.
Neste contexto, uma análise adicional pode ser relevante em casos pontuais. Essa análise se baseia
em um conceito alinhado ao da mediana, ou seja, dividir os dados já disposto em ordem crescente ou
decrescente em grupos. Não somente em dois grupos, como faz a mediana, mas em 5, 10, 100 grupos...
Assim, os quintis, decis e percentis são muito similares à mediana, uma vez que também subdividem
a distribuição de medidas de acordo com a proporção das frequências observadas.
De forma geral, podemos definir um quantil de ordem p ou ainda p-quantil, indicado por q(p),
onde p é a proporção entre 0 e 100% tal que, p(%) dos dados sejam menores que q(p).
Mais comumente, temos os quartis, que dividem um conjunto de dados em quatro partes iguais,
isto é, 25% por parte:

Figura 3.7: Quartis

Observe que o primeiro quartil considera os 25% dos menores elementos, enquanto o segundo
quartil, cujo limite Q2 coincide com a mediana, observa a metade inferior dos dados e o terceiro quartil
observa até 75% dos dados.
Analogamente, os decis dividem um conjunto de dados em dez partes iguais, isto é, 10% por parte.
Já, os percentis permitem dividir o conjunto de dados em 100 partes, sendo e 1% em cada parte.
Para determinar o valor correspondente a um certo quartil, decil ou percentil, deve seguir a seguinte
sequência: (i) Ordenar os dados do menor para o maior e (ii) Localizar a desejada posição L na amostra, dado
por L = k. n, onde k corresponde ao percentual desejado e n é o número de valores do conjunto de dados.
Caso esse valor seja quebrado, não inteiro, então com bom senso, é feito o arredondamento para o inteiro
mais próximo, uma vez que não faz sentido observar um número ordinal não inteiro!
Uma vez identificados as separatrizes de interesse, cuja escolha depende fundamentalmente do
objetivo em questão e do tamanho da base de dados em questão, um passo comum e muito informativo
consiste em obter o cálculo dos momentos, atendo-se a cada separatriz, ou seja, dentro de cada quartil, ou
decil...

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Outra aplicação consiste em construir graficamente os quartis e definir intervalos inferior e superior
tais que, estes definam os limites aceitáveis para que se identifique um dado como outlier! Isso será feito a
partir do Box plot.

3.7.2. Box plot


O box plot é um recurso gráfico simples, introduzido pelo estatístico John Tukey em 1977. Este
recurso permite representar graficamente os dados da distribuição de uma variável quantitativa em função de
seus parâmetros. Para tal, precisamos apenas dos quartis e dos valores máximo e mínimo.
O box plot também fornece informações importantes sobre o comportamento do conjunto de
dados, como simetria e variabilidade. Se a amplitude for muito maior que à distância interquartílica, há forte
indicação de grande dispersão das observações e se a mediana estiver mais próxima do 1º quartil do que do
3º quartil, há forte indicação de assimetria positiva. Observe a figura 3.8, a seguir:

Figura 3.8: Box plot

70.000

60.000

50.000

40.000

30.000

20.000
Ibovespa

Neste caso, temos o Box plot feito na vertical para cotações do Ibovespa, de 03.01.05 a 30.12.2010,
em um total de 1482 observações (dias úteis). O q1 consiste na 371ª observação e o q3 na 1112ª, cujos valores
respectivamente são: 36.792 e 63.046. A mediana, q2, é dado por 49.672, ou seja, a distância entre os quartil
q1 e q2 é apenas um pouco menor que a distância entre o q2 e o q3. Porém, em sinal de leve assimetria para
esquerda, a distância entre o mínimo valor e o q1 é de aproximadamente 13.180, enquanto a distância entre
q3 e o máximo é inferior a 10.200. A amplitude é de 49.907, quase o dobro da distância interquantílica (q3
– q1), de exatos 26.254, sinalizando uma certa cauda pesada, ou seja, curtose elevada. Definindo um k=1,2,
definimos os limites mínimo e máximo aceitáveis para identificação de um outlier: 5.287,2 e 94.550,8,
respectivamente. Não temos assim outliers, pois o mínimo e o máximo observados neste período para a
cotação do Ibovespa são 23.609 e 73.516, respectivamente. Para tal, relembre que:

[𝑞1 − 𝑘. (𝑞3 − 𝑞1 ) ; 𝑞3 + 𝑘. (𝑞3 − 𝑞1 )]

Análise Exploratória de Dados Prof. Dr. Paulo Matos


3.8. Exercícios
Exercício #1. Observe a seguinte base de dados na tabela 3.7.

Tabela 3.7.
PL de entidades filantrópicas
PL (R$ mil)
Operadora filantrópica
2010 2009 2008
SANTA CASA DE MISERICORDIA DA BAHIA 0 105.657 104.233,00
SANTA CASA DE MISERICÓRDIA DE ARAÇATUBA 9.002 11.692 18.800,00
SANTA CASA DE MISERICORDIA DE BARRA MANSA 17.147 4.879 7.503,00
SANTA CASA DE MISERICÓRDIA DE BARRETOS 6.393 1.602 4.687,00
SANTA CASA DE MISERICORDIA DE CASA BRANCA -6.684 -5.683 -4.182,00
SANTA CASA DE MISERICORDIA DE ITABUNA 38.084 2.091 3.244,00
SANTA CASA DE MISERICÓRDIA DE ITAPEVA 22.214 22.647 19.293,00
SANTA CASA DE MISERICORDIA DE JOSE BONIFACIO 2.246 2.160
SANTA CASA DE MISERICÓRDIA DE JUIZ DE FORA 81.954 52.111 50.957,00
SANTA CASA DE MISERICÓRDIA DE LORENA -851 -2.271 -8.492,00
SANTA CASA DE MISERICÓRDIA DE MARINGÁ 7.114 5.408,00
SANTA CASA DE MISERICÓRDIA DE PASSOS 26.121 23.805 19.639,00
6.517
SANTA CASA DE MISERICORDIA DE SÃO JOSÉ DO RIO PARDO - HOSPITAL SÃO VICENTE 6.546 6.630,00
SANTA CASA DE MISERICÓRDIA DE TUPÃ 4.314 3.502 2.630,00
SANTA CASA DE MISERICORDIA DE VITÓRIA DA CONQUISTA 18.182 1.553 706,00
SANTA CASA DE MISERICÓRDIA DE VOTUPORANGA 40.598 26.438 20.206,00
SANTA CASA DE MISERICORDIA DONA CAROLINA MALHEIROS 19.552 22.102 23.615,00
SANTA CASA DE MISERICÓRDIA E ASILO DOS POBRES DE BATATAIS 17.271 18.131 18.697,00

a) Em razão das 5 métricas de tendência central vistas na subseção 3.3., calcule o valor para cada um
dos 3 anos.
b) A distribuição parece ser simétrica em algum dos anos?
c) Seria confiável usar a métrica média aritmética em todos os anos? Por que razão?
d) Faria sentido usar a média geométrica ou harmônica?

Exercício #2. Resolva os exemplos 3.3 e 3.4 da apostila, página 27.

Exercício #3. Observe a seguinte base (tabela 3.8.) de dados acerca de variáveis macroeconômicas
das unidades federativas da União.
a) Calcule as médias aritmética, geométrica, harmônica, além de mediana e moda para o crédito per
capita e para a renda per capita. Qual destas você usaria como métrica de tendência central? Justifique
b) Visando melhorar a renda média per capita brasileira, seria melhor uma transferência lump sun,
ou um aumento homogêneo proporcional?
c) Como um pesquisador deve proceder para calcular a participação do crédito pessoa física em todo
o território nacional? Identifique qual seria a relação e se dispomos nesta tabela de todos os dados necessários
para este cálculo.

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Riqueza Distribuição e Bem Estar Finanças
Crescimento
Região Estado Crescimento Variação do bem Índice de Particpação do
PIB per capita Proporção de Índice de Crédito total médio do Inadimplência
médio do PIB estar social de Desenvolvim. crédito pessoa
Médio (R$) pobres (%) Gini per capita (R$) crédito total (%)
per capita (%) Sen (%) Humano (IDH) física (%)
per capita (%)
Acre 9.109,60 5,29% 32,17% 11,16% 0,75 0,59 1.167,96 2,30% 3,06% 60,05%
Amapá 10.407,89 5,03% 28,06% 10,74% 0,78 0,50 1.433,54 2,12% 3,91% 75,58%
Amazonas 13.906,56 2,78% 29,90% 9,49% 0,77 0,52 1.683,47 1,34% 3,32% 32,45%
Pará 7.558,32 4,25% 32,64% 16,88% 0,76 0,51 1.010,33 0,81% 3,49% 43,73%

Norte
Rondônia 10.898,70 6,58% 24,40% 11,10% 0,76 0,52 1.490,08 1,90% 4,06% 63,76%
Roraima 11.055,88 5,45% 31,70% 14,94% 0,76 0,54 2.099,55 1,20% 2,95% 44,46%
Tocantins 9.391,42 4,89% 28,95% 20,27% 0,76 0,54 1.487,01 1,40% 3,77% 58,04%
Alagoas 6.206,70 2,60% 45,69% 15,74% 0,68 0,59 996,69 1,28% 4,39% 44,59%
Bahia 8.381,32 2,76% 37,04% 13,55% 0,74 0,56 1.360,04 1,02% 3,80% 39,09%
Ceará 6.741,56 4,21% 38,29% 20,53% 0,73 0,56 985,85 1,16% 4,01% 39,23%
Maranhão 5.561,02 6,85% 44,63% 22,50% 0,69 0,56 665,05 1,74% 7,18% 58,82%
Paraíba 6.445,09 5,78% 38,54% 9,74% 0,72 0,59 852,46 1,51% 4,45% 59,16%

Nordeste

Análise Exploratória de Dados


Pernambuco 7.823,69 4,02% 41,21% 13,15% 0,72 0,58 1.250,57 1,90% 4,86% 40,22%
Piauí 5.003,69 5,71% 42,09% 21,26% 0,71 0,58 667,21 1,76% 5,55% 56,68%
Rio G. do Norte 7.964,73 4,64% 34,31% 15,43% 0,73 0,57 1.160,88 1,46% 4,21% 53,76%
Sergipe 9.233,74 4,55% 33,81% 12,46% 0,74 0,56 1.141,95 1,30% 4,19% 49,71%
Distrito Federal 44.839,46 3,26% 11,58% 9,20% 0,88 0,62 6.295,57 0,89% 2,65% 48,43%
Goiás 12.296,80 3,30% 12,63% 15,28% 0,80 0,52 2.910,01 1,27% 3,87% 58,67%
Mato Grosso 17.067,62 1,24% 13,25% 21,46% 0,79 0,52 4.982,02 0,83% 3,97% 58,40%

Centro-Oeste
Mato Grosso do Sul 13.261,05 3,75% 12,11% 10,66% 0,80 0,54 3.460,72 1,35% 3,08% 60,53%
Espírito Santo 18.662,43 6,715% 12,35% 13,20% 0,80 0,54 3.005,31 0,84% 2,46% 34,90%
Minas Gerais 13.477,91 4,02% 12,47% 13,39% 0,80 0,52 2.383,81 1,21% 4,06% 40,68%
Rio de Janeiro 21.093,94 3,104% 13,17% 7,56% 0,83 0,55 4.036,51 1,45% 3,56% 28,16%

Sudeste
São Paulo 23.792,83 3,897% 11,05% 9,82% 0,84 0,51 4.906,38 0,92% 2,57% 32,42%
Paraná 16.600,75 2,075% 13,37% 16,80% 0,82 0,52 3.726,03 1,15% 2,63% 44,93%
Santa Catarina 19.300,08 3,938% 6,72% 6,53% 0,84 0,46 4.531,97 1,22% 2,40% 36,73%

Sul
Rio G. do Sul 17.847,07 2,484% 12,91% 12,48% 0,83 0,51 3.890,62 0,93% 2,49% 45,06%
a
PIB per capita ao ano da unidade federativa a preços constantes (base: ano de 2000). Período compreendido: 2004 - 2008. Fonte: Instituto Brasileiro de Geografia e Estatística (IBGE)
b
Taxa de crescimento do PIB per capita ao ano da unidade federativa a preços constantes (base: ano de 2000). Período compreendido: 2004 - 2008. Fonte: Instituto Brasileiro de Geografia e Estatística (IBGE)
c
Proporção de pobres na população da unidade federativa. Período compreendido: 2004 - 2009. Fonte: Instituto de Pesquisa Econômica Aplicada (IPEA).
d
Variação do Índice de bem estar de Sen da unidade federativa. Período compreendido: 2006 - 2008. Fonte: Relatório nº 06 do LEP/CAEN, cujos dados primários são microdados da PNAD/IBGE.
e
Índice de de Desnvolvimento Humano da unidade federativa. Período compreendido: 2004 - 2008. Fonte: Programa das Nações Unidas para o Desenvolvimeno (PNUD).
f
Índice de Gini da unidade federativa. Período compreendido: 2004 - 2009. Fonte: Instituto de Pesquisa Econômica Aplicada (IPEA).
g
Série real de crédito per capita mensal da unidade federativa. Período compreendido: 2004 - 2009. Fonte: Banco Central.

Prof. Dr. Paulo Matos


Exercício #4. Observe a seguinte base de Tabela 3.9.
dados previdenciários para o Brasil (Tabela 3.9.). PRGPS
Saldo previdenciário
Calcule as médias aritmética, geométrica, harmônica,
acumulado/ PIB
além de mediana e moda. Qual destas você usaria Data
acumulado dos últimos 12
como métrica de tendência central? Justifique. meses
mai/94 4,45057%
jun/94 4,40624%
jul/94 4,34883%
ago/94 4,31566%
set/94 4,26504%
out/94 4,19097%
nov/94 4,11213%
dez/94 4,09956%
jan/95 4,02127%
fev/95 3,88956%
mar/95 3,74350%
abr/95 3,64692%
mai/95 3,60133%
jun/95 3,50488%
jul/95 3,44879%
ago/95 3,40104%
set/95 3,33985%
out/95 3,28428%
nov/95 3,19150%
dez/95 3,09203%

Exercício #5. Observe a seguinte base de Tabela 3.10.


dados contendo retornos reais líquidos mensais das Retornos de ações
ações do Bradesco, Banco do Brasil e Itaú (Tabela BBDC3 BBAS3 ITUB3
jan/00 -2,23% -6,12% -14,51%
3.10). Calcule as médias aritmética, geométrica,
fev/00 -10,90% -5,91% -1,72%
harmônica, além de mediana e moda. mar/00 9,44% -14,56% 3,66%
a) Qual destas você usaria como métrica de tendência abr/00 -6,91% -4,61% -11,51%
central? Justifique. mai/00 -5,02% -5,22% 5,06%

b) Calcule o retorno acumulado e identifique se há jun/00 18,79% 11,41% 13,97%


jul/00 0,58% -4,35% 0,88%
contradições no ordenamento das ações em termos de
ago/00 6,46% 0,67% 6,75%
suas medidas de tendência central das distribuições de set/00 -5,33% 1,36% -4,73%
seus retornos. out/00 -16,87% -6,90% 11,44%
nov/00 34,90% -2,97% 3,79%
dez/00 19,72% 4,11% 10,67%
jan/01 -7,82% 32,09% 1,23%
fev/01 -9,24% -6,65% -7,95%
mar/01 -1,97% 0,02% -1,07%
abr/01 5,87% 18,51% 0,19%
mai/01 -1,71% -9,67% 9,33%
jun/01 -2,69% 20,69% -2,30%
jul/01 -3,28% -8,64% 0,40%
ago/01 -4,47% 2,31% -7,56%
set/01 -5,58% -18,28% -9,25%
out/01 -5,77% 3,56% 14,88%
nov/01 10,98% 17,54% -6,01%
dez/01 16,59% 15,60% 1,17%

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Exercício #6: Questão 1, pág. 40, capítulo 3 do livro texto Bussab, Wilson e Morettin, Pedro,
“Estatística básica”. Ed. Saraiva, 6ª edição, 2010.

Exercício #7: Questão 3, pág. 40, capítulo 3 do livro texto Bussab, Wilson e Morettin, Pedro,
“Estatística básica”. Ed. Saraiva, 6ª edição, 2010.

Para responder às questões 8 a 15, abaixo, observar os dados da tabela 3.11, contendo os dados de
retorno líquido real mensal de vários índices financeiros mundiais sob a ótica do investidor brasileiro.

Exercício #8: Plote os gráficos dos índices abaixo, dividindo-os por continente levando-se em
consideração o retorno acumulado. Obs.: Lembre que o retorno acumulado consiste no produto dos
retornos brutos, os quais são o retorno líquido acrescido da unidade. Ou seja, se há um retorno líquido de
3%, então o retorno bruto é de 1 + 3% = 1,03. Fazendo isso pra todos os períodos da amostra em questão,
basta multiplicar até o mês desejado e você terá o retorno acumulado até este mês.

Exercício #9: Faça o histograma de cada um dos índices para a amostra de todo o período.

Exercício #10: Calcule o retorno médio, geométrico e acumulado de todos os índices durante todo
o período e durante apenas o ano de 2008. Quais índices você compraria?

Exercício #11: Calcule o desvio padrão de todos os índices durante todo o período e durante apenas
o ano de 2008. Quais índices você compraria?

Exercício #12: Calcule agora a semivariância, o downside risk e o drawdown de todos os índices
durante todo o período e durante apenas o ano de 2008. Quais índices você compraria?

Exercício #13: Calcule os Coeficientes de variação de Pearson e de Thorndike, de todos os índices


durante todo o período e durante apenas o ano de 2008. Quais índices você compraria?

Exercício #14: Calcule os índices de Sharpe, Sortino e Calmar de todos os índices durante todo o
período e durante apenas o ano de 2008. Para tal, considere como TMA a poupança, a qual rendeu
constantemente 0,25% ao mês.

Exercício #15: Você concorda com um puzzle intitulado home bias puzzle para o caso de um
investidor brasileiro?

Exercício #16: Observando as respostas dos itens anteriores, seria possível obter maiores níveis de
ganho esperado e menores níveis de risco? Qual a sua intuição sobre essa possibilidade? Que aspectos
precisariam ser observados visando este objetivo? Que ativos você colocaria na sua cesta internacional para
atingir este objetivo?

Exercício #17: Calcule o Coeficiente de assimetria de todos os índices durante todo o período e
durante apenas o ano de 2008. Quais índices você compraria? Esse resultado corrobora sua prévia impressão
obtida com o histograma?

Análise Exploratória de Dados Prof. Dr. Paulo Matos


PRAÇA ÍNDICE 31 Jan 08 29-fev-08 31-mar-08 30 Apr 08 31-mai-08 30-jun-08 31-jul-08 31 Aug 08 30-set-08 31-out-08 30-nov-08 31 Dec 08 31 Jan 09 28-fev-09 31-mar-09 30 Apr 09 31-mai-09 30-jun-09 31-jul-09
AMSTERDÃ AEX -14,30% -1,29% 6,89% 1,09% -2,33% -13,56% -8,74% 1,34% -10,64% -19,77% 3,85% 6,36% -8,14% -10,20% -0,03% 3,70% 3,89% -3,99% 7,64%
BANGCOC SET-BANGKOK -4,35% -0,23% -0,90% -2,97% -5,40% -13,51% -14,41% 4,22% 0,39% -23,53% 4,25% 11,71% -3,74% -0,22% -4,29% 7,71% 5,18% 6,81% 0,27%
BOGOTÁ IGBC -12,52% 1,05% 2,11% 8,42% -1,09% -19,44% 3,95% -0,14% 2,21% -20,71% 13,34% 6,46% -5,88% -2,71% -0,66% 8,78% 7,31% 4,38% 5,82%
BOMBAIM SENSEX-30 -13,73% -6,18% -9,11% 6,23% -13,38% -21,72% 4,80% 5,07% -2,97% -21,52% 1,68% 6,51% -4,08% -4,39% 1,89% 9,64% 22,39% -0,49% 2,11%
BM&F BOVESPA IBOVESPA -7,33% 6,21% -4,50% 10,45% 6,17% -10,91% -8,73% -6,67% -11,42% -25,07% -2,05% 2,12% 4,09% -0,20% 3,64% 15,01% 12,09% -3,49% 6,25%
BRUXELAS BEL-20 -9,68% -1,52% 6,80% -0,74% -8,57% -16,79% -8,15% 2,82% -5,16% -21,92% -1,39% 10,80% -9,53% -9,32% 4,39% 4,39% 2,23% -4,11% 3,41%
BUDAPESTE BUX -12,18% -3,43% 0,47% 0,02% 0,55% -8,89% 8,12% -9,92% 0,18% -34,92% 4,97% 3,22% -24,14% -11,02% 5,75% 17,69% 12,42% 5,15% 10,46%

obtida com o histograma?

Análise Exploratória de Dados


BUENOS AIRES MERVAL -7,74% 2,51% 0,55% -4,67% 0,90% -4,23% -10,62% -3,67% 1,69% -34,71% 8,16% 4,67% -1,67% -6,36% 3,19% 6,06% 12,32% -4,93% 3,76%
CARACAS IBVC -8,09% -6,54% 4,72% 2,87% -11,79% 4,43% 4,72% 6,55% 8,76% 3,35% 6,38% 1,49% -0,44% 7,70% 13,59% -5,14% -12,03% 1,92% -1,70%
CINGAPURA STRAITS TIMES -14,21% -2,08% 4,64% 1,64% -2,89% -10,41% -1,83% -5,87% -1,33% -19,01% 4,16% 3,46% -3,22% -8,05% 2,47% 7,67% 12,58% -0,54% 9,41%
COPENHAGUE KFX -12,25% 4,37% 6,76% -5,59% 3,19% -10,58% -4,04% -0,42% -11,05% -20,01% -2,36% -3,95% -0,56% -12,86% -0,31% 15,65% 1,49% -3,50% 9,08%
ESTOCOLMO OMX -12,09% -0,70% 6,31% -2,68% -2,45% -15,90% -1,74% -1,39% -1,84% -17,24% 10,52% 12,82% -15,43% 5,41% 3,31% 9,32% -1,96% 0,21% 7,33%
FRANKFURT DAX-30 -14,94% -3,91% 4,47% 0,01% -2,29% -10,89% -1,89% -2,69% 1,05% -15,02% 3,05% 12,51% -18,04% -10,02% 7,63% 9,12% -0,13% -4,82% 7,37%
HONG KONG HANG SENG -16,59% -1,08% -2,98% 7,71% -8,79% -12,37% 0,86% -2,70% -0,67% -14,47% 9,36% 3,27% -9,08% -1,12% 2,72% 7,06% 5,62% -0,16% 7,25%
JACARTA CAMP-JCI -3,63% 0,71% -8,14% -9,96% 0,67% -5,99% -2,30% -2,83% -5,87% -33,92% -3,01% 21,99% -6,80% -5,51% 9,91% 24,23% 3,81% 4,20% 13,82%
JOANESBURGO ALL SHARES -14,96% 3,17% -4,85% 7,14% -1,74% -9,56% -4,10% -1,29% -6,83% -18,56% 8,75% 10,23% -14,52% -6,63% 12,72% 6,69% 4,72% -0,37% 3,94%
KUALA LUMPUR KLSE COMP -2,29% -5,61% -5,02% -0,60% -6,80% -10,63% -3,46% -5,57% 4,63% -8,46% 8,45% 6,11% -4,73% 0,92% -4,18% 8,94% -2,35% -0,33% 5,54%
LIMA IGBVL -13,18% 14,91% 6,52% -7,67% -5,20% -11,98% -12,31% -4,61% -3,45% -32,78% 15,59% -6,30% -4,33% -3,78% 38,38% 6,68% 21,84% -5,01% 4,94%
LONDRES F.TIMES-100 -10,07% -4,70% 0,06% 1,78% -4,86% -9,05% -6,03% -0,22% -0,89% -10,87% 2,32% -3,42% -7,50% 1,34% -7,85% 4,67% 2,22% -3,06% 4,59%
MADRI GERAL -12,46% -3,06% 8,87% -2,95% -5,96% -12,40% -4,41% -3,33% 4,06% -17,31% 6,99% 12,12% -16,38% -9,09% 3,39% 6,57% 0,85% -2,23% 7,38%
MANILA P CAMP -9,17% -8,14% -5,00% -12,51% -5,23% -17,10% 4,24% 4,87% 8,54% -19,53% 10,84% -2,52% -3,11% 2,60% 2,39% -1,41% 5,00% -0,90% 10,39%
MÉXICO IPC -3,40% -3,44% 10,87% -4,01% 2,22% -10,13% -6,15% -1,31% 3,74% -24,41% 7,98% 6,03% -17,56% -11,85% 11,56% 7,99% 5,67% -1,50% 5,83%
MILÃO MIBTEL -11,49% -3,55% 1,88% -0,16% -4,90% -12,54% -6,86% 0,27% -2,35% -15,97% 3,54% 6,21% -14,22% -10,72% 3,94% 10,44% -0,09% 18,42% 4,51%
NASDAQ NASD - COMP -10,89% -9,55% 3,69% 1,32% 0,23% -11,67% -0,47% 5,94% 2,56% -9,00% -1,86% 2,38% -7,72% -4,36% 7,48% 5,21% -6,76% 2,05% 3,30%
NEW YORK DOW JONES -5,69% -7,72% 3,31% 0,05% -5,50% -12,72% -1,62% 5,57% 9,61% -5,37% 4,14% -0,91% -10,14% -9,53% 4,37% 0,53% -6,08% -1,94% 4,03%
PARIS CAC 40 -13,12% -4,02% 6,00% -0,17% -3,99% -12,86% -3,75% 0,19% 0,11% -14,08% 2,99% 7,73% -16,02% -7,71% 5,21% 5,19% 0,00% -6,30% 5,64%
SANTIAGO IPSA -3,73% -1,65% 10,27% -5,70% -6,41% -11,81% 2,01% -2,73% 3,68% -17,27% 7,15% 3,26% 8,60% 2,03% -0,46% -0,22% 9,20% 4,97% -2,37%
SEUL KOSPI -16,02% 0,83% -2,43% 1,21% -5,28% -13,47% -3,43% -10,63% 3,31% -20,78% -6,56% 21,46% -6,99% -15,70% 21,90% 14,69% -6,00% -3,21% 11,30%
SHANGHAI SHANGHAI COMP IN -17,60% -5,40% -17,49% 1,62% -10,98% -22,49% -0,51% -10,15% 12,15% -16,86% 19,06% -3,00% 7,70% 7,22% 10,45% -2,24% -4,12% 10,95% 10,47%
SIDNEI ALL ORDINARIES -10,84% -0,67% -3,85% 3,32% -0,97% -9,71% -8,85% -1,78% -5,03% -20,80% 0,09% 4,46% -13,01% -3,20% 13,84% 4,96% 0,12% 3,23% 6,00%
TAIPÉ TAIPÉ -12,42% 8,96% 8,91% 0,27% -8,08% -14,56% -8,51% 1,69% -7,63% -8,27% -0,49% 2,45% -9,39% -0,12% 18,61% 9,95% 6,08% -7,61% 5,09%
TÓQUIO NIKKEI -7,75% -2,73% -0,46% 0,77% -1,75% -9,01% -4,48% 1,27% 2,66% -9,47% 12,73% 9,14% -10,33% -10,94% 2,83% 2,40% 0,27% 2,08% 1,02%
USA S&P500 -7,15% -8,14% 2,73% 0,25% -3,11% -11,17% -2,83% 5,33% 5,88% -8,42% 1,76% 0,47% -9,88% -8,78% 5,15% 2,44% -4,96% -1,30% 2,91%
SUIÇA SSE -6,65% -2,89% 4,60% -5,32% -4,17% -8,12% -2,10% 0,65% 5,03% -2,23% -0,10% 8,79% -13,96% -9,51% 4,25% -0,86% -1,32% -2,24% 6,59%
TORONTO S&P500 -7,93% 1,41% -3,28% 1,77% 1,60% -5,51% -8,80% 2,06% -0,82% -19,98% 2,28% -2,82% -5,07% -6,48% 4,91% 6,06% 8,82% -6,86% 6,95%
MOSCOU RTS -15,88% 5,24% -2,11% -3,26% 8,37% -8,26% -3,26% -19,91% -11,84% -19,73% -6,83% -14,42% -25,73% 3,79% 21,86% 9,98% 13,93% -12,33% -4,99%

Prof. Dr. Paulo Matos


durante apenas o ano de 2008. Quais índices você compraria? Esse resultado corrobora sua prévia impressão
Exercício #18: Calcule o Coeficiente de curtose de todos os índices durante todo o período e
Exercício #19: Identifique se os valores extremos de cada um dos índices consistem em outliers
durante todo o período e durante apenas o ano de 2008. Seria recomendável excluir esses outliers
encontrados? Esse resultado corrobora sua prévia impressão obtida com o histograma?

Exercício #20: Construa o gráfico de Box plot para todos os índices durante todo o período e
durante apenas o ano de 2008. Esse resultado corrobora sua prévia impressão obtida nos itens 16, 17 e 18,
sobre assimetria, curtose e outliers??

Análise Exploratória de Dados Prof. Dr. Paulo Matos


4. Medidas de associação de duas variáveis
4.1. Introdução
Suponha que estamos diante de uma amostra composta pelos alunos desta sala. Será que haveria
alguma “relação” entre os salários pagos e os anos de estudo, ou mesmo alguma relação entre altura e peso
destes funcionários?
Certamente, estudiosos sobre mercado de trabalho através do uso de seus modelos teóricos ou
econométricos poderiam nos responder com fundamentos a primeira pergunta. Possivelmente, médicos,
nutricionistas também nos seriam muito úteis em relação ao segundo questionamento.
O nosso ponto aqui é um pouco mais simples, uma vez que existe uma simples ferramenta estatística
que nos ajuda a mensurar o quanto ou se duas variáveis estão ou não “relacionadas”, desde que linearmente.
Até o presente momento, definimos, descrevemos e usamos diversas estatísticas visando analisar apenas uma específica
variável em questão. No entanto, comumente, torna-se necessário tomar decisões, principalmente em finanças, como
veremos a seguir, levando-se em consideração duas variáveis. Com este intuito, introduzimos agora o estudo das estatísticas:
covariância e correlação.
Covariância: A covariância amostral, estatística análoga à variância amostral, porém levando em
consideração duas variáveis e não somente um, é obtida a partir da média dos produtos entre o desvio de
uma variável X em relação a sua própria média e o desvio de Y também em relação à respectiva média. Assim,
a covariância entre ambas se dá da seguinte forma:

𝑛
(𝑥1 − 𝑋̅). (𝑦1 − 𝑌̅)+. . … + (𝑥𝑛 − 𝑋̅). (𝑦𝑛 − 𝑌̅) (𝑥𝑖 − 𝑋̅). (𝑦𝑖 − 𝑌̅)
𝑆𝑋,𝑌 = =∑
𝑛−1 𝑛−1
𝑖=1

Obviamente, assim como na variância, a qual consiste num caso particular da covariância em que X
= Y, temos que a covariância populacional se dá pela divisão por n, em vez de n - 1.
Olhando a fórmula acima, observemos que o sinal da covariância será influenciado por uma maior
frequência de desvios mais representativos em ambas as variáveis, os quais podem ser na mesma direção,
implicando numa covariância positiva, ou em direção contrária, gerando covariância negativa. Para melhor a
compreendermos, observemos o exemplo a seguir.

Figura 4.1: Gráfico contendo pesos e alturas dos alunos da sala

Análise Exploratória de Dados Prof. Dr. Paulo Matos


O que o sinal da covariância permite inferir é se os desvios quando positivos em peso de um aluno
(ponto azul) ou de uma aluna (ponto vermelho) podem ser justificados linearmente por respectivos desvios
em altura na mesma direção! Para tal, olhamos os desvios nas métricas, aluno por aluno.
Observemos os quatro quadrantes identificados no gráfico. Para que (𝑥𝑖 − 𝑋̅). (𝑦𝑖 − 𝑌̅) possua um
sinal positivo é preciso que o ponto (𝑥𝑖 , 𝑦𝑖 ) esteja ou no quadrante I ou no III. Analogamente, o produto dos
desvios assumirá valores negativos nos quadrantes II e IV. Analiticamente, por consistir na média desses
desvios e graficamente, podemos observar que uma covariância positiva (negativa) reflete uma certa relação,
associação linear positiva (negativa) entre as variáveis X e Y.
Se tivermos um caso no qual os pontos estão bem dispersos ao longo dos quatro quadrantes, então
isso implicará na ausência de uma relação linear e consequentemente em uma covariância aproximadamente
nula. Uma primeira conclusão equivocada que um incauto poderia ter ao estudar pela primeira vez a
covariância seria a de que um alto valor positivo (negativo) estaria implicando em uma forte associação linear
positiva (negativa) entre as variáveis em questão. Apesar de legítima e aceitável, tal conclusão poderia ser
facilmente contrariada com um simples exemplo.
Exemplo 4.1: Sabemos que a covariância entre altura e peso dos alunos da amostra figura 4.1 é dada
pelo valor 193,505. Poderíamos considerar tal valor como um indicativo de alta relação entre estas duas
variáveis? Tomemos cuidado! Mudemos apenas as unidades da altura, de centímetro para metro. E agora?
Usando a fórmula da covariância, o novo passa a ser dado por 1,935, ou seja, exatamente a
covariância anterior dividida por cem, conseqüência da divisão dos dados de altura por este mesmo
coeficiente. Caso mudássemos a unidade também do peso, multiplicando-o por outra constante, a covariância
sofreria novamente alteração, sendo multiplicada por esta nova constante.
Correlação: O exemplo anterior nos mostra que a questão da despadronização em termos de medida
da covariância pode nos levar a concluir equivocadamente, quando do cálculo apenas desta estatística. A
forma encontrada para resolver tal problema consiste em calcularmos o coeficiente de correlação, uma
estatística adimensional que por assumir valores apenas no intervalo compreendido entre -1 e 1, nos é de
grande utilidade quando do interesse em se mensurar o grau de relação linear entre quaisquer duas variáveis.
As fórmulas dos coeficientes de correlação amostral e populacional são, respectivamente:

𝑆𝑋,𝑌
𝑟𝑋,𝑌 =
𝑆𝑋 . 𝑆𝑌

𝜎𝑋,𝑌
𝜌𝑋,𝑌 =
𝜎𝑋 . 𝜎𝑌

Em geral, pode-se demonstrar que se todos os pontos em um conjunto de dados, tais como os
dispostos no gráfico anterior, estão sobre uma linha reta tendo ima inclinação positiva (negativa), o valor do
coeficiente de correlação é 1 (-1), correspondendo a uma perfeita associação linear positiva (negativa). Em
casos menos extremos, independente da unidade adotada para ambas as variáveis em questão, teremos que
quanto mais os pontos se desviarem uma relação linear perfeita, mais o valor do coeficiente de correlação irá
se aproximar de zero.

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Exemplo 4.2: Tomemos como base os dados do exemplo anterior. Calcule o coeficiente de
correlação entre altura e peso, considerando a variável altura mensurada tanto em metros, como em
centímetros. O que podemos afirmar sobre a relação linear entre estas variáveis? Parece intuitivo?
De fato, a correlação foi de 0,9601, bastante alta, muito próxima do valor unitário, sinalizando a
forte relação linear existente entre essas duas variáveis, o que fica muito claro também observado a figura 4.1.
Variância de duas variáveis aleatórias: Uma aplicação muito importante em gestão de risco consiste
na variância da soma de variáveis. No caso, o interesse seria a variância e consequentemente o desvio padrão
de uma carteira formada por dois ativos. Para tal, considere que o investidor deseja alocar num ativo D, com
desvio  D e num ativo E, com desvio  E , os seguintes pesos, ou proporções:  D e  E  1   D
.
Assim, a variância dessa soma, ou seja, dessa carteira com estes pesos será dada por:

 C2   D2  D2  (1   D ) 2  E2  2 D (1   D ) D  E  D , E

4.2. Exercícios finais sobre estatísticas descritivas


Exercício #1: Questão 25, pág. 95, capítulo 4 do livro texto Bussab, Wilson e Morettin, Pedro,
“Estatística básica”. Ed. Saraiva, 6ª edição, 2010.
Exercício #2: Questão 26, pág. 95, capítulo 4 do livro texto Bussab, Wilson e Morettin, Pedro,
“Estatística básica”. Ed. Saraiva, 6ª edição, 2010.
Exercício #3: Questão 29, pág. 96, capítulo 4 do livro texto Bussab, Wilson e Morettin, Pedro,
“Estatística básica”. Ed. Saraiva, 6ª edição, 2010.
Exercício #4: Questão 30, pág. 97, capítulo 4 do livro texto Bussab, Wilson e Morettin, Pedro,
“Estatística básica”. Ed. Saraiva, 6ª edição, 2010.
Exercício #5: Observe os dados de retornos líquidos mensais (%) temporais dos ativos financeiros
Ibovespa, Índice de Energia Elétrica (IEE) e poupança dispostos na Tabela 4.1.
a) Calcule o retorno líquido médio e o ganho líquido acumulado do Ibovespa e do IEE.
b) Calcule o desvio padrão, a semivariância e o drawdown do Ibovespa e do IEE.
c) Calcule a assimetria e a curtose do Ibovespa e do IEE.
d) Calcule os índices de performance de Sharpe, Sortino e Calmar do Ibovespa e do IEE.
e) Calcule a covariância e a correlação entre o Ibovespa e o IEE.
f) Monte uma carteira com 50% no Ibovespa e 50% no IEE. Qual o desvio padrão dessa carteira?
Recalcule esse valor, num caso hipoético em que a correlação fosse não o valor real, obtido no item anterior,
mas sim 1, depois 0,5, depois zero, depois -0,5 e por fim, -1. Que conclusões podemos tirar correlação ao
poder de diversificação, ou seja, redução de risco de carteira, tendo em vista o valor e sinal da correlação?

Análise Exploratória de Dados Prof. Dr. Paulo Matos


Tabela 4.1.
Retorno de benchmark de mercado e setorial
Data Ibovespa Poupança IEE
2-jul-10 0,315% 0,027% 0,590%
5-jul-10 -0,918% 0,025% 0,316%
6-jul-10 1,970% 0,026% 0,983%
7-jul-10 1,964% 0,028% -0,004%
8-jul-10 0,305% 0,027% -0,657%
12-jul-10 -0,813% 0,025% -0,727%
13-jul-10 1,152% 0,026% 1,045%
14-jul-10 -0,323% 0,028% -1,627%
15-jul-10 0,016% 0,028% 0,105%
16-jul-10 -1,811% 0,028% -0,728%
19-jul-10 1,537% 0,024% 0,548%
20-jul-10 1,841% 0,025% 0,092%
21-jul-10 0,022% 0,027% 0,101%
22-jul-10 1,973% 0,028% 1,590%
23-jul-10 0,873% 0,026% 0,721%
26-jul-10 0,182% 0,024% 0,421%
27-jul-10 0,348% 0,025% -0,346%
28-jul-10 0,201% 0,026% -0,086%
29-jul-10 0,217% 0,026% 0,736%
30-jul-10 0,839% 0,026% 0,950%

Análise Exploratória de Dados Prof. Dr. Paulo Matos

Você também pode gostar