Escolar Documentos
Profissional Documentos
Cultura Documentos
em Dados Empı́ricos
Humberto José Bortolossi, João Júlio Dias Bastos Queiroz e Michele Maria da Silva
1 Motivação
O que há de comum entre o número de palavras do livro “Memórias Póstumas de Brás Cubas”
de Machado de Assis, a distribuição da população humana em cidades, as intensidades das erupções
solares, o número de mortes em ataques terroristas, o número de clientes afetados por apagões elétricos
e a maneira como alguns animais buscam por alimentos em seu habitat? A resposta é surpreendente:
estudos estatı́sticos dão forte suporte ao fato de que estes e muitos outros fenômenos podem ser descritos
por leis de potência, isto é, leis que são expressas por funções potências y = f (x) = b xa , com a e b
constantes reais. Vejamos um exemplo em detalhes.
2 A Lei de Zipf
Conte quantas vezes cada palavra aparece em um determinado texto. Existem palavras que apa-
recerão mais vezes do que outras. Crie então uma tabela, ordenando as palavras por sua frequência.
A Tabela 1 apresenta o resultado deste processo para as palavras do romance “Memórias Póstumas de
Brás Cubas” de Machado de Assis.
Tabela 1 Tabela 2
Posição (x) Frequência (y) Palavra x
= log(x) y = log(y) Palavra
1 2489 a 0,00000. . . 3,39602. . . a
2 2203 que 0,30102. . . 3,34301. . . que
3 2112 de 0,47712. . . 3,32469. . . de
4 1949 e 0,60205. . . 3,28981. . . e
5 1711 o 0,69897. . . 3,23325. . . o
6 1164 não 0,77815. . . 3,06595. . . não
.. .. .. .. .. ..
. . . . . .
178 37 Brás 2,25042. . . 1,56820. . . Brás
.. .. .. .. .. ..
. . . . . .
10447 1 zelo 4,01899. . . 0,00000. . . zelo
10448 1 Zenon 4,01903. . . 0,00000. . . Zenon
10449 1 Zeus 4,01907. . . 0,00000. . . Zeus
Use em seguida um truque muito útil quando leis de potência são examinadas: ao invés de analisar x
(a posição da palavra) e y (a sua frequência), estude
x
= log(x) e y = log(y),
1
x, y) em um mesmo sistema de
cujos valores são apresentados na Tabela 2. Marque então os pontos (
eixos coordenados. O resultado é a figura abaixo.
3,25
3,00
2,75
2,50
2,25
2,00
log(frequência)
1,75
1,50
1,25
1,00
0,75
0,50
0,25
0,00
0,00 0,25 0,50 0,75 1,00 1,25 1,50 1,75 2,00 2,25 2,50 2,75 3,00 3,25 3,50 3,75 4,00
log(posição)
Note que os pontos (x, y) parecem se alinhar, principalmente para os valores de x
(logaritmo da posição)
entre 1,5 e 3,0. Como achar uma reta representativa para estes dados? Uma técnica estatı́stica padrão é
o método dos mı́nimos quadrados, que obtém a equação de uma reta minimizando a soma dos quadrados
das diferenças entre as ordenadas dos dados e os valores previstos pela equação da reta. O uso deste
método para todos os pontos ( x, y) da Tabela 2 produz a reta azul da figura, cuja equação é
y = 3,567 − 0,925 x
.
Agora, lembrando que x
= log(x) e y = log(y), vemos que
y = 3,567 − 0,925 x
⇔ log(y) = log(103,567 ) − 0,925 log(x)
⇔ log(y) = log(3689,775) + log(x−0,925 )
⇔ log(y) = log(3689,775 x−0,925 )
⇔ y = f (x) = 3689,775 x−0,925 ,
isto é, de forma aproximada, a frequência e a posição das palavras estão relacionadas por uma lei de
potência. Esta lei empı́rica é hoje conhecida como a “Lei de Zipf”, em homenagem ao professor de
linguı́stica da Universidade de Harvard, George Kingsley Zipf (1902–1950), o primeiro a investigar de
forma sistemática fenômenos da estrutura estatı́stica em conjuntos de dados linguı́sticos e demográficos.
Algumas observações:
(1) A reta obtida pelo método dos mı́nimos quadrados (a reta em azul) não acomoda muito bem
os dados para os valores iniciais e finais de x. Vários autores têm sugerido adaptações para a Lei
de Zipf a fim de obter um modelo mais adequado. Outros autores simplesmente consideram que
a Lei de Zipf é válida apenas para valores de x em um determinado intervalo [Clauset, Shalizi,
Newman, 2009].
(2) Embora nossa análise com o método dos mı́nimos quadrados seja, digamos, bastante visual e
ingênua, a Lei de Zipf (bem como outras leis de potência) tem passado com sucesso por testes
estatı́sticos mais sofisticados [Clauset, Shalizi, Newman, 2009].
(3) A Lei de Zipf tem sido verificada para vários outros idiomas: inglês, francês, árabe, grego moderno,
etc. Ela foi detectada mesmo em outras formas de comunicação, como assobios de golfinhos e
composições musicais.
2
3 Outras leis de potência
As leis de potência parecem ser ubı́quas, onipresentes! Existe uma quantidade considerável de
artigos e livros que estudam e descrevem leis de potência em áreas bem diversas: economia e finança,
educação, demografia, geologia, história, climatologia, bibliometria e informetria, terrorismo e guerra,
corrupção, turismo, esportes, artes, agronomia, ecologia, biologia, linguı́stica, ciência da computação,
ciências cognitivas, ciências sociais, astronomia, mecânica dos sólidos, fı́sica e quı́mica.
Algumas leis de potência possuem nome próprio: a Lei de Gutenberg-Richter (sobre a relação entre
a frequência e a intensidade dos terremotos), a Lei de Stevens (sobre a relação entre a magnitude
de um estı́mulo fı́sico e sua intensidade percebida), o Princı́pio de Pareto (também conhecido como
Princı́pio 80/20, sobre a distribuição de renda em uma sociedade), a Lei de Kleiber (sobre a relação
entre a taxa metabólica de um organismo e sua massa corporal), a Lei de Lotka (sobre a frequência de
publicação de artigos cientı́ficos por diversos autores), a Lei de Yoda (sobre o processo de auto-desbaste
entre mudas de plantas), a Lei de Stefan-Boltzmann (sobre a radiação de corpos negros), a Relação de
Ramberg-Osgood (sobre a deformação e fadiga de materiais).
O assunto é vasto e rico. Infelizmente, o limite de poucas páginas recomendado para este artigo
não nos permite apresentar com mais profundidade as leis de potência mencionadas nos parágrafos
anteriores. Nosso objetivo aqui é então alertar o leitor sobre o uso das funções potências em outras
disciplinas e motivá-lo a procurar saber mais sobre o assunto. Neste sentido, os livros [Bak, 1996],
[Schroeder, 1991] e [Brown, West, 2000] (este último sobre alometria, ciência que estuda como as
caracterı́sticas dos organismos mudam de acordo com seus tamanhos) constituem um ótimo ponto de
partida. O vı́deo [TED, 2009] (com legendas em português) sobre leis de potência em guerras também
merece destaque. Indicamos, por fim, [Li, 2011], que apresenta uma coleção com mais de 700 referências
sobre leis de potência.
4 Advertência
É importante ressaltar a natureza experimental das leis de potência: elas são formuladas a partir de
estudos estatı́sticos de dados empı́ricos. Assim, cuidado é necessário! À medida que técnicas de análise
estatı́stica mais sofisticadas são desenvolvidas, todo o processo é revisto: algumas leis de potência
são confirmadas e outras são questionadas (como o caso do Princı́pio de Pareto para distribuição de
rendas). O artigo [Clauset, Shalizi, Newman, 2009] faz uma discussão bem detalhada sobre este tema.
Não obstante, é sempre bom ter em mente que certas leis fı́sicas que hoje nos são bem familiares,
como a Lei da Queda Livre dos Corpos de Galileu Galilei (1564-1642) e a Lei da Gravitação Universal
de Isaac Newton (1643-1727) tiveram uma componente empı́rica em suas formulações: Galileu Galilei
fez experimentos com planos inclinados no processo de estabelecer a lei que governa a queda livre dos
corpos (uma lei de potência!) e Isaac Newton, em sua obra Principia, diz “Nessa filosofia [experimental]
as proposições particulares são inferidas dos fenômenos e depois tornadas gerais por indução”.
5 Invariância em escala
Uma propriedade importante das funções potências (e que será usada na próxima seção) é que elas
são homogêneas e, portanto, invariantes em escala. Por exemplo, para b = 1 e a = 3, se um evento x
duplica de tamanho, então o evento y associado a x por f fica oito vezes maior independentemente do
tamanho do evento x: g(x) = f (2 x) = 8f (x) para todo x > 0. Mais geralmente, se f (x) = b xa e λ > 0
é uma constante, então
3
isto é, fazendo-se um ajuste de escala em y (que não depende de x, só de λ), os gráficos de f (x) = b xa
e g(x) = f (λ x) possuem o mesmo formato (as figuras abaixo ilustram este fato para b = 1, a = 3
e λ = 2). Por estes motivos, dados que se distribuem seguindo uma lei de potência não possuem valores
caracterı́sticos ou uma escala natural.
2
A propriedade de invariância em escala não é satisfeita, por exemplo, pela função y = b e−a (x−m) , com
a, b > 0 e m ∈ R, associada a um outro personagem importante em Estatı́stica: a distribuição normal.
4
usada como ferramenta para decifrar escritos antigos [Smith, 2007], para tentar identificar inteligência
extraterrestre em sinais recebidos do espaço (programa SETI) e para se criarem métodos de ensino de
idiomas mais eficientes através das palavras mais frequentes [Davies, Preto-Bay, 2008].
9 Referências
No endereço http://www.uff.br/cdme/lpp/ (ou no espelho http://www.cdme.im-uff.mat.br/lpp/)
está disponı́vel uma série de aplicativos interativos que permitem explorar a estatı́stica das letras, pala-
vras e perı́odos (com um dos aplicativos disponı́veis nestes endereços você poderá ver a versão completa
da Tabela 1 e fazer experiências com outros textos em vários idiomas). Também está disponı́vel um
arquivo DOC (o Formulário de Acompanhamento do Aluno) com várias sugestões de exercı́cios para
serem trabalhados em sala de aula. Orientações didáticas e metodológicas estão disponı́veis no Guia
do Professor. Seguem as referências usadas no texto:
Bak, P. How Nature Works: The Science of Self-Organized Criticality. Springer-Verlag, 1996.
5
Brown, J. H.; West, G. B. Scaling in Biology. Oxford University Press, 2000.
Clauset, A.; Shalizi, C. R.; Newman, M. E. J. Power-Law Distributions in Empirical Data. SIAM
Review, v. 51, n. 4, pp. 661-703, 2009.
Davies, M.; Preto-Bay, A. M. R. A Frequency Dictionary of Portuguese. Core Vocabulary for Learners.
Routledge, 2008.
Ferrer i Cancho, R.; Sole, R. V. Least Effort and The Origins of Scaling in Human Language. Procee-
dings of the National Academy of Sciences, v. 100, n. 3, pp. 788-791, 2003.
Krishnamoorthy, K. Handbook of Statistical Distributions with Applications. Chapman & Hall/CRC,
2006.
Li, W. Information on Zipf ’s Law. 2011. http://www.nslij-genetics.org/wli/zipf/
Smith, R. Investigation of The Zipf-Plot of The Extinct Meroitic Language. Glottometrics, v. 15,
pp. 53-61, 2007.
Schroeder, M. Fractals, Chaos, Power Laws – Minutes from An Infinite Paradise. W. H. Freeman and
Company, 1991.
TED. Sean Gourley Fala sobre A Matemática da Guerra. 2009. http://www.ted.com/talks/lang/
por br/sean gourley on the mathematics of war.html