Você está na página 1de 2

Conteúdo e tráfego na Internet

Para projetar e preparar redes que funcionam bem, precisamos entender o tráfego que elas precisam transportar.
Com a mudança para conteúdo, por exemplo, os servidores migraram de escritórios da empresa para centros de
dados da Internet, que oferecem grandes quantidades de máquinas com excelente conectividade de rede. Hoje, para usar
até mesmo um servidor pequeno, é mais fácil e mais barato alugar um servidor virtual hospedado em um centro de dados
da Internet do que operar uma máquina real em casa ou no escritório, com conectividade de banda larga com a Internet.

Felizmente, existem apenas dois fatos sobre o tráfego da Internet fundamentais a saber: O primeiro fato é que ele
muda rapidamente, não apenas nos detalhes, mas na composição geral. Antes de 1994, a maior parte do tráfego era
transferência de arquivo FTP tradicional (para mover programas e conjuntos de dados entre os computadores) e e-mail.
Depois, a Web chegou e cresceu exponencialmente. O tráfego na Web deixou o tráfego de FTP e e-mail comendo poeira
muito antes da ‘bolha do ponto com’, em 2000. A partir de 2000, o compartilhamento de arquivos P2P para música e
depois para filmes decolou. Por volta de 2003, a maior parte do tráfego da Internet era tráfego P2P, deixando a Web
comendo poeira. Em algum ponto no fim da década de 2000, o streaming de vídeo usando métodos de distribuição de
conteúdo por sites como YouTube começou a ultrapassar o tráfego P2P. A Cisco prevê que, por volta de 2014, 90 por
cento de todo o tráfego da Internet seja de vídeo, de uma forma ou de outra (Cisco, 2010).

Nem sempre é o volume de tráfego que importa. Por exemplo, embora o tráfego de voz sobre IP tenha explodido
mesmo antes que a Skype fosse iniciada, em 2003, ele sempre será pouca coisa no geral, pois os requisitos de largura de
banda do áudio são duas ordens de grandeza menores do que para o vídeo. Porém, o tráfego de voz sobre IP estressa a rede
de outras maneiras, pois ele é sensível à latência. Como outro exemplo, as redes sociais on-line cresceram
assustadoramente desde que o Facebook foi iniciado, em 2004. Em 2010, pela primeira vez, o Facebook alcançou mais
usuários na Web por dia do que o Google. Mesmo colocando o tráfego de lado (e existe realmente muito tráfego), as redes
sociais on-line são importantes porque estão mudando o modo como as pessoas interagem por meio da Internet.

A conclusão a que estamos chegando é que mudanças sísmicas no tráfego da Internet acontecem rapidamente, e
com certa regularidade. O que virá em seguida? Pergunte novamente na próxima edição deste livro e você saberá.

O segundo fato essencial sobre o tráfego da Internet é que ele é altamente tendencioso. Muitas propriedades com as
quais estamos acostumados estão agrupadas em torno de uma média. Por exemplo, a maioria dos adultos está próxima da
altura média. Existem algumas pessoas altas e algumas pessoas baixas, mas poucas pessoas muito altas ou muito baixas.
Para esses tipos de propriedades, é possível conceber algo para uma faixa que não seja muito grande, mas que, apesar
disso, captura a maior parte da população.

O tráfego da Internet não é assim. Por muito tempo, soube-se que existe um pequeno número de sites com um
tráfego maciço e um grande número de sites com muito pouco tráfego. Essa característica tornou-se parte da linguagem da
rede. Os primeiros artigos falavam sobre o tráfego em termos de trens de pacotes, com a ideia de que trens expressos com
um grande número de pacotes de repente viajariam por um enlace (Jain e Routhier, 1986). Isso foi formalizado como a
noção de autossemelhança, o que para os nossos propósitos pode ser entendido como o tráfego da rede que exibe muitas
lacunas curtas e longas, mesmo quando vistas em diferentes escalas de tempo (Leland et al., 1994). O trabalho mais
recente falava de longos fluxos de tráfego como elefantes e curtos fluxos de tráfego como camundongos. A ideia é que só
existem alguns poucos elefantes e muitos camundongos, mas os elefantes são mais importantes porque são muito grandes.

Voltando ao conteúdo da Web, o mesmo tipo de tendência é evidente. A experiência com lojas de aluguel de vídeo,
bibliotecas públicas e outras organizações desse tipo mostra que nem todos os itens são igualmente populares.
Experimentalmente, quando N filmes estão disponíveis, a fração de todas as solicitações para o k-ésimo mais
popular é aproximadamente C/k. Aqui, C é calculado para normalizar a soma como 1, ou seja, C = 1/(1 + 1/2 + 1/3 + 1/4
+ 1/5 + . . . + 1/N).

Assim, o filme mais popular é sete vezes mais popular que o filme número sete. Esse resultado é conhecido como
lei de Zipf (Zipf, 1949). Ela tem o nome de George Zipf, professor de linguística na Universidade de Harvard, que
observou que a frequência do uso de uma palavra em um grande corpo de texto é inversamente proporcional à sua
classificação. Por exemplo, a 40a palavra mais comum é usada pelo dobro de vezes que a 80a palavra mais comum e três
vezes mais que a 120ª palavra mais comum.

Uma distribuição de Zipf aparece na Figura 7.35(a). Ela captura a noção de que existe um pequeno número de itens
populares e muitos itens não populares. Para reconhecer as distribuições dessa forma, é conveniente desenhar os dados
sem uma escala logarítmica nos dois eixos, como mostra a Figura 7.35(b). O resultado deverá ser uma linha reta.
Quando as pessoas viam a popularidade das páginas Web, isso também seguia aproximadamente a lei de Zipf
(Breslay et al., 1999). Uma distribuição de Zipf é um exemplo em uma família de distribuições conhecidas como leis da
potenciação. As leis da potenciação são evidentes em muitos fenômenos humanos, como a distribuição de populações e
riquezas na cidade. Elas têm a mesma propensão para descrever poucos grandes participantes e muitos participantes
menores, e também aparecem como uma linha reta em um gráfico logarítmico nos dois eixos. Logo, descobriu-se que a
topologia da Internet poderia ser descrita de forma aproximada com leis da potenciação (Faloutsos et al., 1999). Em
seguida, os pesquisadores começaram a desenhar cada propriedade imaginável da Internet em uma escala logarítmica,
observandouma linha reta e gritando: ‘Lei da potenciação!’

Entretanto, o que importa mais do que uma linha reta em um gráfico logarítmico nos dois eixos é o que essas
distribuições significam para o projeto e uso de redes. Dadas as muitas formas de conteúdo que possuem distribuições da
lei de Zipf ou da potenciação, parece fundamental que os sites na Internet sejam como Zipf em popularidade. Isso, por sua
vez, significa que um site normal não é uma representação útil.
Os sites são mais bem descritos como populares ou impopulares. Os dois tipos importam. A importância dos sites
populares é óbvia, pois poucos deles já podem ser responsáveis pela maior parte do tráfego na Internet. Talvez seja
surpresa saber que os sites impopulares também importam. Isso porque a quantidade total de tráfego direcionado para os
sites impopulares pode se acumular e se tornar uma grande fração do tráfego geral. O motivo é que existem muitos sites
impopulares. A noção de que, coletivamente, muitas escolhas impopulares podem importar tem sido propagada por livros
como The Long Tail — A longa cauda (Anderson, 2008a).

Curvas que mostram decaimento, como a da Figura 7.35(a), são comuns, mas não são iguais. Em particular,
situações em que a taxa de decaimento é proporcional a quanto material resta (como nos átomos radioativos instáveis)
apresentam decaimento exponencial, que cai muito mais rapidamente do que a lei de Zipf. O número de itens, digamos,
átomos, restantes após o tempo t normalmente é expresso como e–t/a, onde a constante a determina a rapidez do
decaimento. A diferença entre o decaimento exponencial e a lei de Zipf é que, com o decaimento exponencial, é seguro
ignorar o final da cauda, mas com a lei de Zipf o peso total da cauda é significativo e não pode ser ignorado.
Para trabalhar de modo eficaz nesse mundo tendencioso, precisamos ser capazes de construir os dois tipos de sites.
Os impopulares são fáceis de lidar. Usando DNS, muitos sites diferentes podem realmente apontar para o mesmo
computador na Internet que executa todos os sites. Por outro lado, sites populares são difíceis de lidar. Não existe um
único computador, até mesmo remotamente poderoso o suficiente, e o uso de um único computador tornaria o site
inacessível para milhões de usuários se ele falhasse. Para lidar com esses sites, temos que criar sistemas de distribuição de
conteúdo. Vamos averiguar isso em seguida.

Você também pode gostar