Você está na página 1de 390

I NS TI TUTO FE DER AL DO E S P RI TO S ANTO

C AM P US S E RR A

V1.3

APRESENTAO

preciso dizer, antes de qualquer outra coisa que, sem o excelente trabalho do Carlos Morimoto, autor do
site Guia do Hardware, juntar todo esse material neste nico compendio no seria possvel. Isto porque a
maioria do texto que aqui se encontra advm dos seus guias, artigos e tutoriais publicados no referido site.
Contudo, o material era imenso e impraticvel para uma nica disciplina, num nico semestre e com carga
horria relativamente curta. Assim sendo, houve um longo e intenso trabalho por parte daquele que vos fala
neste momento, selecionando/editando/adaptando mais de mil pginas de texto/imagens/tabelas a fim de
gerar esta apostila.
O assunto Hardware (de computadores PC) de certa forma contraditrio. Se por um lado, em sua parte
prtica tudo ficou mais fcil para o usurio e tambm para o tcnico de manuteno, no campo terico o
oposto tem acontecido. A compreeno das caractersticas, positivas e negativas, dos diferentes hardwares
uma tarefa difcil e que exige muito estudo. E, importante frizar que, s com um conhecimento bem alm do
superficial que possvel efetuar escolhas sensatas ao montar um novo microcomputador, desvendar as
possveis causas de um problema, ou simplesmente no ser enganado por uma propaganda tendenciosa que o
induz a comprar gato por lebre.
Em minha humilde opinio, como professor e algum que acompanhou o desenvolvimento de boa parte
do que ser dito neste material, a melhor forma de fazer esse tipo de estudo de maneira cronolgica. Ou
seja, primariamente compreender os dispositivos mais antigos e progressivamente assistir sua evoluo ao
longo do tempo, chegando finalmente aos hardwares modernos. Esse o motivo pelo qual algumas
tecnologias que estudaremos no so mais comercializadas hoje, mas certamente formam a base das
maravilhas tecnolgicas dos dias atuais, j que dificilmente se reinventa a roda.
Por fim, preciso dizer que, a cada semestre que se passa, tecnologias mais avanadas estaro sendo
lanadas: novos processadores, placas de vdeo, placas-me, etc. Com um conhecimento slido servido-lhe de
base (esse o principal objetivo dessa disciplina), voc estar apto a continuar esse estudo. A internet est a,
cheia de informao disponvel a um clique de distncia. S depende de voc!
Estaremos juntos nessa jornada. Pelo menos at que eu possa tirar as rodinhas da sua bicicleta e permitir
que voc ande sozinho, sem a minha ajuda...
(e, acredite, talvez voc nem perceba quando isso acontecer...)

Prof. Flvio Giraldeli


Eng. de Computao

Sumrio
Cap. 1: Introduo e Conceitos .................................................................................................................... 9
1.1 O Computador e a Informao ......................................................................................................................9
1.2 Sinais Digitais e Nmeros Binrios .................................................................................................................9
1.2.1 Mais Sobre Nmeros Binrios ...............................................................................................................10
1.3 Base Hexadecimal ........................................................................................................................................10
1.4 Converses Entre Bases Numricas .............................................................................................................11
1.4.1 De Decimal para Binrio ........................................................................................................................11
1.4.2 De Binrio/Decimal para Hexadecimal .................................................................................................12
1.4.3 De Binrio/Hexadecimal para Decimal .................................................................................................12
1.5 Converso de Sinais: Analgico para Digital ................................................................................................12
1.6 Lgica Temporizada .....................................................................................................................................13
1.6.1 Clock ......................................................................................................................................................13
1.6.2 Ciclo de Operao .................................................................................................................................13
1.7 Computador PC: Componentes Bsicos.......................................................................................................14
1.7.1 Processador ...........................................................................................................................................15
1.7.2 Memria ................................................................................................................................................15
1.7.3 HD ..........................................................................................................................................................16
1.7.4 Placa de Vdeo .......................................................................................................................................17
1.7.5 Placa-Me ..............................................................................................................................................18
1.7.6 Hardware X Software ............................................................................................................................19
Exerccios............................................................................................................................................................20
Cap. 2: Processadores................................................................................................................................ 21
2.1 Introduo ....................................................................................................................................................21
2.2 Processadores Pr-Histricos: Do Princpio ao Intel 486 .........................................................................21
2.2.1 O Surgimento do PC ..............................................................................................................................22
2.2.2 O 286 .....................................................................................................................................................23
2.2.3 O 386 e a Era dos 32 bits .......................................................................................................................23
2.2.3.1 Principais Recursos Trazidos pelo 386 ............................................................................................24
2.2.4 O 486 .....................................................................................................................................................25
2.3 Processadores Antigos: Do Pentium ao Pentium IV ....................................................................................28
2.3.1 Pentium MMX .......................................................................................................................................29
2.3.2 Pentium Pro...........................................................................................................................................29
2.3.3 Pentium II ..............................................................................................................................................31
2.3.4 Celeron ..................................................................................................................................................32
2.3.5 K6-2 e K6-3 ............................................................................................................................................33
2.3.6 Pentium III .............................................................................................................................................34
2.3.7 O Athlon ................................................................................................................................................36
2.3.8 O Intel Pentium 4 ..................................................................................................................................40
2.3.8.1 A Introduo do Hyper-Threading ..................................................................................................43
2.3.8.2 Smithfield, Cedar Mill e Presler ......................................................................................................45
2.3.8.3 O Soquete LGA-775 ........................................................................................................................47
2.4 Processadores Modernos: A Era dos 64 Bits................................................................................................49
2.4.1 A Arquitetura K8 ....................................................................................................................................52
2.4.1.1 Os Modelos .....................................................................................................................................57
2.4.1.1.1 Athlon 64 e FX.........................................................................................................................57
7

2.4.1.1.2 Athlon 64 X2 ...........................................................................................................................60


2.4.1.1.3 Sempron .................................................................................................................................64
2.4.2 A Plataforma Core .................................................................................................................................67
2.4.2.1 Entendendo a Arquitetura ..............................................................................................................70
2.4.2.2 Core 2 Duo E6xxx (Conroe) .............................................................................................................74
2.4.2.3 Core 2 Quad Q6xxx (Kentsfield) ......................................................................................................75
2.4.2.4 Core 2 Duo E4xxx e Pentium E2xxx (Allendale) ..............................................................................78
2.4.2.5 Penryn: a Segunda Gerao ............................................................................................................80
2.4.2.5.1 Os 45 nm .................................................................................................................................82
2.4.2.6 Core 2 Duo E8xxx e E7xxx (Wolfdale) .............................................................................................83
2.4.2.7 Core 2 Quad Q9xxx, Q8xxx e Q7xxx (Yorkfield) ..............................................................................84
2.4.2.8 Pentium E5xxx e E6xxx ...................................................................................................................85
2.4.2.9 Celeron 4xx, E1xxx e E3xxx .............................................................................................................86
2.4.3 A Plataforma AMD K10 (Barcelona) ......................................................................................................89
2.4.3.1 Phenom...........................................................................................................................................92
2.4.3.1.1 Phenom X3..............................................................................................................................94
2.4.3.1.2 O TLB Bug e o Problema do Cool'n'Quiet ...............................................................................95
2.4.3.2 Athlon X2 7xxx ................................................................................................................................97
2.4.3.3 Phenom II ........................................................................................................................................98
2.4.3.3.1 As Verses: X4, X3 e X2.........................................................................................................101
2.4.3.3.2 Athlon II X2 ...........................................................................................................................102
2.4.3.3.3 Athlon II X4 ...........................................................................................................................103
2.4.3.3.4 O Sempron de 45 nm ............................................................................................................105
2.4.3.3.5 Quatro Cores Pelo Preo de Trs ..........................................................................................106
2.4.3.4 Tuban: Six-Core da AMD ...............................................................................................................107
2.5 Processadores Recentes: Intel: i3, i5 e i7 / AMD: APUs e Bulldozer .........................................................109
2.5.1 A Arquitetura Intel Nahalem (Intel Core i de 1 Gerao) ..................................................................109
2.5.1.1 Os Caches ......................................................................................................................................110
2.5.1.2 Controlador de Memria ..............................................................................................................111
2.5.1.3 Apresentando o QPI......................................................................................................................112
2.5.1.4 Loop Stream Detector e a Volta do Hyper Threading ..................................................................114
2.5.1.5 Gerenciamento de Energia e o Turbo Boost ................................................................................115
2.5.1.6 Os Modelos ...................................................................................................................................116
2.5.1.6.1 Bloomfield (Core i7 Soquete LGA-1366) ............................................................................116
2.5.1.6.2 Lynnfield (Core i5 e i7 Soquete LGA-1156) ........................................................................117
2.5.1.6.3 Clarkdale (Core i5, i3 e Pentium G Soquete LGA-1156 Video Integrado) .......................120
2.5.1.6.4 Gulftown (Six Core) ...............................................................................................................125
2.5.2 Resumo dos Processadores Desktop Nahalem: Intel i3, i5 e i7 de Primeira Gerao ........................128
2.5.3 A Arquitetura Intel Sandy Bridge (Intel Core i de 2 Gerao)............................................................128
2.5.3.1 O Que Mudou ...............................................................................................................................130
2.5.3.2 A GPU Integrada ...........................................................................................................................131
2.5.3.3 Turbo Boost Mais Agressivo .........................................................................................................133
2.5.3.4 Modelos e o Problema do Overclock............................................................................................133
2.5.3.5 Mais um Novo Soquete ................................................................................................................136
2.5.3.6 Resumo dos Processadores Intel i3, i5 e i7 de Segunda Gerao (Sandy Bridge) ........................138
2.5.4 AMD Llano (Fusion): a Era das APUs ...................................................................................................138
2.5.4.1 Metade GPU .................................................................................................................................140
2.5.4.2 Desempenho.................................................................................................................................141

2.5.4.3 Gerenciamento de energia ...........................................................................................................143


2.5.4.4 O Soquete FM1 .............................................................................................................................144
2.5.5 Entendendo o Bulldozer ......................................................................................................................144
2.5.5.1 Entendendo a arquitetura ............................................................................................................146
2.5.5.2 Os modelos ...................................................................................................................................147
2.5.6 Entendendo o Ivy Bridge (Intel Core i de 3 Gerao) ........................................................................149
2.5.6.1 TDP configurvel ...........................................................................................................................151
2.5.7 Entendendo o Haswell (Intel Core i de 4 Gerao)............................................................................152
2.5.7.1 Vdeo Onboard com Qualidade ....................................................................................................152
2.5.7.2 GPUs para Desktops .....................................................................................................................154
2.5.7.3 Resumo das GPUs do Haswell ......................................................................................................154
2.5.7.4 Bateria de Longa Durao.............................................................................................................155
2.5.7.5 Nova Famlia de Processadores, Nova Gerao de Chipsets ........................................................155
2.5.7.6 Processadores para Desktop ........................................................................................................156
2.6 Alguns Resumos a Respeito dos Processadores ........................................................................................157
2.6.1 Os Diferentes Soquetes .......................................................................................................................157
2.6.2 rvore Genealgica Simplificada dos Processadores Intel e AMD .....................................................159
2.6.3 Intel: Evoluo das Arquiteturas .........................................................................................................160
Exerccios..........................................................................................................................................................161
Cap. 3: Chipsets: Conceitos Bsicos .......................................................................................................... 165
3.1 Introduo e Conceitos Gerais ...................................................................................................................165
3.2 Chipsets ao Longo da Histria dos Processadores .....................................................................................167
3.3 O fim dos Chipsets, Como os Conhecemos ................................................................................................167
Exerccios..........................................................................................................................................................172
Cap. 4: Placas-Me .................................................................................................................................. 173
4.1 Introduo ..................................................................................................................................................173
4.2 Componentes da Placa-Me ......................................................................................................................173
4.3 BIOS ............................................................................................................................................................179
4.4 Os Barramentos: ISA, EISA, VLB e PCI ........................................................................................................183
4.5 Vida e Morte do AGP .................................................................................................................................189
4.6 O PCI Express..............................................................................................................................................194
4.6.1 Como o PCI Express Funciona .............................................................................................................196
4.6.2 Dentro do Chipset ...............................................................................................................................199
4.6.3 O PCI Express 3.0 .................................................................................................................................200
4.7 USB .............................................................................................................................................................200
4.7.1 USB 3.0 ................................................................................................................................................205
4.8 IEEE 1394 (Firewire) ...................................................................................................................................209
Exerccios..........................................................................................................................................................212
Cap. 5: Memria RAM ............................................................................................................................. 214
5.1 Introduo ..................................................................................................................................................214
5.2 O bsico ......................................................................................................................................................214
5.3 Memrias Regulares ..................................................................................................................................216
5.4 Memrias FPM ...........................................................................................................................................216
5.5 Memrias EDO ...........................................................................................................................................217
5.6 Memrias SDR-SDRAM ..............................................................................................................................218
5.7 Memrias DDR ...........................................................................................................................................219
5.8 Memrias DDR2 .........................................................................................................................................224

5.9 Memrias DDR3 .........................................................................................................................................228


5.10 A Maldio dos 32 Bits: o Limite de 3 GB ................................................................................................230
5.11 Identificando Mdulos de Memria Defeituosos ....................................................................................234
5.12 Paridade, ECC e Memrias Registered.....................................................................................................239
Exerccios..........................................................................................................................................................242
Cap. 6: Armazenamento de Dados: HD, Flash e Mdias pticas ................................................................. 243
6.1 Introduo ..................................................................................................................................................243
6.2 Como os HDs Funcionam ...........................................................................................................................243
6.2.1 A Placa Controladora...........................................................................................................................250
6.2.2 Os Discos .............................................................................................................................................252
6.2.3 Correo de Erros e Badblocks ............................................................................................................257
6.2.4 Desempenho .......................................................................................................................................259
6.2.4.1 Tempo de Busca (Seek Time) ........................................................................................................260
6.2.4.2 Tempo de Latncia (Latency Time) ...............................................................................................261
6.2.4.3 Tempo de Acesso (Access Time) ...................................................................................................262
6.2.4.4 Head Switch Time .........................................................................................................................262
6.2.4.5 Taxa de Transferncia Interna (Internal Transfer Rate) ...............................................................263
6.2.5 NCQ .....................................................................................................................................................264
6.2.6 Cache/Buffer .......................................................................................................................................265
6.2.7 MTBF e Service Life .............................................................................................................................266
6.3 As interfaces...............................................................................................................................................267
6.3.1 IDE .......................................................................................................................................................268
6.3.2 SATA ....................................................................................................................................................273
6.4 RAID............................................................................................................................................................275
6.4.1 Os Modos de Operao .......................................................................................................................275
6.4.1.1 RAID 0 (Striping)............................................................................................................................275
6.4.1.2 RAID 1 (Mirroring) ........................................................................................................................276
6.4.1.3 RAID 10 (Mirror/Strip) ..................................................................................................................277
6.4.1.4 RAID 5 ...........................................................................................................................................277
6.4.1.5 RAID 6 ...........................................................................................................................................278
6.4.1.6 JBOD..............................................................................................................................................279
6.4.1.7 Em Resumo, Os Principais Modos RAID .......................................................................................279
6.4.2 As controladoras .................................................................................................................................280
6.5 [EXTRA] A Transio Para Os Setores De 4 Kbytes .....................................................................................283
6.6 Sistemas de arquivos .................................................................................................................................285
6.6.1 FAT16 e FAT32 .....................................................................................................................................288
6.6.2 NTFS.....................................................................................................................................................291
6.6.3 EXT3 .....................................................................................................................................................294
6.7 [EXTRA] Recuperao De Dados ................................................................................................................296
6.7.1 S.M.A.R.T .............................................................................................................................................296
6.7.2 Criando uma Imagem Binria ..............................................................................................................298
6.7.3 Reparando Parties ...........................................................................................................................299
6.7.4 Recuperando a MBR e Tabela de Parties ........................................................................................301
6.7.5 Recuperando Arquivos Apagados .......................................................................................................306
6.7.5.1 Usando o Easy Recovery ...............................................................................................................306
6.7.5.2 Usando o Photorec .......................................................................................................................309
6.8 Gigabytes e Gibibytes ................................................................................................................................313
6.9 Memria Flash ...........................................................................................................................................315

6.9.1 Os Formatos de Cartes ......................................................................................................................318


6.9.1.1 CompactFlash ...............................................................................................................................318
6.9.1.2 SmartMedia ..................................................................................................................................319
6.9.1.3 Cartes xD.....................................................................................................................................319
6.9.1.4 Cartes MMC ................................................................................................................................320
6.9.1.5 Memory Stick ................................................................................................................................320
6.9.1.6 Cartes SD.....................................................................................................................................321
6.9.1.7 Controladores ...............................................................................................................................322
6.9.1.8 miniSD e microSD .........................................................................................................................323
6.9.1.9 SDHC .............................................................................................................................................325
6.10 Estado Slido: Os SSDs .............................................................................................................................326
6.10.1 Os Acidentes Evolutivos ....................................................................................................................327
6.10.2 Desempenho .....................................................................................................................................328
6.10.3 Ciclos De Gravao E A Questo Da Longevidade.............................................................................330
6.10.4 A Questo Da Capacidade .................................................................................................................331
6.10.5 Popularizao ....................................................................................................................................331
6.10.6 Formatos ...........................................................................................................................................332
6.11 [EXTRA] HDs Hbridos, Aceleradores E RAM-Drives.................................................................................332
6.12 Mdias pticas ..........................................................................................................................................334
6.12.1 CD (Compact Disk) .............................................................................................................................334
6.12.2 DVD (Digital Versatile Disk) ...............................................................................................................337
6.12.3 Blu-ray ...............................................................................................................................................338
Exerccios..........................................................................................................................................................341
Cap. 7: Placas de Video............................................................................................................................ 342
7.1 Um Resumo sobre Placas de Video............................................................................................................342
7.2 FPS, V-Sync, Triple Buffering e tearing .......................................................................................................345
7.3 Recursos bsicos ........................................................................................................................................348
7.3.1 O Chipset .............................................................................................................................................348
7.3.2 Clock da GPU .......................................................................................................................................349
7.3.3 Fill Rate ................................................................................................................................................350
7.3.4 Shaders e Stream Processors ..............................................................................................................351
7.3.5 TMUs e ROPs .......................................................................................................................................354
7.3.6 Memria ..............................................................................................................................................355
7.3.7 Antialiasing e Anisotropic Filtering......................................................................................................359
7.3.8 Entendendo o SLI ................................................................................................................................362
7.3.9 CrossFire ..............................................................................................................................................367
7.3.10 TurboCache e HyperMemory ............................................................................................................370
7.4 As APIs: DirectX e OpenGL .........................................................................................................................371
7.5 O mundo da fsica: Physics, Physx e Havok ................................................................................................377
7.6 Como Escolher uma Placa de Video? .........................................................................................................379
7.6.1 Entendendo o Mercado de GPUs ........................................................................................................380
7.6.2 Maior Quantidade de Memria nem Sempre Quer Dizer Alguma Coisa ............................................382
7.6.3 Entendendo as Denominaes/Modelos das Placas de Video ...........................................................382
7.6.3.1 AMD: Radeon................................................................................................................................382
7.6.3.2 nVidia: GeForce ............................................................................................................................383
7.6.4 Dificil Comparar Arquiteturas Diferentes .........................................................................................383
7.6.5 Uma Forma Segura de Conhecer o Desempenho de Uma Placa de Video .........................................384
7.6.6 Sempre Analise a Gerao Atual e a Anterior .....................................................................................385

7.6.7 Em Resumo: Dicas ao Escolher uma Placa de Video ...........................................................................386


Exerccios..........................................................................................................................................................387
Referncias Importantes ......................................................................................................................... 389
Histrico de Verses ............................................................................................................................... 390

Cap. 1: INTRODUO E CONCEITOS


1.1 O COMPUTADOR E A INFORMAO
A troca de informaes entre os seres humanos e o universo a sua volta diferem bastante da troca de
informaes entre os dispositivos eletrnicos (cmeras e computadores) a qual estamos acostumados. Esta
diferena referente forma de representao da informao. Todas as informaes que chegam at nossos
olhos provem de ondas eletromagnticas analgicas. Uma informao analgica pode teoricamente assumir
qualquer valor numrico real de - a +. Isto significa que a faixa de valores que determinada informao
analgica pode assumir infinita. Mesmo que voc restrinja os intervalos, como a tenso a que um dispositivo
ficar submetido de 0 a 5V. Pergunta: Quantos valores so possveis entre 0 e 5? A resposta : Infinitos. A
medida que costumamos fazer na verdade uma aproximao, limitada obviamente pelo dispositivo
responsvel pela medio do valor.
Voc j deve estar comeando a perceber como seria difcil ou mesmo impossvel para um computador
manipular informaes analgicas. Alm da complexidade, nunca saberamos ao certo se o nosso resultado
final de fato rigorosamente vlido. O passo chave foi, portanto, a criao de uma nova forma de
representao da informao, o que implicou diretamente em um novo sistema numrico.

1.2 SINAIS DIGITAIS E NMEROS BINRIOS


Um sistema digital um sistema no qual os sinais tem um nmero finito de valores discretos (bem
definidos, enumerveis). Como um exemplo elementar, uma balana digital mede o peso atravs de sinais
discretos que indicam a massa (gramas ou kilogramas); por outro lado, uma balana analgica mede o peso
atravs de um sinal contnuo correspondente a posio de um ponteiro sobre uma escala.
Os benefcios dos sistemas digitais so muitos. Por exemplo:
1. A representao digital bem adequada tanto para processamento numrico como no-numrico de
informao. Um exemplo de informao no-numrica a linguagem escrita, na qual as letras tem
valores do alfabeto finito A, B, C... etc..
2. O processamento da informao pode usar um sistema para propsitos gerais (um computador) que
seja programado para uma tarefa de processamento particular (como o de imagens), eliminando a
necessidade de haver um sistema diferente para cada tarefa.
3. O nmero finito de valores num sinal digital pode ser representado por um vetor (conjunto de valores)
de sinais com apenas dois valores (sinais binrios). Por exemplo, os dez valores de um dgito decimal
podem ser representados por um vetor de quatro sinais binrios (ou bits), da seguinte maneira:
dgito
vetor

0000 0001 0010 0011 0100 0101 0110 0111 1000 1001

4. Esta representao permite implementaes nas quais todos os sinais so binrios; em consequncia,
os dispositivos que processam esses sinais so muito simples (fundamentalmente, apenas chaves com
dois estados: aberto e fechado). Falaremos mais sobre nmeros binrios frente.
5. Os sinais digitais so bastante insensveis a variaes nos valores dos parmetros dos componentes
(por exemplo, temperatura de operao, rudo), de modo que pequenas variaes na representao
fsica no mudam o valor efetivo.
9

6. Os sistemas digitais numricos podem se tornar mais exatos simplesmente aumentando-se o nmero
de dgitos usados na sua representao.

1.2.1 MAIS SOBRE NMEROS BINRIOS


Antes de compreender melhor como funciona a representao em base binria (base 2), observe como um
nmero qualquer formado na base em que estamos acostumados a lidar, a base 10. Tome por exemplo o
nmero decimal 123. Veja s como o mesmo formado:
123 = 1 x 102 + 2 x 101 + 3 x 100
Perceba que cada algarismo, em particular, dependendo da posio em que o mesmo se encontra, ele
determina um valor relativo. O algarismo 1 na casa das centenas, determina de fato uma centena. O 2
determina duas dezenas e o 3, trs unidades. Perceba que a base dita dez uma vez que qualquer nmero
escrito nessa base pode ser desmembrado numa soma de potncias de 10, multiplicadas por uma faixa de 10
algarismos definidos (0 9). Observe que no coincidncia termos n diferentes algarismos para uma base n.
Pense agora que ao invs de dispor de 10 algarismos diferentes, dispomos de apenas dois. Vamos chamar
esses algarismos de 0 (zero) e 1 (um). De forma absolutamente anloga, pense no nmero 1111011 expresso
na base 2. Desmembrando o mesmo temos:
1111011 = 1 x 26 + 1 x 25 + 1 x 24 + 1 x 23 + 0 x 22 + 1 x 21 + 1 x 20
O nmero representado acima na base binria exatamente o mesmo nmero 123 representado na base
10 acima. vital que voc observe que quanto menos algarismos eu dispuser para a minha representao, ou
seja, quanto menor for a minha base, uma sequncia cada vez maior de algarismos necessria para
representar um valor qualquer. Na base binria em especial, cada algarismo, seja ele 0 ou 1, chamado de bit
(binary digit).
No muito comum descrevermos quantidades binrias em bits. Costumamos expressar os valores em
bytes, que so agrupamentos formados por 8 bits. Outros mltiplos tambm existem e so expressos em
relao a byte, alguns deles so:
1 Kilobyte (KB)

210 bytes
20

1.024 bytes

1 Megabyte (MB)

2 bytes

1.048.576 bytes

1 Gigabyte (GB)

230 bytes

1.073.741.824 bytes

1 Terabyte (TB)

40

2 bytes

1.099.511.627.776 bytes

Outro importante fato a ser observado no caso dos nmeros binrios que a faixa de valores possvel de
ser expressa numa dada quantidade de bits relativamente pequena comparada aos nmeros decimais. Por
exemplo, na base dez, dispondo de uma sequncia formada por oito algarismos, conseguimos representar 108
valores diferentes, ou seja, de 0 a 99.999.999. J na base binria, com uma sequncia de oito dgitos (8 bits),
conseguimos representar 28 valores diferentes, ou seja, 256 valores distintos (0 a 255).

1.3 BASE HEXADECIMAL


Uma vez compreendida a base binria e decimal, fica fcil compreender a base hexadecimal, ou base 16.
Essa base possui no apenas 2 ou 10 algarismos, mas 16 algarismos diferentes. Veja a correspondncia entre
decimais, binrios e hexadecimais correspondentes:
010 = 00002 = 016

410 = 01002 = 416

810 = 10002 = 816

1210 = 11002 = C16

110 = 00012 = 116

510 = 01012 = 516

910 = 10012 = 916

1310 = 11012 = D16

210 = 00102 = 216

610 = 01102 = 616

1010 = 10102 = A16

1410 = 11102 = E16

310 = 00112 = 316

710 = 01112 = 716

1110 = 10112 = B16

1510 = 11112 = F16


10

Voc pode estar pensando, por que motivo eu precisaria de mais uma base?
O motivo simples. Imagine lidarmos com nmeros de 32 bits. Obviamente, na base binria precisamos de
uma sequncia de 32 algarismos, 0s e 1s, para represent-lo. Trabalhando na base hexadecimal, uma vez que
para cada agrupamento de 4 bits temos um algarismo distinto, um nmero de 32 bits pode ser representado
agora por uma sequncia de 8 algarismos.
Observe o exemplo abaixo, onde os pontos presentes na representao binria so apenas para melhor
legibilidade:
Decimal

Binrio

Hexadecimal

4.285.639.982

1111.1111.0111.0001.1010.1101.0010.1110

FF71AD2E

Cores so muitas vezes representadas por valores numricos de 24 bits (temos consequentemente
16.777.216 cores possveis). Imagine, perguntarmos para nosso colega que cor ele usou num determinado
projeto e o ouvirmos dizer uma sequncia de 24 zeros e uns! Obviamente ser muito mais simples dizer uma
simples sequncia de 6 algarismos hexadecimais, por exemplo F7FF29 que um tom de amarelo.
Mas voc pode estar se perguntando: Como fao para converter um nmero de uma base para outra,
como no exemplo acima? o que veremos na prxima seo.

1.4 CONVERSES ENTRE BASES NUMRICAS


1.4.1 DE DECIMAL PARA BINRIO
Existem basicamente duas formas de se converter de decimal para binrio.
A primeira delas envolve divises sucessivas por 2 (a base binria).
Vamos converter, por exemplo, o nmero 53 de decimal para binrio:
53 |_2_
1 26 |_2_
0 13 |_2_
1
6 |_2_
0
3 |_2_
1
1 |_2_
1
0

As divises sucessivas acabam quando o quociente chega finalmente a zero. O nmero na forma binria
formado pelos restos das divises, de baixo para cima, tal qual indicado pela seta. Assim: 5310 = 1101012
A segunda forma de fazer a converso mais direta. Observe que um nmero qualquer, escrito na base
binria, na verdade uma soma de produtos.
Imagine um nmero binrio qualquer, de 6 dgitos. Vamos cham-lo de b5b4b3b2b1b0 onde cada b um
dgito, que pode ser 0 ou 1, naturalmente. O valor desse nmero, na base decimal :
b5b4b3b2b1b0 = b5 x 25 + b4 x 24 + b3 x 23 + b2 x 22 + b1 x 21 + b0 x 20 = b5 x 32 + b4 x 16 + b3 x 8 + b2 x 4 + b1 x 2 + b0 x 1
Repare que, quando b vale 1, a parcela entra na soma que formar o nmero em decimal. Caso seja b
seja 0, aquela parcela no conta. Voltemos ao caso do 53. Pergunte-se: Qual o fator de multiplicao (1,
2, 4, 8, 16, 32, 64, 128 ...) mais prximo de 53, sem ultrapassar 53? 32, certo? Ento, j temos 32. Assim, 53 10
= 1b4b3b2b1b0. Falta-nos descobrir os demais dgitos. Repare que o fator de multiplicao do prximo dgito
16. Pergunte-se: Posso somar 32 + 16 sem ultrapassar 53? A resposta sim, pois 32 + 16 = 48 que menor que
53. Portanto, o prximo dgito tambm 1. J temos: 5310 = 11b3b2b1b0. O prximo fator de multiplicao 8.
Pergunte-se 32 + 16 + 8 menor que 53? No, j que 32 + 16 + 8 = 56 que maior que 53. Logo, a parcela do 8
11

no entra na conta e o dgito , portanto, 0. J temos: 5310 = 110b2b1b0. O raciocnio continua da mesma
forma: 32 + 16 + 4 = 52, que menor que 53. Logo 5310 = 1101b1b0. J que 52 + 2 ultrapassa 53, o penltimo
digito 0. E, finalmente, o ltimo dgito 1. Assim: 5310 = 1101012 que , naturalmente, o mesmo resultado
que encontramos da primeira forma, com divises sucessivas. Com um pouco de prtica, voc ver que a
segunda forma muito mais rpida e prtica.

1.4.2 DE BINRIO/DECIMAL PARA HEXADECIMAL


A converso de binrio para hexadecimal bastante simples. Basta agrupar os dgitos em grupos de 4, a
partir da direta e completar o ltimo grupo com zeros. O ponto, neste caso, apenas para melhor visualizao.
Observe:
5310 = 0011.01012
Agora, basta converter cada quarteto para o algarismo hexadecimal correspondente. Assim:
5310 = 0011.01012 = 3516
Outro exemplo:
1297210 = 0011.0010.1010.11002 = 32AC16
E por ltimo, para rir um pouco:
1223751410 = 1011.1010.1011.1010.1100.10102 = BABACA16

1.4.3 DE BINRIO/HEXADECIMAL PARA DECIMAL


As converses de hexadecimal/binrio para decimal podem ser facilmente executadas a partir da prpria
expresso do nmero na base correspondente, efetuando a soma de produtos, conforme extensamente
mostrado nesta seo.
Por exemplo:
1101012 = 1 x 25 + 1 x 24 + 0 x 23 + 1 x 22 + 0 x 21 + 1 x 20 = 5310
32AC16 = 3 x 163 + 2 x 162 + 10 x 21 + 12 x 20 = 1297210

1.5 CONVERSO DE SINAIS: ANALGICO PARA DIGITAL


Uma vez que os sinais do mundo fsico so analgicos, necessrio convert-los para sinais digitais e viceversa sempre que sistemas digitais tenham de interagir com estes sinais fsicos.
Considere como exemplo uma mquina fotogrfica digital. Numa viso simplificada, podemos entender o
seu funcionamento da seguinte forma:
1. A luz entra atravs das lentes e atinge um sensor que formado por uma matriz (linhas e colunas) de
microcircuitos baseados em elementos semicondutores (transistores) que so sensveis radiao
luminosa.
2. Cada um desses sensores capaz de detectar um comprimento de onda em especfico (ou seja, uma
cor), bem como a sua intensidade, e converter isso para valores de tenso. No caso de uma imagem
colorida, tem-se sensores sensveis as 3 luzes primrias: Red (Vermelho), Green (Verde) e Blue (Azul).
No modelo de cores RGB (usado por monitores, por exemplo), qualquer cor pode ser expressa pelas
suas 3 componentes (RGB).
3. O prximo passo de fato a converso dos valores analgicos de tenso para valores digitais. Esse
processo chamado de quantizao ou digitalizao.
4. Uma vez digitais, os sinais passam a ser representados por um vetor de bits. Cada ponto de uma
imagem representado por um valor de cor limitado ao nmero de bits da representao. A imagem
12

completa , portanto a enorme sequncia formada pela juno de todos os vetores de bits individuais
de cada ponto. No fundo, uma imagem digital uma sequncia de 0s e 1s que descrevem a cor de
todos os pontos que formam a imagem, um por um.
5. Uma vez tido a representao completa da imagem por uma extensa cadeia de bits, a mesma pode
sofrer inmeros processamentos (manipulaes) at chegar ao resultado final, que efetivamente o
arquivo guardado no dispositivo de memria e posteriormente transferido para o computador.

1.6 LGICA TEMPORIZADA


Na comunicao entre o processador e memria, as instrues, os dados e os endereos trafegam no
computador atravs dos barramentos (de dados, de endereos e de controle), sob a forma de bits
representados por sinais eltricos: uma tenso positiva alta (high - geralmente no em torno de 3 volts)
significando 1 e uma tenso baixa (low - prxima de zero) significando 0. Mas os dados no computador
no ficam estticos; pelo contrrio, a cada ciclo (cada estado) dos circuitos, os sinais variam, de forma a
representar novas instrues, dados e endereos. Ou seja, os sinais ficam estticos apenas por um curto
espao de tempo, necessrio e suficiente para os circuitos poderem detectar os sinais presentes no
barramento naquele instante e reagir de forma apropriada. Assim, periodicamente, uma nova configurao de
bits colocada nos circuitos, e tudo isso s faz sentido se pudermos de alguma forma organizar e sincronizar
essas variaes, de forma a que, num dado instante, os diversos circuitos do computador possam congelar
uma configurao de bits e process-las. Para isso, preciso que exista um outro elemento que fornea uma
base de tempo para que os circuitos e os sinais se sincronizem. Este circuito chamado clock - o relgio
interno do computador. Cada um dos estados diferentes que os circuitos assumem, limitados pelo sinal do
clock, chamado um ciclo de operao.

1.6.1 CLOCK
A Unidade de Controle do processador envia a todos os componentes do computador um sinal eltrico
regular - o pulso de clock - que fornece uma referncia de tempo para todas as atividades e permite o
sincronismo das operaes internas. O clock um pulso alternado de sinais de tenso, gerado pelos circuitos
de relgio (composto de um cristal oscilador e circuitos auxiliares).

1.6.2 CICLO DE OPERAO


Cada um destes intervalos regulares de tempo delimitado pelo incio da descida do sinal, e um ciclo
equivalente excurso do sinal por um low e um high do pulso.
O tempo do ciclo equivale ao perodo da oscilao. A fsica diz que perodo o inverso da frequncia. Ou
seja, P = 1 / f.
A frequncia f do clock medida em hertz. Inversamente, a durao de cada ciclo chamada de perodo,
definido por P=1/f (o perodo o inverso da frequncia).
Por exemplo, se f = 10 hz logo P = 1/10 = 0,1 s.

1 Mhz (1 megahertz) equivale a um milho de ciclos por segundo. Sendo a frequncia de um processador
medida em megahertz, o perodo ser ento medido em nanosegundos, como vemos no exemplo abaixo:
f = 10 Mhz = 10 x 106 hz
P = 10 / 106 = 0,0000001 s (segundo) = 0,0001 ms (milissegundo) = 0,1 s (microssegundo) = 100 ns
(nanosegundo)
13

Sempre que se fala sobre mquinas velozes, citamos nmeros em megahertz. Para um melhor
entendimento sobre o que ocorre na mquina, em vez de falar sobre a frequncia do clock seria mais
ilustrativo discutirmos outra grandeza: o perodo (isto , o tempo de durao de cada ciclo ou simplesmente
tempo de ciclo).
Quando se diz que um processador de 200 Mhz, est-se definindo a frequncia de operao de seu
processador (seu clock), significando que o processador pode alternar seus estados internos 200 milhes de
vezes por segundo. Isto acarreta que cada ciclo (equivalente a um estado lgico) de operao dura
1 / 200.000.000 s = 5 x 10-9 s, ou seja, 5 ns.
Como podemos ver pelo exemplo a seguir, o processador com o clock ilustrado em (B) teria um tempo de
ciclo cinco vezes menor que o (A) e, portanto teria (teoricamente) condies de fazer cinco vezes mais
operaes no mesmo tempo.

Quando analisamos os nmeros de clock de um processador ou barramento, pode ficar uma impresso
que esses nmeros no fazem sentido: 133 MHz, 166 MHz... Vejamos como ficam seus perodos, e como esses
nmeros apresentam um padro regular:
Frequncia (MHz)

Perodo (ns)

25

40

33

30

40

25

50

20

66

15

100

10

133

7.5

166

200

266

3.75

1.7 COMPUTADOR PC: COMPONENTES BSICOS


Qualquer PC composto pelos mesmos componentes bsicos: processador, memria, HD, placa-me,
placa de vdeo e monitor. Essa mesma diviso bsica se aplica tambm a outros aparelhos eletrnicos, como
palmtops e celulares. A principal diferena que neles os componentes so integrados numa nica placa de
circuito (muitas vezes no mesmo chip) e so utilizados chips de memria flash no lugar do HD.
Antigamente, a placa-me funcionava apenas como um ponto central, contendo os slots e barramentos
usados pelos demais componentes. Alm do processador e pentes de memria, era necessrio comprar a
placa de vdeo, placa de som, modem, rede, etc. Cada componente era uma placa separada.
14

Com a integrao dos componentes, a placa-me passou a incluir cada vez mais componentes, dando
origem s placas "tudo onboard" que utilizamos atualmente (existem placas que j vm at com o processador
e chips de memria!). Isso permitiu que os preos dos PCs cassem assustadoramente, j que, com menos
componentes, o custo de fabricao bem menor. Para quem quer mais desempenho ou recursos, sempre
possvel instalar placas adicionais, substituindo os componentes onboard.
Com o micro montado, o prximo passo instalar o sistema operacional e programas, que finalmente vo
permitir que ele faa algo de til. Vamos comear com um overview da funo de cada um destes
componentes.

1.7.1 PROCESSADOR
O processador o crebro do micro, encarregado de processar a maior
parte das informaes. Ele tambm o componente onde so usadas as
tecnologias de fabricao mais recentes.
Existem no mundo apenas quatro grandes empresas com tecnologia
para fabricar processadores competitivos para micros PC: a Intel (que
domina mais de 60% do mercado), a AMD (que disputa diretamente com a
Intel), a VIA (que fabrica alguns chips em pequenas quantidades) e a IBM, que esporadicamente fabrica
processadores para outras empresas.
O processador o componente mais complexo e frequentemente o mais caro, mas ele no pode fazer
nada sozinho. Como todo crebro, ele precisa de um corpo, que formado pelos outros componentes do
micro, incluindo memria, HD, placa de vdeo e de rede, monitor, teclado e mouse.
O transstor a unidade bsica do processador, capaz de processar um bit de cada vez. Mais transistores
permitem que o processador processe mais instrues de cada vez enquanto a frequncia de operao
determina quantos ciclos de processamento so executados por segundo.

1.7.2 MEMRIA
Depois do processador, temos a memria RAM, usada por ele para
armazenar os arquivos e programas que esto sendo executados, como uma
espcie de mesa de trabalho. A quantidade de memria RAM disponvel tem
um grande efeito sobre o desempenho, j que sem memria RAM suficiente
o sistema passa a usar memria swap, que muito mais lenta.
A principal caracterstica da memria RAM que ela voltil, ou seja, os
dados se perdem ao reiniciar o micro. por isso que ao ligar necessrio
sempre refazer todo o processo de carregamento, em que o sistema
operacional e aplicativos usados so transferidos do HD para a memria,
onde podem ser executados pelo processador.
Os chips de memria so vendidos na forma de pentes de memria. Existem pentes de vrias capacidades,
e normalmente as placas possuem dois ou trs encaixes disponveis. Hoje em dia, 1 GB por mdulo
normalmente o mnimo que se encontra disponvel no mercado.
Ao contrrio do processador, que extremamente complexo, os chips de memria so formados pela
repetio de uma estrutura bem simples, formada por um par de um transstor e um capacitor. Um transstor
solitrio capaz de processar um nico bit de cada vez, e o capacitor permite armazenar a informao por um
certo tempo. Essa simplicidade faz com que os pentes de memria sejam muito mais baratos que os
processadores, principalmente se levarmos em conta o nmero de transistores.

15

Todos os micros modernos so equipados com algum tipo de memria DDR, seja ela DDR, DDR2 ou DDR3.
Antigamente, na poca dos Pentium II e III e os primeiros Athlons e Durons, eram as SDR (tipo mais antigo e
mais lento) que dominavam o mercado.
Apesar de fisicamente muito parecidas, fcil diferenciar os pentes SDR, DDR, DDR2 e DDR3, pois cada
uma delas possui um ou mais chanfros que impedem que sejam usadas inadequadamente (uma vez que todas
so incompatveis entre si).
De qualquer forma, apesar de toda a evoluo a memria RAM continua sendo muito mais lenta que o
processador. Para atenuar a diferena, so usados dois nveis de cache, includos no prprio processador: o
cache L1, L2 e em alguns modelos de processador, o cache L3.
O cache L1 extremamente rpido, trabalhando prximo freqncia nativa do processador. Na verdade,
os dois trabalham na mesma freqncia, mas so necessrios alguns ciclos de clock para que a informao
armazenada no L1 chegue at as unidades de processamento. Possui alguns poucos KB de capacidade
(geralmente menos de 128KB) e dividido em cache de dados e cache de instrues.
Em seguida vem o cache L2, que mais lento tanto em termos de tempo de acesso (o tempo necessrio
para iniciar a transferncia) quanto em largura de banda, mas bem mais econmico em termos de
transistores, permitindo que seja usado em maior quantidade (podendo chegar a 1 MB).
De uma forma geral, quanto mais rpido o cache, mais espao ele ocupa e menos possvel incluir no
processador. Em processadores multicore (vrios ncleos), cada ncleo possui seu prprio cache L1 e L2.
Por fim, temos o cache L3, cada vez mais comum em processadores modernos, multi-ncleos. Ele
consideravelmente mais lento que os L1 e L2, e se diferencia dos demais principalmente por ser de uso
compartilhado entre os ncleos e ter uma capacidade na ordem de vrios megabytes.

1.7.3 HD
No final das contas, a memria RAM funciona como uma mesa
de trabalho, cujo contedo descartado a cada boot. Temos em
seguida o disco rgido, tambm chamado de hard disk (o termo em
Ingls), HD ou at mesmo de "disco duro" pelos nossos primos
lusitanos. Ele serve como unidade de armazenamento permanente,
guardando dados e programas.
O HD armazena os dados em discos magnticos que mantm a
gravao por vrios anos. Os discos giram a uma grande velocidade e
um conjunto de cabeas de leitura, instaladas em um brao mvel
faz o trabalho de gravar ou acessar os dados em qualquer posio
nos discos. Junto com o CD-ROM, o HD um dos poucos componentes mecnicos ainda usados nos micros
atuais e, justamente por isso, o que normalmente dura menos tempo (em mdia de trs a cinco anos de uso
contnuo) e que inspira mais cuidados.
Na verdade, os discos magnticos dos HDs so selados, pois a superfcie magntica onde so armazenados
os dados extremamente fina e sensvel. Qualquer gro de poeira que chegasse aos discos poderia causar
danos superfcie, devido enorme velocidade de rotao dos discos. Fotos em que o HD aparece aberto so
apenas ilustrativas, no mundo real ele apenas uma caixa fechada sem tanta graa.
Um fato importante que, apesar de no ser voltil (ao contrrio das RAMs que perdem todos os dados
assim que o computador desligado), o HD muito mais lento que a memria RAM. Enquanto um simples
mdulo DDR2-533 (PC2-4200) comunica-se com o processador a uma velocidade terica de 4200 megabytes
por segundo, a velocidade de leitura sequencial dos HDs atuais (situao em que o HD mais rpido)
dificilmente ultrapassa a marca dos 100 MB/s, em mdia.
16

Para piorar as coisas, o tempo de acesso do HD (o tempo necessrio para localizar a informao e iniciar a
transferncia) absurdamente mais alto que o da memria RAM. Enquanto na memria falamos em tempos
de acesso inferiores a 10 nanosegundos (milionsimos de segundo), a maioria dos HDs trabalha com tempos
de acesso superiores a 10 milissegundos.
Aos poucos, os discos de estado slido (SSDs), que so dispositivos formatos por memria flash, aos
poucos esto substituindo os HDs em alguns cenrios, como para a instalao de sistemas operacionais. Sua
popularizao s no mais rpida devido ao alto custo e capacidade significativamente inferior j que, na
questo do desempenho, so indiscutivelmente mais rpidos.

1.7.4 PLACA DE VDEO


A placa de vdeo um dos componentes mais importantes
do PC. Originalmente, as placas de vdeo eram dispositivos
simples, que se limitavam a mostrar o contedo da memria de
vdeo no monitor. A memria de vdeo continha um simples
bitmap da imagem atual, atualizada pelo processador, e o
RAMDAC (um conversor digital-analgico que faz parte da placa
de vdeo) lia a imagem periodicamente e a enviava ao monitor.
A resoluo mxima suportada pela placa de vdeo era limitada pela quantidade de memria de vdeo. Na
poca, memria era um artigo caro, de forma que as placas vinham com apenas 1 ou 2 MB. As placas de 1 MB
permitiam usar no mximo 800x600 com 16 bits de cor, ou 1024x768 com 256 cores. Estavam limitadas ao que
cabia na memria de vdeo.
Em seguida, as placas passaram a suportar recursos de acelerao, que permitem fazer coisas como mover
janelas ou processar arquivos de vdeo de forma a aliviar o processador principal. Esses recursos melhoram
bastante a velocidade de atualizao da tela (em 2D), tornando o sistema bem mais responsivo.
Finalmente, as placas deram o passo final, passando a suportar recursos 3D. Imagens em trs dimenses
so formadas por polgonos, formas geomtricas como tringulos e retngulos em diversos formatos.
Qualquer objeto em um game 3D formado por um grande nmero destes polgonos, Cada polgono tem sua
posio na imagem, um tamanho e cor especficos. O "processador" includo na placa, responsvel por todas
estas funes chamado de GPU (Graphics Processing Unit, ou unidade de processamento grfico).
Apesar de o processador tambm ser capaz de criar imagens tridimensionais, trabalhando sozinho ele no
capaz de gerar imagens de qualidade a grandes velocidades (como as demandadas por jogos complexos),
pois tais imagens exigem um nmero absurdo de clculos e processamento. Para piorar ainda mais a situao,
o processador tem que ao mesmo tempo executar vrias outras tarefas relacionadas com o aplicativo.
As placas aceleradoras 3D, por sua vez, possuem processadores dedicados, cuja funo unicamente
processar as imagens, o que podem fazer com uma velocidade incrvel, deixando o processador livre para
executar outras tarefas. Com elas, possvel construir imagens tridimensionais com uma velocidade suficiente
para criar jogos complexos a um alto frame-rate.
Depois dos jogos e aplicativos profissionais, os prximos a aproveitarem as funes 3D das placas de vdeo
foram os prprios sistemas operacionais. A idia fundamental que, apesar de toda a evoluo do hardware,
continuamos usando interfaces muito similares s dos sistemas operacionais do final da dcada de 80, com
janelas, cones e menus em 2D. Embora o monitor continue sendo uma tela bidimensional, possvel criar a
iluso de um ambiente 3D, da mesma forma que nos jogos, permitindo criar todo tipo de efeitos interessantes
e, em alguns casos, at mesmo teis ;-).
No caso do Windows Vista/7 temos o Aero, enquanto no Linux a soluo mais usada o AIGLX, disponvel
na maioria das distribuies atuais.
17

Com a evoluo das placas 3D, os games passaram a utilizar grficos cada vez mais elaborados, explorando
os recursos das placas recentes. Isso criou um crculo vicioso, que faz com que voc precise de uma placa
razoavelmente recente para jogar qualquer game atual.
As placas 3D atuais so praticamente um computador parte, pois alm da qualidade generosa de
memria RAM, acessada atravs de um barramento muito mais rpido que a do sistema, o chipset de vdeo
muito mais complexo e absurdamente mais rpido que o processador principal no processamento de grficos.
As placas 3D offboard tambm incluem uma quantidade generosa de memria de vdeo (512 MB ou mais
nos modelos mais recentes), acessada atravs de um barramento muito rpido. O GPU (o chipset da placa)
tambm muito poderoso, de forma que as duas coisas se combinam para oferecer um desempenho
monstruoso.
Longe do mundo brilhante das placas de alto desempenho, temos as placas onboard, que so de longe as
mais comuns. Elas so solues bem mais simples, onde o GPU integrado ao chipset da placa-me (ou, nas
arquiteturas mais modernas, dentro do prprio processador) e, em vez de utilizar memria dedicada, como
nas placas offboard, utiliza parte da memria RAM principal, que "roubada" do sistema.
De uma forma geral, as placas de vdeo onboard (pelo menos os modelos que dispem de drivers
adequados) atuais atendem bem s tarefas do dia-a-dia, com a grande vantagem do custo. Elas tambm
permitem rodar os games mais antigos, apesar de, naturalmente, ficarem devendo nos lanamentos recentes.
As placas mais caras so reservadas a quem realmente faz questo de rodar os games recentes com uma boa
qualidade. Existem ainda modelos de placas 3D especficos para uso profissional, como as nVidia Quadro.

1.7.5 PLACA-ME
A placa-me o componente mais importante do micro, pois
ela a responsvel pela comunicao entre todos os
componentes. Pela enorme quantidade de chips, trilhas,
capacitores e encaixes, a placa-me tambm o componente
que, de uma forma geral, mais d defeitos. comum que um slot
PCI pare de funcionar (embora os outros continuem normais),
que instalar um pente de memria no segundo soquete faa o
micro passar a travar, embora o mesmo pente funcione
perfeitamente no primeiro e assim por diante.
A maior parte dos problemas de instabilidade e travamentos
so causados por problemas diversos na placa-me, por isso ela
o componente que deve ser escolhido com mais cuidado. Em
geral, vale mais a pena investir numa boa placa-me e economizar nos demais componentes, do que o
contrrio.
A qualidade da placa-me de longe mais importante que o desempenho do processador. Voc mal vai
perceber uma diferena de 20% no clock do processador, mas com certeza vai perceber se o seu micro
comear a travar ou se a placa de vdeo onboard no tiver um bom suporte no Linux, por exemplo.
Ao montar um PC de baixo custo, economize primeiro no processador, depois na placa de vdeo, som e
outros perifricos. Deixe a placa-me por ltimo no corte de despesas.
Antigamente existia a polmica entre as placas com ou sem componentes onboard. Hoje em dia isso no
existe mais, pois todas as placas vm com som e rede onboard. Apenas alguns modelos no trazem vdeo
onboard, atendendo ao pblico que vai usar uma placa 3D offboard e prefere uma placa mais barata ou com
mais slots PCI do que com o vdeo onboard que, de qualquer forma, no vai usar.

18

Os conectores disponveis na placa esto muito relacionados ao nvel de atualizao do equipamento.


Placas atuais incluem conectores PCI Express x16, usados para a instalao de placas de vdeo offboard, slots
PCI Express x1 e slots PCI, usados para a conexo de perifricos diversos. Placas antigas no possuem slots PCI
Express nem portas SATA, oferecendo no lugar um slot AGP para a conexo da placa de vdeo e duas ou quatro
portas IDE para a instalao dos HDs e drives pticos.
Temos ainda soquetes para a instalao dos mdulos de memria, o soquete do processador, o conector
para a fonte de alimentao e o painel traseiro, que agrupa os encaixes dos componentes onboard, incluindo o
conector VGA ou DVI do vdeo, conectores de som, conector da rede e as portas USB.
O soquete (ou slot) para o processador a principal caracterstica da placa-me, pois indica com quais
processadores ela compatvel. O soquete na verdade apenas um indcio de diferenas mais "estruturais" na
placa, incluindo o chipset usado, o layout das trilhas de dados, etc. preciso desenvolver uma placa quase que
inteiramente diferente para suportar um novo processador.
Existem dois tipos de portas para a conexo do HD: as portas IDE tradicionais, de 40 pinos (chamadas de
PATA, de "Parallel ATA") e os conectores SATA (Serial ATA), que so muito menores. Muitas placas recentes
incluem um nico conector PATA e quatro conectores SATA. Outras incluem as duas portas IDE tradicionais e
dois conectores SATA, e algumas j passam a trazer apenas conectores SATA, deixando de lado os conectores
antigos.
Existem ainda algumas placas "legacy free", que eliminam tambm os conectores para o drive de disquete,
portas seriais e porta paralela, incluindo apenas as portas USB. Isso permite simplificar o design das placas,
reduzindo o custo de produo para o fabricante.

1.7.6 HARDWARE X SOFTWARE


Os computadores so muito bons em armazenar informaes e fazer clculos, mas no so capazes de
tomar decises sozinhos. Sempre existe um ser humano orientando o computador e dizendo a ele o que fazer
a cada passo. Seja voc mesmo, teclando e usando o mouse, ou, num nvel mais baixo, o programador que
escreveu os programas que voc est usando.
Chegamos ento aos softwares, gigantescas cadeias de instrues que permitem que os computadores
faam coisas teis. a que entra o sistema operacional e, depois dele, os programas que usamos no dia-a-dia.
Um bom sistema operacional invisvel. A funo dele detectar e utilizar o hardware da mquina de
forma eficiente, fornecendo uma base estvel sobre a qual os programas que utilizamos no cotidiano possam
ser usados. Como diz Linus Torvalds, as pessoas no usam o sistema operacional, usam os programas
instalados. Quando voc se lembra que est usando um sistema operacional, sinal de que alguma coisa no
est funcionando como deveria.
O sistema operacional permite que o programador se concentre em adicionar funes teis, sem ficar se
preocupando com que tipo de placa de vdeo ou placa de som voc tem. O programa diz que quer mostrar
uma janela na tela e ponto; o modelo de placa de vdeo que est instalado e que comandos so necessrios
para mostrar a janela so problema do sistema operacional.
Para acessar a placa de vdeo, ou qualquer outro componente instalado, o sistema operacional precisa de
um driver, que um pequeno programa que trabalha como um intrprete, permitindo que o sistema converse
com o dispositivo. Cada placa de vdeo ou som possui um conjunto prprio de recursos e comandos que
permitem us-los. O driver converte esses diferentes comandos em comandos padro, que so entendidos
pelo sistema operacional.
Embora as duas coisas sejam igualmente importantes, existe uma distino entre o "hardware", que inclui
todos os componentes fsicos, como o processador, memria, placa-me, etc. e o "software", que inclui o
sistema operacional, os programas e todas as informaes armazenadas.
19

EXERCCIOS
1) O que so sinais digitais e sinais analgicos?
2) Por que apropriado que computadores trabalhem com os nmeros binrios?
3) A base hexadecimal e a binria so conversveis entre si muito facilmente. Voc capaz de justificar o
porqu?
4) Converta os seguintes nmeros binrios para os decimais equivalentes:
a. 001100 b. 000011

c. 011100

d. 111100

e. 101010

5) Converta os seguintes nmeros decimais para os binrios equivalentes:


a. 64

b. 100

c. 111

d. 145

e. 255

6) Converta os seguintes nmeros hexadecimais para seus decimais equivalentes:


a. C

b. 9F

c. D52

d. 67E

e. ABCD

7) Converta os seguintes nmeros hexadecimais para seus binrios equivalentes


a. E

b. 1C

c. A64

d. 1F

e. 239

8) O que o sinal de clock e por que ele to importante para o computador?


9) Quais os componentes bsicos de um PC?

20

Cap. 2: PROCESSADORES
2.1 INTRODUO
Os microprocessadores por vezes chamados de processadores ou
simplesmente CPU (Central Processing Unit) ou ainda em portugus, UCP
(Unidade Central de Processamento) so circuitos integrados passveis
de serem programados para executar uma tarefa predefinida,
basicamente manipulando e processando dados. Resumidamente, o papel
do microprocessador somente um: pegar dados, processar esses dados
conforme programao prvia e devolver o resultado. De onde vm tais
dados e para onde vai o resultado , para ele, indiferente.
Tal programao feita atravs de instrues. Todo microprocessador tem um conjunto de instrues, ou
seja, um conjunto limitado de tarefas que pode executar. A uma sequncia de instrues damos o nome de
programa ou software. Para que um processador seja capaz de executar um programa, ele dever ser capaz de
reconhecer as instrues presentes no programa.
A relao do processador com o restante do micro de crucial importncia. ele que processa programas
e que comanda todas as tarefas produzidas pelo micro, por exemplo, transferir dados para o vdeo.
Nosso estudo sobre processadores ser o mais extenso dessa disciplina. Isto porque cobriremos
basicamente toda a histria dos processadores usados nos microcomputadores PC. Contudo, voc pode estar
se perguntando: Por que no estudamos apenas os processadores modernos, atualmente em uso? A resposta
simples e se d por dois motivos:
1. Um processador moderno, tecnologicamente avanado, no surge do nada. Apesar de apresentarem
um ou mais recursos inovadores, a base sempre uma evoluo de alguma arquitetura anterior. Em
outras palavras, no se reinventa a roda. As arquiteturas e tcnicas usadas so sempre aperfeioadas.
2. Um estudo histrico permite compreender gradativamente evoluo dos processadores, quando e
porque cada recurso/tecnologia/conceito surgiu e como isso afetou o desempenho do sistema. Alm
disso, essa abordagem torna mais fcil o aprendizado.
Evidentemente, estudaremos os processadores modernos com maior riqueza de detalhes (visto serem o
que vocs mais usaro no dia a dia), abordando de maneira resumida os modelos antigos. De modo geral,
quanto mais antigo um processador, mais objetivamente falaremos sobre ele.

2.2 PROCESSADORES PR-HISTRICOS: DO PRINCPIO AO INTEL 486


O primeiro microchip, o 4004, foi lanado pela Intel em 1971. Ele era um chip bastante primitivo, que
processava instrues de 8 bits, transferia os dados atravs de um barramento de apenas 4 bits, operava a
apenas 740 kHz e era muito lento, muito mais que uma calculadora moderna. Ele era capaz de processar
apenas 74 mil instrues por segundo (ao contrrio dos bilhes de instrues por segundo dos processadores
atuais. Um simples Intel Core i5 passa facilmente de 10 bilhes de operaes por segundo)
Pouco tempo depois, a Intel lanou um processador de 8 bits, o 8008, que foi logo substitudo pelo 8080,
uma verso aperfeioada que fez sucesso durante muitos anos. Ele operava a 2 MHz e era capaz de processar
500 mil instrues por segundo, o que na poca era um valor assombroso. Como se no bastasse, ele era
capaz de acessar incrveis 64 kbytes de memria, mais do que qualquer mortal poderia sonhar... :) O 8080 foi o
chip usado no Altair 8800 que, lanado no final de 1974, considerado por muitos o primeiro computador
pessoal da histria.
21

2.2.1 O SURGIMENTO DO PC
Depois dos dinossauros da primeira metade da dcada de 70, os computadores pessoais finalmente
comearam a atingir um nvel de desenvolvimento suficiente para permitir o uso de aplicativos srios.
Surgiram ento os primeiros aplicativos de processamento de texto, planilhas e at mesmo programas de
editorao e desenho, que aproveitavam ao mximo os recursos oferecidos pelas mquinas de 8 bits da poca.
Esse mercado crescente chamou a ateno da IBM, o que levou ao incio da era PC.
A IBM de 1980 era uma empresa especializada em mainframes e terminais burros. Entretanto, percebendo
a crescente demanda por computadores pessoais, decidiram criar um pequeno grupo (que originalmente
possua apenas 12 desenvolvedores) para desenvolver um computador pessoal, sem grandes pretenses.
O PC era considerado um projeto menor dentro da IBM, apenas uma experincia para testar a demanda do
mercado. O projeto chegou a ser marginalizado dentro da empresa,
pois muitos executivos acreditavam que o IBM PC poderia concorrer
com outros produtos do portflio da IBM, canibalizando as vendas.
Depois de quase um ano de desenvolvimento, o projeto rendeu
frutos e o primeiro PC foi lanado em 12 de agosto de 1981.
Para cortar custos e acelerar o desenvolvimento, a equipe decidiu
que usaria apenas componentes padronizados, que pudessem ser
encontrados facilmente no mercado. O processador escolhido foi o
Intel 8088, uma verso econmica do 8086, que havia sido lanado
pela Intel em 1978. Quando a IBM estava desenvolvendo seu computador pessoal, chegou a ser cogitado o uso
do 8086, mas acabou sendo escolhido o 8088 devido questo do custo.
O 8088 capaz de acessar at 1 MB de memria RAM (embora o PC original suportasse apenas 256 KB,
devido a limitaes por parte da placa-me) e funciona a 4.77 MHz, oferecendo um desempenho mais do que
respeitvel para os padres da poca.
O aspecto tcnico no foi o determinante para o sucesso do PC. Ele era um bom computador para a poca,
mas era caro e no tinha nada que os concorrentes no pudessem usar em seus produtos. Ele tinha tudo para
ser apenas mais um no mercado, se no fosse um diferencial importante: a arquitetura aberta.
Diferente de outros computadores da poca, qualquer fabricante podia desenvolver e vender acessrios
para o PC, sem pagar royalties ou fazer acordos de licenciamento. Como todos os componentes podiam ser
encontrados no mercado, era possvel tambm desenvolver clones, computadores compatveis com o PC,
fabricados por outras empresas. Isso lentamente fez com que toda a indstria passasse a orbitar em torno do
PC, o que levou a um crescimento assombroso da plataforma.
Na configurao bsica (sem monitor, apenas 16 KB de memria RAM, gabinete e teclado), o PC custava
"apenas" 1.564 dlares da poca, mas incluindo mais 48 KB de memria, dois drives de disquete e um monitor
mono de 12", o preo chegava facilmente a 2.500 dlares, que equivalem a mais de 7.000 dlares em valores
atuais.
Na poca, os HDs ainda eram um componente caro e extico. Em 1981, um Seagate ST-506 (o modelo mais
popular at ento) custava mais de 1.000 dlares (da poca) e tinha apenas 5 MB de capacidade.
Ao usar um PC sem HD, o sistema operacional e todos os programas eram carregados a partir de disquetes
de 5". Inicialmente eram usados disquetes de 180 KB, mas eles foram logo substitudos por disquetes de 360
KB (onde eram usadas as duas faces do disco) e, alguns anos mais tarde, por disquetes de "alta densidade",
com 1.2 MB. Os disquetes de 3.5" com 1.44 MB, usados at pouco tempo, passaram a ser usados nos PCs
apenas em 1987, com o lanamento do IBM PS/2.
O PC original era monotarefa, de forma que para carregar outro programa, voc precisava primeiro
encerrar o primeiro e trocar o disquete dentro do drive.
22

O sistema operacional usado no PC original era o MS-DOS 1.0 (na poca ainda chamado de PC-DOS), que
foi desenvolvido s pressas pela Microsoft com base num sistema operacional mais simples, o QDOS, que foi
por sua vez comprado da Seattle Computers, uma pequena empresa desenvolvedora de sistemas.
Na poca, a IBM acreditava que ganharia dinheiro vendendo as mquinas e no vendendo sistemas
operacionais e softwares, o que era considerado um negcio menor, que acabou sendo dado de bandeja para
a Microsoft.
Com o passar do tempo, os executivos da IBM se arrependeram amargamente da deciso, pois a
concorrncia entre os diversos fabricantes derrubou os preos e as margens de lucro dos PCs, enquanto a
Microsoft conseguiu atingir um quase monoplio do sistema operacional e, sem concorrentes de peso, passou
a trabalhar com margens de lucro cada vez maiores.
Um fabricante de memrias, como a Micron, trabalha normalmente com margens de lucro abaixo de 1%;
conseguem ganhar dinheiro apenas por venderem quantidades muito grandes. Um integrador como a Dell
trabalha com margens de 3 a 5% (e leva prejuzo s vezes, nas unidades que ficam muito tempo em estoque
ou no vendem), enquanto a Microsoft (mesmo com toda a pirataria) trabalha com margens superiores a 80%
vendendo o Windows e Office: um negcio da China.
Voltando histria, dois anos depois foi lanado o PC XT, que apesar de continuar usando o 8088 de 4.77
MHz, vinha bem mais incrementado, com 256 KB de RAM, disco rgido de 10 MB, monitor CGA e o MS-DOS
2.0.
O XT se tornou um computador bastante popular, rapidamente clonado por outros fabricantes, que
passaram a vender verses modificadas, com mais memria, HDs de maior capacidade, monitores coloridos e
at mesmo verses com processadores da AMD, que vendia uma verso do 8088 capaz de operar a 10 MHz.
Ele chegou a ser at mesmo fabricado no Brasil, durante a poca da reserva de mercado.

2.2.2 O 286
Depois do XT, o prximo passo foi o PC AT, que foi o
primeiro PC baseado no Intel 286. Ele usava uma verso de 6
MHz do processador (depois surgiram verses mais rpidas,
de 8, 12 e at 16 MHz), HD de 10 MB, monitor EGA
(640x350, com 64 cores) e j usava disquetes de 5" de 1.2
MB.
Como a memria RAM ainda era um item muito caro,
existiam verses com de 256 KB a 2 MB de RAM.
O 286 trouxe vrios avanos sobre o 8088. Alm de
incorporar novas instrues, ele passou a utilizar um
barramento de 16 bits;

2.2.3 O 386 E A ERA DOS 32 BITS


Em outubro de 1985 a Intel lanou o 386, um marco na histria dos computadores, trazendo a primeira
encarnao da arquitetura de 32 bits que continua em uso basicamente at os dias de hoje.
Possuia as seguintes caractersticas:

Barramento de 32 bits (grande ganho de desempenho no acesso memria e a possibilidade de usar


barramentos mais rpidos que o ISA).

Endereamento de 32 bits para acesso memria, o que tornou possvel acessar at 4 GB (2 elevado a
32 potncia).
23

Permitia rodar um Sistema Operacional moderno, como foi o Windows 95 para a poca.

Opcionalmente, poderia usar o co-processador aritmtico, um processador adicional, que executava


clculos complexos, as famosas operaes de ponto flutuante (nmeros com vrgula, quebrados).
Ele era necessrio para rodar programas de engenharia, modelagem 3D e alguns jogos. A partir do 486
ele j vinha incorporado.

Operava a apenas 16 MHz, o que permitia que o processador operasse mesma velocidade dos chips
de memria, assim como nos processadores anteriores. Quando foi lanada a verso de 20 MHz, o
clock do processador havia se tornado maior que o suportado pelos chips de memria, o que obrigou
os projetistas a introduzirem o uso de ciclos de espera, prejudicando o desempenho. Para amenizar o
problema, foi introduzido o uso da memria cache.

A memria cache um tipo de memria ultra-rpida, que armazena os dados mais usados pelo
processador, evitando na grande maioria dos casos, que ele precise perder tempo buscando dados
diretamente na lenta memria RAM. Mesmo uma pequena quantidade de memria cache capaz de
melhorar bastante a velocidade da troca de dados entre o processador e a RAM.
Apesar de j ser bem mais rpido que a memria RAM, o 386 ainda no era um processador muito rpido,
justamente por isso, ainda no era to dependente do desempenho da memria cache quanto os
processadores atuais. Um 386 equipado com memria cache de 20 a 30% mais rpido que um 386 da mesma
frequncia, mas sem memria cache, enquanto um processador moderno pode ficar at 20 vezes mais lento
caso sejam desabilitados tanto o cache L1 quanto o cache L2.

2.2.3.1 PRINCIPAIS RECURSOS TRAZIDOS PELO 386


O 386, atravs do modo avanado de operao conhecido como Modo Protegido trouxe trs novos
recursos, usados at hoje: memria virtual, multitarefa e proteo de memria.
Memria Virtual: A capacidade do 386 de trabalhar com vrios aplicativos ao mesmo tempo (multitarefa)
realmente muito til, mas esta caracterstica traz um pequeno problema: abrindo vrios aplicativos
sucessivamente, logo a memria RAM do sistema se esgota. Para corrigir este problema, o modo protegido
traz tambm a memria virtual, que permite criar um arquivo temporrio no disco rgido, chamado de Swap
File, ou arquivo de troca, que funciona como uma extenso da memria RAM, permitindo abrir quantos
aplicativos forem necessrios, at que o espao do disco rgido se esgote.
Um exemplo que, apesar de antigo, serve de base o Windows 2000 Professional. Este, junto com os
servios bsicos ocupa cerca de 40 MB de memria. Se voc abrir o Word 97, sero necessrios mais 10 MB,
um total de quase 50 MB. Caso o micro em questo possua apenas 32 MB de memria, seria criado um
arquivo temporrio de 18 MB no disco rgido, que armazenaria os dados que no couberam na memria RAM.
O problema em usar memria virtual que o disco rgido centenas de vezes (hoje em dia esse nmero
de centena de milhares) mais lento do que a memria RAM. Um disco rgido razovel possui um tempo de
acesso em torno de 10 milessegundos (milsimos de segundo) enquanto um mdulo de memria PC-100
possui um tempo de acesso inferior a 10 nanossegundos (bilionsimos de segundo) ou seja, um tempo de
acesso um milho de vezes menor! Isso sem falar na taxa de transferncia, que corresponde a velocidade com
que os dados saem do HD e vo para a memria.
Graas a este abismo, apesar dos programas funcionarem normalmente usando memria virtual, o sistema
vai ficando cada vez mais lento. Isso pode ser facilmente sentido quando se instala um sistema operacional
mais novo (mais pesado, portanto) num PC mais antigo. A lentido insuportvel.
Hoje, com as memrias RAM estarem cada vez mais baratas (e consequentemente os computadores so
equipados com grandes quantidades), o uso swap file ainda uma realidade.

24

Todo o papel de gerenciamento desse sistema (por exemplo, definindo quem sa da RAM e vai pro HD e
vice/versa) feito pelo sistema operacional e est cada vez mais eficiente, procurando manter na memria os
dados mais usados.
Multitarefa: Multitarefa significa executar mais de uma tarefa de cada vez, como assobiar e chupar cana
ao mesmo tempo :-). Apesar de na vida real no ser muito fcil fazer duas coisas ao mesmo tempo, do ponto
de vista de um computador este processo relativamente simples. Todos os aplicativos so carregados na
memria e o processador passa a executar algumas instrues de cada aplicativo por vez. Como o processador
capaz de executar milhes de instrues por segundo, esta troca feita de maneira transparente, como se
os aplicativos estivessem realmente sendo executados ao mesmo tempo. Enquanto o processador d ateno
para um aplicativo, todos os demais ficam paralisados, esperando sua vez. A exceo quando se tem
processadores multi-ncleos, em que vrias tarefas podem realmente acontecer ao mesmo tempo, como ser
visto futuramente.
Memria Protegida: Usando a multitarefa, quase sempre teremos vrios aplicativos carregados na
memria, seja na memria RAM ou no arquivo de troca. Se no houvesse nenhum controle por parte do
processador, um aplicativo poderia expandir sua rea de memria, invadindo reas de outros aplicativos e
causando travamentos no micro.
Um editor de imagens, por exemplo, precisa ocupar mais memria conforme as imagens vo sendo
abertas ou criadas. Sem nenhuma orientao por parte do processador, simplesmente seriam ocupadas as
reas adjacentes, que poderiam tanto estar vazias, quanto estar ocupadas pelo processador de textos, por
exemplo.
Para colocar ordem na casa, foi desenvolvido o recurso de proteo de memria, que consiste no
processador isolar a rea de memria ocupada por cada aplicativo, impedindo que ele ocupe outras reas ao
seu bel prazer. Se, por acaso, o programa precisar de mais memria, o prprio processador ir procurar uma
rea vazia de memria e ordenar ao aplicativo que ocupe a rea reservada.

2.2.4 O 486
A foto da direita uma imagem de divulgao da Intel que mostra um 486 aberto. Veja que, graas ao
zoom, possvel distinguir os componentes do processador dentro da pastilha de silcio:

O 486 possua 1.2 milhes de transistores e era fabricado numa tcnica de 1 micron, o que significa que
cada transistor media um milsimo de milmetro. Como tnhamos 1.2 milhes deles, o die do processador
tinha cerca de 120 milmetros quadrados. Para efeito de comparao, o 386 tinha apenas 275.000 transistores,
quase 5 vezes menos.
Esse brutal aumento de complexidade pode ser justificado por trs inovaes introduzidas pelo 486:

Em primeiro lugar, ele adotou o uso de um co-processador aritmtico integrado, ao invs de um


chip separado, como no 386.
25

Em segundo, ele incorporou 8 KB de cache ultra-rpido diretamente no processador,


complementando o cache mais lento disponvel na placa-me. O cache interno passou a ser
chamado de cache L1 e o cache da placa-me, de cache L2. O cache L1 integrado se tornou um
item de srie em todos os processadores a partir do 486, pois melhora de forma considervel o
desempenho do processador. Por oferecer tempos de latncia muito baixos e ser instalado muito
prximo aos registradores e s unidades de execuo, o cache L1 oferece acesso quase
instantneo aos dados. Como comentei na introduo, mesmo sendo muito pequeno, o cache L1
o responsvel por cerca de 90% dos acessos.

Outra melhoria importante do 486 foi a introduo do processamento de instrues em etapas


(pipeline), recurso que utilizado at os dias de hoje. A ideia central a mesma usada nas linhas
de produo: dividir o trabalho em etapas simples, que so executadas sequencialmente por
unidades especializadas, cada uma capaz de executar seu trabalho em um nico ciclo de clock.

A unidade de execuo do 486 composta por um pipeline de 5 estgios: fetch, decode, operands,
execute e retire, os cinco passos bsicos que continuam sendo usados mesmo nos processadores atuais.
Cada instruo passa sequencialmente pelos 5 estgios. O primeiro (fetch) carrega a instruo a partir do
endereo correspondente do cache ou da memria, trazendo-a para os registradores do processador, onde ela
pode ser processada. O segundo estgio (decode) se encarrega de decodificar a instruo, ou seja, carregar o
bloco de cdigo de mquina correspondente, que contm as operaes que sero executadas.
Se o processador fosse um tcnico de manuteno, a instruo poderia ser "troque o LCD do notebook" e
o processo de decodificao poderia ser consultar um manual de procedimentos em busca dos passos que
deveriam ser executados.
O terceiro estgio (operands) tem a funo de carregar os operadores, ou seja, as informaes que sero
processadas pela instruo. Se a instruo manda somar A+B, o terceiro estgio consistiria em carregar os
valores de A e B a partir do cache.
Com todas as informaes em mos, chegamos ao quarto estgio, onde as instrues so efetivamente
executadas. O conjunto de instrues x86 bastante variado e consiste tanto em instrues simples (um nico
passo, como somar dois valores) e instrues complexas, que executam um conjunto de operaes. O 486
capaz de processar a maioria das instrues simples (que so de longe as mais comuns) em uma nica
passagem, o que garante um IPC (instrues processadas por ciclo) quase duas vezes maior que o de um 386.
Concluindo, o ltimo estgio (retire) se encarrega de gravar de volta o resultado das instrues depois de
processadas.

26

Depois de passar pelo primeiro estgio, a primeira instruo vai para o segundo, deixando o primeiro
estgio livre para carregar uma nova instruo. No ciclo seguinte, a primeira instruo passa para o terceiro
estgio, e assim por diante, em um ciclo contnuo. Como as 5 unidades trabalham simultaneamente, o efeito
prtico que o processador passa a executar muito mais processamento por ciclo de clock, como em uma
linha de produo que passa a ter 5 trabalhadores em vez de um:

O uso do pipeline trouxe outra melhoria importante, que foi o suporte a frequncias de clock mais altas. O
motivo simples: com mais estgios, cada um executa menos processamento, o que permite espremer mais
ciclos de processamento no mesmo espao de tempo.
Depois do 486, os fabricantes foram sucessivamente adicionando mais estgios de pipeline nos
processadores, o que permitiu atingir frequncias sucessivamente mais altas. O ponto mximo da corrida foi o
Pentium 4, onde o uso de tantos estgios comeou a se revelar contra-produtivo, como veremos em detalhes
mais adiante.
O uso do pipeline e da memria cache prepararam o terreno para a introduo de outro recurso: a
multiplicao de clock, onde o processador trabalha numa frequncia mais alta que a placa-me. Isto parece
natural hoje em dia, quando os processadores usam multiplicadores de 10x ou mais, mas na poca foi uma
grande mudana.
Inicialmente, a multiplicao de clock era feita configurando-se jumpers (pequenos contatos eltricos,
semelhantes a interruptores) na placa-me. Do Pentium II em diante, os ajustes passaram a ser feitos
diretamente no setup.
At o 386, os processadores simplesmente operavam na mesma frequncia da placa-me e dos mdulos
de memria. Como o desempenho do processador era limitado pelo acesso memria e ao cache (que na
poca tambm fazia parte da placa-me), no fazia muito sentido pensar em aumentar a frequncia do
processador, j que ele simplesmente passaria mais tempo esperando pelos dados.
Processador

Placa-me

Multiplicador

486 25 MHz

25 MHz

1x

486 33 MHz

33 MHz

1x

486DX-2 50 MHz

25 MHz

2x

486DX-2 66 MHz

33 MHz

2x

486DX-2 80 MHz

40 MHz

2x

486DX-4 75 MHz

25 MHz

3x

486DX-4 100 MHz

33 MHz

3x

486DX-4 120 MHz

40 MHz

3x

O cache L1 integrado tornou o 486 parcialmente


independente do acesso memria e ao cache L2, o que
permitiu que o clock do processador passasse a crescer
muito mais rpido que o da placa-me. De l pra c, o
clock dos processadores cresceu at superar a faixa dos
3.0 GHz, enquanto o clock das placas-me e dos mdulos
de memria trabalham a uma frequncia muito mais
baixa. Se no fosse a multiplicao de clock, a histria
dos processadores teria sido bem diferente.
Com isso, surgiu tambm a possibilidade de fazer
overclock do processador, usando uma frequncia ou
multiplicador maior que o nominal. Era muito comum
27

usar um 486DX-2 66 a 80 MHz ou um 486DX-4 100 a 120 MHz, aumentando a frequncia da placa-me de 33
para 40 MHz.
Naturalmente, fazer overclock aumenta o consumo e o aquecimento do processador (exigindo muitas
vezes o uso de um cooler mais parrudo), alm da possibilidade de reduo da vida til. Mesmo assim, ele se
tornou incrivelmente popular, por permitir aumentar o desempenho do equipamento sem precisar pagar por
um processador mais caro. Na poca, mesmo os PCs mais parrudos engasgavam ao executar tarefas simples
(como carregar uma planilha do Excel com muitas frmulas), de modo que qualquer desempenho adicional era
bem-vindo.

2.3 PROCESSADORES ANTIGOS: DO PENTIUM AO PENTIUM IV


Em 1993 a Intel lanou a primeira verso do Pentium, que ainda operava a 60 MHz e era produzida usando
uma antiquada tcnica de fabricao de 0.80 micron. Assim como outras novas plataformas, o Pentium foi
recebido com uma certa desconfiana, j que as placas eram mais caras e, a 60 MHz, os benefcios da nova
arquitetura no eram to evidentes. Entretanto, o lanamento de modelos mais rpidos e os cortes de preos
logo popularizaram a plataforma.
O Pentium trouxe vrias mudanas em relao ao 486. A mais significativa delas foi a adoo de uma
arquitetura superescalar, com o uso de duas unidades de execuo em vez de uma. Junto com a multiplicao
de clock e o uso do cache, essa foi outra das grandes melhorias arquiteturais que permitiram que o
desempenho dos processadores aumentasse de maneira to surpreendente do 386 para c.
Em vez de dependerem apenas do aumento no clock, os processadores passaram a executar mais
instrues por ciclo, incorporando um nmero cada vez maior unidades de execuo e mais memria cache
(sem falar nos processadores dual-core e quad-core). Isso fez com que o desempenho crescesse de forma
exponencial, combinando os aumentos na frequncia de operao com mais instrues processadas por ciclo.
Mesmo que existisse um 486 capaz de operar a 2 ou 3 GHz, o desempenho seria dezenas de vezes inferior ao
de um processador atual.
O uso da arquitetura superescalar trouxe um novo problema, que a diviso do trabalho entre as
unidades de execuo, j que os aplicativos continuam sendo compostos por comandos sequenciais (com o
uso de muitas operaes de tomada de deciso, onde o processador precisa primeiro concluir a execuo de
uma instruo para saber qual caminho seguir e poder assim executar as seguintes).
Para solucionar o problema foi adotado o uso de um circuito de branch prediction, encarregado de dividir
as instrues entre as duas unidades e antecipar o processamento de instrues, de forma a manter ambas
ocupadas na maior parte do tempo.
Em uma operao de tomada de deciso (se, ento, seno), por exemplo, uma das unidades de execuo
processaria a primeira instruo (o "se"), enquanto a outra adiantaria o processamento das instrues de um
dos caminhos possveis, escolhido pelo circuito de branch prediction com base na sua tabela interna de
possibilidades.
Sempre que o caminho correto escolhido, o processador ganha tempo (j que aproveita o trabalho
executado). Por outro lado, quando o circuito de branch prediction erra a previso, o processador precisa
descartar o trabalho realizado, limpar o pipeline e comear novamente a partir do caminho correto.
O circuito de branch prediction do Pentium era relativamente simples, projetado para examinar o cdigo
em busca de algumas funes especficas e tomar decises pr-programadas, o que resultava em um ndice de
acerto de 60 a 80%. Nos processadores atuais (que usam trs ou mais unidades de execuo e pipelines muito
mais longos) o circuito de branch prediction muito mais complexo e trabalha com ndices de acerto muito
mais altos, acima de 95%. Isso necessrio, pois com pipelines mais longos, a penalidade pelos erros nos
processadores atuais muito maior do que na poca do Pentium, que usava um pipeline de apenas 5 estgios.
28

Outra mudana trazida pelo Pentium foi a adoo de caches separados para dados e instrues. Diferente
do 486, que usava um nico bloco de cache L1 para tudo, o Pentium adotou o uso de dois blocos separados de
cache L1 (de 8 KB cada um, totalizando 16 KB) para dados e instrues. Isso melhorou a eficincia do cache
(em relao ao cache unificado do 486), permitindo que o processador consiga acessar instrues e os dados
necessrios (para execut-las) simultaneamente, em vez de precisar fazer duas operaes separadas.
Acompanhando as melhorias no processador, foram feitas tambm mudanas nas placas-me, com o
objetivo de melhorar o desempenho de acesso memria RAM. Uma mudana importante e presente at
hoje nos processadores a capacidade acessar a memria a 64 bits, ao invs de 32 bits como no 486, o que
efetivamente dobrou a velocidade do barramento com a memria.

2.3.1 PENTIUM MMX


Em 1996 a Intel lanou o Pentium MMX, que foi o integrante
final da famlia Pentium 1. Ele chegou ao mercado acompanhado
de uma forte campanha de marketing. As instrues MMX
permitiam empacotar determinadas instrues, o que multiplicava
o poder terico do processador, permitindo que ele processasse
at quatro instrues de 16 bits, ou at oito instrues de 8 bits
como se fossem uma nica instruo.
O grande problema que as instrues MMX eram destinadas
ao processamento de nmeros inteiros, em uma poca em que o
processamento de instrues de ponto flutuante (usadas por jogos,
aplicativos de compresso de udio e vdeo, etc.) se tornava cada vez mais importante.
Para complicar, os registradores utilizados para o processamento das instrues MMX eram
compartilhados com o coprocessador aritmtico, prejudicando o desempenho de aplicativos que precisavam
combinar o uso de instrues MMX e instrues de ponto flutuante, como o caso dos jogos 3D e aplicativos
grficos.
As instrues MMX continuam disponveis nos processadores atuais, mas nunca foram muito utilizadas. As
deficincias fizeram com que elas fossem virtualmente ignoradas pelos desenvolvedores na poca do
lanamento (apesar de todo o esforo de marketing da Intel) e se tornassem irrelevantes a partir do
lanamento das instrues SSE, introduzidas a partir do Pentium III.
Descartando as novas instrues, o Pentium MMX oferecia como vantagem apenas o cache L1 de 32 KB (o
dobro do Pentium 1), que era capaz de aumentar o desempenho de 6 a 10% na maioria das tarefas.
O MMX foi lanado em verses de 200 e 233 MHz, ambas compatveis com a grande maioria das placas
soquete 7 existentes (mais tarde foi lanada tambm uma verso de 266 MHz destinada a notebooks). Ele
tambm foi o primeiro processador Intel a usar um encapsulamento plstico com um dissipador metlico, ao
contrrio do encapsulamento de cermica usado nos anteriores. Essa mudana foi na verdade bastante
benfica, pois o dissipador metlico muito mais eficiente na dissipao do calor do que a cermica, o que
melhora a eficincia do cooler.

2.3.2 PENTIUM PRO


Dentro na nomenclatura da Intel, a arquitetura do 486 chamada de "P4" e a do Pentium chamada de
"P5", indicando que so designs de, respectivamente, quarta e quinta gerao. Em novembro de 1995, a Intel
lanou a sexta gerao da arquitetura (P6), na forma do Pentium Pro.
Embora tenha sido destinado exclusivamente a servidores e estaes de trabalho e produzido em pequeno
volume, o Pentium Pro importante, pois inaugurou o uso da arquitetura que, com muitas atualizaes,
29

continua em uso at os dias de hoje, na forma do Core 2 e do Core i3/i5/i7. Ironicamente, as duas tentativas
de romper com a arquitetura do Pentium Pro (o Itanium e o Pentium 4) foram dois dos maiores fracassos na
histria da Intel.
Os quatro pilares fundamentais da arquitetura P6 (justamente os traos de design que continuam em voga
at os dias de hoje so:

Processamento de instrues fora de ordem (out-of-order), com o uso de unidades de execuo


capazes de processar apenas instrues simples (em oposio s unidades de uso geral do 486 e do
Pentium), combinadas com o uso de decodificadores de instrues, que quebram as instrues
complexas em sequncias de instrues simples e ordenadores capazes de mudar a ordem de
execuo, permitindo que o processador processe mais instrues em paralelo.

O uso de pipelines mais longos para permitir o uso de frequncias de clock mais altas (porm no to
longos a ponto de prejudicarem o desempenho), combinados com o uso de circuitos de branch
prediction mais avanados, capazes de oferecer ndices de acerto mais altos. O Pentium usava um
pipeline de 5 estgios, o Pentium Pro usava um pipeline de 10 estgios (12 estgios caso includos os
estgios "retire", onde so gravados os resultados) e a maioria dos processadores modernos usam
pipelines com de 12 a 21 estgios.

Uso de cache L2 integrado, bem mais rpido que os chips anteriormente usados na placa-me e ligado
ao processador atravs de um barramento dedicado, que no concorre com o acesso memria.

Suporte nativo ao uso de multiprocessamento (que na poca do Pentium Pro era obtido com o uso de
dois ou mais processadores e hoje feito com o uso de vrios ncleos).

O circuito de branch prediction (ou branch target prediction) do Pentium Pro era ainda relativamente
simples, projetado para examinar o cdigo em busca de algumas funes especficas, tomando decises com
base em um pequeno histrico de operaes e funes pr-programadas. Mesmo assim, ele era bem mais
eficiente que o do Pentium 1, j capaz de trabalhar com um ndice de acerto na casa dos 90%. Essa foi uma
melhoria importante, j que cada previso errada custava mais de 10 ciclos de processamento.
Nos processadores atuais (que usam trs ou mais unidades de execuo e pipelines muito mais longos), o
circuito de branch prediction muito mais complexo e trabalha com ndices de acerto muito mais altos, acima
de 95%. Isso necessrio, pois com pipelines mais longos, a penalidade pelos erros nos processadores atuais
muito maior.
Continuando, alm da nova arquitetura o Pentium Pro adotou o uso de 256 KB de cache L2 full-speed
(operando mesma frequncia do processador, assim como nos chips atuais). Ele oferecia um grande ganho
de desempenho em relao aos caches externos usados nas placas soquete 7 (que operavam na frequncia da
placa-me), mas em compensao encareciam muito o processador.
O Pentium Pro utilizava um encaixe prprio, o soquete 8, que acabou sendo usado apenas por ele e por
uma verso overdrive do Pentium II. Entretanto, o barramento P6 do slot 8 acabou servindo de base para os
encaixes usados pelos processadores Intel posteriores.
As dificuldades em produzir um nico chip contendo todos os componentes com a tecnologia da poca, fez
com que a Intel optasse por utilizar chips de cache separados, ligados ao processador atravs de um
barramento dedicado (o backside bus). Isso levou outra caracterstica peculiar do Pentium Pro, que era o
formato retangular:

30

Pentium Pro e o interior do encapsulamento, com o chip de cache L2 separado

2.3.3 PENTIUM II
O Pentium Pro foi vendido em verses de 150, 166, 180 e 200 MHz, convivendo com o Pentium 1 e o
Pentium MMX. Na poca, o Pentium era a plataforma para desktops, enquanto o Pentium Pro era a
plataforma de alto desempenho e alto custo.
Quando chegou a hora de desenvolver um sucessor para o Pentium MMX, a Intel decidiu popularizar a
plataforma P6, criando o Pentium II, que era basicamente um Pentium Pro para uso domstico.
As primeiras verses do Pentium II utilizavam o encapsulamento SEPP (Singled Edge Processor Package),
um formato dispendioso, em que ao invs de um pequeno encapsulamento de cermica, temos uma placa de
circuito, que inclui o processador e o cache L2 integrado.
Protegendo esta placa, temos uma capa plstica, formando um cartucho grande e pesado, que parece
realmente antiquado se comparado a outros processadores. O cooler encaixado na parte de trs, atravs de
um sistema de presilhas.
O novo encaixe usado por ele foi batizado de
Slot 1 e, embora o formato fsico fosse muito
diferente, ele utilizava o mesmo barramento de
dados do soquete 8 do Pentium Pro, reforando o
parentesco entre os dois processadores.
Assim como no caso do Pentium Pro, o Pentium
II usa chips de cache separados, ligados ao
processador atravs do backside bus. Entretanto, o
Pentium II foi concebido para operar a frequncias
de operao muito mais altas, o que levou a um
problema na disponibilidade de chips de memria
cache capazes de acompanhar o processador.
Para evitar os atrasos e o custo de produzir chips de cache de alta frequncia, a Intel optou por utilizar um
cache L2 half-speed (operando metade da frequncia do processador), o que permitiu utilizar chips de
memria cache mais baratos e j disponveis em volume. Para compensar a frequncia mais baixa, dobraram a
capacidade, incluindo 512 KB.
Alm do cache L2, o Pentium II manteve os 32 KB de cache L1 (dividido em dois blocos de 16 KB para dados
e instrues) do MMX. Abrindo o cartucho, possvel ver os dois grandes chips de cache L2 instalados
prximos ao die do processador:
31

Pentium II com core Klamath, sem a cobertura plstica


O Pentium II foi produzido em duas arquiteturas diferentes. As verses de at 300 MHz utilizaram a
arquitetura Klamath, produzida usando tcnica de fabricao de 0.35 micron, muito parecida com a utilizada
nos processadores Pentium MMX. Nas verses a partir de 333 MHz foi utilizada a arquitetura Deschutes de
0.25 micron, que resultou em uma dissipao de calor muito menor, possibilitando o desenvolvimento de
processadores mais rpidos. As verses do Pentium II de at 333 MHz usavam bus de 66 MHz (assim como o
Pentium MMX), enquanto que as verses de 350 MHz em diante adotaram o uso de bus de 100 MHz, o que
melhorou a velocidade de acesso memria.
Assim como o Pentium Pro, o Pentium II utiliza trs unidades de execuo (duas de inteiros e uma de
ponto flutuante) e 10 estgios de pipeline, que permitem o uso de frequncias de clock bem mais altas que os
5 estgios do Pentium 1. No caso do Pentium Pro a frequncia acabou estacionando nos 200 MHz por causa do
cache, mas ao adotar o uso de cache half-speed a Intel conseguiu elevar a frequncia do Pentium II at os 450
MHz.
O uso de mais estgios de pipeline aumenta a penalidade para erros nas previses do circuito de branchprediction, j que o processador demora mais ciclos para terminar de processar a primeira instruo e,
consequentemente, perde mais tempo no caminho errado. Por outro lado, o circuito de branch prediction do
Pentium II trabalhava com um ndice de acertos muito maior, o que fazia com que o saldo final fosse positivo.

2.3.4 CELERON
Para preencher a lacuna, a Intel lanou o Celeron, que inicialmente era uma simples verso castrada do
Pentium II, sem os chips de cache e o invlucro plstico. O Celeron original era muito lento, pois no possua
cache L2 algum, contando apenas com os 32 KB de cache L1. No preciso dizer que o desempenho era muito
fraco, em mdia 40% inferior ao de um Pentium II do mesmo clock. De fato, o Celeron perdia tambm para o
K6-2 e at mesmo para processadores mais antigos.
Essa primeira safra foi rapidamente substituda pelo Celeron Mendocino, que trouxe um cache L2 de 128
KB on-die (incorporado diretamente ao processador) e full-speed (operando mesma frequncia que ele), o
que resolveu o problema da performance.
O Mendocino foi produzido em verses de 300 a 533 MHz, sempre utilizando barramento de 66 MHz.
Alm de possurem um desempenho prximo ao de um Pentium II do mesmo clock (o cache do Pentium II
maior, porm mais lento), as verses de 300, 333 e 366 MHz permitiam overclocks de 50%, atingindo
respectivamente 450, 500 e 550 MHz com boa estabilidade. No poderia ser mais simples: bastava investir em
um cooler de boa qualidade e instalar o Celeron Mendocino em uma placa-me configurada para operar a 100
MHz.

32

2.3.5 K6-2 E K6-3


Depois das fracas vendas do K5, a AMD decidiu aposentar o projeto, em favor do Nx686, desenvolvido pela
equipe da NexGen (que foi comprada pela AMD). Originalmente ele utilizaria um barramento prprio, mas a
AMD se apressou em adapt-lo para utilizar placas soquete 7, se aproveitando da enorme disponibilidade de
placas de baixo custo para a plataforma.
Nasceu assim o K6 (lanado em 1997, pouco antes do Pentium II), que oferecia uma arquitetura out-oforder similar do Pentium Pro, com suporte s instrues MMX (que muitos ainda estavam convencidos que
seriam o futuro da computao) e compatibilidade com as placas soquete 7, o que eliminava a necessidade de
trocar a placa-me.
Por outro lado, o K6 tinha duas deficincias, que eram o coprocessador aritmtico mais fraco (o K6 ainda
utilizava um coprocessador baseado em um nico pipeline, mais fraco at mesmo que o do Pentium original) e
a ausncia de cache L2 integrado, o que tornava o processador dependente do cache L2 da placa-me. Para
amenizar o problema, a AMD investiu em um cache L1 de 64 KB (dois blocos de 32 KB para dados e
instrues), adotando um meio-termo.
Um terceiro problema (este no relacionado ao processador) era o uso de placas-me antigas, que
limitavam o desempenho do processador. Na poca, as placas para o Pentium II j utilizavam mdulos de
memria DIMM e placas de vdeo AGP, enquanto as placas soquete 7 ainda usavam mdulos de 72 vias e
placas de vdeo PCI, o que resultava em um desempenho muito diferente.
Apesar disso, o K6 concorreu com as primeiras verses do Pentium II, oferecendo uma opo de upgrade
de baixo custo para quem tinha um Pentium antigo e queria um PC mais rpido sem precisar pagar um brao e
duas pernas por um Pentium II e uma nova placa-me. Ele fez um certo sucesso, mas acabou sendo
prejudicado pelos atrasos e pela dificuldade da AMD em produzir o processador em volume suficiente.
O passo seguinte foi o K6-2, lanado em maio de 1998, que viria
a se tornar o primeiro grande sucesso de vendas da AMD.
Em termos de arquitetura, o K6-2 no era muito diferente do K6
original, trazendo apenas melhorias incrementais no circuito de
branch prediction. As duas grandes evolues ficaram por conta do
3DNow! e da plataforma Super 7, que amenizaram os dois principais
problemas do K6 original.
O 3DNow! foi um conjunto de 27 novas instrues, desenvolvido
com o objetivo de agilizar o processamento de clculos de ponto
flutuante, melhorando o desempenho sobretudo em jogos. Ele s
ajudava em aplicativos otimizados, mas ao contrrio do MMX ele
era realmente eficiente, o que levou muitas empresas a otimizarem seus ttulos para ele.
A plataforma Super 7, por sua vez, foi uma resposta ao problema da plataforma, que consistia em placas
soquete 7 modernizadas, com suporte a bus de 100 MHz, mdulos de memria DIMM, slots AGP e suporte s
tenses e multiplicadores usados pelos novos processadores.
Ao desenvolver o Pentium II, a Intel optou por desenvolver um barramento proprietrio (o GTL+), de forma
a dificultar a vida dos concorrentes. Junto com a AMD, fabricantes de chipsets, como a VIA, SiS e Ali foram
prejudicados pela deciso da Intel, j que no podiam desenvolver chipsets para o Pentium II (e sucessores)
sem o pagamento de licenas, por isso eles ficaram mais do que felizes em ajudar a AMD a desenvolver uma
plataforma alternativa.
Isso permitiu que a AMD aproveitasse a demanda por PCs de baixo custo, deixada pela transio abrupta
da Intel para o Pentium II, melhorando sua participao no mercado e abrindo caminho para o lanamento do
Athlon.
33

Uma das prioridades da AMD foi manter a compatibilidade com as placas soquete 7 anteriores. Por isso,
optaram por vender o K6-2 com o multiplicador destravado. Isso permitia instalar processadores K6-2 em
placas antigas, que trabalhavam a apenas 66 MHz, desde que a placa suportasse a tenso de 2.2v (ou 2.4v nas
verses mais recentes) utilizada pelo processador.
Um K6-2 de 300 MHz podia ser utilizado tanto numa placa-me configurada para operar a 100 MHz com
multiplicador de 3x quanto em uma placa configurada para operar a 66 MHz com multiplicador de 4.5x.
Naturalmente, o desempenho era melhor na placa de 100 MHz, pela diferena na frequncia de operao da
memria e do cache L2, mas o esforo em manter compatibilidade com as placas antigas foi louvvel.
O K6-2 foi produzido em verses de 300 a 550 MHz, com as verses de 300 e 350 MHz sendo as mais
comuns devido questo do custo. Em 1999 a AMD lanou uma ltima atualizao para a plataforma K6, na
forma do K6-3, o primeiro processador AMD a trazer cache L2 integrado. Alm de manter os mesmos 64 KB de
cache L1 do K6-2, o K6-3 incorporou 256 KB de cache L2 full-speed, assim como os processadores atuais. Ele
tambm aproveitava o cache disponvel nas placas soquete 7, que passava a funcionar como um cache L3.
Embora o cache L3 na placa-me oferecesse um pequeno ganho de desempenho, ele no era suficiente
para justificar o custo de inclu-lo em novas plataformas, por isso o K6-3 acabou sendo um exemplar nico.
Mais recentemente, o cache L3 voltou a ser usado, mas dessa vez tambm integrado ao processador. Ele se
tornou um componente importante no caso de processadores quad-core, como o Phenom II e o Core i7, pois
pode ser compartilhado entre todos os ncleos, servindo como uma rea comum de armazenamento de
dados.
O K6-3 original era fabricado usando uma tcnica de 0.25 micron, assim como o K6-2, mas ele acabou
restrito aos 450 MHz, j que a incluso do cache L2 aumentava bastante a contagem de transistores do
processador, aumentando o consumo e a dissipao de calor.
Em 2001 a AMD deu um ltimo flego plataforma, lanando verses de 0.18 micron do K6-2 e do K6-3,
batizadas de K6-2+ e K6-3+. Elas eram originalmente destinadas ao uso em notebooks, mas o fato de
manterem o uso das placas soquete 7 fez com que elas acabassem sendo usadas tambm em alguns desktops.
Com a nova tcnica de fabricao, o K6-3+ foi capaz de atingir os 550 MHz e o K6-2+ ganhou 128 KB de cache
L2 integrado, o que resultou em um ganho de desempenho considervel em relao verso original.
Apesar das vantagens, estas duas verses foram lanadas no finalzinho da era soquete 7, quando a
plataforma j caminhava para a obsolncia. Eles foram rapidamente substitudos pelos Athlons e Durons, que
marcaram a transio do soquete 7 para o EV6 (um barramento desenvolvido pela Alpha Digital, que foi
licenciado pela AMD para uso na plataforma K7). A partir da, nunca mais tivemos um barramento padro, que
permitisse a criao de placas-me com suporte a processadores dos dois fabricantes, como na poca das
placas soquete 7.

2.3.6 PENTIUM III


A verso inicial do Pentium III foi lanada em fevereiro de 1999. Ela foi uma verso transitria, baseada no
core Katmai (de 0.25 micron Observe que o tamanho dos transistores tende a ir sempre diminuindo) que
ainda utilizava o encapsulamento SEPP e o cache L2 externo, operando metade da frequncia do
processador. O clock tambm no era muito diferente, com o processador operando a 500 MHz (apenas 50
MHz mais rpido que o da ltima verso do Pentium II).
A grande inovao foi a incluso das instrues SSE, um conjunto de 70 novas instrues que foram
originalmente apresentadas como um contrapeso s instrues 3DNow! da AMD, mas que eventualmente
acabaram roubando a cena.
A ideia bsica em torno do SSE (assim como no caso do 3DNow!) o uso de instrues SIMD (Single
Instruction, Multpliple Data) que permitem repetir uma mesma operao em um conjunto de 2 a 16 valores
34

(at 16 inteiros de 8 bits, ou 4 nmeros de ponto flutuante de 32 bits e dupla preciso, entre outras
possibilidades) com todo o conjunto consumindo um nico ciclo de processamento, em vez de um ciclo para
cada operao. Em resumo, o uso do SIMD permite que o programador diga "adicione 2 em A, B, C e D", em
vez de dizer "adicione 2 em A, adicione 2 em B, adicione 2 em C, adicione 2 em D".
As instrues SIMD so teis em diversas situaes, como ao manipular vetores em uma imagem 3D (jogos
e aplicativos de renderizao), aplicar filtros de edio (editores de imagem), compactar ou descompactar
arquivos, converter arquivos de udio e vdeo, e assim por diante.
Apesar do termo "conjunto de instrues" sugerir apenas o uso de otimizaes de software, as instrues
SSE representaram mudanas fsicas dentro do processador, com a adio de uma nova unidade de execuo e
de novos registradores, que efetivamente permitem que o processador execute mais processamento por ciclo.
Na poca do Pentium III existiam poucos aplicativos otimizados, mas o nmero foi crescendo ao longo dos
anos e hoje em dia quase todos os jogos, aplicativos de converso de udio e vdeo, compactadores e
descompactadores de arquivos e aplicativos de edio de imagem ou modelagem 3D (entre outros) oferecem
algum nvel de otimizao para as instrues SSE, muitas vezes com ganhos considerveis de desempenho. Os
prprios compiladores so capazes de gerar cdigo otimizado quando a flag (uma espcie de opo)
ativada dentro das opes de compilao.
Em vez de tentar manter um padro concorrente, a AMD optou por incluir suporte s instrues SSE a
partir do Athlon XP, o que ajudou na popularizao do conjunto, evitando que os desenvolvedores
precisassem escolher entre dois padres concorrentes. Com o passar do tempo, mais e mais instrues foram
adicionadas ao conjunto SSE, expandindo as funes disponveis. Cada conjunto adiciona um grupo de novas
instrues, mantendo as anteriores:

SSE (70 instrues): disponveis a partir do Pentium III e do Athlon XP

SSE2 (144 instrues adicionais): a partir do Pentium 4 e do Athlon 64

SSE3 (13 instrues adicionais): a partir do Pentium 4 Prescott e do Athlon 64 Venice

SSE4 (47 instrues adicionais): a partir do Core 2 Duo e do Phenom

Os projetos dos processadores foram tambm sendo adaptados ao longo do tempo para incluir mais
unidades de processamento e novos registradores, com o objetivo de aumentar o nmero de instrues
processadas por ciclo. O Athlon 64, por exemplo, inclua duas unidades SSE, enquanto o Pentium 4 usava
apenas uma. Veremos mais detalhes ao longo dos prximos tpicos.
De volta ao Pentium III, em outubro de 1999 foi lanado o Pentium III Coppermine, uma verso
aprimorada, produzida numa tcnica de 0.18 micron, que adotou o uso de 256 KB de cache L2 integrado
(operando na mesma frequncia do processador) e abandonou o formato SEPP em favor do FC-PGA, destinado
ao uso em conjunto com as placas-me soquete 370.
A mudana decretou a morte do slot 1, que no voltou a
ser utilizado por outros processadores Intel. Apesar disso, as
verses do Pentium III PC-PGA que utilizavam bus de 100
MHz, ainda podiam ser usadas na maioria das placas slot 1
antigas, com a ajuda do adaptador (embora muitas placas
precisasem de uma atualizao de BIOS).
No demorou para que a Intel lanasse tambm uma
nova verso do Celeron, baseada na mesma arquitetura,
dando continuidade tradio de overclocks de 50% ou
mais. O Celeron Coppermine nada mais era do que um
Pentium III com metade do cache L2 desativado (128 KB),
que utilizava bus de 66 MHz (em vez de 100 ou 133, como as diferentes verses do Pentium III).
35

Embora fosse originalmente mais lento que um Pentium III do mesmo clock, o Celeron Coppermine de 600
MHz podia tranquilamente operar a 900 MHz (utilizando bus de 100 MHz), oferecendo um desempenho
similar ao de um Pentium III 800 a uma frao do custo.
O Celeron acabou se revelando um bom negcio para a Intel, pois permitia aproveitar processadores
Pentium III com defeitos na memria cache, que de outra forma iriam para o lixo. Quando ocorre um defeito
no cache, em geral apenas alguns poucos endereos so afetados, normalmente um grupo fisicamente
prximo. Antes de sarem de fbrica, todos os processadores so rigorosamente testados, e os que
apresentam defeitos no cache so separados. O Pentium III foi projetado de tal maneira que o cache L2 era
dividido em duas sees de 128 KB, que podiam ser desabilitadas individualmente. Como usada apenas a
metade "boa" do cache, o processador funciona perfeitamente e temos mais um consumidor satisfeito.

2.3.7 O ATHLON
Embora o K6-2 e o K6-3 tenham feito sucesso, ambos concorriam com o Pentium II e o Pentium III com
base no custo, sem terem como concorrer diretamente em termos de desempenho. Em junho de 1999 a AMD
lanou seu primeiro processador realmente competitivo, o Athlon, com o qual conseguiu superar as principais
limitaes da plataforma K6.
Alm de ser o primeiro processador da AMD a superar os processadores da Intel em diversas verses
consecutivas, ele foi tambm o primeiro processador x86 a quebrar a marca de 1.0 GHz, o que na poca foi um
marco. Apesar de toda a evoluo, todos os processadores AMD lanados da em diante, incluindo os Athlon
64, Phenom e Phenom II continuam sendo baseados em verses atualizadas dessa mesma arquitetura.

O Athlon original, em formato de cartucho


As primeiras verses do Athlon utilizavam um formato de cartucho, muito similar ao usado pelo Pentium II,
com chips de memria cache externos, operando metade da frequncia do processador. Elas foram lanadas
em junho de 1999 (pouco depois do Pentium III com core Katmai) e conviveram com os processadores K6-2 e
K6-3 durante algum tempo, com o Athlon assumindo o posto de processador de alto desempenho e os K6-2 e
K6-3 servindo como opes de baixo custo.
O Athlon surgiu como uma verso expandida e atualizada da arquitetura post-RISC (hbrida CISC/RISC)
iniciada com o K6, que manteve muitas das caractersticas bsicas, mas incluiu novas unidades de execuo,
combinadas com o to necessrio cache L2 integrado e um novo barramento de dados, o EV6. O Athlon era
composto por nada menos do que 22 milhes de transistores (sem contar o cache L2 externo), mais que o
dobro do Pentium III Klamath, que possua 9.5 milhes.
Enquanto o K6 era capaz de processar duas instrues de inteiros e uma instruo de ponto flutuante por
ciclo (assim como no Pentium Pro e Pentium II), o Athlon adotou o uso de trs unidades de inteiros e trs
36

unidades de ponto flutuante, combinadas com um enorme cache L1 de 128 KB e um circuito de branch
prediction consideravelmente aprimorado, com um histrico de 2048 entradas. Tecnicamente, o Athlon
original era bastante superior ao Pentium III, mas demorou um pouco at que a plataforma (chipsets e placas)
amadurecesse, permitindo que o processador demonstrasse todo o seu potencial.
A lgica que quanto mais unidades de execuo tivermos trabalhando ao mesmo tempo, mais instrues
todas juntas sero capazes de processar e quanto mais circuitos de decodificao e controle tivermos, mais
eficiente ser a decodificao das instrues, resultando em um processador mais rpido.
O maior limitante que a maioria dos aplicativos so desenvolvidos esperando que o processador
processe uma instruo de cada vez. Temos tambm um grande nmero de operaes de tomada de deciso,
onde o processador precisa resolver uma determinada operao para ento poder decidir o que vai fazer
depois. Graas aos circuitos de branch prediction, os processadores so capazes de ir "adiantando o servio",
processando outras instrues mais adiante, enquanto a operao de tomada de deciso solucionada. De
qualquer forma, existe um limite para quanto trabalho o processador capaz de executar por ciclo.
Com mais do que trs ou quatro unidades de execuo, o processador acaba ficando ocioso grande parte
do tempo, de forma que processadores muito mais complexos do que isso acabariam sendo um desperdcio de
recursos.
Em vez de adicionar mais e mais unidades de execuo aos processadores, os fabricantes passaram, a
partir de certo ponto, a desenvolver processadores dual-core e quad-core, onde temos dois ou quatro
processadores no mesmo encapsulamento, trabalhando como se fossem um nico processador. Isto resulta
num melhor desempenho ao rodar vrios aplicativos simultaneamente (voc pode jogar e ripar um DVD ao
mesmo tempo, por exemplo) e muito mais simples e barato para os fabricantes do que desenvolver um
nico super-processador com dezenas de unidades de execuo.
Alm de grandes mudanas na arquitetura, o Athlon adotou o uso de cache L2 integrado (inicialmente
usando chips de cache externos, o que deu origem ao formato de cartucho usado nas primeiras verses) e
abandonou a compatibilidade com as placas soquete 7 em favor de um novo barramento: o EV6, licenciado da
DEC. A adoo do EV6 deu origem ao Slot A, usado pelas verses iniciais do Athlon.
O Athlon concorreu diretamente com as verses iniciais do Pentium III, que ainda usavam o cache L2
externo. Como os dois processadores utilizavam cache L2 trabalhando metade da frequncia do
processador, a briga manteve-se equilibrada, com o Pentium III ganhando em alguns aplicativos e o Athlon, em
outros. Apesar de, no geral, o Athlon ganhar por uma pequena margem, o posto de processador mais rpido
acabava sendo conquistado pelo processador com o maior clock e assim trocava de mos conforme os
fabricantes se revezavam no lanamento de verses mais rpidas.
Entretanto, conforme foi aumentando o clock dos processadores, a AMD passou a ter dificuldades em
obter mdulos de cache capazes de operar a mais de 350 MHz e foi obrigada a aumentar o divisor de
frequncia do cache.
As caras e desajeitadas verses do Athlon fora rapidamente substitudas pelo Athlon Thunderbird, que
incorporou 256 KB de cache L2 full-speed e voltou a utilizar o formato soquete, dando incio era soquete A
(soquete 462). Esse mesmo formato continuou sendo usado pelos Durons, Athlons XP e Semprons, at a
introduo do Athlon 64 (K8), que passou a utilizar placas-me baseadas no soquete 754 ou 939.
O Athlon Thunderbird ainda produzido em uma tcnica de 0.18 micron, mas ele traz como grande
destaque o uso de cache L2 integrado, um verdadeiro divisor de guas, que alm de melhorar o desempenho
do processador, baixou os custos de produo (e consequentemente o preo de venda), permitiu o
lanamento de verses com clock mais elevado e, ainda por cima, permitiu o lanamento do Duron, que
rapidamente substituiu os antigos K6-2 no posto de processador de baixo custo.

37

O Thunderbird possui apenas 256 KB de cache L2, contra 512 KB do Athlon antigo. A grande diferena
que nele o cache integrado diretamente no ncleo do processador e opera sempre mesma frequncia que
ele, o que resulta em um ganho de desempenho muito grande. O cache L2 complementado por mais 128 KB
de cache L1, que tambm opera mesma frequncia do processador, mas oferece tempos de latncia mais
baixos.
Com a simplificao no design do processador, o
formato de cartucho deixou de ser necessrio, de forma
que a AMD voltou a utilizar um encaixe em formato de
soquete, dando origem ao soquete A (tambm chamado de
soquete 462), utilizado na segunda gerao de placas para o
Athlon.
Como pode ver, o Thunderbird no utiliza nenhum tipo
de proteo sobre o ncleo do processador. Isto melhora a
dissipao do calor (j que no existem intermedirios entre
o processador e o cooler), mas em compensao torna o
processador muito mais frgil.
Em termos de performance, o Thunderbird supera um
Pentium III Coppermine do mesmo clock na maioria das
aplicaes, principalmente em jogos e aplicativos que
privilegiam o desempenho do coprocessador aritmtico (invertendo as posies em relao poca do K6-2).
Em alguns testes o Pentium III era mais rpido, mas no geral o Thunderbird se mostrava superior, apesar de
ser mais barato.
Inicialmente o Thunderbird foi lanado em verses de 750, 800, 850, 900, 950 e 1000 MHz, utilizando
sempre bus de 100 MHz (200 MHz, se levarmos em conta as duas transferncias por ciclo do barramento EV6).
Mais tarde, foram introduzidas verses de 1.1, 1.2 e 1.3 GHz (ainda utilizando bus de 100 MHz) e, em seguida,
verses de 1.13, 1.2, 1.26, 1.33 e 1.4 GHz, utilizando bus de 133 MHz.
Em junho de 2000 foi lanado o Duron, que
finalmente substituiu os antigos K6-2 e K6-3 como
processador de baixo custo. A verso inicial do Duron,
baseada no core Spitfire, foi um descendente direto do
Athlon Thunderbird. Ambos compartilhavam a mesma
arquitetura (incluindo os 128 KB de cache L1), mas o
Duron vinha com apenas 64 KB de cache L2, um quarto
do usado no Thunderbird.
Uma diferena em relao ao Celeron que o Duron
era realmente um processador diferente, com menos
transistores e produzido em fbricas separadas, enquanto o Celeron Coppermine era um Pentium III com
metade do cache L2 desativado em fbrica. No incio, esse artifcio permitiu que a Intel aproveitasse um certo
nmero de processadores Pentium III com defeitos no cache, j que podia desativar a parte ruim e vend-los
como Celerons. Entretanto, a partir de um certo ponto, o nmero de Celerons vendidos passou a superar em
muito o nmero de processadores com defeito, de forma que a Intel precisava realmente produzir um
Pentium III completo, arcando com todos os custos, para ento desativar metade do cache e vend-lo como
um Celeron.
A partir deste ponto, a estratgia da AMD se revelou mais vantajosa. O Duron Spitfire possui apenas 25
milhes de transistores, contra 37 milhes do Thunderbird, resultando em uma reduo quase que
38

proporcional no custo de produo. Os dois processadores eram produzidos em fbricas separadas e, alm da
questo do cache, existia uma pequena diferena na tcnica de produo utilizada em cada um.
O Palomino (Athlon XP) foi a quarta gerao do Athlon, sucessor do Thunderbird. O Palomino trouxe duas
modificaes importantes. A primeira foi a compatibilidade com as instrues SSE (chamado de "3D Now!
Professional" pela AMD), que haviam sido introduzidas pela Intel junto com o Pentium III. Quando o Palomino
foi lanado, em 2001, j existia uma grande quantidade de softwares otimizados, de forma que houve um
ganho imediato de desempenho em relao ao Thunderbird.
A segunda melhoria foi um sistema aperfeioado de data prefetch, que melhorou a eficincia dos caches,
permitindo que o processador aproveitasse a banda ociosa no barramento com a memria para carregar
instrues e dados que possuem uma grande probabilidade de serem utilizadas nos ciclos seguintes. Com isso,
o nmero de ciclos de processamento perdidos foi reduzido, resultando em um pequeno ganho.
Foi includo ainda um diodo trmico, cuja funo era proteger o processador, desligando o sistema quando
ele atingia certa temperatura limite. O diodo no evitava a queima caso voc ligasse o processador sem o
cooler, mas oferecia alguma proteo adicional durante o uso normal do sistema.
O Palomino trouxe tambm suporte a multiprocessamento, possibilitando o lanamento do Athlon MP e
das primeiras placas dual-Athlon, como a Tyan Tiger MPX. O Athlon MP era mais caro e operava a frequncias
mais baixas que as verses domsticas (as verses iniciais operavam a apenas 1.0 e 1.2 GHz), de forma a
garantir a estabilidade do sistema em conjunto com o segundo processador. Apesar disso, ele oferecia um
desempenho muito bom em aplicativos profissionais e servidores em geral.

Dois Athlon MP, esperados em uma placa baseada no chipset AMD-760 MP


Ao invs de continuar vendendo o Athlon XP com base na frequncia de clock, a AMD passou a utilizar um
ndice de desempenho que comparava o desempenho do processador com o de um Pentium 4. Foram
lanadas no total 7 verses do Athlon XP baseado no core Palomino, todas utilizando bus de 133 MHz: 1500+
(1.33 GHz), 1600+ (1.4 GHz), 1700+ (1.46 GHz), 1800+ (1.53 GHz), 1900+ (1.6 GHz), 2000+ (1.66 GHz) e 2100+
(1.73 GHz).
O XP 1500+ superava com facilidade um Pentium 4 Willamette (a verso inicial do Pentium 4, que era o
concorrente direto na poca) de 1.5 GHz, que operava a uma frequncia apenas 166 MHz maior, mas quando
chegou no 2000+, o Willamette passou a ganhar em muitas aplicaes. A situao se tornou mais grave com o
lanamento do Pentium 4 Northwood, que era at 10% mais rpido que um Willamette do mesmo clock.
Concluindo, o Palomino deu origem segunda gerao do Duron, o Duron Morgan. Ele ainda era
produzido na mesma tcnica de 0.18 micron utilizando filamentos de alumnio e mantendo o antigo
39

encapsulamento de cermica, mas as melhorias introduzidas com o Palomino ajudaram o Morgan a atingir
frequncias mais altas.
Com a arquitetura de 0.18 micron atingindo seu limite com o Palomino de 1.73 GHz, a AMD se apressou
em terminar a atualizao de suas fbricas e assim iniciar a produo dos processadores baseados na tcnica
de 0.13 micron.
O primeiro foi o Thoroughbred, uma verso modernizada do Palomino, que manteve os mesmos 256 KB
de cache L2 e demais caractersticas, mas que oferecia uma dissipao trmica muito mais baixa e era assim
capaz de trabalhar a frequncias de clock mais altas. Isso foi uma boa notcia tanto para quem queria
processadores mais rpidos quanto para quem queria processadores bons de overclock.
O Thoroughbred original foi produzido em verses de 1.46 a 1.8 GHz, dando origem ao Athlon XP 2200+
(1.8 GHz). Foram lanadas ainda as verses 1700+ (1.46 GHz), 1800+ (1.53 GHz), 1900+ (1.6 GHz) e 2000+ (1.66
GHz) e 2100+ (1.73 GHz), destinadas a substituir os antigos Palominos.
Em agosto de 2002 a AMD lanou uma atualizao do core Thoroughbred, batizada de "Thoroughbred-B".
O core Thoroughbred-B foi utilizado nos Athlon XP 2400+ (2.0 GHz) e 2600+ (2.13 GHz), que ainda utilizavam
bus de 133 MHz e mais adiante nos modelos 2600+ (1.83 GHz), 2700+ (2.17 GHz) e 2800+ (2.25 GHz), que
passaram a utilizar bus de 166 MHz (333).
O Thoroughbred deu origem terceira gerao do Duron, o Applebred, lanado em agosto de 2003, em
verses de 1.4, 1.6 e 1.8 GHz (todas utilizando bus de 133 MHz e tenso de 1.5V). O Applebred foi o suspiro
final do Duron, antes que ele fosse substitudo pelo Sempron.
O Barton uma verso do Thoroughbred-B com 512 KB de cache, lanada no incio de 2003. interessante
notar que os 256 KB adicionais de cache aumentaram a contagem de transistores do processador em quase 17
milhes (totalizando 54.3 milhes, contra 37.6 milhes do Thoroughbred-B), mas aumentaram a rea do
processador em apenas 21 mm, totalizando apenas 101 mm.
Os maiores beneficiados pelo cache maior eram os jogos 3D, que na poca j haviam se tornado muito
mais pesados que os ttulos disponveis no tempo do Celeron Mendocino, passando a privilegiar os
processadores com 512 KB de cache ou mais.
O Barton foi inicialmente lanado em trs verses: 2500+ (1.83 GHz), 2800+ (2.08 GHz) e 3000+ (2.16 GHz).
As trs utilizavam bus de 166 MHz e mantinham compatibilidade com as placas anteriores, j que o Barton
utilizava os mesmos 1.65v de tenso do Thoroughbred.
Mais adiante foram lanados os modelos 3000+ (agora a 2.1 GHz) e 3200+ (2.2 GHz). Estas duas verses
utilizavam bus de 200 MHz, o que demandava uma placa-me compatvel.
Com o lanamento do Athlon 64 e da plataforma soquete 754, o Athlon XP se tornou um processador de
baixo custo dentro da linha da AMD. O problema que essa posio j era ocupada pelo Duron, o que fez com
que o Athlon XP acabasse posicionado no meio, atrapalhando tanto as vendas do Athlon 64, quanto do Duron.
Para colocar ordem na casa, a AMD decidiu descontinuar tanto o Duron quanto o Athlon XP em 2004,
dando origem ao Sempron, sua nova linha de processadores de baixo custo.
Em 2006 a balana voltou a pender novamente para o lado da Intel, com o lanamento do Core 2 Duo e os
cortes de preos nos processadores antigos. Ao longo de 2007, a Intel recuperou boa parte do terreno
perdido, enquanto a AMD se defendia reduzindo os preos dos processadores, assim como na poca do K6-2.

2.3.8 O INTEL PENTIUM 4


O Pentium 4 foi lanado em novembro de 2000, trazendo uma nova arquitetura, baseada na ideia do uso
de um longo pipeline para permitir que o processador fosse capaz de atingir frequncias de clock elevadas e
no uso de um cache L1 muito rpido (combinado com um barramento de dados capaz de realizar 4
transferncias por ciclo) para mant-lo alimentado com o volume necessrio de dados e instrues.
40

Ele representou a primeira tentativa da Intel em romper com a arquitetura P6, oferecendo uma
arquitetura radicalmente diferente, com a qual pretendia ultrapassar a barreira dos 10 GHz. Entretanto,
devido enorme dissipao trmica dos processadores, a Intel no foi capaz de lanar verses com clock
acima de 3.8 GHz (a verso de 4.0 GHz acabou sendo cancelada no ltimo momento) e, operando a
frequncias baixas, o Pentium 4 perdia facilmente para os processadores da AMD. S em 2006 a Intel
conseguiu dar a volta por cima, com o lanamento do Core 2 Duo.
O Willamette foi a verso inicial do Pentium 4, produzido usando uma tcnica de 0.18 micron, a mesma
usada na fabricao dos processadores Pentium III com cache integrado. Ele utilizava um encapsulamento
peculiar, onde a placa com o die do processador e o spreader metlico era montada sobre uma segunda placa
de contatos:

Pentium 4 Willamette, soquete 423


O Willamette utilizava 256 KB de cache L2 on-die (no ncleo) e trouxe um novo encaixe, o soquete 423,
que acabou sendo usado apenas por ele. Esta primeira leva do Pentium 4 foi produzida em verses de 1.3 a 2.0
GHz, com o TDP de 48.9 watts (para o de 1.3) a 73.5 watts (para o 2.0).
O TDP (Thermal Design Power) indica, em processadores Intel, o consumo mdio do processador ao
executar aplicativos pesados. O consumo real pode superar o TDP ao rodar benchmarks e aplicativos
especficos, mas na maior parte do tempo o consumo fica dentro da faixa especificada.
Na poca do lanamento do Willamette, o consumo eltrico no era considerado uma especificao muito
importante. Se o processador era beberro demais, voc simplesmente gastava um pouco mais, comprando
um cooler adequado. Entretanto, com o lanamento de verses mais rpidas do Pentium 4, o TDP chegou aos
130 watts, o que chamou a ateno do pblico. A partir de um certo ponto, os fabricantes passaram a falar em
"eficincia", dando nfase no apenas ao clock e ao desempenho geral do processador, mas tambm ao seu
consumo eltrico.
Inicialmente (e por quase 1 ano) o Pentium 4 fazia uso exclusivo de memrias RAM especiais, as
chamadas Rambus que, apesar de algumas vantagens tcnicas, eram muito caras. Isto obrigou a Intel a
modificar a plataforma para usar as memrias SDRAM convencionais e posteriormente passando a utilizar
memrias DDR padro. A demora gerou um vcuo, que permitiu que a AMD aumentasse consideravelmente
sua participao no mercado, j que contava com o Athlon Thunderbird, um processador mais barato e mais
eficiente.
41

No final, as memrias DDR (seguidas pelas DDR2 e DDR3) ganharam a briga, tornando-se o padro de
memria dominante.
Devido ao alto custo inicial (incluindo a questo das memrias) o Willamette acabou vendendo poucas
unidades e foi rapidamente substitudo pelo Northwood, lanado 11 meses depois, em outubro de 2001. Na
mesma poca, as placas soquete 423 (que oferecem suporte apenas ao Pentium 4 Willamette) foram
rapidamente substitudas pelas placas soquete 478, que continuam em uso at 2005/2006, sendo lentamente
substitudas pelas placas soquete 775.
Em 2002 a Intel lanou dois modelos (1.7 e 1.8 GHz) do Celeron baseado no core "Willamette-128", que
nada mais era do que uma verso do Pentium 4 Willamette com metade do cache L2 desabilitado. Eles foram
vendidos apenas em verso soquete 478 e eram relativamente baratos para o padro dos processadores Intel
na poca, custando abaixo da faixa dos 100 dlares. Embora o desempenho fosse ruim, essa gerao inicial do
Celeron baseado no Pentium 4 foi uma forma de a Intel popularizar o uso das placas soquete 478 e assim abrir
caminho para as geraes seguintes do Pentium 4.
Apesar da vida curta, o Willamette uma boa oportunidade para explicar um pouco sobre a arquitetura do
Pentium 4. O primeiro alerta a se fazer a respeito que o aumento da frequncia de operao no significa um
ganho direto de desempenho. Hoje em dia isso parece bvio, mas na poca foi motivo de muitas discusses.
A arquitetura do Pentium 4 era baseada no uso de mais estgios de pipeline (20 estgios, contra 10 do
Pentium III) para permitir que o processador fosse capaz de atingir frequncias de clock mais altas. por isso
que um Pentium 4 Willamette atingiu a marca dos 2.0 GHz, enquanto o Pentium III Coppermine, que
compartilhava da mesma tcnica de fabricao de 0.18 micron, no foi capaz de superar a marca dos 1.0 GHz.
Entretanto, a diferena de desempenho entre os dois no era to grande quanto pode parecer primeira
vista. Mesmo com todas as otimizaes que foram aplicadas, um Willamette de 2.0 GHz equipado com
memrias SDR SDRAM no conseguia ser 50% mais rpido que um Pentium III Coppermine de 1.0 GHz.
Foi justamente devido a isto que a Intel optou por lanar diretamente os modelos de 1.4 e 1.5 GHz do
Pentium 4, pulando as verses de 1.1 e 1.2 GHz, que seriam o caminho mais bvio j que o Pentium III ficou
estacionado na verso de 1 GHz. Caso fosse lanado, um Pentium 4 de 1.1 GHz perderia para um Pentium III de
1 GHz, o que no seria uma boa propaganda. De fato, mesmo quando equipado com pentes de memria
RDRAM, o Willamette ainda perdia para o Athlon Thunderbird de 1.4 GHz (que foi seu concorrente mais
direto, na poca) na maior parte dos aplicativos.
A arquitetura do Pentium 4 foi claramente desenvolvida para operar a altas frequncias e assim
compensar o baixo desempenho por ciclo de clock. Isso acabou se revelando um bom golpe de marketing, j
que na poca o pblico estava acostumado a relacionar a frequncia de clock com o desempenho.
Para no ficar para trs, a AMD adotou um ndice de desempenho a partir do Athlon XP, que comparava o
desempenho do processador ao do Pentium 4 (um Athlon XP 1800+, por exemplo, opera a apenas 1.533 GHz).
Mais adiante, o feitio se voltou contra o feiticeiro e a prpria Intel decidiu parar de enfatizar a frequncia de
clock e adotar um sistema de numerao para seus processadores.
O Northwood foi a segunda gerao do Pentium 4, produzido em uma tcnica de 0.13 micron. Ele no
trouxe mudanas na arquitetura, mas a reduo no tamanho fsico dos transistores permitiu que fossem
adicionados mais 256 KB de cache L2, totalizando 512 KB.
O Northwood foi produzido em verses de 1.6 a 3.06 GHz, englobando tanto modelos com bus de 400
MHz quanto modelos utilizando bus de 533. A srie com bus de 400 MHz inclui os modelos de 2.0, 2.2, 2.4, 2.6,
2.8 e 3.0 GHz, enquanto a srie com bus de 533 MHz inclui modelos de 2.26, 2.40, 2.53, 2.66, 2.8 e 3.06 GHz.
Mais tarde foi lanada uma srie com suporte a Hyper-Threading (veja mais detalhes a seguir), vendida sob
a marca "Pentium 4 HT", que incluiu modelos de 2.4 a 3.4 GHz. Com exceo do modelo de 3.06 GHz, todos
42

utilizam bus de 800 MHz, o que ajudou a melhorar sutilmente o desempenho por clock em relao s verses
anteriores.
O Prescott representou a terceira gerao do Pentium 4. Ele foi produzido a partir de 2004, utilizando uma
tcnica de fabricao de 0.09 micron. Diferente do Northwood, que trouxe apenas melhorias no cache, o
Prescott trouxe uma nova reviso da arquitetura, com a adio de 11 novos estgios ao j longo pipeline do
Northwood. Com isso, o Prescott atingiu a impressionante marca de 31 estgios de pipeline, um nmero sem
precedentes entre os processadores x86. Para efeito de comparao, o Athlon 64 utiliza um pipeline de apenas
12 estgios.
Em um processador atual, o uso de um pipeline mais longo no exatamente uma boa notcia, muito pelo
contrrio. Como vimos, aumentar o nmero de pipelines do processador permite que cada estgio execute um
volume menor de processamento, permitindo que o processador seja capaz de operar a frequncias mais
altas. Em compensao, as instrues demoram um nmero maior de ciclos de clock para serem processadas
(j que precisam percorrer todo o pipeline), o que aumenta brutalmente o tempo perdido nos erros de branch
prediction.
Devido ao aumento no nmero de estgios do pipeline e das melhorias feitas nas unidades de execuo, o
Prescott dissipa mais calor que um Northwood do mesmo clock, mesmo sendo produzido em uma tcnica de
0.09 micron. Se isso lhe soa estranho, basta ter em mente que apesar da tcnica mais avanada de produo,
ele possui 125 milhes de transistores, contra apenas 55 milhes do Northwood. O TDP do Northwood de 3.4
GHz de 89 watts, enquanto o do Prescott da mesma frequncia de 103 watts, ou seja, 14 watts a mais.
Um consumo to alto fazia com que o Prescott no funcionasse em conjunto com muitas fontes genricas,
o que ajudou a trazer tona a questo da qualidade das fontes e da capacidade real de fornecimento. Na
poca, a Intel recomendava o uso de fontes de pelo menos 400 watts reais, capazes de fornecer um mnimo
de 16 Amperes na sada de 12V. Outro aspecto importante era a refrigerao: alm de um cooler bem
dimensionado, era recomendvel usar um exaustor adicional, instalado na abertura lateral (soprando ar frio
sobre o processador).
Sem uma ventilao adequada, os Pentium 4 baseados no Prescott ultrapassavam facilmente o limite de
temperatura, fazendo com que o Thermal Throttling entrasse em ao, reduzindo a frequncia do
processador.
Para evitar confuso, os modelos baseados no core Prescott que operam mesma frequncia dos
Northwood receberam a letra "E", como o Pentium 4 3.40E.
A Intel planejava lanar verses do Prescott com clocks acima de 4 GHz (durante a fase de
desenvolvimento chegaram a falar em 5 GHz), mas o massivo consumo eltrico e a dissipao trmica do
processador tornou invivel o lanamento de verses com clock acima de 3.8 GHz (ou seja, apenas 400 MHz a
mais que os Pentium 4 baseados no Northwood de 0.13 micron).
No final, o aumento no nmero de estgios do pipeline e as outras mudanas arquiteturais feitas no
processador acabaram sendo em vo, tornando o Prescott um dos maiores fracassos da histria da Intel.

2.3.8.1 A INTRODUO DO HYPER-THREADING


O Hyper-Threading foi introduzido no final de 2002, na forma de duas verses
especiais do Pentium 4 Northwood (soquete 478), que operavam a 2.8 e 3.06 GHz. A
partir da, ele foi utilizado em diversas sries do Prescott. As sries com suporte ao
Hyper-Threading eram identificadas pelo logotipo, que continha as letras "HT", em
laranja.
Com o Hyper-Threading, o processador se apresenta ao sistema operacional
como possuindo o dobro de ncleos que possui fisicamente. No caso do Northwood
e do Prescott que so processadores single-core, o sistema enxerga dois ncleos
43

lgicos e, no caso dos processadores dual-core e quad-core, so vistos respectivamente 4 e 8 ncleos.


Com isso, o sistema operacional ativa os mdulos responsveis pelo suporte a SMP e passa a dividir o
processamento dos aplicativos entre os dois processadores lgicos. Dentro do processador, as instrues so
reorganizadas, de forma que o processador possa aproveitar os ciclos ociosos para incluir operaes
relacionadas ao segundo thread. Aumentar o nvel de utilizao das unidades de execuo resulta em um
pequeno ganho de desempenho. Este slide da Intel apresenta o conceito:

Slide da Intel que demonstra o uso do Hyper-Threading


Dentro do processador, os circuitos responsveis pelo Hyper-Threading representam menos de 5% da
contagem total de transistores. Embora tenham sido habilitados apenas em algumas sries do Pentium 4, que
eram vendidas a preos mais altos, os circuitos responsveis estavam presentes desde o Pentium 4
Willamette, embora desativados.
Os circuitos responsveis pelo Hyper-Threading representam uma expanso do circuito de TLB e do trace
cache, alm de trs pequenos circuitos adicionais, o Return Stack Predictor, Next Instruction Pointer e o
Register Alias Tables. Eles so os responsveis por criar a "iluso" de dois processadores por ncleo e por
agendar o processamento de instrues aproveitando os ciclos ociosos.
O Hyper-Threading foi, de certa forma, um ensaio para os processadores dual-core que a Intel viria a lanar
cerca de trs anos depois. O ganho obtido ao ativar o Hyper-Threading no era nem prximo do obtido ao
utilizar um processador dual-core "de verdade", j que ele se baseia no melhor aproveitamento das unidades
de execuo do processador e no na presena de um segundo processador fsico. Por outro lado, quando ele
era ativado voc arcava com o overhead de utilizar um sistema com dois processadores (j que o sistema
operacional precisava ativar os mdulos responsveis pelo SMP e passar a dividir as tarefas entre os dois
ncleos).
Isso fez com que o Hyper-Threading no Northwood e no Prescott fosse uma faca de dois gumes. Em alguns
aplicativos, ele resultava em ganhos de 10, ou at mesmo 20%, mas na maioria o ganho era muito pequeno,
abaixo de 2%. Existia ainda um grande nmero de aplicativos onde ativar o HT reduzia substancialmente o
desempenho, o que anulava em grande parte o ganho obtido em outros aplicativos.

44

Os aplicativos que mais se beneficiavam do HT, de uma forma geral, eram os aplicativos de compresso de
udio e vdeo, compactao e descompactao de arquivos, aplicativos de renderizao 3D e alguns jogos. Os
ganhos eram mais expressivos em ambientes multitarefa, j que o maior nmero de processos ativos
permitiam que o processador aproveitasse melhor o tempo ocioso, adiantando operaes em um aplicativo
enquanto aguarda pela concluso de uma operao de tomada de deciso em outro, por exemplo. Os
aplicativos que costumavam apresentar perdas eram, sobretudo, os aplicativos do dia a dia, incluindo
navegadores, processadores de texto, planilhas e assim por diante.
Outro efeito colateral era que ativar o Hyper-Threading aumentava o consumo e, consequentemente, a
dissipao trmica do processador em 6 a 8%. No era incomum que ao ativar o HT a temperatura do
processador subisse 5 ou 6 graus, o que podia prejudicar a estabilidade caso o processador j estivesse
trabalhando prximo do limite.
Como os processadores Pentium 4 (sobretudo os Prescott, que operam a frequncias muito altas e eram
ainda fabricados numa tcnica de 0.09 micron) possuam uma dissipao trmica muito alta e uma relao
consumo/performance j muito ruim, os ganhos obtidos com a ativao do HT acabavam sendo superados
pelas desvantagens, de forma que muitos preferiam simplesmente desativar o recurso atravs do setup.
Depois do fracasso inicial, o Hyper Threading ficou algum tempo fora de cena, at ser revivido com o
lanamento dos processadores Core i7, i5 e i3, que trouxeram uma verso aperfeioada do sistema, capaz de
melhorar o desempenho de forma mais significativa sem comprometer a eficincia do processador. Veremos
mais detalhes sobre ele ao estudar a nova arquitetura.

2.3.8.2 SMITHFIELD , CEDAR MILL E PRESLER


Esgotadas as possibilidades com relao ao aumento no clock, a Intel decidiu investir no desenvolvimento
de processadores dual-core, o que deu origem srie Pentium D, que foi composta pelas trs geraes finais
da famlia NetBurst.
O core Smithfield era uma verso dual-core do Prescott (1 MB de cache para cada ncleo), produzido em
uma tcnica de 0.09 micron. Ele foi utilizado nas primeiras verses do Pentium D (abrangendo modelos de
2.66 a 3.2 GHz) e tambm no Pentium Extreme Edition 840. Estes processadores foram produzidos em
quantidades limitadas e foram rapidamente substitudos pelos Pentium D baseados no core Presler.
Esta imagem mostra o ncleo de um Pentium D baseado no core Smithfield. Como voc pode ver, ele nada
mais do que dois Prescotts, que compartilham o mesmo wafer e so unidos diretamente atravs do FSB
(que, no caso dos processadores Intel anteriores ao Core i7, tambm usado para ligar o processador
memria e ao chipset):

Ncleo do Pentium D baseado no core Smithfield


45

O Cedar Mill foi uma verso atualizada do Prescott 2M, produzida utilizando uma tcnica de 0.065 micron
(65 nanmetros). Ele manteve os 2 MB de cache e no incluiu mudanas na arquitetura. O desempenho dos
processadores baseados no core Cedar Mill era rigorosamente o mesmo dos Prescott 2M da mesma
frequncia, a nica vantagem que a dissipao trmica do Cedar Mill era um pouco mais baixa, e ele era
capaz de atingir frequncias de clock um pouco maiores quando em overclock.
A partir dos processadores 0.065 micron, passou-se a usar o nanmetro (milionsimo de milmetro) como
unidade de medida, no lugar do micron. Com isso, em vez de dizer "0.065 micron", "0.045 micron" e "0.032
micron", passou-se a dizer "65 nm", "45 nm" e "32 nm".
No existe nenhuma regra especfica sobre quando se deve usar o micron ou o nanmetro como unidade
de medida: este foi apenas um movimento espontneo em busca da maneira mais prtica de escrever e
pronunciar as medidas. muito mais fcil dizer "trinta e dois nanmetros" do que "zero ponto zero trinta e
dois micron".
De um modo geral, era possvel atingir at 4.2 GHz fazendo overclock em um processador baseado no Core
Prescott, enquanto os baseados no Cedar Mill atingiam at 4.5 GHz (em ambos os casos sem muita
estabilidade). A frequncia mxima no variava muito de acordo com o clock original do processador; era
preciso apenas ajustar a frequncia do FSB de acordo com o multiplicador, j que ele era travado, tanto no
Prescott, quanto no Cedar Mill.
Foram lanadas apenas 4 verses do Cedar Mill, operando a 3.0, 3.2, 3.4 e 3.6 GHz, todas em verso LGA775 e utilizando bus de 800 MHz. Embora o Cedar Mill fosse capaz de facilmente superar a marca dos 4.0 GHz
em overclock, a Intel decidiu no lanar processadores acima dos 3.6 GHz, com medo de que o consumo
eltrico excessivo dos processadores fizesse o tiro sair pela culatra.
O Cedar Mill deu origem tambm ao Cedar Mill-512, a verso mais competitiva do Celeron lanada at
ento, que contava com 512 KB de cache e era fabricado usando uma tcnica de 65 nm. Eles existiram em
verses de 3.06 a 3.6 GHz (todas utilizando bus de 533 MHz) e se tornaram muito baratos depois do
lanamento do Core 2 Duo, oferecendo uma boa relao custo-benefcio.
Utilizando um bom cooler, era possvel superar facilmente a faixa dos 4.0 GHz em overclock. Uma
configurao muito comum era overclocar o Celeron D 347 (a verso de 3.06 GHz) para 3.83 GHz, aumentando
a frequncia do FSB para 800 MHz.
O Presler, por sua vez, era uma verso dual-chip do Cedar Mill, onde dois chips eram instalados dentro do
mesmo encapsulamento. Como os dois chips eram separados por uma distncia de 5 mm, a dissipao de
calor era um pouco mais eficiente do que no Smithfield. Alm disso, graas utilizao de ncleos separados,
o ndice de aproveitamento da Intel era melhor, j que os dois processadores podiam ser testados
separadamente. No caso do Smithfield, caso um dos dois ncleos apresentasse defeito, ambos precisavam ser
descartados.
Em teoria, utilizar dois chips separados resulta em um processador capaz de operar a frequncias mais
baixas do que ao utilizar um processador dual-core "de verdade", como o Smithfield. Apesar disso, os ganhos
advindos da reduo de custos parecem ter superado as desvantagens para a Intel, que logo passou a usar o
Presler em toda a linha Pentium D.
O Presler foi lanado em verses de 2.8 a 3.6 GHz, todas com 2x 2 MB de cache L2 e utilizando bus de 800
MHz. Alm de representar quase todos os Pentium D vendidos, ele foi utilizado tambm em duas verses do
Pentium Extreme Edition, operando a 3.46 e 3.73 GHz.
Devido concorrncia da AMD, a Intel passou a ajustar o preo de seus processadores dual-core de forma
bastante agressiva. A diferena de preo entre um Pentium D e um Pentium 4 da srie 6xx (baseado no Cedar
Mill) no era grande, de forma que, em 2006, voc podia comprar um Pentium D de 2.8 GHz por
aproximadamente o mesmo que pagaria por um Pentium 4 631, a verso single-core de 3.0 GHz.
46

Por ser um processador dual-chip, o Presler no era capaz de atingir frequncias to altas quanto o Cedar
Mill quando em overclock. Mesmo nos melhores chips, era muito difcil superar a marca dos 3.9 GHz. Como na
poca ainda existiam poucos aplicativos otimizados para o uso de mltiplos ncleos, muito se discutia sobre as
vantagens e desvantagens de usar um Presler dual-core, ou um Cedar-Mill single core operando a uma
frequncia ligeiramente mais alta.
De uma forma geral, aplicativos que dividem a carga de processamento em vrios threads (e por isso se
beneficiam de um processador dual-core), so aplicativos de edio e compresso de vdeo, renderizao 3D,
edio de imagens (Photoshop, Gimp, etc.) e diversos aplicativos de uso profissional.
Aplicativos que tradicionalmente trabalham com um nico thread e por isso no se beneficiam de um
processador dual-core so aplicativos Office, players de udio e vdeo e a maioria dos jogos, muito embora
jogos recentes venham cada vez mais utilizando os cores adicionais para a AI e outras tarefas. Outra classe de
aplicativos que vem evoluindo para usar mltiplos cores de forma eficiente so os navegadores, que precisam
processar dezenas de abas e centenas de animaes simultaneamente.
Por outro lado, um processador dual-core sempre ajuda quando voc est rodando dois aplicativos
pesados simultaneamente. Pode ser que um determinado jogo no apresente ganho algum de FPS ao rodar
sobre um processador dual-core, mas sem dvida o FPS ser mais alto se voc resolver comprimir um filme em
H.264 em segundo plano enquanto joga.
Com a evoluo das tcnicas de fabricao, os processadores passaram a incluir cada vez mais cache, o que
fez com que o volume de transistores correspondentes aos ncleos de processamento passasse a ser
proporcionalmente cada vez maior. Depois da era de transio inaugurada pelo Pentium D, tanto a Intel
quanto a AMD passaram a focar no desenvolvimento de processadores dual-core e quad-core, relegando os
processadores single-core apenas s linhas de baixo custo.

2.3.8.3 O SOQUETE LGA-775


Junto com o Prescott, foi lanado o soquete LGA-775 (tambm chamado de soquete T). A sigla LGA
abreviao de "Land Grid Array", onde o nome indica a forma como o processador encaixado, "pousando"
sobre a cama de pinos do soquete.
O soquete 775 foi projetado de forma a melhorar o contato dos pinos e reduzir a distncia que os sinais
eltricos precisam percorrer do processador ao chipset, alm de permitir que os capacitores instalados na
parte inferior do processador (responsveis por filtrar e estabilizar a corrente) possam ser instalados o mais
prximo possvel do ncleo.
Os pinos de encaixe foram retirados do processador e movidos para o soquete, e um novo mecanismo de
reteno foi projetado:

Soquete LGA-775 e o Pentium 4 com core Prescott em verso LGA-775


47

Os contatos do soquete 775 so realmente muito finos e frgeis. No lugar de pinos, o processador possui
pequenos pontos de contato, que correspondem precisamente aos pinos no soquete.
Essa fragilidade faz com que seja muito fcil entornar parte dos contatos da placa ao instalar o processador
de forma desastrada. Ao contrrio do que temos em processadores antigos, onde com um pouco de jeito
possvel desentortar alguns pinos entortados durante uma tentativa de instalao mal feita, praticamente
impossvel desentortar contatos amassados no soquete 775,
de forma que uma instalao incorreta do processador
simplesmente inutiliza a placa-me.
Ao instalar o processador voc deve posicion-lo sobre o
soquete e simplesmente solt-lo, deixando que a lei da
gravidade se encarregue de encaix-lo. Nunca aplique
presso sobre o processador, pois isso s servir para
entortar os pinos que no estiverem bem posicionados.
Uma vez fechado, o mecanismo de reteno prende o
processador, aplicando a presso necessria para que ele
fique bem preso ao soquete, maximizando a condutividade
eltrica. Graas a isso, a presso exercida pelo sistema de
reteno do cooler pode ser muito menor, o que evita que a
placa "envergue", como no caso das placas soquete 478.
Voc pode notar, pela foto, que no existe um mecanismo de reteno para o cooler, como nas placas
soquete 478. Como a presso sobre o processador exercida pelo mecanismo de reteno do soquete, o
cooler simplesmente encaixado atravs dos orifcios disponveis na placa.
A partir de 2004, a Intel migrou rapidamente todos os processadores de alto desempenho para o soquete
775, transformando as placas soquete 478 em uma plataforma de baixo custo, destinada sobretudo aos
Celerons.
Embora fossem um beco sem sada em termos de upgrade (j que no suportavam o Pentium D e nem o
core 2 Duo), as placas soquete 478 se tornaram to baratas que continuaram representando a maior parte das
vendas no Brasil ao longo de 2005 e 2006. Alm das placas, o Celeron D (baseado no core Prescott) teve seu
preo drasticamente reduzido aps o lanamento do Core 2 Duo, tornando-se mais barato que os Semprons
equivalentes.
O principal motivo da Intel ter permitido que a plataforma soquete 478 tivesse uma sobrevida to grande
foi justamente conservar uma plataforma de baixo custo, que pudesse conter o avano dos processadores
AMD, evitando cair no mesmo erro que cometeu na poca do Pentium II. De qualquer forma, com a
popularizao dos processadores baseados na arquitetura Core, as placas soquete 478 chegaram ao fim da
linha, abrindo espao para suas sucessoras.
O soquete LGA-775 se revelou um dos soquetes mais duradouros da Intel, sendo usado ao longo de toda a
srie Pentium D e em seguida pelas famlias Core 2 Duo e Core 2 Quad. Ele se tornou obsoleto apenas com a
introduo do Core i7, i5 e i3, que adotaram o uso dos soquetes LGA-1366 e LGA-1156.
Ao migrar seus processadores para o soquete 775, a Intel adotou o uso do sistema de numerao que, com
os devidos ajustes, ainda usado at os dias de hoje. Ao contrrio da AMD, que at ento usava o sistema de
numerao como um indicador aproximado de desempenho, o sistema de numerao da Intel apenas um
cdigo que indica a famlia, a posio hierrquica do chip e os recursos adicionais (EM64, suporte a
virtualizao, etc.) suportados por ele.

48

Isso faz com que, em muitos casos, um processador mais rpido receba um nmero de identificao muito
inferior ao de um processador mais lento, porm de outra famlia. Os cdigos foram especialmente confusos
durante a poca do Pentium D e do Celeron D, devido ao grande nmero de famlias diferentes em produo.
O sistema de numerao foi aplicado apenas aos processadores produzidos em verso soquete 775.
Mesmo depois do lanamento deles, os processadores soquete 478 (tanto Pentium 4, quanto Celeron)
continuaram sendo vendidos sob a frequncia de operao, at serem descontinuados. A partir da segunda
metade de 2007, a AMD acabou adotando um sistema de numerao similar ao da Intel, tambm
abandonando a ideia do ndice de desempenho.

2.4 PROCESSADORES MODERNOS: A ERA DOS 64 BITS


Depois de estudarmos um pouco sobre a histria da informtica e passarmos pelos processadores de 2000
a 2005, chegamos finalmente ao incio da era moderna, que foi inaugurada pelo Athlon 64, o primeiro
processador x86 de 64 bits.
Antes do Athlon 64, a Intel vinha tentando empurrar o IA64, um novo conjunto de instrues de 64 bits,
que era usado no Itanium. A diferena fundamental entre o IA64 e o x86-64 (usado no Athlon 64) que o IA64
era incompatvel com o conjunto anterior (todos os softwares precisam ser reescritos), enquanto o x86-64
uma atualizao mais suave, que permite usar tanto sistemas operacionais e softwares de 32 bits, quanto
sistemas e softwares de 64 bits.
Depois de uma rpida batalha, o padro da AMD prevaleceu, e graas a isso que podemos escolher entre
usar as verses de 32 bits e 64 bits do Windows ou de diversas distribuies Linux nos processadores atuais,
sem nos preocuparmos com a questo da compatibilidade.
Comeando do incio, todos os processadores Intel e AMD, do 386 ao Athlon, so chamados
genericamente de "processadores x86", deixando claro que apesar de todas as diferenas de arquitetura, eles
so compatveis com o mesmo conjunto bsico de instrues. graas a isso que temos um nmero to
grande de softwares, acumulados ao longo de mais de duas dcadas, que continuam funcionando nos PCs
atuais. Com exceo da questo dos drivers, voc poderia perfeitamente rodar o MS-DOS e o Windows 3.11
em um Core i7, por exemplo.
Duas grandes limitaes da plataforma x86 so o pequeno nmero de registradores e o suporte nativo a
apenas 4 GB de memria RAM, uma limitao compartilhada por todos os processadores de 32 bits. Os
registradores so pequenos espaos de memria utilizados pelo processador para armazenar informaes que
sero usadas para processar a instruo seguinte. Voc pode pensar nos registradores como uma espcie de
"cache L0". Eles esto muito prximos das unidades de execuo do processador e por isso as informaes
podem ser acessadas imediatamente, mas em troca eles so incrivelmente limitados em tamanho. A
arquitetura x86 prev o uso de apenas 8 registradores, com 32 bits (4 bytes!) cada um. Ou seja, todos os
registradores somados armazenam apenas 32 bytes de dados.
No possvel adicionar mais registradores facilmente, pois softwares escritos para utilizarem os
registradores adicionais no seriam mais compatveis com os processadores antigos. A soluo encontrada foi
utilizar o recurso chamado "register renaming" onde o processador possui um nmero maior de registradores,
mas apenas 8 deles so visveis para os softwares. Os demais so gerenciados de forma dinmica pelo
processador, que vai chaveando entre eles conforme novas informaes so necessrias. Essa tcnica ameniza
os problemas de desempenho causados pelo pequeno nmero de registradores, mas no soluciona a questo
completamente.
Com relao memria, o limite de 4 GB se tornou uma limitao sria em algumas reas a partir da poca
do Pentium 1. A nica forma de solucionar de vez as duas questes, assim como um conjunto de outros

49

problemas comuns a todos os processadores de 32 bits, era desenvolver uma nova arquitetura, composta
agora por processadores de 64 bits.
A primeira questo que precisamos deixar claro a definio do que so processadores de 64 bits e quais
so as vantagens sobre os de 32. Processadores de 64 bits no so duas vezes mais rpidos nem processam
(necessariamente) o dobro de dados por ciclo de clock. A grande vantagem dos processadores de 64 bits que
eles so capazes de trabalhar com endereos de memria de 64 bits, o que permite enderear muito mais do
que 4 GB de memria RAM. Temos tambm um aumento no tamanho dos registradores, que passam a
armazenar 64 bits de informaes (em vez de 32), o que representa um pequeno ganho de desempenho.
Outro benefcio (embora menos significativo) que eles so capazes de processar nmeros inteiros de at
64 bits, ao invs de 32. Isto oferece ganhos de desempenho em algumas reas especficas (como, por exemplo,
softwares de encriptao e alguns aplicativos cientficos) mas no ajuda muito nos aplicativos do dia a dia.
Processadores de 32 bits podem processar nmeros inteiros de 64 bits, mas eles precisam ser divididos em
duas instrues separadas, o que naturalmente toma mais tempo.
Com relao ao processamento de nmeros de ponto flutuante, no existe ganho, pois os coprocessadores aritmticos utilizados nos processadores atuais j so capazes de processar nmeros de ponto
flutuante de 64 bits e vetores de 128 bits. Nestas duas reas no existe um ganho direto, j que a transio foi
feita h muito tempo.
Este slide de apresentao da AMD mostra os novos registradores adicionados. Os 8 registradores x86
foram expandidos de 32 para 64 bits e foram adicionados 8 novos registradores de 64 bits, o que resultou em
um espao de armazenamento 4 vezes maior. Foram adicionados ainda 8 novos registradores para instrues
SSE ou SSE2, mas neste caso no houve expanso, j que o SSE utiliza registradores de 128 bits:

Novos registradores x86-64


No modo "legacy" (modo de compatibilidade), o processador funciona como um processador x86
comum, executando instrues de 32 bits e utilizando apenas os registradores padro. Ao mudar para o modo
"long", o processador tem acesso a 16 registradores de 64 bits cada um e passa a suportar as instrues e
endereos de memria de 64 bits.
O chaveamento entre os dois modos feito de maneira muito rpida, o que permite ao processador
executar aplicativos de 32 bits dentro de um sistema operacional de 64 bits sem um grande overhead. Essa
uma funo fundamental, pois permite usar softwares de 32 bits dentro das verses de 64 bits do Windows e

50

Linux de forma suave, com o sistema precisando apenas manter carregadas algumas bibliotecas de
compatibilidade.
O conjunto de instrues da AMD foi batizado de x86-64 (e posteriormente renomeado para AMD64) e
acabou sendo adotado tambm pela Intel, na forma do EM64T, um conjunto compatvel, includo sem muito
alarde a partir do Pentium 4 com core Prescott. Pela primeira vez na histria, a AMD ditou o novo padro e a
Intel se viu obrigada a segui-lo.
O grande mrito do x86-84 foi o de possibilitar uma migrao suave, permitindo que os sistemas de 32 bits
continuassem sendo utilizados nos primeiros anos, at que as limitaes no acesso memria comeassem a
se tornar um problema.
Ao usar as verses de 32 bits do Windows ou Linux em par com aplicativos de 32 bits, o processador no
utiliza os novos registradores ou outras melhorias includas no novo conjunto de instrues, mas isso tem um
efeito pequeno sobre o desempenho. A principal limitao que operando em modo de 32 bits, o processador
no capaz de enderear mais do que 4 GB de memria, o que limita o uso s configuraes mais bsicas.
A segunda possibilidade utilizar um sistema operacional de 64 bits. Neste caso, voc tem um pequeno
ganho de desempenho devido ao uso dos novos registradores e o processador passa a suportar mais de 4 GB
de memria RAM. A maior parte dos aplicativos no exibe grandes ganhos de desempenho ao serem
recompilados para rodarem em modo 64 bits, mas alguns (sobretudo bancos de dados) podem obter 15 ou
mesmo 20% de ganho de desempenho em alguns casos.
Embora no incio tenham existido muitos problemas (sobretudo em relao aos drivers), as verses de 64
bits das distribuies Linux, assim como do Windows Vista e Windows 7, j esto bastante maduras, o que
torna a migrao bastante suave, desde que voc no tenha perifricos antigos cujos drivers existam apenas
em verso de 32 bits.
No caso dos aplicativos, a soluo mais simples, j que possvel executar aplicativos de 32 bits lado a
lado com os aplicativos de 64 bits. Existe um certo overhead em executar aplicativos de 32 bits sobre um
sistema de 64 bits, pois o sistema precisa de mais memria para manter carregadas as bibliotecas de legado,
mas o desempenho do processador no prejudicado. Existem casos de incompatibilidades com aplicativos
especficos, mas eles esto se tornando cada vez mais raros.
Como vimos, os aplicativos de 32 bits podem utilizar apenas 4 GB de memria (que na prtica acabam se
transformando em apenas 3 ou 3.5 GB devido aos endereos reservados aos dispositivos). Um efeito colateral
interessante que, em um PC com 8 GB de memria, por exemplo, os aplicativos de 32 bits enxergam e
utilizam apenas os primeiros 4 GB. A memria adicional pode ser usada pelo sistema operacional e aplicativos
de 64 bits, mas no ajuda muito em casos em que os aplicativos de 32 bits sejam os aplicativos principais.
Com relao memria, os processadores AMD64 so capazes de enderear at 1 Terabyte de memria
fsica, o que corresponde a 40 bits de endereos. Os 64 bits completos no so usados por questes
relacionadas ao desempenho, j que no existem mdulos e placas que permitam utilizar tanta memria
atualmente.
Apesar de o AMD64 reservar "apenas" 40 bits para o endereamento da memria fsica, esto disponveis
48 bits de endereamento para o virtual address space, o que permite enderear at 256 terabytes. Esse limite
no se refere apenas ao uso de memria swap, mas indica o volume total de memria que o processador
capaz de enderear, incluindo no somente a memria RAM, mas tambm a memria da placa de vdeo (e
outros dispositivos) e est relacionado tambm com o suporte a arquivos grandes, como bancos de dados.
Voc poderia imaginar esses dois limites em ao no caso de um grande servidor, com muita memria RAM e
diversos HDs em RAID, que armazenam um grande banco de dados.
Quando criamos um array RAID, o sistema passa a enxergar um nico e grande disco, ao invs de vrios
HDs separados, de forma que podemos usar todo o espao somado para armazenar um nico e gigantesco
51

arquivo. Com o sistema de endereamento do AMD64, o nosso hipottico servidor poderia ter at 1 TB de
memria RAM, e o sistema operacional seria capaz de gerenciar um banco de dados de at 256 TB espalhado
pelos diversos HDs, sem que fosse necessrio recorrer a truques para aumentar o espao de endereamento
(como necessrio ao acessar mais do que 4 GB de RAM, ou gerenciar arquivos maiores do que 4 GB em um
processador de 32 bits).
Quando esse limite se tornar um empecilho, daqui a mais alguns anos, novas revises dos processadores
podem estender os limites de endereamento para 56 ou mesmo 64 bits completos, permitindo gerenciar
volumes virtualmente ilimitados de endereos, j que 64 bits permitem enderear at 264 bytes, o que equivale
a 18.446.744.073.709.551.616 bytes (16 Exabytes)

2.4.1 A ARQUITETURA K8
A arquitetura K8 usada pelo Athlon 64, Athlon X2 e por outros processadores de 64 bits da AMD
anteriores ao Phenom. Alm do x86-64, outra melhoria importante foi a incluso de um circuito de branchprediction sensivelmente melhorado, com um global history counter 4 vezes maior que o do Athlon K7.
O global history counter a rea reservada a armazenar os resultados de operaes processadas
anteriormente. Estas informaes so utilizadas como base de consulta pelo circuito de branch prediction na
hora de decidir qual caminho deve tomar dentro de uma operao de tomada de deciso.
Outro recurso, possivelmente o mais famoso, foi a incluso do controlador de memria integrado,
chamado de IMC (Integrated Memory Controller). Tradicionalmente, o controlador de memria fazia parte do
chipset e operava mesma frequncia que ele. O processador se comunicava com o chipset atravs do Front
Side Bus (o barramento principal) e ele (o FSB) era usado para todo o trfego, incluindo leitura e gravao de
dados na memria.
Ao mover o controlador de memria para dentro do processador, a AMD foi capaz de reduzir
sensivelmente o tempo de latncia nos acessos memria, aumentando assim o desempenho geral do
processador. O processador passou a ser ligado diretamente s trilhas da placa-me que levam aos mdulos
de memria, bypassando (algo como passar por cima ou contornar) o chipset.
O Athlon 64 deixou tambm de usar um barramento frontal para a ligao com o chipset como nos
processadores antigos (e nos processadores Intel anteriores ao Core i7) adotando o uso de um link
HyperTransport. Para sincronizar a operao dos componentes, passou a ser usado um clock de referncia de
200 MHz, que substituiu o clock do FSB, gerando a frequncia do processador, da memria e do prprio
barramento HyperTransport. No caso de sistemas com dois processadores em SMP (como no caso de
servidores equipados com o Opteron), barramentos HyperTransport adicionais fazem a ligao entre os
processadores.
Tecnicamente, incorreto dizer
que um Athlon 64 ou um Sempron
utilizam "200 MHz de FSB", j que
eles no possuem FSB e os 200 MHz
so apenas a frequncia de
referncia. Apesar disso, muito
comum que o termo "FSB" continue
a ser usado em exemplos, ou
coloquialmente, para descrever o
clock da frequncia de referncia, j
que mais fcil dizer "200 MHz de
FSB" do que dizer "clock de
referncia de 200 MHz" e em
52

seguida explicar o que vem a ser o clock de referncia... :-)


Ao lado, uma foto de divulgao da AMD, mostrando os componentes internos do Athlon 64, onde voc
pode notar as reas usadas pelo controlador de memria e pelo barramento HyperTransport.
O HyperTransport um barramento ponto a ponto, muito similar ao PCI Express sob diversos pontos de
vista. A principal ideia criar um barramento bastante rpido e de baixa latncia utilizando poucas trilhas de
dados.
Um link HyperTransport sempre bidirecional, composto por dois links com de 2 a 32 bits de largura cada.
Os dados so transmitidos duas vezes por ciclo (como nas memrias DDR) e a frequncia de operao pode ser
de 800 MHz a 3.2 GHz, de acordo com a implementao. S para efeito de comparao, o barramento PCI
opera a apenas 33 MHz, com uma nica transferncia por ciclo; isso faz com que a velocidade de transmisso
seja muito baixa para os padres atuais (apenas 133 MB/s), mesmo com o barramento transmitindo 32 bits de
dados por ciclo.
O padro HyperTransport desenvolvido por um conjunto de fabricantes, por isso utilizado em diversos
dispositivos, indo do Xbox da Microsoft a roteadores da Cisco. Os chipsets nVidia nForce para placas soquete
A, por exemplo, j utilizavam o HyperTransport para interligar a ponte norte e a ponte sul do chipset bem
antes do Athlon 64 ser lanado.
No caso dos processadores AMD64, so utilizados links com 16 bits de largura em cada direo (16 pares),
operando a 800 MHz (nas placas soquete 754) ou 1.0 GHz (nas placas soquete 939, 940 e AM2). Como so
realizadas duas transferncias por ciclo, podemos dizer tambm que a frequncia efetiva de
(respectivamente) 1.6 GHz e 2.0 GHz
Com 16 bits de largura e operando a 800 MHz com duas transferncias por ciclo, temos um total de 6.4
GB/s de transferncia de dados (3.2 GB/s em cada direo), o que uma marca espantosa. Ao aumentar a
frequncia para 1.0 GHz, a taxa de transmisso sobe para 8 GB/s e, ao atingir 2.0 GHz, a taxa sobe para nada
menos do que 16 GB/s.
As placas AM2+ (lanadas em 2008) adotaram o uso do HyperTransport 3.0, capaz de operar a at 2.6 GHz
e as AM3 (lanadas em 2009) migraram para o HyperTransport 3.1, que suporta frequncias de at 3.2 GHz.
Estas expanses no trouxeram ganhos diretos de desempenho, j que apenas aumentaram a banda
disponvel para a comunicao entre o processador e o chipset, sem influenciar na velocidade dos demais
componentes.
Entretanto, elas foram importantes para evitar o aparecimento de gargalos na comunicao, atendendo a
casos especficos (como PCs com vrias placas 3D, servidores com vrias placas de rede gigabit, etc.) alm de
servirem como um seguro contra o aparecimento de gargalos no futuro, conforme novos dispositivos e
barramentos forem sendo incorporados.
Apesar
da
brutal
taxa
de
transferncia, o link HyperTransport
composto por um nmero relativamente
pequeno de trilhas na placa-me. Em
muitas placas, possvel ver claramente
as trilhas do HyperTransport ligando o
processador ao chipset.
Continuando, temos a questo do
gerenciamento de energia. Com exceo
do Sempron 2800+, todos os
processadores da linha Athlon 64
suportam o Cool'n'Quiet, um sistema de
53

gerenciamento de energia bastante eficiente que, assim como o SpeedStep da Intel e o PowerNow usado pela
AMD nos processadores mobile, capaz de ajustar a frequncia de operao do processador de forma
dinmica de acordo com o uso. A principal diferena entre o Cool'n'Quiet e o PowerNow que ele otimizado
para uso em desktops, de forma que utiliza um sistema menos agressivo de gerenciamento, que tem como
prioridade no prejudicar o desempenho.
Um Athlon 64 3500+, por exemplo, pode trabalhar a 2.2 GHz (a frequncia normal), 2.0, 1.8 ou 1.0 GHz, de
acordo com os aplicativos em uso. Operando na frequncia mnima, a tenso do processador cai de 1.4 para
1.1V, gerando uma economia adicional. No final, um 3500+ baseado no core Venice chega a consumir menos
de 10 watts quando ocioso, operando na frequncia e tenso mnimas.
Como a frequncia do processador muda muito rapidamente, de acordo com a demanda (segundo a AMD,
at 30 vezes por segundo), voc mal percebe a reduo de clock. Demora exatamente o mesmo tempo para
ripar um DVD, renderizar uma imagem 3D, aplicar um filtro no Photoshop, pois logo que o processador
percebe o aumento na demanda de processamento, passa a operar na frequncia mxima automaticamente.
As reas em que voc acaba percebendo alguma perda so justamente nas operaes mais simples e
rpidas, como chavear entre as janelas e abrir menus dentro dos programas. Estas operaes so muito
rpidas para disparar o aumento na frequncia, de forma que, se prestar ateno, voc realmente percebe
alguma diferena, embora muito pouca.
De uma forma geral, o Cool'n'Quiet (assim como outros sistemas atuais de gerenciamento de energia)
acaba sendo um recurso essencial, pois aumenta a vida til do equipamento (mesmo componentes como o HD
e a placa-me duram mais ao operar em temperaturas mais baixas, sem falar do cooler, que acumula menos
poeira como consequncia da baixa rotao e assim precisa de menos manuteno) e gera economia na conta
de luz, em troca de uma reduo de desempenho muito pequena.
Em um PC com um Athlon 64 3500+, que ficasse ligado continuamente, teramos uma economia de
aproximadamente 30 kW por ms, que equivalem a uma economia anual de mais de 160 reais. Um usurio
que montasse um em 2007 e mantivesse o Cool'n'Quiet ativo, teria economizado o suficiente para comprar
um Athlon II X4 mais uma placa-me nova entre 2007 e 2010.
Continuando, com o Athlon 64, a AMD voltou a utilizar o heat spreader sobre o ncleo do processador,
assim como na poca do K6-2. Devido a isso, no mais possvel diferenciar rapidamente as diferentes
famlias do Athlon 64 apenas olhando para o tamanho e a posio do ncleo do processador, como na poca
do Athlon XP:

Athlon 64 e Athlon XP
Assim como o clock do processador, a tcnica de produo e a quantidade de cache, o controlador de
memria tambm usado como um diferencial entre as vrias famlias de processadores.
54

Tudo comeou com o Opteron, o primeiro processador baseado na arquitetura Hammer, destinado a
servidores. Ele utilizava um controlador de memria dual-channel e oferecia suporte apenas a memrias
registered, mdulos especiais que incluem um pequeno buffer que estabiliza o sinal, permitindo que sejam
utilizados mais mdulos na mesma placa-me
Os mdulos registered so mais caros e mais lentos que os mdulos DDR tradicionais que utilizamos em
PCs domsticos, mas eles so uma necessidade nos servidores, que precisam utilizar um nmero muito maior
de mdulos de memria. Devido ao brutal nmero de contatos utilizados pelo controlador de memria, o
soquete usado pelo Opteron tinha nada menos do que 940 pinos, o que na poca era indito.
A partir do momento em que passou a ser capaz de produzir um volume maior de processadores, a AMD
lanou os modelos destinados ao mercado domstico, que incluem as verses iniciais do Athlon 64 e Athlon 64
FX.
O Athlon 64 FX era uma variao do Opteron, que vinha com 1 MB de cache L2 e mantinha o controlador
de memria dual-channel. A grande mudana em relao ao Opteron que ele passou a oferecer suporte a
memrias DDR comuns, o que barateou muito o custo dos micros. Para diferenciar as placas para o Opteron e
para o Athlon 64 FX, a AMD criou o soquete 939, que era virtualmente idntico ao soquete 940 do Opteron. A
posio de alguns dos pinos foi alterada apenas para indicar a mudana no tipo de memria suportado e
impedir que o Opteron fosse usado nas placas para o Athlon 64 FX e vice-versa. Mais tarde, o soquete 939 foi
usado tambm pelas verses iniciais do Athlon X2.
Em seguida tivemos as verses domsticas do Athlon 64, que vinham com apenas 512 KB de cache L2 e
utilizavam um controlador de memria simplificado, sem suporte a dual-channel. Devido ao menor nmero de
contatos utilizados pelo controlador de memria, eles passaram a utilizar o soquete 754.

Athlon 64 FX (soquete 939) e Athlon 64 soquete 754 ( direita)


Considerando dois processadores do mesmo clock, a diferena de desempenho entre um Athlon 64
"normal" e um Athlon 64 FX no era to grande quanto se poderia imaginar. O controlador de memria dualchannel e o maior cache ajudavam em alguns aplicativos, mas a diferena no era to grande a ponto de
justificar pagar US$ 1000 pelo processador, como chegaram a custar algumas verses do FX.
Se voc se assustou com o preo, vale lembrar que as primeiras verses do Athlon 64 FX competiam com o
Pentium 4 Extreme Edition; ambos eram processadores "de vitrine", destinados ao pblico entusiasta e
vendidos a preos exorbitantes. Mais tarde, foram lanadas verses do Athlon 64 soquete 754 com 1 MB de
cache L2, que praticamente anularam as vantagens do FX, que no devido tempo acabou sendo descontinuado.
55

Tanto os processadores soquete 754 quanto os 939 e 940 utilizavam memrias DDR, que logo comearam
a se tornar antiquadas. Em 2006 a AMD iniciou a migrao para o soquete AM2 que, em conjunto com
mudanas no controlador de memria dos processadores, introduziu o suporte a mdulos DDR2. Apesar de
tambm possuir 940 contatos, o soquete AM2 incompatvel com o soquete 940 utilizado pelo Opteron, alm
de ser incompatvel com todos os processadores anteriores.
Os mdulos de memria DDR2 utilizam 240 contatos (contra apenas 184 dos mdulos DDR) e com o
controlador de memria integrado, os contatos vo diretamente para o processador, atravs de pinos no
soquete. Apesar disso, a AMD conseguiu fazer a migrao das memrias DDR para as DDR2 sem aumentar o
nmero de pinos do soquete, remanejando uma srie de contatos sem uso no processador.
Apesar do ganho de desempenho no ser to grande quanto poderia parecer primeira vista, as memrias
DDR2 oferecem a vantagem de trabalharem utilizando uma tenso mais baixa: apenas 1.8V, contra 2.5V das
memrias DDR. Isto faz com que tanto os mdulos de memria quanto o prprio controlador de memria
integrado ao processador consumam menos energia (e dissipem menos calor), o que ajuda na questo da
refrigerao.
Embora fossem mais caras no incio, as memrias DDR2 logo passaram a ser produzidas em maior
quantidade e utilizando tcnicas mais modernas de fabricao, o que fez com que a capacidade dos mdulos
aumentasse e os preos cassem rapidamente. A AMD acertou no tempo da migrao, fazendo a transio
quase exatamente no momento em que as DDR2 comearam a ser vendidas mais barato que as DDR.
Com a migrao, as placas soquete 754 ficaram inicialmente relegadas posio de plataforma de baixo
custo (como sempre, houve uma grande oferta de placas antigas a preos baixos) e no devido curso do tempo
foram completamente substitudas. A partir da segunda metade de 2006, at mesmo os Semprons passaram a
ser fabricados em verso AM2.
O AM2 trouxe tambm um novo suporte de reteno do cooler (a "gaiola" em volta do processador). Ele
preso placa-me por quatro parafusos (em vez de apenas dois), o que tornou o mecanismo de reteno mais
firme. O problema que ele passou a usar um formato octagonal (ao invs do formato quadrado usado no
soquete 754 e 939), o que quebrou a compatibilidade com grande parte dos coolers antigos.
Visualmente, o soquete AM2 praticamente idntico ao soquete 939, mudando apenas a posio de
alguns dos pinos. O contato adicional pode ser visto no canto inferior direito do soquete:

Detalhe do suporte de reteno, e um cooler AM2 boxed da AMD


Em 2007 o soquete AM2 foi atualizado, dando origem ao AM2+, que continua em uso at os dias de hoje.
O AM2+ manteve a mesma pinagem do AM2 (preservando a compatibilidade com os processadores antigos) e
trouxe duas melhorias: o suporte ao HyperTransport 3.0 (com frequncias de at 2.6 GHz) e suporte a split
power planes, um recurso de gerenciamento avanado de energia introduzido a partir do Phenom, que
56

permite que os ncleos do processador e o controlador de memria utilizem tenses diferentes, reduzindo o
consumo.
A principal desvantagem de utilizar o controlador de memria integrado, que passou a ser necessrio
lanar uma verso atualizada do processador e criar um novo soquete cada vez que preciso fazer alteraes
no controlador de memria, ou oferecer suporte a uma nova tecnologia. Isso levou introduo do soquete
AM3 em fevereiro 2009, que trouxe o suporte a memrias DDR3.
Embora o formato do soquete tenha continuado o mesmo e a pinagem seja similar, o AM3 utiliza trs
pinos a menos, o que faz com que o soquete obstrua o encaixe de processadores AM2 ou AM2+, que
suportam apenas memrias DDR2.
Por outro lado, processadores AM3 da safra atual (como as verses AM3 do Phenom II e do Athlon II),
utilizam um controlador de memria hbrido, que oferece suporte simultneo a memrias DDR2 e DDR3. Isso
permite que eles sejam usados tanto em conjunto com placas AM3 quanto em conjunto com placas AM2+ (e
at mesmo em conjunto com algumas placas AM2 antigas), embora com um desempenho levemente inferior,
devido ao barramento mais estreito com a memria. Veremos mais detalhes sobre ele no tpico sobre o
Phenom II.

2.4.1.1 OS MODELOS
Assim como na questo dos soquetes, a lista de modelos do Athlon 64 apresenta uma variedade espantosa
de arquiteturas, variaes na quantidade de cache, soquete usado, frequncia do HyperTransport e assim por
diante. Para complicar, na poca a AMD ainda vendia os processadores segundo o ndice de desempenho
iniciado com o Athlon XP, o que levou a muitos casos de processadores com clocks, caches e arquiteturas
diferentes vendidos sob o mesmo ndice, sem nenhuma distino clara em relao aos demais.
Todo processador inclui uma pequena rea de memria com detalhes sobre a arquitetura usada,
quantidade de cache, frequncia, tenso, conjuntos de instrues suportados e assim por diante. Estes cdigos
de identificao so acessveis atravs de uma srie de aplicativos de diagnstico, que podem ser usados para
identificar o processador. Um dos mais prticos (para Windows) o CPU-Z, disponvel no:
http://www.cpuid.com/softwares/cpu-z.html.
No Linux voc pode usar o comando "cat /proc/cpuinfo", deixando que o prprio Kernel do sistema leia os
cdigos de identificao e mostre as informaes na tela. Embora no seja to bem organizada, a lista inclui
boa parte das informaes exibidas pelo CPU-Z. Vamos ento tortuosa lista dos modelos da safra inicial,
culminando com uma explicao sobre como reconhec-los baseado nos cdigos de identificao:
2.4.1.1.1 A THLON 64 E FX
Tudo comeou com os cores ClawHammer e SledgeHammer, que foram as verses originais do K8,
produzidas atravs de uma tcnica de 0.13 micron e lanadas pela AMD em 2003. Ambos tinham
originalmente 1 MB de cache L2; a principal diferena entre eles era que o SledgeHammer vinha com ambos
os controladores de memria ativados, enquanto o ClawHammer vinha com apenas um, suportando somente
o modo single-channel de acesso memria.
Muitos modelos do ClawHammer vinham com metade do cache L2 desativado (o que permitia aproveitar
processadores com defeitos no cache) e existiram tambm verses com suporte a dual-channel (virtualmente
idnticas ao core SledgeHammer), vendidas em verso soquete 939. Na poca, a AMD tinha problemas para
produzir os processadores em quantidade suficiente, de forma que foi lanando novas verses do jeito que
conseguia, sem muita organizao ou lgica.
O core ClawHammer foi utilizado nas primeiras verses do Athlon 64, sendo vendido nas verses:
Athlon 64 4000+: 2.4 GHz, 1 MB, soquete 939
Athlon 64 3700+: 2.4 GHz, 1 MB, soquete 754
57

Athlon 64 3500+: 2.2 GHz, 512 KB, soquete 939


Athlon 64 3400+: 2.2 GHz, 1 MB, soquete 754
Athlon 64 3200+: 2.0 GHz, 1 MB, soquete 754
Athlon 64 3000+: 2.0 GHz, 512 KB, soquete 754
Athlon 64 2800+: 1.8 GHz, 512 KB, soquete 754
Ele foi utilizado ainda no Athlon 64 FX-53 (2.4 GHz, 1 MB, soquete 939) e no FX-55 (2.6 GHz, 1 MB, soquete
939). Todas as verses do Athlon FX vinham com o multiplicador destravado, de forma a facilitar os overclocks.
Isto era utilizado pela AMD como um diferencial para justificar a diferena de preo entre os FX e as verses
regulares do Athlon 64.
Note que os FX no eram vendidos sob o ndice de desempenho: os nmeros seguiam apenas uma
sequncia crescente que indicava a "posio hierrquica" do processador, sem uma relao direta com seu
desempenho.
Alm de ser utilizado no Opteron, a verso do Athlon 64 destinada a servidores, o core SledgeHammer foi
utilizado nos Athlon 64 FX-51 (2.2 GHz, 1 MB) e FX-53 (2.4 GHz, 1 MB), ambos vendidos apenas em verso
soquete 940, o que adicionava o custo de utilizar memrias registered. Estas duas verses (lanadas em 2003,
antes dos FX-53 e FX-55 baseados no ClawHammer) foram processadores "pra ingls ver", vendidos em
quantidade muito limitada. O principal motivo da existncia deles foi manter a guerra de benchmarks com a
Intel.
O seguinte foi o core Newcastle, que ainda era fabricado usando a tcnica de 0.13 micron, mas utilizava
apenas 512 KB de cache L2, o que o tornava mais barato de produzir em relao ao ClawHammer. Ele foi
vendido nas verses:
Athlon 64 3800+: 2.4 GHz, 512 KB, soquete 939
Athlon 64 3500+: 2.2 GHz, 512 KB, soquete 939
Athlon 64 3400+: 2.4 GHz, 512 KB, soquete 754
Athlon 64 3200+: 2.0 GHz, 512 KB, soquete 939
Athlon 64 3200+: 2.2 GHz, 512 KB, soquete 754
Athlon 64 3000+: 1.8 GHz, 512 KB, soquete 939
Athlon 64 3000+: 2.0 GHz, 512 KB, soquete 754
Athlon 64 2800+: 1.8 GHz, 512 KB, soquete 754
Note que, assim como no caso do ClawHammer, as verses soquete 939 eram vendidas sob um ndice de
desempenho mais alto, muito embora o uso do dual-channel tenha pouca influncia sobre o desempenho das
verses de baixo clock do Athlon 64. Isso fazia com que um 3000+ soquete 754 acabasse sendo mais rpido
que um soquete 939 (que opera a apenas 1.8 GHz) na maioria das aplicaes. Para quem montava um PC de
baixo custo na poca, valia mais a pena comprar um 3000+ soquete 754 e usar um nico pente de memria.
Continuando, temos o Winchester, que foi a primeira verso a ser fabricada usando uma tcnica de 0.09
micron. Ele virtualmente idntico ao Newcastle, incluindo os 512 KB de cache, mas oferece uma dissipao
trmica muito mais baixa. Enquanto o TDP dos modelos baseados no Newcastle de 89 watts, nos baseados
no Winchester de apenas 67 watts. O Winchester foi usado somente em trs modelos:
Athlon 64 3500+: 2.2 GHz, 512 KB, soquete 939
Athlon 64 3200+: 2.0 GHz, 512 KB, soquete 939
Athlon 64 3000+: 1.8 GHz, 512 KB, soquete 939
O Venice foi a reviso produzida em maior volume e tambm a mais vendida no Brasil. Ele foi tambm
produzido usando a tcnica de 0.09 micron e manteve os 512 KB de cache, mas incluiu suporte ao SSE3, o que
58

resultou em um pequeno ganho de desempenho, sobretudo em jogos j otimizados. As primeiras verses


chegaram ao mercado em abril de 2005, substituindo rapidamente os processadores baseados nos cores
anteriores.
Assim como no caso do Newcastle, ele foi vendido tanto em verses soquete 754 quanto em verses 939,
porm com diferenas de clock entre as duas verses:
Athlon 64 3800+: 2.4 GHz, 512 KB, soquete 939
Athlon 64 3500+: 2.2 GHz, 512 KB, soquete 939
Athlon 64 3400+: 2.2 GHz, 512 KB, soquete 939
Athlon 64 3400+: 2.4 GHz, 512 KB, soquete 754
Athlon 64 3200+: 2.0 GHz, 512 KB, soquete 939
Athlon 64 3200+: 2.2 GHz, 512 KB, soquete 754
Athlon 64 3000+: 1.8 GHz, 512 KB, soquete 939
Athlon 64 3000+: 2.0 GHz, 512 KB, soquete 754
Apesar de ser um processador single-core lanado em 2005, o Venice (incio de 2010) ainda capaz de
rodar muitos jogos e aplicativos atuais que no sejam muito dependentes de um processador multicore. Em
conjunto com uma ATI Radeon 4570 ou outra placa minimamente atual, ele ainda capaz de rodar o Call of
Duty World at War, Left 4 Dead ou mesmo o Left 4 Dead 2 com um FPS aceitvel.
Continuando, existiu tambm o Manchester, uma reviso do Venice com um consumo eltrico pouca coisa
inferior. Ele existiu em verses 3200+ (2.0 GHz, 512 KB, soquete 939) e 3500+ (2.2 GHz, 512 KB, soquete 939).
O prximo o core San Diego, uma verso do core Manchester com 1 MB de cache L2. Ele foi utilizado
tanto em modelos do Athlon 64 (um deles com metade do cache desabilitado, assim como na poca do
ClawHammer) e tambm em dois modelos do Athlon FX. Dentro da linha Athlon 64, o San Diego foi utilizado
em trs modelos:
Athlon 64 4000+: 2.4 GHz, 1 MB, soquete 939
Athlon 64 3700+: 2.2 GHz, 1 MB, soquete 939
Athlon 64 3500+: 2.2 GHz, 512 KB, soquete 939
Dentro da linha FX, ele foi utilizado nos modelos FX-55 (2.6 GHz, 1 MB, soquete 939) e FX-57 (2.8 GHz, 1
MB, soquete 939). Estes dois modelos eram processadores escolhidos a dedo dentro da produo do San
Diego, incluindo apenas os processadores mais perfeitos, que eram capazes de operar estavelmente a
frequncias mais altas. Alm do clock (e preo) mais alto, a nica vantagem deles sobre os da linha Athlon 64
era o fato de virem com o multiplicador destravado.
O Orleans foi mais um core fabricado utilizando a tcnica de 0.09 micron. Apesar disso, ele trouxe algumas
vantagens importantes sobre os anteriores.
A primeira foi o suporte ao soquete AM2 (e o consequente suporte a memrias DDR2), utilizado por todos
os modelos. Ela foi acompanhada pelo suporte ao AMD-V (tambm chamado de "Pacifica"), um sistema de
virtualizao muito similar ao Intel-VT, que, assim como ele, pode ser utilizado para melhorar o desempenho
de virtualizadores como o VMware e o Xen.
Ele passou a operar tambm com um TDP mais baixo, resultado de uma srie de otimizaes e o uso de
tenses mais baixas. Enquanto o Venice 3800+ possua um TDP de 89 watts, o Orleans 4000+ trabalhava com
um TDP de apenas 62 watts. O Orleans foi utilizado nos modelos:
Athlon 64 4000+: 2.6 GHz, 512 KB, soquete AM2
Athlon 64 3800+: 2.4 GHz, 512 KB, soquete AM2
Athlon 64 3500+: 2.2 GHz, 512 KB, soquete AM2
59

Athlon 64 3200+: 2.0 GHz, 512 KB, soquete AM2


Athlon 64 3000+: 1.8 GHz, 512 KB, soquete AM2
Mais tarde o Orleans foi utilizado tambm em trs verses de baixo consumo, compostas por
processadores selecionados, capazes de operar dentro de um TDP de apenas 45 watts:
Athlon 64 LE-1640: 2.6 GHz, 512 KB, soquete AM2, TDP de 45 watts
Athlon 64 LE-1620: 2.4 GHz, 512 KB, soquete AM2, TDP de 45 watts
Athlon 64 LE-1600: 2.2 GHz, 512 KB, soquete AM2, TDP de 45 watts
Concluindo, temos o core Lima, o primeiro fabricado usando a nova tcnica de 65 nanmetros. Ele no
trouxe novidades na arquitetura, mantendo os mesmos 512 KB de cache L2 e outros recursos bsicos, mas
oferecia um consumo eltrico muito mais baixo, tambm operando dentro de um TDP de 45 watts:
Athlon 64 LE-1660: 2.8 GHz, 512 KB, soquete AM2
Athlon 64 LE-1640: 2.7 GHz, 512 KB, soquete AM2
Athlon 64 3800+: 2.4 GHz, 512 KB, soquete AM2
Athlon 64 3500+: 2.2 GHz, 512 KB, soquete AM2
2.4.1.1.2 A THLON 64 X2
Embora o Athlon fosse um processador muito mais eficiente que o Pentium 4, a AMD tambm logo atingiu
os limites de operao do projeto, chegando aos 2.6 GHz com os processadores de 90 nm e aos 2.8 GHz com o
Lima de 65 nm. A soluo para continuar lanando verses mais rpidas foi a mesma da Intel: investir no
desenvolvimento de processadores dual-core.
As primeiras verses do Athlon 64 foram lanadas em 2005, em resposta ao lanamento do Pentium D
baseado no core Presler. Do ponto de vista tcnico, o Athlon X2 era bem mais avanado que o Pentium D, j
que alm da questo da arquitetura, ele era um processador dual-core nativo, e no um processador dualchip.
No Presler tnhamos dois processadores separados,
que compartilhavam o mesmo encapsulamento (da o
dual-chip). Toda a comunicao entre os dois cores; e,
entre eles e o chipset, era feita atravs do FSB, um
barramento lento para acumular as duas funes.
A AMD por outro lado utilizou um projeto bastante
moderno no Athlon X2, construindo os dois ncleos sobre
o mesmo wafer e utilizando um novo barramento interno
para a comunicao entre eles, batizado de SRI (System
Request Interface). Isso garantiu tempos de latncia mais
baixos e pequenos ganhos de desempenho ao rodar
muitos aplicativos simultaneamente (que justamente a
rea em que os processadores dual-core oferecem mais
vantagens), alm de permitir que o processador fosse
capaz de operar a frequncias um pouco mais altas do que
seria possvel com um design dual-chip.
Na camada mais externa, temos o "Crossbar Switch", responsvel por dividir as requisies entre os dois
cores, controlar o acesso de ambos ao controlador de memria (e ao barramento HyperTransport), alm de
monitorar o nvel de carregamento de cada um, informao utilizada, entre outras coisas, pelo sistema de
gerenciamento de energia.
60

Este diagrama da AMD mostra o conceito. Note que no diagrama so indicados dois links de 72 bits com a
memria (suporte a ECC) e trs links HyperTransport, que so recursos presentes apenas no Opteron (a verso
para servidores). No Athlon X2 domstico usado um nico link HyperTransport e os controladores de
memria trabalham em conjunto com mdulos DDR2 regulares, com dois links de 64 bits.
Cada processador possui seu prprio cache L2, mas ambos compartilham o mesmo controlador de
memria e o mesmo barramento HyperTransport, atravs do qual feita toda a comunicao com o chipset e
os demais componentes do PC.
Olhando uma foto ampliada do processador, voc pode notar que os dois ncleos ficam na parte central
superior, envoltos pelos circuitos referentes ao controlador de memria e HyperTransport e separados pelos
circuitos referentes ao SRI e ao Crossbar Switch. Outra peculiaridade que o segundo ncleo uma cpia
espelhada do primeiro, o que permite que ambos faam contato com os componentes centrais nos mesmos
pontos:

Componentes internos do X2
O uso de dois ncleos torna o processador mais dependente do barramento com a memria. Devido a isso,
o Athlon 64 X2 foi lanado apenas em verses soquete 939, AM2 e AM2+, j que uma verso soquete 754 seria
penalizada pelo barramento single-channel. O lanamento do Athlon X2 acelerou a migrao para as placas
soquete 939, transformando a plataforma 754 em uma opo de baixo custo, destinada ao Sempron e s
verses mais lentas do Athlon 64. Pouco tempo depois, ambas foram substitudas pela plataforma AM2, que
inaugurou o uso de memrias DDR2.
Ao contrrio do que teramos ao utilizar dois processadores separados em SMP, um processador dual-core
atual como o Athlon X2, Pentium D ou Core 2 Duo no consomem o dobro de energia que as verses singlecore. Isto possvel graas a sistemas de gerenciamento de energia includos no processador, que reduzem a
frequncia ou mesmo desativam completamente o segundo ncleo quando o processador est ocioso. No
caso do Athlon X2, muitos componentes so compartilhados entre os dois processadores, o que aumenta a
economia.
Se comparado com um Athlon 64 4000+ com core San Diego (que tambm opera a 2.4 GHz), um Athlon X2
4800+ Toledo (2.4 GHz, 1 MB) consome cerca de 12 watts a mais enquanto o sistema est ocioso e 24 watts a

61

mais ao rodar um benchmark. Considerando que o TDP do San Diego de 89 watts, o aumento no to
significativo.
Um aplicativo que conseguisse utilizar simultaneamente todo o processamento de ambos os cores
poderia, em teoria, fazer com que o consumo chegasse a ser momentaneamente prximo do dobro, mas em
situaes reais isto no acontece com frequncia.
A carreira do X2 comeou com o core Manchester, lanado em maio de 2005. Ele era fabricado usando
uma tcnica de 0.09 micron, com 512 KB de cache L2 por core (1 MB no total) e suporte s instrues SS3. A
verso mais lenta tinha metade do cache L2 desabilitado, de forma a aproveitar os cores com defeitos no
cache. Ele foi usado em quatro modelos:
Athlon 64 X2 4600+: 2.4 GHz, 2x 512 KB, soquete 939
Athlon 64 X2 4200+: 2.2 GHz, 2x 512 KB, soquete 939
Athlon 64 X2 3800+: 2.0 GHz, 2x 512 KB, soquete 939
Athlon 64 X2 3600+: 2.0 GHz, 2x 256 KB, soquete 939
O seguinte foi o core Toledo, ainda produzido usando uma tcnica de 0.09 micron, mas agora com 1 MB de
cache por core, totalizando 2 MB. Ele foi lanado simultaneamente com o Manchester, e os modelos do X2
baseados em ambos conviveram durante mais de um ano.
Apenas trs dos modelos produzidos utilizando o core Toledo vieram com todo o cache ativo. Os demais
vinham com metade do cache desativado, o que os tornava praticamente indistinguveis dos baseados no
Manchester. O Toledo foi utilizado nos modelos:
Athlon 64 X2 4800+: 2.4 GHz, 2x 1 MB, soquete 939
Athlon 64 X2 4600+: 2.4 GHz, 2x 512 KB, soquete 939
Athlon 64 X2 4400+: 2.2 GHz, 2x 1 MB, soquete 939
Athlon 64 X2 4200+: 2.2 GHz, 2x 512 KB, soquete 939
Athlon 64 X2 3800+: 2.0 GHz, 2x 512 KB, soquete 939
Quase um ano depois, em maio de 2006, foi lanado o Windsor, que passou a utilizar o soquete AM2 (com
a consequente migrao para as memrias DDR2) e adicionou suporte ao AMD-V, mantendo a mesma tcnica
de produo de 0.09 micron e o uso de 2x 1 MB de cache. Assim como no Toledo, uma grande parte dos
modelos vinham com metade do cache L2 desabilitado e eram vendidos sob ndices de desempenho mais
baixos que os "completos".
Diferente do que fez com as sries iniciais do Athlon 64, a AMD no aproveitou o ganho derivado do
barramento mais largo com a memria para engordar o ndice de desempenho dos processadores em relao
aos modelos do Toledo. Apesar disso, o Windsor foi bem adiante em termos de frequncia de operao,
chegando aos 3.0 GHz:
Athlon 64 X2 6000+: 3.0 GHz, 2x 1 MB, soquete AM2
Athlon 64 X2 5600+: 2.8 GHz, 2x 1 MB, soquete AM2
Athlon 64 X2 5400+: 2.8 GHz, 2x 512 KB, soquete AM2
Athlon 64 X2 5200+: 2.6 GHz, 2x 1 MB, soquete AM2
Athlon 64 X2 5000+: 2.6 GHz, 2x 512 KB, soquete AM2
Athlon 64 X2 4600+: 2.4 GHz, 2x 512 KB, soquete AM2
Athlon 64 X2 4400+: 2.2 GHz, 2x 1 MB, soque AM2
Athlon 64 X2 4200+: 2.2 GHz, 2x 512 KB, soquete AM2
Athlon 64 X2 4000+: 2.0 GHz, 2x 1 MB, soquete AM2
62

Athlon 64 X2 3800+: 2.0 GHz, 2x 512 KB, soquete AM2


Todos os modelos baseados no core Windsor possuem um TDP de 89 watts, assim como a maior parte das
verses baseadas nos cores Manchester e Toledo. A exceo fica por conta do 6000+, que apesar da diferena
de apenas 200 MHz em relao ao 5600+, possui um TDP de 125 watts. Esta diferena to grande causada
pelo gate leakage, o mesmo problema que a Intel enfrentou com o Pentium 4 ao cruzar a barreira dos 3.0 GHz
e que s vezes enfrentamos ao fazer overclocks agressivos.
A partir de uma certa frequncia (que varia de acordo com a arquitetura), os transistores passam a
desperdiar cada vez mais energia, de forma que necessrio utilizar uma tenso cada vez mais alta para
estabilizar o processador (aumento que aumenta ainda mais o desperdcio de energia), criando um ciclo
vicioso que se intensifica a cada novo aumento de frequncia.
O 6000+ basicamente uma verso overclocada do 5600+, onde a tenso foi aumentada de 1.30 para
1.35V para estabilizar o processador. Apesar de ser o mais rpido dentro da srie, ele acabou se tornando um
modelo indesejvel, j que era mais caro e mais gastador.
Como uma opo para quem prefere um processador mais econmico e frio, a AMD lanou a srie "Energy
Efficient", composta por modelos com um consumo mais baixo (baseados em uma nova tcnica de produo),
ou por unidades selecionadas de uma srie existente, capaz de operar estavelmente com tenses mais baixas.
A srie Energy Efficient do Windsor, por exemplo, abrange modelos do 3600+ (2.0 GHz, 2x 1MB, soquete
AM2) ao 5200+ (2.6 GHz, 2x 1MB, soquete AM2), todos com tenso de 1.2v e TDP de 65 watts. Eles eram mais
caros que os da srie regular, com o preo variando de acordo com o clock (nas frequncias mais altas, a
diferena nos preos finais no Brasil podia ser de quase 200 reais, enquanto nos modelos populares a
diferena caa para apenas 30 ou 50 reais). De uma forma geral, os modelos Energy Efficient valem a pena em
casos em que a diferena de preo pequena, pois a economia de energia acaba se pagando com o passar do
tempo. Em um PC que fica ligado continuamente, uma economia de 24 watts acaba resultando em uma
reduo de mais de 200 reais na conta de luz ao longo de dois anos.
Mais tarde, a srie Energy Efficient deu origem a outras sries de baixo consumo, incluindo a srie "e" e a
srie "LE" que, dependendo da srie, so compostas por revises de baixo consumo (que incorporam o uso de
transistores de chaveamento mais lento e outras tcnicas derivadas dos processadores mveis), ou
simplesmente serem compostos por modelos selecionados, com tenso e clock mais baixo.
Por ltimo, temos o Brisbane, a primeira srie do X2 a ser produzida usando uma tcnica de 65 nm. Uma
informao importante que, apesar da reduo do espao ocupado por cada processador (cortesia da nova
tcnica de fabricao), todos os modelos baseados no Brisbane possuem apenas 512 KB de cache por core. A
reduo foi feita para aumentar o ndice de aproveitamento, j que, como em toda nova tcnica de produo,
o ndice de defeitos inicialmente muito grande, de forma que produzir processadores menores permite
aumentar substancialmente o nmero de processadores "bons" por wafer, resultando em custos de produo
mais baixos.
Uma m notcia que a AMD aumentou os tempos de latncia do cache L2 do Brisbane de 12 para 14
tempos, visando facilitar a produo de futuros modelos com mais cache L2, alm de permitir o uso de
frequncias de clock ligeiramente maiores. Como o Brisbane no inclui melhorias em relao aos modelos
anteriores, ele acaba sendo mais lento que um Manchester do mesmo clock (e com a mesma quantidade de
cache). Embora a diferena seja pequena (inferior a 2% na maioria dos aplicativos), ela existe.
O Brisbane foi usado em 6 modelos da srie Energy Efficient, todos eles com TDP de 65 watts:
Athlon 64 X2 5200+: 2.7 GHz, 2x 512, soquete AM2
Athlon 64 X2 5000+: 2.6 GHz, 2x 512 KB, soquete AM2
Athlon 64 X2 4800+: 2.5 GHz, 2x 512 KB, soquete AM2
Athlon 64 X2 4400+: 2.3 GHz, 2x 512 KB, soquete AM2
63

Athlon 64 X2 4000+: 2.1 GHz, 2x 512 KB, soquete AM2


Athlon 64 X2 3600+: 1.9 GHz, 2x 512 KB, soquete AM2
Como de praxe, o uso de um processador dual-core tem seus prs e contras. O principal benefcio de usar
um processador dual-core o melhor desempenho ao rodar muitos aplicativos pesados simultaneamente. Se
voc do tipo que abre 50 abas do navegador, ouve msica, comprime um DVD, retoca imagens no
Photoshop ou Gimp para o cartaz que est diagramando no Corel e ainda por cima quer abrir 3 mquinas
virtuais do VMware, tudo ao mesmo tempo, um processador dual-core (ou quad-core), acompanhado por 3 ou
4 GB de memria DDR2 ou DDR3, uma necessidade.
Por outro lado, para usurios que rodam um ou dois aplicativos por vez, que usam o PC
predominantemente para jogos (sem executar outras tarefas simultaneamente como, por exemplo, deixar o
PC comprimindo um DVD em segundo plano) ou que rodam apenas aplicativos leves, um processador singlecore ainda pode ser satisfatrio, mesmo nos dias de hoje.
Com a popularizao dos processadores dual-core, cada vez mais jogos e outros aplicativos esto
ganhando otimizaes para o uso de vrios ncleos, mas este um processo vagaroso, j que demanda uma
boa dose de trabalho manual.
Comparando um X2 4800+ (2.4 GHz, 2x 1 MB, core Toledo) com um Athlon 64 single-core 4000+ (2.4 GHz,
1 MB, core San Diego) temos o X2 4800+ ganhando por uma margem de 17% no Winstone 2004 (Content
Creation), 41% no SYSMark 2004 (3D Content Creation), 1% no Photoshop 7 e 2% no Premiere 6.5 (testes do
World Bench 2005), 1% no Doom3 (FPS a 1024x768), 2% no Half Life 2 e 3% no Unreal 2004.
Voc pode notar que, com exceo do SYSMark 2004, todos os demais benchmarks e jogos mostram um
ganho de desempenho muito inferior ao sugerido pelo aumento de 800 pontos no ndice de desempenho da
AMD. Isso acontece por que estes testes levam em conta o desempenho ao executar apenas uma tarefa de
cada vez. Como disse, um processador dual-core traz benefcios considerveis apenas ao rodar vrios
aplicativos simultaneamente.
Rodando um aplicativo por vez, ou rodando apenas benchmarks, existem at casos em que o 4800+ perde
para o 4000+ por uma pequena margem (1 ou 2%). o caso de aplicativos que no conseguem obter nenhum
benefcio do segundo core e acabam tendo o desempenho penalizado pelo overhead de dividir a carga entre
os dois.
Depois do Brisbane, a srie Athlon X2 deu espao ao Phenom, que inaugurou o uso da plataforma K10,
com o uso de cache compartilhado e outras melhorias. Apesar disso, a AMD manteve a fabricao dos
processadores Athlon X2, que passaram a ser opes de baixo custo.
Entre 2008 e 2009 a srie X2 foi atualizada com modelos de 65 nm (core Kuma) e 45 nm (core Regor), mas
eles so derivados da arquitetura do Phenom, por isso no conservam muita relao com os modelos originais
alm do nome comercial. Veremos mais detalhes sobre eles mais adiante, no tpico sobre o Phenom.
2.4.1.1.3 S EMPRON
Apesar de serem processadores completamente diferentes dos Semprons soquete A baseados no Barton,
Thorton e Thoroughbred-B, a AMD continuou utilizando a marca "Sempron" ao lanar a linha de
processadores de baixo custo, baseada na arquitetura K8.
Alm da questo do cache menor, as verses iniciais do Sempron vinham sem suporte ao AMD64, ou seja,
sem suporte s instrues de 64 bits, incluindo os registradores extra e as outras melhorias trazidas pela
arquitetura. Embora fossem baseados na arquitetura K8, eles eram processadores de 32 bits, sem muitas das
inovaes trazidas por ela.
Outra diferena que o ndice de desempenho do Sempron era calculado com relao ao desempenho do
Celeron D e no do Pentium 4. Com isso, existia uma diferena significativa entre o desempenho de um
Sempron "3000+" e de um Athlon 64 tambm "3000+".
64

Por exemplo, o Athlon 64 3000+ baseado no core Newcastle (2.0 GHz, soquete 754, com 512 KB de cache)
tem um desempenho parecido com o de um Sempron de 2.2 GHz com 256 KB de cache, baseado no core
Palermo. O problema que o Palermo de 2.2 GHz recebeu o ndice "3400+", 400 pontos acima do ndice do
Athlon 64 equivalente.
De volta aos modelos, a primeira encarnao do Sempron K8 foi o core Paris, uma verso simplificada do
ClawHammer (ainda produzido atravs de uma tcnica de 0.13 micron), que possua nativamente apenas 256
KB de cache e vinha sem suporte s instrues de 64 bits, ao Cool'n'Quiet e tambm s instrues SSE3. Ele foi
lanado em julho de 2004 e foi vendido ao logo de pouco mais de um ano, em apenas duas verses:
Sempron 3100+: 1.8 GHz, 256 KB, soquete 754
Sempron 3000+: 1.8 GHz, 128 KB, soquete 754
Como pode ver, o 3000+ vinha com metade do cache desabilitado, o que resultava em um efeito muito
maior sobre o desempenho que a diferena de apenas 100 pontos no ndice sugeria. O Sempron com core
Paris era um modelo a se evitar, mas entre os dois o 3000+ foi o pior.
A partir de 2005, o core Paris foi rapidamente substitudo pelo Palermo, produzido usando uma tcnica de
0.09 micron. Ele se tornou uma das verses mais vendidas do Sempron (especialmente no Brasil), equipando
um sem nmero de PCs de baixo custo com placas soquete 754 tudo onboard e um nico mdulo de memria.
Nativamente, o core Palermo possui 256 KB de cache e oferece suporte s extenses de 64 bits,
Cool'n'Quiet e tambm s instrues SSE3. O problema que, a fim de aproveitar o maior nmero possvel de
processadores sados da linha de produo, a AMD passou a desativar no apenas metade do cache, como de
praxe, mas tambm o suporte s instrues de 64 bits e ao SSE3 nos cores que eram produzidos com defeitos
nos componentes relacionados a estes recursos, o que resultou em uma grande salada de modelos com ndice
de desempenho similar, mas com conjuntos muito diferentes de recursos.
A chave para diferenciar os Palermos o cdigo de identificao estampado sobre o spreader metlico. Os
processadores cujo cdigo termina com "BA" so os piores, pois no suportam nem instrues de 64 bits, nem
SSE3. Os que terminam com "BO" suportam SSE3, mas ainda no suportam instrues de 64 bits, enquanto os
terminados com "BX" so as verses completas, com ambos os recursos ativados.
Com exceo do 2500+, todos os modelos foram fabricados nas trs verses, e a presena do suporte a 64
bits ou SSE3 no influenciava no ndice de desempenho ou preo, o que tornava importante checar antes de
comprar. A isto soma-se a questo do Cool'n'Quiet, que no era suportado pelo core Paris e est disponvel
apenas do Palermo 3100+ em diante.
Inicialmente o Palermo foi usado em 7 modelos:
Sempron 3400+: 2.0 GHz, 256 KB, soquete 754
Sempron 3300+: 2.0 GHz, 128 KB, soquete 754
Sempron 3100+: 1.8 GHz, 256 KB, soquete 754
Sempron 3000+: 1.8 GHz, 128 KB, soquete 754
Sempron 2800+: 1.6 GHz, 256 KB, soquete 754
Sempron 2600+: 1.6 GHz, 128 KB, soquete 754
Sempron 2500+: 1.4 GHz, 256 KB, soquete 754
Pouco depois, no final de 2005, foi lanada uma verso atualizada do Palermo, com suporte ao soquete
939 (e consequentemente a dual-channel). Ela foi usada em 4 verses adicionais:
Sempron 3500+: 2.0 GHz, 256 KB, soquete 939
Sempron 3400+: 2.0 GHz, 128 KB, soquete 939
Sempron 3200+: 1.8 GHz, 256 KB, soquete 939
65

Sempron 3000+: 1.8 GHz, 128 KB, soquete 939


Estes 4 modelos suportavam SSE3, mas apenas as sries com final "BW" oferecem suporte s instrues de
64 bits. As sries com final "BP" vem com o suporte a 64 bits desabilitado, o que reduz bastante a utilidade nos
dias de hoje.
A terceira gerao foi o Sempron com core Manila, ainda fabricado usando a tcnica de 0.09 micron, mas
agora com suporte ao soquete AM2. Ao contrrio dos Palermos, todos os Manilas incluem suporte s
instrues de 64 bits e SSE3, mas o Cool'n'Quiet suportado apenas nas verses 3200+ em diante. O Manila
foi usado nos modelos a seguir:
Sempron 3800+: 2.2 GHz, 256 KB, soquete AM2
Sempron 3600+: 2.0 GHz, 256 KB, soquete AM2
Sempron 3500+: 2.0 GHz, 128 KB, soquete AM2
Sempron 3400+: 1.8 GHz, 256 KB, soquete AM2
Sempron 3200+: 1.8 GHz, 128 KB, soquete AM2
Sempron 3000+: 1.6 GHz, 256 KB, soquete AM2
Sempron 2800+: 1.6 GHz, 128 KB, soquete AM2
Como de praxe, as verses de 256 KB oferecem um desempenho sensivelmente superior na maior parte
dos aplicativos, por isso eram a melhor escolha, mesmo quando existia uma pequena diferena no preo.
Essa confuso com relao aos modelos do Sempron e do Athlon 64 fez com que a AMD perdesse alguns
potenciais compradores e permitiu que a Intel recuperasse parte do espao anteriormente perdido, passando
a oferecer verses do Celeron D a preos bastante competitivos.
No incio de 2007, os Celeron D baseados no core Cedar Mill-512 (os modelos 347, 352, 356, 360 e 365)
eram especialmente atraentes, pois possuam 512 KB de cache, eram fabricados usando a tcnica de 0.065
micron e suportavam overclocks generosos.
Continuando, em 2007 a AMD lanou o core Sparta, produzido usando uma tcnica de 65 nm. Alm de
manter o suporte ao SSE e ao AMD64, a AMD aproveitou a atualizao para ampliar o cache L2 de 256 para
512 KB, o que resultou em uma arquitetura virtualmente idntica usada no Athlon 64 com core Lima.
Diferente das famlias anteriores, que receberam tanto verses sem o Cool'n'Quiet quanto verses com ele
ativo, todas as verses do Sparta oferecem suporte ao Cool'n'Quiet que, combinado com a tcnica de 65 nm
resultou em um consumo eltrico bastante baixo. Embora o TDP oficial seja de 45 watts em todos os modelos,
o consumo real a 2.0 GHz de pouco mais de 20 watts, caindo para apenas 6 watts quando o processador est
ocioso.
O Sparta foi usado em 5 modelos da srie LE:
Sempron LE-1300: 2.3 GHz, 512 KB, soquete AM2
Sempron LE-1250: 2.2 GHz, 512 KB, soquete AM2
Sempron LE-1200: 2.1 GHz, 512 KB, soquete AM2
Sempron LE-1150: 2.0 GHz, 256 KB, soquete AM2
Sempron LE-1100: 1.9 GHz, 256 KB, soquete AM2
Como de praxe, dois dos modelos possuem metade do cache desativado, o que permitiu AMD aproveitar
processadores com defeitos localizados, aumentando o nmero de processadores utilizveis por waffer e
reduzindo os custos. Como a diferena de preo entre os modelos do Sempron pequena, melhor evitar o
1150 e o 1100, j que a diferena de desempenho em relao aos modelos com 512 KB muito grande.
Contrariando todas as expectativas, em 2008 a AMD lanou uma verso dual-core do Sempron, baseada
no core Brisbane, de 65 nm. Ele exatamente o mesmo usado nos Athlon X2 (SSE3, AMD64, Cool'n'Quiet,
66

etc.), com a diferena de que, no caso do Sempron, metade do cache desativado, resultando em apenas 256
KB por ncleo. Eles foram uma forma de aproveitar os ncleos com defeitos no cache que a AMD acumulou
durante a fabricao do Athlon X2:
Sempron X2 2300: 2.2 GHz, 2x 256 KB, soquete AM2
Sempron X2 2200: 2.0 GHz, 2x 256 KB, soquete AM2
Sempron X2 2100: 1.8 GHz, 2x 256 KB, soquete AM2

2.4.2 A PLATAFORMA CORE


O mercado de processadores bastante competitivo. Atualmente temos a predominncia da Intel e AMD,
com uma pequena participao da VIA, mas diversas outras empresas, incluindo a IBM, Texas, Transmeta,
Cyrix (que acabou sendo comprada pela VIA) e IDT j tentaram a sorte, sem tanto sucesso.
Fabricar processadores muito mais complexo e arriscado do que fazer placas-me ou telas de LCD por
exemplo, pois os projetos so muito mais complexos e o investimento inicial absurdamente maior. Leva-se
pelo menos 5 anos para projetar um novo processador e necessrio investir mais 2 a 4 bilhes de dlares
para montar uma fbrica de ponta.
Mesmo para uma grande empresa, como a Intel, um erro estratgico pode custar muito caro. Investir em
uma plataforma ineficiente pode gerar um atraso de vrios anos, at que seja concludo o projeto de um novo
processador mais competitivo e seja possvel produzi-lo em quantidade.
Com o lanamento do Pentium 4, em 2000, a Intel fez um movimento arriscado, investindo em um
processador com um longo pipeline (a primeira verso do Pentium 4 trabalhava com 20 estgios, contra 10 do
Pentium III). Dobrar o nmero de estgios no processador como dobrar o nmero de funcionrios em uma
linha de produo, fazendo com que cada um faa metade do trabalho e a esteira corra duas vezes mais
rpido.
O plano era simples: com mais estgios, o processador seria capaz de atingir frequncias mais altas. Para
manter as unidades de execuo abastecidas, o processador contaria com um cache L1 muito rpido, que
armazenaria instrues pr-decodificadas, um grande cache L2 e utilizaria um tipo mais rpido de memria
RAM, as famosas memrias Rambus.
Entretanto, o tempo mostrou que esse design possua inconsistncias bvias. Adicionar mais estgios
tornou o processador menos eficiente, pois as instrues precisavam do dobro do nmero de ciclos para
serem executadas, fazendo com que o processador perdesse muito tempo em operaes de tomada de
deciso, em que ele depende do resultado de uma instruo para processar a prxima.
Possuir o dobro de estgios significa tambm possuir mais transistores e consumir mais energia por ciclo
de processamento. Se isso vem acompanhado de um aumento no clock, chegamos a um processador
ineficiente, que consome muito mais energia e dissipa muito mais calor.
Por armazenar instrues decodificadas, o cache L1 do Pentium 4 tambm se tornou menos eficiente, j
que instrues decodificadas ocupam mais espao. Enquanto o Athlon possua 64 KB (metade) do cache L1
reservado para armazenar instrues, o cache do Pentium 4 Willamette armazenava o equivalente a apenas 8
KB. Isso tornava o processador mais dependente do cache L2 (que devia ser obrigatoriamente maior, para que
o processador mantivesse um bom nvel de desempenho) e do barramento com a memria RAM, que deveria
ser capaz de alimentar os caches.
O Pentium 4 original (core Willamette) possua apenas 256 KB de cache L2, por isso era consideravelmente
mais lento que um Athlon, ou mesmo um Pentium III do mesmo clock. O core Northwood, lanado em
seguida, trouxe 512 KB de cache e o Prescott (lanado em 2004) trouxe 1 MB completo.
O cache L2 um item extremamente caro, pois cada bit de cache adiciona 4 ou 6 transistores ao
processador, de acordo com o layout usado. Um cache L2 de 1 MB ocupa pelo menos 40 milhes de
67

transistores, mais do que o total usado no Athlon Palomino (que possuda 37.5 milhes). Mais transistores
tornam o processador proporcionalmente mais caro de se produzir, o que aumenta o preo de venda.
Para completar, existiu o problema das memrias Rambus, que praticamente paralisou as vendas das
primeiras verses do Pentium 4 at que os chipsets com suporte a memrias SDRAM chegassem ao mercado.
Com o Pentium 4 Northwood, a Intel voltou a ser competitiva, chegando rapidamente aos 3.4 GHz. Foi
introduzido tambm o Hyper Threading, que permitia ao Pentium 4 processar dois threads simultaneamente,
simulando um processador dual-core. O plano da Intel, de compensar a baixa eficincia do Pentium 4 com
frequncias de clock maiores, parecia estar dando certo. Na poca, o roadmap da Intel mostrava
processadores Pentium 4 com core Prescott atingindo 5.2 GHz no final de 2004 e planos para o core "Tejas",
que alcanaria impressionantes 10 GHz no final de 2005.
Porm, nada disso aconteceu. Os 3.4 GHz se tornaram uma barreira difcil de transpor. A partir da, a Intel
conseguiu apenas pequenos incrementos de clock, atingindo a muito custo os 3.8 GHz com o Prescott, que
alm de ser produzido numa tcnica de 0.09 micron, teve o pipeline esticado para um total de 31 estgios.
Acima de 3.8 GHz, o gate leakage (ou seja, a eletricidade perdida pelos transistores do processador a cada
ciclo), tornava o consumo e a dissipao trmica altos demais.
Embora seja possvel superar a barreira dos 4.0 GHz com o Prescott, via overclock, o resultado um
processador beberro demais. como se cada transistor do processador fosse um minsculo cano, por onde
passa gua. Quanto menores os transistores, mais finos so os canos e quanto maior o clock, mais forte a
presso da gua.
Os transistores so compostos por filamentos muito finos, o que causa uma pequena perda de energia a
cada chaveamento, chamada de gate leakage. como se os canos do exemplo possussem pequenos furos por
onde vaza uma pequena quantidade de gua. Conforme o clock aumenta, a presso se torna mais forte e cada
vez mais gua vaza pelos canos, gerando um desperdcio cada vez maior. No caso do processador, toda a
energia desperdiada se transforma em calor, o que traz a necessidade de um cooler mais eficiente, gerando
um ciclo vicioso.
Ultrapassar os 3.8 GHz com o Prescott resultava em um aumento cada vez maior no consumo e na
dissipao trmica do processador, em troca de um aumento cada vez menor na frequncia de operao.
O pequeno aumento no clock proporcionado pelo core Prescott serviu mais para encobrir a perda de
desempenho causada pelo novo aumento no nmero de estgios do pipeline do que para realmente aumentar
o desempenho, transformando o Prescott em um dos maiores fiascos da histria da Intel.
O Cedar Mill, lanado no incio de 2006, mais uma vez mostrou a dificuldade em produzir processadores
Pentium 4 com clock mais alto. Mesmo produzido numa tcnica de 65 nm, o Cedar Mill no foi capaz de
superar a barreira dos 3.8 GHz. Ao invs disso, a Intel optou por produzir processadores dual core (baseados
no core Presler), chegando ao Pentium Extreme Edition 965, que opera a 3.73GHz. Em resumo: em dois anos, a
Intel conseguiu apenas ganhos incrementais de desempenho na plataforma Pentium 4. Caminhou bastante,
porm para o lado e no para frente.
Naturalmente, a AMD no ficou parada. Depois do Athlon Palomino e do Thoroughbred, a AMD lanou o
Barton, que trouxe pequenas melhorias de projeto e 512 KB de cache L2. Alm de ser usado nas verses mais
rpidas do Athlon XP, o core Barton foi utilizado nos Semprons 2400+ a 3000+, os ltimos processadores
lanados para o saudoso soquete A.
A partir da, tivemos os Athlon 64, Athlon 64 FX, Athlon 64 X2 e os Semprons para as placas soquete 754,
939 e AM2. Pela primeira vez na histria, a AMD tomou a dianteira, produzindo processadores mais rpidos
que a Intel e fazendo seu padro de instrues de 64 bits (o AMD64) prevalecer, obrigando a Intel a
desenvolver o EM64T, um conjunto compatvel de instrues, includo no Pentium 4 com core Prescott, sem
muito alarde.
68

De fato, a participao da AMD no mercado s no cresceu mais neste perodo devido sua incapacidade
de produzir seus processadores em maior volume. Assim como demorado desenvolver um novo projeto,
tambm caro e demorado inaugurar novas fbricas.
Entretanto, sendo uma empresa to grande, a Intel pode se dar ao luxo de manter vrios projetos em
desenvolvimento simultaneamente, tendo um plano B disposio caso as coisas dem errado.
No caso do NetBurst o plano B era o Banias, uma plataforma de baixo consumo, que vinha sendo
desenvolvida por engenheiros da unidade de Israel com base no projeto do Pentium III. A ideia era modernizar
a arquitetura P6, produzindo um processador com um IPC mais alto (ou seja, mais instrues processadas por
ciclo) e com um consumo eltrico mais baixo.
Inicialmente o objetivo era desenvolver uma nova plataforma de processadores para notebooks (rea na
qual o Pentium 4 era especialmente problemtico), mas a plataforma se revelou to promissora que
eventualmente foi adotada como a base para o desenvolvimento da prxima plataforma para desktops da
Intel: a plataforma Core.
A verso original do Banias foi lanada em 2003, na forma da primeira verso do Pentium-M. Ela foi
fabricada usando tcnica de 0.13 micron, com 64 KB de cache L1 e 1 MB de cache L2 e em verses de at 1.6
GHz. O barramento com o chipset (o principal ponto fraco do Pentium III) foi substitudo pelo mesmo
barramento de 400 MHz utilizado no Pentium 4, reduzindo o gargalo na conexo com a memria.
O Banias recebeu ainda o reforo das instrues SSE2 e uma verso aprimorada do SpeedStep (usado
anteriormente nas verses mobile do Pentium III e do Pentium 4), que gerencia dinamicamente o clock,
tenso e componentes internos do processador, desativando os componentes que no esto em uso e
reduzindo a frequncia nos momentos de pouca atividade, diminuindo bastante o consumo do processador.
Um Banias de 1.6 GHz usava 24 watts ao operar na frequncia mxima, mas o consumo caa para pouco mais
de 4 watts quando o processador estava ocioso, operando na frequncia mnima.
O Banias mostrou ser um processador bastante promissor. Mesmo com o agressivo sistema de
gerenciamento de energia (que causava uma pequena diminuio no desempenho, mesmo quando o
processador operava na frequncia mxima), o Banias era cerca de 50% mais rpido que um Pentium 4
Northwood do mesmo clock, rivalizando com as verses desktop do Athlon XP.
Em 2004 foi lanado o Pentium-M com core Dothan, equipado com 2 MB de cache L2, melhorias no
circuito de branch prediction, um reforo nas unidades de execuo de inteiros e melhoria no acesso aos
registradores. Combinadas, estas melhorias resultaram num ganho real de cerca de 8% em relao a um
Banias do mesmo clock. O Pentium M com core Dothan atingiu 2.0 GHz (Pentium M 755), com um consumo de
apenas 21 watts, menos que o Banias de 1.5 GHz.
Aproveitando o baixo consumo do Dothan, a Intel desenvolveu o Yonah, um processador dual-core para
notebooks, produzido usando uma tcnica de 65 nm. O Yonah original passou a ser vendido sobre a marca
"Core Duo", enquanto uma verso de baixo custo, com um nico core assumiu a marca "Core Solo".
Assim como o Dothan, o Yonah era equipado com 2 MB de cache L2. Entretanto, em vez de ser dividido
entre os dois cores (1 MB para cada um), o cache era compartilhado, permitindo que ambos os cores
acessassem os mesmos dados, evitando assim duplicao de informaes e desperdcio de espao. Nos
momentos em que o processador est parcialmente ocioso, o segundo core pode ser completamente
desligado (para economizar energia), deixando o primeiro core com um cache de 2 MB inteiramente para si.
A desvantagem do cache compartilhado que ele aumentou o tempo de latncia: eram necessrios 14
ciclos para acessar alguma informao no L2 do Yonah, contra 10 ciclos do Dothan. Apesar disso, o Yonah
possua dois ncleos, o que acabava compensando a diferena e proporcionando um bom ganho em relao
ao Dothan. Outro pequeno ganho foi proporcionado pela incluso das instrues SSE3.

69

O Yonah recebeu uma verso atualizada do sistema de gerenciamento de energia introduzido no Banias,
que passou a ser capaz de desligar completamente componentes ociosos dentro do processador, mantendo
apenas um dos cores ou mesmo apenas parte dos componentes de um dos cores ativos em momentos de
pouca atividade. Graas a isso, o consumo mdio de um Core Duo em tarefas leves, no era muito diferente de
um Core Solo do mesmo clock, o que acabou juntando o melhor dos dois mundos.
Ao executar tarefas pesadas, um Core Duo de 2.0 GHz consumia 31 watts, contra 21 watts do Dothan do
mesmo clock. Ou seja, mesmo com os dois cores ativos simultaneamente, o consumo aumentava menos de
50%, muito longe de dobrar, como seria de se esperar.
Percebendo o potencial da nova plataforma, o departamento de marketing da Intel passou a falar em
"eficincia" em vez de frequncias de clock mais altas. Os planos frustrados de lanar um processador de 10
GHz baseado no Pentium 4 foram varridos para debaixo do tapete e a meta passou a ser lanar processadores
que executem mais processamento com menos energia, exacerbando os pontos fortes dos processadores Core
Solo e Core Duo, baseados no core Yonah.
Este slide do IDF 2006 d uma amostra do
novo discurso. Ele mostra como a eficincia
energtica (o volume de eletricidade necessria
para
processar
cada
instruo)
dos
processadores vinha caindo desde o Pentium,
atingindo seu nvel mais baixo com o Pentium 4
Dual Core, at a introduo do Banias, Dothan e
Yonah; uma posio pouco honrosa para o
Pentium 4, que (segundo a prpria Intel)
precisava de 5 vezes mais eletricidade para fazer
o mesmo trabalho.
Poucos meses depois, a Intel lanou o Core 2
Duo, abandonando rapidamente a produo do
Pentium D e do Celeron D, que passaram a ser
vendidos a preos extremamente baixos para desovar os estoques.

2.4.2.1 ENTENDENDO A ARQUITETURA


Apesar de possuir um desempenho por ciclo de clock muito superior ao do Pentium 4 e do Pentium D,
superando-os em muitas aplicaes, o Yonah era um processador mobile e por isso era limitado a frequncias
de operao relativamente baixas.
Surgiu ento o Conroe, uma verso aperfeioada do Yonah, com foco no uso em desktops, que deu origem
s primeiras verses do Core 2 Duo, lanadas em junho de 2006. Embora seja um chip radicalmente diferente,
ele foi produzido utilizando a mesma tcnica de 0.065 micron utilizada na produo do Cedar Mill e do Presler.
Foi mantido tambm o mesmo encapsulamento, o mesmo barramento de dados e o uso do soquete LGA-775.
Praticamente todas as placas soquete 775 produzidas a partir de 2006 oferecem suporte ao Conroe,
embora muitas precisem de um upgrade de BIOS. O grande problema so as placas antigas, que incluem quase
todas as placas produzidas em 2004 e 2005 e parte das placas produzidas nos primeiros meses de 2006.
O Core 2 Duo precisa de uma placa com um regulador de tenso compatvel com a especificao VRM 11,
que foi finalizada apenas em 2006. Sem um regulador de tenso compatvel, a placa no tem como gerar as
tenses utilizadas pelo processador e acaba sendo incompatvel, mesmo que utilize um chipset compatvel e
um BIOS capaz de reconhecer corretamente o processador.
Todos os Core 2 Duo utilizam o soquete 775, sem nenhum tipo de compatibilidade com as antigas placas
soquete 478, que ficam limitadas aos Pentium 4 e Celeron D.
70

Core 2 Duo

Apesar das melhorias na arquitetura, o Conroe ainda no incluiu um controlador de memria integrado,
que continuou sendo uma exclusividade dos processadores da AMD at a introduo do Core i7, em 2009.
A presena do controlador de memria foi uma arma importante para o Athlon 64 e o Athlon X2, j que
permitia que eles trabalhassem com tempos de acesso consideravelmente mais baixos memria RAM,
ajudando assim a reduzir a presso sobre os caches. O Athlon 64 tambm levava vantagem por possuir 128 KB
de cache L1 (64k dados + 64k instrues), o dobro do Conroe, que possui apenas 64KB (dividido em dois blocos
de 32 KB, para dados e instrues).
Em compensao, o cache L1 do Conroe trabalha com 8 linhas de associao, contra apenas duas do
Athlon 64. Isso torna o cache mais eficiente, aumentando a probabilidade da informao necessria ser
encontrada. A segunda vantagem o massivo cache L2, que alm de maior, acessado atravs de um
barramento de dados de 256 bits, muito mais largo que o usado no Athlon 64 (que usa um barramento de 128
bits). Uma observao que o Conroe voltou a utilizar um cache L1 tradicional, sem vestgios do "trace cache"
usado no Pentium 4, que armazenava instrues decodificadas.
At o core Manchester, a AMD utilizava um cache L2 com 12 tempos de latncia, o que representava uma
pequena vantagem em relao ao Conroe, que adotou o uso de um cache L2 com 14 tempos. Apesar disso, a
partir do core Brisbane, a AMD passou tambm a utilizar um cache L2 com 14 tempos, o que equilibrou a
balana. Para efeito de comparao, o Prescott utilizava um cache L2 com absurdos 28 tempos de latncia,
muito mais lento que ambos.
A maioria das verses do Core 2 Duo utilizam bus de 1066 MHz (4x 266), o que ajuda a reduzir a latncia
do acesso memria, reduzindo a vantagem do Athlon 64 neste quesito. Aparentemente, a Intel chegou
concluso de que o novo cache, combinado com o uso de memrias DDR2 ou DDR3 de baixa latncia
ofereciam um desempenho "bom o bastante" no caso do Conroe, tornando desnecessrio o uso de um
controlador de memria integrado.
Muitas das melhoras estruturais do Conroe em relao ao Pentium 4 e processadores anteriores da Intel j
estavam disponveis no Dothan e Yonah, mas vou abord-las em conjunto para simplificar a explicao.
Uma das melhoras mais significativas da plataforma Core o recurso batizado de Macro-fusion, que
permite que diversos pares de instrues comuns sejam combinados em uma nica instruo, em vez de
serem processados separadamente. Isto causa um efeito cascata, economizando espao nos buffers,
economizando processamento no agendador de instrues (scheduler), e assim por diante, resultando num
ganho bruto de at 11%.
O Conroe possui 3 decodificadores de instrues simples e mais um decodificador de instrues
complexas, 4 no total. Graas ao Macro-fusion, uma percentagem significativa das instrues so combinadas
(um par em cada 10 instrues, segundo os engenheiros da Intel), permitindo que em quase metade dos ciclos
sejam decodificadas 5 instrues. O Athlon 64 possui apenas 3 decodificadores, capazes de lidar tanto com
71

instrues simples (as mais comuns), quanto com instrues complexas. Isso significa que, na maior parte do
tempo, os 4 decodificadores do Conroe levam uma grande vantagem, mas em alguns aplicativos que utilizem
predominantemente instrues complexas, o Athlon 64 se sai melhor.
O Conroe leva uma grande vantagem tambm ao processar instrues SSE de 128 bits, pois capaz de
process-las diretamente, num total de 3 instrues completas por ciclo. O Athlon 64 tambm possui trs
unidades SSE, mas nele cada instruo SSE precisa ser dividida em duas instrues de 64 bits, que so
processadas separadamente. Em outras palavras, o Athlon 64 processa, na prtica, apenas trs instrues SSE
a cada dois ciclos, ou o equivalente a apenas uma instrues SSE e meia por ciclo.
Atualmente, os conjuntos SSE, SSE2 e SSE3 so utilizados na grande maioria dos games, aplicativos de
processamento de vdeo e assim por diante, onde as instrues SSE so usadas como substitutas mais rpidas
para instrues x87, executadas atravs do coprocessador aritmtico. Isso acentua a vantagem do Conroe em
aplicativos muito otimizados para as instrues SSE, sobretudo programas de compresso de vdeo e udio.
Para efeito de comparao, o Pentium 4 possua apenas duas unidades SSE, que, como as do Athlon 64,
eram capazes de processar apenas meia instruo por ciclo. Como resultado, o Conroe possui trs vezes mais
processamento bruto em SSE que o Pentium 4, o que explica a enorme diferena entre os dois em alguns
benchmarks.
Outro reforo so as unidades de ponto flutuante (que formam o coprocessador aritmtico) capazes de
processar 4 instrues de dupla preciso por ciclo, contra apenas 3 por ciclo do Athlon 64. Em relao ao
Presler, foi mantido tambm o suporte ao EM64T, que torna o Conroe compatvel com os sistemas e
aplicativos de 64 bits, desenvolvidos para o Athlon 64 (um pr-requisito para qualquer processador x86 atual).
Outro recurso suportado o Intel VT, um sistema de virtualizao via hardware que necessrio para usar
o recurso de emulao do Windows XP no Windows 7 e alguns outros softwares de emulao, como o KVM
(no Linux) e o Virtual PC. Outros softwares, como o VMware e o VirtualBox oferecem sistemas alternativos e
por isso funcionam perfeitamente sem ele, o que faz com que ele seja um recurso desejvel, mas no
obrigatrio. O similar da AMD o AMD-V, que est disponvel desde o Athlon 64 com core Orleans.
Voc deve se lembrar do pipeline de 31 estgios do Pentium 4 com core Prescott. Sempre que o
processador chega a uma operao de tomada de deciso, ele precisa esperar a concluso do processamento
da primeira instruo (o que, no Prescott, demora 31 ciclos) para saber quais instrues deve processar em
seguida. Para no ficar parado, o processador utiliza o circuito de branch prediction, que escolhe o caminho
mais provvel, permitindo que o processador adiante o processamento de outras instrues enquanto espera.
O problema que sempre que feita a escolha errada, todo o trabalho precisa ser descartado, causando uma
grande perda de tempo.
O Conroe possui um pipeline de apenas 14 estgios e um circuito de branch prediction muito aprimorado
em relao ao Pentium 4. Isso faz com que ele tome bem menos decises erradas e perca muito menos tempo
(menos da metade do nmero de ciclos) em cada um, gerando um grande aumento no nmero de instrues
efetivamente processadas por ciclo de clock.
O mais interessante que, apesar de possuir apenas 14 estgios e ser muito mais eficiente, o Conroe
atingiu 2.96 GHz (no X6800) logo no lanamento, se aproximando das frequncias atingidas pelo Pentium 4 e
superando por uma boa margem o clock dos Athlon X2.
Os Core 2 Duo tambm oferecem suporte ao SpeedStep (como nos Pentium-M), que ajuda a reduzir o
consumo para nveis ainda menores, sem prejudicar de forma perceptvel o desempenho. Com o SpeedStep
ativado, o processador reduz a frequncia de operao e a tenso (diminuindo consideravelmente o
consumo), mas volta ao clock mximo assim que executada alguma tarefa pesada. No Extreme X6800, por
exemplo, o processador trabalha nativamente a 2.93 GHz e usa 1.34v. No modo de economia, a frequncia cai

72

para 1.6 GHz e a tenso para apenas 0.9v, resultando num consumo de apenas 25 watts, similar ao de um
Pentium III 900.
Temos aqui uma foto do Conroe antes do encapsulamento do processador, divulgada pela Intel. Na
verdade, as verses baseadas no core Conroe com 2 e 4 MB de cache so idnticas, porm as de 2 MB tm
metade do cache desativado antes do encapsulamento, como nos Celeron:

Foto mostrando os componentes internos do Core 2 Duo baseado no Conroe


Outro recurso herdado do Yonah, e por enquanto exclusivo dos processadores Intel, o "Advanced Smart
Cache", um sistema de cache unificado, onde os dois ncleos compartilham o mesmo bloco de cache L2, em
vez de cada um possuir um cache separado, como no caso do Pentium D e do Athlon X2.
A principal vantagem desta abordagem evitar a duplicao de informaes quando ambos os ncleos
esto trabalhando no mesmo bloco de instrues. Em vez de a informao ser carregada duas vezes na
memria (uma vez para cada bloco de cache) e ser armazenada duas vezes, tudo feito uma vez s, o que
poupa tanto o barramento com a memria,
quanto economiza espao no cache,
aumentando o nmero de informaes
efetivamente armazenadas. Outra vantagem
que, em momentos de baixa atividade (quando
apenas um dos ncleos estiver ativo), ele pode
"tomar conta" do cache, reservando a maior
parte do espao para si, de forma a trabalhar
mais eficientemente.
Criar um cache unificado representou um
grande desafio do ponto de vista tcnico, j
que com ambos os processadores acessando o
cache simultaneamente, constantemente
gravando e apagando informaes, muito
73

difcil manter a coerncia do cache, evitando que um modifique as informaes armazenadas pelo outro. Os
circuitos necessrios para coordenar o acesso ao cache ocuparam um grande nmero de transistores do
processador, mas uma vez que o problema foi resolvido, o Smart Cache realmente representa uma vantagem
importante.

2.4.2.2 CORE 2 DUO E6XXX (CONROE)


Assim como no caso do Pentium D e do Celeron D, os Core 2 Duo so vendidos sob um sistema de
numerao que no tem relao direta com o desempenho do processador. Originalmente o Conroe foi usado
em cinco modelos do Core 2. Todos so processadores dual-core e oferecem a mesma lista de recursos
bsicos, incluindo o suporte ao SSE3, EIST, EM64T e ao Intel VT, mas o E6300 e o E6400 possuem metade do
cache L2 desativado, na velha estratgia de vender processadores com defeitos no cache como modelos lowend:
Core 2 Duo E6700: 2.67 GHz, 4 MB, bus de 1066 MHz, LGA-775
Core 2 Duo E6600: 2.4 GHz, 4 MB, bus de 1066 MHz, LGA-775
Core 2 Duo E6400: 2.13 GHz, 2 MB, bus de 1066 MHz, LGA-775
Core 2 Duo E6300: 1.86 GHz, 2 MB, bus de 1066 MHz, LGA-775
Core 2 Extreme X6800: 2.93 GHz, 4 MB, bus de 1066 MHz, LGA-775
O X6800 um descendente da srie Extreme Edition, que alm da frequncia um pouco maior, vem com o
multiplicador destravado, facilitando o overclock. Apesar do marketing, ele foi um processador produzido em
volume limitado, que na poca de lanamento custava US$ 999 (o dobro do E6700 e mais do qudruplo que o
E6400), o que o tornava um modelo "de vitrine".
Durante maio e junho de 2006, a Intel distribuiu vrios processadores e placas para review, porm sob um
NDA que impedia a divulgao de detalhes sobre eles e benchmarks. Quando o NDA expirou, vrios sites
publicaram reviews ao mesmo tempo. Voc encontra um conjunto exaustivo de benchmarks das verses
iniciais do Core 2 Duo nos links a seguir:
http://techreport.com/reviews/2006q3/core2/index.x?pg=3
http://www.anandtech.com/cpuchipsets/showdoc.aspx?i=2795&p=3
http://www.xbitlabs.com/articles/cpu/display/core2duo-e6300_9.html
http://www.firingsquad.com/hardware/intel_core_2_performance/page4.asp
http://www.tomshardware.com/2006/07/14/core2_duo_knocks_out_athlon_64/page11.html
Como era de se esperar, o Athlon X2 continuou levando vantagem no acesso memria, tanto em latncia
quanto em taxas de transferncia, graas ao controlador de memria integrado. Mas o enorme cache L2 do
Conroe, combinado com as demais melhorias na arquitetura, fizeram com que ele passasse a levar a melhor
em quase todos os benchmarks. O que chamava mais a ateno era a consistncia: ele apresentava um
desempenho equilibrado em quase todas as tarefas, sem os altos e baixos do Pentium 4, que se saa muito
bem em algumas tarefas e muito mal em outras.
O Athlon 64 FX-62 ainda conseguia ser competitivo em alguns dos testes, mas os Athlon X2 perdiam quase
sempre por uma boa margem, devido combinao da nova arquitetura com as frequncias de operao mais
altas dos Core 2 Duo.
Os Pentium D ficavam na lanterna em quase todos os testes, com o 965 Extreme Edition perdendo para o
Core 2 Extreme X6800 por uma margem de 40 a 60% em quase todos os testes e esboando alguma reao
apenas no Photoshop, Sysmark 2004, no Sandra e em alguns benchmarks envolvendo compresso de udio e
vdeo.
Ao contrrio do que ocorria em alguns modelos do Celeron, onde dobrar a quantidade de cache causava
um aumento de 10% ou mais no desempenho do processador, os 4 MB de cache includos no E6600 em diante
74

so responsveis por um aumento de apenas 2 a 4% no desempenho por ciclo de clock em relao s verses
com 2 MB, um ganho incremental. Apenas alguns jogos chegam a exibir ganhos na casa dos 10%.
O principal motivo que o Core 2 Duo um processador menos dependente do cache do que os Pentium
D, devido ao uso do pipeline mais curto e do Smart Cache. Alm disso, ele oferece uma quantidade mais do
que generosa de cache L2, com seus 4 MB. Isso permite que ele mantenha um bom desempenho mesmo com
metade do cache L2 desativado, diferente de outros processadores com menos cache, que j operam com
uma margem de segurana muito menor.
Embora mais cache seja sempre algo desejvel, voc deve levar em conta a diferena de preo na hora de
comprar. Sempre que a diferena for grande, vale mais a pena comprar um modelo com menos cache e
compensar a diferena de desempenho fazendo um overclock leve, uma regra que continua sendo vlida para
quase todos os processadores atuais.
De volta aos modelos, em abril de 2007 o E6400 e o E6500 (as duas verses com metade do cache
desativado) foram substitudos pelo E6420 e o E6320, que passaram a vir com os 4 MB completos. Na verdade
eles no foram resultado de uma nova arquitetura, mas apenas fruto do menor ndice de defeitos na linha de
produo da Intel:
Core 2 Duo E6420: 2.13 GHz, 4 MB, bus de 1066 MHz, LGA-775
Core 2 Duo E6320: 1.86 GHz, 4 MB, bus de 1066 MHz, LGA-775
Em junho de 2007 foram lanadas trs novas verses do Conroe, destinadas a placas com suporte a bus de
1333 MHz (4x 333 MHz). Todas possuem 4 MB de cache L2 e conservam os mesmos recursos bsicos, mas
existe um pequeno ganho de desempenho em relao s verses anteriores do mesmo clock devido ao
barramento mais largo:
Core 2 Duo E6850: 3.0 GHz, 4 MB, bus de 1333 MHz, LGA-775
Core 2 Duo E6750: 2.67 GHz, 4 MB, bus de 1333 MHz, LGA-775
Core 2 Duo E6550: 2.33 GHz, 4 MB, bus de 1333 MHz, LGA-775
Embora a comunicao entre os dois ncleos seja feita atravs do FSB, o Core 2 Duo no muito limitado
pelo barramento, o que faz com que os ganhos sejam modestos, entre 1 e 3% na maioria das tarefas. No
muito, mas equivale ao ganho que seria obtido atravs de um pequeno aumento no cache (de 4 para 6 MB por
exemplo). Considerando que as verses com FSB de 1033 no custavam mais caro que as verses de 1066
MHz, a mudana foi positiva.
A principal desvantagem que com um FSB mais alto, a margem de overclock dos processadores acaba
sendo menor, j que voc fica preso s frequncias de FSB suportadas pela placa-me. Ao usar uma placa sem
suporte a frequncias de 1600 MHz ou mais, a margem de overclock acaba sendo pequena, especialmente no
caso do E6550, que trabalha com um multiplicador de apenas 7x.

2.4.2.3 CORE 2 QUAD Q6XXX (KENTSFIELD )


Assim como fez com o Pentium D, a Intel logo anunciou a produo de processadores dual-chip baseados
na plataforma Core, dando origem ao Core 2 Quad, lanado em novembro de 2006. As primeiras verses do
Core 2 Quad foram baseadas no core Kentsfield, que oferece generosos 8 MB de cache L2 (4 MB por chip) e foi
tambm fabricado usando uma tcnica de 65 nm.
Assim como o Pentium D com core Presler, o Kentsfield na verdade um processador dual-chip, onde
temos dois processadores dual-core independentes, colocados dentro do mesmo encapsulamento. Os dois
chips so ligados atravs do FSB, o que uma soluo antiquada se comparado aos links HyperTransport
usados pela AMD no X2, mas que resulta em uma perda de desempenho muito pequena em situaes reais. O
dissipador metlico do processador esconde justamente os dois chips separados:

75

Core 2 Quad com core Kentsfield e o processador sem o dissipador metlico


O Kentsfield nada mais do que a combinao de dois Conroes em uma configurao dual-chip. Todas as
funes necessrias para o uso de dois processadores foram includas diretamente no projeto original,
permitindo que a Intel criasse uma linha de produo unificada, produzindo uma nica famlia de chips, que
pode ser usada tanto nos Core 2 Duo quanto nos Core 2 Quad.
Como cada Conroe possui 291 milhes de transistores, no Kentsfield o total foi elevado para 582 milhes,
com uma rea total de 286 mm. Vendo esses nmeros, no difcil entender a deciso da Intel em usar dois
chips separados. Caso optassem por criar um processador quad-core nativo, o ndice de defeitos seria grande
demais, o que tiraria a competitividade do chip.
Usando dois chips separados, no apenas o ndice de defeitos exponencialmente menor, mas tambm os
chips com defeitos localizados podem ser aproveitados como Pentiums E ou Celerons. Isso explica por que a
Intel nunca chegou a lanar verses do Kentsfield com parte do cache L2 desabilitado, como em outras
famlias.
A verso inicial do Kentsfield, lanada em novembro de 2006, foi o Core 2 Extreme QX6700 (2.66 GHz, 2x 4
MB, 1066 MHz) que era vendido por US$ 999, o mesmo preo do Core 2 Extreme X6800 (que apesar de
possuir apenas dois cores, operava a 2.93 GHz). Em janeiro de 2007 foi lanado o Core 2 Quad Q6600 (2.4 GHz,
2x 4 MB, 1066 MHz), uma verso um pouco menos cara, vendida por US$ 530 (preo nos EUA) a partir de abril
de 2007.
As diferenas na frequncia de operao em relao s verses dual-core causada por dois motivos. O
primeiro que, assim como no caso do Presler (usado no Pentium D), o uso de dois chips separados gera
problemas de sincronismo, que dificulta a operao do processador frequncia mxima. A segunda a
prpria questo da dissipao trmica, j que, a 2.66 GHz, o Kentsfield tem um TDP de 130 watts. Tanto a
frequncia nominal de operao quanto a margem de overclock so menores no Kentsfield do que nos Core 2
Duo e Core 2 Extreme baseados no Conroe, o que, alm de anular parte das vantagens trazidas pelos dois
cores adicionais, faz com que ele realmente perca para as verses dual-core em muitos aplicativos.
Apesar disso, em abril de 2007 a Intel conseguiu lanar o QX6800 (2.93 GHz, 2x 4 MB, 1066 MHz), que,
embora com 10 meses de atraso, conseguiu igualar a frequncia do X6800 dual-core. Em julho de 2007 foi
lanado o QX6850 (3.0 GHz, 2x 4MB, 1333 MHz), que apesar do pequeno incremento no clock, trouxe como
novidade o uso do FSB de 1333 MHz, suportado pela nova gerao de placas soquete 775. No caso do
Kentsfield o aumento na frequncia do FSB foi importante, pois alm de ser usado para o acesso memria,
ele responsvel por toda a comunicao entre os dois chips. Como de praxe, ao ser lanado o QX6850
ocupou o posto de processador mais caro da Intel, vendido por US$ 999 (nos EUA), empurrando para baixo o
preo dos antecessores.
76

Com o lanamento do Phenom no final de 2007, o Core 2 Quad finalmente ganhou um concorrente direto,
o que forou a Intel a baixar os preos, tornando o Kentsfield uma opo bastante atrativa. O Core 2 Quad
Q6600 chegou a ser vendido por menos de US$ 200 nos EUA e verses subsequentes caram abaixo dos US$
150 (apenas trs vezes mais caro que um Celeron single-core), algo impensvel a poucos anos atrs. No total,
o Kentsfield deu origem a seis modelos, trs deles dentro da srie XE:
Core 2 Quad Q6700: 2.67 GHz, 2x 4 MB, bus de 1066 MHz, LGA-775
Core 2 Quad Q6600: 2.4 GHz, 2x 4 MB, bus de 1066 MHz, LGA-775
Core 2 Quad Q6400: 2.13 GHz, 2x 4 MB, bus de 1066 MHz, LGA-775, OEM
Core 2 Extreme QX6850: 3.0 GHz, 2x 4 MB, bus de 1333 MHz, LGA-775
Core 2 Extreme QX6800: 2.93 GHz, 2x 4 MB, bus de 1066 MHz, LGA-775
Core 2 Extreme QX6700: 2.67 GHz, 2x 4 MB, bus de 1066 MHz, LGA-775
O Q6400 foi uma verso destinada a integradores interessados em vender mquinas quad-core de baixo
custo, mas, como de praxe, tambm era possvel encontr-lo venda no varejo, em verso tray (processador
avulso, sem a caixa).
As quedas nos preos fizeram com que os processadores quad-core se tornassem uma opo bastante
atrativa para power users, j que, embora ainda estejamos muito longe de ter uma predominncia de
aplicativos otimizados para 4 ncleos, a diferena de preos tambm relativamente pequena, o que faz com
que a escolha acabe sendo entre um quad-core, ou um dual-core com uma frequncia ligeiramente superior.
Em situaes normais, voc vai notar um grande ganho de desempenho apenas ao executar muitas tarefas
intensivas simultaneamente (como tentar renderizar uma cena 3D ao mesmo tempo em que ripa e comprime
um DVD por exemplo), mas existe uma lista crescente de aplicativos onde o desempenho escala bem com mais
cores, incluindo aplicativos grficos e de renderizao 3D e conversores de udio e vdeo.
Desde 2008, temos visto tambm o lanamento de um crescente nmero de jogos capazes de tirar
proveito de processadores multicores. Muito embora as engines ainda continuem sendo predominantemente
single-threaded (ou seja, apenas o primeiro ncleo usado para o loop principal do jogo), cada vez mais ttulos
utilizam os outros ncleos para tarefas secundrias, como o processamento da AI e efeitos de fsica (nas
engines em que eles no so processados pela GPU). Com isso, o FPS no aumenta consideravelmente em um
processador quad-core (em muitos casos nem mesmo em um dual-core), mas voc ganha a possibilidade de
usar mais efeitos.
Outra situao em que um processador multicore de grande ajuda ao hospedar uma partida
multiplayer localmente, o que faz com que o sistema precise rodar tanto o jogo em si quanto o executvel do
servidor multiplayer.
Antigamente, partidas hospedadas localmente eram sinnimo de lag; j que, usando um processador
single-core, o processamento precisa ser dividido entre as duas tarefas, causando interrupes em ambas.
Nesse cenrio, era comum reservar uma mquina apenas para rodar o servidor, mesmo em redes locais.
Com os processadores multicores isso deixou de ser um grande problema, j que com um processador
quad-core o sistema tem processamento suficiente para priorizar adequadamente as tarefas. Os servidores
dedicados ainda so teis devido questo da banda e da posio geogrfica (um servidor no meio do
caminho assegura que todos os jogadores possam jogar com pings medianos); mas, com relao ao
processamento, as partidas hospedadas localmente passaram a ser perfeitamente aceitveis. Um sintoma
disso o fato de alguns jogos estarem abandonando o uso de servidores dedicados, como no caso do Call of
Duty Modern Warfare.
Voltando ao processador, um dos grandes problemas do Kentsfield que ele no inclui nenhum sistema de
gerenciamento avanado de energia, que permita desligar ou reduzir a tenso dos ncleos ociosos. Ele suporta
77

o SpeedStep, assim como o Conroe, mas a mesma tenso e frequncia so sempre aplicadas aos 4 ncleos,
sem distino.
Se um dos ncleos passa a trabalhar a todo vapor (executando um aplicativo que no seja otimizado para
multiprocessamento, por exemplo), todos os 4 cores passaro a trabalhar na frequncia mxima, mesmo que
3 deles estejam ociosos. Devido a isso, o Kentsfield passa mais de 90% do tempo consumindo o dobro de
energia que um Conroe do mesmo clock, variando de pouco mais de 40 watts (enquanto o processador est
ocioso) a mais de 130 quando operando em full-load a 2.66 GHz ou mais.
Voc pode encontrar um conjunto bastante completo de benchmarks do Kentsfield neste link do
TomsHardware (a partir da pgina 8): http://www.tomshardware.com/2006/09/10/. Ele inclui duas verses
overclocadas, operando a 3.0 e 3.3 GHz. Outro conjunto bem elaborado de benchmarks este do Anandtech:
http://www.anandtech.com/cpuchipsets/showdoc.aspx?i=2866&p=10.

2.4.2.4 CORE 2 DUO E4XXX E PENTIUM E2XXX (ALLENDALE)


Na poca do Pentium III, a linha de processadores da Intel era composta apenas pelos diferentes modelos
do Pentium III e do Celeron, com a maior parte da diferenciao sendo feita com base no clock dos
processadores. Entretanto, com a intensificao da concorrncia por parte da AMD e a necessidade de atingir
vrios nichos distintos, a Intel passou a oferecer mais linhas de produtos, diferenciando os processadores
tambm com base no cache e no nmero de ncleos. Com isso, passamos a ter nada menos do que quatro
famlias diferentes: Core 2 Quad, Core 2 Duo, Pentium E e Celeron.
O Allendale no um novo processador, mas sim uma verso reduzida do Conroe de 65 nm, que possui
apenas 2 MB de cache L2 e , por isso, mais barato de se produzir. Na prtica, os processadores baseados no
core Allendale so muito semelhantes aos E6300 e E6400, que so modelos do Conroe com metade do cache
L2 desabilitado ainda em fbrica.
O principal objetivo da Intel ao desenvolver o Allendale foi o de produzir processadores dual-core de baixo
custo baseados na plataforma Core, destinados a substiturem os antigos Pentium D baseados na arquitetura
NetBurst.
Ele deu origem srie E4xxx dentro da famlia core 2 Duo e tambm ao Pentium E, que assumiram
posies intermedirias dentro da linha da Intel, posicionados entre os modelos mainstream do Core 2 Duo e o
Celeron. Embora pouco divulgados, eles acabaram sendo os processadores mais bem vendidos dentro da linha
de 65 nm da Intel, j que ofereciam uma boa combinao de desempenho, preo e margem de overclock,
agradando a gregos e troianos.
Dentro da famlia Core 2 Duo, ele foi usado em cinco verses, todas com os 2 MB de cache completos:
Core 2 Duo E4700: 2.6 GHz, 2 MB, bus de 800 MHz, LGA-775
Core 2 Duo E4600: 2.4 GHz, 2 MB, bus de 800 MHz, LGA-775
Core 2 Duo E4500: 2.2 GHz, 2 MB, bus de 800 MHz, LGA-775
Core 2 Duo E4400: 2.0 GHz, 2 MB, bus de 800 MHz, LGA-775
Core 2 Duo E4300: 1.8 GHz, 2 MB, bus de 800 MHz, LGA-775
Como voc pode ver, todos os modelos utilizam bus de 800 MHz, com o objetivo de oferecer uma melhor
compatibilidade com placas antigas. O bus mais baixo serve tambm para diferenci-los dos modelos mais
caros do Core 2 Duo, que utilizam bus de 1066 ou 1333 MHz, que resulta em um pequeno incremento de
desempenho.
Apesar de ser uma desvantagem do ponto de vista do desempenho, o bus de 800 MHz tem suas
vantagens, j que facilita o overclock. Por operarem a frequncias mais baixas e serem produzidos usando as
mesmas tcnicas de produo empregadas no Conroe, os Allendale possuem margens de overclock
surpreendentes.
78

Se a placa-me e as memrias permitirem, voc pode aumentar a frequncia do FSB de 200 MHz (800)
para 300 MHz (1200), e assim fazer um mero E4300 operar a 2.7 GHz. Em muitos casos, voc vai precisar
aumentar a tenso do processador em 0.1v para estabilizar o sistema, mas em outros ele vai funcionar
perfeitamente, mesmo usando os 1.325v default. Dependendo da srie do processador (e, naturalmente, do
cooler usado), voc pode atingir 3.0 GHz (9x 333 MHz) ou mesmo 3.15 GHz (9x 350 MHz), aumentando a
tenso em 0.2v.
No existe uma grande diferena nas frequncias atingidas pelas trs verses, de forma que, na poca do
lanamento, era comum que os interessados comprassem o E4300 (mais barato) e investissem a diferena em
uma placa-me com melhores opes de overclock ou em um cooler mais parrudo.
Continuando a saga do Allendale, temos tambm dois modelos castrados, onde metade do cache L2
desabilitado em fbrica (a velha tcnica de usar a metade boa do cache, aproveitando processadores que de
outra forma seriam descartados). Diferentemente das verses com 2 MB, que so vendidas sob a marca "Core
2 Duo", esses processadores com apenas 1 MB so vendidos sob a marca "Pentium".
A mudana de nome tem um efeito meramente psicolgico. O objetivo foi simplesmente aproveitar o
esforo de marketing feito em torno do Pentium D, j que as verses de 1 MB do Allendale substituram
diretamente os ltimos remanescentes da srie 9xx, baseados no antigo core Presler.
Pentium E2220: 2.4 GHz, 1 MB, bus de 800 MHz, LGA-775
Pentium E2200: 2.2 GHz, 1 MB, bus de 800 MHz, LGA-775
Pentium E2180: 2.0 GHz, 1 MB, bus de 800 MHz, LGA-775
Pentium E2160: 1.8 GHz, 1 MB, bus de 800 MHz, LGA-775
Pentium E2140: 1.6 GHz, 1 MB, bus de 800 MHz, LGA-775
Estes dois processadores foram os primeiros processadores baseados na plataforma Core a serem
vendidos por menos de US$ 100, concorrendo diretamente com os modelos mais baratos do Athlon X2 e do
Phenom X3.
Todos os processadores baseados no core Allendale so produzidos nas mesmas fbricas e compartilham
os mesmos waffers de silcio. O que diferencia um Core 2 Duo da srie E4xxx de um Pentium E2xxx
meramente o fator "sorte". Os processadores perfeitos so vendidos como Core 2 Duo, enquanto os que
apresentam defeitos em clulas do cache tm metade do cache desabilitado e so vendidos como Pentium E.
Isso faz com que as duas famlias ofeream margens de overclock similares, o que torna o Pentium E uma
opo muito interessante para quem quer gastar o mnimo possvel.
Um mero Pentium E2160, espetado em uma boa placa-me, em overclock para 3.0 GHz (9x 333 MHz, com
aumento de 0.2v na tenso) pode competir de igual para igual com um Core 2 Duo E6700 (2.67 GHz) e superlo em muitas aplicaes.
A reduo do cache de 4 MB para apenas 1 MB no tem um efeito to grande sobre o desempenho quanto
poderamos imaginar primeira vista. Alguns games (como o Company of Heroes) chegam a apresentar
quedas de at 20% no FPS, mas a maioria dos games e aplicativos de produtividade apresenta uma queda de 5
a 15%. Alguns aplicativos, como o 3Ds Max, pouco so influenciados pela reduo no cache, apresentando
quedas de menos de 3%.
Voc pode ver algumas comparaes entre Conroes e Allendales (operando mesma frequncia) com 4, 2
e 1 MB de cache neste link do xbitlabs:
http://www.xbitlabs.com/articles/cpu/display/pentium-e2160_4.html
Uma curiosidade que, com o lanamento do Allendale, passaram a existir sries dos Core 2 Duo E6300 e
E6400 baseadas no Conroe (com metade do cache L2 desabilitado) e outras baseadas no Allendale, que
oferece os mesmos 2 MB de cache L2. A diferena neste caso apenas tcnica, j que no existem outras
79

diferenas na arquitetura. Entretanto, as sries baseadas no Allendale so de fabricao mais recente e por
isso tendem a oferecer margens de overclock um pouco superiores.

2.4.2.5 PENRYN: A SEGUNDA GERAO


Com o sucesso da Plataforma Core, a Intel conseguiu recuperar grande parte do terreno perdido para a
AMD na poca do Pentium 4, voltando a oferecer uma linha de processadores competitivos. Entretanto, ainda
restava um problema, que era o custo de produo relativamente alto dos processadores. Devido ao uso dos 4
MB de cache, o Conroe ocupa uma rea de 143 mm, o que problemtico sobretudo no caso do Core 2 Quad,
onde so usados dois processadores.
A soluo foi apressar o desenvolvimento da tcnica de 45 nm, introduzindo o Penryn, que deu origem
segunda gerao da plataforma Core, substituindo diretamente os processadores anteriores.
Lanado no incio de 2008, o Penryn composto por nada menos do que 410 milhes de transistores.
Apesar disso, ele ocupa uma rea de apenas 107 mm, sensivelmente menor que os 143 mm do Conroe.
Ele continua sendo um processador dual-core, onde cada ncleo possui 64 KB de cache L1 e ambos
utilizam um grande cache L2 compartilhado. A mudana mais visvel a adio de mais 2 MB de cache L2,
totalizando 6 MB. Diferente do que fez no Prescott (que trouxe um cache maior porm mais lento), a Intel
investiu tambm em melhorias para o cache, fazendo com que o desempenho do processador fosse um pouco
superior tambm em aplicativos que privilegiam a velocidade de acesso ao cache em vez do tamanho.
O cache do Penryn trabalha com tempos de acesso mais baixos (12 ciclos contra os 13 ciclos do Conroe) e
oferece 24 linhas de associao (contra as 16 do Conroe). O uso de mais linhas de associao tornam o cache
mais eficiente, melhorando o hit-rate, ou seja, a percentagem das vezes em que os dados requisitados so
encontrados no cache.
Outra melhoria foi o suporte ao SSE4.1, composto por 47 instrues adicionais. Com a popularizao dos
processadores dual-core e quad-core, um dos maiores desafios passou a ser otimizar os softwares para que
eles sejam capazes de tirar proveito dos ncleos adicionais.
Um dos principais objetivos do SSE4.1 foi o de oferecer instrues que permitam utilizar todos os ncleos
do processador de forma mais eficiente, complementando os conjuntos de instrues anteriores. Foram
tambm includas novas instrues para acelerar algumas operaes comuns, como a MPSADBW (que permite
computar simultaneamente a diferena entre oito variveis de 16 bits), que passou a ser muito usada por
aplicativos de compresso de vdeo.
O Penryn inclui tambm algumas melhorias nas unidades de execuo, com destaque para o
processamento de instrues de diviso, usadas por diversos aplicativos grficos e de renderizao 3D e uma
verso aperfeioada do Intel VT, que solucionou vrios dos problemas de desempenho que limitavam o uso da
verso anterior.
A nova verso do Intel VT trouxe um ganho considervel de desempenho no KVM e no Xen (em modo de
virtualizao completa) que dependem das instrues de virtualizao oferecidas pelo processador, mas no
fazem muita diferena no VMware ou no VirtualBox, que utilizam rotinas prprias.
Esta foto divulgada pela Intel nos d uma amostra da organizao dos componentes internos do Penryn.
Veja que os dois blocos referentes ao cache L2 ocupam mais da metade da rea total do processador:

80

Penryn
Com relao compatibilidade, a transio do Conroe para o Penryn foi bem mais tranquila que a anterior.
O Penryn continua usando o soquete 775 e a grande maioria das placas que oferecem suporte ao Core 2 Duo
oferecem suporte s tenses utilizadas por ele, demandando apenas um upgrade de BIOS para reconhecer
corretamente o processador. Isso permitiu que muitas placas relativamente antigas fossem usadas em
conjunto com os Pentium E e Celeron de 45 nm (baseados no Penryn), atendendo ao mercado de baixo custo.
Na questo do consumo eltrico, a principal novidade foi a introduo do "Deep Power Down Technology",
um novo estgio de baixo consumo (batizado de C6), que permite que o processador consuma
consideravelmente menos energia enquanto ocioso. Este recurso acabou sendo usado apenas nas verses
mobile, mas ainda assim interessante entender como ele funciona.
Ao entrar no modo C6, o sinal de clock desligado, a tenso reduzida drasticamente e os caches L1 e L2
so desligados. Neste modo, o chipset continua oferecendo acesso memria para os demais perifricos do
sistema, permitindo que diversas funes continuem acessveis, sem que o processador precise ser acordado.
O maior problema que o processador demora um tempo relativamente longo para retornar do estado
C6, j que perde todos os dados armazenados nos caches, de forma que ele reservado para situaes em que
o processador fique ocioso por longos perodos. Na maior parte do tempo ele chaveia entre os modos atuais
de gerenciamento, onde o tempo de recuperao menor.
Um recurso interessante do ponto de vista tcnico o EDAT (Enhanced Dynamic Acceleration Technology),
destinado a melhorar o desempenho do processador em aplicativos single-thread, que no so capazes de se
beneficiar do segundo ncleo.
Ao perceber que o segundo ncleo est ocioso, o sistema capaz de deslig-lo e aproveitar a reduo na
dissipao trmica para fazer um overclock temporrio do ncleo ativo (de 2.6 para 2.8 GHz, por exemplo),
permitindo assim um pequeno ganho de desempenho. O sistema pode ento escolher entre manter os dois
ncleos ativos, ou desativar um deles e manter o outro operando a um clock ligeiramente mais alto, de acordo
com a tarefa.
Assim como o C6, o EDAT acabou sendo usado apenas nas verses do Penryn destinadas a notebooks, sem
dar as caras nas verses regulares para desktops. Entretanto, ele acabou dando origem ao Turbo Boost,
incorporado aos Core i5 e i7, que segue o mesmo princpio.
No geral, as melhorias introduzidas no Penryn tiveram bastante sucesso em reduzir o consumo do
processador, evitando que a transio para os 45 nm resultasse em um gate leakage ainda maior que no
processo anterior. Entretanto, elas no tiveram muito impacto sobre o desempenho por clock.
81

Mesmo com mais cache, um Penryn consegue ser em mdia apenas de 2 a 3% mais rpido que um Conroe
do mesmo clock, oferecendo ganhos mais significativos (na casa dos 4 a 8%) apenas em renderizao 3D,
converso de mdia e em alguns jogos. O uso das instrues SSE 4.1 pode oferecer ganhos significativos, mas
poucos aplicativos so capazes de us-las eficientemente.
Graas nova tcnica de fabricao, o Penryn oferece tambm margens de overclock um pouco maiores.
Nas verses dual-core, relativamente fcil manter o processador a 3.5 GHz com um pequeno aumento na
tenso, desde que a temperatura seja mantida sob controle. Com uma boa placa-me, um grande aumento na
tenso e a desativao do EIST, possvel atingir os 4.0 GHz, mas nesse caso o processador se torna gastador
demais.
2.4.2.5.1 O S 45 NM
Ao ler sobre os novos modelos de processadores, parece que a introduo de novas tcnicas de fabricao
um processo rpido, que feito sempre que o fabricante precisa lanar uma nova famlia de processadores
ou reduzir os custos de fabricao.
Na realidade, a construo de novas
fbricas um processo demorado, que
toma muitos anos e demanda a substituio
ou adaptao de todo o maquinrio usado.
Mesmo depois que uma nova fbrica entra
em produo, so necessrios vrios meses
at que sejam produzidos os primeiros
processadores utilizveis. O slide (esquerda)
da Intel mostra essa questo da produo
usando novos processos de fabricao.
As primeiras levas de wafers produzidas
em cada nova tcnica de produo so
basicamente imprestveis. O ndice de defeitos to alto que praticamente nenhum processador utilizvel.
No caso da Intel, os primeiros waffers so usados para produzir clulas de memria SRAM, que por serem
cpias da mesma estrutura bsica, so mais fceis de produzir.
Ao longo dos primeiros meses, o maquinrio vai sendo calibrado, impurezas so removidas do ambiente e
problemas de produo so resolvidos, fazendo com que o ndice de defeitos caia rapidamente, embora ainda
permanea em nveis muito altos.
A partir de um certo ponto, possvel produzir alguns processadores utilizveis, que so usados em
sistemas de demonstrao, fornecidos para parceiros e para testes. Entretanto, geralmente s depois de um
ano e meio que torna-se vivel iniciar a produo em larga escala. O volume de produo vai ento crescendo
gradualmente, conforme os ltimos problemas so resolvidos, fazendo com que os processadores produzidos
na nova tcnica de fabricao convivam com os da antiga por um perodo relativamente longo.
Dois recursos bastante enfatizados pela Intel na transio para o processo de 45 nanmetros foram o
"high-k dielectric" e o "metal gate electrode", abreviados como HK e MG. A combinao dos dois recursos
chamada pela Intel de "HK+MG" e serve para basicamente melhorar a eficincia geral dos transistores,
permitindo que menos corrente passe quando o transistor est fechado e mais corrente passe quando ele est
aberto.
A transio para o processo de 45 nanmetros gerou uma reduo de quase 30% na energia necessria
para mudar o estgio dos transistores e a combinao do high-k dielectric e o metal gate electrode tornou o
chaveamento dos transistores cerca 20% mais rpido, com uma reduo de 80% no gate-leakage (o
desperdcio de energia que cresce exponencialmente conforme aumenta a frequncia de operao do
82

processador), o que representou uma boa vantagem competitiva para a Intel, reduzindo o consumo dos
processadores e permitindo que eles fossem capazes de atingir frequncias de operao mais altas.

2.4.2.6 CORE 2 DUO E8XXX E E7XXX (WOLFDALE)


O nome "Penryn" a designao genrica dada famlia Core de 45 nm, que abrange diversas variaes
do processador, com variaes no cache, FSB e outros quesitos.
O Wolfdale a verso dual-core padro, usada nos processadores da famlia Core 2 Duo, com 6 MB de
cache L2. O Yorkfield por sua vez a verso usada no Core 2 Quad, resultado da combinao de dois
processadores no mesmo encapsulamento. Alm dos 4 ncleos, o Yorkfield oferece um total de 12 MB de
cache L2, nada menos do que 48 vezes mais do que um Pentium III Coppermine lanado apenas 9 anos antes.
Temos tambm o Wolfdale-3M e o Yorkfield-3M, que so verses com apenas 3 MB de cache L2 (mais
baratas de produzir), que substituram o Allendale nos modelos de baixo custo. No ramo de alto desempenho,
a estrela o Harpertown, uma verso com suporte a dois processadores (8 ncleos no total) usado na linha
para servidores e no Skultrail.
A linha baseada no Wolfdale inclui seis integrantes da famlia Core 2 Duo, todas com 6 MB de cache L2 e
bus de 1333 MHz (ou 1333 MTs, j que temos um clock de 333 MHz com quatro transferncias por ciclo):
Core 2 Duo E8600: 3.33 GHz, 6 MB, bus de 1333 MHz, LGA-775
Core 2 Duo E8500: 3.16 GHz, 6 MB, bus de 1333 MHz, LGA-775
Core 2 Duo E8400: 3.0 GHz, 6 MB, bus de 1333 MHz, LGA-775
Core 2 Duo E8300: 2.83 GHz, 6 MB, bus de 1333 MHz, LGA-775
Core 2 Duo E8200: 2.67 GHz, 6 MB, bus de 1333 MHz, LGA-775
Core 2 Duo E8190: Idem ao E8200, porm sem suporte ao Intel-VT
O Wolfdale-3M deu origem a mais cinco modelos. Como a diferena de desempenho entre os modelos
com 3 e 6 MB de cache L2 relativamente pequena (os modelos com 3 MB oferecem um desempenho bem
similar aos processadores baseados no Conroe, apenas 2 ou 3% inferior na maioria das tarefas), a Intel optou
por reduzir tambm a frequncia do FSB, para evitar que eles concorressem mais diretamente com os modelos
mais caros:
Core 2 Duo E7600: 3.06 GHz, 3 MB, bus de 1066 MHz, LGA-775
Core 2 Duo E7500: 2.93 GHz, 3 MB, bus de 1066 MHz, LGA-775
Core 2 Duo E7400: 2.8 GHz, 3 MB, bus de 1066 MHz, LGA-775
Core 2 Duo E7300: 2.67 GHz, 3 MB, bus de 1066 MHz, LGA-775
Core 2 Duo E7200: 2.53 GHz, 3 MB, bus de 1066 MHz, LGA-775
Devido ao preo, esses modelos do Core 2 Duo acabaram ficando em uma posio desfavorvel em termos
de custo-benefcio, pois eles ficaram no meio do caminho entre os Pentium E com 2 MB de cache (que so
muito mais baratos e oferecem um desempenho prximo) e os Core 2 Quad das sries Q8xxx e Q7xxx, que
passaram a ser vendidos a preos bastante competitivos.
Voc pode ver alguns benchmarks dos Core 2 Duo E7200 e E8200, em comparao com os modelos
anteriores (baseados no Core Allendale) e o Athlon X2 6000+ no:
http://www.xbitlabs.com/articles/cpu/display/core2duo-e7200_5.html
Em termos de overclock as duas famlias so muito similares, oferecendo em torno de 3.5 GHz com
estabilidade sem necessidade de um grande aumento na tenso ou at 4.0 GHz com medidas mais extremas.
Assim como em outras famlias, as verses com clock mais alto quase sempre suportam frequncias um pouco
mais altas em overclock (j que so compostas por unidades selecionadas), mas a diferena no to grande
assim.
83

2.4.2.7 CORE 2 QUAD Q9XXX, Q8XXX E Q7XXX (YORKFIELD )


Com a reduo do custo unitrio devido nova tcnica de fabricao, a Intel levou adiante a estratgia de
popularizar os processadores quad-core, passando a oferecer no apenas os modelos de alto desempenho
como tambm vrios modelos de baixo custo, vendidos por preos muito similares (ou em alguns casos at
mais baixos) que os Core 2 Duo.
Comeando pelo topo, temos os modelos baseados no Yorkfield, com 12 MB de cache L2 e bus de 1333
MHz:
Core 2 Quad Q9650: 3.0 GHz, 2x 6 MB, bus de 1333 MHz, LGA-775
Core 2 Quad Q9550: 2.83 GHz, 2x 6 MB, bus de 1333 MHz, LGA-775
Core 2 Quad Q9450: 2.67 GHz, 2x 6 MB, bus de 1333 MHz, LGA-775
O Yorkfield deu origem tambm a dois modelos da srie Extreme, ambos com 12 MB de cache L2 e com o
multiplicador destravado:
Core 2 Extreme QX9770: 3.2 GHz, 2x 6 MB, bus de 1600 MHz, LGA-775
Core 2 Extreme QX9650: 3.0 GHz, 2x 6 MB, bus de 1333 MHz, LGA-775
O QX9770 acabou sendo a nica verso do Penryn a usar bus de 1600 MHz. Oficialmente, o nico chipset
Intel certificado para trabalhar a 1600 MHz o X48; mas, na prtica, placas com o X38 tambm funcionam
perfeitamente, muito embora sem a chancela da Intel. Isso no surpreendeu ningum, j que na verdade o
X48 apenas um novo stepping do X38, certificado para operar a 1600 MHz.
A srie Q9xxx recebeu tambm trs modelos mid-range, que oferecem apenas 6 MB de cache L2. Eles so
baseados no Yorkfield-3M, que menor e por isso mais barato de produzir. Em termos de desempenho, a
relao entre eles e os trs modelos high-end um pouco mais favorvel que entre os Core 2 Duo E7xxx e
E8xxx, j que eles utilizam bus de 1333 MHz:
Core 2 Quad Q9505: 2.83 GHz, 2x 3 MB, bus de 1333 MHz, LGA-775
Core 2 Quad Q9400: 2.67 GHz, 2x 3 MB, bus de 1333 MHz, LGA-775
Core 2 Quad Q9300: 2.5 GHz, 2x 3 MB, bus de 1333 MHz, LGA-775
Embora tenha sido (junto com a Extreme) a srie que recebeu mais cobertura entre os sites especializados,
os processadores da srie Q9xxx so raros, j que so muito caros. Os modelos que equipam a maioria dos PCs
so os Q8xxx e Q7xx, as verses castradas, com menos cache e clocks mais baixos.
A srie Q8xxx composta por modelos mid-range, tambm baseados no Yorkfield-3M. Eles mantm o uso
do bus de 1333 MHz, mas oferecem apenas 4 MB de cache L2, o que permitiu Intel aproveitar os chips com
defeitos nos caches:
Core 2 Quad Q8400: 2.67 GHz, 2x 2 MB, bus de 1333 MHz, LGA-775
Core 2 Quad Q8300: 2.5 GHz, 2x 2 MB, bus de 1333 MHz, LGA-775
Core 2 Quad Q8200: 2.33 GHz, 2x 2 MB, bus de 1333 MHz, LGA-775
A srie Q7xxx composta pelos modelos low-end, que so a opo quad-core aos modelos mais baratos
do Core 2 Duo e Pentium E. Elas oferecem apenas 2 MB de cache L2 (1 MB por chip), bus de 800 MHz e
frequncias mais baixas, uma combinao que resulta em um desempenho consideravelmente mais baixo que
o das outras sries. No geral eles so bons em tarefas de computao intensiva, que privilegiam o uso de mais
ncleo, mas no so to aconselhveis para PCs domsticos (jogos, escritrio, web, etc.) onde um simples
Pentium E overclocado pode oferecer melhores resultados.
A srie Q7xxx destinada a integradores, por isso vendida apenas em verso OEM. Entretanto, isso no
impediu que processadores tambm chegassem s lojas, atingindo o consumidor final:

84

Core 2 Quad Q7800: 2.9 GHz, 2x 1 MB, bus de 800 MHz, LGA-775
Core 2 Quad Q7700: 2.8 GHz, 2x 1 MB, bus de 800 MHz, LGA-775
Core 2 Quad Q7600: 2.7 GHz, 2x 1 MB, bus de 800 MHz, LGA-775
Core 2 Quad Q7500: 2.6 GHz, 2x 1 MB, bus de 800 MHz, LGA-775
Core 2 Quad Q7400: 2.5 GHz, 2x 1 MB, bus de 800 MHz, LGA-775
Core 2 Quad Q7300: 2.4 GHz, 2x 1 MB, bus de 800 MHz, LGA-775
Core 2 Quad Q7200: 2.3 GHz, 2x 1 MB, bus de 800 MHz, LGA-775
Core 2 Quad Q7100: 2.2 GHz, 2x 1 MB, bus de 800 MHz, LGA-775
A srie de 45 nm do Core 2 Quad recebeu tambm um conjunto de modelos de baixo consumo, a srie S,
composta pelos modelos Q9550S, Q9400S, Q8400S, Q8200S, Q7700S, Q7600S e Q7500S.
Eles so idnticos aos modelos regulares em termos de funes e desempenho, mas oferecem um
consumo eltrico ligeiramente mais baixo, recebendo um TDP de 65 watts, contra os 95 watts dos modelos
regulares.
Assim como em outras famlias de baixo consumo, os modelos da srie S so consideravelmente mais
caros (custam cerca de 30% mais que as verses regulares), por isso eles no so necessariamente uma boa
escolha. Voc pode ter resultados similares reduzindo ligeiramente o clock de um processador da srie regular
e reduzindo a tenso de operao (undervolt).

2.4.2.8 PENTIUM E5XXX E E6XXX


O Wolfdale-3M deu origem tambm famlia de 45 nm do Pentium E, composta pelas sries E5xxx e
E6xxx. Diferente dos modelos anteriores, eles oferecem 2 MB de cache L2 o que, combinado com as melhorias
introduzidas pelo Penryn, resultou em um ganho expressivo de desempenho por clock. Isso tornou estas duas
sries do Pentium E uma boa opo para PCs domsticos e mquinas de baixo e mdio custo:
Pentium E6600: 3.06 GHz, 2 MB, bus de 1066 MHz, LGA-775
Pentium E6500: 2.93 GHz, 2 MB, bus de 1066 MHz, LGA-775
Pentium E6300: 2.8 GHz, 2 MB, bus de 1066 MHz, LGA-775
Pentium E5400: 2.7 GHz, 2 MB, bus de 800 MHz, LGA-775
Pentium E5300: 2.6 GHz, 2 MB, bus de 800 MHz, LGA-775
Pentium E5200: 2.5 GHz, 2 MB, bus de 800 MHz, LGA-775
Alm das frequncias de operao, os processadores da
srie E6xxx se diferenciam por utilizarem bus de 1066 MHz,
diferente dos E5xxx e anteriores que usam bus de 800 MHz.
Essa foi uma mudana necessria, j que a 2.7 GHz o E5400
utiliza um multiplicador de brutais 13.5x, o que limita o
desempenho do processador em diversas tarefas.
Como sempre, um multiplicador mais baixo limita um
pouco as possibilidades de overclock em placas antigas ou
de baixo custo, que no suportam frequncias de FSB mais
altas, mas isso no um problema nas placas fabricadas de
2007 em diante, que suportam bus de 1333 MHz
(geralmente com suporte a 1500 MHz ou mais em
overclock) devido necessidade de suportar os Core 2 Duo E6x50 e outros modelos recentes.

85

O principal obstculo ao overclock no Pentium E o cooler boxed fornecido pela Intel, um cooler baixo,
inteiramente de alumnio, que suficiente para refrigerar o processador na frequncia default, mas no
oferece uma margem muito boa de overclock
Ao us-lo, voc pode fazer um overclock leve, trazendo a frequncia do processador para prximo dos 3.0
GHz (no E5200, por exemplo, voc pode aumentar o FSB de 200/800 para 240/960, o que pode ser quase
sempre feito sem aumentar a tenso). Como ao usar o cooler boxed o limitante quase sempre a
temperatura, aumentar a tenso acaba sendo contra-produtivo.
Entretanto, ao trocar o cooler anmico por outro melhor, voc pode facilmente atingir os 3.5 GHz com um
pequeno aumento na tenso, ou estacionar nos 3.2 ou 3.3 GHz sem grandes riscos.
Uma observao importante que o Pentium E5xxx no oferece suporte s instrues SSE 4.1 e nem ao
Intel VT (os componentes tambm so desativados em fbrica, junto com o cache). O SSE 4.1 ainda utilizado
por poucos aplicativos (a maioria ainda utiliza o SSE 2 ou o SSE 3), por isso acaba no fazendo tanta falta assim.
Como vimos anteriormente, o Intel VT faz falta caso voc esteja usando o Windows 7 (j que ele
necessrio para usar a emulao do Windows XP) ou no Linux (j que necessrio para usar o KVM). Em
ambos os casos, a melhor soluo usar o VMware ou o Virtual Box, que funcionam bem sem ele.
Concluindo, o Wolfdale-3M foi usado tambm em um modelo solitrio dentro da srie E2xxx:
Pentium E2210: 2.2 GHz, 1 MB, bus de 800 MHz, LGA-775
O E2210 foi lanado como um substituto para o E2200, que foi descontinuado com o lanamento dos
modelos de 45 nm. Os dois operam mesma frequncia e oferecem apenas 1 MB de cache, mas o E2210
prefervel devido ao menor consumo e maior margem de overclock.
Todos os modelos do Pentium E so vendidos sob um TDP de 65 watts, que serve apenas como uma
orientao geral para os fabricantes de placas e coolers. Na prtica, apenas o E6600 se aproxima desse valor.
Os demais consomem bem menos, j que a tenso a mesma (0.85 a 1.362V) e o clock mais baixo. Como
todos oferecem suporte ao EIST, o consumo quando o processador est ocioso o mesmo em todos os
modelos.

2.4.2.9 CELERON 4XX, E1XXX E E3XXX


Com exceo de alguns poucos aplicativos cientficos cuidadosamente otimizados, os processadores dualcore no chegam nem perto de serem duas vezes mais rpidos do que processadores single-core de
arquitetura e clock similares. Pelo contrrio, em muitos aplicativos o ganho acaba sendo de apenas 10 ou 15%,
muito embora os ganhos em multitarefa sejam visveis.
Se os processadores single-core fossem capazes de operar ao dobro da frequncia, superariam os dualcore por uma margem considervel. A principal questo que, devido ao gate-leakage e a outros fatores, no
mais to simples aumentar a frequncia de operao dos processadores.
Como a histria do Pentium 4 mostrou, tcnicas como aumentar o nmero de estgios de pipeline do
processador ou aumentar os tempos de latncia do cache L2 (para permitir que o processador seja capaz de
atingir frequncias de operao mais altas), acabam sendo contra-produtivas, j que o pequeno aumento na
frequncia acaba no compensando a perda de desempenho.
Por outro lado, a cada nova tcnica de fabricao, os transistores do processador tornam-se menores,
gerando uma reduo substancial no espao ocupado pelo processador. Os fabricantes tm ento a opo de
manter o projeto anterior (o que causa uma reduo no custo de produo, j que a rea ocupada por cada
processador passa a ser menor) ou de usar o espao adicional para adicionar componentes que possam
aumentar o desempenho do processador.

86

Reduo no tamanho do processador, de acordo com a tcnica de fabricao usada


A modificao mais simples adicionar mais cache L2. As clulas de cache so "clones" umas das outras,
de forma que muito fcil para os projetistas adicionar mais 2 ou 4 MB de cache L2. A questo que, a partir
de um certo ponto, adicionar mais cache passa a gerar ganhos de desempenho cada vez menores. Aumentar o
cache do processador de 256 KB para 2 MB gera um ganho expressivo de desempenho, mas aumentar de 2
MB para 4 MB gera um ganho muito menor.
A partir de um certo ponto, adicionar um segundo ncleo ao processador gera um ganho muito maior do
que adicionar mais cache. Embora no seja to simples quanto adicionar mais cache, criar um processador
com dois, quatro ou mesmo oito ncleos ainda muito mais simples do que desenvolver um novo projeto a
partir do zero.
Passa ento a fazer mais sentido vender processadores dual-core, repassando o aumento de custo para os
consumidores, do que continuar vendendo processadores single-core indefinidamente. Afinal, a cada novo
aperfeioamento na tcnica de fabricao, a diferena de custo fica menor.
Com o Core 2 Duo, todos os processadores de mdio a alto custo da Intel passaram a ser dual-core ou
quad-core. Durante a transio, os processadores Pentium D e Celeron D, baseados na arquitetura do NetBurst
tornaram-se a linha de baixo custo e passaram a ser vendidos a preos cada vez mais baixos.
Para ter uma ideia, no incio de agosto de 2006, o Pentium D 805 (2.66 GHz) era vendido (nos EUA) por
apenas US$ 90, menos da metade do preo do Core 2 Duo E6300. Durante o incio de 2007, as ltimas
unidades do Celeron D chegaram a ser vendidas por menos de US$ 25, mais barato at mesmo que os
Semprons. Isso explica a grande oferta de PCs populares com o Celeron D ou at mesmo com o Pentium D que
tivemos ao longo da primeira metade de 2007.
Esses preos baixos foram um fenmeno momentneo, que serviu para acabar com os estoques de
processadores da gerao anterior. No seria vivel para a Intel vender verses do Core 2 Duo nesses preos,
j que o processador custa mais do que isso para ser produzido.
A soluo encontrada pela Intel foi desenvolver uma verso simplificada do Conroe, com apenas um
ncleo e 512 KB de cache L2, batizada de Conroe-L. Nasceu assim o sucessor do Celeron-D, que voltou a ser
chamado simplesmente de "Celeron" e passou a ser vendido sem muito alarde:
Celeron 450: 2.2 GHz, 512 KB, bus de 800 MHz, LGA-775, single-core
Celeron 440: 2.0 GHz, 512 KB, bus de 800 MHz, LGA-775, single-core
Celeron 430: 1.8 GHz, 512 KB, bus de 800 MHz, LGA-775, single-core
Celeron 420: 1.6 GHz, 512 KB, bus de 800 MHz, LGA-775, single-core
87

Todos estes processadores utilizam bus de 800 MHz, que foi uma maneira encontrada pela Intel para
castrar o desempenho dos processadores, j que com apenas 512 KB de cache, eles so muito dependentes da
velocidade de acesso memria. Eles tambm no oferecem suporte ao Intel VT, o que limita um pouco as
escolhas ao rodar aplicativos de virtualizao.
Outra grave desvantagem a falta de suporte ao EIST (SpeedStep), o que faz com que o processador opere
sempre frequncia mxima, o que gera um desperdcio considervel de energia. Operando a 2.0 GHz, o
Celeron 440 consome cerca de 30 watts quando ocioso, em comparao com os menos de 16 watts usados
por um Core 2 Duo (quando ocioso) com o EIST ativo.
Estes 14 watts podem no fazer tanta diferena assim, mas a falta do EIST se torna uma desvantagem mais
sria ao fazer overclock, j que o consumo do processador aumenta rapidamente com o clock e a tenso. Voc
pode fazer um Celeron 440 operar a 2.66 GHz usando bus de 1066 GHz e aumentando a tenso do
processador em 0.1V. O grande problema que a 2.66 GHz o consumo do processador aumentar para quase
50 watts, completamente desproporcional ao fraco desempenho.
Embora o Conroe-L seja relativamente barato de produzir, a Intel tem mantido os preos (nos EUA) sempre
acima dos 50 dlares, evitando que o Celeron canibalize as vendas dos processadores mais caros.
Ainda que ajude a manter as margens de lucro da Intel, essa poltica fez com que o Celeron 4xx oferecesse
um custo-benefcio muito ruim em relao a outros processadores, j que a diferena de custo para os
modelos mais lentos do Pentium E e do Athlon X2 era muito pequena. Mesmo nos casos em que a ideia era
montar um PC para tarefas leves gastando o mnimo possvel, o Sempron single-core acabava sendo uma
melhor escolha.
Por outro lado, o Celeron 4xx foi uma grande evoluo sobre os antigos Celerons D baseados na
plataforma NetBurst. De uma forma geral, preciso um Celeron D com o dobro do clock para competir de
igual para igual com um Celeron 4xx. Um mero Celeron 430 (1.8 GHz) capaz de superar um Celeron D de 3.6
GHz na maioria dos jogos e aplicativos de compresso de vdeo, alm de consumir menos da metade da
energia e oferecer uma margem de overclock muito maior.
Com relao compatibilidade, embora o Celeron 4xx possa ser usado em qualquer placa-me soquete
775 que suporte o Core 2 Duo, eles no devem ser vistos como um upgrade direto para as mquinas baseadas
no Celeron D, j que muitas placas antigas no possuem suporte a eles, por no utilizarem reguladores de
tenso compatveis com a especificao VRM 11.
Por utilizarem o mesmo encapsulamento, os Celerons 4xx so fisicamente quase idnticos aos Core 2 Duo.
Com exceo das inscries sobre o heat-spreader do processador, a nica forma de diferenciar os dois com
base nos capacitores cermicos instalados na parte inferior do processador. Por ter apenas um ncleo ativo, o
Celeron possui um nmero muito menor deles:

Celeron 430 ( esquerda) e Core 2 Duo


88

Em 2008, a Intel iniciou as vendas do Celeron E1xx dual-core. Diferente do que a numerao pode sugerir,
eles nada mais so do que verses castradas do Pentium E com core Allendale (de 65 nm), com apenas 512 KB
de cache L2, compartilhados entre os dois ncleos.
Diferente dos Celerons 4xx, eles oferecem suporte ao EIST, o que os torna processadores bem mais
eficientes. Entretanto, a pouca quantidade de cache anula grande parte dos ganhos oferecidos pelo segundo
ncleo. Ele foi lanado em quatro verses, mudando apenas o clock:
Celeron E1600: 2.4 GHz, 512 KB, bus de 800 MHz, LGA-775, dual-core
Celeron E1500: 2.2 GHz, 512 KB, bus de 800 MHz, LGA-775, dual-core
Celeron E1400: 2.0 GHz, 512 KB, bus de 800 MHz, LGA-775, dual-core
Celeron E1200: 1.6 GHz, 512 KB, bus de 800 MHz, LGA-775, dual-core
Curiosamente, a Intel vendeu todas as verses pelo mesmo preo, US$ 53, que era o preo de venda do
Celeron 450 na poca do lanamento. Ao lanar o E1200, a Intel descontinuou o Celeron 450, ao lanar o
E1400 ela descontinuou o E1200 e assim por diante. Essa rpida sucesso fez com que os diferentes modelos
do Celeron 4xx e E1xx fossem vendidos por preos muito similares por diferentes vendedores, de acordo com
os lotes comprados por cada um.
Em 2009, a transio para os 45 nm chegou ao Celeron, com o lanamento da srie E3xxx, composta por
modelos com 1 MB de cache L2, baseados no Wolfdale-3M. Apesar do pouco cache, eles so processadores
bem mais equilibrados, com suporte ao EIST, EM64T e ao Intel-VT. Basicamente, um Celeron E3xxx um meio
Core 2 Quad Q7xxx:
Celeron E3400: 2.6 GHz, 1 MB, bus de 800 MHz, LGA-775, dual-core
Celeron E3300: 2.5 GHz, 1 MB, bus de 800 MHz, LGA-775, dual-core
Celeron E3200: 2.4 GHz, 1 MB, bus de 800 MHz, LGA-775, dual-core
O E3200 entrou para a histria como o processador com preo de lanamento mais baixo na histria da
Intel, custando apenas US$ 43 em lotes de 1000. O E3300 por sua vez substituiu o E1600, mantendo o preo
tabelado de US$ 53. Com o lanamento das novas verses, muitas lojas passaram a oferecer os modelos da
srie E1xxx por preos bem mais baixos.
Em termos de desempenho, no existe comparao entre o desempenho dos Celerons E3xxx e os antigos
Celerons 4xx, j que alm de serem dual-core, eles possuem mais cache. Ao comparar processadores com
grandes caches L2, como os Core 2 Duo E8xxx e os E7xxx, a diferena de desempenho muitas vezes bem
pequena, j que mesmo possuindo apenas metade do cache dos E8xxx, os Core 2 Duo E7xxx ainda conservam
3 MB, que so mais do que suficientes para a maioria dos aplicativos.
No caso de processadores com pouco cache, como o Celeron ou o Sempron, aumentos no cache so quase
sempre significativos, trazendo ganhos de 10 ou at mesmo 20%, como na poca do Pentium III Tualatin ou do
Athlon Barton. Quando o aumento combinado com a adio de um segundo ncleo, a diferena se torna
ainda mais evidente. O E3300 chega a ser acima de duas vezes mais rpido que o Celeron 450 em jogos, alm
de oferecer um consumo mais baixo e melhores margens de overclock. possvel atingir de 3.0 a 3.1 GHz com
o cooler boxed e 3.5 ou mais com um cooler de melhor qualidade.
Voc pode ver um comparativo entre o desempenho dos Celerons E3300, E1600 e 450 e outros
processadores de baixo custo no:
http://www.xbitlabs.com/articles/cpu/display/value-cpu-roundup_5.html

2.4.3 A PLATAFORMA AMD K10 (BARCELONA)


Todos os processadores atuais da AMD so descendentes da plataforma K7, que deu origem aos primeiros
modelos do Athlon, com os quais a AMD deu combate s variaes do Pentium III e do Pentium 4. Em 2003, a
89

plataforma foi atualizada, ganhando suporte a instrues de 64 bits, um controlador de memria integrado e
outras melhorias, o que deu origem plataforma K8, usada nos diferentes modelos do 64, X2, FX e Opteron.
Ela foi a plataforma mais bem sucedida da AMD, com a qual ela conseguiu roubar espao da Intel tanto nos
desktops quanto nos servidores, capitalizando sobre as deficincias da plataforma NetBurst.
Em 2006 a Intel contra-atacou com a plataforma Core, que pegou a AMD de surpresa, oferecendo um
desempenho clock por clock consideravelmente superior na maioria das aplicaes e, ao mesmo tempo, um
consumo eltrico mais baixo. Pressionada, a AMD foi obrigada a recuar, passando a competir com base no
custo.
No demorou para que comeassem a surgir informaes sobre o "Barcelona", um processador quad-core
nativo, destinado a suceder a plataforma K8. Para evitar trocadilhos a AMD decidiu pular o "K9" (que o nome
da conhecida unidade de ces farejadores), adotando o codenome K10.
O Barcelona acabou sendo
efetivamente lanado em 2007, na
forma dos Opteron quad-core,
destinados a concorrer com os Xeon
quad-core da Intel no ramo dos
servidores. A verso para desktops
veio um pouco depois, dando
origem famlia Phenom.
Este
diagrama
ao
lado,
divulgado pela AMD, mostra
detalhes sobre os componentes
internos do K10, com destaque para
o cache L3 compartilhado.
Como voc pode ver, ele
composto por 4 ncleos idnticos,
cada um contendo seu prprio
cache L1 (de 128 KB, dividido em
dois blocos de 64 KB, para dados e
instrues) e 512 KB de L2. Entre os
processadores temos os circuitos
referentes ao Crossbar Switch (o componente responsvel por dividir as requisies entre os dois cores e
controlar o acesso de ambos ao controlador de memria, entre outras funes) e outros circuitos de
gerenciamento.
No centro temos o bloco referente ao controlador de memria (que compartilhado por todos os ncleos)
e do lado esquerdo temos o cache L3, tambm compartilhado pelos 4 ncleos. O Barcelona inclui tambm
quatro links HyperTransport. Um usado para a conexo com o chipset, enquanto os outros trs ficam
disponveis para a comunicao com outros processadores, o que permite a criao de sistemas com dois ou
at mesmo 4 processadores, cada um com 4 ncleos. Esta funo no usada nas verses para desktop, mas
uma das armas secretas da AMD nos servidores.
primeira vista, parece que o Barcelona uma simples expanso do Athlon 64 X2, onde foram
adicionados mais dois ncleos e o cache L3 compartilhado, de forma a produzir um sistema similar ao QuadFX, porm composto de um nico processador. Entretanto, uma anlise mais minuciosa revela outras
melhorias.
Alm de adicionar os dois ncleos adicionais, a AMD fez um trabalho de aperfeioamento no X2,
eliminando gargalos e adicionando novos recursos. A primeira mudana diz respeito ao processamento das
90

instrues SSE, rea onde o Conroe e os demais processadores baseados na plataforma Core superam o Athlon
64 por uma boa margem.
O problema fundamental da arquitetura K8 neste quesito o fato de serem utilizadas unidades SSE de 64
bits. Isso faz com que instrues SSE de 128 bits precisem ser divididas e processadas na forma de duas
instrues de 64 bits separadas, que consomem dois ciclos de clock.
Em comparao, o Conroe equipado com unidades SSE de 128 bits, capazes de processar as instrues
em um nico ciclo. Embora isso tenha representado um grande aumento no volume de transistores do
processador, a AMD conseguiu equilibrar a balana, tambm equipando o K10 com unidades SSE de 128 bits.
A ampliao das unidades SSE foi acompanhada tambm por melhorias no cache e nos decodificadores. O
K8 era capaz de realizar duas transferncias de 64 bits por ciclo do cache L1 para as unidades SSE, e os
decodificadores de instrues eram dimensionados para alimentar as unidades de execuo com 16 bytes de
instrues por ciclo. No K10, as transferncias do cache L1 para as unidades SSE passaram a ser de 128 bits e
os decodificadores passaram a ser capazes de alimentar as unidades de execuo com 32 bytes por ciclo, tudo
dimensionado de forma a acompanhar a ampliao das unidades SSE. A AMD batizou esse conjunto de
melhorias de "SSE128".
Com relao ao acesso aos caches, o K10 continuou sendo inferior ao Penryn e ao Conroe, j que eles
possuem caches muito maiores. Ao optar por utilizar um controlador de memria integrado no K8 e, em
seguida, por utilizar uma arquitetura quad-core no K10, a AMD sacrificou um brutal nmero de transistores
que de outra forma poderiam ser utilizados para incluir um grande cache L2, assim como nos processadores
Intel (a AMD foi capaz de ampliar o cache apenas ao migrar para a tcnica de 45 nanmetros, durante o
desenvolvimento do Phenom II).
A principal arma do K10 contra as deficincias no cache o controlador de memria integrado, que
recebeu duas pequenas melhorias. Em primeiro lugar, em vez de um grande controlador de memria de 128
bits, que realiza acessos aos dois mdulos de memria simultaneamente, ele passou a incluir dois
controladores de 64 bits independentes. Isso representa uma pequena reduo nos tempos de latncia, pois
duas leituras podem ser realizadas de forma independente, permitindo que sejam realizados dois acessos (de
64 bits) a endereos diferentes, ao invs de um nico acesso (de 128 bits) a endereos sequenciais.
A verso inicial do K10 (usada no Phenom) inclui um controlador de memria DDR2, mas a verso usada no
Phenom II foi atualizada com um controlador hbrido DDR2/DDR3 (na verdade dois controladores
independentes e um circuito chaveador), que permite que o chip use memrias DDR2 ou DDR3, de acordo
com a placa-me usada.
Outra melhoria foi uma expanso dos buffers do controlador de memria, desenvolvida para tirar melhor
proveito dos bursts oferecidos pelos mdulos DDR2 e DDR3. Basicamente, os mdulos de DDR2 e DDR3
oferecem taxas de transferncia muito mais altas, mas em compensao trabalham com tempos de latncia
relativamente altos, sacrificando parte dos ganhos. Ao invs de realizar vrias operaes de escrita separadas
(tendo que arcar com um lento acesso inicial para cada uma delas), o controlador pode acumular um certo
volume de dados e escrev-los de uma vez em uma nica rajada de operaes de escrita. Isso permite que as
operaes de escrita tomem menos tempo, deixando mais ciclos livres para as operaes de leitura.
Em seguida, temos as melhorias no funcionamento dos caches, que aumentaram sutilmente eficincia.
Novos dados, selecionados pelo circuito de prefetch, so carregados diretamente para o cache L1, ao invs de
passarem primeiro pelo cache L2, minimizando o tempo de acesso inicial. Nem todos os dados carregados pelo
circuito de prefetch so teis, j que ele trabalha tentando "adivinhar" de quais dados o processador precisar
em seguida, mas o fato do processador possuir 128 KB de cache L1 permite que a AMD se d ao luxo de
armazenar alguns dados desnecessrios de forma a acelerar o acesso aos demais.

91

Conforme novos dados so carregados, informaes antigas vo sendo descartadas. Entretanto, em vez de
serem apagadas, as informaes so movidas para o cache L2 e em seguida para o cache L3 compartilhado,
onde podem ser recuperadas rapidamente caso sejam necessrias mais tarde.
Ou seja, em vez de armazenar um grande volume de informaes nos caches, como no caso dos
processadores Intel, a AMD optou por usar um cache mais "fludo" onde priorizado o tempo de acesso a
novas informaes. Combinadas com as melhorias no controlador de memria, este novo sistema acaba
oferecendo um ganho de mais alguns pontos percentuais em relao ao desempenho dos Athlon X2.
Outro pequeno conjunto de melhorias foi feito no circuito de branch prediction, responsvel por
"adivinhar" qual caminho o processador deve seguir enquanto no conhece o resultado de operaes de
tomada de deciso. Alm de ter ganhado um circuito aprimorado, capaz de calcular o resultado de derivaes
indiretas (assim como no Conroe), o histrico de operaes tem o dobro da capacidade.
O histrico armazena os resultados de operaes de tomada de deciso executadas anteriormente,
informaes que so usadas pelo circuito de branch prediction para prever o caminho mais provvel para
novas operaes. Com um histrico maior, o circuito de branch prediction torna-se mais eficiente.
As "derivaes indiretas" (indirect branches) so usadas em funes que envolvem diversas possibilidades,
como ao usar funes "case" ou "switch" em que o programador estabelece diversas possibilidades, de acordo
com o resultado de uma condio. Como era de se esperar, essas operaes representam um desafio muito
maior para o circuito de branch prediction do que as funes "if", onde existem apenas duas possibilidades;
mas prev-las corretamente aumenta de forma considervel a eficincia do processador.
Examinando todas as modificaes, no restam dvidas de que as melhorias introduzidas na arquitetura
K10 tornaram os processadores bem mais competitivos que os modelos antigos, baseados na arquitetura K8.
O grande problema enfrentado pela AMD no era o fato da arquitetura ser ruim, mas simplesmente o fato de
o concorrente ser muito forte. No apenas a Intel possua uma arquitetura mais balanceada, mas era capaz de
migrar a produo para novas tcnicas de fabricao mais rapidamente, pressionando a AMD em vrias
frentes.

2.4.3.1 PHENOM
As primeiras verses do Phenom foram lanadas em novembro de 2007, mas os processadores passaram a
ser vendidos em volume apenas a partir do incio de 2008. Nos primeiros meses, a AMD priorizou as vendas do
Opteron, que oferece margens de lucro maiores que os chips para desktops. Entretanto, as vendas (do
Opteron) foram paralisadas com a descoberta de um bug no circuito de TLB (veja o tpico a seguir) e acabaram
sendo retomadas apenas alguns meses depois, com o lanamento das sries baseadas no stepping B3.
Toda a srie inicial do Phenom produzida usando a tcnica de 65 nanmetros, o que tambm prejudicou
a recepo inicial dos chips j que o lanamento coincidiu com a chegada dos chips de 45 nanmetros da Intel
(baseados no Penryn), que no apenas ofereciam um desempenho clock por clock consideravelmente
superior, mas tambm possuam um consumo eltrico muito mais baixo e margens de overclock bem maiores.
Voc pode ver alguns nmeros nos links a seguir:
http://www.anandtech.com/showdoc.aspx?i=3153&p=6
http://techreport.com/articles.x/13633/10
http://www.anandtech.com/showdoc.aspx?i=3272&p=8
http://xbitlabs.com/articles/cpu/display/phenom-x4-9850_7.html
A dificuldade em competir com os Core 2 Quad obrigou a AMD a entrar em uma guerra de preos,
posicionando o Phenom como um processador de baixo/mdio custo, concorrendo com o Core 2 Duo e no
diretamente com os Core 2 Quad. Mesmo os modelos mais caros, da srie Black Edition podiam ser
encontrados nos EUA por pouco mais de US$ 200, o que equilibrava a balana, fazendo com que eles fossem
boas escolhas em muitos casos.
92

O grande problema com a estratgia que a AMD passou a trabalhar com prejuzo e a contrair dvidas,
uma situao que acabou obrigando a empresa a abrir mo das fbricas, dando origem Globalfoundries.
O Phenom utiliza um controlador de memria DDR2 e compatvel tanto com placas AM2+, quanto com
placas AM2 antigas. A pinagem dos dois soquetes a mesma, o que garante a compatibilidade nos dois
sentidos, permitindo tambm que voc use processadores AM2 (incluindo os Athlon 64 e Athlon 64 X2) em
placas AM2+. A principal diferena entre os dois soquetes que o AM2+ utiliza o HyperTransport 3.0, que
dobra a frequncia efetiva, resultando em um ganho incremental de desempenho.

Os modelos da srie X4 (com os 4 ncleos ativos, 512 KB de cache L2 por core e 2 MB de L3 compartilhado)
incluem:
Phenom X4 9850: 2.5 GHz, 4x 512 KB, 2 MB, 95 watts, AM2+, stepping B3
Phenom X4 9750: 2.4 GHz, 4x 512 KB, 2 MB, 95 watts, AM2+, stepping B3
Phenom X4 9650: 2.3 GHz, 4x 512 KB, 2 MB, 95 watts, AM2+, stepping B3
Phenom X4 9600: 2.3 GHz, 4x 512 KB, 2 MB, 95 watts, AM2+, stepping B2
Phenom X4 9550: 2.2 GHz, 4x 512 KB, 2 MB, 95 watts, AM2+, stepping B3
Phenom X4 9500: 2.2 GHz, 4x 512 KB, 2 MB, 95 watts, AM2+, stepping B2
Alm dos modelos regulares, a AMD criou tambm os Black Edition, uma srie de processadores com o
multiplicador destravado. Eles foram a soluo encontrada pela AMD para chamar a ateno da comunidade
entusiasta, usando a facilidade de overclock como um argumento de venda.
Apesar disso, as margens oferecidas por eles so bastante pequenas (cerca de 2.6 GHz para os baseados
no core B2 e 2.7 a 2.75 GHz para os baseados no B3), o que faz com que o multiplicador destravado no seja
de muita ajuda na prtica. Os modelos incluem:
Phenom X4 9950 BE: 2.6 GHz, 4x 512 KB, 2 MB, 125 ou 140 watts, AM2+, stepping B3
Phenom X4 9850 BE: 2.5 GHz, 4x 512 KB, 2 MB, 125 watts, AM2+, stepping B3
Phenom X4 9600 BE: 2.3 GHz, 4x 512 KB, 2 MB, 95 watts, AM2+, stepping B2
Tanto o X4 9850, quanto o X4 9850 BE e o 9950 BE utilizam uma frequncia de 2.0 GHz para o cache L3 e o
controlador de memria (o campo "NB Frequency" no CPU-Z), o que resulta em um pequeno ganho adicional
(de 1 a 2%) em relao aos demais modelos, onde eles operam a 1.8 GHz.
No outro extremo, temos os modelos da srie E (Energy Efficient), que utilizam tenses mais baixas (1.1V
ou 1.075V) e oferecem um consumo consideravelmente mais baixo. O TDP ainda relativamente alto (65
watts), mas na prtica o consumo bem mais baixo. A srie inclui:
93

Phenom X4 9450E: 2.1 GHz, 4x 512 KB, 2 MB, 65 watts, AM2+, stepping B3
Phenom X4 9350E: 2.0 GHz, 4x 512 KB, 2 MB, 65 watts, AM2+, stepping B3
Phenom X4 9150E: 1.8 GHz, 4x 512 KB, 2 MB, 65 watts, AM2+, stepping B3
Phenom X4 9100E: 1.8 GHz, 4x 512 KB, 2 MB, 65 watts, AM2+, stepping B2
Como pode ver, exitem modelos duplicados na tabela (como o 9500 e o 9550), cuja nica diferena o uso
do stepping B2 ou B3. Essa uma informao importante, pois indica se o processador possui ou no o TLB
bug.
No incio de 2008 foram anunciados o Phenom 9700 (2.4 GHz) e o 9900 (2.6 GHz), mas eles acabaram
sendo cancelados, em favor do 9750 e do 9950 BE, que operam nas mesmas frequncias, mas so j baseados
no stepping B3.
2.4.3.1.1 P HENOM X3
Para contrabalanar a vantagem da Intel com relao ao desempenho por clock, a AMD optou por uma
estratgia original: vender verses triple-core do Phenom por preos similares aos do Core 2 Duo, na
esperana de que o terceiro ncleo compensasse a diferena. Com isso, posicionaram os antigos Athlon X2 de
65 nanmetros como processadores de baixo custo, os Phenom X4 como opes de mdio custo (entre US$
150 e 250 no exterior) e usaram os Phenom X3 para oferecer opes intermedirias entre as duas famlias.
A ideia de um processador com trs ncleos soa to estranha hoje quanto soava em 2008. Afinal, estamos
acostumados a pensar em potncias de dois, sempre com dois, quatro ou oito ncleos. Mesmo voltando no
tempo e examinando as pginas anteriores da histria da informtica, difcil encontrar sistemas com trs
unidades de processamento. Sempre se pula direto do dois para o quatro.
Do ponto de vista da AMD, entretanto, a ideia fazia sentido, e por um motivo simples. Diferente do Core 2
Quad baseado no core Kentsfield (criado a partir da juno de dois ncleos dual-core), o Phenom era um
processador quad-core nativo. Devido ao tamanho e ao brutal nmero de transistores, defeitos de fabricao
eram comuns, mas na maioria dos casos afetavam apenas um dos ncleos.
Em uma poca de boas vendas, talvez a direo da AMD se contentasse em desativar dois dos ncleos e
vender estes processadores como verses dual-core, mas com a Intel dominando o jogo, qualquer
oportunidade precisava ser aproveitada, da a deciso de criar uma srie triple-core, desativando o ncleo
defeituoso e mantendo os demais.
Explicados os motivos mercadolgicos, resta a questo do desempenho. Hoje em dia fcil justificar a
utilidade de processadores dual-core, j que eles representam um ganho mais do que tangvel em uso real,
no apenas devido ao grande volume de softwares j otimizados, mas devido questo da multitarefa.
Mesmo benchmarks como o SYSMark mostram ganhos de 40 a 60% ao ir de um para dois ncleos, mesmo que
o restante da configurao do PC continue igual.
Ao ir de dois para quatro ncleos entretanto, o ganho muito menor. Isso ocorre no apenas por que o
volume de softwares capazes de manter todos os ncleos ocupados pequeno, mas tambm por que outros
componentes (barramento da memria, GPU, HDs, etc.) comeam a gargalar o desempenho muito antes do
processador. Processadores quad-core so bons para codificar vdeo e rodar aplicativos cientficos, mas em
aplicativos de produtividade e jogos eles so muitas vezes um upgrade desnecessrio.
Naturalmente, a Intel e a AMD sabem disso melhor do que ningum e por isso se esforam para reduzir a
diferena de preos e reforar as campanhas de marketing, enfatizando as reas em que a diferena mais
marcante. Um processador quad-core no seria muito atrativo se custasse o dobro do preo (pelo menos no
em um desktop), mas se a diferena cai para apenas 20 ou 30%, a coisa muda de figura.
No caso do Phenom X3, o ganho de desempenho proporcionado pelo terceiro core ainda menor e muitos
aplicativos no so capazes de utiliz-lo, j que so preparados para utilizar apenas nmeros pares de cores.
94

Naturalmente, a situao j melhorou bastante desde o lanamento do Phenom X3, j que os desenvolvedores
passaram a atualizar os softwares para trabalharem em conjunto com ele, mas o problema ainda persiste em
muitas reas.
Tendo tudo isso em mente, a estratgia da AMD se concentrou em manter os preos baixos, fazendo com
que eles concorressem na mesma faixa de preo dos Core 2 Duo. Em outras palavras, a AMD aproveitou a
oportunidade para vender trs cores pelo preo de dois. Voc pode ver alguns nmeros no:
http://techreport.com/articles.x/14606/3
http://www.anandtech.com/showdoc.aspx?i=3293&p=5
O Phenom X3 baseado no ncleo "Toliman", que nada mais do que uma verso castrada do Agena
(usado no X4), com o quarto ncleo desativado, mas mantendo os mesmos 2 MB de cache L3 e o uso do
soquete AM2+. Os modelos incluem:
Phenom X3 8850: 2.5 GHz, 3x 512 KB, 2 MB, AM2+, stepping B3
Phenom X3 8750 BE: 2.4 GHz, 3x 512 KB, 2 MB, AM2+, stepping B3, mult. destravado
Phenom X3 8750: 2.4 GHz, 3x 512 KB, 2 MB, AM2+, stepping B3
Phenom X3 8650: 2.3 GHz, 3x 512 KB, 2 MB, AM2+, stepping B3
Phenom X3 8600: 2.3 GHz, 3x 512 KB, 2 MB, AM2+, stepping B2
Phenom X3 8550: 2.2 GHz, 3x 512 KB, 2 MB, AM2+, stepping B3
Phenom X3 8450: 2.1 GHz, 3x 512 KB, 2 MB, AM2+, stepping B3
Phenom X3 8400: 2.1 GHz, 3x 512 KB, 2 MB, AM2+, stepping B2
Note que com exceo do X3 8600, todos os modelos so baseados no stepping B3, j sem o TLB bug. Isso
faz com que eles acabem superando os Phenom X4 baseados no stepping B2 (com o patch ativo) em diversas
situaes, muitas vezes por uma boa margem.
Alm destes, foram lanados tambm dois modelos de baixo consumo, o X3 8250e (1.9 GHz) e o X3 8450e
(2.1 GHz), que usam uma tenso mais baixa (1.125V em vez de 1.2V) e trabalham com um TDP de 65 watts,
contra os 95 watts dos demais.
2.4.3.1.2 O TLB B UG E O P ROBLEMA DO C OOL ' N 'Q UIET
Um fator que atrapalhou as vendas do Phenom foi o infame TLB bug que atingiu as primeiras verses do
chip. Devido s inmeras operaes lgicas de movimentao de dados e checagem de coerncia, sem falar
nas prprias instrues, bugs em processadores so uma ocorrncia relativamente comum. Na dcada de
1990, por exemplo, a Intel sofreu com um bug no coprocessador aritmtico das primeiras verses do Pentium,
que levou a um massivo recall dos chips. No caso do Phenom as consequncias foram menos dramticas, mas
o impacto sobre as vendas acabou sendo grande, j que ningum quer comprar um chip com defeito.
O TLB (Translation Lookaside Buffer) uma espcie de ndice de endereos usado em todos os
processadores atuais. Ele tem a funo de cachear endereos (apenas os endereos, no os dados
propriamente ditos) de dados disponveis nos caches e na memria, permitindo que eles sejam localizados
rapidamente, sem necessidade de fazer o processo de busca sequencial nas pginas de endereos.
Conforme os dados so modificados e copiados de um lugar para o outro, as entradas no TLB precisam ser
atualizadas de acordo, um processo que parece simples na teoria, mas que na prtica exige algoritmos
bastante sofisticados. No caso do Phenom a tarefa especialmente complexa, j que alm dos caches L1 e L2
em cada ncleo, temos tambm um cache L3 que compartilhado por todos. Devido ao uso do sistema de
cache exclusivo adotado pela AMD, os caches L1 e L2 dos cores armazenam dados diferentes dos armazenados
no cache L3, o que torna necessrio sincronizar cuidadosamente todas as atualizaes.

95

O bug surge em situaes onde dados nos caches so modificados enquanto o controlador do TLB est
modificando as entradas para refletir uma alterao anterior. Na maioria dos casos, os erros so detectados
pelo circuito de controle dos caches, sem causar maiores danos, mas em determinadas situaes ele pode
levar corrupo de dados, causando um hard-lock do processador.
O bug no TLB uma ocorrncia relativamente rara, mas pode se manifestar em situaes de alta utilizao
do chip, especialmente ao usar o Xen com um grande nmero de mquinas virtuais (um cenrio muito comum
em servidores), disparando a proteo contra corrupo de dados do chip e travando todo o sistema. Outro
fator que quanto mais alta a frequncia de operao do chip, mais propenso ele se torna a exibir o
problema, o que obrigou a AMD a limitar a frequncia de operao dos chips (a srie inicial parou nos 2.3 GHz)
e atrapalhou a vida de quem fazia overclock.
A primeira correo para o problema veio na forma de uma correo de BIOS, que passou a ser usada por
todos os fabricantes. Ela faz com que seja mostrada a opo "Patch AMD TLB Erratum" na seo "Advanced
BIOS Features", que permite ativar ou desativar a correo. Ela pode ser ativada ou desativada tambm
atravs do AMD Overdrive, no Windows.
A correo simplesmente desativa parte do circuito de TLB, prevenindo o problema, mas em troca
reduzindo bastante a eficincia do mecanismo. Isso causa um aumento considervel na latncia de acesso
memria, reduzindo substancialmente o desempenho do processador. Na maioria das aplicaes a queda de
6 a 10% (o que j substancial), mas em algumas tarefas especficas, como no caso da compresso de arquivos
usando o WinRAR a reduo pode chegar a 70%, o que inaceitvel. Voc pode ver alguns nmeros no:
http://techreport.com/articles.x/13741/3
Este um dos casos em que o remdio acaba saindo pior do que a doena, fazendo com que muitos
prefiram manter a opo desativada, arcando com a possibilidade de encontrar travamentos espordicos em
troca de um desempenho mais previsvel.
A soluo definitiva veio com o Phenom B3, que chegou ao mercado em maro de 2008. Voc pode
verificar rapidamente se tem um deles em mos usando o CPU-Z; basta checar o campo "Revision":

Naturalmente, o fix se estende tambm a todos os modelos posteriores, incluindo o Phenom II e o Athlon
II. Como o erro foi descoberto pouco depois do lanamento do processador, o nmero de unidades com o
defeito que realmente chegaram ao mercado foi relativamente pequeno, mas foi suficiente para comprometer
todo um trimestre de vendas da AMD.
Outro problema que afetou negativamente o desempenho do Phenom foi a incluso de um sistema de
gerenciamento independente da frequncia dos cores no Cool'n'Quiet. No novo sistema, a frequncia dos
ncleos pode ser gerenciada independentemente, com a frequncia dos ncleos ociosos sendo reduzida pela
metade, o que faz bastante sentido em aplicativos sem otimizao para vrios ncleos, permitindo que um
deles opere frequncia mxima e os demais entrem em estado de baixo consumo.
O Phenom foi o primeiro processador quad-core a oferecer essa funo. Entretanto, o sistema acabou
esbarrando na maneira como o Windows Vista gerencia os threads ao rodar sobre um processador multicore.
96

Em vez de simplesmente manter os threads rodando sobre o ncleo sobre o qual eles so iniciados, o Vista
utiliza um sistema de balanceamento de carga que move os threads para os ncleos ociosos com o objetivo de
distribuir melhor o trabalho e assim obter um melhor desempenho em processadores multicore.
O sistema funciona bem caso os ncleos operem mesma frequncia (como no Core 2 Quad), mas ele
acaba sabotando o sistema de gerenciamento do Phenom. Quando o thread aberto, ele comea rodando
sobre o primeiro ncleo, que est operando frequncia mxima. Pouco depois o Vista o move para o
segundo ncleo (que est trabalhando metade da frequncia), o que derruba o desempenho
momentaneamente, at que o Cool'n'Quiet perceba a mudana e coloque-o para trabalhar na frequncia
mxima. Pouco depois o thread novamente transferido para o terceiro, para o quarto e depois de volta para
o primeiro, repetindo a perda em cada mudana.
Essa pendenga na verdade um problema com o Vista e no com o Cool'n'Quiet, mas o resultado que
ela acaba causando uma perda de desempenho de at 10% em muitos aplicativos, o que faz com que muitos
prefiram simplesmente desativar o Cool'n'Quiet no Setup (ou usar o perfil "Mximo desempenho" no perfil de
gerenciamento de energia do Windows, que possui um efeito similar). Isso soluciona o problema da perda de
desempenho, mas em compensao aumenta de forma substancial o consumo eltrico.
Para evitar repetir a queda de brao, a AMD adotou um sistema mais conservativo no Phenom II,
desativando o gerenciamento independente, mas em troca adicionando mais P-States, ou seja, mais estgios
intermedirios de frequncia. Enquanto o Phenom possui apenas dois estgios (50 ou 100% do clock), o
Phenom II possui quatro estgios.
Um Phenom II X4 940, por exemplo, pode operar a 3.0 GHz, 2.3 GHz, 1.8 GHz ou 800 MHz, de acordo com
o nvel de carregamento. Todos os cores operam mesma frequncia, o que faz com que o sistema no seja
to eficiente, mas em compensao, no existem mais problemas com o gerenciamento do Vista e voc pode
manter o Cool'n'Quiet ativado sem dores de cabea.
A Intel chegou a uma soluo mais elegante no Core i7, onde os ncleos ociosos so desativados
completamente, como parte do Turbo Mode. Isso evita o problema da transferncia dos threads, j que o
sistema passa a utilizar apenas o ncleo que est ativo, deixando que o PCU (o controlador includo no
processador) decida quando o nvel de carga suficiente para ativar os demais.
Uma curiosidade que o problema com o Cool'n'Quiet no Phenom afeta apenas os usurios de placas
AM2+, j que as placas AM2 no suportam o gerenciamento independente. Isso resultava em situaes
estranhas, onde mquinas "antigas", com placas AM2, apresentavam um desempenho superior ao de
mquinas mais novas, com placas AM2+, utilizando os mesmos processadores.

2.4.3.2 ATHLON X2 7XXX


Em dezembro de 2008, pouco antes de anunciar o Phenom II, a AMD lanou uma atualizao para a linha
Athlon X2, na forma dos processadores da srie 7xxx, baseados no core Kuma. Diferente dos modelos
anteriores, que eram descendentes do Athlon 64 original, os Athlon X2 7xxx so verses castradas do Phenom
B3 (sem o TLB Bug), com apenas dois dos ncleos ativos.
Embora o desempenho em aplicativos multi-thread seja inferior ao dos Phenom X3 e X4, os Athlon X2 7xxx
se destacam pelas frequncias de operao mais altas, que as tornaram boas opes para jogos e aplicativos
desktop em geral, que no apresentam um grande ganho ao migrarem de 2 para 3 ou 4 ncleos. Com exceo
dos ncleos desativados, a arquitetura rigorosamente a mesma, incluindo os 2MB de cache L3, suporte a
virtualizao (AMD Pacifica), suporte a SSE 4.1 e ao Cool'n'Quiet 2.
Esta plataforma foi batizada pela AMD de "Kuma" e foi usada em apenas quatro modelos:
Athlon X2 7850 BE: 2.8 GHz, 2x 512 KB, 2 MB, 95 watts, AM2+, mult. Destravado
Athlon X2 7750 BE: 2.7 GHz, 2x 512 KB, 2 MB, 95 watts, AM2+, mult. destravado
Athlon X2 7550: 2.5 GHz, 2x 512 KB, 2 MB, 95 watts, AM2+
97

Athlon X2 7450: 2.4 GHz, 2x 512 KB, 2 MB, 95 watts, AM2+


Como de praxe, os dois modelos de clock mais alto so integrantes da srie Black Edition, com o
multiplicador destravado. Com apenas dois ncleos, o X2 suporta frequncias ligeiramente mais altas que os
Phenom X3, mas como os processadores j operam a frequncias mais altas, a margem de overclock
pequena. Mesmo os processadores da srie 7850 BE, que so teoricamente ncleos selecionados com base na
frequncia mxima de operao, no so capazes de ultrapassar a barreira dos 3.0 GHz sem um grande
aumento nas tenses, mostrando as limitaes da arquitetura de 65 nm.
Apesar disso, os X2 7xxx apresentavam um desempenho competitivo em relao aos Phenom X3 na
maioria das tarefas, compensando a ausncia do terceiro ncleo com frequncias de operao mais altas. Eles
serviram tambm como uma opo de upgrade de baixo custo para PCs baseados nas verses antigas do X2, j
que so compatveis com placas AM2 antigas.

2.4.3.3 PHENOM II
Apesar do potencial, o Phenom acabou sendo limitado pela arquitetura de 65 nanmetros, que limitou a
frequncia de clock dos processadores. O pico evolutivo acabou sendo o Phenom X4 9950, que operava a 2.6
GHz, mas possua um TDP de nada menos do 140 watts na verso original (que a AMD conseguiu reduzir para
125 watts nas subsequentes), o que basicamente o limite do que se pode refrigerar usando um cooler a ar.
A soluo veio com a migrao para a tcnica de 45 nanmetros, que, alm de reduzir custos, abriu espao
para a adio de 6 MB de cache L3 e um conjunto de outras pequenas melhorias. A latncia de acesso do L3 foi
reduzida em 2 ciclos, a introduo de um algoritmo mais eficiente de data prefetch, o dobro de banda para
operaes de checagem de coerncia entre o contedo dos caches L1 e L2 (em relao ao L3) e o uso de 48
linhas de associao para o L3. Chegamos ento ao Phenom II:

Apesar de parecerem boas no papel, estas so melhorias incrementais, que no possuem um grande
impacto sobre o desempenho. As duas grandes melhorias foram mesmo o aumento no tamanho do L3 e a
possibilidade de atingir frequncias de operao mais altas, especialmente entre os processadores da srie
Black Edition, composta pelos chips mais "saudveis", separados durante o processo de binning dos
processadores.
O Phenom II de 4 a 12% mais rpido que um Phenom do mesmo clock e, com um pouco de sorte,
possvel conseguir de 3.5 a 3.6 GHz com estabilidade em um Phenom II (aumentando a tenso em 0.1 ou
0.15V), o que quase 1 GHz acima do teto do Phenom, que fica entre 2.6 e 2.7 GHz (em ambos os casos com
refrigerao a ar).
possvel fazer overclocks maiores usando um water cooler ou nitrognio, mas a aplicao nesse caso
muito mais restrita, j que alm do custo inicial, a durabilidade do processador em overclocks extremos acaba
sendo muito baixa. o caso de quem precisa manter o overclock por meia hora para rodar uma sute de
98

benchmarks e vencer algum concurso (como o www.oc-arena.com), mas no tanto para quem pretende
realmente usar o PC no dia a dia.
Estas duas imagens divulgadas pela AMD ilustram bem as diferenas fsicas entre o Phenom e o Phenom II.
Na imagem da esquerda temos o Phenom original, com o quadrado superior indicando a rea ocupada por um
dos ncleos e os dois "L" inferiores indicando a rea ocupada pelo cache L3 compartilhado:

Na ilustrao da direita temos um Phenom II, com seus 6 MB de cache L3, que ocupam agora quase
metade da rea do processador, que composto por nada menos do que 758 milhes de transistores (contra
463 milhes do Phenom original). Apesar disso, o chip ficou um pouco menor, ocupando uma rea de 258
mm, quase 13% menor que os 285 mm do Phenom original. Comparando as duas, voc pode ver por que os
fabricantes investem tanto dinheiro em novas tcnicas de produo: elas permitem fazer mais com menos.
Mesmo com as melhorias no cache, a AMD no foi capaz de conseguir atingir a paridade de desempenho
por clock com o Core 2 Quad, que, embora por uma margem muito menor, continuou sendo um pouco mais
rpido clock por clock na maioria das aplicaes. Entretanto, a AMD continuou oferecendo os processadores a
um preo mais baixo, com os modelos do Phenom II X4 custando muitas vezes mais barato do que o Core 2
Quad com frequncias 300 ou 400 MHz inferiores, o que equilibrou a balana.
Com medo de que verses mais rpidas do Core 2 Quad canibalizassem as vendas do i7, a Intel limitou as
frequncias de lanamento dos processadores. Enquanto a AMD lanou rapidamente modelos de at 3.4 GHz
do Phenom II, a Intel ficou estacionada nos 3.0 GHz do Core 2 Extreme QX6850, dando espao para a AMD.
Naturalmente, os Core i7 eram capazes de oferecer um desempenho superior, mas a combinao do
processador, placa e memrias DDR3 acabava saindo caro, fazendo com que eles se situassem em outra faixa
de preo.
Outro fator que ajudou foi o grande volume de tweaks includos no AMD Overdrive. Alm das funes
normais de ajuste de clocks e tenses, um recurso digno de nota o Smart Profiles. Ele uma espcie de
verso via software do Turbo Mode do Core i7, que permite reduzir o clock de dois ou trs dos ncleos
(reduzindo a dissipao trmica do processador) e assim aumentar sua margem de overclock do ncleo ativo,
resultando em um pequeno ganho adicional em jogos e aplicativos single-thread. Ao us-lo, o software
bypassa o agendador do Windows, fazendo com que o thread rode apenas no ncleo reservado.

99

Embora seja de uso limitado (atendendo apenas a quem usa o Windows XP/Vista/7 e uma placa-me com
chipset AMD), essas opes acabaram reforando a imagem da AMD entre o pblico entusiasta, ajudando a
aumentar as vendas.
Com a migrao para as memrias DDR3 caminho, a AMD se apressou em incluir um controlador DDR3
no Phenom II, criando uma srie de processadores hbridos, que podem ser usados tanto em placas AM2+
(com memrias DDR2) quanto em placas AM3 (DDR3), permitindo que voc escolha entre usar uma ou outra
plataforma de acordo com o que for mais vantajoso na hora da compra. Assim como fez no passado, a AMD
usou a compatibilidade com as plataformas antigas como um diferencial, oferecendo uma opo de upgrade
para os donos de placas antigas.
Apesar disso, importante enfatizar que nem todas as placas AM2+ so compatveis com os novos
Phenom II, pois necessrio uma camada de suporte por parte do BIOS. Na maioria dos casos, um simples
upgrade de BIOS resolve o problema, mas como bem sabemos, nem todos os fabricantes os disponibilizam
regularmente. Outra questo que deve ser levada em conta o consumo dos processadores, j que muitas
placas antigas no so capazes de fornecer os 140 watts exigidos por um X4 965 Black Edition, por exemplo.
Por outro lado, as placas AM3 quebram a compatibilidade com os processadores antigos, que no so
capazes de trabalhar com memrias DDR3. O slot passou a ter dois pinos a menos (938 no AM3 contra os 940
do AM2+), o que cria um encaixe de mo nica, onde os Phenom II AM3 podem ser encaixados em ambos os
slots, mas os processadores antigos no encaixam nos slots AM3 devido aos dois pinos a mais:

Phenom AM2+ ( esquerda) e o Phenom II AM3: note a ausncia de dois dos pinos
Outra pequena atualizao implementada no AM3 o aumento na frequncia da ponte norte e do
barramento HyperTransport, que foi aumentada de 1.8 para 2.0 GHz. Embora a frequncia do HyperTransport
no seja to importante assim fora dos servidores, o aumento da frequncia aplicado tambm ao
controlador de memria e ao cache L3 (un-core), resultando em um pequeno ganho incremental.
Embora a oportunidade de escolha seja sempre uma coisa bem vinda, a diferena de desempenho entre
memrias DDR2 e DDR3 no Phenom II pequena. Embora ofeream mais banda, os mdulos DDR3 trabalham
com tempos de latncia mais altos, o que faz com que s exista diferena prtica caso a diferena de
frequncia seja muito grande. Ao comparar mdulos DDR2-1066 CAS 5 com mdulos DDR3-1333 CAS 7, por
exemplo, a diferena praticamente nula, j que o ganho oferecido pela taxa de transferncia anulado pelo
demorado acesso inicial.
Com isso, a escolha acaba recaindo mais sobre a diferena de preo entre as placas-me e os mdulos de
memria, seguindo o curso normal da evoluo e substituio dos componentes. Voc pode ver alguns
benchmarks comparando o desempenho do Phenom II com memrias DDR2 e DDR3, comparado com o dos
modelos antigos no:
100

http://www.tomshardware.com/reviews/socket-am3-phenom,2148-6.html
http://www.anandtech.com/showdoc.aspx?i=3619&p=3
http://www.anandtech.com/showdoc.aspx?i=3512&p=4
Como uma medida de precauo, a AMD lanou as primeiras verses do Phenom II (o X4 920 e o X4
940BE) em verso AM2+, enquanto aguardava o lanamento das primeiras placas AM3. Estas duas verses
foram predominantemente destinadas a integradores e desapareceram rapidamente do mercado com o
lanamento das verses AM3.
2.4.3.3.1 A S V ERSES : X4, X3 E X2
Assim como no caso do Phenom original, o Phenom II um chip muito grande, o que leva a um percentual
muito alto de chips com defeitos de fabricao. Para garantir um melhor aproveitamento, a AMD segmentou
os modelos em 4 sries, com variaes na quantidade de cache e de ncleos ativos:
Phenom II X4 9xx (Deneb): Verso "completa", com os 4 ncleos e 6 MB de cache L3.
Phenom II X4 8xx (Deneb): Verso de baixo custo, com 4 ncleos e apenas 4 MB de cache L3, obtida a
partir dos chips com defeitos na rea do cache. Esta foi a verso produzida em menor volume, j que devido
ao uso de clulas redundantes (blocos de cache sobressalentes, que so usados para substituir endereos
defeituosos), defeitos nos caches que comprometam a operao so menos comuns que defeitos nos ncleos.
Phenom II X3 7xx (Heka): Verso com 3 ncleos e 6 MB de cache L3, obtida a partir dos chips com defeitos
em um dos ncleos, mas com todo o cache intacto.
Phenom II X2 5xx (Callisto): Verso com apenas dois ncleos, mas com os mesmos 6 MB de cache L3. Ela
foi produzida em pequeno volume e logo substituda pelo Athlon II X2.
Assim como no caso do Phenom X3, no existe nenhuma diferena fsica entre os chips. Todos saem da
mesma linha de produo e a desativao dos componentes feita unicamente atravs da programao do
firmware. A lista dos modelos inclui:
Phenom II X4 965 BE: 3.4 GHz, 4x 512 KB, 6 MB, 140 watts (AM3)
Phenom II X4 955 BE: 3.2 GHz, 4x 512 KB, 6 MB, 125 watts (AM3)
Phenom II X4 945: 3.0 GHz, 4x 512 KB, 6 MB, 95 ou 125 watts (AM3)
Phenom II X4 940 BE: 3.0 GHz, 4x 512 KB, 6 MB, 125 watts (soquete AM2+)
Phenom II X4 920: 2.8 GHz, 4x 512 KB, 6 MB, 125 watts (soquete AM2+)
Phenom II X4 910: 2.6 GHz, 4x 512 KB, 6 MB, 95 watts (AM3)
Phenom II X4 910e: 2.6 GHz, 4x 512 KB, 6 MB, 65 watts (baixo consumo, AM3)
Phenom II X4 905e: 2.5 GHz, 4x 512 KB, 6 MB, 65 watts (baixo consumo, AM3)
Phenom II X4 900e: 2.4 GHz, 4x 512 KB, 6 MB, 65 watts (baixo consumo, AM3)
Phenom II X4 810: 2.6 GHz, 4x 512 KB, 4 MB, 95 watts (AM3)
Phenom II X4 805: 2.5 GHz, 4x 512 KB, 4 MB, 95 watts (AM3)
Phenom II X3 720: 2.8 GHz, 3x 512 KB, 6 MB, 95 watts (AM3)
Phenom II X3 710: 2.6 GHz, 3x 512 KB, 6 MB, 95 watts (AM3)
Phenom II X3 705e: 2.5 GHz, 3x 512 KB, 6 MB, 65 watts (baixo consumo, AM3)
Phenom II X3 700e: 2.4 GHz, 3x 512 KB, 6 MB, 65 watts (baixo consumo, AM3)
Phenom II X2 555 BE: 3.2 GHz, 2x 512 KB, 6 MB, 80 watts (AM3)
Phenom II X2 550 BE: 3.1 GHz, 2x 512 KB, 6 MB, 80 watts (AM3)
Phenom II X2 545: 3.0 GHz, 2x 512 KB, 6 MB, 80 watts (AM3)
101

O Phenom II , de certa forma, a resposta da AMD para o Penryn: um processador de 45 nanmetros, com
mais cache, consumo eltrico mais baixo e capaz de atingir frequncias de operao mais elevadas.
O grande problema que enquanto a AMD se apressava em concluir a transio para os 45 nanmetros, a
Intel preparava a sua prxima arquitetura. Quando a AMD finalmente conseguiu colocar o Phenom II no
mercado, a Intel reagiu lanando o Core i7 e i5 (baseados no Nahalem), que a colocou novamente no topo das
tabelas de desempenho.
Alm de oferecerem mais poder bruto de processamento e uma arquitetura modernizada, os
processadores baseados no Nahalem oferecem respostas para dois problemas antigos: a questo do consumo
e o desempenho em aplicaes single-thread, com a combinao do Turbo Mode e a desativao dos ncleos
ociosos. Isso obrigou a AMD a repetir a mesma estratgia que adotou com o Phenom: baixar o preo dos
processadores e se concentrar no mercado de baixo e mdio custo, mantendo a guerra de preos.
2.4.3.3.2 A THLON II X2
Produzir um processador quad-core para, no final, desativar dois dos ncleos e vend-lo como um
processador dual-core de baixo custo, no uma estratgia de vendas muito sustentvel. No incio, o volume
de chips com defeitos podia ser suficiente para justificar a manuteno da linha Phenom X2, mas conforme a
tcnica de produo foi sendo refinada, o volume de chips com defeitos passou a ser cada vez menor, fazendo
com que a AMD tivesse cada vez mais Phenoms X4 e cada vez menos Phenoms X3 e X2.
No faz muito sentido desativar ncleos em processadores saudveis para manter a linha de baixo custo e
tambm no seria prudente tir-la do mercado, dando espao para a Intel dominar o nicho com os Pentium E
e Celerons.
Tendo isso em mente, a AMD se apressou em desenvolver um processador dual-core de baixo custo
baseado no processo de 45 nanmetros (codenome Regor), dando origem ao Athlon II X2. Ele basicamente
uma verso simplificada do Phenom II com apenas 2 ncleos (cada um com 1 MB de cache L2) e sem cache L3:

Athlon II X2 com core Regor


A dieta resultou em um chip com apenas 234 milhes de transistores (menos de um tero dos 758 milhes
do Phenom II X4), que ocupa uma rea de apenas 117 mm e possui um custo de produo bastante baixo. Na
poca de lanamento, o X2 250 (a verso mais cara, de 3.0 GHz) custava apenas US$ 87 nos EUA, disputando
diretamente com o Pentium E5400 (de 2.7 GHz), que embora oferea um consumo eltrico mais baixo,
consideravelmente mais lento na maioria dos aplicativos.
102

A poltica agressiva de preos da AMD com o Athlon II X2 obrigou a Intel a reagir, reduzindo os preos de
diversos modelos e atualizando a linha com a srie Celeron E3000, um processador dual-core produzido
usando a tcnica de 45 micron, que possui 1 MB de cache L2 compartilhado e inclui suporte ao Intel VT e ao
EIST. Embora o E3000 no seja capaz de competir diretamente com o Athlon II em desempenho, ele bem
superior ao Celeron E1000 (com seus ridculos 512 KB de L2) e continua sendo muito barato, mostrando os
milagres que um pouco de competio pode fazer.
De volta ao Athlon II, a remoo do cache L3 resultou em uma perda considervel de desempenho, mas ela
parcialmente compensada pelo aumento no cache L2. Sem o cache L3, o tempo total de um acesso
memria tambm reduzido, j que o processador pode iniciar o acesso logo depois que no encontra os
dados nos caches L1 e L2, sem precisar procurar tambm no L3.
Esses dois fatores fazem com que a perda de desempenho seja menor do que poderia parecer primeira
vista, mas ainda assim a ausncia do L3 faz falta, fazendo com que o desempenho por ciclo de clock do Athlon
II seja no apenas inferior ao do Phenom II X2 (que possui um generoso L3 de 6 MB), mas tambm
ligeiramente inferior ao do antigo Athlon X2, que apesar de utilizar apenas 512 KB de L2 por ncleo, possui um
cache L3 compartilhado de 2 MB. A queda no desempenho entretanto mais do que compensada pela maior
frequncia de operao dos chips, j que o Athlon II foi lanado em verses de 2.9 GHz em diante. Voc pode
ver alguns benchmarks no:
http://www.techspot.com/review/171-amd-phenomx2-athlonx2/page4.html
http://xbitlabs.com/articles/cpu/display/phenom-athlon-ii-x2_8.html
http://www.anandtech.com/showdoc.aspx?i=3572&p=5
Por ser baseado no Phenom II, o Athlon II X2 herda as outras melhorias trazidas por ele, incluindo o uso do
soquete AM3 e os estgios adicionais de frequncia do Cool'n'Quiet. Com apenas dois ncleos, a margem de
overclock tambm um pouco maior, o que pode ser usado para compensar parte da diferena no
desempenho em relao aos Phenom X4. Com um bom processador, voc pode conseguir de 3.6 a 3.8 GHz em
um Athlon II X2, o que no nada mal para um processador de baixo custo.
Inicialmente, a AMD lanou apenas trs modelos do Athlon II X2, mas aproveitou para caprichar nas
frequncias de operao, posicionando os chips com boas alternativas para quem usa o PC
predominantemente para jogos e outros aplicativos sem
otimizao para processadores quad-core, tarefas onde eles
acabam sendo mais rpidos que os Phenom II X3 e X4 de
clock mais baixo:
Athlon II X2 255: 3.1 GHz, 2x 1 MB, 65 watts (AM3)
Athlon II X2 250: 3.0 GHz, 2x 1 MB, 65 watts (AM3)
Athlon II X2 245: 2.9 GHz, 2x 1 MB, 65 watts (AM3)
Athlon II X2 240: 2.8 GHz, 2x 1 MB, 65 watts (AM3)
Athlon II X2 215: 2.7 GHz, 2x 1 MB, 65 watts (AM3)
2.4.3.3.3 A THLON II X4
O sucesso do Athlon II levou a AMD a desenvolver uma verso quad-core do processador, sacrificando
parte do cache L2 para incluir dois ncleos adicionais. Isso deu origem ao Athlon II X4, que se tornou o
primeiro processador quad-core a ser vendido por menos de US$ 100 (nos EUA), oferecendo um desempenho
similar ao de um Core 2 Quad de baixo clock pelo preo de um Pentium E.

103

Diferente dos Phenom II X4 8xx,


que so verses castradas do
Phenom II, com parte do cache L2
desativado, o Athlon II X4
(codenome Propus) um projeto
derivado do Athlon II X2, produzido
em uma linha separada.
Para economizar transistores, a
AMD optou por reduzir o cache L2
para apenas 512 KB por ncleo, em
vez de manter os 1 MB por ncleo
do Athlon II X2. Com isso, o Athlon II
X4 passou a oferecer a mesma
configurao de cache do Phenom II
X4 (4x 128 KB de cache L1 e 4x 512
KB de L2), porm sem o cache L3.
Isso resultou em um chip
mediano, com 300 milhes de
transistores e uma rea de 169
mm, que bem mais barato de produzir que um Phenom II e pode ser vendido proporcionalmente mais
barato:
Phenom X4 (65 nm): 463 milhes de transistores, 285 mm
Phenom II X4 (45 nm): 758 milhes de transistores, 258 mm
Athlon II X2: 234 milhes de transistores, 117 mm
Athlon II X4: 300 milhes de transistores, 169 mm
Inicialmente a AMD anunciou apenas dois modelos (o 620 e o 630), que foram logo complementados pelo
635 e pelos 600e e 605e, dois modelos de baixo consumo:
Athlon II X4 635: 2.9 GHz, 4x 512 KB, 95 watts (AM3)
Athlon II X4 630: 2.8 GHz, 4x 512 KB, 95 watts (AM3)
Athlon II X4 620: 2.6 GHz, 4x 512 KB, 95 watts (AM3)
Athlon II X4 605e: 2.3 GHz, 4x 512 KB, 45 watts (AM3)
Athlon II X4 600e: 2.2 GHz, 4x 512 KB, 45 watts (AM3)
A configurao desequilibrada do Athlon II X4 (muito processamento e pouco cache) faz com que o
desempenho varie mais de acordo com a tarefa que em outros processadores. Por um lado, ele se sai muito
bem em converso de vdeo e em alguns aplicativos e renderizao, mas se sai mal em aplicativos de
produtividade, multitarefa, jogos recentes (que usam grandes executveis e so por isso mais dependentes do
cache que jogos antigos) e em tarefas de servidor, que so mais dependentes do cache. Voc pode ver alguns
nmeros em:
http://www.xbitlabs.com/articles/cpu/display/athlon-ii-x4-630_4.html
http://www.overclockersclub.com/reviews/athlon2_620/4.htm
http://www.anandtech.com/showdoc.aspx?i=3638&p=2
http://www.firingsquad.com/hardware/amd_propus_athlon_2_x4_630_620_performance/
No geral ele um bom processador, com o Athlon II X4 630 oferecendo um desempenho similar ao de um
Core 2 Quad Q8200 (2.33 GHz), que apesar do clock mais baixo, mais caro. Entretanto, ele tem tambm suas
104

limitaes, por isso preciso pesar a escolha na balana. Se voc est em busca de um bom desempenho em
jogos, por exemplo, um Athlon II X2 250 seria uma melhor escolha, devido aos 1 MB de L2 por ncleo e ao
clock mais alto.
Assim como os demais processadores da safra atual, o Athlon II X4 pode ser usado tanto em placas AM3
quanto em placas AM2+ (e tambm em placas AM2 antigas que recebam BIOS atualizados), o que oferece uma
boa flexibilidade na hora de montar ou atualizar.
O baixo custo do processador e a grande disponibilidade de placas AM2+ e AM3 de baixo custo fazem com
que ele seja a opo mais acessvel de processador quad-core, concorrendo apenas com outros processadores
da AMD.
Devido ao uso de 4 ncleos, o Athlon II X4 no to overclocvel quanto o X2, mas mesmo assim
possvel atingir at 3.4 GHz com uma relativa facilidade, desde que voc use um bom cooler e aumente a
tenso em 0.1V. Com aumentos adicionais de tenso possvel chegar aos 3.5 ou mesmo 3.6 GHz, mas nesse
caso a vida til do processador comea a ser comprometida.
Concluindo, tivemos tambm o lanamento de uma verso triple-core, baseada no core Rana. Como pode
imaginar, ele nada mais do que uma verso castrada do Propus, com 3x 512 KB de L2, obtida a partir de
processadores com defeitos em um dos ncleos. Previsivelmente, ele foi batizado de Athlon II X3, dando
origem srie 4xx:
Athlon II X3 440: 3.0 GHz, 3x 512 KB, 95 watts (AM3)
Athlon II X3 435: 2.9 GHz, 3x 512 KB, 95 watts (AM3)
Athlon II X3 425: 2.7 GHz, 3x 512 KB, 95 watts (AM3)
Athlon II X3 405e: 2.3 GHz, 3x 512 KB, 45 watts (AM3)
Athlon II X3 400e: 2.2 GHz, 3x 512 KB, 45 watts (AM3)
Estes processadores so vendidos por preos bem prximos aos do Athlon II X2, o que torna a srie uma
opo para quem est disposto a sacrificar parte do cache em troca de mais processamento.
Concluindo, alm das sries "nativas" do Athlon II X4, existem tambm algumas sries obtidas a partir de
verses castradas do Phenom II Daneb (com o cache L3 desativado), que so usadas pela AMD para vender os
processadores com defeitos no cache. Apesar da origem diferente, elas so indistinguveis das sries baseadas
no Propus, uma vez que o Athlon II nada mais do que um Phenom II sem o cache L3.
2.4.3.3.4 O S EMPRON DE 45 NM
Com o lanamento do Athlon II X2 e X4 a expectativa geral era de que a AMD abandonaria a produo de
processadores single-core, descontinuando o Sempron. Afinal, os modelos mais lentos do Athlon X2 passaram
a ser vendidos (nos EUA) abaixo da faixa dos 60 dlares, o que j considerado um preo bastante baixo.
Entretanto, com a Intel ganhando terreno em vrias frentes, a AMD no podia se dar ao luxo de perder
nenhuma oportunidade, o que levou criao do core Sargas.
Diferente dos ncleos anteriores, sempre usados em vrias verses, o Sargas deu origem a uma nica
verso, o Sempron 140, de 2.7 GHz. Ele um processador AM3, produzido usando uma tcnica de 45 nm, com
1 MB de cache L2 e suporte s instrues SSE3, instrues de 64 bits e ao AMD-V, basicamente uma verso
single-core do Athlon II X2 com core Regor.
Com um nico core e o processamento de um nico thread de cada vez, o desempenho em multitarefa
no dos melhores (no muito melhor que um Athlon 64 antigo em overclock) mas ele ainda mais do que
utilizvel em tarefas leves e na maioria dos jogos.
O principal argumento de venda mesmo o preo. No incio de 2010 ele podia ser encontrado por menos
de R$ 100 no Brasil (US$ 36 nos EUA), o que o tornou um processador bastante popular. Por ser um
processador AM3 ele uma espcie de curinga, que pode ser usado tanto em placas AM3 e AM2+ novas,
105

quanto em placas AM2 antigas, fazendo par com memrias DDR ou DDR3 e mantendo aberta a possibilidade
de upgrade para um Athlon II ou Phenom II substituindo apenas o processador.
O baixo custo explica o por qu de a AMD ter lanado o processador em uma nica verso, em vez de
segment-lo em 3 ou 4 verses com clocks diferentes, como de praxe. O Sargas foi encaixado em uma faixa
extremamente baixa de preo, logo abaixo do Athlon II X2 215 (que na mesma poca era vendido por US$ 50
nos EUA).
No faria sentido para a AMD vender verses com clock mais baixo do Sargas por preos ainda mais baixos
(os US$ 36 j so um preo extraordinariamente baixo para o padro da AMD) e tambm no faria muito
sentido produzir verses com clock maior, apenas para faz-las competir com o X2 215 que est logo acima na
pirmide de preos.
Com a popularizao do Athlon X2, que assumiu o posto do Sempron como processador de baixo custo,
tudo indica que a AMD abandonar a fabricao de processadores single-core para desktop. O dual-core
passar a ser o low-end, o quad-core o mainstream e os processadores com oito ncleos passaro a ser o novo
high-end. Infelizmente este um mundo sem lugar para o Sempron, que se juntar ao Duron nas pginas da
histria.
2.4.3.3.5 Q UATRO C ORES P ELO P REO DE T RS
Embora a ideia de um processador com 3 ncleos soe estranha para muitos, a AMD conseguiu fazer um
razovel sucesso com o Phenom X3 e o Phenom II X3. Em ambos os casos, as verses com 3 cores nada mais
so do que processadores quad-core com defeitos de fabricao, onde o core danificado desativado em
fbrica, resultando em um processador perfeitamente funcional, mas com apenas 3 ncleos ativos, que a AMD
pode vender por um preo mais baixo.
O segredo que eles no contam que muitos dos processadores das sries X3 e X2 so na verdade
processadores quad-core perfeitamente funcionais, que tm um dos cores desativados simplesmente para
satisfazer a demanda do mercado. Afinal, o ndice de defeitos nos processadores oscila de uma maneira
imprevisvel, mas a demanda por cada modelo continua mais ou menos estveil ms a ms.
Na maioria dos casos, a desativao dos ncleos, de parte do cache, ou de qualquer outro componente
interno que o fabricante resolva desativar para diferenciar o modelo, consiste em apenas uma varivel no
microcdigo do processador, que faz com que ele ignore o componente e se comporte como desejado.
No caso do Phenom II, um bug
no firmware (ou talvez uma brecha
acidental por parte da AMD)
permite que o quarto ncleo seja
ativado via software, a partir de
comandos enviados pela placame. O "hack" funciona em muitas
placas-me baseadas no SB750 e
pode ser ativado atravs da opo
"Advanced Clock Calibration" no
Setup. Basta deix-la com o valor
"Auto".
Esta uma opo originalmente
destinada a aumentar a tolerncia
do processador a erros, permitindo
que os modelos antigos do Phenom
atinjam overclocks um pouco
106

maiores, mas no caso do Phenom II X3 ela ganhou uma sobrevida inesperada.


Muitas placas recentes oferecem tambm a opo "EC Firmware Selection", que um workaround contra
uma atualizao da AMD para bloquear a ativao dos ncleos adicionais. Quando presente, ela deve ser
configurada com o valor "Hybrid", que faz com que a placa use as funes antigas, desativando a atualizao.
Caso a placa-me seja compatvel, basta ativar a(s) opo(es) para que o sistema passe a utilizar o quarto
ncleo, essencialmente transformando seu Phenom II X3 7xx em um Phenom II X4 9xx. A dica tambm pode
ser usada em processadores Phenom II X2, nesse caso habilitando os dois ncleos desativados.
Para confirmar, basta verificar se surge um quarto medidor no gerenciador de tarefas do Windows, ou na
sada do comando "cat /proc/cpuinfo" no Linux.
A possibilidade de um desempenho extra grtis acabou por atrair um grande volume de ateno, fazendo
com que muita gente comprasse um X3 na esperana de "ganhar" um X4 de graa. O assunto ganhou tamanha
repercusso dentro dos crculos tcnicos que muitos levantaram a possibilidade de que esta seria uma brecha
proposital da AMD, para conquistar algumas vendas adicionais em uma poca difcil.
De fato, apesar do hype, o ndice de sucesso relativamente baixo. Em primeiro lugar, um nmero
relativamente pequeno de placas so capazes de destravar o quarto ncleo e em outras voc precisa utilizar
uma verso especfica do BIOS para ter sucesso.
Alm disso, mesmo nos casos em que o quarto ncleo ativado, ele s funcionar de maneira estvel caso
voc d a sorte de ter em mos uma unidade "boa" do processador, onde o quarto ncleo no possui defeito
algum e foi desativado apenas para completar a quantidade de unidades necessrias. Caso o quarto ncleo
realmente seja defeituoso, ativ-lo no vai fazer bem algum, j que far apenas com que o sistema exiba erros
ou trave quando ele for usado. Em outros casos, o quarto ncleo pode funcionar sem erros, mas apenas na
frequncia default (eliminando a possibilidade de overclock) ou funcionar apenas a frequncias mais baixas.
Na prtica, a possibilidade de sucesso pequena e a diferena de desempenho entre trs e quatro ncleos
no muito considervel para incio de conversa. Levando tudo isso em conta, no faz muito sentido perder
tempo caando processadores ou placas em que o hack funcione. No final da histria, quem saiu ganhando
mesmo foi a AMD, que acabou vendendo vrios processadores a mais para os curiosos de planto.

2.4.3.4 TUBAN: SIX-CORE DA AMD


Com o lanamento do Gulftown (processador de 6 ncleos da Intel, a ser visto a frente), a AMD se
apressou em lanar um processador six-core para desktops, baseado no core Tuban, dando origem ao Phenom
II X6.
Na verdade, a AMD foi a primeira a lanar um processador six-core nativo, com as sries 24xx e 84xx do
Opteron, baseados no core Istanbul. Entretanto, eles eram processadores para servidores, o que limitou muito
o uso, permitindo que a Intel roubasse a cena.
O Tuban nada mais do que uma verso levemente modificada do Istanbul, produzido usando uma
tcnica de 45 nm. Dentro do processador, as principais modificaes foram a eliminao dos links HyperTransport adicionais (preservando um nico link para a comunicao com o chipset) e o controlador de
memria, que foi modificado para suportar mdulos de memrias DDR2 e DDR3 unbuffered. Ele
perfeitamente compatvel com placas soquete AM2+ e AM3 anteriores, desde que exista suporte por parte do
BIOS.
Cada um dos seis ncleos inclui os tradicionais 512 KB de cache L2, mas o cache L3 compartilhado continua
sendo de 6 MB (assim como no Phenom II), o que resulta em uma proporo de cache por ncleo mais baixa.
O motivo de a AMD ter mantido o mesmo cache a questo da contagem de transistores, j que mesmo com
apenas 6 MB, o Tuban inclui nada menos do que 904 milhes de transistores.

107

Fisicamente, ele o maior processador para desktops j produzido pela AMD, com um total de 346 mm.
Dentro do processador, voc pode distinguir claramente os seis blocos que formam os ncleos e o grande
bloco referente ao cache L3:

Apesar do maior nmero de ncleos, o Tuban capaz de operar a frequncias surpreendentemente altas
para um processador de 6 ncleos, graas ao uso do high-k dielectric (a mesma tecnologia usada pela Intel
desde o Penryn), que foi tambm adotado pela Global Foundries como parte do refresh do processo de
fabricao de 45 nm. Em overclock, possvel atingir os 3.8 GHz com relativa facilidade, mesmo nas primeiras
verses.
Como uma resposta ao Turbo Boost do Nehalem, a AMD incorporou uma funo similar, batizada de Turbo
CORE. Apesar do objetivo ser o mesmo, o Turbo CORE bem mais simples, baseado apenas no nmero de
ncleos ativos e na temperatura.
Assim como em outros processadores da AMD, o Phenom II X6 capaz de reduzir o clock dos ncleos
ativos em degraus. Sempre que trs ou mais ncleos esto ociosos e operando na frequncia mnima (800
MHz) e os demais esto ocupados, o processador aumenta a tenso (de todos os ncleos) em 0.15V e
aumenta a frequncia dos ncleos ativos em 400 ou 500 MHz (de acordo com o modelo), mantendo o
overclock at que mais ncleos sejam requisitados, ou at que o teto de temperatura seja excedido.
Em termos de consumo eltrico, o Turbo CORE do Tuban no to eficiente, pois o processador carece de
um sistema de gerenciamento de tenses independente para cada ncleo e no capaz de desativar
completamente os ncleos ociosos. Em termos de desempenho, entretanto, ele faz seu trabalho, oferecendo
um ganho proporcional de desempenho em aplicativos que utilizam apenas um, dois ou trs ncleos.
Os dois modelos iniciais so o 1055T e o 1090T Black Edition. O "T" indica a presena do Turbo CORE e
passar a ser usado em todos os modelos com suporte a ele:
Phenom II X6 1090T BE: 3.2 GHz (3.6 GHz com turbo), 6 MB, 125W
Phenom II X6 1055T: 2.8 GHz (3.3 GHz com turbo), 6 MB, 125W
Embora o Tuban no seja capaz de concorrer diretamente com Gulftown em termos de desempenho, a
AMD passou a oferec-lo por preos muito mais baixos (a partir de US$ 200), posicionando-o como um
concorrente dos Core i5 quad-core. Isso fez com que ele passasse a ser uma opo acessvel para PCs de altodesempenho, destinados a tarefas onde os ncleos adicionais podem ser bem utilizados. Ele tambm uma
108

opo de upgrade para quem tem um Phenom II X4 e quer mais desempenho, j que na grande maioria dos
casos possvel atualizar diretamente, trocando apenas o processador.
Voc pode ver vrios benchmarks nos links a seguir:
http://www.tomshardware.com/reviews/amd-phenom-ii-x6-1090t-890fx,2613-6.html
http://www.hexus.net/content/item.php?item=24332&page=6
http://hothardware.com/Articles/AMD-Phenom-II-X6-6Core-Processor-Review/?page=7
http://www.anandtech.com/show/3674/amds-sixcore-phenom-ii-x6-1090t-1055t-reviewed/5
http://www.xbitlabs.com/articles/cpu/display/phenom-ii-x6-1090t_5.html
http://techreport.com/articles.x/18799/4

2.5 PROCESSADORES RECENTES: INTEL: I3, I5 E I7 / AMD: APUS E BULLDOZER


2.5.1 A ARQUITETURA INTEL NAHALEM (INTEL CORE i DE 1 GERAO)
O Core i7 marcou a introduo da arquitetura Nahalem, baseado em uma arquitetura com muitas
modificaes em relao ao Penryn e aos processadores anteriores, incluindo um controlador de memria
integrado e a to esperada migrao do FSB para um barramento serial ponto-a-ponto, duas melhorias que
foram introduzidas anos antes pela AMD, s quais a Intel vinha resistindo at ento.
Embora o Core i7 tenha sido originalmente introduzido como um processador de nicho, destinado ao
mercado high-end, a nova arquitetura deu origem tambm aos processadores das linhas Core i5 e Core i3, que
passaram a gradualmente substituir os modelos anteriores nos PCs de baixo e mdio custo.
Comeando com um pouco de contexto histrico, no incio de 2006 a Intel estava em uma situao
complicada. O Pentium D, baseado na ineficiente arquitetura NetBurst perdia para o Athlon X2 tanto em
termos de desempenho quanto em termos de eficincia, gastando muita energia e rendendo pouco.
Na poca, os processadores AMD eram superiores tanto nos desktops quanto nos servidores e a Intel
perdia terreno rapidamente em ambas as frentes. Quando tudo parecia perdido, a Intel apresentou a
arquitetura Core, que deu origem ao Core 2 Duo e aos demais processadores da linha atual, com os quais
conseguiram virar a mesa.
Para no repetir o erro que cometeu com a plataforma NetBurst, a Intel passou a investir massivamente
em pesquisa e desenvolvimento, passando a desenvolver diversas novas arquiteturas em paralelo e a investir
pesado no desenvolvimento de novas tcnicas de fabricao e na modernizao de suas fbricas. O
departamento de marketing se apressou em criar um termo que simboliza a nova fase, o "tick-tock" que
passou a ser exaustivamente usado dentro do material publicitrio da Intel.
A ideia simples: apresentar novas arquiteturas e novas tcnicas de fabricao em anos alternados, onde
um "tick" corresponde ao lanamento de uma nova arquitetura (como o Penryn e o Nehalem) enquanto o
"tock" corresponde ao lanamento de uma nova tcnica de fabricao (45 nanmetros ou 32 nanmetros, por
exemplo), fechando o ciclo.
O plano passou a ser manter o pblico interessado, anunciando uma nova arquitetura (ou a migrao para
um novo processo de fabricao) uma vez a cada ano; e, manter um ritmo rpido de evoluo, que a AMD
tenha dificuldades para acompanhar. Dentro da ideia, a migrao para a tcnica de 65 nm em 2005 foi um
"tick", o lanamento da plataforma Core, em 2006 foi um "tock" e o lanamento do Penryn em 2007, baseado
na nova arquitetura de 45 nm, foi um novo "tick", que foi seguido pelo anncio do Nahalem (pronuncia-se
"nerreilem"), que representa uma nova arquitetura, ainda produzida usando a tcnica de 45 nm, mas com
diversas mudanas arquiteturais em relao ao Penryn.
109

Assim como em todos os demais processadores da Intel, o "Nehalem" apenas o nome-cdigo da


arquitetura, que deu origem aos processadores Core i7, i5 e i3.

2.5.1.1 OS CACHES
Diferente do Yorkfield, usado nos processadores Core 2 Quad da srie Q9000 (obtido atravs da
combinao de dois processadores dual-core, ligados atravs do FSB), o Bloomfield (a verso inicial do
Nehalem) um processador quad-core nativo, onde os 4 ncleos compartilham a mesma pastilha de silcio:

Os 4 ncleos so compostos por nada menos que 731 milhes de transistores, que, mesmo com a tcnica
de produo de 45 nanmetros, ocupam uma rea de 263 mm. Para ter uma ideia, isso corresponde a mais
de 10 vezes o tamanho de um Atom 230, que possui apenas 25.9 mm.
Para acomodar os 4 ncleos, a Intel fez vrias mudanas na arquitetura dos caches. Em vez de um grande
cache L2 compartilhado, optaram por utilizar uma arquitetura similar utilizada pela AMD no Phenom, com
um pequeno cache L2 (de 256 KB) para cada ncleo e generosos 8 MB de cache L3 compartilhados entre
todos. Dentro da arquitetura, o cache L3 assume a posio que no Core 2 Duo era executada pelo cache L2,
servindo como um reservatrio comum de dados.
A grande diferena entre o cache do Nahalem e do Phenom reside na forma como os dados so
armazenados nos caches. Nos processadores AMD usado um cache "exclusivo", onde o cache L2 armazena
dados diferentes do cache L1 e o L3 armazena dados diferentes dos do L2, maximizando o espao de
armazenamento. A Intel, por outro lado, utiliza um sistema "inclusivo" onde os cache L1 e L2 armazenam
cpias de dados tambm armazenados no cache L3.
Embora reduza o volume total de dados que pode ser armazenado nos caches, o sistema da Intel oferece
um pequeno ganho de desempenho, j que cada ncleo no precisa checar o contedo dos caches dos demais
em busca de dados; basta verificar seu prprio cache L1 e L2 e, em seguida, o cache L3 compartilhado.
Outro motivo para o uso do cache inclusivo so os novos estgios de baixo consumo (C3 e C6) suportados
pelo processador, onde alguns (ou mesmo todos os ncleos) so completamente desligados, reduzindo o
consumo a um patamar bastante baixo, mas em troca causando a perda dos dados armazenados nos cache L1
e L2. Como o cache L3 independente dos 4 ncleos, ele permanece ativo, permitindo que os ncleos
110

recarreguem os caches a partir do L3 ao acordarem, sem que o processador precise executar operaes de
checagem, nem que precise buscar os dados novamente na memria RAM.
nesse ponto que os investimentos da Intel em novas tcnicas de produo se pagam, j que com
transistores menores, eles podem se dar ao luxo de fabricar processadores maiores e com mais cache,
compensando a perda de espao causada pelo uso do sistema exclusivo com um volume maior de cache.
O cache L1 continua sendo dividido em dois blocos (32 KB para dados e 32 KB para instrues), assim como
em todos os processadores anteriores, mas houve um aumento na latncia de acesso, que subiu de 3 para 4
ciclos em relao ao Penryn. A perda de desempenho foi compensada pela reduo na latncia do cache L2,
que caiu consideravelmente, de 15 para 11 ciclos.
Essa reduo no tempo de acesso uma das justificativas da Intel para o uso de um cache L2 to pequeno.
Com apenas 11 ciclos de acesso, ele funciona mais como um cache nvel "um e meio", que serve como um
intermedirio entre o cache L1 e o grande bloco de cache L3 compartilhado.
O cache L3 trabalha com uma latncia de 36 ciclos (nos Core i7 da srie XE) a 41 ciclos (nos demais
modelos), o que pode parecer bastante se comparado com a latncia dos caches L1 e L2, mas um pouco mais
rpido do que o cache L3 usado no Phenom, que alm de menor, trabalha com uma latncia de 43 ciclos. Ao
fazer overclock, possvel aumentar a frequncia de operao do cache L3 (vinculado frequncia do
"uncore"), o que permite obter tempos de latncia ligeiramente mais baixos.

2.5.1.2 CONTROLADOR DE MEMRIA


Outra mudana dramtica a incluso de um controlador de memria integrado, assim como temos nos
processadores AMD. O controlador de memria integrado reduz substancialmente o tempo de latncia da
memria, resultando em um ganho de desempenho considervel. Um dos grandes motivos do Athlon X2 ter se
mantido competitivo em relao ao Core 2 Duo, apesar de possuir bem menos cache, era justamente devido
ao fato de utilizar o controlador dedicado, enquanto o Core 2 Duo dependia do trabalho do chipset.
A grosso modo, podemos dizer que o Athlon X2 precisa acessar a memria com mais frequncia (devido ao
cache menor) mas que em compensao perde menos tempo a cada acesso devido ao controlador de
memria integrado. A Intel bem que resistiu, mas acabou tendo que ceder ideia.
Em vez de utilizar um controlador single-channel, ou dual-channel, a Intel optou por utilizar um
controlador triple-channel na verso inicial do Core i7, com memrias DDR3. Isso significa uma banda total de
at 32 GB/s. Para ter uma ideia, isso 40 vezes mais do que tnhamos h 10 anos, quando utilizvamos
mdulos de memria SDR PC-100 em conjunto com o Pentium III.
Os trs canais operam de forma independente, de forma que o processador pode iniciar uma nova leitura
em um dos mdulos enquanto ainda espera os dados referentes a uma leitura anterior, realizada em outro
mdulo. Isso contribui para reduzir o tempo de latncia do acesso memria, que , proporcionalmente,
muito mais alto nos mdulos DDR3.
Naturalmente, para tirar o melhor benefcio do triple-channel, necessrio usar os mdulos em trios. Ao
usar um nico mdulo, apenas um dos canais ser ativado e, ao usar quatro, o ltimo mdulo compartilhar o
mesmo canal com o primeiro.

111

O problema com o controlador integrado que ele aumentou substancialmente o nmero de contatos do
processador, o que quebrou completamente a compatibilidade com as placas soquete 775.
O Core i7 introduziu o soquete LGA-1366, com quase o dobro de contatos que o LGA-775 do Core 2 Duo.
At mesmo o formato do processador mudou, passando a ser retangular, assim como no antigo Pentium Pro:

2.5.1.3 APRESENTANDO O QPI


Um dos fatores que permitiam que o Core 2 Duo e Core 2 Quad superassem a maioria dos processadores
AMD, clock por clock, o fato de eles serem capazes de processar 4 instrues por ciclo (4 issue), contra 3 dos
processadores AMD. Naturalmente, existem muitos outros fatores a se considerar (a eficincia dos circuitos de
branch prediction, o tamanho e velocidade dos caches e assim por diante), mas as 4 instrues por ciclo
oferecem uma vantagem considervel.
O Nehalem mantm o processamento de 4 instrues, mas adiciona uma srie de refinamentos
arquiteturais, que permitem que as unidades de execuo sejam alimentadas com um volume maior de dados,
reduzindo o tempo em que elas ficam ociosas esperando por dados armazenados nos caches ou pelo resultado
de uma operao de branch prediction, por exemplo. Isso resulta em um ganho de eficincia considervel em
relao ao Penryn.
Alm das mudanas nos caches e a adio do controlador de memria, outra mudana a substituio do
antigo FSB por um barramento aprimorado, batizado de QuickPath Interconnect, ou QPI.
112

O FSB (Front-Side Bus, ou barramento frontal), tem sido utilizado desde os primeiros processadores Intel.
Ele consiste em um barramento compartilhado, que liga o processador ao chipset, como voc pode ver nesse
diagrama da Intel:

Como ele usado no apenas para a comunicao entre os ncleos do processador e a memria, mas
tambm para a comunicao entre os 2 ou 4 ncleos do processador, ele acaba estrangulando o acesso
memria, prejudicando o desempenho do sistema. O problema se agrava ao usar vrios processadores em
SMP, como no caso das placas para servidores, ou na plataforma Skultrail.
At o Penryn, a Intel remediou o problema na base da fora-bruta, simplesmente adicionando mais cache
L2 aos processadores. Com o QuickPath, resolveram atacar a raiz do problema, substituindo o FSB por um
barramento modernizado, composto por links independentes que operam a 4.8 ou 6.4 GT/s (a siga "GT/s"
indica o volume de transaes por segundo, diferente de "GHz", que indica o clock), com a transmisso de 16
bits de dados em cada direo por ciclo, resultando em um barramento de 9.6 ou 12.8 GB/s em cada direo
(25.6 GB/s no total) por linha de dados.
Como a memria agora acessada diretamente pelo controlador de memria, este link fica inteiramente
disponvel para o trfego de I/O. Ao utilizar dois processadores, cada processador passa a se comunicar com o
chipset atravs de uma linha independente e uma terceira linha de dados implantada para coordenar a
comunicao entre os dois:

113

Ao usar 4 processadores (possibilidade que dever ser bem explorada no caso dos servidores de alto
desempenho) so includos barramentos adicionais, que fazem com que cada processador tenha acesso direto
a todos os demais:

Se voc acompanhou a evoluo dos processadores da AMD nos ltimos anos, vai notar uma grande
semelhana entre o QuickPath e o HyperTransport, usado nos processadores AMD. Obviamente, no se trata
de mera coincidncia. A Intel estudou os pontos fortes da soluo da AMD e acabou chegando a uma soluo
adaptada sua arquitetura. Como dizem, a cpia a forma mais sincera de elogio.

2.5.1.4 LOOP STREAM DETECTOR E A VOLTA DO HYPER THREADING


Com relao ao processamento das instrues, uma novidade importante o Loop Stream Detector (LSD),
um controlador adicional que vasculha as instrues decodificadas antes que elas cheguem ao processador,
localizando instrues referentes a loops de processamento.
Em vez de reprocessar as instrues do loop repetidamente, o processar armazena as instrues em um
pequeno cache interno e as executa a partir da. Alm de permitir ganhar tempo, isso reduz sutilmente o
consumo eltrico, pois permite desativar o circuito de branch prediction, juntamente com as unidades fetch e
decode durante o processamento do loop:

114

No Conroe (usado na gerao inicial do Core 2 Duo), a Intel inaugurou o uso do "macro-ops fusion", que
permite que algumas instrues especficas sejam fundidas durante a fase de decodificao e processadas
como uma nica instruo, resultando em um pequeno ganho de desempenho. No Conroe, o macro-ops
fusion funcionava apenas com instrues de 32 bits, mas o Nehalem ganhou suporte fuso de instrues de
64 bits, o que uma boa notcia para quem j fez ou pretende fazer a migrao para um sistema de 64 bits.
O Nehalem marca tambm a volta do Hyper Threading, chamado agora de SMT (Simultaneous MultiThreading) o que faz com que o processador se apresente ao sistema operacional como tendo 8 ncleos em
vez de 4. Naturalmente, o SMT no dobra o desempenho do processador, servindo apenas como um recurso
extra que permite que ele aproveite melhor os recursos de processamento, processando dois threads
simultaneamente, sempre que possvel.
Se voc acompanhou a era do Pentium 4, talvez no tenha boas lembranas do Hyper Threading, j que ele
reduzia o desempenho do processador em algumas operaes e aumentava consideravelmente o consumo
eltrico. No caso do Nehalem, entretanto, a funo passou por uma srie de melhorias, tornando-se mais
eficiente. Alm das otimizaes, alguns outros fatores importantes so:
a) O Nehalem possui um controlador de memria integrado e caches muito maiores, o que garante um
fluxo de dados muito maior. Isso um pr-requisito para uma boa eficincia ao usar o SMT, j que ao
processar dois threads simultaneamente, cada ncleo precisa ser alimentado com dados referentes a
ambos.
b) Hoje em dia temos um volume muito maior de softwares otimizados para o processamento simultneo
de vrios threads, diferente do que tnhamos na poca do Pentium 4.
O ganho ao utilizar o SMT no Nehalem fica abaixo dos 10% na maioria das tarefas (em algumas situaes,
pode haver at mesmo uma pequena perda), mas existem alguns casos especficos onde ele representa
ganhos expressivos, como no caso do 3DMark, onde o ganho chega aos 35%, o que no nada ruim,
considerando que ele consiste em aproveitar ciclos de processamento que de outra forma seriam
desperdiados.
Alm da questo do desempenho, existe tambm um pequeno ganho do ponto de vista do consumo
eltrico, j que ao executar as tarefas de forma mais rpida, o processador passa mais tempo em modo de
baixo consumo. de se observar que a Intel tem utilizado o SMT tambm no Atom, pelo mesmo motivo.

2.5.1.5 GERENCIAMENTO DE ENERGIA E O TURBO BOOST


Ao contrrio do deselegante Kentsfield (usado na primeira gerao do Core 2 Quad), onde todos os
ncleos operam sempre mesma frequncia e usando a mesma tenso, o Nehalem oferece um sistema de
gerenciamento um pouco mais elegante, onde os ncleos continuam operando mesma frequncia, mas
podem ser configurados com tenses diferentes, de acordo com o nvel de utilizao. Os ncleos ociosos so
colocados em um estgio de baixo consumo, onde so quase inteiramente desligados, o que permite que o
processador fique com apenas um dos ncleos ativos ao executar tarefas leves, ativando e desativando os
outros ncleos conforme necessrio.
O gerenciamento feito com a ajuda do PCU (Power Control Unit), um controlador dedicado, que possui
seu prprio firmware e seus prprios circuitos de processamento e dedicado unicamente tarefa de
monitorar as requisies do sistema e os nveis de utilizao dos ncleos, tomando as decises com relao
aos clocks e tenses usadas por cada um.
O PCU ocupa uma rea moderadamente grande do processador, com nada menos do que um milho de
transistores. como se o Nehalem tivesse um 486 integrado, dedicado unicamente ao gerenciamento de
energia.
Outra mudana importante o Turbo Mode, no qual o processador pode aumentar a frequncia de
operao quando apenas alguns dos ncleos esto ativos, em uma espcie de overclock automtico.
115

Tradicionalmente, processadores single-core ou dual-core operam a frequncias ligeiramente superiores


aos processadores quad-core, o que permite que eles deem combate ou at mesmo superem os sucessores
em aplicativos com um baixo nvel de paralelismo, como no caso da maioria dos jogos. Sem dvidas, a Intel
no gosta muito de ver um simples Pentium E overclocado superar um caro Core 2 Quad em alguns testes.
Com o Turbo Boost, o Nehalem pode ser "convertido" em um processador single-core, dual-core ou triplecore em situaes em que o pequeno aumento no clock compense a desativao dos ncleos adicionais,
tapando esta ltima lacuna. Outro ponto de vista seria ter o Turbo Boost como um sistema de overclock
"suportado", que permite que mesmo quem no pensa em fazer overclock possa se beneficiar de uma parte
do potencial oculto do processador.
O aumento da frequncia controlado pelo PCU, que monitora o nvel de utilizao, decidindo em que
situaes ele pode ser aplicado. A regra bsica que o aumento feito apenas em situaes em que resulta
em um ganho tangvel de desempenho (j que aumenta o consumo eltrico) e apenas quando o processador
est operando confortavelmente abaixo do TDP e da temperatura mxima.
Nas verses iniciais, o Turbo Boost capaz de aumentar o clock em duas unidades (266 MHz) caso apenas
um dos ncleos esteja ativo e em apenas 133 MHz caso dois ou mais estejam em atividade, mudana que
feita atravs do aumento do multiplicador (sem afetar a frequncia dos demais componentes).
Nas verses high-end, o Turbo Mode oferece aumentos incrementais, de apenas 133 ou 266 MHz.
Entretanto, as verses de consumo do Core i5 (cujo clock inicial mais baixo) oferecem ganhos mais
generosos. possvel tambm desativar o Turbo Boost atravs do Setup, o que importante ao fazer
overclock, j que com o processador operando mais perto do limite, qualquer aumento adicional pode ser
suficiente para desestabilizar o sistema.
Uma perspectiva sombria que verses mais agressivas do Turbo Boost possam marcar o incio do fim
para os overclocks, j que com o processador passando a ajustar a frequncia de operao dinamicamente
entre, digamos, 2.66 e 4.0 GHz, no far muito sentido arcar com o maior consumo e a necessidade de usar
um cooler superdimensionado para manter o processador trabalhando a 4.0 GHz o tempo todo.

2.5.1.6 OS MODELOS
2.5.1.6.1 B LOOMFIELD (C ORE I 7 S OQUETE LGA-1366)
Um dos motivos por trs das mudanas arquiteturais do Nehalem o mercado de servidores. A
arquitetura do Core 2 Duo e derivados tem origem no Banias, que foi desenvolvido como um chip de baixo
consumo para portteis. Eles oferecem uma relao desempenho/consumo muito boa e so competitivos em
relao aos processadores da AMD, mas o legado mobile pesa em algumas situaes, sobretudo com relao
virtualizao e desempenho em banco de dados (dois nichos importantes dentro da rea dos servidores, nos
quais a AMD ainda permanecia forte em relao ao Penryn).
Com o Nehalem, a Intel trabalhou em eliminar estes gargalos de desempenho, criando uma arquitetura
que pode ser beneficiada por aumentos nos caches e outras melhorias que sero introduzidas com a migrao
para a arquitetura de 32 nanmetros em 2010.
Os primeiros processadores baseados no Nehalem receberam o codenome Bloomfield. Inicialmente, ele
deu origem a apenas trs processadores, o i7-920, i7-940 e o i7-965 XE, que foram seguidos pelo i7-950 e o i7975 XE:
Core i7-975 XE: 3.33 GHz, 8 MB, DDR3-1333, TDP de 130W, multiplicador destravado
Core i7-965 XE: 3.20GHz, 8MB, DDR3-1333, TDP de 130W, multiplicador destravado
Core i7-950: 3.06 GHz, 8 MB, DDR3-1066, TDP de 130W
Core i7-940: 2.93GHz, 8MB, DDR3-1066, TDP de 130W
Corei 7-920: 2.66GHz, 8MB, DDR3-1066, TDP de 130W
116

Como pode ver, os trs processadores oferecem basicamente as mesmas caractersticas, mudando apenas
o clock, que continua estacionado na casa dos 3 GHz, marca que foi atingida na poca do Pentium 4. Isso
acontece devido simples questo da dissipao trmica. Seria possvel fabricar processadores com clock
muito maior com tecnologia atual, mas o consumo e a dissipao trmica seriam inviveis, como ficou bem
claro no final da era Pentium 4.
Um bom exemplo disso a deciso da Intel em utilizar transistores CMOS estticos no Nehalem, em vez de
empregar circuitos domino logic, como em todos os processadores anteriores (at o Penryn). Em resumo, o
domino logic permite obter circuitos capazes de operar a frequncias muito mais altas, mas que em troca
consomem mais energia, enquanto o CMOS resulta em circuitos de baixo consumo.
Esta mudana no traz nenhum benefcio do ponto de vista do desempenho (pelo contrrio, ela limita um
pouco as frequncias suportadas, atrapalhando quem pretende fazer overclocks mais agressivos) mas ela
positiva do ponto de vista da eficincia, permitindo que o processador opere dentro da marca dos 130 watts
de TDP mesmo quando em full-load.
Em outras palavras, a Intel optou por se concentrar em otimizar a arquitetura e em reduzir o consumo dos
processadores, em vez de simplesmente tentar ganhar na base da fora bruta, aumentando o clock.
Como em outros processadores da Intel, o TDP das especificaes indica apenas o consumo mximo dos
processadores, servindo como uma referncia para os fabricantes de coolers, fontes e placas-me, por isso
acaba no sendo muito significativo. Em situaes normais de uso, os recursos de gerenciamento de energia
entram em ao, mantendo o consumo em nveis bem mais baixos.
Outra observao importante com relao frequncia da memria. A Intel foi bastante conservadora
ao adotar o DDR3-1066 como padro nos modelos fora da srie XE, muito embora a maioria dos mdulos no
mercado suportem frequncias muito maiores.
Isso tem um motivo: a preocupao em popularizar rapidamente os mdulos DDR3, abrindo assim o
caminho para o crescimento da plataforma. A popularizao de qualquer nova tecnologia passa pelo
crescimento da produo e a queda do custo e mdulos DDR3-1066 so muito mais simples e baratos de se
produzir do que mdulos mais rpidos.
Outro motivo por trs da deciso tem a ver com as tenses. Quase todos os mdulos capazes de operar a 2
GHz ou mais utilizam tenses acima de 2 volts, muito acima da tenso nominal dos mdulos DDR3 que de
apenas 1.5V. Assim como no caso dos processadores, aumentar a tenso da memria permite que os mdulos
sejam capazes de operar a frequncias um pouco mais altas, mas traz como desvantagens o aumento no
consumo eltrico e uma reduo substancial na vida til dos mdulos.
A corrida em torno de mdulos DDR3 mais rpidos, destinados ao pblico entusiasta fez com que os
fabricantes passassem a vender mdulos overclocados, privilegiando a frequncia e o desempenho em
benchmarks, em detrimento da vida til dos mdulos.
Com o i7, a Intel resolveu "comear de novo", incentivando os fabricantes a produzirem mdulos mais
lentos, porm capazes de trabalhar dentro das tenses nominais. Naturalmente, possvel usar mdulos mais
rpidos ou mesmo fazer overclock da memria; entretanto, a Intel passou a advertir que o uso de tenses
acima de 1.65V nos processadores da plataforma Core i7 pode danificar o controlador de memria depois de
algum tempo de uso, inutilizando o processador.
2.5.1.6.2 L YNNFIELD (C ORE I 5 E I 7 S OQUETE LGA-1156)
Muitos dos recursos introduzidos pelo Nehalem, incluindo a possibilidade de usar 4 processadores (nada
menos do que 16 ncleos) so destinados ao mercado de servidores, onde cresce a demanda por mquinas
capazes de rodar centenas de mquinas virtuais simultaneamente e de processar bancos de dados com vrios
gigabytes em tempo hbil.
117

Em um desktop, o uso de mltiplos processadores no faz tanto sentido (afinal, poucos aplicativos so
capazes de utilizar todo o potencial de 4 ncleos, o que dizer de 16), o que faz com que a discusso recaia mais
sobre os ganhos de desempenho dos Core i7 em relao aos processadores anteriores. As mudanas
introduzidas pelo Nehalem so positivas mas, para a maioria, o mais importante acaba sendo o custo.
Com isso, chegamos ao Lynnfield, uma verso desktop do Nehalem, que deu origem ao Core i5 e aos Core
i7 da srie 8xx, verses quad-core mais baratas, que complementam os modelos da srie 9xx e 9xx XE
baseados no Bloomfield. Eles utilizam um controlador de memria dual-channel, abandonam o suporte a
mltiplos processadores e so vendidos sob frequncias ligeiramente mais baixas.

Embora a arquitetura do processador continue sendo basicamente a mesma, o lanamento do Lynnfield


acabou sendo mais importante que o das verses iniciais, simplesmente por que as verses baseadas nele so
mais baratas e por isso vendidas em um volume muito maior.
primeira vista, pode parecer que o Lynnfield apenas uma verso castrada do Core i7, obtido atravs da
desativao de alguns componentes, mas na verdade trata-se de um chip consideravelmente diferente, que
produzido em uma linha separada.
Uma das modificaes mais evidentes o uso de um controlador de memria DDR3 dual-channel em vez
do controlador triple-channel do Core Bloomfield, uma mudana introduzida para diferenciar as duas
plataformas e ao tempo reduzir o custo dos PCs baseados no Lynnfield, eliminando a tentao de usar 3
mdulos de memria em vez de dois.
primeira vista, parece uma reduo significativa (afinal o terceiro canal corresponde a 1/3 da banda total
com a memria), mas na prtica a diferena relativamente pequena, j que o grande cache L3 e a boa taxa
de transferncia dos mdulos DDR3 atenuam bastante a necessidade de um barramento mais largo. O
principal problema so os tempos de latncia, que no tm uma relao direta com o nmero de canais.
Com um canal a menos no controlador de memria, o nmero de contatos do processador foi reduzido, o
que levou outra caracterstica importante, que a adoo do soquete LGA1156 que passa a coexistir com o
LGA1366 usado pelas verses high-end do Core i7. Os dois so bem similares, mas o menor nmero de
contatos faz com que o LGA1156 seja menor e tenha uma aparncia mais quadrada, praticamente do mesmo
tamanho que um soquete LGA775:

118

O mesmo se aplica tambm aos processadores, que so menores que os Core i7 baseados no Bloomfield,
muito embora conservem a mesma aparncia bsica e o mesmo layout sem pinos que a Intel vem utilizando
desde a migrao para o sistema LGA.
Junto com o Lynnfield, a Intel anunciou uma nova srie de modelos: os Core i5. Ao contrrio do que se
esperava inicialmente, a diviso entre os Core i5 no feita com base na arquitetura (ou seja, nem todos os
Core i5 so baseados no Lynnfield e nem todos os i7 so baseados no Bloomfield), mas sim, com base no
nmero de ncleos e no suporte a SMT (o Hyper Threading). Basicamente, com 4 ncleos e o suporte a SMT
ativo voc tem um Core i7; e, com 4 ncleos e o suporte a SMT desativado, voc tem um Core i5.
O Lynnfield usado tanto no Core i5-750 quanto nos Core i7-860 e Core i7-870. Os trs processadores so
quad-core, possuem os mesmos 8 MB de cache L3 e utilizam o soquete LGA1156, entretanto o Core i5-750
vem com o SMT desativado, e justamente isso o que sela a diferena entre as duas famlias:
Core i5-750: 2.66 GHz (2.13 GHz para o uncore), 8 MB, DDR3, TDP de 95W.
Core i7-860: 2.8 GHz (2.4 GHz para o uncore), 8 MB, DDR3, SMT, TDP de 95W.
Core i7-870: 2.93 GHz (2.4 GHz para o uncore), 8 MB, DDR3, SMT, TDP de 95W.
Embora seja desejvel, o SMT no um recurso to importante em desktops quanto pode parecer
primeira vista, j que o nmero de aplicativos capazes de utilizar 8 ncleos lgicos de maneira eficiente
pequeno. Com exceo de aplicativos de renderizao, compresso de arquivos e outros casos especficos, o
ganho oferecido pelo SMT pequeno, diferente do que temos no caso dos servidores.
Outra pequena diferena que o i5-750 utiliza uma frequncia ligeiramente mais baixa para o uncore
(lembre-se, o uncore inclui o controlador de memria, o cache L3 e todos os outros componentes externos aos
cores do processor), o que afeta tambm a frequncia do cache L3, representando uma pequena reduo
adicional no desempenho.
Assim como no caso dos Phenom e Phenom II (onde chamado de North Bridge), o uncore utiliza tenses
prprias e opera sempre uma frequncia mais baixa que as unidades de processamento, o que significa um
cache L3 relativamente lento. O principal motivo disso o uso de transistores de chaveamento lento (similares
aos que a Intel j vinha utilizando em processadores de baixo consumo) que no so capazes de operar a
frequncias muito altas, mas que em compensao, gastam muito menos energia. Como o uncore representa
mais da metade da rea total do processador, a reduo acaba sendo bem significativa.
Diferente do que tnhamos na poca do Pentium 4, o principal limitante para a frequncia de operao dos
processadores no mais a arquitetura, mas sim a dissipao trmica. Ao reduzir a dissipao, possvel
atingir frequncias de clock mais altas, compensando a perda de desempenho causada pelo cache L3 mais
lento.
Continuando, o Lynnfield introduziu tambm uma verso mais agressiva do Turbo Boost, que um dos
recursos de maior impacto sobre o desempenho direto. Enquanto no Bloomfield o Turbo Boost oferecia um
119

aumento modesto, de apenas 133 MHz, no Lynnfield ele capaz de aumentar a frequncia do processador em
at 666 MHz, de acordo com o nmero de cores ativos.
Os degraus disponveis variam de acordo com o modelo. No Core i5-750 (que utiliza uma frequncia base
de 2.66) o clock pode subir para 2.8 GHz com 4 ou 3 ncleos ativos e para 3.2 GHz com 2 ou apenas 1 ncleo
ativo.
No Core i7-860 (2.8 GHz) temos 2.93 GHz com 4 ou 3 ncleos, 3.33 GHz com 2 ncleos e 3.46 GHz com
apenas um ncleo. No Core i7-870 a distribuio similar, com 3.2 GHz (4 ou 3 ncleos), 3.46 GHz (2 ncleos)
e 3.6 GHz (1 ncleo).
Veja que nos trs casos a frequncia pode subir em 133 MHz (266 MHz no caso do i7-870) mesmo com os
4 ncleos ativos, desde que o consumo atual e a temperatura no superem os limites estabelecidos. Como de
praxe, voc pode acompanhar a frequncia atual do processador usando o CPUID ou outros softwares de
diagnstico, mas a maior parte dos chaveamentos ocorre muito rpido, com o processador aumentando a
frequncia para cobrir um rpido pico de consumo e em seguida voltando frequncia normal.
Alm de jogos e aplicativos single-thread em geral (onde o processador pode manter apenas um ou dois
ncleos ativos), aplicativos que utilizam predominantemente alguns componentes do processador (como os
aplicativos de renderizao e converso de vdeo, que usam predominantemente as unidades SSE), tambm se
beneficiam consideravelmente do Turbo Boost, j que o PCU pode desligar outros componentes do
processador (reduzindo o consumo) e aumentar a frequncia das unidades ativas nos 133 ou 266 MHz
permitidos, mesmo sem desativar nenhum dos ncleos.
O lado ruim que o uso do Turbo Boost introduz um grande fator de incerteza no desempenho do
processador, pois as frequncias so definidas no apenas pelo tipo de tarefas que esto sendo executadas (e
consequentemente o nmero de ncleos em uso) mas tambm pela temperatura atual do processador, que
por sua vez determinada pela temperatura ambiente (que flutua ao longo do dia e de acordo com as estaes
do ano) e pelo cooler usado. Basicamente, o processador passa a tentar apresentar o melhor desempenho
possvel dentro do TDP e da temperatura estabelecida, em vez de oferecer um desempenho constante, como
nas geraes anteriores.
Isso abre margem para muitos casos
estranhos, de PCs com configuraes
idnticas apresentando desempenhos
diferentes devido diferenas na
temperatura ambiente, na ventilao do
gabinete ou aos aplicativos ativos, sem
falar em histrias de coolers milagrosos,
que aumentaram o desempenho do PC
em 10% mesmo sem fazer overclock e
PCs que ficam lentos durante o vero...
Do outro lado da moeda, temos a
possibilidade de desativar o turbo mode e simplesmente fazer overclock. Nesse caso as coisas se tornam muito
mais previsveis e o processador volta a exibir um desempenho constante, independentemente da
temperatura e do consumo.
A desvantagem nesse caso que o consumo eltrico passa a ser muito mais alto, complicando a escolha. O
grande mrito do turbo boost justamente o fato de oferecer um pouco mais de desempenho, sem aumentar
muito o consumo ou comprometer o gerenciamento de energia do processador.
2.5.1.6.3 C LARKDALE (C ORE I 5, I 3 E P ENTIUM G S OQUETE LGA-1156 V IDEO I NTEGRADO )
Podemos dividir o plano de integrao da Intel para os processadores derivados do Nehalem em trs fases:
120

a) A integrao do controlador de memria (Bloomfield).


b) A integrao do restante da ponte norte do chipset (Lynnfield).
c) Integrao do chipset de vdeo (Clarkdale).
Vamos ento terceira etapa. Como pode notar pela sequncia, a Intel comeou a migrao com os
processadores de alto desempenho, depois passou para a linha mainstream (que na famlia anterior seria
composta pelos PCs com os chipsets P35 e P45, onde usada uma placa 3D dedicada) e finalmente chegou aos
PCs de baixo custo, substituindo os PCs baseados nas placas com vdeo integrado.
Embora tecnicamente o Clarkdale ainda seja parte da famlia Nehalem, ele incorpora muitas mudanas, a
comear pelo fato de ser um processador dual-core. Por ser menor e mais fcil de produzir, ele acabou sendo
o primeiro processador da Intel a ser produzido usando a nova tcnica de 32 nm, o que resultou em uma
reduo significativa no tamanho e no custo de produo do processador.
Em outras pocas, a reduo seria acompanhada tambm de uma dramtica reduo no consumo eltrico
e uma grande margem de overclock, mas infelizmente estes tempos j passaram. O Clarkdale mais eficiente
que os modelos de 45 nm, mas a diferena no consumo por ncleo no to dramtica e as frequncias em
overclock continuam estacionadas na casa dos 4.0 GHz.
A caracterstica marcante do Clarkdale o fato de ele ser um processador dual-chip. Em vez de integrar
todos os circuitos diretamente no ncleo do processador, a Intel optou por criar um chip separado, contendo o
chipset de vdeo, as linhas PCI Express e o controlador de memria, que ligado ao processador atravs de um
link QPI.
Em outras palavras, a Intel regrediu para uma arquitetura baseada no uso de um chip separado para a
ponte norte do chipset, similar ao que temos no Core 2 Duo. A nica diferena que agora a ponte norte do
chipset est integrada diretamente ao processador:

Core i3 baseado no Clarkdale e o processador com o spreader removido.


Ao contrrio do que poderia parecer primeira vista, o chip maior o que inclui a GPU e no o
processador principal, como mostra este diagrama a seguir, fornecido pela Intel. Voc pode notar que a maior
parte do espao dentro do segundo chip consumido pelo chipset grfico propriamente dito, ilustrando as
dificuldades em integrar GPUs dentro de processadores (j que mesmo uma GPU de baixo desempenho acaba
consumindo quase tantos transistores quanto o processador propriamente dito). O processador em si usa um
layout convencional, com dois ncleos (256 KB de cache L2 em cada) e um cache L3 compartilhado:

121

Essa combinao permitiu que a Intel combinasse a produo das fbricas de 45 e 32 nm, mas ao mesmo
tempo trouxe uma limitao bvia, que o fato de que o controlador de memria voltou a ser separado,
negando os ganhos obtidos anteriormente com o Bloomfield e o Lynnfield. A GPU passou a ficar com a
primeira mordida e o processador passou a ficar com as sobras. Isso se traduziu em tempos de latncia na casa
dos 75ns, muito acima dos 51ns oferecidos pelo Lynnfield. Em processador com pouco cache esta
desvantagem poderia ser catastrfica, mas o Clarkdale consegue sair mais ou menos impune devido ao cache
L3 bem dimensionado.
Os modelos do Clarkdale se espalham entre sries do Core i5 e do Core i3, alm do Pentium G:
Core i5-670: 3.46 GHz (turbo 3.76 GHz), GPU a 733 MHz, 2 cores+SMT, 4 MB, TDP de 73W.
Core i5-661: 3.33 GHz (turbo 3.6 GHz), GPU a 900 MHz, 2 cores+SMT, 4 MB, TDP de 87W.
Core i5-660: 3.33 GHz (turbo 3.6 GHz), GPU a 733 MHz, 2 cores+SMT, 4 MB, TDP de 73W.
Core i5-650: 3.2 GHz (turbo 3.46 GHz), GPU a 733 MHz, 2 cores+SMT, 4 MB, TDP de 73W.
Core i3-540: 3.06 GHz (sem turbo), GPU a 733 MHz, 2 cores + SMT, 4 MB, TDP de 73W.
Core i3-530: 2.93 GHz (sem turbo), GPU a 733 MHz, 2 cores + SMT, 4 MB, TDP de 73W.
Pentium G9650: 2.8 GHz, GPU a 533 MHz, 2 cores (sem SMT), 3 MB, TDP de 73W.
Todos os processadores oferecem o mesmo pacote bsico, com dois ncleos (cada um com 256 KB de
cache L2) e cache L3 compartilhado, uma espcie de meio Bloomfield. A diferena est nos detalhes.
Os modelos dentro da srie i5 oferecem o pacote completo, com suporte ao Turbo Mode (embora bem
menos agressivo que no Lynnfield), 4 MB de cache e suporte ao SMT, o que permite que o processador
processe 4 threads simultaneamente, oferecendo parte dos benefcios de um processador quad-core. A
diferena entre o i5-660 e o i5-661 que o 661 oferece um clock mais alto para o chipset de vdeo, o que
resulta em um desempenho 3D e tambm um TDP ligeiramente mais alto.
Descendo para a linha Core i3, os clocks so mais baixos e perde-se suporte ao Turbo Mode. Em troca, eles
so muito mais baratos e possvel cobrir a diferena de desempenho via overclock.
122

Na base da pirmide temos o Pentium G, que assume o papel de processador de baixo custo, como
sucessor do Pentium E. Alm de no oferecer o Turbo Mode, ele exclui o suporte ao SMT e oferece apenas 3
MB de cache L3. Ele pode ainda oferecer um desempenho bastante respeitvel em overclock, mas as margens
tendem a ser mais baixas que nos outros modelos, j que eles representam as sobras de produo, depois do
processo de binning. Outra desvantagem do Pentium G que o chipset de vdeo opera a apenas 533 MHz.
Embora seja um processador dual-core, o Clarkdale capaz de dar combate aos processadores quad-core
em muitas situaes devido ao suporte a SMT. No caso dos Core i5 isso acaba no sendo to significativo (j
que de qualquer forma eles custam o mesmo que muitos processadores quad-core), mas isso fortalece
bastante a posio dos Core i3, que so capazes de superar verses com clock consideravelmente superior ao
do Phenom II X4, alm de ganharem por uma boa margem dos antigos Core 2 Duo. Voc pode ver alguns
benchmarks no:
http://www.tomshardware.com/reviews/intel-clarkdale-core-i5-661,2514-8.html
http://techreport.com/articles.x/18216/6
http://www.anandtech.com/cpuchipsets/showdoc.aspx?i=3704&p=7
http://hothardware.com/Articles/Intel-Clarkdale-Core-i5-Desktop-Processor-Debuts/?page=7
http://www.neoseeker.com/Articles/Hardware/Reviews/intel_core_i5_661/4.html
Todos os modelos do Clarkdale usam placas soquete LGA1156, mas existem algumas particularidades. A
mais bvia que as placas baseadas no chipset P55 no so capazes de usar o vdeo integrado, j que elas
carecem da interface e dos conectores necessrios. Os processadores com o vdeo integrado possuem um pino
a menos (ou seja, possuem apenas 1155 pinos), o que sinaliza a presena do vdeo integrado para a placa-me.
O sinal de vdeo transportado do processador para a placa-me atravs de um link FDI (Flexible Display
Interface), um barramento simples, destinado a transportar o sinal digital at os circuitos de sada. Ele
suportado pelos chipsets H55, H57 e Q57, lanados em conjunto com os novos processadores.
Com exceo da incluso do link FDI, estes trs chipsets so muito similares ao P55. As diferenas so to
poucas que a prpria necessidade de existirem 4 chipsets, em vez de um nico modelo, contestvel. De fato,
o principal motivo para a segmentao no tcnico e sim a segmentao da Intel entre produtos para
estao de trabalho, mainstream e business.
O H55 a verso base, com 12 portas USB 2.0, 6 portas SATA-300 e suporte a um nico slot PCIe x16. O
H57 inclui duas portas USB adicionais (14 no total) e suporte ao Rapid Storage (RAID), enquanto o Q57
adiciona suporte ao AMT (Intel Active Management Technology), com suporte ao vPro e s funes de
gerenciamento remoto oferecidas por ele, similar ao que temos no caso dos chipsets Q35 e Q45. Excluindo
estas diferenciaes artificiais, os trs chipsets so verses glorificadas do velho chip ICH10, assim como o P55.
O suporte a dois slots PCI Express est disponvel oficialmente apenas no P55, muito embora os fabricantes
de placas tenham logo aprendido a burlar a limitao, lanando placas baseadas no H57 com dois slots x16 (8
linhas de dados cada), como no caso da Asus P7H57D-V EVO.
Temos aqui o tradicional diagrama de blocos da plataforma. Assim como no Lynnfield, o processador utiliza
um controlador de memria DDR3-1333 dual-channel, com 16 linhas PCI Express. A ligao com o chipset
feita atravs do tradicional barramento DMI, combinado com o FDI, que transporta o sinal de vdeo. Alm das
linhas PCIe integradas ao processador (que so dedicadas aos slots de vdeo), o chipset oferece mais 6 (no
H55) ou 8 linhas (nos demais modelos) que so usadas pelos slots x1 ou x4 da placa-me e pelos demais
perifricos.

123

A principal evoluo em relao aos chipsets para a famlia Core 2 Duo est no chipset de vdeo integrado
(chamado agora de "HD Graphics"), que recebeu uma boa retfica. Mesmo os mais otimistas no conseguiro
afirmar que ele "rpido", mas pelo menos o desempenho passou a ser competitivo em relao aos chipsets
integrados da nVidia e da AMD, oferecendo uma plataforma para jogadores ocasionais.
O HD Graphics recebeu duas unidades de processamento, elevando o total para 12 (contra as 10 do GMA
X4500HD). Combinado com outras pequenas melhorias, isso resultou em um ganho clock por clock na casa dos
20%.
O clock varia de acordo com o modelo, sendo de 900 MHz no Core i5-661, 733 MHz nas demais verses do
i5 e i3 e 533 MHz no Pentium G, mas em todos existe a possibilidade de fazer overclock, atravs do Setup,
elevando a frequncia para 1.0 GHz ou mais.
A boa margem de overclock acaba sendo o principal argumento a favor do HD Graphics, j que permite
que voc obtenha um desempenho consideravelmente superior ao oferecido por um 790GX. possvel, por
exemplo, jogar o Left4Dead 2 a 1280x800 na casa dos 30 FPS, com as configuraes grficas no mnimo, sem
falar de jogos mais antigos. Embora poucos jogadores regulares se contentem com um desempenho to baixo,
temos um nmero muito maior de jogadores ocasionais, que raramente vo alm do oferecido pelo vdeo
integrado. Para eles o HD Graphics sem dvidas uma evoluo bem-vinda.
Concluindo, temos o Braidwood, uma tecnologia disponvel nos chipsets H57, P57 e Q57, que funciona
como uma espcie de verso turbinada do ReadyBoost, que a Intel tentou popularizar sem muito sucesso em
2007. O Braidwood consiste no uso de um mdulo memria NVRAM, destinado a funcionar como um cache
adicional para operaes de acesso a disco, servindo como uma alternativa para melhorar o desempenho de
acesso, sem precisar migrar para um SSD:

124

As principais diferenas entre o Braidwood e o antigo Readyboost, so o uso de mdulos com uma
capacidade muito maior (8 ou 16 GB) e o uso de um algoritmo de cache mais eficiente, duas melhorias que
devem trazer ganhos mais tangveis. Entretanto, o futuro do Braidwood ainda incerto, j que os mdulos no
sero baratos e eles enfrentaro a concorrncia dos SSDs de baixo custo, que comeam a inundar o mercado.
2.5.1.6.4 G ULFTOWN (S IX C ORE )
Com a popularizao dos processadores dual-core e quad-core, o caminho evolutivo natural so os
processadores hexa-core e octo-core, que j comeam a roubar a cena. Os dois principais motivos para a
existncia deles so os mesmos que iniciaram a corrida em torno dos processadores dual-core em 2005:
a) O limite vivel para o clock dos processadores continua estacionado na casa dos 3 a 4 GHz, sem
grandes mudanas desde o Pentium 4.
b) Projetar processadores com mais unidades de execuo dispendioso e eles exigiriam profundas
modificaes nos softwares. Criar processadores com mltiplos ncleos muito mais simples.
Lanado em maro de 2010, o Gulftown o sucessor do Bloomfield como processador domstico de alto
desempenho da Intel, oferecendo 6 ncleos em um nico die.
Em vez de criar um novo encaixe e uma nova famlia de processadores, a Intel manteve o Gulftown de 6
ncleos compatvel com as placas soquete LGA-1366 baseadas no chipset X58. Desde que voc atualize o BIOS,
possvel usar mesmo as primeiras placas, lanadas em 2008. Isso posiciona o Gulftown como um upgrade
direto para quem anteriormente investiu em um Core i7 baseado no Bloomfield.
Em termos de transistores, o Gulftown o maior processador j fabricado pela Intel, com brutais 1.17
bilhes de transistores. Para colocar as coisas em perspectiva, tenha em mente que o Core 2 Duo original
possui 291 milhes e o Pentium III Coppermine apenas 21 milhes.
Apesar disso, graas nova tcnica de produo de 32 nm, o Gulftown menor que os antecessores,
medindo apenas 240 mm, contra os 263 mm do Bloomfield e os 296 mm do Lynnfield.
Alm de possuir 6 ncleos, o Gulftown compatvel com o Hyper Threading, o que permite o
processamento de nada menos que 12 threads simultaneamente (como os monitores de sistema fazem
questo de lembrar), entretanto, com tantos ncleos fsicos, o benefcio bem menor do que temos nos
processadores dual-core:

Inicialmente, o Gulftown deu origem a uma nica verso, o Core i7 980X, de 3.33 GHz. Assim como outros
processadores da srie Extreme ele vem com o multiplicador destravado, permitindo que voc explore
livremente as possibilidades de overclock (desativando o Turbo Mode possvel superar facilmente os 4.0
GHz). O grande problema que ele herdou tambm o preo de US$ 999, anteriormente envergado por outros
processadores da srie.
Core i7 980X: 6 ncleos (12 threads), 3.33 GHz, 12 MB, TDP de 130W.
Assim como nos demais Core i7, o 980X capaz de usar o Turbo Mode, elevando a frequncia para 3.6 GHz
com um nico ncleo ativo, ou 3.46 GHz com dois ou mais ncleos.
125

O Gulftown uma expanso direta da arquitetura do Bloomfield, com 256 KB de cache L2 por ncleo e um
grande cache L3 compartilhado entre todos:

Para manter a mesma proporo de espao por ncleo, a Intel expandiu o L3 de 8 para 12 MB. O grande
problema que a expanso aumentou o tempo de acesso de 44 para 48 ciclos, o que elimina uma fatia
considervel do ganho em muitas tarefas. Outro limitante o fato de o controlador de memria triple-channel
suportar (oficialmente) apenas memrias DDR3-1066, assim como no Bloomfield.
Como voc pode notar no diagrama, o Gulftown no inclui as linhas PCI Express (como no Lynnfield) e nem
o controlador de vdeo integrado, como no Clarkdale, relegando estes recursos s linhas de processadores
intermedirios. Embora a integrao no processador ajude a reduzir os custos de produo (custo de produo
mais baixo + preo de venda constante = lucro), ela no necessariamente benfica do ponto de vista do
desempenho, j que os circuitos continuam sendo fundamentalmente os mesmos.
Como o Gulftown a arquitetura destinada aos
PCs de alto desempenho, faz mais sentido para a
Intel empregar os transistores nos ncleos e cache,
deixando para incluir as linhas PCI Express no
chipset. A desvantagem da abordagem que ela
mantm a existncia de duas plataformas
independentes, com o LGA1366 para a linha de alto
desempenho e o LGA1156 para os demais
processadores.
Assim como no Lynnfield, o Gulftown capaz de
desativar o cache L3 nos momentos de inatividade,
o que reduz consideravelmente o consumo quando
o processador est ocioso. Graas a isso, ele oferece
um consumo de apenas 6 watts quando ocioso (similar ao do Bloomfield), mesmo com mais ncleos
(naturalmente, o consumo total do PC muito mais alto, em torno dos 100 watts, j que as funes avanadas
de gerenciamento no se estendem ao chipset, mdulos de memria e outros componentes).
Apesar disso, o consumo em full-load de respeitveis 138 watts, o que torna o cooler e a ventilao um
fator importante, uma vez que a temperatura de operao um dos fatores que o controlador PCU leva em
conta ao decidir entre ativar ou no o Turbo Mode. Isso fica claro pela preocupao da Intel em incluir um
cooler em formato de torre, indito entre os processadores boxed. Ele utiliza uma base de reteno (que torna
necessrio remover a placa-me para instalar o cooler) e inclui um switch para a velocidade de rotao
("Quiet" e "Performance").
126

O Gulftown tambm compatvel com o AES-NI, o novo conjunto de instrues destinado a melhorar o
desempenho em operaes de encriptao e desencriptao usando algoritmos baseados no AES, reduzindo a
perda de desempenho ao encriptar o HD usando o Bitlocker do Windows 7 ou ao gerar arquivos encriptados
no WinRAR. Este recurso foi inicialmente disponibilizado no Clarkdale (Core i3 e i5).
Com relao aos aplicativos, a posio do Gulftown bem melhor que a dos primeiros processadores
quad-core que chegaram ao mercado, j que atualmente a base de aplicativos otimizados muito grande.
Hoje em dia, mesmo jogos so capazes de tirar proveito de mltiplos ncleos e aplicativos de renderizao
oferecem ganhos de desempenho quase que lineares.
Se comparado ao Core i7 775 (tambm de 3.33 GHz, porm com 4 ncleos), o Core i7 980X 16% mais
rpido no Photoshop CS4, 32% mais rpido no Cinebench R10 e 46% mais rpido ao codificar vdeos em x264.
Os ganhos so mais modestos em outros aplicativos (9% no WinRar 3.8 e 6% no Left 4 Dead, por exemplo)
e existem at alguns casos em que o desempenho ligeiramente inferior devido aos tempos de latncia mais
altos do cache L3, mas inegvel que os 6 ncleos do Gulftown oferecem ganhos tangveis na maioria dos
aplicativos. Voc pode ver benchmarks no:
http://www.anandtech.com/showdoc.aspx?i=3763&p=6
http://www.firingsquad.com/hardware/intel_core_i7-980x_extreme_edition/page4.asp
http://www.tomshardware.com/reviews/core-i7-980x-gulftown,2573-5.html
http://www.bit-tech.net/hardware/cpus/2010/03/11/intel-core-i7-980x-extreme-edition-review/4
http://www.bjorn3d.com/read.php?cID=1801&pageID=8542
A principal questo , como sempre, considerar se os ganhos so suficientes para justificar o custo. Esta
uma questo muito pessoal, j que varia de acordo com o cenrio de uso. Para um designer ou engenheiro, o
ganho de produtividade trazido pela reduo nos tempos de renderizao dos projetos pode justificar com
folga o investimento, enquanto que um gamer vai chegar concluso de que os 141 FPS a 1680x1050 no
Left4Dead no fazem sentido, j que esto bem acima dos 60 Hz de refresh do monitor.
Com 6 cores, o velho argumento do desempenho em multitarefa tambm comea a deixar de fazer tanto
sentido, pois no comum que algum execute mais do que duas ou trs tarefas pesadas simultaneamente.
No dia a dia, comum que voc queira jogar ou assistir um filme enquanto o PC renderiza um projeto ou
converte vdeos em segundo plano por exemplo. Este um cenrio onde tivemos um grande ganho ao migrar
127

de processadores single-core para dual-core e mais um ganho considervel ao migrar para os quad-core. A
partir da, entretanto, o ganho comea a se tornar cada vez mais incremental.

2.5.2 RESUMO DOS PROCESSADORES DESKTOP NAHALEM: INTEL I3, I5 E I7 DE PRIMEIRA GERAO
Codinome

Mercado

Bloomfield

Entusiasta

Lynnfield

Ncleos
/
Threads
4 (8)

Perform.

Soquete

Marca e Modelo
do Processador

LGA
1366

Core i7
Extreme

975
965

Core i7

960
950
940
930
920
880
875K
870
870S
860
860S
760
750
750S

LGA
1156

4 (4)

Core i5

CPU
Clock
(GHz)
3.33
3.2

Turbo

TDP
(W)

Interfaces
Chipset Memria

Cache
L3

Data de
Lanamento

$$$

Sim

130

1 QPI
6.4
GT/s
1 QPI
4.8
GT/s

8 MB

2009-05-31
2008-11-17

$999

2009-10-20
2009-05-31
2008-11-17
2010-02-28
2008-11-17
2010-05-30

$562

3.2
3.06
2.93
2.8
2.66
3.06
2.93

Sim

95

2.66
2.8
2.53
2.8
2.66
2.4

DMI

3 DDR31066

2 DDR31333

2009-09-08
2010-07-19
2009-09-08
2010-01-07
2010-07-17
2009-09-08
2010-01-07

82
95
82
95
95
82

$294
$284
$583
$342
$562
$351
$284
$337
$209
$196
$259

Fonte: http://en.wikipedia.org/wiki/Nehalem_%28microarchitecture%29#Server_.2F_Desktop_Processors
Codinome

Mercado

Gulftown /
WestmereEP

Extreme
/
Perform.

Clarkdale

Mainst./
Value

Ncleos
/
Threads
6 (12)

2 (4)

Soquete

Marca e Modelo do
Processador

LGA
1366

Core
i7 990X
Extreme
980X
Core i7
970

LGA
1156

Core i5

Core i3

2 (2)

Pentium
Celeron

680
670
661
660
650
560
550
540
530
G6950
G1101

Clock
Core
GPU
(GHz)
(MHz)
3.46
N/A
3.33
3.2
3.6
3.46
3.33
3.2
3.33
3.20
3.06
2.93
2.8
2.26

Turbo

TDP
(W)

Sim

130

733

73

900
733

87
73

Interfaces
Chipset
Mem
1
QPI
6.4 GT/s
1
QPI
4.8 GT/s
DMI

Cache
L3

3
DDR31066

12 MB

2
DDR31333

4 MB

No

533

Data de
Lanamento
2011-Q1
2010-03-16
2010-07-17

$999

2010-04-18
2010-01-07

$294
$284
$196

2010-08-29
2010-05-30
2010-01-07
2
DDR31066

$$$

3 MB
2 MB

$885

$176
$138
$133
$113
$87
OEM

Fonte: http://en.wikipedia.org/wiki/Nehalem_%28microarchitecture%29#Server_.2F_Desktop_Processors_2

2.5.3 A ARQUITETURA INTEL SANDY BRIDGE (INTEL CORE i DE 2 GERAO)


E eis que a Intel mantem seu ciclo tick-tock, um sistema de desenvolvimento acelerado, apresentando
novas tcnicas de produo e novas arquiteturas em anos alternados Com isso, tivemos o Penryn em 2007
(mesma arquitetura do Conroe, porm a 45 nm), o Nehalem em 2008 (45 nm, porm nova arquitetura), o
Westmere em 2009 (refresh de 32 nm no Nahalem) e agora o Sandy Bridge, que mantm os 32 nm dos
primeiros Core i3/i5/i7 porm introduz uma nova arquitetura, baseada no uso de uma GPU integrada, que
ocupa uma parcela considervel do die (ncleo) do processador:

128

O Sandy Bridge entra substituindo de imediato os Core i5 baseados no Clarkdale, bem como parte da linha
Core i7 no mercado high-end, deixando apenas os modelos baseados no Gulftown de 6 ncleos, que continua
a ser o topo de linha dentro da linha da Intel, mantendo de p o soquete LGA-1366. O Sandy Bridge substitui
tambm os Core i3 baseados no Clarkdale (que sero aposentados assim que a Intel conseguir produzir os
novos modelos em volume suficiente) e que est substituindo tambm os Pentium e Celeron nas linhas de
baixo custo, aposentando o soquete T. Se tudo der certo a Intel voltar muito em breve a ter uma linha
unificada de processadores, baseada quase que unicamente em variaes do Sandy Bridge, espetadas em
placas soquete LGA-1155:

Embora os ganhos prticos no sejam to grandes quanto pode parecer primeira vista (a menos que voc
pretenda comprar o desempenho da GPU integrada com o dos antigos chipsets da famlia X3000) as mudanas
de arquitetura so muito grandes, representando o maior conjunto de mudanas desde o Conroe em 2006.
Vale pena perder algum tempo entendendo todos os detalhes da arquitetura do Sandy Bridge, j que ele
servir de base para os processadores Intel dos prximos anos:

A principal mudana introduzida pelo Sandy Bridge a integrao com a GPU, que assim como no AMD
Fusion (a ser considerada mais a frente) foi movida do chipset para dentro do processador. Esta foi uma
mudana realizada em trs fases, comeando com a integrao da ponte norte do chipset no processador
realizada no Bloomfield, seguida pela integrao parcial da GPU no Clarkdale (que foi movida para dentro do
encapsulamento do processador, mas permaneceu como um chip separado) e sendo concluda no Sandy
129

Bridge, onde a GPU foi finalmente integrada ao die do processador. Um leitor atento vai notar a similaridade
com os passos executados pela AMD no Fusion, o que naturalmente no mera coincidncia.

2.5.3.1 O QUE MUDOU


Dentro do processador, as mudanas comeam com a incluso do Decoped Uop Cache, um cache "L0" que
armazena 1.500 instrues decodificadas (equivalente a 6 KB de dados). Ele trabalha em conjunto com o Loop
Stream Detector (LSD), introduzido no Bloomfield, que detecta quando o processador est executando um
loop de instrues e desliga o circuito de branch prediction, juntamente com as unidades de fetch e decode
durante o processamento do loop. O Loop Stream Detector no melhora o desempenho, mas ele permite que
o processador economize energia, o que atualmente um fator to importante quanto. O cache de instrues
leva a economia a um novo nvel, permitindo que o processador desligue tambm as unidades de
decodificao de instrues enquanto est utilizando as instrues decodificadas do cache.
Embora melhore sutilmente o desempenho em diversas situaes, a principal funo do cache mesmo a
de reduzir o consumo eltrico, o que resulta em um ganho indireto de desempenho, j que permite que o
processador passe mais tempo operando nas frequncias mais altas do Turbo Boost. Com exceo dele, o
cache L1 permanece inalterado, com os mesmos 32 KB para dados e 32 KB para instrues (por ncleo), os
mesmos valores usados desde o Pentium III.
Outra mudana foi o aperfeioamento do circuito de branch prediction, que adotou um sistema mais
eficiente de marcao. Tradicionalmente, so usados dois bits de atributos para cada branch, ou sequncia de
instrues, sendo que o primeiro bit diz se a sequncia foi ou no usada e o segundo indica o nvel de certeza
(alta ou fraca). Como quase todas as sequncias so marcadas com um nvel alto de certeza, a Intel optou por
compartilhar o mesmo bit entre diversas sequncias, permitindo que o circuito monitore quase o dobro do
nmero de sequncias.
Essa pequena mudana tcnica foi acompanhada por um grande aumento na capacidade do histrico e
outras melhorias no circuito, que o tornaram consideravelmente maior (mais transistores), porm mais
eficiente, resultando em ganhos em diversas situaes. O ganho prtico no muito grande (j que o anterior
j era bastante eficiente), mas toda contribuio vlida.
Outra melhoria relacionada com o consumo eltrico do chip foi a adoo do uso do physical register file. A
moral da histria que at o Nehalem, bem como at o Phenom II da AMD, cada instruo trafegava dentro
do pipeline acompanhada de cada operador usado por ela. Embora seja ideal do ponto de vista do
desempenho, este processo muito dispendioso em termos de energia e nmero de transistores, j que
implica em unidades de execuo mais largas e com buffers muito maiores para acomodar o overhead
adicional.
No novo sistema, as instrues carregam apenas ponteiros para informaes armazenadas em um
conjunto de registradores adicionais. Isso permite que os dados continuem disponveis para quando forem
necessrios, sem que precisem ser continuamente movidos de um estgio ao outro do pipeline juntamente
com as instrues. Isso aumenta bastante a complexidade do projeto ( difcil implementar isso de uma forma
que no prejudique o desempenho), mas por outro lado a reduo no consumo justifica o esforo. Este
mesmo sistema foi adotado pela AMD no Bobcat/Bulldozer, solucionando o mesmo problema.
O uso do registro fsico de registradores pavimentou o caminho para a incluso do AVX, mais uma
expanso para as instrues SIMD (SSE), que suporta o uso de operadores de 256 bits e um punhado de novas
instrues. O AVX foi adotado tambm pela AMD, que incluiu o suporte a ele no Bobcat/Bulldozer. Assim
como nos conjuntos anteriores de instrues, o AVX depende da disponibilidade de aplicativos otimizados,
mas capaz de oferecer ganhos expressivos de desempenho em algumas reas.
Diferente do que temos no Clarkdale, onde a GPU um chip separado e por isso tem seu prprio cache, no
Sandy Bridge a GPU compartilha do mesmo cache L3 usado pelos ncleos de processamento. Isso no
130

necessariamente uma m notcia (j que a concentrao dos componentes permite criar uma cache
compartilhado maior), mas complicou bastante o design do chip, j que a GPU precisa de quase 2.000 trilhas
de dados para a comunicao com o cache (metade para a GPU e a outra metade para a Media Engine), que se
somam s mais de 4.000 trilhas usadas pelos quatro ncleos.
Para simplificar o design, a Intel adotou um barramento em forma de anel, que utiliza um nico circuito de
trilhas (formando 4 anis independentes) para interligar os quatro ncleos, os quatro blocos de cache L3, a
GPU e o System Agent (a ponte norte do chipset, includa dentro do processador).
Embora traga algumas vantagens tcnicas, o uso de um barramento em anel normalmente aumenta o
consumo eltrico e a rea utilizada dentro do chip (a ATI adotou um barramento em anel sem sucesso no
R600). No se pode falar com certeza sobre o impacto sobre o consumo eltrico do chip (j que no possvel
medir de forma confivel o consumo individual de cada componente), mas a forma como ele foi
implementado pela Intel trouxe duas vantagens importantes:
a) Cada anel capaz de transferir 32 bits por ciclo, o que resulta em 96 GB/s de banda, o que mesma
banda disponvel para cada ncleo no Nehalem. Entretanto, como foram implementados 4 anis
independentes, temos na prtica uma situao em que cada processador tem disponveis 96 GB/s
quando todos esto usando o cache simultaneamente, mas pode utilizar at 384 GB/s em
determinadas circunstncias, quando o anel est ocioso. O mesmo vale para a GPU, em circunstancias
em que os ncleos esto ociosos.
b) A Intel combinou o barramento em anel com um cache L3 de baixa latncia, o que resultou em uma
latncia de apenas 31 ciclos, contra os 36 ciclos no Nehalem. O cache L3 passou a tambm trabalhar na
mesma frequncia do processador, eliminando o conceito de "uncore" usado no Nehalem. No Sandy
Bridge a frequncia da ponte norte do chipset passou a ser chamada de "System Agent" e deixa de ter
relao com a frequncia do cache.

2.5.3.2 A GPU INTEGRADA


Todas as outras melhorias, incluindo o cache L3 operando na mesma frequncia oferecem ganhos prticos
modestos, representando ganhos de desempenho na casa dos 8 a 20% na maioria das aplicaes em relao a
um Core i7 baseado no Bloomfield do mesmo clock. Considerando que o Sandy Bridge tambm possui apenas
4 ncleos e que os processadores baseados nele no so capazes de operar a frequncias muito mais altas que
os Core i7 antigos, isso no parece to animador assim, principalmente para quem da poca em que o
desempenho dos processadores realmente dobrava a cada 18 meses. Para no perder o bonde, a Intel tratou
de incluir um argumento adicional de venda: a GPU integrada (batizada de Sandy Bridge Graphics), que
oferece um desempenho bem superior ao dos antigos chipsets integrados no chipset.
A GPU integrada no um grande diferencial para quem est acostumado a uma GPU dedicada (j que
mesmo com todas as melhorias, o desempenho continua sendo equivalente de uma placa low-end) mas ela
uma grande novidade para os que usam o vdeo integrado, j que ela representa um grande salto de
desempenho em relao s fracas GPUs Intel integradas das geraes anteriores, permitindo rodar a maioria
dos ttulos atuais a 1024x768 ou mesmo 1280x800 mantendo um FPS aceitvel, desde que voc use um nvel
baixo de detalhes. Voc pode ver alguns nmeros do desempenho grfico no:
http://www.anandtech.com/show/4083/the-sandy-bridge-review-intel-core-i7-2600k-i5-2500k-core-i32100-tested/11
http://www.tomshardware.com/reviews/sandy-bridge-core-i7-2600k-core-i5-2500k,2833-7.html
Mesmo o Core i3 2100 capaz de rodar o CoD Modern Warfare a 1024x768 (baixo nvel de detalhes)
mantendo uma mdia de 28 FPS, o World of Warcraft a 39 FPS e o Starcraft II com de 24 a 96 FPS, oferecendo
a possibilidade de rodar trs dos ttulos mais populares atualmente, embora com poucos detalhes grficos.

131

Considerando que mais de 90% dos usurios usam vdeo integrado e a maior parte deles usam
processadores Intel, fica fcil de perceber o quanto esta mudana significativa, especialmente nos
notebooks, onde a GPU raramente um componente atualizvel.
Em vez de ser uma cidad de segunda classe como no Clarkdale, a GPU do Sandy Bridge compartilha dos
mesmos transistores de 32 nm do restante do processador e tem igual acesso ao cache L3 compartilhado. Ela
possui seu prprio sistema de gerenciamento de energia e opera a um clock independente do restante do
processador, variando a frequncia de operao dinamicamente de acordo com o uso. O Graphics Turbo,
introduzido com Arrandale continua disponvel, mas no Sandy Bridge esto disponveis mais degraus de
frequncia.
O acesso ao cache L3 foi uma forma de amenizar o problema crnico dos chipsets de vdeo integrado, que
o acesso compartilhado memria RAM. Embora a baixa latncia do cache no faa tanta diferena para o
chipset de vdeo quanto faz para o processador (a GPU trabalha tipicamente com um volume muito grande de
dados), os 6 MB das verses iniciais do Sandy Bridge so suficientes para reduzir consideravelmente o nmero
de requisies memria RAM, amenizando o problema
Por padro, o chipset de vdeo tem acesso irrestrito ao cache L3 e tende a ocupar a maior parte do cache
em jogos e aplicativos 3D (que acabam sendo limitados pela GPU bem antes de pelo processador). Entretanto,
possvel limitar o volume de cache usado pela GPU nas configuraes do driver.
Internamente, o chipset de vdeo faz uso intensivo de unidades dedicadas de processamento
(processamento de vrtices, rasterizao, texturas, etc.) em contraste com as GPUs programveis oferecidas
pela nVidia e AMD. Isso faz com que a GPU seja muito menos flexvel (menos potente no processamento de
shaders e de aplicativos OpenCL) mas faz sentido em relao ao consumo eltrico e nmero de transistores.
Em resumo, a Intel optou por extrair o mximo de desempenho de uma GPU modesta, limitando a rea no die
do processador ocupada por ela, em vez de tentar incluir uma GPU mais poderosa, que consumisse muita
energia. Em relao s APIs, GPU inclui suporte ao DirectX 10.1, Shader Model 4.0 e OpenGL 2.0, deixando de
lado o suporte ao DirectX 11, cujos efeitos exigem mais processamento e no fariam muito sentido em uma
GPU integrada da safra atual.
Para a Intel, a GPU apenas uma assistente, que complementa o trabalho do processador. Dentro dessa
filosofia, o processador a unidade programvel, enquanto a GPU apenas uma unidade de renderizao 3D.
Isso contrasta com a viso da nVidia, que v a GPU como a unidade programvel e o processador como um
mero assistente. Como resultado, temos a nVidia tentando incentivar o uso do OpenCL, e a Intel preferindo
no falar no assunto, vendo a GPU como um mero acelerador para grficos 3D e decodificao de vdeo.
A GPU do Sandy Bridge possui 12 unidades de processamento, sendo que todas as 12 permanecem ativas
nos processadores da srie K e nos processadores mveis, e 6 delas so desativadas nos demais modelos de
processadores desktop (do i3 2100 ao i7 2600), sacrificando parte do desempenho. A verso "completa", com
12 EUs chamada pela Intel de HD 3000, enquanto a verso castrada, com 6 EUs de HD 2000.
O reforo no desempenho 3D veio companhado por um reforo na Media Engine, responsvel pela
decodificao de vdeo. No Clarkdale parte da decodificao era executada pelas unidades programveis, o
que funcionava, mas era ineficiente energeticamente. No Sandy Bridge todas as etapas passaram a ser feitas
via hardware, resultando em uma reduo considervel no consumo ao decodificar vdeos HD. A Media Engine
pode ser acessada tambm por aplicativos de converso de vdeo, oferecendo uma grande reduo no tempo
de converso para aplicativos otimizados. Dependendo do clock do processador, possvel atingir uma taxa de
400 FPS ao converter um vdeo 1080p para uma resoluo mais baixa, gerando um vdeo para ser assistido em
um smartphone, por exemplo.

132

2.5.3.3 TURBO BOOST MAIS AGRESSIVO


Como era de se esperar, o Sandy Bridge mantm o uso do Turbo Boost introduzido no Lynnfield, mas
introduz alguns truques novos para extrair mais desempenho do sistema.
A principal mudana a adoo de um sistema mais inteligente de monitoramento do TDP para
determinar por quanto tempo o processador permanece operando nas frequncias mais altas. Nos
processadores atuais, o sistema leva em conta apenas o consumo eltrico do processador, presumindo que a
temperatura aumenta instantaneamente conforme o consumo aumenta. Sempre que o processador atinge o
TDP mximo, a frequncia reduzida imediatamente.
Entretanto, o que acontece em situaes reais que a temperatura do processador sobe lentamente e ele
capaz de manter uma dissipao maior que a estipulada por algum tempo antes de superaquecer. o
mesmo que acontece quando voc desliga a ventoinha do cooler com o PC ligado: o processador vai demorar
vrios segundos antes de comear a superaquecer.
O Sandy Bridge capaz de levar isso em conta, monitorando a temperatura do processador em conjunto
com o TDP e levando em conta esse "lag" entre o aumento do consumo e da temperatura externa. Com isso, o
clock pode ser aumentado de forma mais agressiva e mantido por mais tempo antes de ser novamente
reduzido.
Na prtica isso torna o sistema mais responsvel durante o uso, mas por outro lado torna o desempenho
final ainda mais imprevisvel, variando mais de acordo com a temperatura ambiente, a eficincia de cooler e o
tipo de aplicativos usados.

2.5.3.4 MODELOS E O PROBLEMA DO OVERCLOCK


Como de praxe, Sandy Bridge apenas o codenome do projeto, que serve tambm como um nome geral
para descrever as diversas variantes da arquitetura. A Intel optou por manter as marcas Core i3/i5/i7,
adicionando o prefixo "2" aos cdigos dos modelos:
Core i7 2600 (3.4 GHz/3.8 GHz, 8 MB, 4 ncleos, 8 threads, GPU a 850/1350 MHz, 95W)
Core i5 2500 (3.3 GHz/3.7 GHz, 6 MB, 4 ncleos, 4 threads, GPU a 850/1100 MHz, 95W)
Core i5 2400 (3.1 GHz/3.4 GHz, 6 MB, 4 ncleos, 4 threads, GPU a 850/1100 MHz, 95W)
Core i5 2310 (2.9 GHz/3.2 GHz, 6 MB, 4 ncleos, 4 threads, GPU a 850/1100 MHz, 95W)
Core i5 2300 (2.8 GHz/3.1 GHz, 6 MB, 4 ncleos, 4 threads, GPU a 850/1100 MHz, 95W)
Core i3 2120 (3.3 GHz, 3 MB, 2 ncleos, 4 threads, GPU a 850/1100 MHz, 65W)
Core i3 2100 (3.1 GHz, 3 MB, 2 ncleos, 4 threads, GPU a 850/1100 MHz, 65W)
Tanto os Core i7 quanto os i5 oferecem suporte ao Turbo Boost, com o 2600 e o 2500 sendo capazes de
aumentar a frequncia em at 400 MHz (com um nico ncleo ativo), em at 300 MHz com dois ncleos, 200
MHz com trs ncleos e (uma novidade no Sandy Bridge) um modesto aumento de 100 MHz com os quatro
ncleos ativos por curtos perodos caso a temperatura e o TDP do processador permitam.
Para diferenciar as duas linhas, a Intel oferece o Core i5 2xxx com o suporte a SMT desativado e um clock
mais baixo para a GPU. Os Core i3 2xxx so por sua vez a linha value, com apenas dois ncleos e metade do
cache L3.
Como pode ver, as frequncias no so muito diferentes dos Core i5/i7 e geraes anteriores e, de fato,
no so muito superiores s que tivemos na era Core 2 Duo. Mesmo com o Turbo Boost ativo, operando com
um nico ncleo ativo, o Core i7 2600 atinge apenas 3.8 GHz, que a mesma frequncia do antigo Pentium D
571.
Apesar disso, o Sandy Bridge oferece uma boa margem de overclock e o Core i7 2600 capaz de operar a
4.4 ou mesmo 4.8 GHz sem grandes dificuldades. O grande problema que gerador de clock foi movido da
placa me para o chipset, que por sua vez est sob o completo controle da Intel.
133

Com isso, as possibilidades de overclock no Sandy Bridge so bastante limitadas. at possvel aumentar a
frequncia do BCLK (sucessor do FSB) nas placas que oferecem a opo, mas a margem de overclock muito
pequena, indo dos 100 MHz padro para 105 ou, com um pouco de sorte, 110 MHz, um ganho muito pequeno.
Isso derivado do fato de o clock base ser agora usado como referncia por todos os barramentos; no
preciso aumentar muito o clock para que alguma coisa comece a dar errado.
Em outras palavras, o overclock atravs do BCLK/FSB do qual desfrutvamos desde a poca do 486 est
efetivamente morto no Sandy Bridge. A nica concesso fica a cargo dos diferentes nveis do Turbo Boost
disponveis de acordo com o modelo e os aumentos na frequncia da memria RAM e do PCI Express, que so
pouco efetivos.
A Intel est disposta a lhe oferecer processadores com o multiplicador destravado, que podem ser
overclocados at o limite desejado, desde que voc pague mais caro por isso. Em outras palavras, estamos
assistindo a mais uma progresso do processo de monetarizao do overclock, que acaba eliminando o
propsito original. No mundo Intel, o overclock deixou de ser um tweak para extrair mais desempenho do
equipamento, para se tornar apenas mais um produto que pode ser comprado como um "extra" por quem
tiver mais dinheiro para gastar no PC.
Os processadores desbloqueados so vendidos dentro da srie K. Inicialmente foram anunciados apenas
dois modelos, o i7 2600K e o i5 2500K, que so quase idnticos ao 2600/2500, oferecendo como nicas
vantagens uma GPU ligeiramente mais poderosa (com os 12 EUs ativados, contra os 6 EUs dos demais
modelos) e o multiplicador destravado:
Core i7 2600K (3.4 GHz/3.8 GHz, 8 MB, 4 ncleos, 8 threads, GPU a 850/1350 MHz, 95W, destravado)
Core i5 2500K (3.3 GHz/3.7 GHz, 6 MB, 4 ncleos, 4 threads, GPU a 850/1100 MHz, 95W, destravado)
Como um prmio de consolao, a Intel introduziu um conceito de overclock parcial atravs do Turbo
Boost nos modelos bloqueados (fora da srie K) que suportam o recurso. Ele permite que voc aumente o
Turbo Boost em at quatro degraus de 100 MHz. O Core i7 2600, por exemplo, que tem uma frequncia base
de 3.3 GHz e opera a at 3.7 GHz com o Turbo Boost, pode ser configurado para utilizar 4 degraus adicionais,
atingindo at 4.1 GHz (com um nico ncleo ativo).
Como a utilidade do turbo est diretamente relacionada ao TDP do processador (no adianta aumentar o
multiplicador mximo do turbo se o processador esbarrar no limite de consumo e o desativar meio segundo
depois), est disponvel agora uma opo para ajustar o limite mximo de consumo do processador, que deve
ser aumentada juntamente com os multiplicadores do turbo para que ele seja usado por mais tempo. O ajuste
pode ser feito no Windows atravs do Intel Extreme Tuning Utility ou atravs das opes do Setup, como de
praxe.
O uso dos nveis adicionais do turbo est condicionado temperatura de operao do processador, por
isso voc acaba sendo obrigado a substituir o cooler padro do processador para poder efetivamente usar os 4
nveis adicionais. Sem isso, o "overclock" se torna apenas psicolgico, j que os nveis adicionais do turbo sero
usados por perodos de tempo muito curtos, sem ganho prtico.
Naturalmente, 4 nveis adicionais de turbo so melhor do que nada, mas isso no se compara com as
possibilidades de aumento de clock oferecidas pelos chips da srie K, que atingem tranquilamente os 4.4 a 4.8
GHz. Nas placas equipados com o chipset P67 possvel usar multiplicadores de at 57x para o clock de
referncia, resultando em um limite terico de 5.7 GHz:

134

Infelizmente, a poca em que era possvel comprar um processador Intel de baixo custo e ganhar 50% ou
mais de desempenho via overclock foi abruptamente encerrada com o lanamento do Sandy Bridge. Com
certeza isso vai prejudicar as vendas da Intel em alguns segmentos, mas a falta de concorrncia efetiva por
parte da AMD colocou a Intel em uma posio em que podem fazer vistas grossas s perdas.
Os processadores da srie K no so (pelo menos inicialmente) muito mais caros que os regulares (na
poca de lanamento, o 2600K custava apenas US$ 23 mais caro que o 2600 regular). O grande problema
que a srie K est disponvel apenas para os modelos mid-range e high-end, que custam acima dos 200
dlares. No possvel comprar um Core i5 2400 ou um Core i3 2120 "srie K", pois eles no existem. Em
outras palavras, para fazer qualquer overclock significativo voc precisa se dispor a comprar um modelo mais
caro e ento pagar ainda mais um pouco por um modelo da srie K.
A menos que algum fabricante de placas-me aparea com algum tweak para desbloquear o multiplicador
dos processadores (o que improvvel j que ningum conseguiu fazer isso desde o Pentium II) ou para
expandir as opes de frequncia do BCLK suportadas pelos chipsets (o que tambm improvvel), bem
provvel que a Intel realmente consiga o que sempre quis: controlar e monetizar o overclock, fazendo com
que as opes fiquem acessveis apenas para quem pagar pelos componentes mais caros.
Em relao ao desempenho, a maior parte das mudanas do Sandy Bridge foi focada na GPU e em
mudanas na arquitetura (como o ring bus) que preparam o terreno para expanses futuras, mas no
oferecem grandes ganhos diretos de desempenho (a menos que voc esteja testando o desempenho da GPU
integrada). Entretanto, Sandy Bridge acaba se revelando consideravelmente mais rpido na prtica devido ao
Turbo Boost, que oferece aumentos de clock bem maiores que nos processadores anteriores.
Ainda possvel fazer com que os antigos Core i7 9xx e Core i5 8xx se aproximem do desempenho dos
novos modelos via overclock (j que eles so bem mais versteis nesse quesito que os modelos do Sandy
Bridge fora da srie K), mas se comparados processadores da mesma frequncia, o Sandy Bridge leva quase
sempre uma vantagem de 8 a 20%. O Core i7 2600 capaz de superar o Core i7 980x Extreme (baseado no
Gulftown de 6 ncleos) em testes sintticos e em muitas tarefas, mas os 6 ncleos do 980x continuam fazendo
com que ele reine supremo em codificao de vdeo, renderizao 3D, compilao e outras tarefas onde os 6
ncleos podem ser completamente utilizados. Voc pode ver alguns nmeros no:
http://www.anandtech.com/show/4083/the-sandy-bridge-review-intel-core-i5-2600k-i5-2500k-and-corei3-2100-tested/15
http://www.overclockers.com/intel-i7-2600k-sandy-bridge-review
135

http://techgage.com/article/intels_sandy_bridge_revealed_core_i5-2500k_i7-2600k_reviewed/5
http://www.tomshardware.com/reviews/sandy-bridge-core-i7-2600k-core-i5-2500k,2833-12.html
http://www.neoseeker.com/Articles/Hardware/Reviews/Intel_i7_2600K_i5_2500K/6.html
http://techreport.com/articles.x/20188/5
http://www.silentpcreview.com/article1139-page4.html

2.5.3.5 MAIS UM NOVO SOQUETE


Para quem aprecia a boa e velha compatibilidade retroativa, ou tinha esperanas de aproveitar sua cara
placa-me baseada no P55/H55, o Sandy Bridge no exatamente uma boa notcia, j que ele quebra mais
uma vez a compatibilidade com a plataforma anterior, introduzindo um novo soquete, o LGA-1155 e uma nova
srie de chipsets, a famlia Intel x6x.

LGA-1156 e LGA-1155
Inicialmente temos duas opes, o H67 e o P67. Ambos oferecem suporte a memria DDR3 1333 em dualchannel, SATA 600 e PCI Express 2.0, mas ficam devendo o suporte a USB 3.0, que precisa ser implementando
pelos fabricantes de placas atravs de um controlador adicional (aumentando o custo). Como de praxe, o H67
o chipset de "baixo custo" destinado aos PCs que utilizaro o vdeo integrado e o P67 a soluo
"workstation", destinada s placas mais caras, que oferece o suporte ao uso de dois slots PCIe x16 (com 8
linhas de dados cada), necessrio para o uso do CrossFire ou SLI, abandonando o uso do vdeo integrado.
Outra diferena entre os dois que o H67 no oferece suporte s opes de overclock do processador,
oferecendo apenas os ajustes da frequncia da memria e da GPU. Mesmo que voc se disponha a pagar mais
caro por um processador da srie K, ainda vai precisar de uma placa com o P67 para fazer overclock (no, o
nariz de palhao no vem de brinde...).
Para os PCs low-end ou mid-range, baseados na combinao de um Core i3 ou i5 e uma placa baseada no
H67 a nica opo significativa de overclock o overclock da GPU, que oferece um ganho de processamento
3D at que razovel, porm vai interessar apenas a quem no pretende usar uma GPU dedicada, j que com
overclock ou sem overclock, o desempenho do Sandy Bridge Graphics competitivo apenas em relao a
outras GPUs integradas e placas 3D de baixo desempenho.
A GPU do Core i3 (que originalmente opera a 1.1 GHz) pode ser overclocada para at 1.4 GHz com
estabilidade, resultando em um ganho de desempenho de 4 a 33% de acordo com o jogo. Esta variao to
grande derivada do fato de o overclock afetar apenas a frequncia de operao das EUs (responsveis pelo
processamento de shaders e outras funes programveis) e no das unidades dedicadas de processamento,
cuja frequncia fixa.

136

Em Maio/2011 foi lanado o chipset Z68, que quase idntico ao P67, mantendo o suporte a CrossFire/SLI
e as funes de overclock, porm adiciona o barramento FDI, usado pela GPU integrada. Em outras palavras o
Z68 um P67 com suporte ao vdeo integrado e mais alguns extras.
Na verdade, o Sandy Bridge mantm o mesmo barramento de dados dos processadores anteriores, mas
foram feitas mudanas na sinalizao dos pinos para acomodar as novas funes do processador, como voc
pode ver nessa ilustrao mostrando a distribuio das funes dos pinos em ambos os soquetes:

Em outras palavras, a mudana no apenas esttica, mas por outro lado podemos questionar se no
teria sido possvel para a Intel ter mantido a compatibilidade com o soquete anterior. A verdade que,
independente de qualquer possibilidade tcnica, vender novas placas e chipsets d mais dinheiro que
reaproveitar as antigas e, na situao confortvel em que atualmente se encontra, a Intel pde se dar ao luxo
de novamente quebrar a compatibilidade com a plataforma antiga.
Continuando, outra mudana introduzida pelos novos chipsets o uso do UEFI (Extensible Firmware
Interface) em substituio do bom e velho BIOS. As opes disponveis so similares s encontradas no Setup
de qualquer placa contempornea, mas a interface passou a ser inteiramente grfica, com suporte ao uso do
mouse, com a interface variando de acordo com a implementao de cada fabricante:

Por baixo do pano, o UEFI oferece diversas vantagens tcnicas, como o suporte a HDs com parties
maiores que 2.2 TB, boot mais rpidos, suporte a boot via rede usando o IPv6. O sistema oferece muitas
137

possibilidades de expanso, permitindo que os fabricantes incluam mdulos


mesmo sistemas de instant boot com navegador web e outros aplicativos
necessidade de uma unidade de armazenamento separada. O lado ruim
compatibilidade com o Windows XP (o suporte ao UEFI est disponvel apenas
distribuies Linux antigas.

e drivers adicionais, ou at
diretamente na placa, sem
que teremos problemas de
a partir do Vista SP1) e com

2.5.3.6 RESUMO DOS PROCESSADORES INTEL I3, I5 E I7 DE SEGUNDA GERAO (SANDY BRIDGE)
Mercado

Extreme
High-End

Soquete

LGA
2011

Ncleos /
Threads
6 (12)

Marca e Modelo do
Processador
Core
i7
Extreme
Core i7

4 (8)
Performance

LGA
1155
4 (4)

Mainstream

Core i5

2 (4)
Core i3

2 (2)

Pentium

3960X

CPU Clock
Graphics Clock
(GHz)
(MHz)
Padro Turbo Standard Turbo
3.3
3.9
N/A

3930K
3820

3.2
3.6

3.8
3.9

2600K
2600
2600S
2500K
2500
2500S
2500T
2400
2405S
2400S
2310
2300
2390T
2120
2105
2100
2100T
G850
G840
G620
G620T

3.4

3.8

2.8
3.3

3.7

2.7
2.3
3.1
2.5

3.3
3.4
3.3

2.9
2.8
2.7
3.3
3.1

3.2
3.1
3.5
N/A

2.5
2.9
2.8
2.6
2.2

Cache
L3

TDP
(W)

Interface

15 MB

130

6.4 GT/s
QPI

12 MB
10 MB
850

650
850

1350

8 MB

95

1100

6 MB

65
95
65
45
95
65

1250
1100

95
650
850

3 MB

35
65

4.8 GT/s
QPI
DMI 2.0

Mem.

Data
$$$
de
Lan.
At Quad. Q4 2011
DDR3ou
1600
Q1 2012

At Dual 2011-1-9
DDR31333

2011-5-22
2011-1-9
2011-5-22
2011-1-9
2011-2-20
2011-5-22
2011-2-20

650
850

35
65

650

35

2011-5-24

$317
$294
$306
$216
$205
$216
$216
$184
$205
$195
$177
$177
$195
$138
$134
$117
$127
$86
$75
$64
$70

Legenda:
K Multiplicador Destravado
S - Performance-optimized lifestyle
T - Power-optimized lifestyle
Fonte: http://en.wikipedia.org/wiki/Sandy_Bridge#Desktop_processors

2.5.4 AMD LLANO (FUSION): A ERA DAS APUS


A maior parte dos ganhos de desempenho que tivemos ao longo da evoluo dos processadores surgiu
como resultado da incorporao de mais componentes e no apenas do aumento da frequncia de clock ou da
sofisticao das unidades de processamento.
O 486 foi o primeiro a incorporar cache L1 e o coprocessador aritmtico, o Pentium foi o primeiro a usar
uma arquitetura superescalar (mais de uma unidade de processamento), o Pentium Pro incorporou cache L2, o
Athlon 64 trouxe um controlador de memria integrado, o Athlon X2 trouxe dois ncleos em um nico die, o
Phenom X4 dobrou a oferta com 4 ncleos e um cache L3 compartilhado e o Lynnfield incorporou as linhas
PCI-Express e o que restava da ponte norte do chipset.
Toda essa integrao tem dois motivos centrais. O primeiro (e mais bvio) o aumento do desempenho, j
que dentro do processador estes componentes podem operar a clocks mais altos e se comunicarem com
outros componentes atravs de trilhas muito mais curtas, reduzindo os tempos de espera.
A segunda questo tem a ver com as margens de lucro. Se um PC usa um processador AMD e um chipset
nVidia, significa que cada uma ficou com uma parte do bolo. Se a AMD consegue incorporar todos os
componentes dentro do processador, pode cobrar um pouco mais por ele e ainda por cima se livra da
concorrente. Mesmo em casos em que a AMD ou a Intel venderia tambm o chipset, incorporar os
componentes no processador vantajoso, j que sai mais barato do que fabricar dois chips separados.
138

O termo "APU" significa "Accelerated Processing Unit" e usado em relao aos novos processadores com
chipsets 3D integrados. Quando falamos em chipsets 3D vem mente uma soluo de alto desempenho, mas
a primeira gerao de processadores com GPUs integradas oferecem GPUs mais modestas, criando uma opo
intermediria entre os chipsets de vdeo integrado e as placas 3D mid-range.
Assim como nos chipsets de vdeo integrado, as GPUs integradas ao processador utilizam memria
compartilhada, dividindo o acesso memria RAM com o processador. Entretanto, eles possuem uma
vantagem importante, que o acesso direto ao controlador de memria integrado, com tempos de acesso
bastante baixos. Com o uso de memrias DDR3 e dual-channel, os PCs atuais dispem de um barramento
bastante largo com a memria, que permite o uso de GPUs relativamente poderosas.
Outro ponto importante que com a GPU integrada ao processador, os upgrades de CPU ganham um
atrativo adicional, j que alm de mais poder de processamento, existe a possibilidade de aumentar tambm o
desempenho 3D. Esta uma estratgia que pode dar bastante certo no caso da AMD, que tem uma tradio
de preservar a compatibilidade com as geraes anteriores de placas-me ao lanar novos processadores.
Ironicamente, embora tenha sido a AMD quem comeou a primeiro falar em APUs, foi a Intel quem lanou
primeiro seus processadores com GPUs Integradas para desktop, comeando com o Clarkdale (que incorporou
a GPU dentro do encapsulamento, embora no ainda dentro do mesmo chip) e em seguida com o Sandy
Bridge.
O lanamento do Llano marca o incio do contra-ataque da AMD, depois do ensaio feito nos netbooks com
o lanamento da plataforma Brazos.
Embora tenha andado quase sempre um passo atrs da Intel em termos de tcnicas de fabricao, a AMD
possui uma vantagem estratgica em relao Intel, que a posse da ATI. Quando a AMD anunciou a compra
da empresa em 2006, muitos (eu inclusive) torceram o nariz dado o valor astronmico do negcio e a aparente
falta de rumo nos primeiros anos, quando a AMD enfrentou dificuldades para manter o desenvolvimento das
GPUs e a nVidia ganhou espao. Entretanto, passada a tempestade inicial, a compra comeou a dar frutos,
com a diviso de GPUs florescendo e as APUs ganhando espao.
seguro dizer que sem a compra da ATI, a AMD estaria condenada a longo prazo, j que no teria como
diferenciar seus produtos, ficando limitada a concorrer com base no preo, assim como no caso da moribunda
VIA. Com a ATI, a AMD ganhou uma chance de lutar e com o Llano ela ataca bem onde di.
Com os PCs caindo de preo, ficou cada vez mais difcil justificar a compra de uma GPU topo de linha, j
que mesmo uma placa de penltima gerao pode facilmente custar mais do que mil reais, possivelmente
mais caro que o resto do PC. Indo para o high-end, temos placas de 500 dlares ou mais (que muitas vezes
nem chegam ao Brasil, onde custariam acima dos R$ 1500) usadas em CrossFire ou SLI, dobrando o custo. Ou
seja, para ter uma mquina de jogos topo de linha, voc precisaria gastar pelo menos trs mil reais, apenas nas
GPUs.
Devido influncia dos ports para consoles, a maioria dos lanamentos atuais possuem recursos
relativamente modestos. Se voc no fizer questo de usar as texturas e efeitos no mximo, vai
provavelmente passar muito bem usando uma GPU low-end, ou mesmo uma placa comprada a dois ou trs
anos atrs. Temos ento uma situao onde as GPUs high-end passaram a estar muito acima dos requisitos
dos jogos, fazendo com que os compradores de um par de placas high-end em CrossFire passem a maior parte
do tempo fazendo ginsticas para tentar justificar seu investimento, usando mltiplos monitores ou baixando
pacotes com texturas de resoluo ultra-high para que as GPUs tenham o que fazer.
Uma boa amostra disso pde ser sentida com o lanamento do Sandy Bridge. Embora a GPU dos Core i5 e
i7 baseados na plataforma seja muito mais rpidas que as usadas nos processadores Intel anteriores, elas so
ainda inferiores at mesmo que as placas low-end da AMD e nVidia. Apesar disso, o ganho de desempenho foi
suficiente para rodar grande parte dos jogos atuais (e praticamente todos os ttulos antigos) com um FPS
139

aceitvel usando nveis modestos de detalhes, o que j foi suficiente para que muitos deixassem de gastar com
uma GPU dedicada e passassem a usar a do processador. Para algum que entra nesse barco, a potncia da
GPU integrada passa a ser um fator importantssimo, j que ela quem vai determinar o desempenho do PC
em jogos, bem mais do que o desempenho do processador.

2.5.4.1 METADE GPU


Tendo isso em mente, podemos facilmente entender o estrago que uma APU que (mesmo que com um
processamento mediano) oferea uma GPU mais poderosa. exatamente aqui que chegamos ao Llano. Para
quem j tem um PC comum processador AMD moderadamente recente, como um Athlon II X4 ou um Phenom
2, o Llano no to interessante assim, pois voc pode ter um resultado similar simplesmente adicionando
uma placa 3D de low a mid-range
(como uma Radeon HD 5570 ou
mesmo uma Radeon HD 6450) ao
seu sistema atual. Entretanto, para
quem est pra comprar um novo
PC ele representa uma mudana
importante.
A primeira coisa que chama
ateno quanto do espao do die
do processador a AMD dedicou
GPU. Basicamente, metade do
espao interno do Llano foi
dedicado GU, com o resto sendo
dividido entre os quatro ncleos
da CPU, cache, controlador de
memria, linhas PCI Express e
outros componentes.
O Llano produzido em uma
tcnica de 32 nm com SOI na
Global Foundries. Este foi um dos
fatores que atrasou o lanamento do processador, j que na poca da aquisio a ATI produzia seus chipsets
de vdeo na TSMC e demorou at os projetos fossem adaptados aos equipamentos da forja da AMD e
conseguissem adaptar todos os componentes da GPU para serem integrados ao processador e produzidos
usando a mesma tcnica de produo que ele.
No total, o Llano possui nada menos do que 1.45 bilhes de transistores, quase 50% mais do que o Sandy
Bridge de quatro ncleos, que possui apenas 995 milhes. Entretanto, a AMD conseguiu otimizar bastante o
uso de espao na rea reservada GPU, o que fez com que no final o Llano ocupasse uma rea de 228 mm,
pouca coisa maior que o Sandy Bridge 4C, que mede 216 mm. Este um fator que vai ser crucial a longo
prazo, j que uma rea similar resulta em cursos similares de produo, garantindo que a AMD possa ter
condies de sustentar a guerra de preos com a Intel.
Uma coisa que voc pode dar falta ao estudar o diagrama do processador do bom e velho cache L3
compartilhado, que foi eliminado em favor de um aumento no cache L2 de cada ncleo, expandido de 512 KB
para 1 MB.
Alm do aumento no cache L2, a AMD realizou pequenas atualizaes nos ncleos da CPU, incluindo
melhorias nos circuitos de prefetch, aumento de capacidade nos buffers load/store e melhorias no hardware
de ponto flutuante. Somadas, todas essas mudanas resultaram em ganhos de 3 a 5% na maioria das tarefas
(clock por clock), ou seja, um ganho modesto.
140

Na prtica, o Llano no muito superior ao velho Athlon X4 na parte de processamento, mantendo o uso
da velha arquitetura K10. A novidade fica por conta da GPU, uma verso levemente aperfeioada do Redwood
(usado na Radeon HD 5570), batizada de Sumo:

Trata-se de uma GPU bastante respeitvel, com 400 unidades de processamento e suporte ao DirectX 11.
A principal diferente entre o Somo e o Redwood a interface com a memria, j que o Sumo interligado ao
mesmo controlador de memria dual-DDR3 usado pelo processador. No preciso dizer que o uso de
mdulos DD3 rpidos e em dual-channel um fator essencial para a performance do Llano, j que mesmo com
dois mdulos em dual-channel ele dispe de um barramento com a memria de apenas 128 bits, que ainda
por cima compartilhado com o processador.

2.5.4.2 DESEMPENHO
Caso no fosse limitado pela memria, o Sumo ofereceria um desempenho similar da Radeon 5570, o
que seria fenomenal vindo de uma GPU integrada. Entretanto, a interface de 128 bits compartilhada com o
processador limita o desempenho da GPU, resultando em um desempenho de 20 a 40% inferior ao oferecido
por um Athlon II X4 com uma 5570 dedicada. Ainda assim, o Sumo oferece um desempenho bastante superior
ao do Sandy Bridge (exceto em jogos limitados pela CPU, como o StarCraft 2) e mais do que suficiente para
rodar jogos como o Metro 2033, Crysis Warhead, Call of Duty Black Ops e outros jogos atuais com uma
qualidade grfica moderada a at 1280x800.
Em outras palavras, o Llano cumpre bem a
funo de atender a jogadores pouco
exigentes, que no querem investir em uma
GPU topo de linha.
Outro fator importante que no Llano o
clock das memrias afeta seriamente a
performance da GPU. Este grfico no
Anandtech mostra bem a diferena entre o
uso de memrias DDR3-1333 (HD 6550D) e
DDR3-1866.
Voc pode notar que ao usar memrias
DDR3-1333 o desempenho se aproxima muito
do oferecido pela Radeon HD 6450, enquanto
141

com memrias DDR3-1866 ele fica mais prximo do da Radeon 5570, uma tendncia que consistente com
outros testes. Como ainda vai demorar at que as DDR3-1866 se tornem populares, mais realista comparar a
Radeon 6550D integrada ao Llano A8-3850 com a caula HD 6450, que embora oferea apenas 160 ncleos de
processamento, possui memria dedicada e por isso acaba no ficando to atrs.
Para evitar que o compartilhamento com a memria prejudicasse em demasia o desempenho da GPU, a
AMD implementou um sistema de controle de banda, priorizando o acesso memria por parte da GPU em
vez da CPU. Embora soe suspeita, a ideia faz sentido, j que a arquitetura paralela da GPU faz com que ela
precise ser alimentada com um grande volume de dados para manter o desempenho, enquanto a CPU mais
influenciada pela latncia. No sistema da AMD, a GPU tm prioridade no volume de transferncias, mas a CPU
tem prioridade em relao latncia, resultando em um sistema mais ou menos equilibrado.
Nas verses desktop, o Llano suporta memrias DDR3 1866 (at 29.8 GB/s de banda), enquanto as verses
mveis suportam DDR3 1600 (devido s restries em relao ao consumo), resultando em at 25.6 GB/s de
banda. Outra diferena que as verses desktop suportam o uso de at 4 mdulos de memria, suportando
at 64 GB, enquanto as verses mveis esto limitadas a dois mdulos e 32 GB.
A GPU possui um barramento dedicado com o controlador de memria de 30 GB/s, o que assegura que ela
possa utilizar toda a banda disponvel nos momentos em que o processador estiver trabalhando com os dados
do cache.
PCIe: O Llano inclui um total de 24 linhas PCI Express, sendo 16 delas dedicadas ao uso de GPUs dedicadas,
suportando a construo de placas com um slot x16 (com as 16 linhas) ou de dois slots x16 com 8 linhas de
dados cada uma. Das linhas remanescentes, 4 so dedicadas conexo direta de dispositivos que demandam
grande volumes de banda, como controladores Gigabit Ethernet e controladores de disco adicionais, enquanto
as outras 4 so ligadas ao chipset, o FCH, ou Fusion Controller Hub.
O principal destaque em relao aos chipsets que no existe a segmentao artificial ciada pela Intel para
extrair mais dinheiro dos compradores. Em vez disso, a AMD optou por simplificar as coisas, oferecendo
apenas dois chipsets: o A70M, que oferece 4 portas USB 3.0 e o A60M, uma verso mais barata que oferece as
mesmas funes, com exceo das portas USB 3.0. Ambos oferecem suporte a 6 portas portas SATA de 6
gigabits, RAID e outros recursos bsicos.
O calcanhar de Aquiles: Em termos de GPU, o
Llano supera com folga qualquer processador com
grficos integrados que j tenha sido colocado no
mercado. Mesmo com memrias DDR3-1333 ele
supera a GPU do Sandy Bridge por uma grande
margem e muito provvel que mesmo a GPU
atualizada do Ivy Bridge continue atrs por uma
boa margem. Naturalmente, a AMD vai aproveitar
para basear o marketing neste aspecto da GPU,
mostrando grficos que mostram o Llano
superando o Sandy Bridge por uma boa margem
em jogos por exemplo (usando as GPUs
integradas) e assim por diante. Entretanto, o Llano
tem uma deficincia grave, que o
processamento, como ilustra bem este grfico do
Anandtech.
Indo diretamente ao ponto, no espere do Llano muito mais em termos de CPU do que voc esperaria de
um Athlon II X4. Ele um pouco mais rpido devido aos 4x 1 MB de cache L2 e as demais atualizaes, mas
diferena fica na casa dos 3 a 5 % na maioria dos casos, pequena demais para ser notada na prtica.
142

Em termos de processamento, ele concorre com os Pentium e Core i3, a base da pirmide dentro da linha
da Intel. Se voc est preocupado apenas com o desempenho da GPU integrada, ento o Llano a melhor
opo, mas se voc pretende usar uma GPU dedicada (mesmo uma Radeon HD 6670 j vai oferecer um
desempenho consistentemente superior), voc vai ser mais bem servido por um Phenom II X4 antigo, ou por
um processador dentro da linha da Intel.
Se voc j tem um Athlon II X4 ou ou Phenom II, ento o melhor caminho simplesmente comprar uma
placa 3D, j que o Llano no oferecer vantagens em relao ao seu processador atual em termos de CPU.

2.5.4.3 GERENCIAMENTO DE ENERGIA


Alm da GPU, a AMD colocou muita nfase na reduo do consumo eltrico do chip quando ocioso, uma
rea em que os chips da empresa tradicionalmente perdem em relao aos da Intel.
A primeira medida foi a diviso do processador em duas ilhas independentes, cada uma com fornecimento
independente de energia. A primeira ilha inclui a CPU e a ponte norte, enquanto a segunda inclui a GPU e o
decodificador de vdeo.
Alm do tradicional controle de clock, cada um dos ncleos do processador pode ser desligado
independentemente e o clock da GPU pode ser deduzido de acordo com a carga de processamento, com as
tenses de operao sendo tambm reduzidas de acordo. possvel at mesmo desligar toda a APU quase que
completamente. Este slide da AMD mostra um exemplo do power-gating agindo na GPU:

Naturalmente, todas estas funes so similares s encontradas no Sandy Bridge, que tambm capaz de
desligar os ncleos e gerenciar o clock da GPU de forma bastante agressiva, e o principal motivo similar em
ambos os casos: reduzir o consumo do processador para permitir o uso temporrio de frequncias mais altas,
funo que a Intel chama de Turbo Boost e que a AMD batizou de Turbo Core.
A funo a mesma que nos chips Intel: Aproveitar os momentos em que o chip est operando abaixo do
TDP para realizar um overclock leve dos ncleos ativos, reforando assim o desempenho do processador em
aplicativos sem um bom suporte a multi-threading, como no caso da maioria dos jogos. Assim como no Sandy
Bridge, o Llano pode exceder temporariamente o TDP estipulado, trabalhando acima do limite por um curto
perodo de tempo enquanto o processador estiver trabalhando dentro de uma temperatura aceitvel e em
seguida voltando aos limites especificados.
A nica grande diferena entre os dois sistemas que o Sandy Bridge monitora a temperatura e consumo
com a ajuda de vrios sensores espalhados pelo processador, enquanto o Llano o faz via software,
monitorando o nvel de utilizao de cada ncleo e da GPU e o tipo de operaes executadas. Em teoria, o
sistema da Intel mais robusto, mas na prtica o resultado similar, com o nmero de estgios extras
dependendo mais do TDP e das frequncias mximas que o chip capaz de suportar do que da tecnologia
propriamente dita.
143

2.5.4.4 O SOQUETE FM1


Embora a AMD seja bem mais conservativa que a Intel em termos de mudana de soquetes, a incluso da
GPU tornou o Llano diferente o bastante para tornar a mudana necessria, dando origem ao soquete FM1,
usado nas placas para desktop.
O carro-chefe por enquanto o AMD A8-3850, onde a
CPU opera a 2.9 GHz (at 3.1 GHz com o Turbo Clock) e a
GPU vem completa, com suas 400 unidades de
processamento e opera a 600 MHz.
Outro modelo anunciado o A8-3800, onde a CPU opera
a 2.4 GHz (at 2.7 GHz com o Turbo Core).
Nas verses mveis, usado o soquete FS1, e a linha
inclui os chips das famlias A8, A6 e A4, que em breve
recebero similares desktop. Os A8 mveis incluem 4
ncleos e a GPU completa, com 400 unidades operando a
444 MHz, os A6 mantm os 4 cores, mas a GPU oferece
apenas 320 unidades e opera a 400 MHz, enquanto os A4
oferecem apenas 2 cores e uma GPU com 240 unidades,
operando a 444 MHz. Outra diferena que os A8 e A6
suportam memrias DDR3 de at 1600 MHz, enquanto os A4
ficam limitados s de 1333 MHz.

2.5.5 ENTENDENDO O BULLDOZER


Desde o lanamento do Core 2 Duo em 2006, a AMD vem tendo dificuldades de companhar a Intel no highend, limitando-se a manter uma briga de preos nos processadores mid-range e low-end, que so os mercados
menos lucrativos, atacando com processadores com trs e seis ncleos, usando clocks elevados e tudo o mais
que tivesse mo. Com o Sandy Bridge, a Intel avanou mais um degrau em termos de desempenho,
demandando um contra-ataque da AMD na forma de uma nova arquitetura. Surgiu ento o Bulldozer.
O Bulldozer o sucessor do Barcelona (Arquitetura K10 - Phenom e Phemon II), destinado a ser usado nos
processadores AMD da linha mainstream, deixando o low-end e os portteis a cargo do Llano e do Brazos, bem
como para os processadores remanescentes das linhas antigas. Ele um processador com 4 mdulos e 8
cores, produzido usando uma tcnica de 32 nm com SOI e HKMG na Global Foundries. O Bulldozer um chip
colossal, com 1.2 bilhes de transistores e 315mm, bem maior que o Sandy Bridge, que embora tambm seja
produzido em uma tcnica de 32 nm, tem 995 milhes de transistores e mede apenas 216 mm. De fato, o
Bulldozer quase to grande quanto o Thuban de 6 ncleos, que mesmo sendo produzido na antiga tcnica de
45 nm, mede 346mm, apenas 31mm a mais que o Bulldozer.
Apesar do tamanho, o Bulldozer no uma APU como o Llano ou o Sandy Bridge, seguindo um design
tradicional de CPU, incluindo apenas os processadores, caches, controlador de memria e PCI Express,
deixando o vdeo por conta do chipset ou de uma GPU dedicada. Ele deu origem ao Zambezi, o processador
destinado a desktops high-end, composto por quatro mdulos Bulldozer:

144

Pelo diagrama, voc pode contar 4 mdulos de processamento,


cada um com um cache L2 de 2 MB, que so complementados por
mais 8 MB de cache L3 (divididos em 4 mdulos), compartilhados
entre todos os mdulos. primeira vista, parece-se tratar de um
processador quad-core com ncleos excepcionalmente grandes,
mas na realidade cada mdulo composto por dois ncleos, que
possuem caches L1, agendadores e unidades de execuo
independentes, mas que compartilham os estgios de fetch e
decode e outros componentes, como se fossem gmeos siameses.
Por outro lado, cada mdulo possui um nico agendador de
operaes de ponto flutuante, responsvel pelas duas unidades de
processamento de 128 bits com suporte a operaes FMA (que
agrupam operaes de multiplicao em soma em uma nica operao) e ao SSE 4. Essa disposio a
resposta da AMD ao HyperThreading da Intel, uma implementao "fsica" de uma arquitetura capaz de
processar dois threads de cada vez, em oposio abordagem da Intel, que quase que puramente lgica. A
desvantagem desta abordagem que a AMD pagou um preo muito mais alto, j que a adio do segundo
ncleo de processamento aumentou a contagem de transistores de cada mdulo em cerca de 12%, contra os
menos de 5% de aumento que temos no caso do HyperThreading nos processadores Intel.
Ao desenvolver a arquitetura do Bulldozer, a AMD se preocupou em melhorar o desempenho do
processador em inteiros, com o desempenho em ponto flutuante e instrues SSE ficando em segundo plano,
j que a ideia da AMD seria que os aplicativos fossem capazes de executar grande parte das operaes de
ponto flutuante usando a GPU. Em outras palavras, embora no tenha uma GPU integrada, o Bulldozer foi
desenvolvido para servir como base para APUs de alto desempenho, que a AMD viria a lanar no futuro.
Presumindo que a AMD ganhasse a queda de brao, convencendo os desenvolvedores a otimizarem seus
aplicativos para o OpenCL, compartilhando a carga entre o processador e a GPU, essa combinao faria todo o
sentido.
145

O grande problema que o Bulldozer foi lanado sem uma GPU integrada e em um mundo em que a
computao heterognea (CPU+GPU) ainda est engatinhando. Isso fez com que a AMD acabasse com um
design inadequado em mos.

2.5.5.1 ENTENDENDO A ARQUITETURA


Embora a arquitetura K10 do Barcelona (usada no Phenom) tenha trazido vrios avanos, a espinha dorsal
do processador, que so o front-end (os estgios de fetch e decode, juntamente com o agendador de
instrues) e as unidades de execuo pouco mudaram desde a poca do Athlon original, com o mesmo frontend capaz de obter trs instrues por ciclo, com trs unidades de execuo capazes de processar trs
instrues simples por ciclo.
No Bulldozer, cada mdulo compartilha um decodificador de instrues capaz de obter quatro instrues
por ciclo, a partir de dois threads diferentes. Graas a isso, um Zambezi com 4 mdulos Bulldozer visto como
um processador de 8 ncleos pelo sistema operacional. O Bulldozer tambm capaz de fundir algumas
operaes x86 (recurso similar ao macro-ops fusion da Intel) que so processadas em um nico ciclo,
melhorando o desempenho global.
A Intel tambm usa um decodificador capaz de obter 4 instrues do ciclo a partir de dois threads
diferentes desde o Core 2 Duo (o que colocava o Phenom em desvantagem, j que nele o decodificador
capaz de obter apenas trs instrues por ciclo, de um nico thread), mas existe uma diferena crucial na
forma como as instrues so processadas, j que nos processadores Intel os dois threads so processados por
um nico ncleo, usando o HyperThreading, enquanto no Bulldozer dois ncleos dividem o processamento.
A principal questo em relao aos ncleos que cada ncleo Bulldozer possui apenas duas AGUs e duas
ALUs, contra as 3 ALUs e 3 GLUs do Phenom. O Bulldozer possui dois ncleos, o que significa um total de 4
ALUs e 4 GLUs para cada mdulo Bulldozer, contra as 3 ALUs e 3 GLUs de cada ncleo do Phenom. Com isso, o
desempenho em um nico thread inferior (apenas dois dos 4 pares de unidades de execuo podem ser
usados) mas em compensao o desempenho ao processar dois threads superior.
A comparao do Bulldozer com relao a outros processadores com diferentes nmeros de ncleos
complicada, pois cada mdulo fica no meio do caminho em relao ao poder de processamento de um ou dois
ncleos. Cada mdulo capaz de processar at 4 instrues por ciclo, o que mais do que o Phenom 3, porm
o mesmo que um Core i7, por exemplo. Isso fica mais claro ao olhar a tabela a seguir:
Phenom II

Bulldozer

Core i7

Instrues por ciclo

3 por ncleo

4 por mdulo (2 ncleos)

4 por ncleo

Threads

1 por ncleo

2 por mdulo

2 por ncleo (com o HT)

Instrues processadas com


dois ncleos

6 (3 por ncleo) 4 (2 por ncleo, 4 por mdulo)

8 (4 por ncleo)

Instrues processadas com


quatro ncleos

12

16

Instrues processadas com


oito ncleos

24

16

32

Veja que se compararmos um Zambezi de 4 mdulos (8 ncleos), com um Core i7 quad-core, temos uma
competio equilibrada, j que ambos so capaz de processar 8 threads e 16 instrues por ciclo. Entretanto,
se comparado com um hipottico Core i7 octo-core, o Zambezi de 8 ncleos teria grandes dificuldades, com 32
instrues por ciclo para o Core i7 e 16 para o Zambezi. Ou seja, embora tecnicamente o Zambezi seja um
processador com 8 ncleos, do ponto de vista do poder de processamento faz mais sentido consider-lo como
um processador quad-core.

146

Outro fator negativo o fato de a AMD ter optado por estender o nmero de estgios de pipeline no
Bulldozer, com o objetivo de aumentar as frequncias de operao suportadas pelo chip, algo que lembra um
pouco a aposta que a Intel fez no Pentium 4. Isso faz com que o Bulldozer sofra uma penalidade mais alta cada
vez que o circuito de branch-prediction faz uma previso errada. Com isso, temos uma reduo no poder de
processamento por ciclo, que precisa ser compensada com um clock mais alto. A perda foi parcialmente
reduzida pelo fato dos estgios de fetch e decode terem sido separados do circuito de branch-prediction,
permitindo que o processador continue obtendo, decodificando e obtendo dados para o processamento de
novas instrues enquanto espera o pipeline ser limpo aps uma previso errada, mas ainda assim o
desempenho global prejudicado pelo uso de mais estgios.
Outro ponto negativo a configurao do cache L1. Embora cada mdulo disponha de um cache de
instrues de 64 KB, o cache de dados foi reduzido para apenas 32 KB por mdulo, dividido em dois blocos de
16 KB, um para cada ncleo. Como pode imaginar, esta mudana permitiu AMD enxugar um bom nmero de
transistores em cada mdulo, permitindo que o Bulldozer se tornasse possvel em primeiro lugar, mas por
outro lado a mudana tem um impacto negativo no desempenho, aumentando o nmero de acesso aos
caches L2 e L3 e consequentemente aumentando a latncia.

2.5.5.2 OS MODELOS
A AMD enfrentou muitas dificuldades com a primeira gerao do Bulldozer, com o Zambezi falhando em
oferecer um desempenho competitivo com os processadores baseados no Sandy Bridge e em muitos casos
falhando at mesmo em superar o Phenom II por uma margem considervel, mesmo com as frequncias de
operao mais altas.
De uma forma geral, o FX-8150 de 3.6 GHz, que a nata dentro da linha Bulldozer consegue oferecer um
desempenho competitivo com o do Core i5 2500K, que um processador mid-range dentro da linha da Intel,
com 4 ncleos e 3.3 GHz. Entretanto, em aplicativos single thread o desempenho bem mais baixo e ele perde
at mesmo para processadores mais antigos, como o Core i7-920, que opera a apenas 2.66 GHz.

Se comparado linha anterior, o Bulldozer apenas um leve upgrade, com o FX-8150 de 4 mdulos
oferecendo um desempenho pouca coisa superior ao do Phenom II X6 1100T BE, que possui 6 ncleos e opera
a 3.3 GHz. Voc pode ver alguns nmeros em

147

http://www.anandtech.com/show/4955/the-bulldozer-review-amd-fx8150-tested/7
http://www.tomshardware.com/reviews/fx-8150-zambezi-bulldozer-990fx,3043-13.html
http://techreport.com/articles.x/21813/11
Parte disso se deve ao fato de o agendador do Windows 7 no fazer distino entre os mdulos (Correo:
A Microsoft lanou em meados de 2012 uma atualizao que corrige esse problema), vendo apenas 8
ncleos de processamento distintos. Com isso, o sistema toma decises erradas na hora de distribuir os
threads entre os diferentes mdulos, comprometendo o desempenho. O Windows 8 foi melhor otimizado
para o Bulldozer, o que faz com que o desempenho do processador em muitas tarefas seja at 10% superior ao
rodar o Windows 8 e aplicativos recentes, em comparao com o Windows 7. Embora menos dramtica, essa
mesma progresso pode ser notada em verses recentes do kernel Linux. Isso mostra que verses
aprimoradas do Bulldozer, em conjunto com sistemas operacionais melhor otimizados podem vir a oferecer
um desempenho mais animador em relao aos processadores Intel.
Por outro lado, inegvel que a gerao inicial do Bulldozer deixou um grande rombo na linha de produtos
da AMD, deixando de ser o processador capaz de competir de igual para igual com o Sandy Bridge que muitos
esperavam, para apresentar ganhos marginais em relao aos antecessores. Como sempre, a AMD compensou
isso posicionando o Zambezi como um processador mid-range e adotando uma poltica agressiva de preos, o
que fez com que no final ele acabasse sendo um bom custo-benefcio na maioria das situaes, mas
continuaram sem um processador high-end.
A linha baseada no Zambezi inclui 7 modelos, todos vendidos como processadores mid-range, com o FX8150 chegando ao mercado por US$ 280 e tendo o preo reduzido para US$ 245 pouco depois. Os outros
processadores so mais acessveis, com o FX-4100 tendo chegado ao mercado por apenas US$ 115.
FX-8150: 8 ncleos, 3.6 GHz (turbo at 4.2 GHz), 8 MB de L3, 125 watts
FX-8120: 8 ncleos, 3.1 GHz (turbo at 4.0 GHz), 8 MB de L3, 95 ou 125 watts
FX-8100: 8 ncleos, 2.8 GHz (turbo at 3.7 GHz), 8 MB de L3, 95 watts
FX-6100: 6 ncleos, 3.3 GHz (turbo at 3.9 GHz), 6 MB de L3, 95 watts
FX-4170: 4 ncleos, 4.2 GHz (turbo at 4.3 GHz), 4 MB de L3, 125 watts
FX-B4150: 4 ncleos, 3.8 GHz (turbo at 4.0 GHz), 4 MB de L3, 95 watts
FX-4100: 4 ncleos, 3.6 GHz (turbo at 3.8 GHz), 4 MB de L3, 95 watts
Como pode ver, alm das verses com 4 mdulos/8 ncleos, a linha inclui tambm verses com 6 e 4
ncleos (3 ou 2 mdulos), obtidas atravs do reaproveitamento de chips defeituosos. Apesar de menos
ncleos, estas verses apresentam o mesmo TDP de 95 ou 125 watts das verses com 8 ncleos, j que
operam com frequncias mais altas. Embora TDPs de at 125 watts fossem normais na poca do Pentium 4,
eles so considerados bastante altos para os dias de hoje, colocando definitivamente o Bulldozer na categoria
dos gastadores.
Todos estes modelos suportam memria DDR3 em dual-channel (com suporte a mdulos operando a at
1.866 GHz) e utilizam a plataforma AM3+ que a AMD introduziu em 2011 juntamente com os chipsets da srie
9.
O soquete AM3+ possui 942 pinos, um a mais que o oferecido pelo velho soquete AM3 e utiliza um link
serial mais rpido entre o processador e o controlador de energia, permitindo um controle muito mais preciso
das variaes de tenses necessrias para implementar as rpidas variaes de frequncia das quais o
processador capaz. Para diferenci-lo dos soquetes anteriores, a AMD optou por usar a cor preta.
Entretanto, a disposio de pinos no processador no quebrou a compatibilidade mecnica, permitindo
que os processadores da srie FX, baseados no Zambezi, possam ser encaixados em placas AM3 antigas. A
compatibilidade, por outro lado, depende de uma srie de fatores, sendo o principal dele a necessidade de
148

uma grande atualizao do cdigo do BIOS/EFI da placa, adicionando suporte s novas funes usadas pelo
Bulldozer.
De uma forma geral, apenas placas-me AM3+ baseadas em chipsets da srie 9xx oferecem suporte oficial
ao Bulldozer, e esta a nica combinao suportada pela AMD. Entretanto, existem casos de placas AM3+
baseado nos chipsets 890FX e 800G que receberam atualizaes e se tornaram compatveis. Existem tambm
casos de placas AM3 baseadas em chipsets anteriores que continuaram a ser vendidas mesmo depois do
lanamento do Bulldozer e foram tambm atualizadas para trabalhar com ele. Estes casos entretanto
demandam mais cautela, pois estas placas no suportam muitas das funes usadas pelo Bulldozer o que
reduz consideravelmente o desempenho do processador, fazendo com que em muitos casos ele sequer
acompanhe os velhos Phenom II. Os circuitos de alimentao das placas AM3 dimensionado para fornecer
apenas 110A (contra os 145A das AM3+) o que tambm limita a compatibilidade com os processadores de TDP
mais alto. Alm de oferecerem um suporte mais completo ao Bulldozer, as placas AM3+ preservam a
compatibilidade com os processadores antigos, de forma que elas so sempre a opo mais recomendada.

2.5.6 ENTENDENDO O IVY BRIDGE (INTEL CORE i DE 3 GERAO)


Seguindo o lanamento do Sandy Bridge, o Ivy Bridge marca mais um "tick" da Intel, mantendo a mesma
arquitetura bsica, mas agora migrando para uma tcnica de produo de 22 nm com o uso de transistores trigate (3d), contra os 32 nm com transistores regulares do Sandy Bridge. Apesar de a arquitetura do processador
ter pouco mudado, o Ivy Bridge introduziu uma nova GPU, o que explica o processador ter agora 1.4 bilhes de
transistores, contra os 1.16 do Sandy Bridge.
A melhoria na GPU considervel em relao gerao anterior, suficiente para tornar o Ivy Bridge mais
competitivo em relao s APUs da AMD no departamento grfico. Nos desktops a melhoria pode no parecer
to significativa, j que em geral os usurios que pagam mais caro por um Core i5 ou i7 so os mesmos que
tambm optaro pelo uso de uma GPU dedicada, mas uma GPU mais rpida muito significativa no mercado
mvel, onde no existe uma forma simples de upgrade. Como hoje em dia os notebooks respondem pela
maior parte das vendas, a nova GPU do Ivy Bridge acaba sendo um avano importante, permitindo que mais
usurios de notebooks tenham um desempenho "bom o suficiente" em jogos e aplicativos de renderizao,
sem falar na possibilidade de converter vdeos sem acabar com a carga da bateria, graas converso via
hardware.
Vendo o diagrama de blocos do Ivy Bridge fcil entender onde foram os 240 milhes de transistores
adicionais em relao ao Sandy Bridge. Embora o restante do processador quase no tenha mudado, o
processador grfico ficou muito maior, ocupando agora quase tanto espao quanto os ncleos de
processamento propriamente ditos:

149

As unidades programveis (EUs) dentro da GPU receberam grandes melhorias, oferecendo um IPC quase
duas vezes superior ao que tnhamos no Sandy Bridge. Alm disso, o Ivy Bridge incorpora 16 EUs (contra 12 do
Sandy Bridge). Entretanto, ao contrrio do que seria de se esperar, a Intel optou por reduzir sutilmente o clock
da GPU (em vez de aument-lo, como seria de se esperar com a migrao para os 22 nm), com o objetivo de
manter o consumo sob controle. Apesar disso, mas melhorias na arquitetura fazem com que o desempenho do
vdeo seja consideravelmente superior ao que tnhamos no Sandy Bridge.
A GPU incorporou suporte ao DirectX 11, suporte a at trs displays independentes, suporte ao OpenCL e
ao DirectCompute (permitindo que o processamento da GPU seja aproveitado por aplicativos que suportam
algum dos dois padres), um pequeno cache L3 dedicado de 256 KB, dentro da prpria GPU (que alm dele
continua tendo acesso ao L3 principal em regime compartilhado) e um conversor mais rpido, trazendo
melhoras tambm na converso de vdeos atravs do Quick Sync.
A nova GPU foi batizada de "HD Graphics 4000" pela Intel, e assim como na famlia anterior, vem em duas
verses, de acordo com o modelo. A GT2 (HD 4000) a verso completa, com todas as EUs ativas, enquanto a
GT1 (HD 2500) uma verso capada, com apenas 8 EUs. Devido ao clock default relativamente baixo, as duas
verses oferecem uma boa margem de overclock, que permite reduzir a diferena em relao ao Llano.
Por ser apenas um "tick" do Sandy Bridge, o Ivy Bridge mantm os mesmos 4 ncleos e o mesmo cache L3
compartilhado de 8 MB, acessado atravs do mesmo barramento de anel compartilhado introduzido no Sandy
Bridge. O cache dividido em 4 mdulos de 2 MB, o que permite que a Intel desabilite sees individuais de
acordo com os modelos. Assim como no Sandy Bridge, os modelos com 4 ncleos viro com os 8 MB
completos, enquanto modelos de baixo custo ou com apenas 2 ncleos viro com apenas 6, 4 ou 2 MB. A
configurao dos caches L1 e L2 tambm no mudou, sendo mantido o mesmo L1 de 64 KB (32 para dados e
32 para instrues) e o L2 de 256 KB por ncleo.
Os modelos iniciais do Ivy Bridge incluem:
Core i7-3770K: 4 ncleos, 8 threads, 3.5 GHz (turbo 3.9 GHz), 8 MB de L3, HD 4000, 77W
Core i7-3770: 4 ncleos, 8 threads, 3.4 GHz (turbo 3.9 GHz), 8 MB de L3, HD 4000, 77W
Core i5-3570K: 4 ncleos, 4 threads, 3.4 GHz (turbo 3.8 GHz), 6 MB de L3, HD 4000, 77W
Core i5-3550: 4 ncleos, 4 threads, 3.3 GHz (turbo 3.7 GHz), 6 MB de L3, HD 2500, 77W
Core i5-3450: 4 ncleos, 4 threads, 3.1 GHz (turbo 3.5 GHz), 6 MB de L3, HD 2500, 77W
Core i7-3770S: 4 ncleos, 8 threads, 3.1 GHz (turbo 3.9 GHz), 8 MB de L3, HD 4000, 65W
Core i7-3770T: 4 ncleos, 8 threads, 2.5 GHz (turbo 3.7 GHz), 8 MB de L3, HD 4000, 45W
Core i5-3550S: 4 ncleos, 4 threads, 3.0 GHz (turbo 3.7 GHz), 6 MB de L3, HD 2500, 65W
Core i5-3450T: 4 ncleos, 4 threads, 2.8 GHz (turbo 3.5 GHz), 6 MB de L3, HD 2500, 65W
Veja que todos os chips da srie i5 com o Ivy Bridge vm com o HyperThreading desabilitado, tornando o
recurso uma exclusividade dos chips da srie i7. Quando forem lanados, os processadores da srie i3 viro
com o HyperThreading (oferecendo 4 threads, como o i5, mas com apenas dois ncleos), mas eles carecero
do Turbo, limitando ainda mais o desempenho em relao aos modelos mais caros. Como de praxe, apenas os
modelos da srie K oferecem o multiplicador destravado, os demais podem ser overclocados apenas atravs
da frequncia base (o BLCK), o que limita os overclocks a 7% ou menos.
Embora as frequncias limite sejam basicamente as mesmas que nos modelos anteriores, o Turbo Boost
atua de forma um pouco mais agressiva no Ivy Bridge, permitindo um aumento de at 200 MHz em todos os
modelos com os 4 ncleos ativos, mantendo tambm dois dos ncleos ativos por uma faixa de frequncia mais
alta antes de chavear para um nico ncleo. Este um dos fatores por trs do aumento de desempenho dos
novos modelos em relao aos baseados no Sandy Bridge.

150

importante ter em mente tambm a diferenciao das GPUs. Se voc est comprando um notebook ou
no pretende usar uma GPU dedicada, importante escolher um modelo com a HD 4000, j que o
desempenho da HD 2500 bem inferior, prximo ao oferecido pelos modelos baseados no Sandy Bridge.
Independentemente do processador ser da srie K ou no, a GPU pode ser overclocada.
Em termos de desempenho, o Ivy Bridge oferece ganhos modestos em relao a um Sandy Bridge do
mesmo clock. Em diferentes testes, o i7-3770K consistentemente de 4 a 8% mais rpido que o Core i7-2600K
baseado no Sandy Bridge (que opera a uma frequncia 100 MHz inferior), embora perca para os modelos
baseados no Sandy Bridge-E (de 6 ncleos) em aplicativos multi-thread. Voc pode ver alguns nmeros nos
links a seguir:
http://www.xbitlabs.com/articles/cpu/display/core-i7-3770k-i5-3570k_5.html
http://techreport.com/articles.x/22835/6
http://www.anandtech.com/show/5771/the-intel-ivy-bridge-core-i7-3770k-review/6
http://www.anandtech.com/show/5772/mobile-ivy-bridge-and-asus-n56vm-preview/4
http://www.techspot.com/review/523-ivy-bridge-intel-core-i7-3770k/page3.html
http://www.neoseeker.com/Articles/Hardware/Reviews/Intel_Core_i7_3770K/5.html
http://hothardware.com/Reviews/Intel-Core-i73770K-Ivy-Bridge-Processor-Review/?page=7
http://www.tomshardware.com/reviews/ivy-bridge-benchmark-core-i7-3770k,3181-12.html
Apesar do grande aumento no poder bruto de processamento, a HD 4000 capaz de oferecer um FPS
apenas 35 a 55% superior na grande maioria dos jogos, uma vez que o desempenho em cenrios real
limitado tambm por outros fatores, especialmente o barramento com a memria. Jogadores exigentes vo
continuar torcendo o nariz, mas o desempenho j suficiente para rodar a maioria dos ttulos atuais a
1366x768 (a resoluo padro dos notebooks atualmente) com um FPS na casa dos 30 a 60 quadros, o que
satisfatrio para jogadores casuais. Mesmo o pesado Battlefield pode ser jogado a 37 FPS a 1366x768 com
baixa qualidade.
Apesar das melhorias, a HD 4000 continua bem atrs da Radeon HD 6550D do Llano em praticamente
todas as tarefas, em geral oferecendo apenas 55 a 65% do FPS entregado pela concorrente. possvel reduzir
bastante a diferena via overclock, mas mesmo assim o Llano continua sendo mais rpido em jogos, apesar de
contar com uma CPU bem mais simples.
O destaque fica por conta do consumo eltrico mais baixo e da melhoria do desempenho da GPU, que
tornam o Ivy Bridge um processador bem mais competitivo nos notebooks. Nos desktops, por outro lado, ele
no um upgrade to suculento, j que o ganho por clock modesto e as margens de overclock so menores.

2.5.6.1 TDP CONFIGURVEL


Desde o lanamento da plataforma Core, reduzir o consumo eltrico dos processadores tm sido uma
prioridade para a Intel. Com o Sandy Bridge a Intel introduziu uma nova varivel, o uso do Turbo Boost para
aumentar temporariamente o clock (e consequentemente a dissipao trmica do processador) em situaes
em que isso pode ser feito sem exceder a temperatura limite, na maioria dos casos aproveitando o "gap" entre
o momento em que o processador comea a esquentar e o momento em que a temperatura realmente atinge
um valor crtico.
Com o Ivy Bridge a Intel introduziu uma nova ideia, que a do TDP configurvel. Alm do TDP nominal,
muitos modelos oferecem mais duas possibilidades, batizadas de "cTDP down" (um TDP mais baixo que o
habitual, que pode ser usado quando se deseja economizar energia) e "cTDP up" (que pode ser usado para
liberar mais desempenho), valores que podem ser ajustados como resposta a diferentes circunstncias.
Um processador mvel, por exemplo, pode ter um TDP tpico de 17 watts, mas possuir um cTDP down de
13 watts (que pode ser usado para aumentar a durao da bateria) e um cTDP up de 33 watts, utilizvel
quando o notebook est plugado em uma dock station com refrigerao adicional, por exemplo. Isso abre
151

vrias novas possibilidades em termos de customizao e de acessrios, com dock stations e outras solues
de refrigerao capazes de no apenas reduzir a temperatura, mas tambm de aumentarem o desempenho
(abrindo a possibilidade de tirar proveito do cTDP up) bem como mais opes para PCs e notebooks de baixo
consumo.
De incio, o TDP configurvel est disponvel apenas nas sries ULV, que oferecem um TDP nominal de
17W, cTDP down de 13W, e cTDP up de 33W; e XE, que trabalham com um TDP nominal de 55W, cTDP down
de 45W, e cTDP up de 65W. Veja que a mudana significativa especialmente nos processadores da srie ULV,
que podero oferecer um desempenho similar dos chips para desktops ao receberem refrigerao adicional.

2.5.7 ENTENDENDO O HASWELL (INTEL CORE i DE 4 GERAO)


Antes de comear a falar sobre as novidades do chip, vamos lembrar como a estratgia de
desenvolvimento da Intel. A companhia trabalha com o modelo tick-tock, ou seja, todo ano ela lana um
produto novo. Nos anos tick, existe uma melhoria significativa na arquitetura anterior, levando a um
processo de fabricao menor e com menos consumo. Nos anos tock, a Intel introduz mudanas mais
radicais na arquitetura. E justamente nessa fase que estamos agora.
A primeira diferena que percebemos em relao famlia anterior o tamanho do chip, que aumentou
de 160 para 177 nm, algo que parece insignificante, mas representa uma mudana importante. A principal
novidade a GPU integrada nos processadores Haswell, que deve ser muito mais poderosa do que na gerao
anterior.

2.5.7.1 VDEO ONBOARD COM QUALIDADE


Esquea o que voc est acostumado a ouvir sobre chips onboard. Nessa nova gerao, a Intel quer mudar
as regras do jogo.
As novas GPUs sero compatveis com as principais tecnologias da atualidade, como o DirectX 11.1,
OpenGL 4.1, OpenCL 1.2 e uma nova verso da engine QuickSync, responsvel pela decodificao de vdeo.
Alm disso, existe a compatibilidade com a interface DisplayPort 1.2 e o suporte a resolues 4K.
A famlia Ivy Bridge trouxe trs modelos diferentes de GPUs integradas. O mais potente e mais comum
o HD 4000, que possui 16 unidades de execuo; o HD 2500 utiliza a mesma arquitetura, mas possui
152

apenas 6 unidades de execuo; o ltimo da famlia o HD Graphics, que apresenta praticamente o mesmo
desempenho do modelo HD 2500, mas possui menos recursos.
Para inaugurar uma nova era no desempenho grfico, a Intel est mudando tudo, at mesmo o nome das
GPUs. Em vez de cham-las de Intel HD Graphics, a nova gerao foi batizada como Iris Graphics. O nmero de
modelos tambm aumentou de trs para cinco, que sero divididos entre diferentes categorias de consumo
energtico, desempenho e preo.

A Intel garante que o Iris pode oferecer at trs vezes mais potncia no processamento dos grficos que a
terceira gerao (HD 3000 e HD 4000) que acompanha os processadores Ivy Bridge. Isso significa que voc
finalmente vai poder jogar os games de ltima gerao em notebooks e, principalmente, ultrabooks, que so
uma das principais bandeiras da Intel na atualidade.
Dois dos novos modelos de aceleradores grficos da Intel devem ser destinados exclusivamente para os
ultrabooks: o primeiro deles o Intel Iris Graphics 5100, que, de acordo com a Intel, pode oferecer at duas
vezes o desempenho da HD 4000 da gerao anterior.
Para que isso seja possvel, a empresa precisou aumentar o consumo energtico (TDP) dos processadores,
que era de 17 W (nas duas geraes anteriores), para 28 W, o que certamente vai impactar na construo das
mquinas. Possivelmente veremos apenas os modelos maiores (13 polegadas para cima) utilizando essa
verso.
Os ultrabooks menores e mais baratos devem receber o Intel HD Graphics 5000 (a Intel decidiu
utilizar o nome Iris apenas para os modelos mais potentes). O diferencial desse modelo o consumo
energtico, que de apenas 15 W, sendo que o desempenho oferecido de at 1,5 vez maior que o dos
aceleradores HD 4000.
O Intel Iris 5200 uma GPU mais potente. O modelo deve ser direcionado para os notebooks tradicionais e
desktops All-in-one, pois um desempenho maior tambm revela uma necessidade energtica maior e,
consequentemente, mais dissipao de calor.
A arquitetura do Iris 5200 similar do Iris 5100, porm contando com uma memria eDRAM de 128MB
que atuar como uma cache L4, aumentando a performance uma vez que desafoga um pouco o barramento
principal, j que trata-se de um cenrio de memria compartilhada CPU + GPU. De acordo com a Intel, o ganho
153

de performance desse modelo em relao ao Intel HD 4000 de cerca de 2,5 vezes, o que coloca a GPU no
mesmo patamar de solues dedicadas offboard de mdio desempenho.
Os novos aceleradores grficos Iris 5200 da Intel tambm devem estar presentes nos desktops. Para
identificar os chips com a GPU, basta olhar o modelo do processador e procurar o sufixo R.
Com isso, a Intel quer que voc consiga jogar games de ltima gerao como Tomb Raider ou Bioshock
Infinite com uma boa qualidade visual diretamente em seu novo ultrabook.
Observe que, na imagem abaixo, pode-se observar facilmente o chip extra contendo 128MB de memria
eDRAM:

2.5.7.2 GPUS PARA DESKTOPS


A maior vantagem dos modelos dedicados para desktop que eles podem consumir mais energia,
garantindo mais potncia. Graas a isso, possvel que possam oferecer um desempenho at trs vezes maior
que as GPUs HD 4000, de acordo com os testes apresentados pela Intel.
Para completar a famlia, a fabricante tambm oferece modelos mais simples. Chamados apenas de HD
Graphics 4600, 4400 e 4200, esses aceleradores grficos no tm o seu foco na acelerao 3D, mas sim nos
recursos, que devem ser os mesmos da famlia 5000.
J o ltimo modelo de todos chamado simplesmente de HD Graphics e deve ser direcionado para
equipamentos de baixo custo, como as CPUs Pentium e Celeron.

2.5.7.3 RESUMO DAS GPUS DO HASWELL


Em resumo, temos o seguinte:

HD Graphics (GT1, 10 execution units)


HD Graphics 4200, 4400, 4600, P4600, P4700 (GT2, 20 execution units)
HD Graphics 5000 (GT3, 40 execution units, duas vezes a performance bruta das HD4xxx para situaes
especficas, 15W TDP SKUs)
Iris Graphics 5100 (Semelhante a HD Graphics 5000, porm consumindo mais potncia, 28W TDP SKUs)
Iris Pro Graphics 5200 (GT3e, Semelhante as demais da srie 5000, porm com contando a memria
eDRAM de 128MB que atuar como uma cache L4, aumentando a performance uma vez que desafoga
um pouco o barramento principal, uma vez que trata-se de um cenrio de memria compartilhada
CPU + GPU).

154

2.5.7.4 BATERIA DE LONGA DURAO


Um dos maiores avanos da Intel com
a nova tecnologia o gerenciamento de
energia dos novos processadores. At a
gerao anterior (Ivy Bridge) a prpria
Intel admitiu que os processadores
mveis eram verses para desktop
modificadas. Isso muda com o Haswell: a
nova arquitetura foi desenvolvida do zero
para garantir mais desempenho com um
consumo energtico menor.
Um dos slogans da Intel para essa
gerao O maior aumento de vida til
de bateria [de uma gerao para outra] na histria da Intel. De acordo com ela, isso significa que,
dependendo da aplicao, a durao da bateria pode ser at trs vezes maior do que na gerao anterior.
O sistema ainda inclui diversos novos recursos de gerenciamento de energia. Um deles o S0ix, que
permite que o sistema continue enviando e recebendo dados sem ligar totalmente a CPU e a GPU,
aumentando o nmero de funes que podem ser executadas pelo sistema sem que ele esteja realmente ativo
e reduzindo a quantidade de energia necessria para mudar para um estado totalmente ativo.
Esse novo modo de espera pode aumentar a durao da bateria de 4 (na gerao anterior) para at 13
dias, de acordo com informaes da Intel.

2.5.7.5 NOVA FAMLIA DE PROCESSADORES, NOVA GERAO DE CHIPSETS


Como de costume, uma nova gerao de processadores tambm traz uma nova famlia de chipsets. As
sries 6 e 7 eram compatveis entre si, permitindo que os processadores das duas geraes pudessem ser
utilizados sem problemas com qualquer um dos chipsets.
Com o Haswell e a famlia 8, isso deve mudar. Para instalar os novos processadores preciso ter uma
placa-me com suporte ao novo chipset e ao novo soquete utilizado pelos processadores, o LGA 1150.
Os novos chipsets da srie 8
chegam com suporte a 14 portas
USB, sendo que, desse total, 8 portas
so compatveis com o padro USB
3.0. O chipset tambm aceita seis
portas Sata III. As portas PCI Express
x1 sero compatveis com o padro
2.0 e controladas diretamente pelo
chipset, enquanto o PCI Express 3.0
(utilizado por placas de vdeo
modernas) controlado diretamente
pela CPU.
O controlador de memria
continua sendo integrado ao
processador,
oferecendo
uma
velocidade mxima (oficial) de 1.600
MHz DDR3, assim como na gerao
anterior.
155

A maior novidade vem por conta da extino completa do suporte ao barramento PCI tradicional, que foi
introduzido pela Intel em 1992. Mesmo que muitos dos dispositivos modernos j trabalhem com o PCI Express,
muitos perifricos e placas controladoras (como placas de monitoramento de vdeo e de som) ainda utilizam o
PCI tradicional, o que deve gerar certo desconforto na hora da migrao para a nova plataforma.

2.5.7.6 PROCESSADORES PARA DESKTOP


Como de costume, a nova linha de processadores chega com muitos modelos diferentes. preciso estar
atento s novidades e, principalmente, ao nmero e ao sufixo dos processadores.
Para os desktops, por exemplo, a Intel est lanando seis modelos diferentes. Para complicar um pouco a
situao, cinco deles comeam com i7-4770. O nico jeito de diferenciar um modelo do outro o sufixo ao
lado do nmero:

Sem sufixo: processador com mais consumo, clock mais alto e de maior desempenho;

Sufixo T: processador com baixo TDP, ou seja, menor consumo energtico e clock mais baixo;

Sufixo S: processador que uma mistura dos dois primeiros, oferecendo equilbrio entre consumo e
desempenho;

Sufixo K: processador com o clock destravado, ideal para overclocks;

Sufixo R: processador com GPU de alto desempenho integrada Iris Pro 5200;

Vale lembrar que todos os processadores com sufixo R s vo estar disponveis no formato BGA, ou seja,
soldados na placa. Desse modo, mais provvel que esse modelo seja distribudo apenas em solues
altamente integradas, como computadores all-in-one. Todos os outros processadores trazem o chip grfico
Intel HD 4600.

Alm da srie i7, a Intel tambm est lanando os processadores i5 para desktops. Os modelos continuam
sendo quad-core, mas perdem a funo Hyper-Threading. Alm disso, o cache L3 diminui de 8 para 6 MB.
Todos os sufixos da srie i7 continuam vlidos, com exceo do sufixo R. Todos os processadores devem trazer
GPUs Intel HD 4600.
156

A primeira leva de processadores mveis da arquitetura Haswell deve contar apenas com modelos da srie
Core i7. Todos eles so quad-core com suporte ao Hyper-Threading. A principal diferena entre as verses
mveis e para desktops so os sufixos: enquanto os modelos MX e MQ trazem GPUs Intel HD 4600, os
modelos HQ carregam o Intel Iris Pro 5200.

2.6 ALGUNS RESUMOS A RESPEITO DOS PROCESSADORES


2.6.1 OS DIFERENTES SOQUETES
At o 386, os processadores eram soldados ou encaixados em soquetes de presso. Como a frequncia das
placas-me era fixa e no se usava ainda a multiplicao de clock, no existiam muitos motivos para atualizar o
processador.
As coisas mudaram a partir do 486, que marcou a introduo dos soquetes ZIF (Zero Insertion Force),
destinados a facilitar os upgrades de processador. Eles utilizam um sistema de trava por alavanca, que permite
inserir e remover o processador facilmente, sem precisar fazer fora, evitando o risco de danos:
Com exceo do slot 1 usado no Pentium II e do slot A usado no Athlon original, todos os processadores
da em diante adotaram o uso de soquetes ZIF, muito embora os encaixes tenham mudado conforme foram
sendo lanadas novas plataformas. De uma maneira geral a Intel a mais afoita por lanar novos encaixes, j
que as mudanas ajudam a popularizar novas tecnologias e, principalmente, ajudam a vender mais placas e
chipsets, que so a segunda maior fonte de renda da empresa.
A AMD por outro lado tradicionalmente mais conservadora, estendendo o uso das plataformas antigas
para aproveitar as oportunidades deixadas pelas mudanas abruptadas da Intel. Foi assim como a transio do
Pentium MMX para o Pentium II (quando a AMD vendeu zilhes de processadores K6-2 para placas soquete 7),
na malfadada introduo do Pentium 4 com memrias Rambus (quando o Athlon soquete A ganhou espao),
na transio para as placas soquete 775 e, mais recentemente, na transio para o Core i5/i7, quando muitos
tm optado pelos modelos de baixo custo do Phenom II e Athlon II, que continuam compatveis com as placas
AM2+ usadas pela gerao anterior.
Vamos ento a um rpido resumo dos soquetes usados at aqui:
Soquete 3: Sucessor dos soquetes 1 e 2 usados nas primeiras placas para 486. A diferena fica por conta
dos processadores suportados: o soquete 3 suporta todos os 486, alm dos AMD 5x86, Cyrix 5x86 e Pentium
Overdrive, enquanto as placas soquete 1 e 2 suportam apenas at o DX-2 66.
Soquete 4 e 5: Usados nas primeiras placas para processadores Pentium 1 (o soquete 4 suporta apenas os
modelos de 60 e 66 MHz e o soquete 5 suporta at o 133), mas foram rapidamente substitudos pelo soquete
7. Existiu tambm um "soquete 6", que seria destinado a placas para 486, como uma atualizao do soquete 3,
mas ele no chegou a ser usado.
Soquete 7: Teve uma vida til surpreendentemente longa, oferecendo suporte ao Pentium, MMX, K5, K6 e
ao 6x86 da Cyrix. Mais tarde foram lanadas placas soquete 7 atualizadas com suporte a bus de 100 MHz, que
foram usadas ao longo da era K6-2, servindo como uma opo de baixo custo s placas slot 1 e ao Pentium II.
Soquete 8: o soquete retangular, que foi usado pelo Pentium Pro (150, 166 e 200 MHz). A sinalizao
muito similar usada pelo slot 1, mas o formato diferente.
Slot 1: Usado pelo Pentium II, verso inicial do Celeron (os modelos sem cache) e pelas primeiras verses
do Pentium III. Ele marcou o fim da compatibilidade de placas entre processadores da Intel e da AMD.
Slot A: Foi usado pela AMD nas primeiras verses do Athlon. Assim como no caso do Pentium II, elas
usavam o formato de cartucho, com chips externos de memria cache. Teve uma vida til curta, sendo logo
substitudo pelo soquete A.
157

Soquete 370: O soquete 370 foi uma verso miniaturizada do Slot 1 (basicamente a mesma sinalizao P6,
mas em um formato mais eficiente) destinada aos processadores com cache L2 integrado. Foi usado pelas
verses subsequentes do Pentium III e Celeron (com cache) e tambm pelo VIA C3. A plataforma fez bastante
sucesso, mas acabou tendo uma vida til relativamente curta devido introduo do Pentium 4.
Como a sinalizao a mesma, existiram adaptadores que permitiam o uso de processadores soquete 370
em placas slot 1 antigas, mas nesse caso a compatibilidade dependia tambm do suporte por parte do BIOS e
dos reguladores de tenso da placa. Outra observao que a primeira gerao de placas soquete 370
(destinadas ao Celeron Mendocino) no suportavam os processadores da famlia Pentium III devido a
limitaes nas tenses suportadas.
Soquete A: Com o lanamento do Athlon Thunderbird (com cache L2 integrado), a AMD tomou um rumo
similar ao da Intel e desenvolveu uma verso miniaturizada do Slot A, dando origem ao soquete A. Ele teve
uma vida til surpreendente, sendo usado por todas as verses do Athlon e do Duron, indo do Thunderbird ao
Athlon XP e Sempron (de 32 bits). Foi substitudo apenas com o lanamento do Athlon 64.
Soquete 423: Foi usado pelas primeiras verses do Pentium 4, com core Willamette. Acabou sendo usado
em poucas placas, sendo logo substitudo pelo soquete 478.
Soquete 478: Foi introduzido junto com o lanamento do Pentium 4 Northwood e continuou sendo usado
pelos Pentium 4 com core Prescott e pelos modelos iniciais do Celeron D, que foram bastante populares entre
2006 e 2007 devido ao baixo custo.
Soquete 754: Este foi o encaixe usado pelas verses single-channel do Athlon 64 e do Sempron, que
conviveram com as placas soquete 939, destinadas ao Athlon FX. A grande diferena entre as duas plataformas
era que o soquete 939 oferecia suporte a dual-channel, o que resultava em um ganho de desempenho
perceptvel. Por outro lado, tanto as placas soquete 939 quanto os Athlon 64 FX eram mais caros, o que
manteve o soquete 754 como a opo mais popular.
Soquete 939: Foi usado pelo Athlon 64 FX e pelas verses iniciais do Athlon X2. Ele surgiu como uma
verso desktop do soquete 940 que era usado pelo Opteron. As duas plataformas eram idnticas (dualchannel, HyperTransport operando a 1.0 GHz e assim por diante), mas o Opteron utilizava memrias DDR
registered, enquanto o Athlon 64 FX usava mdulos DDR comuns.
Soquete AM2: O uso do controlador de memria integrado obrigou a AMD a migrar para um novo soquete
com a transio para as memrias DDR2, j que a pinagem dos mdulos diferente. Isso deu origem ao
soquete AM2 com suporte a DDR2 e dual-channel, que substituiu tanto o soquete 754 quanto o 939.
O primeiro processador a us-lo foi o Athlon 64 com Core Orleans e ele continuou sendo usado durante a
era Athlon X2. As placas AM2 atualizadas para oferecer as tenses corretas podem ser tambm usadas em
conjunto com o Phenom X3 e X4 ou (em casos mais raros) at mesmo com o Phenom II e Athlon II em verso
AM2+.
Soquete AM2+: O AM2+ uma verso atualizada do soquete AM2, que oferece suporte ao
HyperTransport 3.0 e permite o uso de tenses separadas para os cores e o controlador de memria (split
power planes), usado a partir do Phenom para reduzir o consumo eltrico.
A pinagem continua a mesma em relao ao AM2, o que permite usar processadores AM2 em placas
AM2+ e vice-versa. Entretanto, o uso de placas antigas depende de um upgrade de BIOS que inclua suporte
aos novos processadores.
Soquete AM3: O AM3 surgiu da necessidade de oferecer um soquete compatvel com as memrias DDR3,
que comearam a se tornar mais populares a partir do lanamento do Core i7. O AM3 utiliza uma pinagem
muito similar a do AM2+, o que permitiu AMD adicionar um sistema de compatibilidade de mo nica nos
Phenom II e Athlon II em verso AM3. Eles incluem um controlador de memria duplo (DDR3 e DDR2) e
podem ser usados tanto em placas AM3 quanto em placas AM2+ capazes de fornecer as tenses adequadas.
158

Por outro lado, a migrao para as memrias DDR3 quebrou a compatibilidade com os processadores AM2
e AM2+ antigos, que no podem ser usados nas novas placas. Devido a isso, o AM3 adotou o uso de 3 pinos de
controle, que impedem o encaixe dos processadores incompatveis.
Soquete LGA-775: O soquete 775 marcou a migrao da Intel para o padro LGA, onde os pinos foram
movidos do processador para o soquete, encurtando o comprimento das trilhas e permitindo assim o uso de
frequncias ligeiramente mais altas.
Com a possvel exceo do antigo soquete 7, o 775 o soquete de maior longevidade da Intel. Ele foi
introduzido com o lanamento do Pentium 4 com core Cedar Mill, foi usado durante a era Pentium D e
continuou na ativa durante toda a era Core 2 Duo e Core 2 Quad, sendo aposentado apenas com a introduo
do Core i7.
Soquete LGA-1366: A introduo do Nehalem marcou a migrao da Intel para o uso de controladores de
memria integrados. Com isso, o nmero de contatos no processador aumentou bastante, dando origem ao
LGA-1366 usado pelos Core i7 baseados no Bloomfield, com suporte a triple-channel.
Soquete LGA-1156: O LGA-1156 a verso "desktop" do LGA-1366, usado pelos Core i7 e Core i5 baseados
no core Lynnfield. As duas grandes diferenas entre as duas famlias o uso do controlador PCI-Express
integrado e o uso de um controlador de memria dual-channel (que levou reduo no nmero de contatos).
O LGA-1156 marcou tambm o fim da ponte norte do chipset, movida para dentro do processador.
Soquete LGA-1155: O LGA-1155 foi o sucessor do LGA-1156 voltado para processadores Intel Core iX de
segunda gerao (Sandy Bridge). Os Ivy Bridge usam este mesmo soquete.
Soquete LGA-1150: O LGA-1150 est sendo usado na terceira gerao dos processadores Intel Core iX,
conhecidos como Haswell.

2.6.2 RVORE GENEALGICA SIMPLIFICADA DOS PROCESSADORES INTEL E AMD

159

2.6.3 INTEL: EVOLUO DAS ARQUITETURAS

160

EXERCCIOS
1) O que um processador? Como e por que ele precisa ser programado?
2) O que voc entende por clock? O que podemos dizer do clock dos processadores ao longo da histria?
3) Qual o significado de dizermos que um processador de X bits? Esse nmero importante? Explique.
4) Por que o PC se tornou um sucesso?
5) Qual o sistema operacional do primeiro PC? Era diferente dos de hoje? Explique.
6) O 386 foi um marco na histria dos processadores, por ser o primeiro a ser de 32 bits e introduzir diversos
recursos usados at hoje. Descreva esse processador quanto a:
a. Introduo do cache (o que , e por que foi necessria).
b. Capacidade de endereamento de memria (ou seja, de quanta memria ele consegue enxergar).
c. Recursos do Modo Protegido (descreva sucintamente cada um deles)
7) A partir do 486, introduziu-se o recurso de multiplicao de clock, presente at hoje em todos os
processadores. Explique por que isso foi necessrio, e como funciona essa tcnica.
8) A tcnica conhecida como Pipeline comeou a ser usada pela Intel a partir do 486. Explique com suas
palavras o que voc entende por Pipeline.
9) Houve alguma mudana no cache da era 486? Explique.
10) O Pentium foi o primeiro processador a usar o conceito de arquitetura superescalar. O que isso? De que
forma o mecanismo de branch prediction (execuo especulativa) trabalha implementando isso?
11) O cache do Pentium mudou em relao ao 486? Como?
12) O Pentium Pro, apesar de ter feito relativamente pouco sucesso na histria da Intel, inaugurou o uso de
uma arquitetura que, com muitas atualizaes, continua em uso at hoje. Quais foram seus quatro pilares
fundamentais? Explique-os, sem copiar do texto.
13) No Pentium II, a Intel resolveu que a cache L2 no mais ficaria no ncleo. Explique o porqu disso. Onde
ela foi colocada e por qu?
14) O Pentium II tinha o dobro de estgios de pipeline em relao ao Pentium. Quais as vantagens e
desvantagens disso?
15) O que foi o Celeron?
16) Uma das principais novidades do Pentium III so as instrues SSE. Explique no que isso ajuda os
programas otimizados para elas.
17) No Pentium III, finalmente a Intel resolveu voltar com a cache L2 definitivamente para o ncleo do
processador. Por que isso foi novamente possvel? Qual o ganho com isso?

161

18) O Athlon foi a resposta definitiva da AMD ao sucesso do Pentium III. Ele foi o inicio de uma era de grande
destaque na histria da AMD. Descreva alguns pontos sobre ele que, de acordo com o texto, voc julga
importantes.
19) O Athlon Thunderbird no utilizava nenhum tipo de proteo sobre o ncleo do processador. Por qu?
Quais os problemas?
20) Explique por que, a partir do Athlon XP, a AMD resolveu vender seus processadores baseados no ndice PR
(Performance Rate).
21) Qual era o problema com o padro de memrias que a Intel tentou impor com o Pentium IV?
22) O Pentium IV desde a sua concepo foi um processador feito para atingir clocks elevados. Parte disso
deve-se a elevado nmero de estgios de Pipeline (Hyper Pipeline Technology). O que tem a ver uma coisa
com a outra?
23) Qual a ideia por trs do Hyper-Threading, introduzida a partir do Pentium IV Northwood? (O bacana que
ela morreu na gerao Core e voltou a ser usada nos processadores i5/i7 modernos!).
24) O Pentium D comeou a usar dois ncleos (dual core) num mesmo encapsulamento. Isto significa o dobro
de desempenho que a gerao anterior, que usava um nico ncleo? Explique (detalhe, essa explicao
vlida at os dias de hoje).
25) Qual a mudana principal introduzida pelo soquete LGA-775 (em uso at hoje)? Vantagens/Desvantagens?
26) Quais as maiores limitaes da plataforma x86?
27) O que quer dizer um processador ser de 64 bits?
28) Athlon 64 e Itanium. Ambos processadores de 64 bits. Qual a principal diferena? Quem foi o vencedor?
Por qu?
29) Processadores de 64 bits so 2x mais rpidos que os de 32 bits? Por qu?
30) O que preciso para rodar um software qualquer de 64 bits? E como ficam os de 32 bits nesse meio?
[Assunto abordado em sala de aula]
31) Cite as principais vantagens em se adotar um sistema de 64 bits.
32) Como o x86-64 se comporta na presena de softwares de 32 e 64 bits?
33) Na arquitetura K8, um componente muito importante do chipset foi migrado para dentro do processador.
Qual foi? Por que essa deciso foi tomada?
34) O que o barramento HyperTransport? Ele continua em uso at hoje? Evoluiu?
35) Os dois primeiros soquetes (excluindo o 940 do Opteron, j que era voltado para servidores) do Athlon
foram o 754 e o 939. Quem os usava? Justifique a enorme diferena entre a quantidade de pinos do
soquete A (453 pinos) usado na arquitetura K7 e nos novos processadores K8. E entre o 754 e o 939?

162

36) Baseado nas imagens do Athlon 64, justifique por que cache to caro. Ainda mais, compare os caches L1
e L2.
37) Quais os benefcios dos sistemas de gerenciamento eltrico da CPU?
38) Por que comprar um Athlon 64 era to confuso? (Isso importante ser assimilado, uma vez que
modernamente as coisas esto melhores, porm ainda ocorre esse tipo de problema, em menor escala).
39) Para que serve e como funcionam programas como o CPU-Z?
40) O que a AMD fez quando o Athlon 64 estagnou em termos de frequncia?
41) O que vem a ser um Sempron?
42) Em linhas gerais, por que o Pentium 4 fracassou? (H bastante para dizer... seja o mais abrangente
possvel, sem ser prolixo).
43) Como surgiu a arquitetura Core? Baseado em que?
44) Todo o conhecimento aprendido na arquitetura do Pentium 4 foi jogado no lixo? Explique.
45) Na arquitetura Core, a Intel passou a falar em eficincia. Por qu?
46) Comparando um Core 2 Duo com um Athlon X2, por que o Intel ganhava quase sempre?
47) Pontue, de maneira resumida, as principais melhorias da arquitetura Core.
48) Abaixo so citadas as famlias de processadores da arquitetura Core 65 nm. Descreva as principais
caractersticas de cada famlia, sem se ater a modelos especficos:
o

Core 2 Duo E6xxx (Conroe)

Core 2 Quad Q6xxx (Kentsfield)

Core 2 Duo E4xxx e Pentium E2xxx (Allendale)

49) Quais as mudanas promovidas pela segunda gerao da arquitetura Core (Penryn)?
50) Abaixo so citadas as famlias de processadores da arquitetura Core 45 nm (Penryn). Descreva as principais
caractersticas de cada famlia, sem se ater a modelos especficos:
o

Core 2 Duo E8xxx e E7xxx (Wolfdale)

Core 2 Quad Q9xxx, Q8xxx e Q7xxx (Yorkfield)

Pentium E5xxx e E6xxx

Celeron 4xx, E1xxx e E3xxx

51) Qual a principal caracterstica do quad-core da AMD (K10 Barcelona) e os primeiros quad-core da Intel
(Core 2 Quad)? Julgue possveis vantagens e desvantagens de cada um.
52) Quais os caches encontrados nos K10? Qual a relao tamanho x velocidade?
53) Por que, do K10 em diante, a AMD no conseguiu mais rivalizar a Intel nos processadores de alto
desempenho? Como ela reagiu a esse fato?
163

54) J que o Phenom no rivalizava o Core 2 Quad, qual foi a atitude da AMD?
55) O que era, na verdade, o Phenom X3? E por que no existe um Core 2 Triple?
56) 3 ncleos so melhores do que 2 ncleos? Explique.
57) Quem eram na verdade os Athlon X2 7xxx?
58) Quais as melhorias trazidas pelo Phenom II? Foram suficientes para rivalizar a Intel?
59) Quem foi o Athlon II X2? Seguia a mesma lgica que o Athlon X2? Por qu?
60) E o Athlon II X4? Era parecido com o Phenom II? Muito pior?
61) Explique a ideia por trs do tick-tock da Intel.
62) Os i3/i5/i7 de primeira gerao so baseados na arquitetura Nahalem. Cite algumas das principais
melhorias em relao a arquitetura anterior (Core).
63) Explique o que o Turbo Boost, que encontramos nas mais simples especificaes de equipamentos que
utilizam processadores iX.
64) Os i7 (9xx) baseados no Bloomfield utilizam soquete LGA-1366. J os i5 e i7 (8xx) baseados no Lynnfield
usam o LGA-1156. Voc sabe dizer o porqu?
65) Qual a linha divisria entre os Core i5 e i7 de primeira gerao?
66) Quais as principais caractersticas dos ncleos Clarkdale (ainda fazendo parte da arquitetura Nahalem)?
67) H modelos do i5 baseados no Lynnfield e outros baseados no Clarkdale. Que diferena(s) existe(m)?
68) O Gulftown foi o sucessor dos Bloomfield. Quais as suas caractersticas? Vale a pena?
69) A arquitetura Sandy Bridge foi a sucessora da Nahalem. Sumarize as principais mudanas arquiteturais.
70) O que se pode esperar do vdeo integrado dos iX de segunda gerao (Sandy Bridge), em relao a
arquitetura anterior?
71) Processadores baseados no Sandy Bridge permitem overclock? Explique.
72) O que o UEFI (Extensible Firmware Interface)?
73) O que vem a ser uma APU?
74) A que mercado destina-se os AMD Llano? Vale a pena? Explique
75) Quais as principais diferenas entre a arquitetura Bulldozer da AMD em relao a anterior (K10)?
76) Quais as principais melhorias do Ivy Bridge (3 gerao) em relao ao Sandy Bridge (2 gerao)?

164

Cap. 3: CHIPSETS: CONCEITOS BSICOS


3.1 INTRODUO E CONCEITOS GERAIS
Nos primeiros PCs, os chips controladores da placa me ficavam espalhados em diversos pontos da placa.
No preciso dizer que este design no era muito eficiente, j que mais componentes significa mais custos.
Com o avano da tecnologia, os circuitos passaram a ser integrados em alguns poucos chips. Isto trouxe duas
grandes vantagens: a primeira que, estando mais prximos, os componentes podem se comunicar a uma
velocidade maior, permitindo que a placa me seja capaz de operar a frequncias mais altas. As segunda a
questo do custo, j que produzir dois chips (mesmo que mais complexos) sai mais barato do que produzir
vinte.
Muitas vezes, temos a impresso de que novas tecnologias, sobretudo componentes miniaturizados so
mais caros, mas, na maior parte dos casos, o que acontece justamente o contrrio. Produzir chips utilizando
uma tcnica de 45 nanmetros mais barato do que produzir utilizando uma tcnica antiga, de 90 ou 180
nanmetros, pois transistores menores permitem produzir mais chips por waffer, o que reduz o custo unitrio.
Numa tcnica de 180 nanmetros (0.18 mcron), temos transistores 16 vezes maiores que ao utilizar uma
tcnica de 45 nanmetros. Isso significa que, utilizando aproximadamente o mesmo volume de matria prima
e mo de obra, possvel produzir quase que 16 vezes mais chips.
bem verdade que migrar para novas tecnologias implica num grande custo inicial, j que a maior parte do
maquinrio precisa ser substitudo. Os fabricantes aproveitam o impulso consumista do pblico mais
entusiasta para vender as primeiras unidades muito mais caro (o que cria a impresso de que a nova
tecnologia mais cara), mas, uma vez que os custos iniciais so amortizados, os produtos da nova gerao
acabam custando o mesmo, ou menos que os anteriores, mesmo incluindo mais funes.
Assim como os demais componentes, os chipsets evoluram e incorporaram mais funes. Nos micros 386,
at mesmo as interfaces IDE e portas seriais eram adicionadas atravs de placas adicionais, enquanto a
maioria das placas atuais oferece, alm das interfaces
bsicas, tambm interfaces vdeo, som e rede onboard.
Ou seja, oferecem a um custo muito baixo funes que
antes precisavam ser adicionadas atravs de placas
extras.
A grande maioria dos chipsets segue o projeto
tradicional, onde as funes so divididas em dois chips,
chamados de porte norte (north bridge) e ponte sul
(south bridge). Nos ltimos anos esta designao anda
um pouco fora de moda, com os fabricantes adotando
nomes pomposos, mas ainda pode ser utilizada como
uma definio genrica.
A ponte norte (Northbridge) o chip mais complexo,
que fica fisicamente mais prximo do processador. Ele
incorpora os barramentos "rpidos" e funes mais
complexas, incluindo o controlador de memria, as
linhas do barramento PCI Express, ou o barramento AGP,
alm do chipset de vdeo onboard, quando presente.

165

Muito recentemente, temos visto o vdeo onboard migrando do chipset para o processador, seja ao lado
do ncleo (no caso da arquitetura Intel Sandy Bridge) ou mesmo fundido ao ncleo (no caso da arquitetura
AMD Fusion).
As placas para processadores AMD de 64 bits no possuem o controlador de memria, j que ele foi
movido para dentro do processador (neste caso, as duas pontes so substitudas por um nico chip, o que
reduz custos para os fabricantes.). O mesmo vale para a nova arquitetura da Intel, a Nahalem, cujo controlador
de memria j no se encontra mais no chipset.
Nas placas atuais, a ponte norte do chipset sempre coberta por um dissipador metlico, j que o chip
responde pela maior parte do consumo eltrico e, consequentemente da dissipao de calor da placa me. Em
alguns casos, os fabricantes chegam a utilizar coolers ou at mesmo heat-pipes para refriger-lo.
A ponte sul (Southbridge) invariavelmente um chip menor e mais simples que o primeiro. Mas placas
atuais ele incorpora os barramentos mais lentos, como o barramento PCI, portas USB, SATA e IDE,
controladores de som e rede e tambm o controlador Super I/O, que agrupa portas "de legado", como as
portas seriais e paralelas, porta para o drive de disquete e portas do teclado e mouse (PS/2).
comum que os fabricantes adicionem funes adicionais ou substituam componentes disponveis na
ponte sul incluindo controladores externos. Com isso, podem ser adicionadas portas SATA ou IDE adicionais, o
controlador de audio pode ser substitudo por outro de melhor qualidade ou com mais recursos, uma segunda
placa de rede onboard pode ser adicionada e assim por diante. Entretanto, com pouqussimas excees, as
funes da ponte norte do chipset no podem ser alteradas. No possvel adicionar suporte a mais linhas PCI
Express ou aumentar a quantidade de memria RAM suportada (por exemplo) adicionando um chip externo.
Estas caractersticas so definidas ao escolher o chipset no qual a placa ser baseada.
Embora incorpore mais funes (em nmero) as tarefas executadas pela ponte sul so muito mais simples
e os barramentos ligados a elas utilizam menos trilhas. Normalmente, os fabricantes utilizam as tecnologias de
produo mais recente para produzir a ponte norte, passando a produzir a ponte sul utilizando mquinas ou
fbricas mais antigas.
No caso de um fabricante que produz de tudo, como a Intel ou a AMD, normal que existam trs divises.
Novas tcnicas de produo so usadas para produzir processadores, a gerao anterior passa a produzir
chipsets e chips de memria, enquanto uma terceira continua na ativa, produzindo chips menos importantes e
controladores diversos. Isso faz com que o preo dos equipamentos seja melhor amortizado. No final, o
maquinrio obsoleto (a quarta diviso) ainda acaba sendo vendido para fabricantes menores, de forma que
nada seja desperdiado.
Nos antigos chipsets para placas soquete 7 e slot 1, como o Intel i440BX e o Via Apollo Pro, a ligao entre
a ponte norte e ponte sul do chipset era feita atravs do barramento PCI. Isso criava um grande gargalo, j que
ele tambm era utilizado pelas portas IDE e quase todos os demais perifricos. Nestas placas, at mesmo o
barramento ISA era ligado no sobrecarregado barramento PCI, atravs de um chip conversor, o PCI-to-ISA
bridge.
Nas placas atuais, a ligao feita atravs de algum barramento rpido (muitas vezes proprietrio) que
permite que a troca de informaes seja feita sem gargalos. No existe uma padronizao para a comunicao
entre os dois chips, de forma que (com poucas excees), os fabricantes de placas me no podem utilizar a
ponte norte de um chipset em conjunto com a ponte sul de outro, mesmo que ele seja mais barato ou oferea
mais recursos.
O chipset de longe o componente mais importante da placa me. Excluindo o chipset, a placa me no
passa de um emaranhado de trilhas, conectores, reguladores de tenso e controladores diversos. Placas que
utilizam o mesmo chipset, tendem a ser muito semelhantes, mesmo quando fabricadas por fabricantes
diferentes.
166

Devido s diferenas no barramento e outras funes, o chipset sempre atrelado a uma famlia de
processadores especfica. No possvel desenvolver uma placa me com um chipset AMD que seja
compatvel com processadores Intel, por exemplo.
Como o chipset tambm o componente mais caro da placa me, ele tambm um indicador da
qualidade geral da placa, j que placas com chipsets baratos, sobretudo as com os modelos mais simples da SiS
e VIA tendem a ser "baratas" tambm em outros aspectos. Por outro lado, raro que um fabricante utilize um
chipset mais caro, da Intel ou nVidia, em uma placa de segunda linha.

3.2 CHIPSETS AO LONGO DA HISTRIA DOS PROCESSADORES


Famlias de processadores so quase sempre acompanhados de uma nova famlia de chipsets, os mesmos
se diferenciam em custo e recursos, visando atingir os mais diversos nichos (baixo, mdio e alto desempenho).
No temos condio descrevermos tais chips como fizemos com os processadores, j que o assunto talvez seja
to longo quanto. Assim sendo, seguem abaixo os links para maiores informaes:
Chipsets para placas soquete 7
http://www.hardware.com.br/guias/historia-processadores/chipsets-soquete.html
Chipsets e placas para o Pentium II e III
http://www.hardware.com.br/guias/historia-processadores/chipsets-placas-pentium2-pentium3.html
Chipsets para o Athlon, Duron e Sempron
http://www.hardware.com.br/guias/historia-processadores/chipsets-athlon-duron-sempron.html
Chipsets para o Pentium 4
http://www.hardware.com.br/guias/historia-processadores/chipsets-pentium4.html
Chipsets para o Pentium D
http://www.hardware.com.br/guias/historia-processadores/chipsets-pentiumd.html
Chipsets para o Athlon 64, X2 e Sempron
http://www.hardware.com.br/guias/processadores-64bits/chipsets-athlon-sempron.html
Chipsets para o Core 2 Duo, Quad e Celeron
http://www.hardware.com.br/guias/processadores-64bits/chipsets-core2-duo-quad-celeron.html
Chipsets para o Phenom e Phenom II
http://www.hardware.com.br/guias/processadores-era-moderna/chipsets-phenom-phenom2.html
Chipset X58 (Intel Core i7, Core i5 e Core i3)
http://www.hardware.com.br/guias/processadores-era-moderna/x58.html

3.3 O FIM DOS CHIPSETS, COMO OS CONHECEMOS


Depois de nos acompanharem desde os primeiros PCs, os chipsets esto a um passo de entrarem em
extino, tornando-se apenas um hub de interfaces entre o processador e as trilhas da placa-me. A este
provvel cenrio se soma a perspectiva do final da concorrncia entre a nVidia, SiS, VIA e outros fabricantes,
deixando apenas a Intel e a AMD, cada uma produzindo com exclusividade os chipsets para seus prprios
processadores e vendendo-os pelos preos que quiserem.
Se voc achou a perspectiva preocupante, vamos a um resumo dos fatos que nos trouxeram ao cenrio
atual.
At poca do Pentium 4, os chipsets incorporavam no apenas todas as interfaces, mas tambm o
controlador de memria, como nesse diagrama do Intel 925:
167

O processador inclua apenas os caches L1 e L2 e dependia do chipset para toda a comunicao com o
mundo externo. Isso fazia com que a qualidade do chipset tivesse uma grande influncia sobre o desempenho
j que um controlador de memria deficiente podia aumentar drasticamente os tempos de acesso ou reduzir a
banda disponvel para o processador, como era o caso de muitos dos chipsets da VIA, por exemplo.
O primeiro golpe veio com o lanamento do Athlon 64, que incorporou o controlador de memria,
limitando a influncia do chipset. Ele continuou sendo importante, j que controlava o acesso s linhas PCI
Express e s interfaces SATA e USB, mas a influncia sobre o desempenho passou a ser bem menor.
A Intel resistiu por algum tempo ideia do controlador integrado, mantendo o uso do FSB durante toda a
era do Core Duo. Isso permitiu tambm que a VIA e a nVidia continuassem a produzir chipsets para
processadores Intel, j que ambas possuam licenas (apesar da briga jurdica, no caso da VIA) para o uso do
FSB. Entretanto, tudo isso mudou com o lanamento do Nehalem.
Alm de incorporar o controlador de memria, o Nahalem adotou o uso de um novo barramento de
dados, o PQI. Embora ele seja baseado no HyperTransport, a Intel implantou um nmero suficiente de
modificaes para obter a patente, impedindo o uso por parte de outros fabricantes.
Apesar do uso do PQI e do controlador de memria integrado, o Core i7 baseado no core Bloomfield ainda
usa um layout bastante convencional, com o chipset X58 sendo dividido nas tradicionais ponte norte e ponte
sul (muito similar ao usado nos processadores AMD), onde a ponte norte (o chip X58 IOH) possui as linhas PCI
Express e a ponte sul (o chip ICH10) controla as demais interfaces. Assim como nos chipsets Intel anteriores,
ambos os chips so ligados atravs de um barramento DMI, que relativamente lento para os padres atuais,
mas ainda suficiente para a funo.

168

As coisas mudaram a partir do Lynnfield, que incorporou tambm as linhas PCI Express, eliminando a
necessidade do uso da ponte norte do chipset. O chip ICH10 foi ento ligeiramente aperfeioado (ganhando
duas linhas PCIe adicionais e passando a ser produzido em uma tcnica de 65 nm) e foi transformado no
chipset P55, o sucessor dos chipsets P35 e P45 usados em conjunto com os processadores da famlia Core:

Muitos argumentam que o P55 no pode ser considerado um "chipset" no sentido tradicional, j que se
trata de um nico chip. A arquitetura tambm muito mais simples que nos chipsets anteriores, j que ele
inclui apenas componentes relativamente simples, como as interfaces SATA e USB e oito linhas PCI Express
destinadas aos perifricos onboard e aos slots PCIe x1 da placa-me.
Por ser um chipset da famlia "P" (performance), o P55 no inclui um chipset de vdeo integrado,
presumindo que voc pretenda usar uma placa dedicada. Entretanto, a maior parcela das vendas
representada pelos chipsets com vdeo onboard, usados na esmagadora maioria dos PCs de baixo custo.
169

Como os chipsets de vdeo da Intel oferecem um desempenho muito baixo, esta poderia ser uma
oportunidade para outros fabricantes, que poderiam concorrer oferecendo chipsets com um desempenho 3D
superior.
Entretanto, a Intel eliminou essa
ltima possibilidade com o anncio do
Clarkdale (o primeiro processador
baseado na plataforma Westmere),
que alm do controlador de memria
e as linhas PCI Express, inclui tambm
um chipset de vdeo. O chipset
integrado no Clarkdale uma verso
aperfeioada do X4500HD (usado no
G45), com 12 unidades de
processamento de shaders (em vez de
10), clocks mais altos e um melhor
desempenho de acesso memria,
graas proximidade com o controlador de memria e ao uso de mdulos DDR3.
O desempenho consideravelmente superior ao dos chipsets de vdeo Intel anteriores, mas ainda fraco
se comparado ao das placas dedicadas. O principal fator entretanto o fato de que esta mais uma funo
movida do chipset para dentro do processador.
O Clarkdale faz par com o chipset H57, que o sucessor do G45 e os demais chipsets da srie "G" (de
"Graphics"). A principal diferena entre ele e o P55 o uso de um barramento adicional, o FDI (Flexible Display
Interface), que usado para transportar o sinal de vdeo do processador ao chipset, que faz a interface com os
conectores DVI/VGA/HDMI/DisplayPort na placa-me:
Com exceo do FDI (que um barramento bastante simples) e do
controlador adicional destinado ao processamento do sinal de vdeo, o
H57 no diferente do P55, seguindo a mesma ideia bsica de servir
como um simples conjunto de interfaces, deixando todas as tarefas
complicadas a cargo do processador.
Basicamente, tanto o P55 quanto o H57 servem como um "hub" para
as trilhas que vo para os slots e portas da placa-me. Temos ento
algumas poucas trilhas (correspondentes ao barramento DMI/FDI) entre o
processador e o P55/H57 que se ramificam em todas as demais. Este um
dos principais motivos de a Intel no ter dado o passo final e integrado
todos os componentes diretamente ao processador, j que removendo o
chipset, todas essas trilhas precisariam ir diretamente para o soquete do
processador, o que aumentaria muito o nmero de contatos no soquete e
complicaria o layout das placas.
Outro motivo, talvez mais importante que a questo tcnica, que a Intel ganha muito dinheiro vendendo
chipsets, uma renda que seria perdida caso eles fossem eliminados completamente. Embora o P55 seja
brutalmente mais simples que os chipsets anteriores, a Intel o vende para os fabricantes por
aproximadamente o mesmo preo (cerca de 45 dlares), o que resulta em uma margem de lucro fabulosa.
Isso explica por que as placas LGA1156 no so mais baratas que as placas LGA775, muito embora tenham
menos componentes. Como a Intel continua cobrando o mesmo valor pelo chipset, o custo total de produo
basicamente o mesmo que era na poca do Core 2 Duo, ou at mais.
170

A simplificao do chipset seria uma boa oportunidade para outros fabricantes de chipsets, que poderiam
produzir concorrentes de baixo custo. Em teoria, um chipset simples como o P55 poderia ser vendido por
menos de 10 dlares (uma frao do cobrado pela Intel), o que permitiria a produo de placas-me muito
mais baratas que as atuais.
O grande problema que a Intel detm as patentes do uso do barramento DMI, PQI e FDI. Outros
fabricantes interessados em produzirem chipsets precisariam primeiro obter uma licena, que a Intel no tem
muito interesse em fornecer, j que ganha quase tanto dinheiro vendendo chipsets quanto ganha com os
prprios processadores.
A VIA abandonou a produo de chipsets em 2008, depois de uma desgastante briga judicial com a Intel
em torno do direito de produzir chipsets para o Pentium 4 e o Core 2 Duo, passando a se dedicar ao
aperfeioamento da sua prpria plataforma, o VIA Nano (que embora no tenha feito muito sucesso, continua
sendo uma promessa para o futuro nos netbooks e outras plataformas de baixo custo).
A SiS continua produzindo pequenas quantidades dos chipsets 671 e 672 (destinados s placas LGA775),
mas o desenvolvimento de novos chipsets est parado desde 2007 e at o momento no foram anunciados
planos de desenvolver chipsets LGA1156.
A nVidia obteve uma licena para a fabricao de chipsets para processadores Intel na poca do Pentium 4
(quando as duas empresas ensaiaram uma aliana contra a AMD/ATI); mas, segundo a Intel, a licena no se
aplica ao Atom (da a briga em torno do nVidia ION) e muito menos aos processadores baseados no Nehalem.
Isso levou a uma briga jurdica entre as duas, com a Intel tentando assegurar os direitos exclusivos de
produo dos chipsets e a nVidia tentando estender a licena, para poder assim entrar na briga em relao aos
chipsets para os novos processadores. A nVidia poderia tentar retaliar se recusando a fornecer licenas para
uso do SLI em chipsets Intel, mas isso provavelmente s serviria para reduzir as vendas das placas de vdeo,
empurrando os usurios para o CrossFire.
A combinao do desgaste do processo judicial com as quedas nas vendas dos chipsets levou a nVidia a
anunciar a paralisao no desenvolvimento de novos chipsets da famlia nForce, esperando pela concluso da
disputa, que ser julgada em algum ponto de 2010.
Surpreendentemente, a deciso da nVidia se estendeu tambm aos chipsets para processadores AMD, que
embora no sejam alvo de nenhuma disputa legal, tm apresentado vendas cada vez mais baixas, como
resultado das investidas da AMD (que depois da compra da ATI passou a oferecer chipsets com vdeo onboard
bastante competitivos, roubando espao da nVidia).
Por enquanto a integrao de chipsets de vdeo dentro do processador no ameaa as placas 3D
dedicadas, j que as solues da Intel e da AMD so por enquanto baseadas em chipsets de baixo
desempenho, destinados s placas com vdeo onboard.
A prxima grande briga ser um embate entre os processadores e as placas 3D, com os processadores
passando a integrar chipsets de vdeo mais poderosos e as placas 3D oferecendo cada vez mais poder de
processamento bruto, que poder ser usado para a execuo de aplicativos de uso geral atravs do OpenCL e
outras novas linguagens.
Ainda muito cedo para dizer quem prevalecer nessa briga. Porm, certo que em ambos os cenrios os
chipsets ficaro relegados funo de mero hub de interfaces, perdendo a importncia. A poca em que
vrios fabricantes disputavam o mercado e os chipsets se diferenciavam com base no desempenho, chegou ao
fim.

171

EXERCCIOS
1) O que um chipset? O que motivou o surgimento destes?
2) Um chipset dividido em duas partes. Quais so e no que se diferenciam? Por que voc acha que elas so
separadas?
3) Escreva um pequeno texto resumindo os principais motivos pelos quais os chipsets, ao modo tradicional,
esto chegando ao fim.

172

Cap. 4: PLACAS-ME
4.1 INTRODUO
Os captulos anteriores estudamos sobre o desenvolvimento dos processadores e chipsets, indo do 486 aos
chips atuais. Naturalmente, o processador no o nico componente (e possivelmente nem mesmo o mais
importante) em um PC atual, j que ele trabalha em conjunto com a GPU (Placa de vdeo), o HD ou SSD
(Disco de Estado Slido, um sucessor do HD baseado em memria flash), mdulos de memria e outros
componentes. No meio de tudo isso, temos a placa-me, que no apenas o hardware que agrupa mais
interfaces e componentes, mas tambm o que mais influencia a estabilidade e as possibilidades de expanso
do sistema.
No incio, as placas-me serviam simplesmente como uma interface entre os demais componentes, uma
placa de circuito sem vida prpria. Com o passar do tempo, mais e mais componentes passaram a ser
integrados placa-me, dando origem s placas atuais, que incluem vdeo, som, rede e outros perifricos
onboard. Com a introduo dos processadores da linha Core i5 e i3 (que incorporaram a ponte norte do
chipset e o chipset de vdeo integrado), a placa-me perdeu parte de seu prestgio, mas apesar de tudo ainda
continua sendo importante.
Inicialmente, as placas "tudo onboard" enfrentaram preconceito, mas no final acabaram virando norma.
Naturalmente, componentes dedicados de boa qualidade quase sempre superam os componentes onboard
em desempenho, mas eles ganham na questo do custo, que acaba sendo o fator mais importante para a
maioria.
Com exceo dos mais abastados, ningum compra "o melhor PC possvel", mas simplesmente procurar a
melhor configurao dentro de um determinado oramento. Para quem no pode gastar muito (a grande
maioria), acaba fazendo mais sentido procurar uma placa-me de boa qualidade, aproveitando os
componentes onboard e investindo o restante em mais memria, um HD de maior capacidade, uma placa 3D
dedicada, ou mesmo um processador um pouco mais rpido, de acordo com o perfil de uso. Vamos ento a
um resumo sobre os componentes da placa-me e barramentos, aproveitando para falar tambm sobre as
tecnologias de memria RAM, que assim como os processadores, tambm esto intimamente relacionadas
placa-me em uso.

4.2 COMPONENTES DA PLACA-ME


O componente bsico da placa-me o PCB (Printed Circuit Board), a placa de circuito impresso onde so
soldados os demais componentes. Embora apenas duas faces sejam visveis, o PCB da placa-me composto
por um total de 4 a 10 placas (totalizando de 8 a 20 faces!). Cada uma das placas possui parte das trilhas
necessrias, e elas so unidas atravs de pontos de solda estrategicamente posicionados. Ou seja, embora
depois de unidas elas aparentem ser uma nica placa, temos na verdade um sanduche de vrias placas.

173

PCB, antes da colocao dos componentes


Como o PCB um dos componentes de mais baixa tecnologia, comum que a produo seja terceirizada
para pases como a China, onde a mo de obra mais barata. por isso que muitas placas-me possuem um
"PCB made in China" decalcado em algum lugar da placa, mesmo que as demais etapas de produo tenham
sido realizadas em outro lugar.
A maior parte dos componentes da
placa, incluindo os resistores, MOSFETs e
chips em geral, utilizam solda de superfcie,
por isso muito difcil substitu-los
manualmente, mesmo que voc saiba quais
so os componentes defeituosos.
Os menores componentes da placa so
os resistores e os capacitores cermicos. Eles
so muito pequenos, medindo pouco menos
de um milmetro quadrado e por isso so
instalados de forma automatizada (e com
grande preciso).
As mquinas que fazem a instalao
utilizam um conjunto de braos mecnicos e,
por causa da velocidade, fazem um barulho muito similar ao de uma metralhadora. A "munio" (os
componentes) tambm fornecida na forma de rolos, onde os componentes so pr-posicionados entre duas
folhas plsticas.
Depois que todos os componentes so encaixados, a placa passa por uma cmara de vapor, que faz com
que os pontos de solda derretam e os componentes sejam fixados, todos de uma vez.

174

Resistores, capacitores cermicos e cristal de clock


Voc pode diferenciar os resistores dos capacitores que aparecem na foto pela cor. Os resistores so
escuros e possuem nmeros decalcados, enquanto os capacitores so de uma cor clara. Estes pequenos
capacitores so slidos, compostos de um tipo de cermica. Eles so muito diferentes dos capacitores
eletrolticos (que veremos em detalhes a seguir) e possuem uma capacitncia muito mais baixa.
Outros componentes, como os slots, capacitores e a maior parte dos conectores, utilizam o sistema
tradicional, onde os contatos so encaixados em perfuraes feitas na placa e a solda feita na parte inferior.
Na maioria dos casos, eles so instalados manualmente, por operrios. por isso que a maioria das fbricas de
placas so instaladas em pases da sia, onde a mo de obra barata. No final da produo, a placa-me passa
por mais uma mquina de solda, que fixa todos os componentes com contatos na parte inferior de uma s vez.
Outro item de destaque o regulador de tenso, cujo componente mais importante so os MOSFETs, que
so transistores de uso externo, facilmente reconhecveis pelo tamanho avantajado:

Trs MOSFETs e uma bobina, formando um dos estgios do regulador de tenso


Uma fonte ATX fornece tenses de 12V, 5V e 3.3V, sendo que a maioria dos componentes em um PC atual
utilizam tenses mais baixas, como no caso dos processadores (que atualmente trabalham com tenses muito
baixas, como 1.1 ou 1.25V) e dos mdulos de memria, que usam 1.5V (DDR3) ou 1.8V (DDR2). Os reguladores
175

so os responsveis por reduzir e estabilizar as tenses fornecidas pela fonte, gerando as tenses usadas pelos
diversos componentes.
Parte da energia transformada em calor, de forma que os reguladores esto entre os componentes que
mais esquentam numa placa atual. Em muitas placas, eles recebem dissipadores de alumnio e, em alguns
casos, at mesmo coolers ativos. O volume e a capacidade dos reguladores de tenso so um quesito
importante nas placas "premium", destinadas a suportarem grandes overclocks.
Os reguladores de tenso so formados por um conjunto de MOSFETs, alguns capacitores, uma bobina e
um controlador. Placas antigas utilizavam um nico regulador de tenso, mas conforme os processadores
foram evoluindo e passando a consumir cada vez mais energia, as placas passaram a utilizar reguladores
divididos em "fases", onde temos vrios reguladores de tenso trabalhando em paralelo, formando um
sistema capaz de fornecer um volume muito maior de energia e um fluxo mais estvel.
Tecnicamente, um regulador de tenso com mais fases superior, j que o trabalho dividido entre mais
componentes. Isso permite que o regulador desperdice menos energia na forma de calor, ao mesmo tempo
em que oferece um fluxo de energia mais estvel para o processador.
Placas atuais utilizam reguladores de tenso com 3, 4, 6, 8 ou mesmo 12 fases. fcil descobrir o nmero
de fases do regulador da placa-me, pois cada fase composta por um conjunto idntico de componentes,
que so instalados em srie prximo ao encaixe do processador.
Esta placa da foto, por exemplo, utiliza um regulador de tenso com 3 fases. Note a presena de 3 bobinas
idnticas (a primeira delas bem ao lado do conector de energia), cercadas por MOSFETs e capacitores na parte
superior:

Regulador de tenso de 3 fases


Em teoria, uma placa com um regulador de 4 fases pode fornecer 33% mais energia para o processador do
que um com 3 fases, e um de 8 fases pode fornecer o dobro que um de 4 fases. Naturalmente, o resultado
final depende da qualidade e das especificaes dos componentes usados, mas a regra geral que quanto
mais fases, maior a capacidade de fornecimento da placa.
A principal vantagem de usar uma placa com um regulador de tenso de 6 ou 8 fases, ao invs de uma com
um regulador de 3 ou 4 fases, a garantia de que a placa ser capaz de manter um fornecimento estvel em
situaes de stress, como ao fazer um overclock agressivo.

176

O maior problema que um nmero maior de fases faz com que a placa desperdice mais energia nos
momentos de baixa atividade. A diferena entre usar uma placa com um regulador de tenso de 8 fases e
outra similar, com um regulador de tenso de 4 fases, pode chegar a mais de 6 watts enquanto o processador
est ocioso.
No uma diferena muito grande, mas no deixa de ser um fator a se levar em conta. Se voc est
comprando um processador de baixo consumo e no pretende fazer grandes overclocks, no existe
necessidade de pagar mais caro por uma placa com um regulador de tenso de 8 ou 16 fases.
Em seguida, temos a questo esttica. A fim de diferenciar seus produtos, cada vez mais fabricantes
adotam cores alternativas no PCB das placas, como preto, azul, ou at mesmo vermelho, fugindo do verde
tradicional. A cor tem apenas efeito decorativo, no um indicador da qualidade da placa. Da mesma forma
que a cor da placa, a cor dos slots pode variar. Os slots PCI, que so originalmente brancos, podem ser azuis
numa placa da ECS ou amarelos numa DFI, por exemplo. As placas coloridas podem ser usadas para criar um
visual diferente ao fazer um casemod.
Continuando, existe uma regra geral de que, quanto mais baixa for a temperatura de funcionamento, mais
tempo os componentes dos PCs tendem a durar. De uma forma geral, um PC em que a temperatura dentro do
gabinete fique em torno dos 35C, tende a apresentar menos defeitos e problemas de instabilidade e durar
mais do que um onde a temperatura fique em torno dos 45C, por exemplo.
Naturalmente, existem excees, j que no mundo real entram em cena os imprevistos do dia a dia e at
mesmo falhas na produo dos componentes que abreviem sua vida til. Mas, se voc fizer um teste de maior
escala, monitorando o funcionamento de 100 PCs de configurao similar ao longo de 5 anos, por exemplo, vai
ver que uma diferena de 10 graus na temperatura influencia de forma significativa a vida til.
O principal motivo disso so os capacitores
eletrolticos, que so usados em profuso em
placas-me, placas de vdeo e em diversos outros
componentes.
Os capacitores permitem armazenar pequenas
quantidades de energia, absorvendo variaes na
corrente e entregando um fluxo estvel para os
componentes ligados a ele. Voc pode imaginar
que eles atuam como pequenas represas,
armazenando o excesso de gua na poca das
chuvas e entregando a gua armazenada durante
as secas.
Imagine por exemplo uma situao em que o
processador est em um estado de baixo consumo de energia e subitamente "acorda", passando a operar na
frequncia mxima. Temos ento um aumento imediato e brutal no consumo, que demora algumas fraes de
segundo para ser compensado. Durante esse perodo, so os capacitores que fornecem a maior parte da
energia, utilizando a carga armazenada.
Tanto o processador principal quanto a GPU da placa de vdeo e os controladores responsveis por
barramentos diversos (PCI Express, AGP, PCI, etc.) so especialmente suscetveis a variaes de tenso, que
podem causar travamentos e at mesmo danos. Basicamente, graas aos capacitores que um PC pode
funcionar de forma estvel.
Existem diversos tipos de capacitores. Tradicionalmente, os mais usados em placas-me e outros
componentes so os capacitores eletrolticos. Eles possuem uma boa capacidade e so muito baratos de se
produzir, da a sua enorme popularidade. O problema que eles possuem uma vida til relativamente curta,
177

estimada em de 1 a 5 anos de uso contnuo, variando de acordo com a qualidade de produo e as condies
de uso.
Entre os fatores "ambientais", o que mais pesa na conta , justamente, a temperatura de funcionamento.
Uma reduo de 10 graus na temperatura interna do gabinete pode resultar num aumento de at 100% no
tempo de vida til dos capacitores, da a recomendao de caprichar na ventilao e, caso necessrio, instalar
exaustores adicionais.
Durante a dcada de 1990 existiram muitos casos de placas-me com capacitores de baixa qualidade
(sobretudo em placas da PC-Chips, ECS, Soyo e Abit), que falhavam depois de apenas um ou dois anos de uso.
As coisas comearam a melhorar a partir da virada do milnio, com os fabricantes percebendo que usar
capacitores de baixa qualidade acaba causando mais prejuzo do que ganho. Infelizmente, como temos uma
grande predominncia de equipamentos de baixa qualidade aqui no Brasil, ainda preciso ter um certo
cuidado.
Com o passar do tempo, os capacitores eletrolticos perdem progressivamente a sua capacitncia,
deixando os componentes desprotegidos. O capacitor passa ento a atuar como um condutor qualquer,
perdendo sua funo. Sem a proteo proporcionada por ele, os circuitos passam a receber diretamente as
variaes, o que, alm de abreviar sua vida til, torna o sistema como um todo mais e mais instvel.
Como o processo muito gradual, voc comea notando travamentos espordicos nos momentos de
atividade mais intensa, que passam a ser mais e mais frequentes, at chegar ao ponto em que voc acaba
sendo obrigado a trocar de placa-me, pois o micro simplesmente no consegue mais nem concluir o boot.
Nesses casos, o defeito raramente permanente, de forma que ao substituir os capacitores defeituosos, a
placa volta a funcionar normalmente. a que entram os tcnicos e as empresas que fazem manuteno de
placas-me, substituindo capacitores e outros componentes defeituosos.
Internamente, um capacitor eletroltico composto por duas folhas de alumnio, separadas por uma
camada de xido de alumnio, enroladas e embebidas em um eletrlito lquido (composto
predominantemente de cido brico, ou borato de sdio), que acaba evaporando em pequenas quantidades
durante o uso. Como o capacitor hermeticamente selado, isto com o tempo gera uma presso interna que
faz com que ele fique estufado. Esse o sinal visvel de que o capacitor est no final de sua vida til. Em alguns
casos, o eletrlito pode vazar, corroendo as trilhas e outros componentes prximos, causando assim uma falha
prematura do equipamento.
Ao contrrio de chips BGA e outros componentes
que usam solda de superfcie, os contatos dos
capacitores so soldados na parte inferior da placa.
Embora trabalhoso, possvel substituir capacitores
estufados ou em curto usando um simples ferro de
solda, o que permite consertar ou estender a vida til
da placa.
Na figura ao lado temos um caso dramtico, de
uma placa com diversos capacitores estufados, trs
deles j apresentando sinais de vazamento.
A partir de 2006 os capacitores eletrolticos comearam a dar lugar aos capacitores de estado slido
(chamados de Conductive Polymer Aluminum), onde a folha de alumnio banhada no lquido eletroltico
substituda por uma folha de material plstico (um polmero) contendo um eletroltico slido de alumnio. Por
no conterem nenhum tipo de lquido corrosivo, estes capacitores no so suscetveis aos problemas de
durabilidade que caracterizam os capacitores eletrolticos.

178

Embora mais durveis, os capacitores de estado slido so mais caros que os capacitores eletrolticos.
Como o uso deles aumenta em at US$ 10 o custo de produo da placa (o que acaba causando um aumento
considervel no preo final), eles foram inicialmente usados apenas em placas "premium", desenvolvidas para
o pblico entusiasta.
Com o passar do tempo, entretanto, eles foram gradualmente se popularizando, at se tornarem norma.
Hoje em dia, j raro encontrar placas-me novas que ainda utilizam capacitores eletrolticos.
Os capacitores de estado slido podem ser diferenciados dos eletrolticos facilmente, pois so mais
compactos e possuem um encapsulamento inteirio:

Capacitores de estado slido


Feitas as apresentaes, vamos a uma descrio dos demais componentes da placa, como o BIOS e os
barramentos de dados.

4.3 BIOS
O BIOS contm todo o software bsico, necessrio para inicializar a placa-me, checar os dispositivos
instalados e carregar o sistema operacional, o que pode ser feito a partir do HD, CD-ROM, pendrive, ou
qualquer outra mdia disponvel. O BIOS inclui tambm o setup, o software que permite configurar as diversas
opes oferecidas pela placa. O processador programado para procurar e executar o BIOS sempre que o
micro ligado, processando-o da mesma forma que outro software qualquer. por isso que nenhuma placame funciona "sozinha": voc precisa ter instalado o processador e os mdulos de memria para que o PC
possa iniciar o boot.
Por definio, o BIOS um software, mas por outro lado ele fica gravado em um chip espetado na placame, o que ofusca um pouco a definio. Na maioria dos casos, o chip combina uma pequena quantidade de
memria Flash (512 ou 1024 KB no caso dos chips PLCC), o CMOS (que composto por 128 a 256 bytes de
memria voltil) e o relgio de tempo real. Nas placas antigas era utilizado um chip DIP, enquanto nas atuais
utilizado um chip PLCC (Plastic Leader Chip Carrier), que bem mais compacto:

179

Chip PLCC com o BIOS em uma placa da Asus


Mais recentemente, muitos fabricantes passaram a armazenar o BIOS em chips de memria Flash NOR de
acesso serial, que tambm cumprem com a funo, mas so menores e um pouco mais baratos que os chips
PLCC. Outra tendncia crescente o uso de um segundo chip com uma cpia de backup do BIOS, que usada
em caso de problemas com a programao do chip principal (como no caso de um upgrade de BIOS malsucedido).
Em placas da Gigabyte, por exemplo, o recurso chamado de "Dual-BIOS" e os dois chips de memria
Flash so chamados de B_BIOS e M_BIOS:

B_BIOS e M_BIOS em placa-me da Gigabyte


180

Como os chips de memria Flash atuais possuem uma capacidade maior que a usada pelo BIOS, quase
sempre existe algum espao livre para armazenamento de informaes de diagnstico ou outros recursos
implementados pelos fabricantes. No caso das placas da Gigabyte, por exemplo, possvel usar parte do
espao livre para guardar pequenos arquivos e outras informaes (criando um TXT com senhas ou
informaes diversas que no perdido ao formatar o HD, por exemplo) usando o Smart Recovery, que faz
parte da sute de softwares da placa.
Continuando, o CMOS serve para armazenar as configuraes do setup. Como elas representam um
pequeno volume de informaes, ele bem pequeno em capacidade.
Assim como a memria RAM principal, ele voltil, de forma que as configuraes so perdidas quando a
alimentao eltrica cortada. Devido a isso, toda placa-me inclui uma bateria, que mantm as
configuraes quando o micro desligado.
A mesma bateria alimenta tambm o relgio de tempo real (real time clock), que, apesar do nome
pomposo, um relgio digital comum, que o responsvel por manter atualizada a hora do sistema, mesmo
quando o micro desligado.
Se voc prestou ateno nos trs pargrafos anteriores, deve estar se perguntando por que as
configuraes do setup no so armazenadas diretamente na memria Flash, em vez de usar o CMOS, que
voltil. Isso seria perfeitamente possvel do ponto de vista tcnico, mas a ideia de usar memria voltil para
guardar as configuraes justamente permitir que voc possa zerar as configuraes do setup (removendo a
bateria, ou mudando a posio do jumper) em casos onde o micro deixar de inicializar por causa de alguma
configurao incorreta.
Um caso clssico tentar fazer um overclock muito agressivo e o processador passar a travar logo no incio
do boot, sem que voc tenha chance de entrar no setup e desfazer a alterao. Atualmente basta zerar o
setup para que tudo volte ao normal, mas, se as configuraes fossem armazenadas na memria Flash, a coisa
seria mais complicada.
Para zerar o CMOS, voc precisa apenas cortar o fornecimento de energia para ele. Existem duas formas
de fazer isso. A primeira (com o micro desligado) remover a bateria da placa-me e usar uma moeda para
fechar um curto entre os dois contatos da bateria durante 15 segundos. Isso garante que qualquer carga
remanescente seja eliminada e o CMOS seja realmente apagado. A segunda usar o jumper "Clear CMOS",
que fica sempre posicionado prximo bateria. Ele possui duas posies possveis, uma para uso normal e
outra para apagar o CMOS ("discharge", ou "clear CMOS"). Basta mud-lo de posio durante 15 segundos e
depois recoloc-lo na posio original.
Uma dica que muitas placas vm de fbrica com o jumper na posio "discharge", para evitar que a carga
da bateria seja consumida enquanto a placa fica em estoque. Ao montar o micro, voc precisa se lembrar de
verificar e, caso necessrio, mudar a posio do jumper. Caso contrrio a placa no funciona, ou exibe uma
mensagem de erro durante o boot e no salva as configuraes do setup.
Como todo software, o BIOS possui bugs, muitos por sinal. De tempos em tempos, os fabricantes
disponibilizam verses atualizadas, corrigindo problemas, adicionando compatibilidade com novos
processadores (e outros componentes) e, em alguns casos, adicionando novas opes de configurao no
setup. muito comum que voc precise atualizar o BIOS da placa para que ela funcione em conjunto com
novos processadores, de fabricao mais recente que a placa-me.
Atualizar o BIOS consiste em dar boot atravs de um disquete ou CD-ROM contendo o software que faz a
gravao, indicar a localizao do arquivo com a nova imagem e deixar que ele regrave a memria Flash com o
novo cdigo.

181

O primeiro passo visitar a rea de suporte ou downloads do site do fabricante e procurar por
atualizaes para a sua placa-me. Se voc usa Windows, aproveite para verificar se no esto disponveis
novas verses dos drivers, que tambm podem corrigir problemas e adicionar novos recursos.
Por exemplo, uma Asus K8N4-E SE, que testei certa vez, tinha um problema estranho com a placa de rede,
que parava de funcionar aleatoriamente depois de algumas horas de uso contnuo, que foi solucionado com a
atualizao do BIOS da verso 0106 para a 0110.
Para baixar o arquivo, acessei a rea de download do site da Asus (http://support.asus.com/download/) e,
no menu de busca por atualizaes, selecionei as opes "Motherboard > Socket 754 > K8N4-E SE > BIOS",
chegando ao arquivo:

rea de download do site da Asus


Muitos fabricantes ainda disponibilizam disquetes de boot, contendo uma verso reduzida do FreeDOS ou
MS-DOS, mas muitos j passaram a disponibilizar CDs de boot (basta gravar a imagem .iso usando o Nero, K3B
ou outro programa de gravao e dar boot), o que elimina a necessidade de ter que instalar um drive de
disquetes na mquina s para poder atualizar o BIOS.
Uma ideia nova, que foi inaugurada pela Asus e vem sendo adotada por cada vez mais fabricantes, incluir
o utilitrio de atualizao diretamente no prprio
BIOS. Nesse caso, voc s precisa pressionar uma
combinao de teclas durante o boot e indicar a
localizao do arquivo de atualizao. Em placas
antigas ele precisava ser gravado num disquete ou
CD-ROM (voc precisava queimar um CD, colocando
o arquivo no diretrio raiz), mas a maioria das placas
atuais j suporta o uso de cartes de memria ou
mesmo de parties do HD, desde que voc coloque
o arquivo no diretrio raiz.
Na maioria dos casos, voc pode acessar o
utilitrio de atualizao pressionando ALT+F2
durante a contagem de memria. Em muitas placas,
a opo tambm fica disponvel atravs do setup. Nas placas da Asus, por exemplo, ela fica dentro do menu
182

"Tools". Dentro do programa, basta indicar o arquivo a ser gravado. Eles geralmente possuem em torno de 512
KB e utilizam a extenso ".BIN" ou ".ROM".
Atualizar o BIOS sempre um procedimento potencialmente perigoso, j que sem ele a placa no
funciona. Na grande maioria dos casos, o programa tambm oferece a opo de salvar um backup do BIOS
atual antes de fazer a atualizao. Esse um passo importante, pois se algo sair errado, ou voc tentar gravar
uma atualizao para um modelo de placa diferente, ainda restar a opo de reverter o upgrade, regravando
o backup da verso antiga.
A maioria das placas atuais incorpora sistemas de proteo, que protegem reas essenciais do BIOS, de
forma que, mesmo que acabe a energia no meio da atualizao, ou voc tente gravar o arquivo errado, a placa
ainda preservar as funes necessrias para que voc consiga reabrir o programa de gravao e terminar o
servio. Temos tambm o caso das placas com dois chips de BIOS, onde o segundo chip protegido contra
gravao.
Placas antigas no possuem essas camadas de proteo, de forma que um upgrade malsucedido podia
realmente inutilizar a placa. Nesses casos, a soluo era remover o chip e lev-lo a algum que tivesse um
gravador de EEPROM. Depois de regravado, o chip era reinstalado na placa e tudo voltava ao normal. Ou seja,
mesmo nesses casos, a placa no era realmente danificada, ficava apenas "fora de servio".
Um truque muito usado era utilizar uma placa-me igual, ou pelo menos de modelo similar, para regravar
o BIOS da placa danificada. Nesses casos, voc dava boot com o disquete ou CD de atualizao (na placa boa),
removia o chip com o BIOS e instalava no lugar o chip da placa danificada (com o micro ligado), dando
prosseguimento ao processo de regravao. Dessa forma, voc usava a placa "boa" para regravar o BIOS da
placa "ruim". Naturalmente, a troca precisava ser feita com todo o cuidado, j que um curto nos contatos
podia inutilizar a placa-me.
Concluindo, existem tambm programas de gravao para Windows, que so includos nos CDs de drivers
de muitas placas. Eles so mais fceis de usar, mas fazer a atualizao atravs deles considerado menos
seguro, j que, dentro do Windows e com outros programas e servios rodando, a possibilidade de algo
inesperado acontecer maior.
Hoje em dia, a maioria dos dispositivos incluindo o HD, drive ptico, placa wireless e placa de vdeo
possuem um software de inicializao, similar ao BIOS da placa-me. Ele pode ser gravado diretamente no
dispositivo, em um chip de memria Flash, ou mesmo em algum tipo de memria ROM, ou ser incorporado ao
driver. Essa segunda soluo vem sendo cada vez mais adotada pelos fabricantes, pois permite eliminar o chip
de memria, reduzindo o custo. por isso que, muitas vezes (sobretudo ao tentar ativar sua placa wireless ou
scanner no Linux), voc precisa baixar, alm do driver ou mdulo necessrio, tambm os arquivos que
compem o firmware da placa.

4.4 OS BARRAMENTOS: ISA, EISA, VLB E PCI


Junto com os processadores, memria RAM e memria cache, outra classe importante so os
barramentos, j que so eles os responsveis por interligar os diferentes componentes da placa-me e
permitir o uso de perifricos.
Acompanhando a evoluo dos processadores, os primeiros anos da plataforma PC foram marcados por
uma corrida em torno de barramentos mais rpidos, capazes de atender evoluo das placas de vdeo e
outros perifricos. No to diferente do que temos nos dias de hoje (onde as placas 3D continuam liderando
a demanda por novas tecnologias), mas na poca essa era uma questo realmente urgente.
O primeiro barramento de expanso usado em micros PC foi o ISA, que por incrvel que parea, foi usado
do PC original (o de 1981) at a poca do Pentium III. Existiram duas verses: os slots de 8 bits, que foram
utilizados pelos primeiros PCs e os slots de 16 bits, introduzidos a partir dos micros 286.
183

Embora fossem processadores de 16 bits, os 8088 comunicavam-se com os perifricos externos utilizando
um barramento de 8 bits, da o padro ISA original tambm ser um barramento de 8 bits. Inicialmente, o
barramento ISA operava a apenas 4.77 MHz, a frequncia de clock do PC original, mas logo foi introduzido o PC
XT, onde tanto o processador quanto o barramento ISA operavam a 8.33 MHz.
Com a introduo dos micros 286, o barramento ISA foi atualizado, tornando-se o barramento de 16 bits
que conhecemos. Na poca, uma das prioridades foi preservar a compatibilidade com as placas antigas, de 8
bits. Justamente por isso, os pinos adicionais foram includos na forma de uma extenso para os j existentes.
Como voc pode ver na foto, o slot ISA dividido em duas partes. A primeira, maior, contm os pinos
usados pelas placas de 8 bits, enquanto a segunda contm a extenso, que adiciona os pinos extras:

Slots ISA
Uma coisa que chama a ateno nos slots ISA o grande nmero de contatos, totalizando nada menos que
98. Por serem slots de 16 bits, temos apenas 16 trilhas de dados, as demais so usadas para endereamento,
alimentao eltrica, sinal de clock, refresh e assim por diante.
Este esquema mostra a funo de cada um dos pinos em um slot ISA. Como voc pode ver, no
exatamente uma implementao "simples e elegante", mas enfim, funcionava e era o que estava disponvel na
poca:

Esquema dos pinos em slot ISA


Cada um destes pinos podia ser controlado individualmente via software e muitas placas no utilizavam
todos os pinos do conector. Por isso, era comum que perifricos mais simples, como placas de som e modems
viessem com alguns dos contatos "faltando". Outra curiosidade que, justamente por serem fceis de
184

programar, as controladoras ISA foram as preferidas por programadores que trabalham com automatizao e
robtica, durante muito tempo. Quando as placas-me com slots ISA comearam a desaparecer do mercado,
alguns chegaram a estoc-las. :)
Apesar de toda a complexidade, o barramento ISA incrivelmente lento. Alm de operar a apenas 8.33
MHz, so necessrios tempos de espera entre uma transferncia e outra, de forma que, na prtica, o
barramento funciona a apenas metade da frequncia nominal. Dessa forma, chegamos a uma taxa de
transmisso terica de 8.33 MB/s (no ISA de 16 bits). Como existe um grande overhead causado pelo
protocolo usado, na prtica acaba sendo possvel obter pouco mais de 5 MB/s de taxa de transferncia real.
Perifricos "rpidos", como placas de vdeo, placas de rede e interfaces IDE migraram rapidamente para
barramentos mais rpidos conforme eles foram sendo introduzidos. Mas o ISA continuou sendo suficiente
para perifricos lentos, como modems, placas de som e alguns outros dispositivos. Isso acabou fazendo com
que o ISA tivesse uma sobrevida assustadora. Por volta do final de 2003 ainda era possvel encontrar placasme novas, destinadas a processadores Pentium III e K6-2, que ainda ostentavam um ou dois slots ISA e
algumas delas continuam em uso at os dias de hoje.
Com relao parte prtica, uma das principais
caractersticas das placas ISA era a presena de jumpers,
que permitiam definir os endereos de IRQ, DMA e I/O
usados pela placa. Em um PC com vrios perifricos, os
valores precisavam ser ajustados com cuidado, j que
duas placas configuradas para utilizar o mesmo endereo
entravam em conflito, fazendo com que ambas no
funcionassem corretamente.
Mais tarde, surgiu o padro ISA plug-and-play, onde
a configurao de endereos feita pelo BIOS durante o
boot. Ele verifica quais endereos esto ocupados por
outros dispositivos e tenta atribuir os endereos livres
aos novos perifricos instalados, evitando conflitos.
Com a introduo das placas ISA plug-and-play, as placas antigas, configuradas via jumper passaram a ser
chamadas de placas "legacy ISA". relativamente incomum encontrar alguma em uso hoje em dia, mesmo ao
trabalhar com micros antigos. Os mais comuns so modems discados, j que os antigos modems ISA trabalham
via hardware e por isso oferecem vantagens sobre os softmodems atuais. Como costumo dizer, os modems
discados so a nica classe de perifricos que regrediu da poca do 486 para c.
Com o surgimento dos processadores 386, que trabalhavam usando palavras binrias de 32 bits, tornou-se
necessria a criao de um barramento mais rpido que o ISA para o uso de perifricos como placas de vdeo e
HDs, que logo passaram a ter seu desempenho severamente limitado por ele.
A primeira resposta veio por parte da IBM, que desenvolveu o barramento MCA. Ele era bastante
avanado para a poca: alm de ser um barramento de 32 bits, ele operava a 10 MHz, o que resultava em uma
taxa de transferncia terica de 32 MB/s (existiu tambm uma verso de 16 bits do MCA, mas ela foi pouco
usada). Ele tambm foi o primeiro barramento a suportar plug-and-play (oito anos antes do lanamento do
Windows 95) e a suportar bus mastering, o que permitia que o HD e outros perifricos transferissem dados
diretamente para a memria RAM (ao carregar um programa, por exemplo), reduzindo a carga sobre o
processador. Isso tornava o sistema bem mais responsvel em relao s mquinas equipadas com placas ISA.
O sistema de plug-and-play do MCA funcionava com o uso de dois disquetes. O "reference disk" continha
um programa de configurao, que alterava a distribuio dos endereos e outras configuraes do BIOS e era
fornecido junto com o micro. Ao comprar qualquer perifrico MCA, voc recebia um "option disk", que era
carregado com a ajuda do primeiro disquete, configurando a placa. Uma vez feita, a configurao se tornava
185

permanente e voc no precisava mais se preocupar. Embora rudimentar, este sistema j seguia a mesma
lgica da instalao de drivers que temos nos dias de hoje.
O grande problema que o MCA era um padro proprietrio, de forma que tanto outros fabricantes de
PCs quanto fabricantes de perifricos precisariam licenciar a tecnologia e pagar royalties para produzir
produtos compatveis.
A IBM tentou usar o barramento como uma arma estratgica para recuperar o terreno perdido para outros
fabricantes, usando-o na linha PS/2, que alm do MCA incorporava vrias outras inovaes importantes (eles
foram os primeiros a usarem disquetes de 1.44 MB, mdulos de memria de 72 vias e assim por diante) e
usava o OS/2 da IBM como sistema operacional.
Como era de se esperar, os demais fabricantes no gostaram da ideia e a IBM acabou isolada, tendo que
arcar sozinha com o desenvolvimento e a produo das placas de expanso. Embora possussem diversas
vantagens, o fato dos IBM PS/2 possurem apenas slots MCA acabou se tornando mais um problema do que
uma vantagem, j que isso os tornava incompatveis com as placas ISA, que eram mais baratas e populares. No
final, o MCA acabou sendo abandonado, compartilhando do fracasso da linha PS/2.
Inicialmente, os demais fabricantes continuaram produzindo micros 386 e 486 utilizando apenas
perifricos ISA, o que resultava em limitaes bvias, sobretudo com relao ao desempenho do HD e vdeo, o
que os tornava praticamente inutilizveis para edio de imagens e vdeo, por exemplo, reas onde os Macs
dominavam. Por utilizarem o mesmo barramento dos micros 286 (tambm chamados de PC-AT), eles eram
chamados de "AT 386" ou "AT 486". Como pode imaginar, o "AT" nesse caso indica uma limitao e no um
recurso extra.
No demorou para que a Compaq desenvolvesse o EISA e abrisse as especificaes para os demais
fabricantes, criando uma entidade sem fins lucrativos para impulsionar seu desenvolvimento.
O EISA um barramento peculiar. As dimenses so as mesmas de um slot ISA de 16 bits, porm o slot
mais alto e possui duas linhas de contatos. A linha superior mantm a mesma pinagem de um slot ISA de 16
bits, de forma a manter a compatibilidade com todos os perifricos, enquanto a linha inferior inclui 90 novos
contatos, utilizados pelas placas de 32 bits.
As placas ISA atingiam apenas os contatos superficiais do conector, enquanto as placas EISA utilizavam
todos os contatos. Embora o uso de tantos contatos esteja longe de ser uma soluo elegante, preciso
admitir que o EISA foi uma soluo engenhosa para o problema da compatibilidade. Aqui temos os contatos de
uma placa de vdeo EISA, que mostra a organizao na prtica:

Placa de vdeo EISA


Os slots EISA eram tipicamente marrons, por isso lembram um pouco um slot AGP, embora bem maiores:

Slot EISA
186

Assim como o ISA, o barramento EISA operava a 8.33 MHz. Entretanto, a transferncia de 32 bits por ciclo
e a eliminao dos tempos de espera entre um ciclo e outro faziam com que ele fosse at 4 vezes mais rpido.
Apesar disso, o EISA acabou tendo uma vida curta, pois em 1993 surgiu o VLB (VESA Local Bus), outro
padro aberto de barramento de 32 bits, que conseguia ser muito mais rpido, trabalhando a uma frequncia
nominal de 33 MHz e oferecendo taxas de transferncia tericas de at 133 MB/s.
Inicialmente o VLB (ou VESA, como chamado por muitos) surgiu como barramento prprio para a
conexo da placa de vdeo. Nesta poca, o Windows 3.11 e os aplicativos grficos j eram populares, de forma
que existia uma grande demanda por placas de vdeo mais rpidas.
O "rpido" que menciono aqui a simples capacidade de atualizar a tela em tempo real enquanto edita
uma imagem no Photoshop, no tem nada a ver com acelerao 3D ou exibio de vdeo em alta resoluo,
como temos hoje em dia. Alm de serem muito lentas, as placas de vdeo ISA eram limitadas exibio de
apenas 256 cores, o que fez com que elas fossem rapidamente substitudas pelas VLB.
Graas boa velocidade, o VLB acabou tornando-se o padro tambm para outros perifricos, como
controladoras IDE e SCSI. Novamente, existiu a preocupao de manter compatibilidade com as placas ISA, de
forma que os slots VLB so na verdade uma expanso, onde temos um slot ISA tradicional, seguido por um
segundo conector, que inclui os pinos adicionais:

Slots VLB
Isso rendeu o apelido de "Very Long Bus" (barramento muito comprido) e trouxe uma srie de problemas
de mal contato, j que se a placa-me no estivesse muito bem presa ao gabinete, a presso necessria para
encaixar as placas fazia com que a placa envergasse, comprometendo o encaixe. O grande stress mecnico ao
instalar e remover as placas acabava danificando os contatos com o tempo, o que, combinado com a oxidao
natural, acabava fazendo com que muitas placas realmente deixassem de funcionar depois de removidas e
reinstaladas algumas vezes.
Como o nome sugere, o VLB um barramento local, onde os contatos so ligados diretamente aos pinos
do processador. Esse design simples barateava a produo das placas-me, mas fazia com que a utilizao do
processador fosse alta e tornava invivel a utilizao de mais de 3 placas VLB no mesmo micro.
O VLB se tornou rapidamente o padro de barramento para placas para micros 486, mas acabou
desaparecendo com a introduo do barramento PCI. Uma curiosidade que as placas soquete 4 (a primeira
gerao de placas-me para micros Pentium 1, que suportavam apenas as verses de 60 e 66 MHz) chegaram
a incluir slots VLB, utilizando uma verso adaptada do barramento.
Chegamos ento ao PCI, que embora tenha sido introduzido em 1992, continua em uso at os dias de hoje,
resistindo aos avanos do PCI Express.
O PCI opera nativamente a 33 MHz, o que resulta em uma taxa de transmisso terica de 133 MB/s.
Entretanto, assim como em outros barramentos, a frequncia do PCI est vinculada frequncia de operao
da placa-me, de forma que, ao fazer overclock (ou underclock) a frequncia do PCI acaba tambm sendo
alterada.
Em uma placa-me soquete 7 antiga, que opera a 66 MHz, o PCI opera metade da frequncia da placame. Ao fazer overclock para 75 ou 83 MHz, o PCI e todas as placas conectadas a ele passam a operar a
respectivamente 37.5 MHz e 41.5 MHz. Isto acabava resultando em um ganho adicional de desempenho, j
187

que, alm do aumento de clock do processador, temos ganhos de desempenho tambm em outros
componentes.
Conforme a frequncia das placas foi subindo, passaram a ser utilizados divisores cada vez maiores para
manter o PCI operando sua frequncia original. Em uma placa-me operando a 133 MHz, a frequncia
dividida por 4 e em uma de 200 MHz, dividida por 6.
Como voc pode notar, o barramento PCI tem se tornado cada vez mais lento com relao ao processador
e outros componentes, de forma que, com o passar do tempo, os perifricos mais rpidos migraram para
outros barramentos, como o AGP e o PCI-Express. Ou seja, a histria se repete, com o PCI lentamente se
tornando obsoleto, assim como aconteceu com o ISA h mais de uma dcada atrs.

Slots PCI (no centro) e PCI Express


De volta histria, uma das principais vantagens do PCI sobre os barramentos anteriores foi o suporte a
bus mastering. Tanto o EISA quanto o VLB ofereciam um sistema de bus mastering rudimentar, mas o recurso
acabou no sendo muito utilizado por um conjunto de fatores, incluindo as dificuldades no desenvolvimento
dos drivers. Apenas com o PCI foi criado um padro realmente confivel, que foi adotado em massa pelos
fabricantes.
O bus mastering um sistema avanado de acesso direto memria, que permite que HDs, placas de
vdeo e outros perifricos leiam e gravem dados diretamente na memria RAM, mantendo o processador livre
para executar outras tarefas durante a transferncia.
Um dos melhores exemplos quando o sistema est ocupado inicializando vrios programas
simultaneamente. O HD precisa transferir vrios de arquivos e bibliotecas para a memria, a placa de vdeo
precisa exibir as telas de progresso e atualizar a tela, enquanto o processador fica ocupado processando as
configuraes e outras informaes necessrias ao carregamento dos programas. Graas ao bus mastering, um
micro atual ainda continua respondendo aos movimentos do mouse e s teclas digitadas no teclado, os
downloads e transferncias de arquivos atravs da rede no so interrompidos e assim por diante; muito
diferente do que tnhamos na poca do 486, quando os micros antigos literalmente "paravam" durante
transferncias de arquivos e carregamento dos programas.
Complementando, temos a questo do plug-and-play (PnP). Atualmente, estamos acostumados a instalar o
dispositivo, instalar os drivers e ver tudo funcionar, mas antigamente as coisas no eram assim to simples, de
forma que o plug-and-play foi tema de grande destaque.
188

Tudo comea durante a inicializao do micro. O BIOS envia um sinal de requisio para todos os
perifricos instalados no micro. Um perifrico PnP capaz de responder ao chamado, permitindo ao BIOS
reconhecer os perifricos instalados. O passo seguinte criar uma tabela com todas as interrupes
disponveis e atribuir cada uma a um dispositivo. O sistema operacional entra em cena logo em seguida, lendo
as informaes disponibilizadas pelo BIOS e inicializando os perifricos de acordo.
As informaes sobre a configurao atual da distribuio dos recursos entre os perifricos so gravadas
em uma rea do CMOS chamada de ESCD. Tanto o BIOS (durante o POST) quanto o sistema operacional
(durante a inicializao) leem essa lista e, caso no haja nenhuma mudana no hardware instalado, mantm
suas configuraes. Isso permite que o sistema operacional possa alterar as configuraes caso necessrio.
Embora hoje isso no seja muito usado, possvel alterar as configuraes dos endereos no Windows,
atravs do gerenciador de dispositivos, encontrado no Painel de Controle > Sistema.
Na maioria das placas-me, voc encontra a opo "Reset ESCD" ou "Reset Configuration Data" que,
quando ativada, fora o BIOS a atualizar os dados da tabela, descartando as informaes anteriores. Em
muitos casos, isso soluciona problemas relacionados deteco de perifricos, como, por exemplo, ao
substituir a placa de som e perceber que a nova no foi detectada pelo sistema.
Nos micros atuais, os conflitos de endereos so uma ocorrncia rara. Na maioria dos casos, problemas de
deteco de perifricos, sobretudo no Linux, esto mais relacionados a problemas no ACPI, falta de drivers
ou falta de suporte por parte dos drivers existentes.
O ACPI o responsvel no apenas pelo suporte a economia de energia (incluindo o ajuste dinmico da
frequncia do processador), mas tambm pela inicializao de vrios perifricos. comum, por exemplo, que a
placa wireless no seja detectada, ou que voc no consiga ativar o transmissor usando os botes at que
instale o driver ou utilitrio fornecido pelo fabricante. No Acer 5043 (e outros modelos similares), por
exemplo, voc s consegue ativar o transmissor da placa wireless depois de instalar o Acer Launch Manager.
Em placas antigas, que ainda possuem slots ISA, existe um complicador adicional, j que placas legacy ISA
(as configuradas via jumper) no so detectadas pelo BIOS e por isso no entram na tabela de endereos, o
que pode fazer com que os endereos usados por elas sejam atribudos a outras placas, causando conflitos,
como nos velhos tempos.
Para evitar esse problema, preciso reservar manualmente os endereos de IRQ e DMA ocupados por
perifricos ISA de legado atravs da sesso "PNP/PCI Setup". Se, por exemplo, voc tiver uma placa de som
no PnP, que esteja configurada para utilizar o IRQ 5 e os canais de DMA 1 e 5, voc dever reservar os trs
canais, para que o BIOS no os atribua a nenhum outro perifrico.
Os sistemas operacionais atuais incluem rotinas de identificao indireta para esses perifricos antigos, o
que diminui muito os conflitos gerados por ele. No caso do Windows por exemplo, as verificaes fazem parte
dos testes executados pelo "Adicionar novo Hardware".

4.5 VIDA E MORTE DO AGP


Quando o barramento PCI foi introduzido em 1992, os 133 MB/s oferecidos por ele pareciam mais do que
suficientes, j que as placas de vdeo eram ainda puramente 2D e as controladoras IDE ainda operavam em
modo PIO Mode 4, transferindo a morosos 16.6 MB/s.
Isso mudou com o surgimento das placas 3D, que passaram a evoluir rapidamente, sobrecarregando o
cansado PCI. A soluo veio com o AGP, um barramento rpido, feito sob medida para o uso das placas de
vdeo. A verso original do AGP foi finalizada em 1996, desenvolvida com base nas especificaes do PCI 2.1.
Ela operava a 66 MHz, permitindo uma taxa de transferncia terica de 266 MB/s.
O primeiro chipset a oferecer suporte ao AGP foi o Intel i440LX, lanado no final de 1997, e a adoo
ocorreu de forma gradual durante 1998 e 1999. O padro AGP inicial no chegou a ser muito usado, pois em
189

1998 surgiu o padro AGP 2x, que manteve a frequncia de 66 MHz, mas introduziu o uso de duas
transferncias por ciclo (assim como nas memrias DDR), dobrando a taxa de transferncia. Em seguida foram
introduzidos o AGP 4x e o 8x, que realizam, respectivamente, 4 e 8 transferncias por ciclo, atingindo taxas de
transferncia tericas de 1066 e 2133 MB/s.
O desempenho de uma placa 3D fortemente atrelado velocidade de acesso memria. Mais de 95%
das informaes que compem uma cena 3D de um jogo atual so texturas e efeitos, que so aplicados sobre
os polgonos. As texturas so imagens 2D, de resolues variadas que so "moldadas" sobre objetos, paredes e
outros objetos 3D, de forma a criar um aspecto mais parecido com uma cena real.
A velocidade do barramento AGP importante quando o processador precisa transferir grandes volumes
de texturas e outros tipos de dados para a memria da placa de vdeo; quando a memria da placa se esgota e
ela precisa utilizar parte da memria principal como complemento; e, tambm, no caso de chipsets de vdeo
onboard, que no possuem memria dedicada e, justamente por isso, precisam fazer todo o trabalho usando
um trecho reservado da memria RAM principal.
Naturalmente, tudo isso tambm podia ser feito atravs do barramento PCI. O problema que a baixa
velocidade fazia com que a queda no desempenho fosse cada vez maior, conforme crescia o desempenho da
placa de vdeo. O PCI podia ser suficiente para uma Voodoo 2 ou uma Riva 128, mas no para uma placa mais
moderna.
Durante muito tempo, fabricantes como a nVidia e a ATI continuaram oferecendo suas placas nas duas
verses, mas logo a diferena de desempenho entre as verses PCI e AGP passou a ser tamanha que, por mais
que ainda existisse uma certa demanda, as placas PCI foram sumariamente descontinuadas.
Alm da questo da taxa de transferncia, outra vantagem do AGP era o fato de o barramento ser
reservado unicamente placa de vdeo, enquanto os 133 MB/s do barramento PCI so compartilhados entre
todos os perifricos ligados ao barramento, com a placa 3D competindo por banda com os HDs e outros
perifricos.
Assim como temos hoje em dia, a maior parte das placas da poca vinha com chipsets de vdeo onboard,
oferecendo, ao mesmo tempo, um slot AGP para a instalao de uma placa dedicada. Como o AGP um
barramento dedicado (um nico perifrico de cada vez), o slot AGP e o chipset onboard compartilhavam o
barramento e s um podia ser usado de cada vez. Ao instalar uma placa 3D dedicada, o chipset onboard era
automaticamente desativado.
Hoje em dia isso j no mais uma regra, j que as placas atuais utilizam o PCI Express, que oferece
conexes independentes para cada componente, permitindo que, em muitas situaes, voc possa usar o
chipset onboard e uma placa dedicada simultaneamente (permitindo o uso de diversos monitores ou mesmo a
combinao do processamento das duas, como no Hybrid SLI).
Continuando, a frequncia do barramento AGP atrelada frequncia de operao da placa-me (assim
como no PCI), de forma que, ao fazer overclock aumentando a frequncia do FSB, a frequncia do barramento
AGP sobe na mesma proporo, o que pode causar problemas de estabilidade a partir de certo ponto.
Por outro lado, aumentar a frequncia do AGP no tem uma relao direta com o desempenho da placa de
vdeo, pois as placas atuais utilizam um circuito de clock prprio e por isso no so influenciadas por mudanas
na frequncia do barramento. Aumentando a frequncia do AGP, melhorado apenas o fluxo de dados entre
a placa de vdeo, memria e processador, o que tem pouco efeito sobre o desempenho.
O AGP teve uma histria um pouco tumultuada, com novas verses sendo finalizadas s pressas para
atender s demandas das placas 3D e um bom volume de problemas de compatibilidade entre placas de
diferentes geraes.

190

Alm da questo da velocidade, tivemos tambm a questo da tenso utilizada. O padro AGP 1.0 previa
placas AGP 1x e 2x, que utilizavam tenso de 3.3V. O padro AGP 2.0, finalizado em 1998, introduziu o AGP 4x
e a tenso de 1.5V, quebrando a compatibilidade com o padro antigo.
Placas de vdeo que utilizam sinalizao de 3.3V (como a nVidia TNT2, esquerda na foto a seguir)
possuem o chanfro do encaixe posicionado no lado esquerdo, enquanto nas placas que utilizam 1.5V, ele
posicionado direita.
A maioria das placas AGP fabricadas de 2003 em diante so "universais" e podem ser utilizadas tanto nas
placas-me antigas, com slots de 3.3V, quanto nas placas com slots de 1.5V. Elas possuem os dois chanfros
(como a Radeon direita na foto), o que permite que sejam encaixadas em qualquer slot:

Placa AGP de 3.3V e placa AGP universal


A mesma distino existe no caso das placas-me. Placas antigas, que utilizam slots de 3.3V possuem o
chanfro esquerda, enquanto as placas com slots de 1.5V utilizam o chanfro posicionado direita, como
nestes dois exemplos:

Placa com slot AGP de 3.3V e placa com slot de 1.5V


Foram produzidas tambm placas com slots AGP universais, em que o slot no possui chanfro algum e
permite a instalao de qualquer placa. Nesse caso, a placa-me era capaz de detectar automaticamente a
tenso utilizada pela placa. Apesar da flexibilidade, elas foram mais raras, pois a necessidade de instalar tanto
os circuitos reguladores para 1.5V quanto para 3.3V, encarecia a produo:

191

Slot AGP universal


Existiu ainda o padro AGP 3.0, utilizado pelas placas AGP 8x (e parte das 4x), que previa o uso de
sinalizao de 0.8V. Nesse caso, entretanto, a transio foi feita de forma transparente, sem que fosse
quebrada a compatibilidade com as placas antigas. Ao ser instalada em uma placa-me com slot AGP 2.0 (2x
ou 4x, 1.5V) a placa (de vdeo) AGP 3.0 funciona normalmente, utilizando sinalizao de 1.5V e o modo de
transferncia mais rpido, entre os suportados pela placa-me.
Caso a placa de vdeo utilize um conector AGP universal, com os dois chanfros, significa que ela pode (pelo
menos em teoria), ser instalada mesmo em uma placa-me antiga, com um slot de 3.3V. Digo "em teoria", pois
existiram muitos casos de incompatibilidades entre placas de vdeo AGP de fabricao mais recente e placasme antigas (e vice-versa), mesmo em casos onde os encaixes so compatveis.
Alm dos problemas relacionados a deficincias nos drivers e incompatibilidade por parte do BIOS, tivemos
tambm problemas relacionados alimentao eltrica, onde a placa de vdeo no indica corretamente qual
a tenso utilizada (fazendo com que a placa-me utilize 1.5V para uma placa que trabalhe com 3.3V, por
exemplo) ou que a placa-me no seja capaz de alimentar a placa de vdeo com energia suficiente. Esse ltimo
caso o mais comum, j que as placas AGP mais recentes consomem muito mais energia que as antigas.
O padro AGP 3.0 inclui como pr-requisito
que a placa-me seja capaz de fornecer 41
watts de energia para a placa de vdeo. O
padro AGP 2.0 fala em 25 watts, enquanto
muitas placas antigas fornecem ainda menos.
Com a corrida armamentista entre a nVidia e a
ATI, esses limites logo se tornaram um
problema, j que com os aumentos no clock, o
consumo eltrico das placas de vdeos cresceu
de forma exponencial, resultando em placas
AGP que consumiam 50, 70 ou at mesmo 100
watts, como no caso desta ATI Radeon X850 Pro
AGP ( esquerda).
Pensando nessas placas mais gastadoras, foi criado o padro AGP Pro, que consistia no uso de 48 contatos
adicionais, utilizados para reforar o fornecimento eltrico do slot. O padro AGP Pro50 previa o fornecimento
de 50 watts, enquanto o AGP Pro110 elevava a marca para 110 watts:
192

Slot AGP Pro


Graas aos pinos adicionais os slots AGP Pro eram bem maiores que um slot AGP tradicional. As placas de
vdeo AGP Pro tambm eram incompatveis com os slots AGP tradicionais (justamente devido diferena no
fornecimento eltrico) e o uso de slots AGP Pro encarecia o custo das placas-me, j que os fabricantes
precisavam adicionar trilhas e reguladores de tenso adicionais.
Devido combinao desses fatores, o padro AGP Pro nunca chegou a se popularizar. Os fabricantes de
placas de vdeo hesitavam em adotar o novo padro enquanto no houvesse um volume significativo de
placas-me compatveis no mercado, enquanto os fabricantes de placas-me resolveram esperar at que
existisse um volume significativo de placas de vdeo AGP Pro. Ou seja, o tradicional problema do ovo e da
galinha.
Com o impasse, os fabricantes de placas de vdeo decidiram adotar uma soluo mais simples, onde os
reguladores de tenso necessrios so includos na placa de vdeo e ela passa a obter a energia adicional
diretamente da fonte de alimentao, atravs de um conector berg (floppy) ou molex, recebendo energia
direto da fonte:

Conector berg em uma placa de vdeo


Essa soluo se tornou ainda mais comum com o advento do padro PCI Express, que trouxe conectores de
energia prprios para a placa de vdeo, com 6 e 8 pinos, usados de acordo com o consumo da placa. A
capacidade de fornecimento do slot (no PCI Express) tambm foi ampliada, o que faz com que um nmero
menor de placas de vdeo precisem do conector de energia externo. Um slot PCI Express x16 pode fornecer at
70 watts, quase 75% mais que um slot AGP 8x.
Como caro incluir simultaneamente o barramento PCI Express e o AGP na mesma placa-me, os slots
AGP desapareceram das placas novas assim que o PCI Express se tornou popular. A principal exceo ficou por
parte de algumas placas da ECS/PC-Chips, que adotaram uma soluo "criativa" para incluir um conector AGP

193

em placas com slot PCI-Express, criando o AGP Express (ou AGPro), que aparece na foto da estranha placa que
combina o slot AGP com um PCI Express que usei h pouco.
O slot AGP Express nada mais do que um slot AGP conectado ao barramento PCI, que combina a
alimentao eltrica de dois slots PCI (e os reguladores de tenso apropriados) para fornecer a quantidade
necessria de eletricidade placa AGP. Como o AGP e o PCI utilizam o mesmo sistema de sinalizao, a
gambiarra realmente funcionava (na maioria dos casos), embora com uma reduo muito grande no
desempenho, j que a placa de vdeo passa a dispor dos mirrados 133 MB/s (compartilhados) oferecidos pelo
barramento PCI, em vez dos 2133 MB/s do AGP 8x.
Outra soluo hbrida foi o AGI, que foi usado em algumas placas da ASRock, como a 939Dual-SATA2. No
AGI era utilizado um bridge, ou seja, um chip conversor de sinais para ligar um slot AGP ao barramento PCIExpress. Essa soluo tambm estava longe de ser 100% compatvel, mas garantia um desempenho mais
prximo do obtido ao usar um slot AGP 8x "de verdade".
Concluindo, existiu tambm o Ultra-AGPII, uma soluo desenvolvida pela SiS para uso de chipsets de
vdeo onboard. O AGI consistia em um barramento interno de 3.2 GB/s, interligando o chipset de vdeo e a
memria principal.
O desempenho dos chipsets de vdeo onboard pesadamente limitado pela velocidade de acesso
memria, de forma que ampli-lo resulta sempre em algum ganho de desempenho. No caso da SiS,
entretanto, o prprio chipset grfico onboard era muito fraco, de modo que a melhora no barramento no
chegou a fazer uma diferena to grande assim. O Ultra-AGPII foi usado apenas em algumas placas com
chipset SiS e era exclusivo para o uso do vdeo onboard. Ao utilizar uma placa AGP offboard, a comunicao
passava a ser feita atravs do barramento AGP 8x tradicional.
Todas estas solues hbridas surgiram entre 2005 e 2006 para suprir a demanda por placas-me com slots
AGP por parte de usurios que atualizavam PCs antigos (e queriam aproveitar a placa de vdeo) e integradores
que ainda tinham placas em estoque. Entretanto, elas desapareceram rapidamente, conforme a migrao em
direo ao PCI Express foi avanando.
No final, o AGP acabou destinado a se tornar um barramento esquecido, como o VLB e o MCA, encontrado
apenas em PCs antigos. Apesar disso, o saldo foi positivo, j que ele atendeu demanda por um barramento
rpido para placas 3D por quase uma dcada.

4.6 O PCI EXPRESS


Ao longo da histria da plataforma PC, tivemos uma extensa lista de barramentos, comeando com o ISA
de 8 bits, usado nos primeiros PCs, passando pelo ISA de 16 bits, MCA, EISA, e VLB, at finalmente chegar no
barramento PCI, que sobrevive at os dias de hoje.
O PCI um barramento de 32 bits, que opera a 33 MHz, resultando em uma banda total de 133 MB/s,
compartilhada entre todos os perifricos ligados a ele. O PCI trouxe recursos inovadores (para a poca), como
o suporte a plug-and-play e bus mastering e, comparado com os barramentos antigos, ele relativamente
rpido. O grande problema que ele surgiu no comeo da era Pentium, quando os processadores ainda
trabalhavam a 100 MHz. Hoje em dia temos processadores quad-core se aproximando da casa dos 4 GHz e
ainda assim ele continua sendo usado, com poucas melhorias.
Por ser compartilhado entre todos os dispositivos ligados a ele, o barramento PCI pode ser rapidamente
saturado, com alguns dispositivos rpidos disputando toda a banda disponvel. O barramento se torna ento
um gargalo, que limita o desempenho global do PC.
A fase mais negra da histria do barramento PCI foi durante a poca das placas soquete 7 (processadores
Pentium, Pentium MMX, K6 e 6x86), quando o barramento PCI era o responsvel por praticamente toda a
comunicao entre os componentes da placa-me, incluindo todos os perifricos, a comunicao entre as
194

pontes norte e sul do chipset, as interfaces IDE, etc. At mesmo o antigo barramento ISA era ligado ao PCI
atravs do PCI-to-ISA bridge (ponte PCI-ISA), um controlador usado nos chipsets da poca.
Isso fazia com que o barramento ficasse incrivelmente saturado, limitando severamente o desempenho do
micro. Eram comuns situaes onde o desempenho do HD era limitado ao rodar games 3D, pois a placa de
vdeo saturava o barramento, no deixando espao suficiente para os demais componentes.
A histria comeou a mudar com o aparecimento do barramento AGP. Ele desafogou o PCI, permitindo
que a placa de vdeo tivesse seu prprio barramento rpido de comunicao com o chipset. O AGP matou dois
coelhos com uma cajadada s, pois permitiu o aparecimento de placas 3D mais rpidas e desafogou a
comunicao entre os demais componentes. Rapidamente todas as placas de vdeo passaram a utiliz-lo, com
os fabricantes oferecendo verses PCI apenas dos modelos mais simples.
O passo seguinte foi a criao de barramentos dedicados para a comunicao entre os diversos
componentes do chipset (como o DMI, usado em chipsets Intel, e o HyperTransport), fazendo com que as
interfaces IDE ou SATA e outros componentes tambm ganhassem seu canal exclusivo. O PCI passou ento a
ser exclusividade das prprias placas PCI.
O problema que, mesmo desafogado, o PCI muito lento para diversas aplicaes. lento demais para
ser utilizado por placas de rede Gigabit Ethernet (embora seja suficiente na teoria, na prtica a histria um
pouco diferente, devido ao compartilhamento da banda), por placas SCSI modernas, ou mesmo por placas
RAID e controladoras eSATA. Alm disso, os slots PCI utilizam um nmero muito grande de trilhas na placame, o que dispendioso para os fabricantes.
Existiram tentativas de atualizao do PCI, como o PCI de 64 bits, o PCI de 66 MHz e o PCI-X, que alm de
ser um barramento de 64 bits, trabalha a 133 MHz, resultando num barramento de 1024 MB/s. Em termos de
velocidade, o PCI-X supriria as necessidades dos perifricos atuais, o problema que, devido ao grande
nmero de contatos e ao tamanho fsico dos slots, ele acaba sendo um barramento muito dispendioso e
imprtico, que ficou relegado aos servidores parrudos. Aqui temos trs slots PCI-X, ao lado de slots PCI
"normais" em uma workstation da HP:

Slots PCI-X, em comparao com slots PCI comuns


O PCI Express, ou PCIe, um barramento serial, que tem pouco em comum com os barramentos
anteriores. Graas a isso, ele acabou se tornando o sucessor no apenas do PCI, mas tambm do AGP.

195

4.6.1 COMO O PCI EXPRESS FUNCIONA


A caracterstica fundamental do PCI Express que ele um barramento ponto a ponto, onde cada
perifrico possui um canal exclusivo de comunicao com o chipset. No PCI tradicional, o barramento
compartilhado por todos os perifricos ligados a ele, o que pode criar gargalos, como no caso das placas
soquete 7.
Alguns puristas argumentam que o PCI Express no um barramento no sentido estrito da palavra, j que
o termo "barramento" surgiu para descrever um canal de comunicao compartilhado por vrios dispositivos
ou perifricos. Mas, sou da opinio de que esse tipo de preciosismo deve ser evitado. Os termos tcnicos
evoluem e so adaptados, assim como a tecnologia. Em toda a documentao usado o termo "PCI Express
bus", referindo-se ao PCI Express (e tambm ao USB, Firewire e outros) como "bus", ou seja, "barramento". A
designao j foi adotada oficialmente.
O PCI Express tambm um barramento serial e no um barramento paralelo, como o PCI. Antigamente,
os circuitos eletrnicos eram muito lentos, por isso a soluo para criar barramentos mais rpidos era
adicionar mais trilhas e transmitir vrios bits de cada vez. Exemplos de barramentos paralelos so as portas
paralelas, usadas pelas impressoras antigas, as portas IDE e tambm o prprio barramento PCI.
Com o avano da tecnologia, os projetistas comearam a encontrar dificuldades em criar barramentos
paralelos mais rpidos, pois o grande nmero de trilhas operando a altas frequncias criava rudo
eletromagntico e problemas de sincronismo. A soluo foi passar a investir em barramentos seriais, onde so
usados apenas um ou dois pares de trilhas e controladores mais sofisticados, capazes de transmitir a
frequncias mais altas.
Com menos trilhas, o problema do rudo e interferncia eliminado e os dados podem ser transmitidos na
frequncia permitida pelos circuitos, sem problemas de sincronismo. Atualmente, acaba fazendo mais sentido
usar um circuito controlador muito rpido, transmitindo um bit por vez, do que tentar criar um barramento
complicado, que transmite 16 ou 32 bits por ciclo.
Enquanto os fabricantes enfrentaram dificuldades para manter o sincronismo dos sinais do PCI-X a apenas
133 MHz, os transmissores do barramento PCI Express podem operar a 2.5 GHz sem maiores problemas.
Exemplos de barramentos seriais so o USB, o
Serial ATA e o PCI Express. A diferena de
desempenho entre estes barramentos atuais em
relao aos barramentos antigos brutal: uma
porta paralela operando em modo EPP transmite a
apenas 8 megabits por segundo, enquanto uma
porta USB 2.0 atinge 480 megabits. Uma porta IDE
ATA-133 transmite a 133 MB/s, enquanto o SATA
600 atinge 600 MB/s. O PCI oferece apenas 133
MB/s, compartilhados por todos os dispositivos,
enquanto um slot PCI Express 2.0 x16 atinge
incrveis 8 GB/s.
Comeando do bsico, existem 4 tipos de slots
PCI Express, que vo do x1 ao x16. O nmero indica
quantas linhas de dados so utilizadas pelo slot e,
consequentemente, a banda disponvel.

Placa de captura que usa um slot PCIe x1

Existem duas verses do PCI Express em uso, o


PCI Express 1.x e o PCI Express 2.0. O PCI Express 1.x
o padro inicial (finalizado em 2002), enquanto o
196

PCI Express 2.0 a verso segunda verso (finalizada em janeiro de 2007), que transmite ao dobro da
velocidade. Apesar da diferena, os dois padres so intercompatveis: salvo raros casos de incompatibilidade,
no existem problemas em instalar uma placa PCI Express 2.0 em um slot PCI Express 1.1, ou vice-versa, mas
em ambos os casos a velocidade limitada pelo mais lento.
Cada linha PCI Express utiliza 4 pinos de dados (dois para enviar e dois para receber), que operam em
modo full-duplex (ou seja, so capazes de transmitir e receber dados simultaneamente). No PCI Express 1.x
temos 250 MB/s em cada direo por linha de dados, enquanto no PCI Express 2.0 temos 500 MB/s por linha.
Devido essa caracterstica, comum que os fabricantes divulguem que o PCI Express transmite a 500
MB/s no padro 1.x e 1000 MB/s no padro 2.0, mas estes so valores irreais, j que s ocorreria em situaes
em que grandes quantidades de dados precisassem ser transmitidos simultaneamente em ambas as direes.
Junto com o uso do barramento serial, outra grande
inovao do PCI Express foi a de permitir combinar vrias
linhas de dados em um nico slot, multiplicando a banda
disponvel. Com isso, temos, 250 MB/s de banda nos slots PCIe
1.1 x1, 1 GB/s nos slots x4, 2 GB/s nos slots x8 e 4 GB/s nos
slots x16. No caso das placas com o PCIe 2.0, as velocidades
dobram, com 500 MB/s para os slots x1, 2 GB/s nos slots x4, 4
GB/s nos slots x8 e incrveis 8 GB/s nos slots x16.
O padro original tambm previa o uso de slots x2 e x32,
mas eles nunca chegaram a ser implementados. Na prtica, os
slots 8x tambm so muito raros, de forma que voc ver
apenas slots 1x, 4x e 16x nas placas atuais.
Em todos os formatos, o slot dividido em duas seces. A primeira contm os contatos de alimentao
eltrica e igual em todos os slots, enquanto a segunda inclui os contatos de dados, que aumentam em
nmero de acordo com o nmero de linhas de dados:

Seces dos slots PCIe


Essa organizao foi desenvolvida para que exista compatibilidade retroativa com todos os formatos
menores. Graas a isso, os slots x16 so compatveis tambm com as placas x1, x4 e x8 e os slots x4 so
compatveis tambm com as placas x1 (e com as hipotticas placas x2).
Ao conectar uma placa x1 em um slot x16, por exemplo, os contatos adicionais ficam sem uso. Como pode
imaginar, o controlador esperto o suficiente para desativar as linhas de dados inativas. Se voc souber o que
est fazendo, possvel at mesmo cobrir parte dos contatos com fita adesiva para desativar parte das linhas
de dados e assim medir o desempenho da placa caso usada em slots com apenas 8 ou 4 linhas (como feito em
alguns reviews).
Existem tambm os casos de placas-me com slots x4 ou x8 "abertos". Eles no tm a borda do conector,
permitindo que voc encaixe placas maiores, deixando os contatos extras de fora:

197

Slot PCI Express x4 aberto em uma ASRock, para a instalao de uma segunda placa x16
Essa soluo usada nos casos em que o fabricante deseja oferecer a possibilidade de usar duas placas de
vdeo em CrossFire ou SLI, mesmo que o chipset oferea apenas 4 linhas de dados para o segundo slot. Como
pode imaginar, o uso de apenas 4 linhas cria um gargalo que reduz o desempenho da segunda placa, mas ao
menos a possibilidade existe.
Tambm existe a possibilidade de criar slots "capados", onde temos um slot x16 com apenas 8 linhas de
dados, ou um slot x4, com apenas uma linha, por exemplo. Estes slots se comportam exatamente da mesma
forma que um slot x1 ou um slot x4 aberto, mudando apenas o encaixe fsico. Como nestes casos muda apenas
o uso das linhas de dados (e no as conexes eltricas), os slots continuam sendo perfeitamente compatveis
com todos os tipos de placas; apenas o canal de dados passa a ser mais lento.
Graas a toda essa flexibilidade, temos alguns casos interessantes, como o desta Intel D975BX da foto a
seguir. Ela possui trs slots PCI Express 16x (um deles com 16 linhas de dados e os outros dois com apenas 8
linhas), dois slots PCI legacy e nenhum slot PCIe x1 ou x4 (voc usaria um dos slots x16 caso precisasse instalar
uma placa de expanso qualquer):

Slots da placa-me Intel D975BX

198

Concluindo, o PCI Express utiliza um sistema de codificao chamado 8b/10b, onde so includos dois bits
adicionais para cada byte de dados transmitido. Estes bits adicionais permitiram eliminar a necessidade do uso
de pinos adicionais para enviar o sinal de sincronismo, o que simplificou bastante o design e melhorou a
confiabilidade, mas em compensao reduziu o volume real de dados transmitidos.
por causa dessa caracterstica que os 2.5 gigabits (PCIe 1.x) ou 5.0 gigabits (no PCIe 2.0) de banda
oferecidos por cada linha de dados equivalem a apenas 250 e 500 MB/s de dados e no a 312.5 e 625, que
seriam o resultado da tradicional diviso por 8.

4.6.2 DENTRO DO CHIPSET


Tipicamente, temos um grande nmero de linhas PCI Express disponveis na ponte norte do chipset (onde
so quase sempre ligados um ou dois slots x16), e mais algumas linhas na ponte sul, onde so ligados os slots
mais lentos, 1x e 4x.
Este esquema mostra a comunicao entre componentes em uma placa-me baseada no chipset D975X da
Intel, um representante da era Pentium 4:

Esquema da comunicao entre componentes em uma placa-me baseada no chipset D975X da Intel
Nos chipsets Intel, a ponte norte tradicionalmente chamada de "MCH" (Memory Controller Hub) e a
ponte sul de "ICH" (I/O Controller Hub). O MCH inclui o controlador de acesso memria, o vdeo onboard e
16 linhas PCI Express, que podem ser usadas para criar um nico slot x16 ou (no caso das placas que suportam
duas placas de vdeo em SLI) dois slots 8x.
Ligando o MCH ao ICH, temos um barramento rpido, chamado DMI (Direct Media Interface), que oferece
um barramento de 2 GB/s (nos chipsets para processadores AMD, o DMI substitudo pelo barramento
HyperTransport). O ICH inclui todos os demais componentes, incluindo as portas USB, os controladores de

199

udio, portas SATA, slots PCI e mais 6 linhas PCI Express, que permitem adicionar qualquer combinao de
slots 1x e 4x. Note que uma das linhas utilizada pelo chipset de rede onboard, quando presente.
O nmero de linhas disponveis varia de acordo com o chipset. O nVidia nForce 590, por exemplo, possui
um total de 48 linhas, permitindo o uso de dois slots 16x (ambos operando com 16 linhas cada, sem
compartilhamento), um terceiro slot 16x, com 8 linhas de dados e mais 8 linhas avulsas, para o uso de slots 1x,
4x ou perifricos onboard.

4.6.3 O PCI EXPRESS 3.0


No final do ano de 2010, o novo padro PCIe 3.0 foi finalmente finalizado, depois de muitos atrasos. As
primeiras placas a usar o barramento foram lanadas no incio de 2012. Apesar de no a detalharmos aqui,
dentre os vrios aprimoramentos desde a verso 2.0, a taxa terica mxima de transferncia o dobro da
verso 2.0. Apesar do enorme avano, as capacidades do barramento esto to elevadas que fazem pouco ou
nenhuma diferena mesmo nas melhores placas atualmente disponveis no mercado. Em outras palavras, o
PCIe 2.0 rpido o suficiente!
Se voc quiser obter algumas informaes extras, especialmente quanto a sua capacidade em relao a
verso PCIe 2.x, fique a vontade:
http://en.wikipedia.org/wiki/Pci_express#PCI_Express_3.0

4.7 USB
Graas sua grande flexibilidade, o USB de longe o barramento externo mais usado atualmente. Alm de
ser usado para a conexo de todo o tipo de dispositivos, ele fornece uma pequena quantidade de energia,
permitindo que os conectores USB sejam usados tambm por carregadores e todo o tipo de utilidades e
bugigangas, incluindo luzes, ventiladores, aquecedores de xcaras de caf, brinquedos, etc. Existem at mesmo
pequenos "refrigeradores USB", que usam um pequeno peltier para manter uma lata de refrigerante a uma
temperatura ligeiramente mais baixa que a ambiente.
Existem trs padres USB: o padro 1.x (o padro original, criado em 1996), o USB 2.0 (o padro mais
usado atualmente, introduzido em abril de 2000) e o novo padro USB 3.0 (finalizado em novembro de 2008)
que est ainda em processo de popularizao.
No USB 1.x, as portas transmitem a apenas 12 megabits (o que pouco para HDs, pendrives, drives de CD,
placas wireless e outros perifricos rpidos), mas no USB 2.0 a velocidade foi ampliada para 480 megabits (ou
60 MB/s), suficiente para a maioria dos dispositivos.
Existem quatro tipos de conectores USB, o USB tipo A, que o mais comum, usado por pendrives e topo
tipo de dispositivo conectado ao PC, o USB tipo B, que o conector "quadrado" usado em impressoras e
outros perifricos, alm do USB-mini (ou mini-5P) e do USB-micro, dois formatos menores, que so utilizados
por cmeras, smartphones, players de udio e outros gadgets.

200

Conectores USB tipo A e tipo B

Conectores USB-mini e USB-micro


Os quatro tipos utilizam a mesma pinagem, o
nico diferencial mesmo o formato fsico.
Existem ainda alguns formatos de conectores
proprietrios, geralmente verses levemente
modificadas de um destes quatro formatos. Por
serem intercompatveis, relativamente fcil
encontrar adaptadores diversos para permitir
encaixar cabos com conectores de formatos
diferentes.
Existem ainda adaptadores USB para portas
seriais, portas paralelas, rede (com um conector
RJ45) e at mesmo para sadas VGA, mas eles
incluem circuitos adicionais e dependem da
instalao de drivers para funcionar.

Adaptador de vdeo USB


O USB um barramento serial, por isso os conectores possuem apenas 4 contatos, sendo dois para a
transmisso dos dados (um para enviar, outro para receber) e os outros dois para a transmisso de
eletricidade.
201

Os dois pinos para a transmisso de dados so os dois


centrais, enquanto os de energia so os dois externos.
Olhando um conector USB com os contatos virados para
baixo, o pino da direita o positivo, enquanto o da
esquerda o neutro. Dentro do cabo, o fio vermelho o
positivo, o preto o neutro, enquanto o verde e o branco
so os usados para transmisso de dados.
Essa simplicidade explica a existncia de tantas
bugigangas que podem ser ligadas s portas USB. Voc pode descartar os pinos de dados e usar a eletricidade
oferecida pelo conector para alimentar qualquer dispositivo que consuma at 2.5 watts de energia (os 2.5
watts correspondem ao padro oficial, mas a maioria dos fabricantes de placas optam por oferecer valores
consideravelmente mais altos para manter uma boa margem de tolerncia). Pode ser desde um carregador
para celular, at um ventilador em miniatura.
A praticidade em carregar smartphones e outros gadgets atravs da porta USB fez com os carregadores
USB se tornassem rapidamente populares. O movimento foi logo adotado tambm por muitos fabricantes, que
passaram a fornecer cabos USB para o carregamento, eliminando assim a necessidade de incluir uma fonte
externa. O movimento se intensificou a partir de
2009, com a adoo do micro-USB como conector
padro para o carregamento de celulares e
smartphones na Unio Europeia.
O inverso tambm possvel, ou seja, um
conector USB fmea, ligado a uma bateria, que
sirva como fonte de energia para seu iPod,
smartphone, ou outro dispositivo carregado
atravs da porta USB. A maioria dos projetos
envolve usar uma fonte de energia qualquer, que
fornea 5V ou mais, e um resistor para reduzir a
tenso ao valor apropriado. Um bom exemplo de
aplicao do conceito so os muitos carregadores
de pilhas Ni-MH que oferecem uma porta USB, alimentada pela energia das pilhas.
Como 4 pilhas Ni-MH oferecem de 4.8 a 5.6 volts (de acordo com o nvel de carga), relativamente simples
construir o circuito que converta a tenso nos 5V/500mA da porta USB. A carga das pilhas mais do que
suficiente para uma carga completa na maioria dos celulares e players de mdia (se voc tiver um hub USB
mo, possvel at mesmo carregar mais de um dispositivo ao mesmo tempo, embora nesse caso a carga
demore muito mais).
Com uma variedade to grande de perifricos USB, as 4 portas traseiras oferecidas na primeira gerao de
placas ATX acabavam nunca sendo suficientes. Os fabricantes passaram ento a incorporar mais e mais portas
USB no painel traseiro, alm de equiparem as placas com 4 (ou mais) portas adicionais, acessveis atravs de
headers disponveis na placa-me. Os headers podem ser ligados s portas frontais do gabinete, ou a
conectores adicionais instalados na parte traseira.
O maior problema que os conectores frontais do gabinete geralmente utilizam conectores separados
para cada um dos fios, de forma que voc precisa se orientar usando o diagrama no manual da placa para
conect-los corretamente. O fio vermelho o +5V, o preto o GND, o verde o USB+ (ou D+) e o branco o
USB- (ou D-):

202

Conectores de portas frontais de gabinete, para USB

Esquema de ligao em gabinetes


Ligar os pinos incorretamente pode causar um curto e danificar perifricos USB, ou o prprio controlador
da placa-me. Para evitar esse tipo de catstrofe, a maioria das placas inclui circuitos que desligam a
alimentao em caso de problemas (de forma que a porta simplesmente no funciona at que voc conecte os
fios na ordem correta), mas de qualquer forma melhor no dar chance para o azar.
Temos ainda a possibilidade de usar hubs USB para conectar vrios dispositivos mesma porta. Em teoria,
cada porta USB aceita a conexo de at 127 dispositivos, o que permite at mesmo ligar um hub USB no outro.
O maior problema que tanto a banda, quanto a energia fornecida pela porta so compartilhadas entre todos
os perifricos ligados ao hub, de forma que dispositivos de mais alto consumo, como mouses pticos e HDs
externos (do tipo que usa a energia da porta USB, ao invs de uma fonte prpria) podem no funcionar,
dependendo de quais outros dispositivos estejam ligados ao hub.
A soluo nesse caso comprar um hub com fonte
externa (tambm chamados de "powered hubs"). Eles
possuem uma fonte prpria de energia, que complementa
a energia fornecida pela porta, permitindo o uso de mais
perifricos simultneos. Os powered hubs so
relativamente raros, devido ao custo adicional da fonte,
mas muitos hubs incluem a porta para alimentao
externa, suportando o uso de um carregador de celular.
No USB, os 12 ou 480 megabits de banda no so
compartilhados entre as portas. Cada par de portas (ligadas a um controlador dedicado na placa me) equivale
a um barramento prprio, independente dos demais. O compartilhamento ocorre apenas quando as duas
203

portas dentro do par so usadas simultaneamente, ou quando vrios dispositivos so plugados na mesma
porta, atravs de um hub.
Algumas combinaes podem ser um pouco problemticas, j que temos tanto dispositivos que
transmitem grandes volumes de dados (um HD externo, por exemplo) quanto dispositivos que transmitem um
volume pequeno, mas precisam de urgncia, como o teclado e o mouse. Voc no gostaria que o mouse
ficasse com as respostas lentas ao salvar um grande arquivo no HD externo, por exemplo. Prevendo isso, o
USB suporta trs modos de operao distintos, chamados de interrupt (interrupo), bulk (grande volume) e
isochronous (isocrnico).
O modo de interrupo um modo de alta prioridade, destinado a teclados, mouses e outros dispositivos
de entrada. O controlador reserva 10% da banda disponvel para eles, mantendo sempre um canal
descongestionado.
O modo isocrnico destinado a dispositivos que precisam transmitir dados via streaming, como, por
exemplo, caixas de som e headsets USB. Eles transmitem um volume relativamente pequeno de dados, mas
tambm precisam de uma certa prioridade.
Finalmente, temos as transferncias em modo bulk, que consistem em grandes pacotes de dados,
transmitidos com baixa prioridade (como no caso do HD externo). Como os canais para os outros dois modos
so reservados primeiro, as grandes transferncias podem ser feitas utilizando a banda disponvel, sem
atrapalhar os outros dispositivos.
Essa poltica de uso de banda similar utilizada em redes, onde os dados so transmitidos na forma de
frames ou pacotes. Isso permite que dispositivos USB 1.1 sejam conectados em portas USB 2.0 sem reduzir a
velocidade para outros dispositivos conectados na mesma porta. O controlador simplesmente disponibiliza 12
megabits para o dispositivo USB 1.1 e continua disponibilizando o restante da banda para os demais
dispositivos.
Outra caracterstica interessante do USB a capacidade de enumerar e reconhecer novos dispositivos,
coisa que no existia na poca das portas seriais. Detectar mouses ou modems seriais era um pesadelo para
qualquer programador, j que no existia uma forma simples de saber que tipo de dispositivo estava plugado
na porta, ou mesmo se a porta estava sendo usada ou no.
A nica forma era apelar para tcnicas indiretas, enviando dados atravs da porta e tentando deduzir
quem estava do outro lado a partir das respostas. por isso que algumas distribuies Linux antigas pediam
que voc movimentasse seu mouse serial num certo ponto da instalao, para que ele pudesse ser detectado.
No USB as coisas funcionam de forma muito mais eficiente. O controlador percebe quando um dispositivo
conectado e envia um pacote de controle, que o dispositivo responde enviando uma srie de informaes,
incluindo a classe, velocidade, fabricante, string de identificao e assim por diante.
Alm de permitirem que o controlador reserve corretamente os recursos usados pelo dispositivo, essas
informaes so enviadas ao sistema operacional. Isso permite que o dispositivo seja ativado e o programa ou
o aviso correspondente seja mostrado na tela. Aqui temos um exemplo de mensagens de kernel geradas por
uma distribuio Linux ao plugar um joystick USB:
usb 1-3: new low speed USB device using ohci_hcd and address 3
usb 1-3: configuration #1 chosen from 1 choice
input: Logitech WingMan Precision USB as /class/input/input2
input: USB HID v1.10 Joystick [Logitech WingMan Precision USB] on usb0000:00:02.0-3

As informaes permitem tambm programar aes para quando determinados dispositivos so plugados.
No caso do Linux, por exemplo, isso feito atravs do udev, o daemon responsvel por detectar mudanas no
hardware e a conexo de novos dispositivos. possvel executar automaticamente um script de backup
quando o HD externo plugado, ou abrir um determinado jogo quando voc pluga o joystick. O mais
204

interessante que as aes podem ser relacionadas com o cdigo de identificao do dispositivo (que
nico), de forma que o backup seja feito apenas ao plugar um HD especfico, evitando que seus dados sejam
copiados por engano quando um amigo plugar um pendrive, por exemplo.

4.7.1 USB 3.0


O USB surgiu originalmente como um substituto para as portas seriais e paralelas usadas at ento. Como
a aplicao inicial era a conexo de mouses, impressoras, scanners e PDAs, os 12 megabits iniciais foram
considerados mais do que suficientes. Entretanto, com o passar do tempo, o USB passou a ser cada vez mais
usado por cmeras, pendrives e outros dispositivos "rpidos", que demandam velocidades muito maiores.
Surgiu ento o USB 2.0, uma atualizao indolor que aumentou a taxa de transferncia terica para 480
megabits, sem quebrar a compatibilidade com o padro antigo.
Na prtica, ele permite taxas de transferncia entre 30 e 45 MB/s, que so uma pesada limitao no caso
dos HDs externos, interfaces de rede e outros dispositivos atuais. Como a demanda por banda no para de
crescer, apenas questo de tempo para que os 480 megabits do USB 2.0 se tornem uma limitao to grande
quanto os 12 megabits do USB original foram no passado.
Assim como o SATA, o USB uma barramento serial, onde os dados so transmitidos usando um nico par
de fios, com um segundo par dando conta da alimentao eltrica. O principal problema que o USB suporta o
uso de cabos mais longos e hubs, o que torna complicado atingir taxas de transferncia muito maiores que os
480 megabits do USB 2.0. Isso fez com que, logo no incio, os trabalhos se concentrassem em desenvolver
novos cabos e conectores, que possibilitassem o uso de mais banda.
O primeiro rascunho do USB 3.0 foi apresentado em 2007 pela Intel, que props o uso de um par de cabos
de fibra ptica, complementando os dois pares de fios de cobre. O uso de fibra ptica elevaria a taxa de
transferncia para respeitveis 5 gigabits, sem quebrar a compatibilidade com dispositivos antigos.
O grande problema com o padro da Intel era o custo, j que tanto os cabos quanto os dispositivos seriam
muito mais caros. Ele tambm no fazia nada com relao capacidade de fornecimento eltrico, mantendo
os mesmos 2.5 watts por porta do USB 2.0, que so insuficientes para muitos dispositivos. No preciso dizer
que ele foi bastante criticado e acabou sendo abandonado em 2008, dando lugar ao padro definitivo.
O USB 3.0 oferece 4.8 gigabits de banda (10 vezes mais rpido que o 2.0 e apenas 4% menos que o padro
proposto pela Intel) utilizando fios de cobre. Os 4.8 gigabits do USB 3.0 so chamados de "Super-Speed",
aumentando a confuso relacionada aos nomes dos padres de sinalizao USB. Com a adio temos agora 4
padres e uma nomenclatura ainda mais confusa:
Super-Speed: 4800 megabits (introduzido pelo USB 3.0)
High-Speed: 480 megabits (introduzido pelo USB 2.0)
Full-Speed: 12 megabits (USB 1.x operando na velocidade mxima)
Low-Speed: 1.5 megabits (usado por dispositivos lentos, como teclados e mouses)
Para possibilitar um aumento to dramtico na velocidade de transmisso, foram adicionados dois novos
pares de cabos para transmisso de dados (um para envio e outro para recepo) e um neutro, totalizando 5
novos pinos, que nos conectores tipo A so posicionados na parte interna do conector:

205

Esquema de conector tipo A do USB 3.0


Essa organizao permitiu manter a compatibilidade com dispositivos antigos, j que os 4 pinos do USB 2.0
continuam presentes. Ao plugar um dispositivo antigo em um conector USB 3.0, apenas os 4 pinos de legado
so usados e ele funciona normalmente. O inverso tambm funciona, desde que o dispositivo USB 3.0 seja
capaz de trabalhar em modo de legado, dentro das limitaes eltricas do USB 2.0.
Por outro lado, os conectores USB tipo B (os usados por impressoras) e micro-USB (adotados como padro
para os smartphones) oferecem uma compatibilidade de mo-nica, onde voc pode plugar um dispositivo
USB 2.0 em uma porta 3.0, mas no o contrrio, devido ao formato dos conectores. O tipo B ganhou um
"calombo" com os 5 pinos adicionais e o USB micro ganhou uma seo adicional:

Esquema de conector tipo B do USB 3.0

206

Conector tipo A e B do USB 3.0

Conector micro do USB 3.0

Esquema de conector micro do USB 3.0

Alm dos novos conectores, outra novidade foi o aumento no fornecimento eltrico das portas, que saltou
de 500 mA (2.5 watts) para 900 mA (4.5 watts), o que permite que as portas USB sejam usadas para alimentar
uma variedade ainda maior de dispositivos.
possvel, por exemplo, criar gavetas para HDs de 2.5" alimentadas por uma nica porta USB, sem falar de
gavetas para HDs regulares de 3.5" alimentadas por trs ou at mesmo duas portas USB 3.0 (j que muitos
HDs "verdes" de 5.400 RPM trabalham tranquilamente abaixo dos 10 watts). Voc pode contar tambm com
toda uma nova safra de ventiladores, LEDs e bugigangas diversas tirando proveito da energia adicional.
Para reduzir o consumo eltrico dos controladores, o padro inclui tambm um novo sistema de
interrupes, que substitui o sistema de enumerao usado no USB 2.0. Em resumo, em vez de o controlador
manter a porta ativa, constantemente perguntando se o dispositivo tem algo a transmitir, o host passa a
manter o canal desativado at que o dispositivo envie um sinal de interrupo.
Alm de oferecer uma pequena reduo no consumo do host (suficiente para representar um pequeno
ganho de autonomia no caso dos netbooks) o novo sistema reduz o consumo nos dispositivos plugados,
evitando que a bateria da cmera se esgote por que voc a esqueceu plugada na porta USB, por exemplo.
Para diferenciar os conectores, foi adotada a cor azul como padro tanto para os cabos quanto para a
parte interna dos conectores. Naturalmente, os fabricantes no so necessariamente obrigados a usarem o
azul em todos os produtos, mas ao ver um conector azul, voc pode ter certeza de que se trata de um 3.0.
Os primeiros dispositivos comearam a chegar ao mercado no final de 2009, mas no espere que eles se
tornem comuns antes de 2011 ou 2012. Inicialmente, os lanamentos se concentraro em HDs e SSDs externos
207

(que so severamente limitados pelo USB 2.0), mas eventualmente ele chegar a outros dispositivos,
substituindo o 2.0 gradualmente.
Apesar disso, ainda demorar alguns anos at que o USB 3.0 substitua o padro anterior completamente,
j que os controladores USB 2.0 so muito mais simples e baratos, e o desempenho mais do que suficiente
para muitas aplicaes. No faria sentido lanar um mouse ou um adaptador bluetooth USB 3.0, por exemplo,
a no ser que fosse por simples hype.
Existem tambm vrias complicaes tcnicas em equipar uma placa-me com um grande nmero de
portas USB 3.0. Os controladores so caros e cada par de portas precisa ser conectado a um par de linhas PCI
Express 2.0 (ou quatro linhas PCIe 1.x) para que o desempenho no seja penalizado.
Considerando que muitos chipsets possuem apenas 20 ou 24 linhas PCI Express, perfeitamente
compreensvel que a primeira gerao de placas tenham apenas duas portas USB 3.0 (em azul),
complementadas por mais 6 ou 10 portas USB 2.0:

Conectores de placa-me, destaque par as duas portas USB 3.0


Isso deve mudar a partir do momento em que a Intel, nVidia e AMD passarem a produzir chipsets com um
nmero maior de portas integradas, mas isso deve acontecer apenas em 2011. A Intel a mais avanada,
graas ao trabalho no padro xHCI (sucessor do EHCI e do OHCI, usados no USB 2.0). Embora ele seja um
padro aberto de controladores, a Intel realizou a maior parte do desenvolvimento e por isso acabou abrindo
uma certa vantagem em relao aos outros fabricantes, liberando o projeto do controlador apenas depois que
ele j estava concludo.
Assim como aconteceu na poca do
USB original, temos tambm uma grande
oferta de placas adaptadoras, conectadas
atravs de um slot PCI-Express x1 ou (mais
raramente) de um slot x4. Elas incluem um
nico controlador e duas portas USB 3.0 e
so usadas sobretudo por gavetas para
HDs externos, que so a classe de
dispositivos que mais se beneficia da
maior velocidade:
Usando uma porta USB 2.0, a
velocidade mxima de transferncia de
208

um HD externo fica em torno de 32 MB/s, que o limite prtico da interface. importante lembrar que as
taxas de transferncia obtidas na prtica so sempre inferiores aos limites tericos dos barramentos, j que
incluem diferentes camadas de modulao e outros tipos de perdas.
Considerando que os HDs de 3.5" e 7200 RPM atuais so capazes de oferecer taxas de leitura sequencial
em torno dos 150 MB/s e que mesmo HDs de 2.5" j se aproximam da marca dos 100 MB/s, no difcil
entender a frustrao de muitos.
Ao usar o USB 3.0, por outro lado, possvel obter taxas de transferncia superiores a 100 MB/s, limitado
apenas pelo desempenho do HD e do controlador da gaveta. Placas adaptadoras plugadas em slots PCI Express
x1 possuem um limite prtico em torno de 200 MB/s devido ao barramento, mas portas ligadas a
controladores integrados placa-me (ou a slots PCIe 2.0) podem oferecer taxas superiores a 300 MB/s, o que
as posiciona como concorrentes diretas das portas eSATA.
Dependendo do modelo, a adaptadora pode usar um conector molex (como a da foto) ou extrair a energia
necessria para alimentar as portas diretamente do conector PCI Express. As gavetas de HDs (e outros
dispositivos USB 3.0), podem ser perfeitamente usadas em PCs com portas USB 2.0 (pelo menos no caso das
gavetas com fontes externas, que no dependem da alimentao eltrica da porta), mas nesse caso a
velocidade de transmisso limitada pela porta.
Com relao aos drivers, temos suporte no Linux a partir do kernel 2.6.31. A verso inicial do Windows 7
ainda no inclui drivers, mas eles esto disponveis a partir do SP1. O problema fica por conta do Windows XP
e anteriores, dos quais a Microsoft quer se livrar o mais rpido possvel.

4.8 IEEE 1394 (FIREWIRE)


O Firewire surgiu em 1995 (pouco antes do USB), como um concorrente do barramento SCSI. Inicialmente
ele foi desenvolvido pela Apple e depois submetido ao IEEE, quando passou a se chamar IEEE 1394. Embora
seja o mais popularmente usado, o nome "Firewire" uma marca registrada pela Apple, por isso voc no vai
encontrar referncia a ele em produtos ou documentao de outros fabricantes. Outro nome comercial para o
padro o "i.Link", usado pela Sony.
O Firewire tambm um barramento serial, muito similar ao USB em vrios aspectos. A verso inicial do
Firewire j operava a 400 megabits (ou 50 MB/s), enquanto o USB 1.1 operava a apenas 12 megabits. Apesar
disso, o USB utilizava transmissores e circuitos mais baratos e era livre de pagamento de royalties, o que
acabou fazendo com que ele se popularizasse rapidamente. Na poca, a indstria procurava um barramento
de baixo custo para substituir as portas seriais e paralelas e, como de praxe, acabou ganhando a soluo mais
barata.
Assim como o USB, o Firewire um barramento plug-and-play e suporta a conexo de vrios perifricos na
mesma por porta, utilizando uma topologia acclica, onde um perifrico diretamente conectado ao outro e
todos se enxergam mutuamente, sem necessidade do uso de hubs ou centralizadores. Voc poderia, por
exemplo, conectar um HD externo (com duas portas Firewire) ao PC e conectar uma filmadora ao HD e o PC
enxergaria ambos. Veja um exemplo:

Esquema de ligao do Firewire


209

O conector Firewire tradicional utiliza 6 pinos, sendo que 2 so usados para alimentao eltrica (como no
USB) e existe tambm uma verso miniaturizada (sem os pinos de alimentao) que possui apenas 4 pinos e
muito comum em notebooks. Uma porta Firewire de 6 pinos capaz de fornecer at 45 watts de energia,
quase 20 vezes mais que no USB 2.0.

Portas e conectores Firewire

Porta Firewire

Inicialmente, o concorrente do Firewire no era o USB, mas sim o barramento SCSI, que na poca tambm
era usado para a conexo de scanners e outros dispositivos externos. Embora fosse um pouco mais lento (at
160 MB/s no SCSI, contra 50 MB/s no Firewire), o Firewire era um barramento mais simples e muito mais
flexvel, permitindo a conexo de todo tipo de dispositivos de armazenamento, impressoras, scanners,
dispositivos de udio e vdeo e at mesmo a comunicao direta entre PCs, funcionando como uma interface
de rede.
Apesar disso, com o surgimento do USB, o Firewire acabou restrito a alguns nichos. O principal deles a
transferncia de vdeos a partir de uma filmadora digital. Desde o final da dcada de 90 as cmeras migraram
das fitas analgicas para o padro DV (digital-video), onde o vdeo gravado diretamente em formato digital
(numa fita mini-DV, HD ou mesmo memria Flash, como em alguns modelos recentes) e depois transferido
para o micro atravs de uma porta Firewire para que seja editado e finalizado.
Embora seja um item de srie nos Macs (as primeiras verses do iPod existiam apenas em verso Firewire),
poucos chipsets para PC possuem controladores Firewire integrados, fazendo com que os fabricantes de
placas-me sejam obrigados a utilizar um controlador avulso. Como isso encarece a placa, as portas Firewire
so oferecidas apenas nos modelos mais caros, ou voltados para o mercado profissional. Naturalmente,
existem tambm controladoras firewire externas, na forma de placas PCI ou PCI Express, mas elas tambm
representam um custo adicional.
Com a popularizao das filmadoras digitais, os fabricantes passaram a
incluir tambm portas USB nos aparelhos, eliminando o problema.
A partir de 2003, a verso inicial do Firewire comeou lentamente a
dar lugar ao IEEE 1394B (Firewire 800), que adotou o uso de um novo
conector, com 9 pinos e dobrou a taxa de transmisso, atingindo 800
megabits.
Ele foi desenvolvido de forma que os cabos e perifricos antigos
continuam sendo inteiramente compatveis (usando o cabo apropriado,
com um conector de 9 pinos em uma ponta e um de 6 ou 4 pinos na
outra), embora no se beneficiem do aumento na velocidade.
No final de 2007 foram finalizados dois novos padres, o Firewire
S1600 e o S3200 que, respectivamente, dobram e quadruplicam a taxa de
210

transferncia. O S3200 especialmente importante para a sobrevivncia do padro, j que ele deve oferecer
taxas de transferncias prticas similares do USB 3.0.
A grande vantagem histrica do firewire o fato de a modulao do sinal ser feita pela prpria interface
(diferente do que temos no USB, onde ela feita via software), o que garante taxas mais baixas de utilizao
do processador e uma taxa de transferncia efetiva bem similar taxa de sinalizao da interface. Entretanto,
isso tem se tornado um fator cada vez menos importante, j que os processadores quad-core atuais so
capazes de gerenciar a carga de processamento em transferncias de grandes arquivos via USB sem afetar o
desempenho em outras tarefas simultneas.

211

EXERCCIOS
1) Explique por que dizemos que uma placa-me deixou de ser uma simples interface entre os componentes
para ser um dos membros mais importantes de um PC atual.
2) O que voc tem a dizer sobre os componentes onboard (como som, vdeo, rede...)? Julgue fatores como
qualidade, custo, etc.
3) O que uma PCB?
4) O que vem a ser o circuito regulador de tenso? Por que necessrio? O que vem a ser a quantidade de
fases do mesmo?
5) Qual uma das funes principais de um capacitor, numa placa-me? Explifique.
6) Capacitores eletrolticos x Capacitores de estado slido. Diferencie-os.
7) O que o BIOS? Onde ele fica (fisicamente)?
8) BIOS o mesmo que Setup?
9) O que o CMOS? Por que no guardar tais informaes numa memria no-voltil?
10) possvel atualizar (update) o BIOS? Por que motivo isso seria necessrio? Como feito? H riscos?
11) Por que o ISA morreu?
12) Cite as principais caractersticas do barramento PCI.
13) Por que o AGP nasceu?
14) O AGP evoluiu at que ponto?
15) O que dizer do problema de fornecimento eltrico do barramento AGP?
16) Cite as principais diferenas do PCI Express em relao ao PCI.
17) Explique o que quer dizer as nomenclaturas PCIe x1, x4, x8 e x16.
18) Como fica o caso da compatibilidade na questo abordada acima? Explique da melhor forma que voc
puder, abordando cenrios prticos.
19) Que relao existe entre o nmero de linhas PCIe que um chipset possui com o nmero de slots
encontrados na placa-me?
20) O que o USB? Qual a sua finalidade?
21) Cite as velocidades de cada verso do USB e analise a questo da compatibilidade entre os padres.
22) O USB um barramento serial. O que isso quer dizer?
23) O USB tem limitaes eltricas? E se o dispositivo precisar de mais energia? #comofaz?
212

24) USB 2.0 suficiente para um HD Externo? Explique.


25) Por que podemos dizer que o USB um barramento inteligente? (Lembre-se de quando voc pluga uma
pendrive no PC... o que acontece automaticamente).
26) Por que houve a necessidade da criao da verso 3.0 do USB? Alm da velocidade, o que mais mudou na
verso 3.0 se comparada a 2.0?
27) E a compatibilidade entre o novo padro USB 3.0 e o anterior (2.0)?
28) Tenho uma placa-me no tem USB 3.0 nativamente. Comprei um HD externo que USB 3.0. #comofaz?
Explique!
29) O que vem a ser o barramento IEEE 1394 (Firewire)? O que dizer de sua popularidade?

213

Cap. 5: MEMRIA RAM


5.1 INTRODUO
Embora seja brutalmente mais rpida que o HD e outros perifricos, a
memria RAM continua sendo muito mais lenta que o processador. O
uso de caches diminui a perda de desempenho, reduzindo o nmero de
acessos memria; mas, quando o processador no encontra a
informao que procura nos caches, precisa recorrer a um doloroso
acesso memria principal, que em um processador atual pode resultar
em uma espera de mais de 150 ciclos.
Para reduzir a diferena (ou pelo menos tentar impedir que ela
aumente ainda mais), os fabricantes de memria passaram a desenvolver
um conjunto de novas tecnologias, a fim de otimizar o acesso aos dados,
dando origem aos mdulos de memria DDR2 e DDR3 utilizados atualmente.

5.2 O BSICO
Comeando do bsico, um chip de memria um
exrcito de clones, formado por um brutal nmero de
clulas idnticas, organizadas na forma de linhas e
colunas, de forma similar a uma planilha eletrnica.
O chip de memria em si serve apenas para
armazenar dados, no realiza nenhum tipo de
processamento. Por isso, utilizado um componente
adicional, o controlador de memria, que pode ser
includo tanto no chipset da placa-me quanto dentro
do prprio processador, como no caso dos
processadores AMD a partir do Athlon 64 e dos processadores Intel a partir do Core i7.
Para acessar um determinado endereo de memria, o controlador primeiro gera o valor RAS (Row
Address Strobe), ou o nmero da linha da qual o endereo faz parte, gerando em seguida o valor CAS (Column
Address Strobe), que corresponde coluna. Quando o RAS enviado, toda a linha ativada simultaneamente;
depois de um pequeno tempo de espera, o
CAS enviado, fechando o circuito e fazendo
com que os dados do endereo selecionado
sejam lidos ou gravados:
No existe um caminho de volta, ligando
cada endereo de volta ao controlador de
memria. Em vez disso, usado um
barramento comum, compartilhado por
todos os endereos do mdulo. O
controlador de memria sabe que os dados
que est recebendo so os armazenados no
endereo X, pois ele se "lembra" que acabou
de acess-lo.
214

Antigamente (na poca dos mdulos SIMM de 30 vias usados nos micros 386 e 486), cada chip de memria
se comportava exatamente dessa forma, lendo um bit de cada vez. Os mdulos de 30 vias eram compostos
por 8 chips de memria (com exceo dos mdulos com paridade, que usavam 9 chips), o que resultava na
leitura de 8 bits por ciclo. Apesar disso, o processador lia 32 bits de dados a cada ciclo, de forma que era
necessrio usar os mdulos em quartetos.
Do ponto de vista do processador, no existia diviso, os chips eram acessados como se fossem um s. O
processador no via 32 endereos separados, em 32 chips diferentes, mas sim um nico endereo, contendo
32 bits.

Mdulos antigos de 30 vias (8 bits), 72 vias (32 bits) e 168 vias (64 bits)
Nos mdulos DIMM atuais so geralmente usados 8 chips de 8 bits cada um, formando os 64 bits
fornecidos ao processador. Existem ainda mdulos com 16 chips de 4 bits cada, ou ainda, mdulos com 4 chips
de 16 bits (comuns em notebooks). Do ponto de vista do processador, no faz diferena, desde que somados,
os chips totalizem 64 bits.
Imagine que o controlador de memria envia sequncias com 4, 8 ou 16 pares de endereos RAS e CAS e
recebe de volta o mesmo nmero de leituras de 64 bits. Mesmo em casos em que o processador precisa de
apenas alguns poucos bytes, contendo uma instruo ou bloco de dados, ele precisa ler todo o bloco de 64 bits
adjacente, mesmo que seja para descartar os demais.
No caso dos chipsets e processadores com controladores de memria dual-channel, continuamos tendo
acessos de 64 bits, a nica diferena que agora o controlador de memria capaz de acessar dois endereos
diferentes (cada um em um mdulo de memria) a cada ciclo de clock, ao invs de apenas um. Isso permite
transferir o dobro de dados por ciclo, fazendo com que o processador precise esperar menos tempo ao
transferir grandes quantidades de dados.
Na verdade, nos PCs contemporneos, praticamente qualquer dispositivo pode acessar a memria
diretamente atravs do barramento PCI Express, PCI (ou AGP no caso de micros mais antigos) e at mesmo a
partir das portas SATA, IDE e USB. Naturalmente, todos os acessos so coordenados pelo processador, mas
como a memria uma s, temos situaes onde o processador precisa esperar para acessar a memria,
porque ela est sendo acessada por outro dispositivo.
215

Existem vrias formas de melhorar o desempenho da memria RAM. A primeira aumentar o nmero de
bits lidos por ciclo, tornando o barramento mais largo, como o aumento de 32 para 64 bits introduzida pelo
Pentium 1, que continua at os dias de hoje. O problema em usar um barramento mais largo que o maior
nmero de trilhas necessrias, tanto na placa-me quanto nos prprios mdulos de memria, aumentam a
complexidade e o custo de produo.
A segunda acessar dois ou mais mdulos de memria simultaneamente, como nas placas e
processadores com controladores de memria dual-channel ou triple-channel. O problema que nesse caso
precisamos de dois mdulos, alm de circuitos e trilhas adicionais na placa-me e pinos adicionais no soquete
do processador.
A terceira criar mdulos de memria mais rpidos, como no caso das memrias DDR2 e DDR3. Essa
questo da velocidade pode ser dividida em dois quesitos complementares: o nmero de ciclos por segundo e
a latncia, que o tempo que a primeira operao numa srie de operaes de leitura ou escrita demora para
ser concluda. O tempo de latncia poderia ser comparado ao tempo de acesso de um HD, enquanto o nmero
de ciclos poderia ser comparado ao clock do processador.
aqui que entram as diferentes tecnologias de memrias que foram introduzidas ao longo das ltimas
dcadas, comeando pelas memrias regulares, usadas nos XTs e 286, que evoluram para as memrias FPM,
usadas em PCs 386 e 486, em seguida para as memrias EDO, usadas nos ltimos micros 486s e nos Pentium.
Estas trs primeiras tecnologias foram ento substitudas pelas memrias SDR-SDRAM, seguidas pelas
memrias DDR e pelas DDR2 e DDR3 usadas atualmente.

5.3 MEMRIAS REGULARES


As memrias regulares so o tipo mais primitivo de memria RAM. Nelas, o acesso feito da forma
tradicional, enviando o endereo RAS, depois o CAS e aguardando a leitura dos dados para cada ciclo de
leitura.
Isso funcionava bem nos micros XT e 286, onde o clock do processador era muito baixo e a memria RAM
podia funcionar de forma sincronizada com ele. Em um 286 de 8 MHz, eram usados chips com tempo de
acesso de 125 ns (nanossegundos) e em um de 12 MHz eram usados chips de 83 ns.
O problema era que a partir da as memrias da poca atingiram seu limite e passou a ser necessrio fazer
com que a memria trabalhasse de forma assncrona, onde o processador trabalha a uma frequncia mais alta
que a memria RAM.
A partir do 386, a diferena passou a ser muito grande, o que levou introduo da memria cache e ao
incio da corrida em busca de mdulos de memria mais rpidos.

5.4 MEMRIAS FPM


A primeira melhora significativa na arquitetura das memrias veio com o FPM (Fast-Page Mode, ou "modo
de paginao rpida").
A ideia que, ao ler um bloco de instrues ou arquivo gravado na memria, os dados esto quase sempre
gravados sequencialmente. No preciso ento enviar o endereo RAS e CAS para cada bit a ser lido, mas
simplesmente enviar o endereo RAS (linha) uma vez e em seguida enviar uma sequncia de at 4 endereos
CAS (coluna), realizando uma srie rpida de 4 leituras.
O primeiro ciclo de leitura continua tomando o mesmo tempo, mas as 3 leituras seguintes passam a ser
bem mais rpidas. Graas a essa pequena otimizao, as memrias FPM conseguem ser at 30% mais rpidas
que as memrias regulares, sem grandes alteraes nos chips de memria ou na tcnica de fabricao. O burst

216

(sequncia de acessos rpidos) de 4 leituras pode ser prolongado para 8, ou at mesmo 16 leituras
consecutivas, desde que sejam lidos dados gravados em endereos adjacentes, da mesma linha.
As memrias FPM foram utilizadas em micros 386, 486 e nos primeiros micros Pentium, na forma de
mdulos SIMM de 30 ou 72 vias, com tempos de acesso de 80, 70 ou 60 ns, sendo as de 70 ns as mais comuns.
Instaladas em uma placa-me soquete 7, que trabalhe com bus de 66 MHz, os intervalos de espera de
memrias FPM podem ser de at 5-3-3-3, o que significa que o processador ter de esperar 5 ciclos da placame para a memria efetuar a primeira leitura de dados e somente mais 3 ciclos para cada leitura
subsequente. Os tempos de espera das memrias podiam ser configurados no setup, atravs da opo
"Memory Timing" ou similar, onde ficavam disponveis opes como "slow", "normal" e "fast", que substituem
os valores numricos.
No caso das placas para 486, que operavam a clocks mais baixos (30, 33 ou 40 MHz), os tempos de espera
podiam ser configurados com valores mais baixos, como 4-3-3-3 ou 3-2-2-2, j que, com menos ciclos por
segundo, natural que os tempos de resposta dos mdulos correspondam a um nmero menor de ciclos da
placa-me.

5.5 MEMRIAS EDO


As memrias EDO (Extended Data Output) foram introduzidas a partir de 1994 e trouxeram mais uma
melhoria significativa no modo de acesso a dados. Nas memrias FPM, uma leitura no pode ser iniciada antes
que a anterior termine, mesmo dentro do burst de 4 leituras dentro da mesma linha. O controlador precisa
esperar que os dados referentes leitura anterior cheguem, antes de poder ativar o endereo CAS seguinte.
Nas memrias EDO, o controlador faz a leitura enviando o endereo RAS (como de costume) e em seguida
enviando os 4 endereos CAS em uma frequncia predefinida, sem precisar esperar que o acesso anterior
termine. Os sinais chegam s clulas de memria na sequncia em que foram enviados e, depois de um
pequeno espao de tempo, o controlador recebe de volta as 4 leituras.
O resultado acaba sendo exatamente o mesmo, mas passa a ser feito de forma mais rpida. Usadas em
uma placa soquete 7, operando a 66 MHz, as memrias EDO so capazes de trabalhar com tempos de acesso
de apenas 6-2-2-2, ou mesmo 5-2-2-2 (nos mdulos de 60 ns). Nos bursts de 8 ou mais leituras, o ganho acaba
sendo ainda maior, com o mdulo FPM realizando a leitura dos 8 endereos em 27 ciclos (6-3-3-3-3-3-3-3) e o
EDO em 20 (6-2-2-2-2-2-2-2). Veja que o ganho maior em leituras de vrios endereos consecutivos, por isso
alguns aplicativos se beneficiavam mais do que outros.
Os mdulos de memria EDO foram produzidos em verses com tempos de acesso de 70, 60 e 50 ns, com
predominncia dos mdulos de 60 ns. Eles foram usados predominantemente na forma de mdulos de 72
vias, usados nos micros 486 e Pentium fabricados a partir de 1995.
Existiram ainda alguns mdulos DIMM de 168 vias com memria EDO. Eles foram bastante raros, pois
foram logo substitudos pelos mdulos de memria SDRAM.
As melhorias na arquitetura das memrias EDO tornaram-nas incompatveis com placas-me equipadas
com chipsets antigos. Basicamente, apenas as placas para processadores Pentium e algumas placas-me para
486 com slots PCI (as mais recentes) aceitam trabalhar com memrias EDO. Existem tambm placas para 486
"tolerantes" que funcionam com memrias EDO, apesar de no serem capazes de tirar proveito do modo de
acesso mais rpido, e finalmente, as placas incompatveis, que nem chegam a inicializar caso sejam instaladas
memrias EDO.
Todos os mdulos de 30 vias so de memrias FPM, enquanto (com exceo de alguns mdulos antigos)
todos os de 168 vias so de memrias SDRAM. A confuso existe apenas nos mdulos de 72 vias, que podem
ser tanto de memrias EDO quanto de memrias FPM. Para saber quem quem, basta verificar o tempo de
acesso. Todo mdulo de memria traz seus dados estampados nos chips, na forma de alguns cdigos; o tempo
217

de acesso indicado no final da primeira linha. Se ela terminar com -7, -70, ou apenas 7, ou 70, o mdulo
possui tempo de acesso de 70 ns. Se por outro lado a primeira linha terminar com -6, -60, 6 ou 60 o mdulo
de 60 ns.
Como quase todos os mdulos de 70 ns so de memrias FPM, e quase todos os mdulos de memrias
EDO so de 60 ns, voc pode usar esse mtodo para determinar com 95% de certeza o tipo de memria usada:
No final da era Pentium, as memrias EDO enfrentaram a concorrncia das memrias BEDO (Burst EDO),
que utilizavam um sistema de pipeline para permitir acessos mais rpidos que as EDO. Em um Bus de 66 MHz,
as memrias BEDO eram capazes de funcionar com temporizao de 5-1-1-1, quase 30% mais rpido que as
memrias EDO convencionais.
No papel as memrias BEDO eram interessantes, mas elas nunca foram usadas em grande escala. A
tecnologia era propriedade da Micron, que ansiava por cobrar royalties dos demais fabricantes, caso ela fosse
adotada em grande escala. Os fabricantes de memria trabalham com margens de lucro incrivelmente
apertadas, de forma que a palavra "royalties" gera calafrios. Ao invs de carem na armadilha da Micron, eles
se apressaram em adotar as memrias SDRAM, que alm de serem um padro aberto, eram tecnicamente
superiores.

5.6 MEMRIAS SDR-SDRAM


Tanto as memrias FPM quanto as memrias EDO so assncronas, o que significa que elas trabalham em
seu prprio ritmo, independentemente dos ciclos da placa-me. Isso explica porque memrias FPM que foram
projetadas para funcionar em placas para processadores 386 ou 486 funcionam sem problemas em placas
soquete 7, que trabalham a 66 MHz. Na verdade, a memria continua trabalhando na mesma velocidade, o
que muda so os tempos de espera que passam a ser mais altos. Assim, em vez de responder a cada 2 ciclos da
placa-me, elas podem passar a responder a cada 3 ou 4 ciclos, por exemplo.
As memrias SDRAM (Synchronous Dynamic RAM) por sua vez, so capazes de trabalhar sincronizadas
com os ciclos da placa-me, sem tempos de espera. Isso significa que a temporizao das memrias SDRAM
sempre de uma leitura por ciclo. Independentemente da frequncia de barramento utilizada, os tempos de
acesso sero sempre de 6-1-1-1, ou mesmo 5-1-1-1.
Veja que o primeiro acesso continua tomando vrios ciclos, pois nele necessrio realizar o acesso padro,
ativando a linha (RAS) e depois a coluna (CAS). Apenas a partir do segundo acesso que as otimizaes entram
em ao e a memria consegue realizar uma leitura por ciclo, at o final da leitura.
O burst de leitura pode ser de 2, 4 ou 8 endereos e existe tambm o modo "full page" (uma novidade
introduzida nos mdulos SDRAM), onde o controlador pode especificar um nmero qualquer de endereos a
serem lidos sequencialmente, at um mximo de 512. Ou seja, em situaes ideais, pode ser possvel realizar a
leitura de 256 setores em 260 ciclos! S para efeito de comparao, se fossem usadas memrias regulares,
com tempos de acesso similares, a mesma tarefa tomaria pelo menos 1280 ciclos.
Outra caracterstica que ajuda as memrias SDRAM a serem mais rpidas que as EDO e FPM a diviso dos
mdulos de memria em vrios bancos. Um mdulo DIMM pode ser formado por 2, 4, ou mesmo 8 bancos de
memria, cada um englobando parte dos endereos disponveis. Apenas um dos bancos pode ser acessado de
cada vez, mas o controlador de memria pode aproveitar o tempo de ociosidade para fazer algumas
operaes nos demais, como executar os ciclos de refresh e tambm a pr-carga dos bancos que sero
acessados em seguida. Nos mdulos EDO e FPM, todas essas operaes precisam ser feitas entre os ciclos de
leitura, o que toma tempo e reduz a frequncia das operaes de leitura.
A partir das memrias SDRAM, tornou-se desnecessrio falar em tempos de acesso, j que a memria
trabalha de forma sincronizada em relao aos ciclos da placa-me. As memrias passaram ento a ser
rotuladas de acordo com a frequncia em que so capazes de operar. No caso das memrias SDR-SDRAM
218

temos as memrias PC-66, PC-100 e PC-133, no caso das DDR-SDRAM temos as DDR-200, DDR-266, DDR-333,
DDR-400 (e assim por diante), enquanto nas DDR2 temos as DDR2-533, DDR2-666, DDR2-800, DDR2-1066, que
foram sucedidas pelos padres de memrias DDR3.
Um mdulo de memria PC-133 deve ser capaz de operar a 133 MHz, fornecendo 133 milhes de leituras
(tericas) por segundo. Entretanto, essa velocidade atingida apenas quando o mdulo realiza um burst de
vrias leituras. O primeiro acesso continua levando 5, 6 ou mesmo 7 ciclos da placa-me, como nas memrias
antigas.
Ou seja, o fato de ser um mdulo PC-100 no indica que ele possua um tempo de acesso de 10 ns ou
menos (nem mesmo os mdulos DDR3 atuais atingem essa marca). Pelo contrrio, a maioria dos mdulos PC100 trabalhavam com tempos de acesso de 40 ns. Entretanto, graas a todas as otimizaes que vimos, as
leituras podiam ser paralelizadas, de forma que, no final, o mdulo suporta bursts de leitura onde, depois de
um lento ciclo inicial, ele consegue realmente entregar 64 bits de dados a cada 10 ns.
Independentemente da frequncia de operao, temos tambm os mdulos CL2 e CL3, onde o "CL"
abreviao de "CAS latency", ou seja, o tempo de latncia relacionado ao envio do valor CAS, durante o
primeiro acesso de cada burst.
Em mdulos CL2, o envio do valor CAS toma 2 ciclos, enquanto nos CL3 toma 3 ciclos. A eles, somamos um
ciclo inicial e mais dois ciclos relacionados ao envio do valor RAS, totalizando 5 (nos mdulos CL2) ou 6 (nos
CL3) ciclos para o acesso inicial. Entretanto, a diferena prtica acaba sendo pequena, pois os acessos
seguintes demoram sempre apenas um ciclo.
Um mdulo CL2 realizaria um burst de 8 leituras em 12 ciclos (5-1-1-1-1-1-1-1), enquanto o CL3 demoraria
13 ciclos (6-1-1-1-1-1-1-1). Ou seja, embora os mdulos CL2 tenham sido celebrados e sejam alvo de um
grande esforo de marketing por parte dos fabricantes, a diferena de performance era muito pequena para
justificar a diferena de preo.
Veja que das memrias regulares, at as SDRAM, foi possvel multiplicar a velocidade de transferncia sem
fazer alteraes fundamentais nas clulas, que continuam seguindo o mesmo projeto bsico, com um
transstor e um capacitor para cada bit armazenado. Desde a dcada de 80, as redues nos tempos de acesso
foram apenas incrementais, acompanhando as melhorias nas tcnicas de fabricao. O que realmente evoluiu
com o passar do tempo foram os circuitos em torno dos mdulos, que otimizaram o processo de leitura,
extraindo mais e mais performance.
Chegamos ento s memrias DDR, DDR2 e DDR3 usadas atualmente, que levam este processo crescente
de otimizao a um novo nvel, permitindo que o mdulo de memria realize vrias transferncias por ciclo,
multiplicando a frequncia efetiva.

5.7 MEMRIAS DDR


Apesar das otimizaes, os mdulos de memria SDR-SDRAM continuam realizando apenas uma
transferncia por ciclo, da forma mais simples possvel. Depois de decorrido o longo ciclo inicial, as clulas de
memria entregam uma leitura de dados por ciclo, que passa pelos buffers de sada e despachada atravs do
barramento de dados. Todos os componentes trabalham na mesma frequncia:

219

As memrias DDR implementam um novo truque, que as torna capazes de realizarem duas transferncias
por ciclo e serem quase duas vezes mais rpidas que as memrias SDRAM regulares, mesmo mantendo a
mesma frequncia de operao e a mesma tecnologia bsica. Vem da o termo "DDR", que significa "Double
Data Rate", ou frequncia dupla de transferncia de dados.
Com o lanamento das memrias DDR, as SDRAM passaram a ser chamadas de "SDR" (Single Data Rate) ou
SDR-SDRAM, reforando a diferena entre as duas tecnologias. Embora tanto as memrias DDR quanto as
DDR2 e DDR3 continuem sendo memrias SDRAM, o termo saiu de moda, j que muito mais fcil dizer
"DDR" do que "DDR-SDRAM".
De volta tecnologia, os chips de memria DDR incluem circuitos adicionais, que permitem gerar
comandos de acesso e receber os dados referentes s leituras duas vezes por ciclo de clock, executando uma
operao no incio do ciclo e outra no final. Como so utilizadas as mesmas trilhas para realizar ambas as
transferncias, no foi necessrio fazer grandes modificaes nem nos mdulos de memria, nem nas placasme.
Apesar disso, as clulas de memria propriamente ditas continuam operando na mesma frequncia. Em
um mdulo DDR-266, por exemplo, elas operam a apenas 133 MHz, da mesma forma que num mdulo SDR
PC-133. O pulo do gato fazer com que cada um dos dois comandos de leitura (ou gravao) sejam enviados
para um endereo diferente, na mesma linha. As duas leituras so enviadas atravs do barramento de dados
na forma de duas transferncias separadas, uma realizada no incio e a outra no final do ciclo de clock:

O maior problema que o ciclo inicial continua demorando o mesmo tempo que nas memrias SDRAM, de
forma que o ganho aparece apenas em leituras de vrios setores consecutivos e a taxa de transferncia nunca
chega realmente a dobrar, variando bastante de acordo com o tipo de aplicativo usado.
220

A temporizao para um burst de 8 leituras, usando memrias DDR, seria 5------- (8.5 ciclos) ao
invs de 5-1-1-1-1-1-1-1 (12 ciclos) como num mdulo SDR. A diferena menor em bursts menores, de
apenas duas ou quatro leituras.
Apesar disso, as memrias DDR acabaram sendo um excelente negcio, pois tornaram possvel obter
ganhos perceptveis de performance sem um aumento considervel no custo. Justamente por isso elas se
popularizaram rapidamente, substituindo as memrias SDR em um espao de menos de um ano.
Os mdulos DDR podem ser vendidos tanto segundo sua frequncia de operao quanto segundo sua taxa
de transferncia.
DDR-200 (100 MHz) = PC1600
DDR-266 (133 MHz) = PC2100
DDR-333 (166 MHz) = PC2700
DDR-400 (200 MHz) = PC3200
DDR-466 (233 MHz) = PC3700
DDR-500 (250 MHz) = PC4000
Por exemplo, uma memria DDR-200, opera como se estivesse a 200 MHz. Visto que operam a 64 bits,
temos no total (200 MHz x 64 bits)/8 = 1600 MB/s.
Assim como no caso dos mdulos SDR, existem mdulos de memria DDR CL2 e CL3, sendo que nos CL2 o
tempo do acesso inicial reduzido em um ciclo, resultando em um pequeno ganho de desempenho. Como as
DDR realizam duas operaes por ciclo, surgiram tambm os mdulos CL2.5, que ficam no meio do caminho.
As especificaes dos mdulos indicam a frequncia mxima para a qual seu funcionamento foi
comprovado. Nada impede que voc use o mdulo a uma frequncia mais baixa que o especificado; voc pode
usar um mdulo DDR-400 em uma placa-me configurada para trabalhar a 133 MHz, por exemplo, mas nesse
caso no existe ganho de desempenho com relao a um mdulo DDR-266, com exceo de pequenas
diferenas relacionadas ao valor CAS ou temporizao dos dois mdulos.
Quase sempre possvel tambm usar o mdulo a frequncias um pouco mais altas que o especificado,
fazendo overclock. O mdulo DDR-400 poderia funcionar ento a 215 MHz, por exemplo. Fazer overclock sem
aumentar a tenso da memria no traz perigo para os mdulos (mesmo a longo prazo), porm voc tambm
no tem garantia de estabilidade. Normalmente os mdulos CL2 ou CL2.5 suportam melhor os overclocks, j
que o controlador tem mais margem para aumentar a temporizao dos mdulos para compensar o aumento
na frequncia.
Ao misturar dois mdulos de especificaes diferentes, necessrio nivelar por baixo, usando a frequncia
suportada pelo mdulo mais lento. Justamente por isso, nem sempre conveniente aproveitar os mdulos
antigos ao fazer upgrade de memria, pois voc acaba sub-utilizando os novos mdulos, obrigando-os a
acompanharem as temporizaes dos mdulos antigos.
Continuando, quase todos os mdulos de memria SDRAM ou DDR possuem um chip de identificao
chamado de "SPD" (Serial Presence Detect), que armazena os cdigos de identificao do mdulo, detalhes
sobre a frequncia, tempos de acesso, CAS latency e outras especificaes. Estas informaes so exibidas por
programas de identificao, como o CPU-Z e o Sandra. No Linux, voc pode ler as informaes gravadas no
chip usando o script "decode-dimms.pl" (voc pode encontr-lo usando o comando "locate"), que faz parte do
pacote "lm-sensors". Ele retorna uma longa lista de informaes sobre cada um dos mdulos instalados na
mquina, como neste exemplo:
Memory Serial Presence Detect Decoder
By Philip Edelbrock, Christian Zuckschwerdt, Burkart Lingner,
Jean Delvare and others
Version 2.10.1

221

Decoding EEPROM: /sys/bus/i2c/drivers/eeprom/0-0050


Guessing DIMM is in bank 1
---=== SPD EEPROM Information ===--EEPROM Checksum of bytes 0-62 OK (0x8C)
# of bytes written to SDRAM EEPROM 128
Total number of bytes in EEPROM 256
Fundamental Memory type DDR SDRAM
SPD Revision 0.0
---=== Memory Characteristics ===--Maximum module speed 400MHz (PC3200)
Size 512 MB
tCL-tRCD-tRP-tRAS 3-3-3-8
Supported CAS Latencies 3, 2.5, 2
Supported CS Latencies 0
Supported WE Latencies 1
Minimum Cycle Time (CAS 3) 5 ns
Maximum Access Time (CAS 3) 0.65 ns
Minimum Cycle Time (CAS 2.5) 6 ns
Maximum Access Time (CAS 2.5) 0.7 ns
Minimum Cycle Time (CAS 2) 7.5 ns
Maximum Access Time (CAS 2) 0.75 ns
---=== Manufacturing Information ===--Manufacturer Kingston
Manufacturing Location Code 0x04
Part Number K
Manufacturing Date 0x001E
Assembly Serial Number 0x6B376D48

Pelas informaes, podemos ver que se trata de um mdulo DDR-400 (PC3200) de 512 MB da Kingston.
Veja que o mdulo suporta o uso de CAS 3, 2.5 ou 2, mas em seguida especificado que o tempo mnimo de
acesso usando CAS 3 so 5 ns e usando CAS 2 so 7.5 ns. Ou seja, o mdulo s capaz de usar CAS 2 em
frequncias mais baixas. Ao operar a 200 MHz, sua frequncia nominal, ele passa automaticamente a usar CAS
3. Apesar das especificaes serem um pouco confusas, elas indicam que na verdade tenho em mos um
mdulo CL3.
O SPD um pequeno chip de memria EEPROM, com apenas 128 ou 256 bytes, que pode ser localizado
facilmente no mdulo:

O chip responsvel pelo SPD

222

Graas a ele, a placa-me pode utilizar automaticamente as configuraes recomendadas para o mdulo,
facilitando a configurao. De qualquer maneira, voc pode tambm desativar a configurao automtica (By
SPD) e especificar sua prpria configurao atravs do Setup.
A maioria das placas atuais permite que a memria opere de forma assncrona com o clock da placa-me,
permitindo que a placa-me opere a 166 MHz, enquanto a memria opera a 200 ou 233 MHz, por exemplo. Ao
usar um mdulo antigo, tambm possvel fazer o contrrio, mantendo a placa-me a 200 MHz, mas
configurando a memria para operar a 133 MHz, por exemplo. Basta localizar a opo "DRAM Frequency",
"Memclock Value" ou similar:

Na maioria das placas possvel ajustar manualmente o valor CAS. Isso pode ser til ao fazer overclock,
pois um mdulo DDR-400, pode no conseguir trabalhar estavelmente a 233 MHz (por exemplo), mantendo o
CAS em 2 tempos, mas pode funcionar perfeitamente se o tempo for aumentado para 3 tempos. O inverso
tambm possvel. Um mdulo DDR-400 CAS 3 poderia vir a trabalhar estavelmente com CAS 2 se a
frequncia fosse reduzida para 166 MHz, por exemplo, oferecendo uma boa flexibilidade para quando voc
tem tempo disponvel e quer chegar ao melhor desempenho possvel.
Muitas placas vo mais longe, oferecendo conjuntos completos de ajustes, como neste segundo
screenshot:

223

Brincar com a frequncia e tempos de acesso da memria no oferece riscos para o equipamento. No
mximo voc pode precisar limpar o setup, para que o micro volte a inicializar depois de tentar usar uma
configurao no suportada pelos mdulos.
O maior risco est em aumentar a tenso usada pelos mdulos (Memory Voltage). Est comprovado que
pequenos aumentos na tenso aumentam a possibilidade dos mdulos trabalharem estavelmente a
frequncias mais altas, sobretudo nos mdulos DDR2, que dissipam mais calor. O problema que isso tambm
pode abreviar a vida til dos mdulos, por isso nem sempre uma boa ideia.
Aumentos de at 5 a 8% esto dentro do limite de tolerncia dos circuitos e no oferecem grandes riscos.
Voc pode usar 2.65V em um mdulo DDR ou 1.9V em um mdulo DDR2, por exemplo, mas aumentos mais
agressivos resultam quase sempre em uma reduo significativa da vida til dos mdulos. Muitas placas
oferecem a opo de aumentar as tenses dos mdulos em 30% ou mais, o que pode danific-los em poucas
horas.

5.8 MEMRIAS DDR2


Seguindo a tendncia inaugurada pelas memrias DDR, as DDR2 novamente duplicaram a taxa de
transferncia, realizando agora 4 transferncias por ciclo. Novamente, as clulas de memria continuam
trabalhando na mesma frequncia anterior e o acesso inicial continua demorando aproximadamente o mesmo
tempo. Entretanto, as demais operaes dentro do burst passaram a ser realizadas em apenas um quarto de
ciclo de clock. Usando memrias DDR2, um burst de 8 leituras demoraria apenas 6.75 ciclos de clock (5------), contra 8.5 ciclos nas DDR e 12 nas SDR.
Como voc pode imaginar, a diferena maior em aplicativos que precisam manipular grandes blocos de
dados e menor em aplicativos que leem pequenos blocos de dados espalhados. Em nenhuma situao prtica
a transferncia chega realmente a dobrar; dizer que as "DDR2 so duas vezes mais rpidas" apenas uma
figura de linguagem.
Em 2005, quando os primeiros mdulos DDR2-533 chegaram ao mercado, eles rapidamente ganharam a
fama de "lentos", pois eram comparados a mdulos DDR-400 ou DDR-466, que j estavam entrincheirados.
Embora um mdulo DDR2 ganhe de um DDR da mesma frequncia em todos os quesitos (um DDR2-800
contra um DDR-400, por exemplo), o mesmo no acontece se comparamos mdulos de frequncias
diferentes. Um mdulo DDR2-533 opera a apenas 133 MHz, por isso acaba realmente perdendo para um DDR400 (200 MHz) em muitas aplicaes, j que o ganho ao realizar 4 operaes por ciclo acaba no sendo
suficiente para compensar a diferena na frequncia de operao das clulas de memria. Vale lembrar que
um mdulo DDR2-533 trabalha com tempos de latncia similares a um mdulo DDR-266.
Realizar bursts de leituras rpidas pode no ser a forma mais perfeita de criar memrias mais rpidas
(devido ao lento ciclo inicial), mas sem dvida a mais simples e barata. A frequncia de operao das
memrias aumenta de forma gradual, conforme so melhoradas as tcnicas de produo. Realizar mais
leituras por ciclo de clock a nica forma simples de melhorar exponencialmente a taxa de transferncia dos
mdulos.
A dificuldade em criar chips de memria capazes de operar a frequncias (reais) mais altas similar que
temos no caso dos processadores. No possvel criar um processador capaz de operar ao dobro do clock de
uma hora para a outra, mas possvel criar um processador dual-core ou quad-core, por exemplo. No caso das
memrias mais simples, pois voc pode ler vrios endereos simultaneamente (ou quase), fazendo apenas
mudanas nos circuitos controladores.
Dependendo da fonte, voc pode ler tanto que as memrias DDR2 operam ao dobro da frequncia das
DDR quanto que elas realizam quatro transferncias por ciclo em vez de duas. Nenhuma das duas explicaes
esto erradas, mas ambas so incompletas.
224

Como disse, as clulas de memria continuam trabalhando na mesma frequncia das memrias SDR e
DDR, mas os buffers de entrada e sada, responsveis por ler os dados, passaram a operar ao dobro da
frequncia. justamente esta frequncia que "vista" pelo restante do sistema, de forma que a maioria dos
aplicativos de diagnstico mostram a frequncia dobrada usada pelos circuitos de entrada e no a frequncia
real das clulas de memria.
Devido a esta ambiguidade, no errado dizer que os mdulos DDR2 operam ao dobro da frequncia dos
DDR (os buffers e outros circuitos de apoio realmente operam), nem que so realizadas 4 leituras por ciclo (j
que as clulas de memria continuam operando mesma frequncia).
Ao realizar uma leitura, o controlador de memria gera quatro sinais distintos, que ativam a leitura de
quatro endereos adjacentes (recurso batizado de "4-bit prefetch"). As quatro leituras so feitas
simultaneamente e os dados so entregues ao buffer, que se encarrega de despach-los atravs do
barramento principal.
Presumindo que o mdulo DDR2 do exemplo operasse a 133 MHz, teramos as clulas de memria ainda
operando na mesma frequncia, mas agora entregando 4 leituras de setores sequenciais por ciclo. Os buffers e
o barramento de dados operam agora a 266 MHz, de forma que as 4 leituras podem ser enviadas em 2 ciclos,
com duas transferncias por ciclo. Os dois ciclos do barramento so realizados no mesmo espao de tempo
que apenas um ciclo das clulas de memria:

Como vimos, as clulas de memria podem ser grosseiramente comparadas a uma planilha eletrnica,
com inmeras linhas e colunas. No existe uma grande dificuldade em ler vrios endereos diferentes
simultaneamente, desde que o fabricante consiga desenvolver os circuitos de controle necessrios. Graas a
isso, o desenvolvimento das memrias tem sido focado em realizar mais leituras por ciclo, combinado com
aumentos graduais nas frequncias de operao.
Quando as memrias DIMM surgiram, ainda na poca do Pentium II, os mdulos mais rpidos operavam a
100 MHz (os famosos mdulos PC-100). Atualmente temos chips de memria de at 333 MHz que,
combinados com as 4 leituras por ciclo do padro DDR2, resultam em mdulos com transferncia terica de
at 10.6 GB/s:
DDR2-533 (133 MHz) = PC2-4200
DDR2-667 (166 MHz) = PC2-5300
DDR2-800 (200 MHz) = PC2-6400
DDR2-933 (233 MHz) = PC2-7500
DDR2-1066 (266 MHz) = PC2-8500
DDR2-1200 (300 MHz) = PC2-9600 (extra-oficial)
DDR2-1333 (333 MHz) = PC2-10600 (extra-oficial)
225

O CAS latency dos mdulos DDR2 medido em termos de ciclos do circuito controlador, por isso so
normalmente o dobro do que nos mdulos DDR. como em "duas unidades" ou "quatro metades", no final d
no mesmo. Um mdulo DDR2-800 com CAS latency 4 possui o mesmo tempo de acesso que um DDR-400 com
CAS latency 2.
Normalmente, as especificaes das memrias DDR2 incluem no apenas o CAS latency (tCL), mas tambm
o RAS to CAS delay (tRCD), Row Precharge Time (tRP) e RAS Activate to Charge (tRAS). Estes mesmos valores
podem ser encontrados nas especificaes de mdulos DDR e SDR, mas com as memrias DDR2 os fabricantes
passaram a divulg-los de forma mais aberta, usando qualquer reduo nos valores para diferenciar seus
mdulos dos concorrentes. Temos ento mdulos DDR2-800 "4-4-4-12" ou "5-5-5-15", por exemplo.
O primeiro nmero o CAS latency, que j conhecemos. O seguinte o RAS to CAS delay, que o tempo
que o controlador precisa esperar entre o envio do endereo RAS e o CAS. Para realizar uma leitura, o
controlador envia o sinal RAS, espera o tempo referente ao RAS to CAS delay, envia o sinal CAS, aguarda o
nmero de ciclos referente a ele e ento finalmente tem a leitura. Em um mdulo DDR2 4-4-4-12, tanto o tCL
quanto o tRCD demoram 4 ciclos, de forma que o acesso inicial demoraria um total de 8 ciclos. Em um mdulo
5-5-5-15, o tempo subiria para 10 ciclos.
importante lembrar (mais uma vez :) que aqui estamos falando de ciclos dos circuitos de acesso, que
trabalham ao dobro da frequncia. Os 8 ciclos de um mdulo DDR2 equivalem ao mesmo espao de tempo
consumido por 4 ciclos de um mdulo DDR ou SDR.
Junto com o ciclo inicial, o controlador pode realizar um burst de mais 7 leituras (totalizando 8). Cada uma
destas leituras adicionais consome o equivalente a meio ciclo do controlador (ou um quarto de ciclo das
clulas de memria). Caso ele precise de mais dados dentro da mesma linha, ele repete o envio do sinal CAS e
realiza um novo burst de leituras.
Note que o controlador s precisa enviar o sinal RAS ao mudar a linha ativa, de forma que o tRCD s entra
na conta no primeiro acesso. Para os seguintes, temos apenas o tempo referente ao tCL. Caso o controlador
precise realizar 24 leituras (dentro da mesma linha), num mdulo DDR2 4-4-4-12, teramos 11.5 ciclos (8+3.5)
para as 8 primeiras leituras e mais 15 ciclos (4+3.5+4+3.5) para as 16 leituras subsequentes. por causa dessa
peculiaridade que os mdulos DDR e DDR2 no possuem mais o "full-page mode" suportado pelas memrias
SDRAM; ele deixou de ser necessrio.
O Row Precharge Time (tRP) entra em ao quando o controlador precisa alternar entre diferentes linhas.
Cada linha inclui 512 endereos de memria, o equivalente a 4 KB de dados. As linhas so divididas em 4 ou 8
pginas, de forma que um mdulo DDR2 de 1 GB teria 8 pginas de 32.768 linhas, ou 4 pginas de 65.536
linhas. Com tantas linhas e pginas diferentes, no difcil imaginar que o chaveamento entre elas muito
frequente. Quando falo em linhas e pginas, tenha em mente que essa apenas a forma como o controlador
de memria "enxerga" o mdulo. Fisicamente, mesmo os bits de uma mesma linha esto espalhados pelos
vrios chips do mdulo.
Antes de poder acessar uma determinada linha, o controlador de memria precisa carreg-la (precharge).
Isso consiste em recarregar os capacitores dentro das clulas de memria, facilitando a leitura dos dados. O
Row Precharge Time (tRP) justamente o tempo necessrio para fazer o carregamento, necessrio antes de
chavear para outra linha, seja no mesmo banco, seja num banco diferente.
Sendo assim, mesmo que seja necessrio ler um nico setor, a leitura demorar (em um mdulo 4-4-4-12)
4 ciclos para o tRP, 4 ciclos para o tRCD, 4 ciclos para o tCL, totalizando 12 ciclos. Estes 12 ciclos so
justamente o tempo referente ao RAS Activate to Charge (tRAS), que o tempo mnimo para realizar uma
leitura completa. O tRAS sempre proporcional aos trs primeiros valores, pois justamente a soma dos trs.
por isso que ele sempre mais alto em mdulos com CAS latency mais alto.

226

possvel reduzir o tRAS utilizando um recurso chamado Additive Latency, onde o comando para iniciar o
precharge do banco seguinte pode ser enviado antes que a leitura atual termine. Isso faz com que o tempo
total da leitura seguinte seja reduzido em 1 ou at mesmo 2 ciclos. Esse o caso dos mdulos 5-4-4-11 ou 4-44-11, por exemplo. Em outros casos necessrio um ciclo adicional para fechar o banco, que aumenta o tRAS
em vez de diminuir. De qualquer forma, o tRAS , entre os quatro, o parmetro que menos influi no
desempenho, pois s faz alguma diferena real quando o sistema precisa realizar sries de acessos rpidos, a
linhas diferentes.
Bem, esta ltima parte exigiu uma explicao mais complexa que o habitual. Como voc pode ver, os
tempos de acesso dos mdulos DDR2 um pouco mais complexo do que pode parecer primeira vista.
Entretanto, o mais importante dos 4 valores continua sendo o primeiro (o bom e velho CAS latency, ou
tCL), j que o tRCD e o tRP so quase sempre iguais a ele e o tRAS a soma dos trs. Ou seja, se o CAS latency
mais baixo, automaticamente os demais valores tambm so.
O processo de transio: Com relao ao suporte por parte dos processadores e chipsets, o lanamento
das memrias DDR2 teve um impacto diferente para a Intel e a AMD. Para a Intel, a migrao para as
memrias DDR2 foi mais simples, j que na plataforma Core o controlador de memria includo no chipset,
de forma que aderir a uma nova tecnologia demanda apenas modificaes nos chipsets e placas.
A Intel oferece suporte a memrias DDR2 em seus chipsets desde o i915P, lanado em 2004. Inicialmente,
os chipsets ofereciam tanto suporte a memrias DDR quanto DDR2, de forma que ficava a cargo do fabricante
escolher qual padro utilizar. Existem inclusive placas hbridas, que suportam ambos os padres, como a ECS
915P-A, que possuem dois slots de cada tipo, permitindo que voc escolha qual padro utilizar. A partir de um
certo ponto, entretanto, as memrias DDR2 caram de preo e quase todas as placas soquete 775 passaram a
vir com suporte exclusivo a memrias DDR2.
Para a AMD, a mudana foi mais tortuosa, j que o Athlon 64 e derivados utilizam um controlador de
memria embutido diretamente no processador, desenvolvido de forma a minimizar os tempos de acesso.
Por um lado isto bom, pois oferece um ganho real de desempenho, mas por outro ruim, pois qualquer
mudana no tipo de memria usado demanda mudanas no processador e no soquete usado. Foi justamente
isso que aconteceu quando a AMD decidiu fazer a migrao das memrias DDR para as DDR2. Alm das
mudanas internas no processador e controlador de memria, o soquete 754 foi substitudo pelo soquete 939
e em seguida pelo AM2, quebrando a compatibilidade com as placas antigas.
Com a adoo por parte da AMD, a procura (e consequentemente a produo) das memrias DDR2
aumentou bastante, fazendo com que os preos passassem a cair rapidamente. A partir do final de 2006, os
preos dos mdulos de memria DDR2 (nos EUA) caram a ponto de passarem a ser mais baratos que os
mdulos DDR regulares. Como sempre, as mudanas chegam ao Brasil com alguns meses de atraso, mas a
partir do incio de 2007 as memrias DDR2 passaram a ser encontradas por preos inferiores s DDR por aqui
tambm.
Outra questo importante a popularizao de mdulos DDR2-1066 e tambm de mdulos de baixa
latncia, com temporizao de 4-4-3-11, ou mesmo 3-3-3-9. Ao contrrio da gerao inicial de mdulos DDR2,
que ofereciam mais banda, mas em compensao trabalhavam com tempos de acesso muito mais altos, esta
segunda gerao de mdulos DDR2 indiscutivelmente mais rpida. O ganho prtico em utilizar memrias
DDR2 no to grande assim, j que o barramento com a memria apenas um dos fatores que determina o
desempenho do PC. Entretanto, a partir do momento em que a nova tecnologia passa a ser mais barata que a
anterior, qualquer ganho, por menor que seja, muito bem-vindo.

227

5.9 MEMRIAS DDR3


Podemos dizer que as memrias DDR2 atingiram seu pico evolutivo nos mdulos DDR2-1066, que o
ltimo padro reconhecido pelo JEDEC. Naturalmente, possvel encontrar mdulos mais rpidos no mercado,
como os mdulos DDR2-1200 "SLI-Ready" marqueteados pela nVidia e os mdulos DDR2-1333 (produzidos em
pequenos volumes por vrios fabricantes), mas eles so consideravelmente mais caros e o ganho de
desempenho na prtica pequeno. Oficialmente, eles so apenas mdulos DDR2-1066 overclocados, j que
no existem padres para mdulos DDR2-1200 e DDR2-1333 certificados pelo JEDEC.
Considerando que em um mdulo DDR2-1066 as clulas de memria operam a nada menos que 266 MHz
(uma evoluo expressiva em relao aos mdulos PC-100 e PC-133 do comeo do milnio, onde as clulas
operavam a apenas 100 ou 133 MHz), no de se estranhar que os fabricantes tenham enfrentado
dificuldades a partir da.
A soluo veio com as memrias DDR3, que mais uma vez duplicaram a frequncia efetiva dos mdulos,
realizando agora 8 transferncias por ciclo de clock, contra as 4 transferncias do DDR2. A grande sacada que
o aumento na frequncia (novamente) obtido atravs do acesso simultneo a endereos adjacentes e no
atravs do aumento da frequncia real das clulas de memria, o que permitiu estender o uso das clulas de
133 a 266 MHz por mais uma gerao.
Em um mdulo DDR3-1066, por exemplo, as clulas de memria operam a apenas 133 MHz, com os
buffers de dados operando a 533 MHz e realizando 2 transferncias por ciclo (DDR), resultando em uma
frequncia efetiva de 1066 MHz. Em mdulos DDR3 com clulas operando a 266 MHz, a frequncia efetiva
de impressionantes 2133 MHz e com a maturao da tecnologia parece ser apenas questo de tempo at que
tenhamos mdulos ainda mais rpidos no mercado.
Inicialmente, os mdulos DDR3 foram lanados em verso DDR3-1066 (133 MHz x 8) e DDR3-1333 (166
MHz x 8), seguidos pelos padres DDR3-1600 (200 MHz x 8), DDR3-1866 (233 MHz x 8) e DDR3-2133 (266 MHz
x 8). Os trs padres podem tambm serem referenciados pela sua taxa de transferncia terica:
DDR3-1066 (133 MHz) = PC3-8500
DDR3-1333 (166 MHz) = PC3-10667
DDR3-1600 (200 MHz) = PC3-12800
DDR3-1866 (233 MHz) = PC3-14900
DDR3-2133 (266 MHz) = PC3-17000
As clulas de memria realizam 8 transferncias por ciclo de clock (em vez de 4, como nas DDR2) e os
buffers de dados (que operam ao quaduplo da frequncia das clulas) realizam 2 transferncias por ciclo de
clock. Assim, atravs de aritmtica simples, podemos chegar as taxas de transferncia mxima tericas:

Se as mudanas parassem por a, os mdulos DDR3 no ofereceriam ganhos muito grandes na prtica, pois
o tempo de latncia inicial continuaria sendo o mesmo que nos mdulos DDR2 (j que no houve mudana na
frequncia das clulas de memria). Se um mdulo DDR3 operasse com tempos de acesso 10-10-10-30, os
ganhos seriam pequenos em relao a um DDR2 5-5-5-15, j que s haveria ganho nos acessos subsequentes.
Para evitar isso, os mdulos DDR3 incluem um sistema integrado de calibragem do sinal, que melhora de
forma considervel a estabilidade dos sinais, possibilitando o uso de tempos de latncia mais baixos, sem que
a estabilidade seja comprometida.
Os mdulos DDR3 utilizam tambm 8 bancos em vez de 4, o que ajuda a reduzir o tempo de latncia em
mdulos de grande capacidade. Eles tambm trouxeram uma nova reduo na tenso usada, que caiu para
228

apenas 1.5V, ao invs dos 1.8V usados pelas memrias DDR2. A reduo na tenso faz com que o consumo
eltrico dos mdulos caia proporcionalmente, o que os torna mais atrativos para os fabricantes de notebooks.
Somadas todas essas melhorias, os tempos de acesso "reais" dos mdulos foram sensivelmente reduzidos.
Em vez de trabalharem com tempos de acesso 10-10-10-30, a gerao inicial de mdulos DDR3 capaz de
trabalhar com temporizao 9-9-9-24, ou mesmo 7-7-7-15.
O primeiro chipset a incluir suporte s memrias DDR3 foi o Intel P35, lanado em 2007. Em vez em
cometer o mesmo erro que cometeu ao lanar o Pentium 4, quando tentou forar o uso das memrias
Rambus, a Intel adotou uma postura conservadora, equipando o P35 com suporte simultneo a memrias
DDR3 e DDR2 e deixando que os fabricantes de placas escolhessem qual das duas tecnologias utilizar.
Como era de se imaginar, todas as placas mainstream e de baixo custo passaram a suportar
exclusivamente memrias DDR2 (que eram muito mais baratas), com as memrias DDR3 ficando relegadas ao
mercado de alto desempenho. Isso continuou ao longo de 2008 e 2009, com a mesma frmula sendo repetida
no chipset P45 e nos lanamentos subsequentes.
Isso fez com que a procura pelos mdulos DDR3 continuasse fraca e os preos se mantivessem altos. Para
complicar, os primeiros mdulos DDR3 no ofereciam um ganho de desempenho tangvel em relao aos
DDR2 na plataforma soquete 775. Embora a frequncia efetiva fosse mais baixa, os mdulos DDR2
trabalhavam com tempos de acesso mais baixos, o que fazia com que a competio fosse acirrada, com os
DDR2 se saindo melhor em muitas situaes.
Isso levou os fabricantes de memria a apostarem na produo de mdulos de alto desempenho, em uma
corrida armamentista que deu origem a mdulos overclocados, capazes de trabalhar a 2000 MHz ou mais
(frequncia efetiva), mas que em compensao utilizavam tenses de at 2.0V, muito acima dos 1.5V
recomendados. Embora vendidos em pequenas quantidades, estes mdulos lideravam os benchmarks e por
isso recebiam uma ateno desproporcional.
Um bom exemplo dessa poca insana so estes mdulos DDR3-2000 (9-9-9-24) da G.Skill, que utilizam
tenso de 1.9V e so equipados com um cooler ativo (ligado ao mdulo atravs de um heat-pipe) para manter
a temperatura de operao em nveis aceitveis:

Eles no eram apenas caros (o kit com dois mdulos de 2 GB custava nada menos que US$ 300 na poca
de lanamento), mas a tenso fazia com que a vida til fosse reduzida, com muitos mdulos apresentando
defeitos prematuros depois de alguns meses de uso, um problema que atingiu tambm mdulos de outros
fabricantes.

229

A Intel resolveu colocar ordem no galinheiro com o lanamento do Core i7, limitando o suporte oficial aos
mdulos DDR3-1066 e DDR3-1333 e advertindo que o uso de tenses superiores a 1.65 poderia danificar o
controlador de memria integrado ao processador.
Isso obrigou os fabricantes a se concentrarem na fabricao de mdulos de baixa frequncia e baixa
latncia, em vez de continuarem a investir no simples aumento das frequncias. Outra mudana positiva foi
que os mdulos voltaram a utilizar tenses "normais", variando de 1.5V nos mdulos value, a 1.65V nos
mdulos de alto desempenho, dentro dos valores recomendados pela Intel para uso em conjunto com o i7.
A AMD adotou uma postura similar da Intel durante a fase de transio, lanando a plataforma AM3
(com o uso de memrias DDR3), porm equipando os processadores Phenom II com controladores hbridos,
com suporte simultneo a memrias DDR2 e DDR3. Isso permitiu que os processadores continuassem
compatveis com as placas AM2+, permitindo que voc decidisse entre usar memrias DDR2 ou DDR3 ao
escolher a placa-me.
As memrias DDR2 demoraram quase 3 anos para se popularizarem desde a introduo do chipset i915P,
em 2004, ultrapassando as vendas das memrias DDR antigas apenas a partir de 2007.
Apesar das diferenas na implementao, as memrias DDR3 acabaram seguindo um caminho similar, com
os mdulos inicialmente custando muito mais caro e caindo a um nvel prximo dos preos dos mdulos DDR2
apenas a partir do incio de 2010, novamente quase trs anos depois do lanamento das primeiras placas e
chipsets.

5.10 A MALDIO DOS 32 BITS: O LIMITE DE 3 GB


Assim como no caso dos HDs, existiram diversos limites com relao ao endereamento da memria RAM
durante a histria dos micros PCs, causados por limitaes do sistema operacional, limitaes do chipset e
limitaes dos processadores. Mesmo os processadores e sistemas operacionais de 64 bits possuem limites
com relao quantidade mxima de memria que pode ser endereada, embora muito mais elevados. As
verses originais do Athlon 64 so capazes de enderear at 1 terabyte de memria RAM
(independentemente da placa-me usada) e este limite pode ser expandido no futuro. O grande problema so
os processadores e os sistemas operacionais de 32 bits.
Tudo comeou com o limite de 640 KB de memria do processador 8088, usado nos primeiros PCs. Na
verdade, o 8088 utilizava um total de 20 bits para o endereamento da memria, divididos em 16 bits
"nativos", que permitiam enderear pginas de 64 KB e mais 4 bits adicionais, que permitiam enderear 16
pginas, totalizando 1 MB.
Por deciso da equipe de desenvolvimento, apenas os primeiros 640 KB (chamados de memria
convencional) ficavam disponveis para uso do sistema operacional e aplicativos. Os 384 KB restantes
(chamados de memria extendida) eram usados para enderear a memria presente em outros dispositivos,
como o BIOS da placa-me e a memria da placa de vdeo.
Na poca dos primeiros PCs, a memria RAM era muito cara, de forma que no era comum o uso de mais
do que 256 KB, mas, mesmo que fosse utilizado 1 MB completo, apenas os primeiros 640 KB ficariam
disponveis. Os 384 KB adicionais podiam ser utilizados para fazer cache do BIOS e da memria da placa de
vdeo (o que melhorava o desempenho), mas no para uso geral.
Para manter compatibilidade com os aplicativos antigos, mesmo os processadores atuais so capazes de
operar em modo real, onde simulam o funcionamento de um 8088, acessando apenas os primeiros 640 KB de
memria. dentro deste limite que rodam o MS-DOS e aplicativos antigos. Quando o Windows, Linux ou
qualquer sistema operacional carregado, o processador passa para o modo protegido, onde capaz de
acessar toda a memria disponvel.
230

Desde o 386, todos os processadores utilizam 32 bits para o endereamento da memria, o que permite
enderear at 4 GB. Esse limite chamado de VAS (Virtual Address Space) e indica justamente o total de
memria que o sistema capaz de enderear, incluindo no apenas a memria RAM, mas tambm a memria
da placa de vdeo e outros dispositivos. O problema reside justamente a.
Imagine que voc resolvesse montar um PC com 4 GB de memria RAM e duas placas de vdeo com 1 GB
de memria RAM em CrossFire ou SLI. Como a memria das placas de vdeo consome espao do Virtual
Address Space, o sistema seria capaz de acessar apenas os primeiros 2 GB da memria (um pouco menos na
prtica, j que mais alguns blocos sero reservados a outros dispositivos), de forma que usar 4 GB acabaria
sendo um desperdcio de dinheiro.
Isso ocorre no apenas ao utilizar um processador de 32 bits, mas tambm ao usar um processador de 64
bits em conjunto com um sistema operacional de 32 bits, incluindo o Windows XP e as verses de 32 bits do
Vista e Windows 7.
De uma forma geral, no recomendvel utilizar mais do que 3 GB ao usar um sistema operacional de 32
bits, pois justamente a rea entre os 3 e 4 GB do Virtual Address Space que utilizada pelo processador para
enderear a memria de dispositivos diversos. Assim como dois corpos no podem ocupar o mesmo espao ao
mesmo tempo, dois dispositivos no podem compartilhar a mesma rea de endereos, o que faz com que
pores da memria RAM que invadem reas reservadas a outros dispositivos simplesmente no sejam vistas
pelo sistema.
Voc pode verificar as reas de memria reservadas atravs do gerenciador de dispositivos do Windows,
usando a opo Exibir > Recursos por tipo > Memria:

Os endereos fornecidos aqui esto em hexa, mas voc pode usar a prpria calculadora do Windows para
convert-los em nmeros decimais. No caso, por exemplo, tenho a placa de vdeo utilizando os endereos
C8000000 a CFFFFFFF, que correspondem aos bytes de 3.355.443.200 a 3.489.660.927 e uma srie de
dispositivos a partir do "Recursos da placa-me" que ocupam praticamente todos os endereos do byte
3.758.096.384 ao 4.294.967.295 (que corresponde justamente ao final da rea de 4 GB endereada pelo
sistema). Se instalasse uma placa 3D offboard, com 256 MB, ela ocuparia os bytes de 3.221.225.472 a
3.489.660.927, que correspondem justamente aos 256 MB da placa.
Se voc se contentar em utilizar uma placa de vdeo low-end (com pouca memria de vdeo), pode ficar
com at 3.5 GB de endereos disponveis, dependendo do sistema operacional usado.

231

No caso das verses de 32 bits do Vista, por exemplo, o limite mximo (segundo o
http://support.microsoft.com/kb/929605) de 3.12 GB. Ou seja, na maioria dos casos, no vale a pena pagar
por mais 4 GB de memria, j que apenas uma pequena parte do ltimo GB seria utilizada. Melhor se
contentar com 3 GB.
Mesmo ao utilizar um processador de 64 bits, combinado com um sistema operacional de 64 bits, um
grande volume de endereos entre os 3 e 4 GB de memria continuam reservados, de forma a manter
compatibilidade com os programas de 32 bits, fazendo com que, novamente, pelo menos 512 MB entre os 3 e
4 GB da memria no sejam usados. A vantagem nesse caso que voc pode instalar mais de 4 GB de
memria. Com 8 GB, por exemplo, voc ficaria com de 7 a 7.5 GB utilizveis.
Algumas placas de 64 bits oferecem a opo "Memory Hole Remapping" (ou similar) no setup. Ao ativar
esta opo, as reas de memria reservadas aos dispositivos movida para uma rea mais alta do Virtual
Address Space (que nos processadores de 64 bits muito maior), liberando a maior parte da memria antes
inacessvel por causa deles.
Outras placas suportam o Memory Hoisting (da palavra "hoist", que significa levantar ou suspender), um
recurso que segue outro princpio, deixando os endereos dos dispositivos onde esto e remapeando os
trechos de memria subscritos por eles para reas mais altas do espectro de endereos, permitindo que o
sistema tenha acesso a elas.
Uma observao que estas duas opes causam muitos problemas de compatibilidade com aplicativos,
por isso voc s deve utiliz-las caso realmente faa questo de ter acesso toda a memria instalada.
Alm das limitaes relacionadas ao Virtual Address Space, existem outros limites de memria, impostos
pelo chipset ou por limitaes do sistema operacional usado.
A maioria dos chipsets antigos, para placas soquete 7, por exemplo, eram capazes de enderear apenas
128 ou 256 MB de memria RAM. O chipset Intel i815, usado em uma grande parte das placas para
processadores Pentium III e Celeron era capaz de enderear apenas 512 MB, enquanto o 915GL (para o
Pentium 4) era capaz de enderear 2 GB. At pouco tempo atrs, o suporte a 4 GB ou mais de memria estava
restrito a alguns chipsets destinados a servidores.
O Windows 95/98/SE capaz de enderear at 512 MB de memria RAM. Programas como o cacheman
permitem utilizar estas verses antigas do Windows em PCs com mais de 512 MB de RAM, mas o desempenho
acaba sendo pior do que com apenas 512.
O Windows XP e as verses de 32 bits do Vista so capazes de enderear 4 GB, de forma que o limite fica
por conta do Virtual Address Space (os pouco mais de 3 GB). O maior problema so as verses "populares" do
Windows, onde o limite artificialmente reduzido, de forma a restringir o uso do sistema aos PCs de baixo
custo. O XP Starter possui um limite de 256 MB (1 GB na verso para netbooks), enquanto o Vista Starter est
limitado a 1 GB.
Nas verses de 64 bits do Vista, os limites so estendidos, mas ainda existem limitaes. O Vista Home
Basic est limitado a 8 GB, o Home Premium a 16 GB e as demais verses (Business, Enterprise e Ultimate) a
128 GB.
A memria swap no entra na conta, pois ela acessada atravs de um componente especializado includo
no processador, chamado de MMU (Memory Management Unit) que permite justamente que dados
armazenados na memria RAM fsica sejam movidos para a memria swap (que na verdade um arquivo ou
partio no HD), conforme necessrio.
Graas ao MMU possvel complementar os 3 ou 3.5 GB de memria RAM fsica com uma quantidade
indefinida de memria swap, limitada apenas ao mximo suportado pelo sistema operacional. A principal
questo que o uso da memria swap muito limitado em um PC atual, j que ela muito lenta.
232

Uma dvida comum com relao ao uso do PAE (Physical Address Extension), uma extenso para
processadores de 32 bits, presente desde o Pentium Pro, que adiciona 4 bits ao endereamento da memria,
permitindo que o processador seja capaz de acessar at 16 pginas de 4 GB cada, totalizando 64 GB. Cada
programa continua restrito a um mximo de 4 GB, mas o sistema pode alocar diferentes pginas para
aplicativos diferentes, utilizando assim toda a memria disponvel.
O PAE j foi muito usado em servidores, mas foi logo substitudo pelo uso de processadores e sistemas
operacionais de 64 bits. Ele suportado pelo Windows Server 2003 e pelo Windows 2000, onde pode ser
ativado atravs da opo "/PAE" no arquivo boot.ini, mas no uma soluo vivel para quem precisa usar
mais do que 4 GB de memria em um desktop, devido a uma srie de problemas relacionados aos drivers.
O PAE apresenta endereos de 64 bits aos drivers, o que torna necessrio que eles sejam modificados para
utilizar o sistema. Como o uso do PAE sempre foi limitado a servidores, muitos dispositivos no possuem
drivers compatveis e nem sempre fcil encontrar os disponveis. Existem ainda problemas de
compatibilidade com diversos aplicativos. Atualmente, muito mais simples migrar para as verses de 64 bits
do Vista (ou mesmo para o XP de 64 bits) do que passar a utilizar o PAE, de forma que melhor no perder
tempo com ele no caso dos desktops.
Outro problema fundamental do PAE a questo do desempenho. O processador continua sendo capaz de
acessar apenas 4 GB de memria por vez e precisa chavear continuamente entre as pginas disponveis. Alm
de demorar um certo tempo, cada chaveamento faz com que os dados armazenados nos caches precisem ser
completamente substitudos, o que prejudica de forma perceptvel o desempenho. Ou seja, tentar usar o PAE
em um desktop para acessar mais memria e assim melhorar o desempenho simplesmente contra
produtivo.
Uma observao importante que todas as verses do Windows XP, a partir do SP2 tem o PAE desativado,
justamente para evitar problemas de compatibilidade. Nele, a opo "/PAE" no boot.ini simplesmente no faz
nada.
No caso do Linux, o modo de acesso memria escolhido durante a compilao do Kernel. Ao utilizar um
processador de 32 bits, o Linux oferece suporte nativo a at 4 GB de memria usando o modo normal de
operao do processador e a at 64 GB usando o PAE. Ou seja, ele simplesmente acompanha o suporte
disponvel no hardware, sem nenhuma limitao adicional.
Para melhorar o desempenho do sistema em mquinas antigas, que utilizam 1 GB de memria ou menos,
existe uma terceira opo, onde o Kernel enderea apenas 1 GB de memria, sendo que 896 MB ficam
disponveis para os aplicativos e o restante reservado para uso do Kernel. Neste modo de operao, o
comando "free" vai reportar que existem apenas 896 MB de memria disponvel, mesmo que voc possua 1
GB ou mais.
possvel escolher entre as trs opes ao compilar o Kernel, na opo "Processor Type and Features >
High Memory Support". At por volta de 2005, muitas distribuies vinham com o suporte a apenas 1 GB
ativado por padro, mas atualmente a grande maioria utiliza a opo "4 GB". possvel mudar a opo ao
recompilar o Kernel manualmente.
A desvantagem de ativar o suporte a 4 GB que o sistema ficar um pouco mais lento em micros com
menos de 1 GB de memria (justamente por isso existe a primeira opo). O suporte a 64 GB s pode ser
ativado caso voc esteja usando um processador com suporte ao PAE, alm de uma placa-me compatvel.
Naturalmente, tudo isso se aplica apenas ao usar uma distribuio com um Kernel compilado para
processadores de 32 bits. Ao usar uma verso de 64 bits, o Kernel acessa toda a memria disponvel, limitado
apenas ao volume de memria suportado pelo chipset ou processador.

233

Voltando ao mundo Windows, existe mais uma limitao importante, que o limite de 2 GB por aplicativo.
Os 3, 3.12 ou 3.5 GB de memria que um sistema de 32 bits capaz de enderear repartido entre todos os
programas abertos, mas no caso do Windows, cada programa sozinho no pode usar mais do que 2 GB.
Isso acontece por que, assim como o sistema operacional, os programas de 32 bits endeream a memria
utilizando endereos de 32 bits e por isso so capazes de enderear 4 GB de memria. No Windows, metade
da faixa de endereos de cada programa reservada para uso do kernel, sobretudo para a comunicao entre
o sistema operacional e o aplicativo. Com isso, cada aplicativo fica com apenas metade da sua rea de
endereos disponvel, o que limita seu uso de memria a 2 GB.
Esta mais uma limitao importante em alguns jogos e aplicativos pesados, que podem facilmente
exceder essa marca. Pior, alm de no acessarem toda a memria disponvel, os aplicativos de 32 bits
frequentemente travam sem aviso ao romper a barreira dos 2 GB, exibindo alguma mensagem de erro
genrica.
Este limite est profundamente enraizado no sistema, de forma que quase impossvel que ele venha a
ser removido em futuras verses. Ele afeta tanto quem utiliza as verses de 32 bits do Windows (com mais de
2 GB de memria RAM instalada), quanto quem roda programas de 32 bits sobre as verses de 64 bits do
Windows (neste caso o limite se aplica apenas aos aplicativos de 32 bits, naturalmente).
Uma forma de amenizar o problema, caso voc esteja enfrentando problemas de travamento em algum
jogo ou aplicativo especfico, modificar a diviso de endereos entre o aplicativo e o kernel.
No Windows XP possvel reservar 3 GB para os aplicativos atravs da opo "/3gb" no arquivo boot.ini.
Entretanto, us-la causa problemas de estabilidade em um nmero muito grande de programas, por isso ela
no necessariamente uma boa ideia. Alm disso, apenas programas que explicitamente indicam que so
capazes de acessar mais de 2 GB so autorizados pelo sistema a utilizar os endereos adicionais, o que reduz
brutalmente o nmero de programas que so realmente capazes de se beneficiar do uso da opo.
No caso do Vista, possvel ajustar os valores de forma mais flexvel atravs da opo "IncreaseUserVa" do
BCDedit. Atravs dele voc pode reservar, por exemplo, 2.2 ou 2.4 GB para os aplicativos. Usando valores mais
baixos que os 3 GB do XP, voc evita a maior parte dos problemas de estabilidade. De uma forma geral,
funciona bem com a alocao de at 2.6 GB para os aplicativos. A partir da voc corre o risco de ver telas
azuis.
Como voc pode ver, o uso das opes permite apenas minimizar o problema. A nica forma de se livrar
dele completamente rodar um sistema de 64 bits e usar apenas aplicativos de 64 bits sobre ele.

5.11 IDENTIFICANDO MDULOS DE MEMRIA DEFEITUOSOS


Apesar da complexidade, no muito comum que um processador venha com defeito de fbrica,
geralmente eles so testados antes do encapsulamento e os que no funcionam so simplesmente
descartados. O problema mais comum com relao a eles so os casos de superaquecimento, que podem ser
resolvidos com a limpeza do cooler ou uma ventilao adequada.
Mas, no podemos dizer o mesmo dos mdulos de memria, onde os defeitos so muito mais comuns e
infelizmente mais difceis de detectar. Um agravante que existem muitos fabricantes diferentes de
memrias, todos trabalhando com margens muito baixas, por isso existe sempre a tentao de colocar no
mercado mdulos que no foram adequadamente testados em fbrica.
A placa-me tambm pode ser responsvel por vrios erros, j que ela a encarregada de transportar os
dados dos mdulos de memria at o processador. Se a placa-me corromper os dados pelo caminho voc
ter travamentos e outros sintomas semelhantes aos causados por um mdulo de memria com defeito. Esses
erros so cruis, pois so muitas vezes difceis de perceber. Eles muitas vezes so confundidos com problemas
do sistema operacional.
234

Seja qual for a causa, erros de memria podem causar muita dor de cabea, ento a melhor forma de lidar
com o problema rodar um teste completo sempre que voc montar um PC ou instalar um novo mdulo de
memria.
Existem inmeros programas desse tipo, um dos melhores o Memtest86, disponvel no:
http://www.memtest86.com/
A grande vantagem do memtest86 sobre outros testes de memria que alm de pequeno, gratuito e de
cdigo aberto, ele quase automtico. Voc precisa apenas gravar um CD (ou disquete) e dar boot para que o
teste seja iniciado automaticamente. Ele fica num loop eterno, repetindo os testes e indicando os erros que
encontrar at que voc se sinta satisfeito.
Existem duas opes de download. O mais prtico baixar uma imagem ISO, que pode ser usada para
fazer um CD bootvel. O arquivo tem apenas 64 kb compactado e 1.6 MB depois de descompactado. No site
voc vai encontrar tambm os programas para gerar o disquete de boot no Windows e Linux. Tanto faz usar o
CD ou o disquete, o programa exatamente o mesmo.
necessrio dar boot diretamente no Memtest para que ele possa testar realmente toda a memria do
sistema. Se ele rodasse como um programa sobre o Linux ou Windows, no teria como acessar reas utilizadas
pelo sistema e programas, e o teste no seria confivel.
O Memtest86 realiza um total de 9 testes. Os 5 primeiros so relativamente rpidos, mas os 4 testes finais
so muito mais rigorosos, capazes de encontrar erros no detectados pelos testes iniciais, mas so em
contrapartida muito demorados. Os 8 testes so executados automaticamente, mas o nono (veja detalhes a
seguir) precisa ser ativado manualmente, j que muito demorado. O ideal deixar o teste correndo em loop
durante a madrugada e olhar os resultados no outro dia de manh.
Se, por acaso, a tabela inicial do Memtest86 informar incorretamente a quantidade de memria, acesse a
opo "3" (memory sizing) e, dentro dela, a opo "3" (probe). Isso far com que o Memtest86 detecte a
memria, desprezando as informaes do BIOS. Na tela principal, pressione a tecla 5 para ter um sumrio com
todos os erros encontrados em cada teste:

Basicamente isto, no existe muita configurao a fazer. A alma do negcio ter pacincia e deixar ele
fazer seu trabalho, se possvel por tempo suficiente para realizar o teste longo.
O tempo necessrio varia de acordo com o desempenho e principalmente com a quantidade de memria
instalada. Dobrar a quantidade de memria dobra o tempo do teste. Usar um processador mais rpido tem
pouca influncia, pois o gargalo a velocidade de acesso memria, no o processamento.
235

O Memtest86 j vem pr-instalado em muitas distribuies, aparecendo como uma opo no menu de
boot. Vamos entender o que faz cada um dos testes:

Teste 0 (Address test, walking ones, no cache): Simplesmente testa o acesso a todos os endereos da
memria, algo semelhante com o que o BIOS faz na contagem de memria durante o boot. Ele o
teste mais rpido e serve basicamente para checar a quantidade de memria disponvel.

Teste 1 (Address test, own address): Este teste semelhante ao 0, mas adota uma estratgia
diferente, checando endereos e no apenas realizando uma contagem rpida. Isso permite detectar
problemas de endereamento no mdulo. Outra diferena que este teste feito sem utilizar os
caches do processador, para evitar que ele mascare defeitos nos mdulos.

Teste 2 (Moving inversions, ones&zeros): Escreve bits 1 e depois bits 0 em todos os endereos da
memria. Este algoritmo tambm utiliza os caches L1 e L2 do processador. um teste rpido que
identifica os erros mais grosseiros, onde algumas clulas do mdulo esto realmente queimadas.

Teste 3 (Moving inversions, 8 bit pat): aqui que os testes para detectar erros mais complexos
comeam. O terceiro teste escreve sequncias de dados de 8 bits, repetindo o teste 20 vezes com
sequncias diferentes.

Teste 4 (Moving inversions, random pattern): Este teste similar ao teste nmero 3, mas dessa vez
usando uma sequncia randmica de acessos, que repetida um total de 60 vezes. Parece um grande
exagero, j que este teste destinado a identificar os mesmos erros que o teste 3, mas justamente
essa "insistncia" e o uso de diversas sequncias diferentes de operaes que torna o memtest to
confivel na deteco de erros, capaz de detectar erros raros ou transitrios, que no aparecem em
outros testes.

Teste 5 (Block move, 64 moves): um pouco mais rigoroso que o teste 4. Continua movendo dados de
um endereo para outro da memria, mas agora so movidos blocos de 4 megabits de cada vez. Este
teste repetido 64 vezes.

Teste 6 (Moving inversions, 32 bit pat): Os dados gravados em cada bit de memria so lidos e
movidos para o endereo adjacente. mais ou menos uma combinao dos trs testes anteriores, pois
testa o endereamento, leitura e escrita de dados. A operao repetida 32 vezes no total, para testar
todas as combinaes possveis.
Este teste detecta um tipo de erro muito comum que a "contaminao" de endereos. Isso ocorre
quando, por um defeito de fabricao, o isolamento eltrico entre duas ou mais clulas de memria
fica muito fino, permitindo que os eltrons saltem de uma para outra. Isso faz com que ao gravar um
dos bits o outro tambm seja gravado com o mesmo valor. Esse tipo de problema pode ser bastante
intermitente, acontecendo apenas quando o segundo bit estiver com um valor zero, ou apenas
esporadicamente, da a necessidade de tantas repeties.

Teste 7 (Random number sequence): Para eliminar qualquer dvida, so agora escritas sequncias de
nmeros randmicos, preenchendo todos os endereos da memria. Os nmeros so conferidos em
pequenos blocos e o teste repetido diversas vezes.

Teste 8 (Modulo 20, ones&zeros): Este teste basicamente uma repetio do teste 7, mas agora
utilizando um algoritmo diferente, chamado "Modulo-X", que elimina a possibilidade de qualquer
defeito ter passado despercebido pelos testes anteriores por ter sido mascarado pelos caches L1 e L2
ou mesmo pelos registradores do processador. Note que tanto o teste 7 quanto o 8 so bastante
demorados e servem apenas para detectar erros extremamente raros, eliminando qualquer dvida
sobre a sade dos mdulos. Eles foram criados realmente como um exerccio de perfeccionismo.

236

Teste 9 (Bit fade test, 90 min, 2 patterns): Este um teste final, que permite detectar erros raros
relacionados com os circuitos de refresh, ou soft-erros causados por fatores diversos, que alterem os
dados armazenados.
No teste, todos os endereos so preenchidos usando uma sequncia de valores predefinidos. O
programa aguarda 90 minutos e verifica os dados gravados, anteriormente. Esses dados so
produzidos usando sequncias matemticas, de forma que o programa s precisa repetir as mesmas
operaes na hora de verificar, sem precisar guardar uma cpia de tudo que gravou em algum lugar.
Em seguida, a mesma sequncia gravada novamente, mas desta vez com os dgitos invertidos (o que
era 1 vira 0 e o que era 0 vira 1). O programa aguarda mais 90 minutos e checa novamente.
Este teste demora mais de trs horas, por isso no executado automaticamente junto com os outros
8. Pense nele como um ltimo refgio para os paranicos. Para execut-lo, pressione "C", depois "1"
(Test Selection) e em seguida "3" (Select Test). Na opo "Test Number [1-9]" pressione "9" e em
seguida "0" (Continue).

Ao detectar um erro, a primeira providncia trocar o mdulo de memria e refazer o teste. Em alguns
casos o problema pode no ser no mdulo, mas sim na placa-me. Em alguns casos mais raros pode ser at
mesmo que tanto o mdulo quanto a placa estejam bons, e o problema seja apenas algum tipo de
incompatibilidade entre eles. Eu observei isso, por exemplo, em uma Tyan Tiger MPX que testei em 2001. A
placa s ficou completamente estvel com o terceiro mdulo de memria que testei, sendo que os dois
primeiros no tinham defeitos e passaram no teste do memtest86 depois de instalados em outros micros.
Um dos motivos era que essa placa utilizava um valor CAS de 2.5 ciclos (valor fixo), uma configurao
incomum para a poca. Assim como ela, muitas outras placas utilizam configuraes incomuns, que podem
causar incompatibilidades com memrias de algumas marcas. Jamais jogue fora um mdulo com erros antes
de test-lo em outra placa-me diferente, pois ele pode estar bom.
Experimente tambm baixar a frequncia de operao da memria, ou do FSB para testar o mdulo em
frequncias mais baixas que as nominais. Muitas vezes um mdulo danificado por esttica ou por variaes
nas tenses fornecidas pela fonte, pode deixar de funcionar estavelmente na frequncia mxima, mas
continuar suportando frequncias mais baixas.
Outra dica limpar cuidadosamente o mdulo, removendo a poeira acumulada e limpando os contatos
usando uma borracha de vinil (as borrachas de escola, do tipo que no esfarela). Na falta de uma, voc
tambm pode usar uma cdula em bom estado. O papel moeda abrasivo e realmente limpa os contatos na
medida certa.
Aqui temos um mdulo de 512 MB danificado por esttica, flagrado pelo teste. Veja que foram
identificados diversos endereos defeituosos. A lista mostra apenas os primeiros erros, mas pressionando a
tecla "C" e depois "4" (error summary), possvel ver o nmero total. Nesse caso, o mdulo tinha nada menos
do que 222 endereos defeituosos. Alm de identificar os erros, o memtest mostra a partir de qual MB do
mdulo eles comeam. Pelo screenshot, voc pode ver que eles comeam a partir do 433 MB:

237

No caso de mdulos em que os erros aparecem logo nos primeiros endereos, no existe o que fazer, pois
eles faro com que o sistema trave logo no incio do boot. Mdulos onde os defeitos se concentram no final
(como esse do exemplo) ainda podem ser usados para testes, pois o sistema acessa sempre a memria a partir
do comeo, deixando os ltimos endereos do mdulo por ltimo. Enquanto voc estiver rodando aplicativos
leves e o sistema no acessar os endereos defeituosos do mdulo, tudo funciona normalmente.
No Linux possvel orientar o sistema a
utilizar apenas o comeo do mdulo,
ignorando os endereos a partir da onde
comeam os erros. Isso feito passando a
opo "mem=384M" (onde o "384" a
quantidade de memria que deve ser
usada) para o Kernel na tela de boot.
Isso varia um pouco de distribuio
para distribuio. No Ubuntu, por exemplo,
preciso pressionar a tecla "F6" e em
seguida adicionar o "mem=384M" (sem
mexer nas demais opes da linha).
No caso do Windows XP, possvel usar
a opo "/maxmem=". Adicione a linha no
arquivo "boot.ini", especificando a quantidade de memria que deve ser utilizada (em MB), como em
"/maxmem=384". Esta alterao pode ser feita tambm atravs do msconfig, atravs da aba "Boot.ini >
Opes Avanadas".
Depois de concludo o boot, voc pode confirmar usando o comando "free", que reporta o uso de
memria. Voc ver que independentemente da capacidade real do mdulo, o sistema usa a memria apenas
at o MB especificado na opo. Essa dica permite aproveitar a parte "boa" do mdulo em algum micro usado
para aplicaes leves, ao invs de ter que jog-lo fora.
No se esquea de etiquetar os mdulos defeituosos (ou o PC onde eles forem instalados), indicando a
partir de qual MB foram identificados endereos defeituosos. Assim voc evita ter de executar o teste
novamente cada vez que precisar reinstalar o sistema, ou instalar os mdulos em outro micro.
238

Alm do memtest86 e outros softwares, tambm existem testadores de memria dedicados, que
executam uma sequncia de testes automatizados, que, alm de detectar defeitos, identificam as
caractersticas do mdulo, como a frequncia suportada, CAS latency e assim por diante. Estes testadores so
caros e, para ser sincero, o teste no to confivel quanto a sequncia do memtest. A vantagem que eles
permitem testar um grande nmero de mdulos em pouco tempo, de forma prtica, por isso podem ser
interessantes para distribuidores e lojas.
Duas das maiores empresas nesse segmento so a http://www.memorytest.com/
http://www.simmtester.com/, onde voc pode se informar sobre os preos e os modelos disponveis.

5.12 PARIDADE, ECC E MEMRIAS REGISTERED


Por melhor que seja a qualidade, todos os tipos de memria so passveis de erros, que podem ser
causados por inmeros fatores, desde variaes na tenso da tomada que no so completamente absorvidos
pela fonte de alimentao, esttica, diversos tipos de interferncias eletromagnticas e, por incrvel que possa
parecer, at mesmo raios csmicos (que num PC domstico causam um soft-error a cada poucos meses), como
voc pode ver neste estudo da IBM: http://www-1.ibm.com/servers/eserver/pseries/campaigns/chipkill.pdf
Ao contrrio dos "hard-errors", que so danos fsicos nos mdulos de memria, causados por eletricidade
esttica ou outros tipos de descargas, os soft-erros so erros momentneos, onde um ou alguns poucos bits
so alterados, sem que os chips de memria sejam danificados.
Eles podem causar os mais diversos efeitos colaterais, como travamentos de programas, pequenos danos
em arquivos salvos e assim por diante. Num desktop eles no costumam ser catastrficos, mas podem causar
efeitos srios em sistemas que manipulam informaes sensveis, como no caso dos bancos, por exemplo,
onde um soft-error poderia mudar o saldo da sua conta bancria.
Para aumentar o grau de confiabilidade dos sistemas, foram criados mtodos de diagnstico e correo de
erros. Tudo comeou com os sistemas de paridade, usados em muitos mdulos de 30 e 72 vias.
A paridade um mtodo mais antigo, que somente capaz de identificar alteraes nos dados
depositados nas memrias, sem condies de fazer qualquer tipo de correo. A paridade consiste na adio
de mais um bit para cada byte de memria, que passa a ter 9 bits, tendo o ltimo a funo de diagnosticar
alteraes nos dados.
A operao de checagem dos dados na paridade bem simples: so contados o nmero de bits "1" de
cada byte. Se o nmero for par, o bit de paridade assume o valor "1" e caso seja mpar, o 9 bit assume o valor
"0". Quando requisitados pelo processador, os dados so checados pelo circuito de paridade que verifica se o
nmero de bits "1" corresponde ao depositado no 9 bit.
Caso seja constatada alterao nos dados, ele envia ao processador uma mensagem de erro. Claro que
esse mtodo no 100% eficaz, pois no capaz de detectar a alterao de um nmero de bits que mantenha
a paridade. Caso, por exemplo, dois bits zero retornassem alterados para bits um, o circuito de paridade no
notaria a alterao nos dados. Felizmente, a possibilidade da alterao de dois ou mais bits ao mesmo tempo
remota.
Exemplo de Byte de dados

Nmero de Bits "1" no Byte

Bit de paridade

00000000

10110011

00100100

11111111

239

O uso da paridade no torna o computador mais lento, pois os circuitos responsveis pela checagem dos
dados so independentes do restante do sistema. Seu nico efeito colateral o encarecimento dos mdulos
de memria, que em vez de 8 ou 16 chips, passam a ter 9 ou 18, tornando-se pelo menos 12% mais caros.
Alm do aumento no custo, o grande problema da paridade que ela apenas permite identificar erros,
sem corrigi-los. Isso acaba fazendo com que a utilidade prtica no seja to grande. Conforme os mdulos de
memria foram tornando-se mais confiveis, os mdulos com paridade entraram em desuso.
Em seguida temos o ECC, o sistema atual, que permite no apenas identificar, mas tambm corrigir erros
simples. O ECC acaba sendo a soluo perfeita, pois permite que um servidor continue funcionando, sem
interrupes e de forma confivel, mesmo com um grande nmero de soft-errors, causados por fatores
diversos.
O nmero de bits necessrios para implementar o ECC decresce conforme aumenta a largura do
barramento usado pelo mdulo. Em um mdulo de 32 bits (como os antigos mdulos de 72 vias), so
necessrios 7 bits adicionais para cada 32 bits de memria, mas nos mdulos DIMM de 64 bits atuais, so
necessrios apenas 8 bits para cada 64 bits de memria, ou seja, o mesmo que seria necessrio para usar
paridade.
Os mdulos DIMM com ECC so fceis de identificar, pois eles possuem 5, 9 ou 18 chips, em vez de 4, 8 ou
16. O uso de ECC mais comum em mdulos registered, que so especficos para servidores, mas tambm
possvel encontrar alguns mdulos unbuffered com ECC:

Mdulo com ECC (note que o mdulo possui 9 chips)


Continuando, temos os mdulos registered DIMM, que so tambm fonte de dvidas frequentes.
Os mdulos de memria que usamos nos PCs domsticos so chamados de unbuffered. Eles usam um
layout simples e eficiente, onde o controlador de memria tem acesso direto aos chips de memria,
garantindo tempos de latncia mais baixos.
Essa simplicidade tem um custo, que uma limitao no nmero de chips por mdulo e tambm no
nmero de mdulos que podem ser instalados na mesma placa-me. Salvo raras excees, os mdulos
unbuffered possuem no mximo 16 chips de memria e possvel projetar placas-me com suporte para at 4
mdulos.
Isso no um problema nos desktops, onde normalmente no precisamos de mais do que 2 ou 4 GB de
RAM, mas uma grave limitao nos servidores, onde comum o uso de mais memria.
Os mdulos registered incluem chips adicionais (registradores) que funcionam como uma interface
adicional entre o controlador e os chips. Eles permitem que o controlador suporte um nmero maior de
mdulos de memria e tambm que sejam usados mdulos com mais chips, permitindo a instalao de
quantidades muito maiores de memria. Muitas placas para servidores incluem 8 slots de memria, e existem
mdulos registered com 32 ou at mesmo 48 chips (sem contar os chips adicionais no caso dos mdulos com
ECC). fcil reconhecer os mdulos registered, devido presena dos chips adicionais:

240

A desvantagem que o uso dos registradores retarda a transmisso dos sinais, aumentando a latncia e
consequentemente reduzindo o desempenho dos mdulos. A maioria das placas com suporte a mdulos
registered no suporta mdulos unbuffered, de forma que seu uso no uma opo. Tambm no possvel
usar mdulos registered, muito menos mistur-los com mdulos unbuffered nas placas para desktop que no
os suportam.
O suporte a mdulos registered est disponvel apenas em placas-me destinadas a servidores e
workstations, onde a possibilidade de usar mais memria supera as desvantagens. possvel encontrar tanto
mdulos de memria SDRAM quanto mdulos DDR e DDR2 em verso registered. Por utilizarem componentes
adicionais e serem produzidos em pequena quantidade, eles normalmente custam o dobro do preo dos
mdulos unbuffered, de forma que voc s deve considerar seu uso quando realmente necessrio.

241

EXERCCIOS
1) Em suas palavras, para que serve a memria RAM?
2) A RAM uma memria voltil. O que isso significa e no que isso implica?
3) Por que existe a memria RAM se os programas e arquivos ficam no HD?
4) Do ponto de vista fsico e simplificado, de que feita a memria RAM dos computadores atuais?
5) Dizemos que a RAM organizada como uma matriz. Como assim? Como um determinado bit lido?
6) Qual a diferena entre os termos SIMM/DIMM e SDRAM/DDR/DDR2 ... ?
7) Que alternativas os engenheiros tem a fim de melhorar a performance da memria RAM?
8) Como so rotuladas as memrias SDR-SDRAM? So compatveis entre si?
9) O que vem a ser uma RAM CL2 e CL3? Vale a pena pagar mais caro?
10) Qual a principal caracterstica das memrias DDR frente s SDR-SDRAM?
11) Um mdulo DDR-266 opera internamente a que frequncia? Explique.
12) O que vem a ser o SPD?
13) Quais inovaes foram trazidas pelas memrias DDR2 e DDR3?
14) Explique por que um sistema operacional de 32 bits aceita no mximo 4 GB de RAM. Na verdade, por que,
na prtica, esse nmero acaba sendo ainda menor?
15) Explique o que so memrias com Paridade, ECC e Registered.

242

Cap. 6: ARMAZENAMENTO DE DADOS:


HD, FLASH E MDIAS PTICAS
6.1 INTRODUO
O disco rgido foi um dos componentes que mais evoluiu na histria da informtica. O primeiro disco rgido
(o IBM 350) foi construdo em 1956 e era formado por um conjunto de nada menos que 50 discos de 24
polegadas de dimetro, com uma capacidade total de 4.36 MB (5 milhes de caracteres, com 7 bits cada um),
algo espantoso para a poca. Comparado com os discos atuais, este pioneiro custava uma verdadeira fortuna:
35 mil dlares. Entretanto, os preos caram rapidamente nas dcadas seguintes, o que permitiu que os HDs
crescessem em popularidade nos sistemas corporativos e em seguida tambm no mercado domstico.

6.2 COMO OS HDS FUNCIONAM


Dentro do disco rgido, os dados so gravados em discos magnticos, chamados de platters. O nome "disco
rgido" vem justamente do fato de os discos internos serem espessos e slidos, diferente dos discos flexveis
usados nos antigos disquetes.
Os platters so compostos por duas camadas. A primeira chamada de substrato, e nada mais do que
um disco metlico, feito de ligas de alumnio. Mais recentemente, alguns fabricantes passaram a utilizar
tambm vidro, que oferece a vantagem de ser mais duro e um pouco mais leve, embora seja mais difcil de se
trabalhar. Os primeiros HDs com discos de vidro foram os IBM Deskstar 75GXP, lanados em 2001.
Independentemente do material usado, o disco precisa ser completamente plano. Como os discos giram a
grandes velocidades e as cabeas de leitura trabalham extremamente prximas da superfcie magntica,
qualquer variao seria fatal. Para atingir a perfeio necessria, o disco polido em uma sala limpa, at que
se torne perfeitamente plano. Vem ento a parte final, que a colocao da superfcie magntica nos dois
lados do disco.
Como a camada magntica tem apenas alguns milsimos de milmetro de espessura, ela recoberta por
uma fina camada protetora, que oferece alguma proteo contra pequenos impactos.
Os discos so montados em um eixo tambm feito de alumnio, que deve ser slido o suficiente para evitar
qualquer vibrao dos discos, mesmo a altas rotaes. Este mais um componente que passa por um
processo de polimento, j que os discos devem ficar perfeitamente presos e alinhados. No caso de HDs com
vrios discos, eles so separados usando espaadores, novamente feitos de ligas de alumnio.
Finalmente, temos o motor de rotao, responsvel por manter uma rotao constante. O motor um dos
maiores responsveis pela durabilidade do disco rgido, pois uma grande parte das falhas graves provm
justamente do motor.
Os HDs mais antigos utilizavam motores de 3.600 rotaes por minuto, enquanto que atualmente so
utilizados motores de 5.400, 7.200 ou 10.000 RPM. Nos HDs de notebook ainda so comuns motores de 4.200
RPM (devido questo do consumo eltrico), mas os de 5.400 RPM j so maioria. Embora no seja o nico
fator, a velocidade de rotao sem dvida o que influencia mais diretamente no desempenho.
Para ler e gravar dados no disco so usadas cabeas de leitura eletromagnticas (heads) que so presas a
um brao mvel (arm), o que permite seu acesso a todo o disco. O brao de leitura uma pea triangular,
tambm feita de ligas de alumnio, para que seja ao mesmo tempo leve e resistente. O mecanismo que
movimenta o brao de leitura chamado de actuator.
243

Nos primeiros discos rgidos, eram usados motores de passo para movimentar os braos e cabeas de
leitura. Eles so o mesmo tipo de motor usado nos drives de disquete, onde ao receber um impulso eltrico o
motor move o brao por uma curta distncia, correspondente ao comprimento de uma trilha. O problema
que eles eram muito suscetveis a problemas de desalinhamento e no permitiam densidades de gravao
muito altas.
Os HDs contemporneos (qualquer coisa acima de 80 MB) utilizam um mecanismo bem mais sofisticado
para essa tarefa, composto por um dispositivo que atua atravs de atrao e repulso eletromagntica,
sistema chamado de voice coil. Basicamente temos um eletrom na base do brao mvel, que permite que a
placa controladora o movimente variando rapidamente a potncia e a polaridade do m. Apesar de parecer
suspeito primeira vista, esse sistema muito mais rpido, preciso e confivel que os motores de passo.
Para voc ter uma ideia, os HDs do incio da dcada de 80, com motores de passo, utilizavam apenas 300
ou 400 trilhas por polegada, enquanto um Seagate ST3750640AS (de 750 GB) atual, utiliza nada menos do que
145.000 trilhas no mesmo espao, o que explica o brutal aumento na capacidade dos HDs nas ltimas dcadas.
Temos aqui um diagrama mostrando os principais componentes do HD:

Para que o HD possa posicionar a cabea de leitura sobre a rea exata referente trilha que vai ser lida,
existem sinais de feedback gravados na superfcies do disco, que orientam o posicionamento da cabea de
leitura. Eles so sinais magnticos especiais, gravados durante a fabricao dos discos (a famosa formatao
fsica), que so protegidos atravs de instrues de bloqueio includas no firmware do HD contra alterao
posterior. Esses sinais eliminam os problemas de desalinhamento que existiam nos primeiros HDs.
Ao ler um arquivo, a controladora posiciona a cabea de leitura sobre a trilha onde est o primeiro setor
referente a ele e espera que o disco gire at o setor correto. Este tempo inicial, necessrio para iniciar a
leitura, chamado de tempo de acesso. Mesmo nos HDs atuais, de 7.200 RPM, ele gira em torno de 10 a 12
milsimos de segundo, o que uma eternidade em se tratando de tempo computacional. O HD
relativamente rpido ao ler setores sequenciais, mas ao ler vrios pequenos arquivos espalhados pelo HD, o
desempenho pode cair assustadoramente. por isso que existem programas desfragmentadores, que
procuram reorganizar a ordem dos arquivos, de forma que eles sejam gravados em setores contnuos.
Na poca do Windows 95/98, desfragmentar o HD periodicamente era quase obrigatrio, pois o
desempenho caa rapidamente. Entretanto, sistemas de arquivos atuais (como o NTFS no Windows e o EXT3
no Linux) incluem sistemas bastante eficientes para reduzir a fragmentao do disco conforme os dados so
gravados e movidos, o que praticamente elimina a necessidade de desfragmentar.
244

Continuando, outro dado interessante a maneira como as cabeas de leitura leem os dados, sem tocar na
camada magntica. Se voc tiver a oportunidade de ver um disco rgido aberto, ver que, com os discos
parados, as cabeas de leitura so pressionadas levemente em direo ao disco, tocando-o com uma certa
presso. Aqui temos o brao de leitura de um HD, depois de removido. Veja que mesmo sem o disco
magntico entre elas, as duas cabeas de leitura pressionam-se mutuamente:

Apesar disso, quando os discos giram alta rotao, forma-se uma espcie de colcho de ar, que repele a
cabea de leitura, fazendo com que ela fique sempre a alguns nanmetros de distncia dos discos. o mesmo
princpio utilizado na asa de um avio; a principal diferena neste caso que a cabea de leitura fixa,
enquanto os discos que se movem, mas, de qualquer forma, o efeito o mesmo. Como veremos a seguir, os
HDs no so fechados hermeticamente, muito menos a vcuo, pois necessrio ar para criar o efeito.
Esta foto mostra a cabea de leitura "flutuando" sobre o disco em movimento. A distncia to curta que
mesmo ao vivo voc tem a impresso de que a cabea est raspando no disco, embora na realidade no
esteja. Como a cabea de leitura se movimenta rapidamente durante a operao do disco, muito difcil tirar
fotos. Para conseguir tirar esta, precisei "trapacear", desmontando o actuator e suavemente movendo a
cabea da rea de descanso para o meio do disco:

245

Os discos magnticos so montados diretamente sobre o eixo do motor de rotao, sem o uso de correias
ou qualquer coisa do gnero. justamente este design simples que permite que os discos girem a uma
velocidade to grande.
Embora mais potente e muito mais durvel, o motor de rotao usado nos HDs similar aos usados nos
coolers. Nos HDs antigos, eram usados motores sleeve bearing, o sistema mais simples e menos durvel, que
foi usado nos HDs de 3600 RPM. Em seguida, foram adotados motores ball-bearing, onde so usados
rolamentos para aumentar a preciso e a durabilidade. Nos HDs modernos, utilizado o sistema fluid-dynamic
bearing, onde os rolamentos so substitudos por um fludo especial, que elimina o atrito, reduzindo o rudo e
o nvel de vibrao.
Aqui temos o mesmo HD da foto anterior completamente desmontado, mostrando o interior do motor de
rotao:

Assim como a maioria dos modelos de baixa capacidade, este HD utiliza um nico disco, mas a maioria dos
modelos utiliza dois, trs ou quatro, que so montados usando espaadores. O HD possui duas cabeas de
leitura para cada disco (uma para cada face), de forma que um HD com 4 discos utilizaria 8 cabeas de leitura,
presas ao mesmo brao mvel.
Embora usar mais discos permita construir HDs de maior capacidade, no comum que os fabricantes
utilizem mais de 4, pois a partir da torna-se muito difcil (e caro) produzir componentes com a preciso
necessria para manter todos os discos alinhados. Antigamente, era comum que HDs de alta capacidade (e
alto custo :), sobretudo os destinados a servidores, possussem 6 ou at mesmo 12 discos, mas eles saram de
moda a partir da dcada de 90, devido baixa demanda. Desde ento, os fabricantes padronizaram a
produo em torno dos HDs com at 4 discos e quem precisa de mais capacidade compra vrios e monta um
sistema RAID. No caso dos servidores, muito comum o uso de racks, com um grande nmero de HDs SAS ou
SATA.
Naturalmente, qualquer HD aberto fora de uma sala limpa acaba sendo impregnado por partculas de
poeira e por isso condenado a apresentar badblocks e outros defeitos depois de alguns minutos de operao.
Todo HD montado e selado em um ambiente livre de partculas, as famosas salas limpas. Apesar disso,
eles no so hermeticamente fechados. Em qualquer HD, voc encontra um pequeno orifcio para entrada de
ar (geralmente escondido embaixo da placa lgica ou diretamente sob a tampa superior), que permite que
246

pequenos volumes de ar entrem e saiam, mantendo a presso interna do HD sempre igual do ambiente. Esse
orifcio sempre protegido por um filtro, que impede a entrada de partculas de poeira.

Orifcio de ventilao do HD
Devido a isso, a presso do ar tem uma certa influncia sobre a operao do HD. Os HDs so normalmente
projetados para funcionar a altitudes de at 3.000 metros acima do nvel do mar. Em altitudes muito elevadas,
a presso do ar menor, comprometendo a criao do colcho de ar. Para casos extremos (uso militar, por
exemplo), existem HDs pressurizados, que podem trabalhar a qualquer altitude.
Internamente, o HD possui um segundo filtro, que filtra continuamente o ar movimentado pelos discos. Ele
tem a funo de capturar as partculas que eventualmente se desprendam dos componentes internos durante
o uso, devido a desgaste ou choques diversos. Aqui temos uma foto de um, preso num dos cantos da parte
interna do HD:

Filtro interno
247

Enquanto o HD est desligado, as cabeas de leitura ficam em uma posio de descanso. Elas s saem
dessa posio quando os discos j esto girando velocidade mxima. Para prevenir acidentes, as cabeas de
leitura voltam posio de descanso sempre que no esto sendo lidos dados, apesar dos discos continuarem
girando.
justamente por isso que s vezes, ao sofrer um pico de tenso, ou o micro ser desligado enquanto o HD
est sendo acessado, surgem setores defeituosos. Ao ser cortada a energia, os discos param de girar, o colcho
de ar desfeito e as cabeas de leitura podem vir a tocar os discos magnticos.
Para diminuir a ocorrncia desse tipo de acidente, nos HDs modernos
utilizado um sistema que recolhe as cabeas de leitura automaticamente
para a rea de descanso quando a energia cortada (tecnologia chamada
de auto-parking). A rea de descanso tambm chamada de "landing
zone" e engloba algumas das trilhas mais centrais do disco, uma rea
especialmente preparada para receber o impacto do "pouso" das cabeas
de leitura. Uma das tecnologias mais populares a LZT (Laser Zone
Texture), uma tecnologia desenvolvida pela IBM, onde um laser usado
para produzir pequenas cavidades ao longo da zona de pouso, que
reduzem o atrito com a cabea de leitura
Outra tcnica consiste em usar "rampas" feitas de material plstico, posicionadas na rea externa dos
discos, que suspendem as cabeas de leitura, evitando que elas toquem os discos mesmo quando eles param
de girar. Esta tecnologia foi inicialmente usada em HDs de notebook, mas recentemente passou a ser usada
tambm nos de 3.5" para desktops:

Rampas de descanso para as cabeas de leitura


Apesar de evitar danos fsicos, o auto-parking nada pode fazer para evitar perda de dados ao desligar o
micro incorretamente. Mesmo que todos os arquivos estejam salvos, ainda existem dados no cache de disco
(criado pelo sistema operacional, usando parte de memria RAM) e tambm no cache do HD, que utiliza
memria SDRAM (tambm voltil). Para acelerar as operaes de gravao, todos os arquivos (sobretudo os
pequenos) so salvos inicialmente nos caches e depois transferidos para os discos magnticos em momentos
de ociosidade. Quando o micro desligado abruptamente, os dados em ambos os caches so perdidos,
fazendo com que voc sempre perca as ltimas alteraes, muitas vezes em arquivos que acreditava estarem
salvos.

248

Por causa de tudo isso, sempre importante usar um nobreak em micros de trabalho. A longo prazo, os
dados perdidos e possveis danos ao equipamento por causa de quedas de energia acabam custando muito
mais do que um nobreak popular.
Mesmo assim, por melhores que sejam as condies de trabalho, o HD continua sendo um dispositivo
baseado em componentes mecnicos, que tm uma vida til muito mais curta que a de outros componentes
do micro. De uma forma geral, os HDs para desktop funcionam de forma confivel por dois ou trs anos (em
um PC usado continuamente). Depois disso, melhor substituir o HD por um novo e mover o antigo para outro
micro secundrio (onde ele no v armazenar informaes importantes), pois a possibilidade de defeitos
comea a crescer exponencialmente.
Fala-se muito sobre a vulnerabilidade dos HDs com relao a ms. Como os HDs armazenam os dados em
discos magnticos, colocar um m suficientemente forte prximo a ele pode apagar rapidamente todos os
dados. Existem inclusive "desmagnetizadores", que so eletroms ligados na tomada, que voc passa sobre os
HDs e outros discos magnticos, justamente com a inteno de apagar os dados rapidamente.
Entretanto, se voc abrir um HD condenado, vai encontrar dois ms surpreendentemente fortes
instalados dentro do mecanismo que move a cabea de leitura. Naturalmente, estes ms no danificam os
dados armazenados (seno no estariam ali). O principal motivo disso que eles esto instalados numa
posio perpendicular aos discos magnticos. Se voc remover os ms e coloc-los sobre outro HD, vai ver
que no outro dia uma boa parte dos dados tero sido perdidos.
Se voc (como todos ns) do tipo que no consegue desmontar um micro sem deixar cair parafusos nos
locais mais inacessveis do gabinete, tem dificuldades em colocar os parafusos dos dois lados ao instalar o HD e
ainda por cima nunca acha uma chave de fenda magntica para comprar, pode usar esses magnetos
"roubados" do HD para transformar qualquer chave de fenda em uma chave magntica. Basta "encaixar" os
ms nela quando quiser o efeito. Esses magnetos so feitos de uma liga contendo neodmio e, alm de
parafusos, permitem levantar objetos um pouco mais pesados, como martelos, por exemplo...

Naturalmente, voc deve tomar cuidado de no pass-los sobre discos magnticos, a menos que queira
intencionalmente apag-los. Se voc deixar a chave em contato com os ms por um longo perodo, ela
continuar magnetizada por algum tempo mesmo depois de retir-los.
Ao contrrio da crena popular, chaves magnticas no so perigosas para os HDs, pois os magnetos
usados so muito fracos se comparados aos magnetos usados no mecanismo de leitura e no motor de rotao
249

do HD. Os prprios discos magnticos so relativamente resistentes a foras magnticas externas, de forma
que ms de baixa potncia no oferecem grande perigo.

6.2.1 A PLACA CONTROLADORA


A placa lgica, ou placa controladora, a parte "pensante" do HD. Com exceo dela, o HD um
dispositivo relativamente simples, composto por uma srie de dispositivos mecnicos. a controladora que faz
a interface com a placa-me; controla a rotao do motor e o movimento das cabeas de leitura, de forma que
elas leiam os setores corretos; faz a verificao das leituras, de forma a identificar erros (e se possvel corrigilos, usando os bits de ECC disponveis em cada setor); atualiza e usa sempre que possvel os dados
armazenados no cache de disco (j que acess-lo muito mais rpido do que fazer uma leitura nas mdias
magnticas); e assim por diante.
Aqui temos a placa lgica de um HD Samsung HD080HJ:

Veja que a placa possui apenas trs chips. O maior, no canto superior, um Samsung K4S641632H-UC60.
Voc pode notar que ele muito semelhante a um chip de memria, e na verdade :). Ele um chip de
memria SDRAM de 8 MB, que armazena o cache de disco. At pouco tempo atrs, os HDs utilizavam chips de
memria SRAM, mas os fabricantes passaram a utilizar, cada vez mais, chips de memria SDRAM convencional
para reduzir o custo de produo. Na prtica no muda muita coisa, pois apesar de mais lenta, a memria
SDRAM oferece desempenho suficiente para a tarefa.
Assim como no caso dos processadores, o cache um componente importante para o desempenho do HD.
Ele armazena os dados acessados, diminuindo bastante o nmero de leituras. Dados armazenados no cache
podem ser transferidos quase que instantaneamente, usando toda a velocidade permitida pela interface SATA
ou IDE, enquanto um acesso a dados gravados nos discos magnticos demoraria muito mais tempo.
Continuando, temos o controlador principal, um chip Marvell 88i6525, que quem executa todo o
processamento. Este chip na verdade um SOC (System On a Chip), formado por um conjunto de vrios
controladores menores, que so combinados dentro do mesmo wafer de silcio.
Este HD um modelo SATA. A controladora da placa-me se comunica com ele utilizando comandos
padronizados, que so comuns a qualquer HD SATA. por isso que voc no precisa instalar um driver especial
para cada modelo de HD, precisa apenas de um driver padro, que sabe se comunicar com qualquer HD.
Internamente, os comandos SATA so processados e convertidos nos comandos que iro mover a cabea de
leitura, fazer girar os discos at o ponto correto e assim por diante. O sistema operacional no gerencia
diretamente o cache de disco, quem faz isso a prpria controladora, que se esfora para us-lo da forma
mais eficiente possvel.
250

Naturalmente, tudo isso exige processamento, da a complexidade interna do chip controlador. Apesar de
pequena, a placa controladora de um disco atual muito mais sofisticada do que um PC antigo inteiro (um
286, por exemplo). Elas possuem mais poder de processamento e at mesmo mais memria, na forma do
cache. Os HDs atuais usam de 8 a 32 MB de cache de disco, mais memria do que era usada em micros 386 e
486 e, ainda por cima, muito mais rpida! :)
Uma curiosidade que muitos HDs antigos utilizavam um processador Intel 186 como controlador de
discos. O 186 , como voc pode imaginar, o "elo perdido" entre o 8088 usado no PC XT e o 286. Ele um chip
que acabou no sendo usado nos micros PCs, mas fez um grande sucesso como microcontrolador para funes
diversas.
Concluindo, temos um terceiro chip, escondido na parte inferior esquerda da foto. Ele um Hitachi
HA13645, um chip especializado, que controla o movimento das cabeas de leitura e tambm a rotao do
motor. O chip principal envia comandos a ele, dizendo que quer acessar o setor X, ou que o motor deve entrar
em modo de economia de energia, por exemplo, e ele os transforma nos impulsos eltricos apropriados. Essas
funes mudam de um modelo de HD para o outro, por isso os fabricantes preferem usar um chip de uso geral
como o Marvell 88i6525 como controlador principal, mudando apenas o controlador auxiliar, que um chip
menor e mais barato.
A placa controladora um componente "externo" do HD, que pode ser rapidamente substituda caso
necessrio. Grande parte (talvez at a maioria) dos casos onde o HD "queima" devido a problemas na rede
eltrica, ou defeitos diversos, podem ser solucionados atravs da troca da placa controladora, permitindo
recuperar os dados sem ter que recorrer aos caros servios de uma empresa especializada.
O grande problema justamente onde encontrar outra placa. Os fabricantes vendem placas avulsas em
pequenas quantidades para empresas de recuperao, mas o fornecimento muito restrito. Para tcnicos
autnomos e pequenas empresas, a nica soluo usar placas doadas por outros HDs. Se o HD for um
modelo recente, voc pode simplesmente comprar outro exatamente igual, pegar a placa emprestada para
fazer a recuperao dos dados e depois devolv-la ao dono. Mas, no caso de HDs mais antigos, a nica forma
procurar uma placa usada nos sites de leilo e fruns. Existe um verdadeiro mercado paralelo de venda de
placas avulsas, j que existem muitos casos de HDs inutilizados por problemas na mdia magntica, onde a
placa ainda utilizvel.
Remover a placa simples, basta usar uma chave torx para retirar os parafusos e desencaixar a placa com
cuidado. Na maioria dos HDs atuais, a placa apenas encaixada sobre os contatos, mas em outros ela ligada
atravs de um cabo flat, que precisa ser desconectado com cuidado.

Mais uma curiosidade que os primeiros PCs utilizavam HDs com interfaces MFM ou RLL. Eles utilizavam
controladoras externas, instaladas em um slot ISA e ligadas ao HD por dois cabos de dados. Esse arranjo era
251

muito ineficiente, pois a distncia tornava a comunicao muito suscetvel a interferncias e corrupo de
dados. Esses HDs possuam vrias peculiaridades com relao aos atuais, como a possibilidade de fazer uma
"formatao fsica", onde as trilhas de dados eram realmente regravadas, o que permitia recuperar HDs com
problemas de alinhamento.
Esses HDs jurssicos foram usados nos micros XT e 286 e sobreviveram at os primeiros micros 386,
quando foram finalmente substitudos pelos HDs IDE, onde a controladora parte integrante do HD. Eles, por
sua vez, foram eventualmente substitudos pelos HDs SATA que usamos atualmente.
Hoje em dia, a "formatao fsica" sobrevive apenas como um vcio de linguagem. Muitos dizem que
"fizeram uma formatao fsica" ao reparticionar o HD ou ao usar um programa que apaga os dados gravados
(como o "zero-fill", ou o "dd" do Linux), embora uma coisa no tenha nada a ver com a outra.

6.2.2 OS DISCOS
A capacidade de um HD determinada por basicamente dois fatores: a tecnologia utilizada, que determina
sua densidade e o dimetro dos discos, que determina a rea til de gravao.
A densidade de gravao dos HDs tem aumentado de forma surpreendente, com a introduo de
sucessivas novas tcnicas de fabricao. Para voc ter uma ideia, no IBM 350 os discos eram simplesmente
pintados usando uma tinta especial contendo limalha de ferro, um processo bastante primitivo.
Com o passar do tempo, passou a ser usado o processo de eletroplating, que semelhante eletrlise
usada para banhar bijuterias a ouro. Esta tcnica no permite uma superfcie muito uniforme e justamente por
isso s funciona em discos de baixa densidade. Ela foi usada at o final da dcada de 80.
A tcnica usada atualmente (chamada de sputtering) muito mais precisa. Nela, a superfcie magntica
construda depositando gros microscpicos de forma incrivelmente uniforme. Quanto menores os gros,
mais fina e sensvel a superfcie, permitindo densidades de gravao mais altas.
A densidade de gravao de um HD medida em gigabits por polegada quadrada. Os HDs fabricados na
segunda metade de 2006, por exemplo, utilizavam em sua maioria discos com densidade de 100 gigabits (ou
12.5 GB) por polegada quadrada. Neles, cada bit armazenado em uma rea magntica com
aproximadamente 200x50 nanmetros (uma rea pouco maior que a de um transistor nos processadores
fabricados numa tcnica de 0.09 micron) e composta por apenas algumas centenas de gros magnticos.
Estes gros medem apenas alguns nanmetros e so compostos por ligas de cobalto, cromo, platina, boro e
outros materiais raros, muito longe da limalha de ferro utilizada pelos pioneiros.
Considerando que os discos giram a 7200 RPM e a cabea de leitura l os dados a mais de 50 MB/s
(quando lendo setores sequenciais), atingir densidades como as atuais simplesmente impressionante.
Este esquema mostra como funciona o processo de escrita e gravao em um HD:

252

Como voc pode ver, a cabea composta por dois dispositivos separados, um para gravao e outro para
leitura. O dispositivo de gravao similar a um eletrom, onde utilizada eletricidade para criar o campo
magntico usado para realizar a gravao. Nos primeiros HDs, tnhamos um filamento de cobre enrolado sobre
um corpo de ferro. Nos HDs atuais, os materiais usados so diferentes, mas o princpio de funcionamento
continua o mesmo.
O dispositivo de leitura, por sua vez, faz o processo oposto. Quando ele passa sobre os bits gravados, capta
o campo magntico emitido por eles, atravs de um processo de induo (nos HDs antigos) ou resistncia (nos
atuais), resultando em uma fraca corrente, que posteriormente amplificada.
O dispositivo de leitura protegido por um escudo eletromagntico, que faz com que ele capte apenas o
campo magntico do bit que est sendo lido, e no dos seguintes. Voc pode notar que no existe isolamento
entre os dispositivos de leitura e gravao. Isso acontece porque apenas um deles usado de cada vez.
Note que essa diviso existe apenas nos HDs modernos, que utilizam cabeas de leitura/gravao MR ou
GMR. Nos antigos, que ainda utilizavam cabeas de leitura de ferrite, o mesmo dispositivo fazia a leitura e a
gravao.
O grande problema que, assim como em outras reas da informtica, a tecnologia avanou at o ponto
em que se comeou a atingir os limites fsicos da matria. Em um HD, a rea referente a cada bit armazenado
funciona como um minsculo m, que tem sua orientao magntica alterada pela cabea de leitura. Quando
ela orientada em um sentido temos um bit 1 e no sentido oposto temos um bit 0. A rea da superfcie
utilizada para a gravao de cada bit chamada de "magnetic element", ou elemento magntico.
A partir de um certo ponto, a rea de gravao torna-se to pequena que a orientao magntica dos bits
pode ser alterada de forma aleatria pela prpria energia trmica presente no ambiente (fenmeno chamado
de superparamagnetismo), o que faz com que a mdia deixe de ser confivel.
A tecnologia usada nos HDs fabricados at a primeira metade de 2007 chamada de gravao longitudinal
(longitudinal recording), onde a orientao magntica dos bits gravada na horizontal, de forma paralela
mdia. O problema que a partir dos 100 gigabits por polegada quadrada, tornou-se muito difcil aumentar a
densidade de gravao, o que acelerou a migrao para o sistema de gravao perpendicular (perpendicular
recording), onde a orientao magntica passa a ser feita na vertical, aumentando muito a densidade dos
discos.
Estima-se que, utilizando gravao longitudinal, seria possvel atingir densidades de no mximo 200
gigabits por polegada, enquanto que utilizando gravao perpendicular seja possvel atingir at 10 vezes mais.
Isso significa que os fabricantes ainda tero margem para produzir HDs de at 10 terabytes antes de esgotar as
possibilidades oferecidas pela nova tecnologia.
Na gravao perpendicular, a mdia de gravao composta de duas camadas. Inicialmente temos uma
camada de cromo, que serve como um indutor, permitindo que o sinal magntico gerado pelo dispositivo de
gravao "atravesse" a superfcie magntica, criando um impulso mais forte e, ao mesmo tempo, como uma
espcie de isolante entre a superfcie de gravao e as camadas inferiores do disco.
Ele poderia (at certo ponto) ser comparado camada extra usada nos processadores fabricados com
tecnologia SOI (Silicon On Insulator), onde uma camada isolante criada entre os transistores e o wafer de
silcio, reduzindo a perda de eltrons e, consequentemente, o consumo eltrico do processador.
Sobre a camada de cromo, so depositados os gros magnticos. A diferena que agora eles so
depositados de forma que a orientao magntica seja vertical, e no horizontal. A cabea de leitura e
gravao tambm modificada, de forma a serem capazes de lidar com a nova orientao:

253

Embora parea uma modificao simples, o uso da gravao perpendicular em HDs uma conquista
tcnica notvel. Em termos comparativos, seria como se a NASA conseguisse enviar uma misso tripulada at
Marte.
O processo de gravao perpendicular foi adotado rapidamente por todos os principais fabricantes. O
primeiro foi a Fujitsu, que lanou um HD de 1.8" com gravao perpendicular ainda em 2005. A prxima foi a
Seagate que, em abril de 2006, anunciou o Barracuda 7200.10, um disco de 3.5" com 750 GB. Em agosto de
2006 a Fujitsu anunciou um HD de 2.5" com 160 GB, e em janeiro de 2007 a Hitachi anunciou o Deskstar
7K1000, um HD de 3.5" com 1 TB, que utilizava um design incomum, com 5 platters em vez dos 4 comumente
usados.
Em seguida, temos a questo do dimetro dos discos. Como vimos, os primeiros HDs eram gigantescos, e
utilizavam discos de at 24 polegadas de dimetro. Com o passar das dcadas, os discos foram encolhendo,
at chegar ao que temos hoje.
Mas, assim como tudo na vida, existem receitas ideais para o tamanho dos discos magnticos, de acordo
com a rea onde eles sero utilizados.
O problema em produzir discos muito compactos que a superfcie de gravao fica exponencialmente
menor, permitindo gravar um volume menor de dados. Apesar disso, os demais componentes continuam
custando quase o mesmo (ou at mais, dependendo da escala de miniaturizao necessria). Isso faz com que
o custo por megabyte cresa, conforme o tamanho fsico do HD diminui. Um exemplo prtico disso a
diferena no custo por megabyte entre os HDs de 2.5" para notebooks e os modelos de 3.5" para desktops.
A partir de um certo nvel de
miniaturizao, o custo por megabyte se
torna mais alto que o dos cartes de
memria Flash, e os HDs deixam de ser
viveis. O melhor exemplo o HD de 0.85"
apresentado pela Toshiba em 2005, que
tinha como objetivo atender o mercado de
palmtops e smartphones. Ele era to
pequeno que podia ser produzido no
formato de um carto SD e possua um
consumo eltrico baixssimo.
O problema que ele seria lanado em
verses de apenas 2 e 4 GB, com preos a
partir de US$ 150. Com a rpida queda no
custo da memria Flash, logo surgiram
254

cartes de 2 e 4 GB que custavam muito menos, de forma que o mini HD acabou no encontrando seu lugar
no mercado e foi descontinuado silenciosamente.
O interessante que o oposto tambm verdadeiro. HDs com discos muito grandes tambm acabam
sendo inviveis, pois so mais lentos e mais passveis de problemas que HDs baseados em discos menores. Isso
se deve a vrios fatores.
O primeiro a questo da rotao, j que discos maiores so mais pesados e demandam um maior esforo
do motor de rotao, consumindo mais energia e gerando mais calor e mais barulho. Discos maiores tambm
acabam sendo menos rgidos, o que impede que sejam girados a velocidades muito altas e tornam todo o
equipamento mais sensvel a impactos. Dobrar o dimetro dos discos faz com que a rigidez proporcional seja
reduzida em at 75%.
O segundo a dificuldade de produo. Com o avano da tecnologia, a mdia de gravao precisa ser cada
vez mais fina e uniforme. Quanto maiores os discos, mais difcil recobrir toda a superfcie sem o surgimento
de um grande nmero de pontos defeituosos.
Como se no bastasse, temos o terceiro motivo, que o maior tempo de acesso, j que com uma
superfcie maior as cabeas de leitura demoram muito mais tempo para localizar os dados (justamente devido
maior distncia a ser percorrida). Se combinarmos isso com a velocidade mais baixa de rotao, acabamos
tendo uma reduo muito grande no desempenho.
Isso explica porque os HDs com discos de 5.25" usados nos primeiros PCs foram rapidamente substitudos
pelos de 3.5". O pico evolutivo dos HDs de 5.25" foram os Quantum Bigfoot, produzidos at 1999, em
capacidades de at 18 GB. Embora eles armazenassem um maior volume de dados por disco, a velocidade de
rotao era bem mais baixa (apenas 3600 RPM), os tempos de acesso eram maiores e, ainda por cima, a
durabilidade era menor.
Os HDs de 3.5" e de 2.5" atuais parecem ser o melhor balano entre os dois extremos. Os HDs de 3.5"
oferecem um melhor desempenho, mais capacidade de armazenamento e um custo por megabyte mais baixo
(combinao ideal para um desktop), enquanto os HDs de 2.5" so mais compactos, mais silenciosos,
consomem menos energia e so mais resistentes a impactos, caractersticas fundamentais no caso dos
notebooks.
Temos ainda os HDs de 1.8" (mais finos e do tamanho de um carto PCMCIA), que so usados em
notebooks ultra-portteis, alm de mp3players e alguns dispositivos de armazenamento porttil, mas eles
oferecem um custo por megabyte mais alto, o que tem feito com que eles percam espao para os SSDS.

Uma quarta categoria, atualmente extinta, so os microdrives (foto acima). Eles utilizavam discos de 1"
(pequenos o suficiente para serem produzidos no formato de cartes CompactFlash) e eram destinados ao uso
em palmtops e players de mdia. Eles foram utilizados no Palm Life Drive (4 GB) e tambm no iPod Nano (4 e 8
255

GB), mas acabaram perdendo seu espao para os cartes de memria Flash. A Hitachi chegou a anunciar o
desenvolvimento de microdrives de 20 GB, utilizando tecnologia de gravao perpendicular, mas a produo
em srie acabou sendo cancelada, pois o preo de venda seria mais alto que o da mesma quantidade de
memria Flash.
Para organizar o processo de gravao e leitura dos
dados, a superfcie dos discos dividida em trilhas e setores.
As trilhas so crculos concntricos, que comeam no final
do disco e vo se tornando menores conforme se
aproximam do centro. diferente de um CD-ROM ou DVD,
onde temos uma espiral contnua.
Cada trilha recebe um nmero de endereamento, que
permite sua localizao. A trilha mais externa recebe o
nmero 0 e as seguintes recebem os nmeros 1, 2, 3, e
assim por diante. Para facilitar ainda mais o acesso aos
dados, as trilhas se dividem em setores, que so pequenos
trechos de 512 bytes cada um, onde so armazenados os
dados.
Alm das trilhas e setores, temos tambm as faces de
disco. Como vimos, os HDs atuais possuem de 1 a 4 discos. Como so utilizadas ambas as faces de cada disco,
temos um total de 2 a 8 faces e o mesmo nmero de cabeas de leitura.
Como todas as cabeas de leitura esto presas no mesmo brao mvel, elas no possuem movimento
independente. Para acessar informaes armazenadas na trilha 199.982 da face de disco 3, por exemplo, a
controladora do disco ativa a cabea de leitura responsvel e, a seguir, ordena ao brao de leitura que se dirija
trilha correspondente. No possvel que uma cabea de leitura esteja na trilha 199.982 ao mesmo tempo
que outra esteja na trilha 555.631 de outro disco, por exemplo.
J que todas as cabeas de leitura sempre estaro na mesma trilha de seus respectivos discos, deixamos de
cham-las de trilhas e passamos a usar o termo "cilindro". Um cilindro nada mais do que o conjunto de
trilhas com o mesmo nmero nos vrios discos. Por exemplo, o cilindro 1 formado pela trilha 1 de cada face
de disco, o cilindro 2 formado pela trilha 2 de cada face, e assim por diante. Esta antiga ilustrao da
Quantum mostra como funciona esta diviso.
A trilha mais externa do disco possui mais que o dobro de dimetro da trilha mais interna e,
consequentemente, possui capacidade para armazenar um volume muito maior de dados. Porm, nos
primeiros discos rgidos, assim como nos disquetes, todas as trilhas do disco, independentemente de seu
dimetro, possuam o mesmo nmero de setores, fazendo com que nas trilhas mais externas, os setores
ocupassem um espao muito maior do que os das trilhas mais internas.
Tnhamos ento um grande espao desperdiado, pois era preciso nivelar por baixo, fazendo com que
todas as trilhas possussem o mesmo nmero de setores permitido pelas trilhas mais internas.
Atualmente, os HDs utilizam o Zoned bit Recording (ZBR), que permite variar a quantidade de setores por
trilha, de acordo com o dimetro da trilha a ser dividida, permitindo uma organizao mais racional do espao
em disco e, consequentemente, uma maior densidade de gravao.
O HD pode ter ento 1584 setores por trilha na rea mais externa dos discos e apenas 740 na rea mais
interna, por exemplo. Como os discos giram sempre na mesma velocidade, isso causa um pequeno efeito
colateral, que uma considervel variao no desempenho de acordo com a rea do disco que est sendo lida,
proporcional ao nmero de setores por trilha.

256

Trocando em midos, o desempenho ao ler as trilhas mais externas acaba sendo mais que o dobro do
obtido ao ler as mais internas. por isso que, em geral, se recomenda colocar a partio com a instalao do
sistema, ou com a partio swap no incio do disco (que corresponde s trilhas mais externas) para obter o
melhor desempenho.
Usando um programa de benchmark que permita realizar uma leitura sequencial de toda a superfcie do
HD, como o HD Tach, voc obter sempre um grfico similar a este, onde a taxa de leitura comea num nvel
alto (trilhas externas) e vai decaindo at atingir o ponto mais baixo no final do teste (ao ler o contedo das
trilhas mais internas):

Um dos principais motivos do desempenho dos HDs no ter crescido na mesma proporo da capacidade
ao longo das ltimas dcadas que a densidade das trilhas aumentou numa escala muito maior que a dos
setores dentro destas. Ou seja, as trilhas foram ficando mais "finas", mas o nmero de setores por trilha
passou a aumentar em escala incremental. Aumentar o nmero de trilhas permite aumentar a rea de
armazenamento, mas o nmero de setores por trilha, combinado com a velocidade de rotao do HD que
determina a performance.
Um antigo Maxtor 7040A, de 40 MB, por exemplo, possua uma taxa de leitura mdia em torno de 700
KB/s, o que permitia ler todo o contedo do disco em cerca de um minuto.
Um Seagate Barracuda 7200.10 atual, de 750 GB, bem mais rpido, com uma taxa mdia de leitura de 64
MB/s, mas, apesar disso, como a capacidade brutalmente maior, ler todos os dados do disco demoraria pelo
menos 3 horas e 15 minutos!
No futuro, esta tendncia deve se manter, pois muito mais simples para os fabricantes produzir cabeas
de leitura e sistemas de codificao capazes de lidarem com trilhas mais finas, do que espremer mais dados
dentro de cada trilha, j que elementos magnticos menores correspondem a um sinal magntico mais fraco
e, consequentemente, mais difcil de ser captado pela cabea de leitura. Como um agravante, temos o
problema do superparamagnetismo, que vimos h pouco.

6.2.3 CORREO DE ERROS E BADBLOCKS


Concluindo, temos a questo da deteco e correo de erros, que faz parte do processo de leitura e
gravao.
Por melhor que seja sua qualidade, nenhuma mdia magntica 100% confivel (como pode confirmar
quem j teve o desprazer de trabalhar com disquetes... :). Pequenas falhas na superfcie da mdia podem levar
a erros de leitura, sobretudo quando ela possui uma densidade de gravao de mais de 100 gigabits por
polegada quadrada e gira a 7.200 RPM ou mais, como nos HDs atuais.
Isso no significa que o seu HD v pifar amanh, mas que so comuns erros na leitura de um setor ou
outro. Obviamente, como todos os nossos dados importantes so guardados no disco rgido, a possibilidade de
erros na leitura de "um setor ou outro" no seria aceitvel, principalmente no caso de mquinas destinadas a

257

operaes crticas. Imagine se, nesse "setor ou outro" do servidor de um grande banco, estivessem gravados
os dados referentes conta bancria de um cliente importante, por exemplo.
De modo a tornar os HDs uma forma de armazenamento confivel, os fabricantes utilizam sistemas de ECC
para detectar e corrigir erros de leitura eventualmente encontrados. O ECC o mesmo sistema utilizado em
mdulos de memria destinados a servidores e tambm em CD-ROMs, onde so usados nada menos do que
276 bytes de cdigos de correo de erros para cada setor de 2048 bytes.
Em um HD, cada setor armazena, alm dos 512 bytes de dados, mais algumas dezenas de bytes contendo
os cdigos ECC. A criao dos bytes de ECC, assim como sua utilizao posterior feita pela placa lgica, um
processo automtico que feito de forma completamente transparente ao sistema operacional.
Quando um setor lido pela cabea de leitura, so lidos junto com os dados os cdigos ECC, que permitem
verificar a integridade dos dados e corrigir erros simples. Em um primeiro momento, feita uma checagem
rpida para detectar erros, uma tcnica que lembra o sistema de paridade antigamente usado na memria
RAM. Caso seja verificado um erro, so usados os demais cdigos para tentar corrigir o problema. Na grande
maioria dos casos, esta primeira tentativa suficiente. Estes erros transitrios, que so corrigidos com a ajuda
dos cdigos ECC so chamados de "soft errors" e no causam nenhum efeito colateral alm de um delay de
alguns milissegundos na leitura.
Caso no seja possvel corrigir o erro usando o ECC, a controladora faz uma nova tentativa de leitura do
setor, pois grande a possibilidade do erro ter sido causado por alguma interferncia ou instabilidade
momentnea. Se o erro persistir, ela far vrias tentativas sucessivas, reduzindo a velocidade de rotao dos
discos e comparando o resultado de vrias leituras, de forma a tentar recuperar os dados gravados no setor.
Esse processo gera aquele rudo caracterstico de HD sendo "mastigado" e quase sempre indica o
aparecimento de um badblock.
Por serem defeitos fsicos na mdia magntica, no existe muito o que fazer com relao a eles. O jeito
marcar os badblocks, de forma que eles no sejam mais usados.
Os HDs atuais so capazes de marcar automaticamente os setores defeituosos. A prpria controladora faz
isso, independentemente do sistema operacional. Existe uma rea reservada no incio do disco chamada
"defect map" (mapa de defeitos) com alguns milhares de setores que ficam reservados para alocao
posterior. Sempre que a controladora do HD encontra um erro ao ler ou gravar num determinado setor, ela
remapeia o setor defeituoso, substituindo-o pelo endereo de um setor "bom", dentro do defect map. Como a
alocao feita pela prpria controladora, o HD continua parecendo intacto para o sistema operacional.
De fato, normal que os HDs j venham de fbrica com alguns setores remapeados, causados por
pequenas imperfeies na superfcie da mdia. Como eles no so visveis para o sistema operacional, nem
causam problemas no uso normal, acabam passando despercebidos.
Naturalmente, o defect map uma rea limitada, que corresponde normalmente a uma nica trilha. Caso
o HD possua algum problema crnico, eventualmente os endereos se esgotaro e os badblocks realmente
passaro a se tornar visveis.
Deste ponto em diante, entram em cena utilitrios como o scandisk (no Windows) e o badblocks (no
Linux), que permitem realizar um exame de superfcie, marcando os setores defeituosos encontrados. Estes
setores no so marcados no defect map, mas sim em uma rea reservada da partio.
Um grande nmero de setores defeituosos so indcio de problemas graves, como envelhecimento da
mdia, defeitos no mecanismo de leitura ou mesmo contaminao do HD por partculas provenientes do
ambiente. O ideal nesses casos fazer backup de todos os dados e substituir o HD o mais rpido possvel.
Entretanto, mesmo para estes HDs condenados, s vezes existe uma soluo. comum a maioria dos
setores aparecerem mais ou menos agrupados, englobando uma rea relativamente pequena do disco. Se
houver muitos badblocks em reas prximas, voc pode reparticionar o disco, isolando a rea com problemas.
258

Se, por exemplo, voc percebesse que a maioria dos defeitos se encontra nos ltimos 20% do disco,
bastaria abrir o particionador, deletar a partio atual e criar uma nova, englobando apenas 80% do disco.
Neste caso, voc perderia uma boa parte da rea til, mas pelo menos teria a possibilidade de continuar
usando a parte "boa" do HD (em algum micro usado para tarefas secundrias, sem dados importantes), at
que ele desse seus derradeiros suspiros.

6.2.4 DESEMPENHO
O desempenho do HD determinado basicamente pela densidade dos discos, velocidade de rotao e,
em menor grau, pelo tamanho do cache de leitura e suporte ao NCQ. Por ser um componente mecnico, no
existe muito o que os fabricantes possam fazer para melhorar o desempenho de forma considervel sem
mexer nesses fatores.
Outra questo que o mercado de HDs um ramo incrivelmente competitivo, de forma que tecnologias
revolucionrias, como, por exemplo, a tcnica de gravao perpendicular, so rapidamente adotadas por
todos os fabricantes, j que os que no so capazes de acompanhar a evoluo tecnolgica simplesmente no
conseguem se manter no mercado.
Em se tratando de HDs "normais", destinados ao mercado de consumo, dois HDs produzidos na mesma
poca, com a mesma velocidade de rotao e a mesma quantidade de cache, tendem a possuir um
desempenho muito parecido.
Na hora da compra voc deve se preocupar mais em no levar para casa HDs antigos, baseados em
tecnologias obsoletas, que por algum motivo tenham ficado parados no estoque dos distribuidores. Um HD de
500 GB produzido em 2010 muito provavelmente possuir um nico platter e ser mais rpido que um HD
produzido dois ano antes (que embora tenha a mesma capacidade, utilizar dois platers), mesmo que ambos
sejam de 7200 RPM e sejam vendidos por mais ou menos o mesmo preo.
Existem ainda casos de HDs "premium", que utilizam tecnologias recentemente introduzidas ou mudanas
radicais no design e dessa forma conseguem ficar um passo frente em termos de desempenho. Eles
naturalmente ficam no topo das tabelas comparativas, mas em geral no so uma boa opo de compra fora
de nichos muito especficos, pois sempre possuem um custo por megabyte muito mais alto.
Um bom exemplo so os Maxtor Atlas 15K II, uma srie de HDs SCSI que at 2006 estavam entre os mais
rpidos do mercado, em detrimento da capacidade de armazenamento.
Como voc pode ver na foto ao lado, embora o Atlas 15K II fosse um HD de 3.5", internamente ele utilizava
discos de 2.5", similares aos usados em notebooks. O menor dimetro dos discos reduziu a capacidade de
armazenamento, mas permitiu que os discos girassem a 15.000 RPM. O menor dimetro tambm permitiu
reduzir o tempo de acesso (j que a distncia a ser percorrida pelas cabeas de leitura era menor) o que,
combinado com outras melhorias, resultou num HD Ultra 320 SCSI com tempo de acesso de apenas 5.5 ms e
taxa de leitura sequencial (nas trilhas externas) de 98 MB/s.
O problema que, alm de caro, a capacidade de armazenamento era pequena, mesmo para os padres
da poca. O modelo com um platter armazenava apenas 37 GB, enquanto o modelo com quatro armazenava
147 GB. Ou seja, voc pagaria at US$ 1.000 para ter uma capacidade equivalente de um HD low-end.
De uma forma geral, o melhor em termos de custo-benefcio comprar HDs de gerao atual, escolhendo
entre os modelos de baixo custo e substituir o HD a cada 18 ou 24 meses, se possvel revendendo o antigo (por
algum motivo os HDs costumam ser um item valorizado no mercado de componentes usados, talvez porque
todo mundo sempre precisa de mais espao :). Dessa forma, voc vai conseguir manter sempre o seu
equipamento relativamente atualizado, gastando pouco.
Acaba sendo muito melhor do que gastar o dobro, tentando comprar "o melhor HD", que vai estar
desatualizado da mesma forma daqui a dois anos. Tenha em mente que a vida til de qualquer equipamento
259

limitada, ento s vale a pena gastar mais se o ganho de desempenho realmente for lhe trazer um retorno
tangvel ao longo desse perodo.
Em um servidor, o investimento em HDs topo de linha pode compensar em muitos casos, j que um
melhor desempenho equivale a mais requisies e, consequentemente, mais clientes atendidos. A perda
acumulada de algumas visitas dirias, ao longo de alguns anos, poderia corresponder a um prejuzo
equivalente a vrias vezes o valor investido nos HDs, por exemplo.
Tenha em mente, entretanto, que o perfil de uso de disco em um servidor bem diferente do uso em um
desktop tpico, sem contar que, dada a sua importncia, pequenos ganhos de desempenho podem realmente
compensar pequenas extravagncias, o que no o caso de um desktop tpico.
Por mais que voc mantenha vrios programas abertos e realize muitas operaes ao mesmo tempo, no
vai conseguir chegar nem perto do que acontece num servidor web, por exemplo, que precisa responder a um
grande volume de requisies simultneas a cada segundo.
Num servidor tpico realizado um enorme nmero de pequenas leituras, que so usadas para montar as
pginas ou arquivos que sero enviados aos clientes. Um frum com um grande nmero de mensagens pode
facilmente resultar em um banco de dados de 10 ou mesmo 20 GB, contendo uma infinidade de pequenas
mensagens de texto e ter 1000 ou 2000 visitantes simultneos em determinados perodos.
Para cada pgina a ser exibida, o servidor precisa ler vrias entradas dentro do banco de dados (o tpico
propriamente dito, informaes sobre os usurios e assim por diante). Mesmo com o uso de caches, no
difcil imaginar que tantas requisies simultneas levam o desempenho dos HDs ao limite. Nesse cenrio,
qualquer reduo no tempo de acesso representa um grande ganho de desempenho.
Em um desktop, o HD acaba sendo mais relacionado ao tempo de boot e carregamento dos programas,
por isso a taxa de transferncia se torna o item mais importante. A nica operao que se aproxima um pouco
do que acontece nos servidores o uso intensivo de swap, onde o HD tambm precisa realizar um grande
nmero de pequenas leituras. Entretanto, nesses casos o problema no seria o HD, mas sim a falta de
memria RAM. O nico swap bom o swap que no feito... :)
Em casos onde voc realmente faz questo do melhor desempenho, a melhor opo usar um SSD de
pequena capacidade (existem muitos modelos de 32 ou 64 GB a preos acessveis) para a instalao o sistema
e aplicativos e um HD magntico de maior capacidade para armazenar arquivos. Isso permite que voc
maximize os pontos fortes de cada um (o desempenho do SSD e a capacidade do HD magntico) sem gastar
tanto.
Considere tambm a compra de mais memria RAM (j que mais memria significa menor uso de swap e
mais cache de disco) e, caso um SSD esteja fora dos planos, tambm o uso o ReadyBoost do Vista/7 em
conjunto com um Pendrive de 2 GB ou mais. O ganho de desempenho ao usar o ReadyBoost no to grande
assim, mas como os pendrives so atualmente bastante baratos, o custo-benefcio acaba compensando.
Existem ainda situaes em que o desempenho simplesmente no um fator importante, como por
exemplo no caso de HDs secundrios, usados apenas para guardar arquivos ou fazer backup, onde voc acessa
os dados apenas esporadicamente. Nesses casos, o melhor negcio simplesmente procurar os HDs com o
menor custo por megabyte (dentro da capacidade de que voc precisa) e escolher um baseado na reputao
do fabricante. Em casos como este, um HD mais lento, de 5400 RPM, pode ser at desejvel, j que eles
consomem menos energia e geram menos calor que os de 7200 RPM.
De qualquer forma, importante entender os fatores que determinam o desempenho dos HDs, de forma a
no ser enganado pelas frases floridas usadas pelos fabricantes e no fazer feio nas rodas de amigos.

6.2.4.1 TEMPO DE BUSCA (SEEK TIME)


Ao comparar dois HDs fabricados na mesma poca, que utilizam a mesma velocidade de rotao e
possuem uma capacidade e nmero de discos similar (o que indica que possuem mais ou menos a mesma
260

densidade), o tempo de busca provavelmente o nico fator que pode diferir de forma significativa entre os
dois.
O tempo de busca indica o tempo que a cabea de leitura demora para ir de uma trilha outra do disco, ou
seja, indica a performance do actuator usado no HD. O tempo de busca importante, pois ele o fator que
mais influencia no tempo de acesso e consequentemente na performance geral do HD.
Existem trs ndices diferentes para o clculo do tempo de busca: Full Stroke, Track-to-Track e Average.
O primeiro (Full Stroke) indica o tempo que a cabea de leitura demora para se deslocar da primeira at a
ltima trilha do HD, o que normalmente leva entre 15 e 20 milissegundos. Como o maior dos trs, este valor
no costuma ser divulgado muito abertamente pelos fabricantes.
O Track-to-Track justamente o oposto; o tempo que a cabea demora para mudar de uma trilha para a
seguinte. Como a distncia a ser percorrida muito pequena, ele costuma ser muito baixo, inferior a 1
milissegundo. Como este o valor mais baixo dos trs, muitos fabricantes divulgam o valor do Track-to-Track
nas especificaes, omitindo os outros dois.
Finalmente, temos o Average (valor mdio), que justamente um meio termo entre os dois. Ele indica o
tempo mdio que a cabea demora para se locomover at um setor aleatrio do HD. Ao pesquisar nas
especificaes, procure justamente se informar sobre o valor Average, j que ele o mais indicativo dos trs.
Temos aqui as especificaes de um Samsung HD300LJ, um HD de 300 GB e 7.200 RPM, que era um
modelo de mdio custo no incio de 2007:
Track to Track: 0.8 ms
Average: 8.9 ms
Full Stroke: 18 ms
E aqui temos as de um Western Digital Raptor X, um "topo de linha" de 10.000 RPM, que utiliza platters de
2.5". O menor dimetro dos discos faz com que ele tenha apenas 150 GB de capacidade (2 discos), mas em
troca permitiu obter tempos de acesso bem mais baixos:
Read Seek Time: 4.6 ms
Write Seek Time: 5.2 ms (average)
Track-To-Track Seek Time: 0.4 ms (average)
Full Stroke Seek: 10.2 ms (average)
Veja que as descries usadas pela Samsung e pela Western Digital so ligeiramente diferentes. Tanto o
"Average" da Samsung quanto o "Read Seek Time" da WD referem-se ao tempo de busca mdio para
operaes de leitura. A WD incluiu tambm o Write Seek Time, que o tempo de busca para operaes de
gravao, que sempre um pouco mais alto e por isso nem sempre divulgado nas especificaes.
Como voc pode ver, esses so dois exemplos extremos. O Raptor possui tempos de busca quase 50%
menores, mas em compensao mais caro e possui menos da metade da capacidade do Samsung. Voc
acaba pagando muito mais caro pela maior performance.

6.2.4.2 TEMPO DE LATNCIA (LATENCY TIME)


Dentro do disco rgido, os discos magnticos giram continuamente. Por isso, dificilmente os setores a
serem lidos estaro sob a cabea de leitura/gravao no exato momento de executar a operao. No pior dos
casos, pode ser necessria uma volta completa do disco at o setor desejado passar novamente sob a cabea
de leitura.
O tempo de latncia to importante quanto o tempo de busca. Felizmente, ele fcil de ser calculado,
bastando dividir 60 pela velocidade de rotao do HD, em RPM, e multiplicar o resultado por 1000. Teremos
ento o tempo de latncia em milissegundos. Um HD de 5400 RPM, por exemplo, ter um tempo de latncia
de 11.11 milissegundos (o tempo de uma rotao), j que 60 5200 x 1000 = 11.11.
261

Geralmente usado o tempo mdio de latncia, que corresponde metade de uma rotao do disco
(assumindo que os setores desejados estaro, em mdia, a meio caminho da cabea de leitura). Um HD de
5400 RPM teria um tempo de latncia mdio de 5.55 ms, um de 7.200 RPM de 4.15 ms e um de 10.000 RPM
de apenas 3 ms.
Muitos fabricantes publicam o tempo de latncia mdio nas especificaes ao invs do tempo de busca ou
o tempo de acesso (j que ele menor), o que acaba confundindo os desavisados.

6.2.4.3 TEMPO DE ACESSO (ACCESS TIME)


O tempo de acesso a combinao do tempo de busca e do tempo de latncia, o tempo mdio necessrio
para realizar um acesso a um setor aleatrio do HD.
Assim que o comando processado, a cabea de leitura movida para a trilha especificada (tempo de
busca) e aguarda at que a rotao dos discos a faa passar pelo setor especificado (tempo de latncia). Aos
dois, somamos tambm o settle time (o tempo que a cabea de leitura demora para estabilizar depois de
movimentada) e o command overhead time, que o tempo que a placa controladora demora para processar o
comando e iniciar ambas as operaes. Estes dois valores so bem menos significantes (somam algo em torno
de 0.5 ms), por isso nem sempre so divulgados pelos fabricantes, embora tambm entrem na conta.
Os fabricantes calculam o tempo de latncia dos HDs de formas diferentes, tornando difcil uma
comparao direta. O ideal que voc mesmo calcule o tempo de acesso mdio com base nas informaes
anteriores.
Para isso, basta somar o tempo de busca mdio (Average) e o tempo de latncia, calculado com base na
velocidade de rotao dos discos. Como muito difcil encontrar o settle time e o command overhead time
nas especificaes, voc pode adicionar 0.5 ms, que um valor aproximado.
O Samsung HD300LJ tem tempo de busca de 8.9 ms e latncia de 4.15 ms. Adicionando os 0.5 ms temos
um total de 14.55 ms.
Um Seagate ST3200822A (um modelo IDE, de 200 GB) tem tempo de busca de 8.5 ms. Como ele tambm
um modelo de 7.200 RPM, a latncia tambm de 4.15 ms, o que (incluindo os 0.5 ms) daria um total de
14.15 ms.
O Raptor X tem apenas 4.6 ms de tempo de busca e, por ser um HD de 10.000 RPM, tem latncia de 3 ms.
Somando os 0.5 ms, teramos um total de 9.1 ms.
Veja que a diferena entre o HD300LJ ST3200822A muito pequena. O Raptor consegue ser 35% mais
rpido, mas em compensao muito mais caro, como vimos.
Apesar de importante, o tempo de acesso um fator que no deve ser superestimado. Ele afeta o
desempenho do HD quando lida uma grande quantidade de arquivos pequenos espalhados pelo HD, mas
no afeta muito a taxa de transferncia sequencial, que o que voc v ao carregar um programa pesado ou
copiar uma grande quantidade de arquivos, por exemplo.

6.2.4.4 HEAD SWITCH TIME


Um disco rgido possui de um a quatro discos internos, sendo que cada disco possui duas faces e temos
uma cabea de leitura para cada face. Mesmo possuindo vrias cabeas de leitura, apenas uma delas pode ser
usada de cada vez, de forma que a controladora precisa constantemente chavear entre elas durante a leitura
ou gravao dos dados.
Voc poderia perguntar por que os dados no so organizados de forma que a controladora pudesse ler e
gravar usando todas as cabeas simultaneamente, com cada uma armazenando parte dos arquivos, como em
uma espcie de "RAID interno". O problema aqui que tecnicamente impossvel manter as trilhas dos
diferentes discos perfeitamente alinhadas entre si.

262

Quando a controladora chaveia de uma cabea de leitura para a outra, necessrio executar o
procedimento normal de posicionamento, onde ela verifica as marcaes servo dos discos e o brao de leitura
move-se para a posio apropriada.
Devido a isso, o chaveamento acaba demorando um pouco mais do que poderamos pensar inicialmente.
Ele apenas um pouco menor que o tempo de busca Track-to-Track e quase sempre proporcional a ele.
Embora o Head Switch Time no seja um fator to significativo quanto o tempo de acesso, ele acaba sendo
um fator importante para a taxa de leitura sequencial do HD, j que a controladora l um cilindro por vez,
chaveando entre todas as cabeas antes de ir para o prximo.

6.2.4.5 TAXA DE TRANSFERNCIA INTERNA (INTERNAL TRANSFER RATE)


A taxa de transferncia interna a velocidade "real" do HD ao ler arquivos gravados em setores
sequenciais. Se tivssemos mo todas as especificaes do HD, incluindo o nmero de setores por trilha,
seria simples calcular a taxa de leitura real do HD.
Em um HD que tivesse 1584 setores por trilha na rea mais externa dos discos e 740 na rea mais interna,
com 2 patters, rotao de 7200 RPM, tempo de busca Track-to-Track de 0.8 ms e Head Switch Time de 0.6 ms,
por exemplo, teramos o seguinte:

Cada trilha externa possui 1584 setores, cada um com 512 bytes, de forma que temos 792 KB por
trilha.

Os discos giram a 7200 RPM, de forma que temos 120 rotaes por segundo. Dividindo um segundo
por 120 rotaes, temos 8.33 milissegundos para cada rotao completa do disco, que corresponde
leitura de cada trilha.

Como o disco tem 2 platters, temos um total de 4 trilhas por cilindro. Para ler cada cilindro, a cabea
de leitura precisa realizar 3 chaveamentos entre as cabeas (0.6 ms cada) e em seguida precisa mover
o brao de leitura para o cilindro seguinte, o que demora mais 0.8 ms.

Somando tudo, a leitura de cada cilindro demora aproximadamente 36 ms, o que significa que temos a
leitura de 27.7 cilindros por segundo.

Cada cilindro composto por 4 trilhas, o que corresponde a 3.093 MB. Se o HD consegue ler 27.7 deles por
segundo, significaria que o nosso HD hipottico teria uma taxa de transferncia interna (nas trilhas externas)
de aproximadamente 85.9 MB/s.
Nas trilhas internas a densidade cai para apenas 1.44 MB por cilindro (j que cada trilha possui apenas 740
setores), de forma que a taxa de leitura cai para apenas 40.1 MB/s.
Ao ler pequenos arquivos, temos a interferncia do cache de disco, mas ao ler uma grande quantidade de
arquivos, ele deixa de ser eficaz (j que armazena apenas uma pequena quantidade de dados), de forma que a
taxa real de transferncia cai para os valores da taxa de transferncia interna, variando entre 85.9 MB/s e 40.1
MB/s, de acordo com a parte do disco que estivesse sendo lida.
Quando houver referncias "Internal Transfer Rate" ou "Buffer to Disc" nas especificaes de um HD,
pode ter certeza de tratar-se da velocidade "mxima", atingida quando so lidos setores sequenciais nas
bordas do disco. Tenha em mente que no centro do disco voc obter um pouco menos da metade do nmero
divulgado.
No caso dos HDs de notebook, ou de HDs que utilizam platters de 2.5" (como o Raptor), a diferena entre a
taxa de leitura nas trilhas internas e externas menor, numa relao de aproximadamente 2/3 em vez de 1/2.
O grande problema que os fabricantes raramente divulgam o nmero de setores por trilha, nem o Head
Switch Time dos HDs, de forma que acaba sendo impossvel calcular diretamente a taxa de transferncia
interna com base nas especificaes. Normalmente, voc encontrar apenas o nmero de setores por trilhas
visto pelo BIOS (64), que no tem nenhuma relao com o nmero real.
263

Resta ento usar o mtodo emprico, realizando um teste longo de leitura, como o teste realizado pelo HD
Tach, onde so lidos grandes volumes de dados, comeando pela borda e prosseguindo at o centro dos
discos. O cache pode ajudar o incio da leitura, mas os dados armazenados logo se esgotam, deixando apenas a
taxa real.
Um bom lugar para pesquisar sobre as taxas de leitura (e outros ndices) de diversos modelos a tabela do
Storage Review, disponvel no: http://www.storagereview.com/comparison.html.
Outra
tabela
recomendada

http://www23.tomshardware.com/storage.html.

disponvel

no

TomsHardware:

Outra curiosidade que comum que os fabricantes produzam alguns modelos de HDs onde no so
utilizadas todas as trilhas dos discos, de forma a criar HDs com capacidades definidas, que se adaptem a
determinados nichos do mercado. Imagine, por exemplo, que o fabricante X est produzindo todos os seus
discos usando platters de 200 GB. Isso significaria que ele teria modelos de 200, 400, 600 e 800 GB, de acordo
com o nmero de platters usados. Imagine agora que o fabricante Y, que ainda usa uma tcnica anterior de
produo, lana um HD de 160 GB, que mais barato que o de 200 GB do fabricante X e por isso comea a
roubar mercado dele.
Ao invs de reduzir o custo do HD de 200 GB e perder dinheiro na venda de todos os HDs, o fabricante X
pode criar um HD de 160 GB fazendo uma simples alterao no firmware do HD de 200 GB, que faa a
controladora deixar de usar as trilhas mais externas do disco. Ele pode agora vender estes HDs de "160 GB" a
um preo mais baixo, sem ter que mexer no preo do restante da linha. Por incrvel que possa parecer, isto
bastante comum.
Ao medir o desempenho deste HD "castrado", voc perceberia que a diferena entre o desempenho nas
trilhas internas e externas bem menor que nos outros modelos. O tempo de acesso mdio tende tambm a
ser um pouco menor, j que a cabea de leitura precisa se deslocar por uma rea menor do disco.

6.2.5 NCQ
A grande maioria dos HDs SATA atuais suporta o NCQ, onde a controladora utiliza o tempo ocioso, entre
uma leitura e outra, para estudar e reorganizar a ordem das leituras seguintes, de forma que elas possam ser
executadas na ordem em que seja necessrio o menor movimento possvel dos discos. como no caso de um
nibus, que precisa fazer um itinerrio passando por diversos pontos da cidade. Com o NCQ o motorista tem
autonomia para fazer alteraes na rota, de acordo com as condies do trnsito, escolhendo o caminho mais
rpido.
Esta ilustrao fornecida pela nVidia mostra como o sistema funciona. O HD esquerda no possui suporte
a NCQ, de forma que, ao realizar 4 leituras a setores aleatrios do disco ele precisa realiz-las em ordem,
fazendo com que seja necessrio um nmero maior de rotaes do disco. direita, o HD com NCQ usa um
atalho para realizar a mesma sequencia de leitura em menos tempo, lendo os setores fora de ordem:

264

Na prtica, o NCQ pode melhorar a taxa de transferncia do HD em at 10% em situaes especficas, onde
so lidos diversos arquivos pequenos espalhados pelo HD, como durante o carregamento do sistema
operacional, ou de um programa pesado, mas faz pouca diferena quando voc est transferindo grandes
arquivos. De qualquer forma, ele uma otimizao implementada via software, que no aumenta o custo de
produo dos discos e no tem contra indicaes.

6.2.6 CACHE/BUFFER
Embora no seja to importante para o desempenho quanto geralmente se pensa, o cache permite
controladora executar um conjunto de operaes teis para melhorar o desempenho.
Geralmente ao ler um arquivo, sero lidos vrios setores sequenciais. A forma mais rpida de fazer isso ,
naturalmente, fazer com que a cabea de leitura leia de uma vez todos os setores da trilha, passe para a trilha
seguinte, passe para a terceira e assim por diante. Isso permite obter o melhor desempenho possvel.
O problema que na prtica no assim que funciona. O sistema pede o primeiro setor do arquivo e s
solicita o prximo depois de receb-lo e certificar-se de que no existem erros.
Se no houvesse nenhum tipo de buffer, a cabea de leitura do HD acabaria tendo que passar vrias vezes
sobre a mesma trilha, lendo um setor a cada passagem, j que no daria tempo de ler os setores
sequencialmente depois de todo tempo perdido antes de cada novo pedido.
Graas ao cache, este problema resolvido, pois a cada passagem a cabea de leitura l todos os setores
prximos, independentemente de terem sido solicitados ou no. Aps fazer sua verificao de rotina, o
sistema solicitar o prximo setor, que por j estar carregado no cache, ser fornecido em tempo recorde.
Nos HDs atuais, o cache pode ser usado tambm nas operaes de escrita. Imagine, por exemplo, que a
controladora est ocupada lendo um arquivo longo e o sistema solicita que ela atualize um pequeno arquivo
de log. Em vez de precisar parar o que est fazendo, a controladora pode armazenar a operao no cache e
execut-la mais adiante, em um momento de ociosidade.
Nos HDs SATA com NCQ, a controladora possui liberdade para reorganizar as operaes, realizando-as de
forma que sejam concludas mais rpido. A controladora passa ento a armazenar os dados no cache, de
forma que, depois de concludas as operaes, possa organizar os dados e entreg-los na ordem correta para o
sistema.
O espao excedente usado para armazenar os ltimos arquivos acessados, para eles possam ser
fornecidos rapidamente caso sejam requisitados novamente. A principal vantagem de usar um cache maior
seria justamente ter mais espao para arquivos. A questo que o sistema operacional tambm mantm um
cache de leitura e gravao utilizando a memria RAM que, por ser maior que o cache do HD, acaba sendo
mais eficiente e tambm mais rpido (j que o cache do HD tem sua velocidade de transferncia limitada
velocidade da interface IDE ou SATA, enquanto o cache feito pelo sistema operacional est limitado apenas
velocidade de acesso da prpria memria RAM).
Esse o principal motivo de um HD com mais cache no ser to mais rpido quanto se pensa. Enquanto
dobrar o tamanho do cache L2 de um processador aumenta seu desempenho em at 10%, aumentar o cache
de um HD de 16 para 32 MB, por exemplo, acaba aumentando seu desempenho real em menos de 1% na
maioria das aplicaes. Uma pequena quantidade de cache importante por causa de todos os recursos que
vimos, mas a partir de certo ponto, o tamanho do cache acaba fazendo pouca diferena.
No final das contas, a melhor forma de melhorar o desempenho do HD comprando mais memria RAM e
permitindo que o sistema operacional use mais cache de disco. No caso do Windows XP, verifique a
configurao do cache de disco no Painel de Controle > Sistema > Avanado > Configuraes > Avanado > Uso
de memria, mudando de "Uso dos programas" para "Cache do sistema". No caso do Linux, o cache
265

gerenciado de forma automtica pelo sistema, usando a memria disponvel, de forma que no necessria
nenhuma configurao adicional.

6.2.7 MTBF E SERVICE LIFE


Duas informaes que constam nas especificaes dos HD e que so frequentemente mal entendidas so o
MTBF e o service life, que se destinam a dar uma ideia estimada da confiabilidade do HD.
MTBF significa "Mean Time Between Failures" ou "tempo mdio entre falhas". A maioria dos HDs de baixo
custo, destinados ao mercado domstico, possuem MTBF de 300.000 ou 600.000 horas, enquanto os modelos
high-end, ou destinados a servidores, normalmente ostentam um MTBF de 1.200.000 horas. Complementando
temos o "service life" ou "component design life", que normalmente de 5 anos.
Como era de se esperar, o service life indica o tempo de vida "recomendado" pelo fabricante. Como o HD
composto por componentes mecnicos, um certo desgaste acumulado durante o uso, culminando na falha
do HD. Um service life de 5 anos indica que o HD projetado para durar 5 anos e que a grande maioria das
unidades deve realmente resistir ao tempo especificado.
O MTBF, por sua vez, no uma indicao do tempo de vida do HD, mas sim a percentagem de chance do
HD apresentar defeito antes do final do service life. Se o service life de 5 anos e o MTFB de 600.000 horas,
significa que existe uma possibilidade de 1.4% do seu HD apresentar defeito antes disso.
Parece complicado, mas na verdade no tanto. A ideia que se voc tivesse um datacenter com 1.000
HDs iguais, um deles pifaria em mdia a cada 600.000 horas somadas (somando os 1.000 HDs), ou seja a cada
25 dias, ao longo dos primeiros 5 anos de uso. Depois isso, voc pode esperar que a taxa de mortalidade seja
cada vez maior nos anos seguintes, embora um pequeno nmero dos HDs possa resistir a 10 anos de uso ou
mais.
Outra forma de explicar seria que, se voc substitusse seu HD por outro igual a cada 5 anos, aposentando
os antigos, seriam necessrias (em mdia) 600.000 horas, ou seja, 68.4 anos para que voc perdesse os dados
por causa de falha em um dos HDs.
Ou seja, tudo gira em torno de possibilidades. Se voc for "sortudo", mesmo um HD com MTBF de
1.200.000 horas pode pifar no primeiro ms de uso, da mesma forma que o HD de 200 reais do vizinho pode
resistir durante 10 anos e ainda voltar a funcionar depois de removido o p acumulado... :). O MTBF apenas
serve como um indicativo da possibilidade de qualquer um dos dois extremos ocorrer.
Outra questo interessante sobre como o MTBF calculado, j que obviamente o fabricante no tem
como realizar um teste de 5 anos antes de colocar um novo HD no mercado. Normalmente o nmero
calculado com base nos materiais e tecnologia usados na fabricao, simulaes, dados estatsticos sobre
outros modelos similares lanados anteriormente e, em geral, tambm um teste piloto de curta durao,
usando algumas dezenas de unidades.
266

Complementando, temos tambm o "Start/Stop Cycles", ou seja, o nmero de ciclos de desligamento que
o drive projetado para suportar. Quando o HD ligado, o motor de rotao precisa realizar um esforo maior
que o habitual para acelerar os discos, o que acentua o desgaste. Nos HDs antigos, onde ainda no so
utilizadas rampas para estacionar as cabeas de leitura, existe tambm o desgaste causado pelo atrito das
cabeas ao tocar a landing zone a cada desligamento.
Contam no apenas o nmero de vezes em que o micro desligado, mas tambm o nmero de vezes que
o HD entra em modo de economia de energia. Os HDs atuais normalmente so projetados para suportarem
50.000 ciclos, de forma que este normalmente no um problema dentro do uso normal.
Tenha apenas o cuidado de no configurar o tempo de desligamento do HD com valores muito agressivos,
como de 1 em 1 minuto por exemplo. Se o HD precisar acelerar 30 vezes por hora, pode ter certeza de que isso
poder levar a uma falha prematura mais cedo ou mais tarde.
importante lembrar, mais uma vez, que estamos falando sobre probabilidades e no sobre dados
infalveis. Um exemplo histrico so os IBM Deskstar 75GX que, devido a um conjunto de problemas de
projeto, possuam uma taxa de mortalidade assustadoramente alta, embora tivessem sido rotulados com um
um MTBF de 500.000 horas. O caso foi to grave que acabou dando origem a uma ao coletiva por parte dos
usurios afetados, que levou a um recall dos drives. Pouco depois a IBM decidiu sair do ramo de produo de
HDs, vendendo toda a diviso para a Hitachi.
Como de praxe, a nica forma de se proteger contra falhas fazer backups regulares. Existe ainda a opo
de utilizar um sistema RAID 1, onde temos dois HDs e o segundo armazena uma cpia atualizada do contedo
do primeiro. O RAID no substitui o backup, mas evita que seu servidor ou mquina de trabalho fique fora do
ar enquanto voc restaura os dados.

6.3 AS INTERFACES
Assim como outros componentes, as interfaces usadas como meio de conexo para os HDs passaram por
um longo caminho evolutivo.
As placas-me usadas nos primeiros PCs sequer possuam interfaces de disco embutidas. Naquela poca,
as interfaces IDE ainda no existiam, de forma que novas interfaces eram vendidas junto com os HDs e
instaladas em slots ISA disponveis. A primeira interface foi criada pela Seagate, para uso em conjunto com o
ST-506, um HD de 5 MB. Em seguida foi lanado o ST-412, de 10 MB. As duas interfaces so chamadas
respectivamente de MFM e RLL devido ao mtodo de codificao usado. Alm da Seagate, estes HDs e
interfaces foram produzidos tambm por outros fabricantes, como a Quantum e a Maxtor.
Em 1985 a Quantum lanou um produto bastante peculiar, o "Plus HardCard", que era um HD RLL de 20
MB onde tanto o HD quanto a controladora eram integrados a uma nica placa ISA, e o "HD" era instalado
diretamente no slot, sem ocupar uma das baias do gabinete. Como voc pode imaginar, estes HDs eram um
tanto quanto problemticos, pois a placa era presa por um nico parafuso, o que causava problemas de
vibrao excessiva e barulho. Mesmo assim, o Plus HardCard foi um produto relativamente popular na poca:

267

O padro seguinte foi o ESDI (Enhanced Small Device Interface), criado por um consrcio de diversos
fabricantes, incluindo a Maxtor. As interfaces ESDI ainda eram instaladas em slots ISA, mas trabalhavam a uma
velocidade muito maior que as MFM e RLL, oferecendo um barramento terico de 3 MB/s. bem pouco para
os padres atuais, mas os HDs da poca trabalhavam com taxas de transferncias muito mais baixas, de forma
que a velocidade acabava sendo mais do que satisfatria.

6.3.1 IDE
Tanto as interfaces MFM e RLL quanto a ESDI possuem uma caracterstica em comum, que o fato de a
controladora fazer parte da interface (e no do prprio HD, como temos hoje em dia). Naturalmente, integrar
a controladora ao HD oferece diversas vantagens, pois elimina os problemas de sincronismo causados pelo uso
de cabos longos e simplifica todo o design.
No demorou para que os fabricantes percebessem isso. Surgiu ento o padro IDE, abreviao de
"Integrated Drive Eletronics" (que indica justamente o uso da controladora integrada), desenvolvido pela
Quantum e a Western Digital.
Os primeiros HDs e interfaces IDE chegaram ao mercado em 1986, mas inicialmente no existia um padro
bem definido, o que fez com que os primeiros anos fossem marcados por problemas de compatibilidade entre
os produtos dos diferentes fabricantes.
Em 1990 o padro foi ratificado pelo ANSI, dando origem ao padro ATA. Como o nome "IDE" j estava
mais difundido, muita gente continuou usando o termo "IDE", e outros passaram a usar "IDE/ATA" ou
simplesmente "ATA", fazendo com que os dois termos acabassem virando sinnimos.
As primeiras placas IDE traziam apenas uma ou duas portas IDE e eram instaladas em um slot ISA de 16
bits. Mas, logo os fabricantes passaram a integrar tambm outros conectores, dando origem s placas "superide", que eram usadas na grande maioria dos micros 386 e 486. As placas mais comuns incluam uma porta
IDE, uma porta FDD (para o drive de disquete), duas portas seriais e uma paralela, alm do conector do
joystick.
Como voc pode ver, estas placas eram configuradas atravs de um conjunto de jumpers, j que na poca
ainda no existia plug-and-play. Os jumpers permitiam configurar os endereos de IRQ, DMA e I/O usados,
alm de desativar os componentes individualmente. Se voc precisasse de duas portas paralelas, por exemplo,
utilizaria duas placas e configuraria uma delas para usar o IRQ 5 e endereo de I/O 378 e a outra para usar o
IRQ 7 e o endereo de I/O 278.
A partir de certo ponto, os fabricantes passaram a integrar os controladores diretamente no chipset da
placa-me, dando origem s placas com conectores integrados que conhecemos. A exceo ficou por conta do
conector do joystick, que passou a ser integrado nas placas de som. Uma curiosidade que o conector inclui
tambm os pinos usados por dispositivos MIDI (como teclados musicais), que tambm eram ligados no
conector analgico do joystick, atravs de um
adaptador.
Inicialmente, as interfaces IDE suportavam
apenas a conexo de HDs. Devido a isso, os
primeiros drives de CD utilizavam interfaces
proprietrias, incorporadas placa de som, ou
mesmo controladoras SCSI. Na poca eram comuns
os "kits multimdia", que incluam o CD-ROM, placa
de som, caixinhas e microfone.
Para solucionar o problema, foi desenvolvido o
protocolo ATAPI (AT Attachment Packet Interface)
268

que tornou-se rapidamente o padro, riscando as interfaces proprietrias do mapa. graas a ele que voc
pode comprar um drive de CD ou DVD e instal-lo diretamente em uma das portas IDE, sem ter que comprar
junto uma placa de som do mesmo fabricante.
Na placa-me voc encontra duas portas IDE (primria e secundria). Mesmo com a popularizao das
interfaces SATA, as portas IDE ainda continuam sendo includas nas placas recentes (muitas placas passaram a
trazer apenas uma porta IDE, mas deve demorar mais um pouco at que elas desapaream completamente).
Cada uma das portas permite instalar dois drives, de forma que podemos instalar um total de 4 HDs ou CDROMs na mesma placa:

Existem casos de placas-me antigas com 4 portas IDE (permitindo usar at 8 drives) e tambm
controladoras IDE PCI, que incluem duas portas adicionais, que podem ser usadas em casos onde voc precise
usar mais do que 4 drives IDE no mesmo micro.
Para diferenciar os dois drives instalados na mesma porta, usado um jumper, que permite configurar
cada drive como master (mestre) ou slave.
Dois drives instalados na mesma porta compartilham o barramento oferecido por ela, o que acaba sempre
causando uma pequena perda de desempenho. Por isso, quando so usados apenas dois drives (um HD e um
CD-ROM, por exemplo), prefervel instalar cada um em uma das portas, deixando ambos jumpeados como
master. Ao adicionar um terceiro, voc poderia escolher entre instalar na primeira ou segunda porta IDE, mas,
de qualquer forma, precisaria configur-lo como slave, mudando a posio do jumper.
Instalar cada drive em uma porta separada ajuda principalmente quando voc precisa copiar grandes
quantidades de dados de um HD para outro, ou gravar DVDs, j que cada drive possui seu canal exclusivo com
o chipset.
No Windows, os drives so simplesmente identificados de forma sequencial. O HD instalado como master
da IDE primria apareceria no Windows Explorer como "C:" e o CD-ROM, instalado na IDE secundria como
"D:", por exemplo. Se voc adicionasse um segundo HD, instalado como slave da primeira IDE, ele passaria a
ser o "D:" e o CD-ROM o "E:".
No Linux, os drives recebem endereos fixos, de acordo com a posio em que forem instalados:
IDE primria
IDE secundria

Master = /dev/hda
Slave = /dev/hdb
Master = /dev/hdc
Slave = /dev/hdd

O cabo IDE possui trs encaixes, onde um ligado na placa-me e os outros dois so ligados cada um em
um dos dois dispositivos. Mesmo que voc tenha apenas um dispositivo IDE, voc dever lig-lo no conector
da ponta, nunca no conector do meio. O motivo para isto, que, ligando no conector do meio, o cabo ficar

269

sem terminao, fazendo com que os dados venham at o final do cabo e retornem na forma de interferncia,
prejudicando a transmisso.
Como de praxe, as interfaces IDE/ATA passaram por um longo caminho evolutivo. As interfaces antigas,
usadas em micros 386/486 e nos primeiros micros Pentium, suportam (de acordo com seu nvel de
atualizao), cinco modos de operao, que vo do PIO mode 0, ao PIO mode 4:
Modo de Operao

Taxa de transferncia

PIO mode 0

3.3 MB/s

PIO mode 1

5.2 MB/s

PIO mode 2

8.3 MB/s

PIO mode 3

11.1 MB/s

PIO mode 4

16.6 MB/s

As mais recentes suportam tambm o Multiword DMA, que um modo de acesso direto, onde o HD ou
CD-ROM pode transferir dados diretamente para a memria, sem que o processador precise se envolver
diretamente na transferncia. O uso do DMA melhora bastante o desempenho e a responsividade do sistema,
evitando que o micro "pare" enquanto um programa pesado est sendo carregado, ou durante a gravao de
um CD, por exemplo.
Apesar disso, o Multiword DMA no chegou a ser muito usado, pois no era diretamente suportado pelo
Windows 95 e os drivers desenvolvidos pelos fabricantes frequentemente apresentavam problemas de
estabilidade. Para piorar, muitos drives de CD e HDs antigos no funcionavam quando o DMA era ativado.
A soluo veio com o padro ATA-4, ratificado em 1998. Ele nada mais do que o padro Ultra ATA/33 (o
nome mais popular) que usado em placas para micros Pentium II e K6-2 fabricadas at 2000. Nele, a taxa de
transferncia mxima de 33 MB/s e suportado o modo UDMA 33, que permite transferncias diretas para
a memria tambm a 33 MB/s. graas a ele que voc pode assistir a filmes em alta resoluo e DVDs no seu
PC, sem falhas
Voc pode fazer uma experincia, desativando temporariamente o suporte a UDMA para o seu DVD-ROM
para ver o que acontece. No Linux, use o comando "hdparm -d0 /dev/dvd" (como root). No Windows, acesse o
gerenciador de dispositivos, acesse as propriedades do drive e desmarque a opo referente ao DMA.
Tente agora assistir a um DVD. Voc vai perceber que tanto o vdeo quanto o som ficam cheios de falhas,
tornando a experincia bastante desagradvel. Isso acontece porque, com o UDMA desativado, o processador
precisa periodicamente parar o processamento do vdeo para ler mais dados no DVD. Quanto mais rpido o
processador, mais curtas so as falhas, mas elas persistem mesmo em um processador de 2 ou 3 GHz.
Para reverter, use o comando "hdparm -d1 /dev/dvd" ou marque novamente a opo do DMA, no caso do
Windows.
Depois que o problema do DMA foi finalmente resolvido, os fabricantes se concentraram em aumentar a
velocidade das portas. Surgiram ento os padres ATA-5 (Ultra ATA/66), ATA-6 (Ultra ATA/100) e ATA-7 (Ultra
ATA/133), que o usado atualmente. Eles suportam (respectivamente), os modos UDMA 66, UDMA 100 e
UDMA 133, alm de manterem compatibilidade com os padres anteriores:
Modo de Operao

Taxa de transferncia

ATA-4 (Ultra ATA/33, UDMA 33)

33 MB/s

ATA-5 (Ultra ATA/66, UDMA 66)

66 MB/s

ATA-6 (Ultra ATA/100, UDMA 100)

100 MB/s

ATA-7 (Ultra ATA/133, UDMA 133)

133 MB/s
270

As portas ATA/133 usadas nas placas atuais so uma necessidade, por dois motivos. O primeiro que os
HDs atuais j superam a marca dos 70 ou 80 MB/s de taxa de transferncia ao ler setores contnuos, e a
interface precisa ser substancialmente mais rpida que o HD para absorver tambm as transferncias feitas a
partir do cache, que so bem mais rpidas. O segundo motivo que s a partir das interfaces ATA/100 foi
introduzido o suporte a HDs IDE com mais de 137 GB (decimais) de capacidade.
Para que os modos mais rpidos sejam utilizados, necessrio que exista tambm suporte por parte do HD
e que o driver correto esteja instalado. No caso do HD, no existe muito com o que se preocupar, pois os
fabricantes so os primeiros a adotar novos modos de operao, de forma a diferenciar seus produtos. Se voc
tem em mos um HD antigo, que s suporta UDMA 33, por exemplo, pode ter certeza de que a taxa de
transferncia oferecida por ele baixa, o que torna desnecessrio o uso de uma interface mais rpida em
primeiro lugar.
Ao contrrio dos HDs, os drivers de CD e DVD ficaram estagnados no UDMA 33, pois como eles trabalham
com taxas de transferncia muito mais baixas, os padres mais rpidos tambm no trazem vantagens.
Mesmo que algum fabricante resolvesse lanar drives "ATA/133", usando a interface mais rpida como
ferramenta de marketing, mas isso no faria diferena alguma no desempenho.
Como de praxe, devo insistir na ideia de que a velocidade da interface determina apenas o fluxo de dados
que ela pode transportar e no a velocidade real do dispositivo ligado a ela. Um CD-ROM de 52x ler as mdias
a no mximo 7.8 MB/s, independentemente da velocidade da interface. Funciona como numa auto-estrada: se
houver apenas duas pistas para um grande fluxo de carros, haver muitos congestionamentos, que acabaro
com a duplicao da pista. Porm, a mesma melhora no ser sentida caso sejam construdas mais faixas.
Continuando, junto com as interfaces Ultra ATA/66, veio a obrigatoriedade do uso de cabos IDE de 80 vias,
substituindo os antigos cabos de 40 vias. Eles so fceis de distinguir dos antigos, pois os fios usados no cabo
so muito mais finos, j que agora temos o dobro deles no mesmo espao:

Cabo IDE de 80 vias ( esquerda) e cabo de 40 vias


A adio dos 40 fios adicionais uma histria interessante, pois eles no se destinam a transportar dados.
Tanto os conectores quanto os encaixes nos drives continuam tendo apenas 40 pinos, mantendo o mesmo
formato dos cabos anteriores. Os 40 cabos adicionais so intercalados com os cabos de dados e servem como
neutros, reduzindo o nvel de interferncia entre eles. Este "upgrade" acabou sendo necessrio, pois os cabos
IDE de 40 vias foram introduzidos em 1986, projetados para transmitir dados a apenas 3.3 MB/s!

271

Os cabos de 80 vias so obrigatrios para o uso do UDMA 66 em diante. A placa-me capaz de identificar
o uso do cabo de 80 vias graas ao pino 34, que ligado de forma diferente. Ao usar um cabo antigo, de 40
vias, a placa baixa a taxa de transmisso da interface, passando a utilizar o modo UDMA 33.
Veja que no caso dos CD-ROMs e DVDs, ainda comum o uso dos cabos de 40 vias, simplesmente porque,
como vimos, eles ainda utilizam o modo UDMA 33. Entretanto, se voc precisar instalar um HD junto com o
drive ptico, interessante substituir o cabo por um de 80 vias, caso contrrio o desempenho do HD ficar
prejudicado.
Outra exigncia trazida pelos novos padres o uso de cabos com no mximo 45 centmetros de
comprimento, j que acima disso o nvel de interferncia e atenuao dos sinais passa a prejudicar a
transmisso dos dados. O padro ATA original (o de 1990) permitia o uso de cabos de at 90 centmetros (!)
que no so mais utilizveis hoje em dia, nem mesmo para a conexo do drive de CD/DVD.
Mais uma mudana introduzida pelos cabos de 80 vias o uso de cores para diferenciar os trs conectores
do cabo. O conector azul deve ser ligado na placa-me, o conector preto ligado no drive configurado como
master da interface, enquanto o conector do meio (cinza) usado para a conexo do segundo drive, caso
presente.
Os cabos de 80 vias tambm suportam o uso do sistema cabe select (nos de 40 vias o suporte era
opcional), onde a posio dos drives (master/slave) determinada pelo conector do cabo ao qual eles esto
ligados, eliminando a possibilidade de conflitos, j que instalar dois drives configurados como master na
mesma interface normalmente faz com que ambos deixem de ser identificados no Setup.
Para usar o cable select preciso colocar os jumpers dos dois drives na posio "CS". Consulte o diagrama
presente no topo ou na lateral do drive para ver a posio correta:

Diagrama da posio dos jumpers em um HD Maxtor


Os HDs IDE de 2.5", para notebooks, utilizam um conector IDE miniaturizado, que possui 44 pinos (em vez
de 40). Os 4 pinos adicionais transportam energia eltrica, substituindo o conector da fonte usado nos HDs
para desktop.
Existem ainda adaptadores que permitem instalar drives de 2.5" em desktops. Eles podem ser usados
tanto em casos em que voc precisa recuperar dados de um notebook com defeito quanto quando quiser usar
um HD de notebook no seu desktop para torn-lo mais silencioso.
Estes adaptadores ao muito simples e baratos de fabricar, embora o preo no varejo varie muito, j que
eles so um item relativamente raro:

272

Adaptador IDE 2.5" > 3.5"

6.3.2 SATA
As interfaces IDE foram originalmente desenvolvidas para utilizar o barramento ISA, usado nos micros 286.
Assim como no barramento ISA, so transmitidos 16 bits por vez e utilizado um grande nmero de pinos.
Como necessrio manter a compatibilidade com os dispositivos antigos, no existe muita margem para
mudanas dentro do padro, de forma que, mesmo com a introduo do barramento PCI e do PCI Express, as
interfaces IDE continuam funcionando fundamentalmente da mesma forma.
Mesmo quando foram introduzidas as interfaces ATA/66, a nica grande mudana foi a introduo dos
cabos de 80 vias, desenvolvidos de forma a permitir taxas de transmisso maiores, sem contudo mudar o
sistema de sinalizao, nem os conectores.
A partir de certo ponto, ficou claro que o padro IDE/ATA estava chegando ao seu limite e que mudanas
mais profundas s poderiam ser feitas com a introduo de um novo padro. Surgiu ento o SATA (Serial ATA).
Assim como o PCI Express, o SATA um barramento serial, onde transmitido um nico bit por vez em
cada sentido. Isso elimina os problemas de sincronizao e interferncia encontrados nas interfaces paralelas,
permitindo que sejam usadas frequncias mais altas.
Graas a isso, o cabo SATA bastante fino, contendo
apenas 7 pinos, onde 4 so usados para transmisso de
dados (j que voc precisa de 2 fios para fechar cada um
dos dois circuitos) e 3 so neutros, que ajudam a
minimizar as interferncias.
Os cabos SATA so bem mais prticos que os cabos
IDE e no prejudicam o fluxo de ar dentro do gabinete.
Os cabos podem ter at um metro de comprimento e
cada porta SATA suporta um nico dispositivo, ao
contrrio do padro master/slave do IDE/ATA. Por causa
disso, comum que as placas-me ofeream 4 portas
SATA (ou mais), com apenas as placas de mais baixo custo incluindo apenas duas.
No final, o ganho de desempenho permitido pela maior frequncia de transmisso acaba superando a
perda por transmitir um nico bit por vez (em vez de 16), fazendo com que, alm de mais simples e barato, o
padro SATA seja mais rpido.
Existem trs padres de controladoras SATA, o SATA 150 (tambm chamado de SATA 1.5 Gbit/s ou SATA
1500), o SATA 300 (SATA 3.0 Gbit/s ou SATA 3000) e tambm o padro SATA 600 (ou SATA 6.0 Gbit/s), que
ainda est em fase de popularizao. Como o SATA utiliza dois canais separados, um para enviar e outro para
receber dados, temos 150 ou 300 MB/s em cada sentido, e no 133 MB/s compartilhados, como no caso das
interfaces ATA/133.
Os nomes SATA 300 e SATA 3000 indicam, respectivamente, a taxa de transferncia (em MB/s) e a taxa
"bruta", em megabits. O SATA utiliza o sistema de codificao 8B/10B, o mesmo utilizado pelo barramento PCI
273

Express, onde so adicionados 2 bits adicionais de sinalizao para cada 8 bits de dados. Estes bits adicionais
substituem os sinais de sincronismo utilizados nas interfaces IDE/ATA, simplificando bastante o design e
melhorando a confiabilidade do barramento. Dessa forma, a controladora transmite 3000 megabits, que,
devido codificao, correspondem a apenas 300 megabytes. Ou seja, no um arredondamento.
As controladoras SATA 300 so popularmente chamadas de "SATA II" de forma que os dois termos
acabaram virando sinnimos. Mas, originalmente, "SATA II" era o nome da associao de fabricantes que
trabalhou no desenvolvimento dos padres SATA (entre eles o SATA 300) e no o nome de um padro
especfico. Da mesma forma, o padro de 600 MB/s chama-se SATA 600, e no "SATA III" ou "SATA IV". Mesmo
os prprios fabricantes de HDs no costumam usar o termo "SATA II", j que ele tecnicamente incorreto.
Outra curiosidade que muitas placas-me antigas, equipadas com controladoras SATA 150 (como as
baseadas no chipset VIA VT8237 e tambm nas primeiras revises dos chipsets SiS 760 e SiS 964), apresentam
problemas de compatibilidade com HDs SATA 300. Por causa disso, a maioria dos HDs atuais oferecem a opo
de usar um "modo de compatibilidade" (ativado atravs de um jumper), onde o HD passa a se comportar
como um dispositivo SATA 150, de forma a garantir a compatibilidade. Veja as instrues impressas na
etiqueta de um HD da Samsung:

No caso dos micros antigos, uma opo instalar uma controladora SATA. As mais baratas, com duas
portas e em verso PCI, j custam menos de 20 dlares no exterior e tendem a cair de preo tambm por aqui,
tornando-se um item acessvel, assim como as antigas controladoras USB em verso PCI, usadas na poca dos
micros Pentium 1 sem interfaces USB nativas.
Note que o uso do barramento PCI limita a velocidade da controladora a 133 MB/s (um pouco menos na
prtica, j que o barramento PCI compartilhado com outros dispositivos), o que limita o desempenho dos
HDs atuais. Existem ainda conversores (chamados de bridges), que permitem ligar um HD IDE diretamente a
uma porta SATA:

Controladora SATA com duas portas e um Bridge IDE > SATA


Com o lanamento do SATA, os HDs e as controladoras IDE/ATA passaram a ser chamadas de "PATA",
abreviao de "Parallel ATA", ressaltando a diferena.

274

6.4 RAID
Devido sua natureza mecnica, o HD um dos componentes mais lentos de qualquer PC. Embora o
desempenho venha crescendo de forma incremental a cada nova gerao, os ganhos no tm acompanhado o
aumento na capacidade de armazenamento. Ler todos os dados armazenados num HD atual, de 1 TB, demora
muito mais tempo do que num HD antigo, de 40 GB, por exemplo.
Ao invs de criar HDs muito rpidos, ou com um nmero muito grande de discos (e consequentemente
com uma maior capacidade), os fabricantes de HDs se especializaram em fabricar modelos padronizados,
utilizando um nico brao de leitura e de um a quatro platters, fabricados em grande quantidade e a um custo
relativamente baixo.
Para quem precisa de HDs mais rpidos, ou com uma capacidade muito maior, a melhor opo montar
um sistema RAID, onde possvel somar a capacidade e o desempenho de vrios HDs, ou ento sacrificar
parte do espao de armazenamento em troca de mais confiabilidade.
O termo RAID significa "Redundant Array of Inexpensive Disks" (ou "Redundant Array of Independent
Disks"), indicando justamente o uso de HDs padronizados e baratos como "blocos de montagem" para a
criao de sistemas que se comportam como um nico disco, maior, mais rpido e/ou mais confivel do que
suas peas individuais.

6.4.1 OS MODOS DE OPERAO


Um dos grandes atrativos do RAID a possibilidade de escolher entre diferentes modos de operao, de
acordo com a relao capacidade/desempenho/confiabilidade que voc pretende atingir. As opes bsicas
so:

6.4.1.1 RAID 0 (STRIPING)


O RAID 0 um "RAID pra ingls ver", onde o objetivo unicamente melhorar o desempenho, sacrificando
a confiabilidade.
Ao usar o RAID 0, todos os HDs passam a ser acessados como se fossem um nico drive. Ao serem
gravados, os arquivos so fragmentados nos vrios discos, permitindo que os fragmentos (stripes) possam ser
lidos e gravados simultaneamente, com cada HD realizando parte do trabalho. Usando RAID 0 a performance
fica em um patamar prximo da velocidade de todos os HDs somada. Ao usar 4 HDs com uma taxa de
transferncia e 50 MB/s (em leituras sequenciais) em RAID 0, voc teria uma taxa de transferncia total de
quase 200 MB/s em muitas situaes.
Na verdade, a distribuio dos dados nos drives no completamente uniforme. Os arquivos so divididos
em fragmentos de tamanho configurvel (opo "chunk size", ou "stripe size"). Se voc est utilizando 3 HDs
em RAID 0, utilizando fragmentos de 32 KB, por exemplo, ao gravar um arquivo de 80 KB teramos fragmentos
de 32 KB gravados nos dois primeiros HDs e os 16 KB finais seriam gravados no terceiro, sendo que os 16 KB
que "sobraram" no terceiro HD ficariam como espao desperdiado.
A configurao do stripe size, ou seja, do tamanho dos fragmentos, tem um efeito considervel sobre o
desempenho. Se voc usa predominantemente arquivos grandes, ento um stripe size de 64 KB ou mais
render os melhores resultados. Entretanto, no caso de um servidor que manipula um grande volume de
arquivos pequenos, valores mais baixos acabam resultando em um melhor desempenho e menos espao
desperdiado.
Ao criar um array com 4 HDs de 500 GB em RAID 0, voc teria um espao total de armazenamento de 2 TB,
onde toda a capacidade dedicada ao armazenamento de dados, sem redundncia:

275

HD 1

HD 2

HD 3

HD 4

Dados

Dados

Dados

Dados

O problema que cada HD armazena apenas fragmentos de cada arquivo e no arquivos completos. Por
causa dessa peculiaridade, caso qualquer um dos HDs apresente defeito, voc simplesmente perde todos os
dados.
O RAID 0 possivelmente o mais usado em desktops e tambm em alguns servidores de alto desempenho.
Ele a melhor opo caso voc queira o melhor desempenho possvel e tenha como manter um backup
atualizado dos dados gravados.
Assim como em outros modos RAID, no realmente obrigatrio usar HDs idnticos, mas isso
fortemente aconselhvel, pois tanto a capacidade quanto o desempenho ficam limitados capacidade do HD
mais lento.
Ao utilizar um HD de 500 GB e outro de 300 GB em RAID 0, o sistema ignora os ltimos 200 GB do HD
maior, de forma que voc acaba ficando com um total de 600 GB disponveis. Os acessos tambm precisam ser
sincronizados, de forma que ao utilizar um HD com taxa de transferncia mxima de 50 MB/s, em conjunto
com 30 MB/s, voc acaba tendo um mximo de 60 MB/s. Ou seja, utilizar dois HDs diferentes possvel, mas
geralmente no um bom negcio.

6.4.1.2 RAID 1 (MIRRORING)


Este modo permite usar dois HDs, sendo que o segundo armazenar uma imagem idntica do primeiro. Na
pratica, ser como se voc tivesse apenas um disco rgido instalado, mas caso o disco titular falhe por qualquer
motivo, voc ter uma cpia de segurana armazenada no segundo disco. Este o modo ideal se voc deseja
aumentar a confiabilidade do sistema.
Tambm possvel utilizar RAID 1 com quatro ou mais discos (desde que seja utilizado sempre um nmero
par). Nesse caso, um dos discos de cada par visto pelo sistema como um HD separado e o outro fica oculto,
guardando a cpia atualizada do primeiro. Ao utilizar 4 HDs de 500 GB em RAID 1, por exemplo, o sistema
enxergaria 2 HDs, de 500 GB cada um:
HD 1

HD 2

HD 3

HD 4

Dados

Cpia (mirror)

Dados

Cpia (mirror)

Usar RAID 1 no proporciona qualquer ganho de desempenho. Pelo contrrio, ele acaba causando uma
pequena perda em comparao com usar um nico drive, j que todas as alteraes precisam ser duplicadas e
realizadas em ambos os drives. Caso um dos HDs titulares falhe, o segundo entra em ao automaticamente,
substituindo-o at que voc possa substituir o drive.
Uma dica que, ao fazer RAID 1 utilizando discos IDE, procure colocar um em cada uma das duas
interfaces IDE da placa, isto melhorar o desempenho. Outro ponto que caso os dois discos estejam na
mesma interface, como master e slave, voc precisa reiniciar o micro caso o primeiro falhe. Usando um em
cada interface, a controladora far a troca automaticamente, sem necessidade de reset. Da prxima vez que
inicializar o micro voc receber um aviso pedindo para substituir o HD defeituoso. Esse problema no afeta as
controladoras SATA, j que nelas cada HD ligado a uma porta separada, sem a diviso de master/slave como
nos HDs IDE.
importante ressaltar que o RAID 1 um sistema dedicado a aumentar a disponibilidade, evitando que
voc tenha que desligar seu micro de trabalho ou servidor para restaurar um backup quando o HD falha. Ele
no substitui os backups, pois protege apenas contra falhas mecnicas do HD e no contra vrus e arquivos
deletados acidentalmente. Assim que os arquivos so apagados no primeiro, a alterao automaticamente
replicada no segundo, fazendo com que ambas as cpias sejam perdidas. Tambm no existe proteo contra
roubo, falhas causadas por raios (os dois HDs podem ser danificados simultaneamente) e assim por diante.
276

Particularmente, no recomendo o uso de RAID 1 como proteo contra perda de dados fora dos
servidores, pois ele acaba por criar um falso senso de segurana. O principal uso para o RAID 1, ou RAID 5,
aumentar a confiabilidade e o uptime de servidores de rede, j que o servidor continua funcionando como se
nada tivesse acontecido, mesmo que um dos HDs pife. Mas, mesmo nos servidores, nada substituiu os
backups.
Ao invs de usar dois HDs em RAID 1, seus dados estaro mais seguros se voc colocar o segundo HD numa
gaveta USB e us-lo para manter backups de todos os arquivos e dados pessoais. Deixe o HD desconectado do
PC e, de preferncia, guarde-o num local separado ou carregue-o com voc.
Na maioria das controladoras RAID SCSI e SAS possvel realizar a troca do HD defeituoso "a quente"
(recurso chamado de "hot swap"), com o micro ligado, recurso no disponvel nas controladoras RAID IDE e
SATA. O suporte a hot swap no to importante nos PCs domsticos j que um reset no toma mais do que
dois ou trs minutos do seu tempo, mas, em um servidor de alta disponibilidade, este recurso essencial para
evitar uma pane na rede.

6.4.1.3 RAID 10 (MIRROR/STRIP)


Este modo pode ser usado apenas caso voc tenha a partir de 4 discos rgidos e o mdulo total seja um
nmero par (6, 8, etc.). Neste modo, metade dos HDs sero usados em modo striping (RAID 0), enquanto a
segunda metade armazena uma cpia dos dados dos primeiros, assegurando a segurana.
Este modo na verdade uma combinao do RAID 0 e RAID 1, da o nome. O ponto fraco que voc
sacrifica metade da capacidade total. Usando 4 HDs de 500 GB, por exemplo, voc fica com apenas 1 TB de
espao disponvel.

6.4.1.4 RAID 5
Este modo muito utilizado em servidores com um grande nmero de HDs. Ele utiliza um mtodo
bastante engenhoso para criar uma camada de redundncia, sacrificando apenas uma frao do espao total,
ao invs de simplesmente usar metade dos HDs para armazenar cpias completas, como no caso do RAID 1.
O RAID 5 usa um sistema de paridade para manter a integridade dos dados. Os arquivos so divididos em
fragmentos de tamanho configurvel e, para cada grupo de fragmentos, gerado um fragmento adicional,
contendo cdigos de paridade.
Note que, ao invs de reservar um HD inteiro para a tarefa, os cdigos de correo so espalhados entre os
discos. Dessa forma, possvel gravar dados simultaneamente em todos os HDs, melhorando o desempenho.
O RAID 5 pode ser implementado usando a partir de 3 discos. Independentemente da quantidade de
discos usados, sempre temos sacrificado o espao equivalente a um deles. Ou seja, quanto maior a
quantidade de discos usados no array, menor a proporo de espao desperdiado.
Em um sistema com 5 HDs de 500 GB, teramos 2 TB de espao disponvel e 500 GB de espao consumido
pelos cdigos de paridade. Usando 8 HDs teremos 3.5 TB para dados e os mesmos 500 GB para paridade, e
assim por diante:
HD 1

HD 2

HD 3

HD 4

HD 5

80% dados

80% dados

80% dados

80% dados

80% dados

20% paridade

20% paridade

20% paridade

20% paridade

20% paridade

Graas forma como os bits de paridade so dispostos, possvel recuperar os dados de qualquer um dos
HDs que eventualmente falhe. Mais ainda, o sistema pode continuar funcionando normalmente, mesmo sem
um dos HDs.
A ideia por trs dessa aparente "mgica" bastante simples. A paridade consiste em adicionar um bit
adicional para cada grupo de bits. Ao usar 5 HDs, por exemplo, temos um bit extra para cada 4 bits de dados.
277

Caso dentro destes 4 bits exista um nmero par de bits 1, ento o bit de paridade 0. Caso exista um
nmero mpar de bits 1, ento o bit de paridade 1:
Bits

Paridade

Veja que, graas ao bit de paridade, possvel saber apenas que, dentro do grupo de 4 bits existe um
nmero par ou mpar de bits 1. Isso o suficiente para recuperar qualquer um dos 4 bits que seja perdido,
desde que sejam respeitadas duas condies:
a) Que apenas um bit de cada grupo seja perdido
b) Que se saiba qual dos bits foi perdido
No RAID 5 cada um dos bits dentro de cada grupo fica guardado em um dos HDs. Quando um deles
perdido, a controladora sabe exatamente quais bits foram perdidos e tem condies de recuper-los usando
uma verificao muito simples:
Bits

Paridade

Na primeira linha temos dois bits 1 e um bit 0. Se o bit de paridade 0, significa que temos um nmero par
de bits 1. Como j temos dois bits 1, ento claro que o bit que est faltando um zero. Na segunda linha
temos dois bits 1 e um bit 0. Como o bit de paridade 1, significa que temos um nmero mpar de bits 1.
Como temos apenas dois, significa que o bit perdido um bit 1.
Como disse, a controladora pode manter o sistema funcionando mesmo sem um dos HDs, realizando estes
clculos em tempo real para obter os dados que estavam armazenados nele. Quando o HD finalmente
substitudo, a controladora reescreve todos os dados (usando o mesmo processo) e o sistema volta ao estado
original.
Existe tambm a possibilidade de adicionar um ou mais discos sobressalentes num array. Esses HDs "extra"
so chamados de hot-spares, ou simplesmente de "spare disks" e so utilizados automaticamente caso algum
dos HDs titulares falhe, permitindo que o array seja restaurado imediatamente.
Embora o uso de hot-spares no seja muito comum em configuraes domsticas, eles so muito comuns
em grandes arrays RAID 5 (ou RAID 6) usados em grandes servidores.

6.4.1.5 RAID 6
O ponto fraco do RAID 5 que ele suporta a falha de um nico HD. Se por ventura um segundo HD falhar
antes que o primeiro seja substitudo, ou antes que a controladora tenha tempo de regravar os dados, voc
perde tudo, assim como acontece ao perder um dos HDs num array RAID 0. O uso de hot-spares minimiza a
possibilidade de um desastre acontecer, mas no a elimina completamente, pois de qualquer forma o sistema
fica vulnervel enquanto a controladora est regravando os dados no spare.
O RAID 6 um padro relativamente novo, suportado por apenas algumas controladoras. Ele semelhante
ao RAID 5, porm usa o dobro de bits de paridade, garantindo a integridade dos dados caso at 2 dos HDs
278

falhem ao mesmo tempo. Ao usar 7 HDs de 500 GB em RAID 6, por exemplo, teramos 2.5 TB para dados mais
1 TB de cdigos de paridade:
HD 1

HD 2

HD 3

HD 4

HD 5

HD 6

HD 7

71% dados

71% dados

71% dados

71% dados

71% dados

71% dados

71% dados

29% paridade

29% paridade

29% paridade

29% paridade

29% paridade

29% paridade

29% paridade

A percentagem de espao sacrificado decai conforme so acrescentados mais discos, de forma que o uso
do RAID 6 vai tornando-se progressivamente mais atrativo. No caso de um grande servidor, com 41 HDs, por
exemplo, seria sacrificado o espao equivalente a apenas dois discos, ou seja, menos de 5% do espao total.
Em troca, ganha-se proteo contra a possibilidade de um segundo HD falhar durante o processo de
substituio e reconstruo dos dados do primeiro.
Tanto no caso do RAID 5 quanto no RAID 6, o servidor continua funcionando normalmente durante todo o
processo de substituio do disco, embora a performance decaia, sobretudo logo depois da substituio do
drive defeituoso, quando o sistema precisa regravar os dados, lendo as informaes armazenadas em todos os
outros discos e fazendo os clculos de paridade.

6.4.1.6 JBOD
Este no um modo RAID, mas tambm bastante usado, sobretudo em servidores de arquivos. No JBOD
(Just a Bunch Of Disks) os HDs disponveis so simplesmente concatenados e passam a ser vistos pelo sistema
como um nico disco, com a capacidade de todos somada. Os arquivos so simplesmente espalhados pelos
discos, com cada um armazenando parte dos arquivos (nesse caso arquivos completos, e no fragmentos
como no caso do RAID 0).
No JBOD no existe qualquer ganho de desempenho, nem de confiabilidade. Caso um dos HDs apresente
defeito, os arquivos armazenados nele so perdidos, mas os arquivos armazenados nos demais continuam
intactos. Na verdade, o nico ganho o de praticidade, com a possibilidade de usar vrios discos para formar
um nico volume de grande capacidade, ao invs de ter que espalhar os arquivos e pastas entre os vrios HDs.
Ao contrrio dos outros modos RAID, no existe nenhum problema em combinar HDs com capacidades e
desempenho variados num sistema JBOD. Cada HD pode dar sua parcela de contribuio, independentemente
de sua capacidade.

6.4.1.7 EM RESUMO, OS PRINCIPAIS MODOS RAID

279

6.4.2 AS CONTROLADORAS
Existem trs categorias de RAID. A primeira a das controladoras que realizam todas as operaes via
hardware, o que inclui a maior parte das controladoras SCSI e SAS. Esse modo o ideal tanto do ponto de vista
do desempenho quanto do ponto de vista da compatibilidade e confiabilidade, j que a prpria controladora
executa todas as funes necessrias, de forma independente. O sistema operacional apenas acessa os dados,
como se houvesse um nico HD instalado.
Como disse, estas controladoras RAID "de verdade" so quase que invariavelmente, SCSI (no caso dos
modelos antigos) ou SAS. Alm de trabalharem via hardware, elas permitem o uso de um nmero maior de
drives. Muitas permitem o uso de um ou mais mdulos de memria (instalados na prpria controladora) que
funcionam como um cache adicional, ajudando a melhorar o desempenho do array. Outro recurso cada vez
mais utilizado (sobretudo nas controladoras SAS) o hot swap, onde voc pode substituir os discos
defeituosos com o sistema rodando. Os servidores com controladoras que suportam hot swap quase sempre
utilizam baias removveis, facilitando o acesso aos discos.
Nas controladoras que trabalham via hardware, toda a configurao feita atravs do BIOS da placa RAID,
que pode ser acessado pressionando uma combinao de teclas durante o boot. O mais comum pressionar
Ctrl+C pouco antes do incio do carregamento do sistema.

280

Controladora RAID SCSI


Naturalmente, estas controladoras so caras, sem falar no custo dos discos, por isso elas no so o tipo de
equipamento que voc compraria para instalar no seu desktop.
Em seguida, temos o RAID via software, onde todas as funes so executadas diretamente pelo sistema
operacional e os HDs so ligados diretamente s interfaces da placa-me. Neste caso, temos um trabalho
adicional de configurao, mas em compensao no preciso gastar com uma controladora dedicada.
possvel criar arrays RAID via software tanto no Linux quanto no Windows 2000, XP, 2003 Server e Vista.
No caso do Windows XP, a configurao de RAID via software feita no Painel de Controle > Ferramentas
Administrativas > Gerenciamento do Computador > Gerenciamento de discos.
Clique com o boto direito sobre um dos HDs que faro parte do array e selecione a opo "Converter em
disco dinmico". Na tela seguinte, marque todos os HDs que sero usados.
Depois de converter os HDs para discos dinmicos, clique novamente com o boto direito sobre um deles e
selecione a opo "Novo Volume". aberto o assistente que permite criar o array RAID.
As verses Home e Professional oferecem apenas as opes de criar arrays RAID 0 (distribudo) ou JBOD
(estendido), mas no 2000 ou 2003 Server possvel criar tambm arrays RAID 1 (Espelhado) e RAID 5, nesse
caso utilizando a partir de 3 HDs:

281

O terceiro modo o fake RAID utilizado pela maioria das controladoras baratas, includas nas placas-me
para desktop. No fake RAID utilizada uma combinao de funes adicionais no BIOS da placa e um driver
que roda pelo sistema operacional. No final, tudo processado via software, de forma que no existe ganho
de desempenho em relao a utilizar RAID via software. Apenas a configurao simplificada.
Na maioria das placas-me, a configurao segue uma lgica simples. Voc comea indicando quais drives
faro parte do array atravs do setup. Em seguida, usa a tecla F10, Ctrl+C, Ctrl+F, ou outra tecla de atalho para
acessar as opes de configurao do array RAID, onde voc pode escolher que tipo de array ser criado, o
tamanho dos fragmentos e assim por diante.
Na Asus K8N4-E, por exemplo, a opo para ativar o suporte a RAID e indicar quais drives sero usados
est escondida na seo "Advanced > Onboard Device Configuration > NVRAID Configuration":

A partir da, o BIOS da controladora RAID passa a ser inicializado durante o boot e voc pode acessar a
configurao pressionando a tecla "F10" durante o boot.
Dentro da configurao, adicione os drives que sero usados no array na coluna da direita e escolha entre
usar RAID 1 (Mirroring) ou RAID 0 (Stripping) na opo superior. Voc pode ainda ajustar o tamanho dos
fragmentos, atravs da opo "Stripping Block":

As controladoras fake RAID IDE suportam, na maioria dos casos, apenas os modos RAID 0, 1 e 10. Algumas
controladoras SATA oferecem a opo de usar RAID 5, nesse caso utilizando um mnimo de 3 drives. Tambm
possvel criar um array RAID 5 via software no Linux (consulte o "software RAID howto", disponvel no
tldp.org), utilizando tanto HDs IDE quanto drives SATA ou SCSI.
282

Assim como nas controladoras via hardware, as controladoras fake RAID possuem um BIOS prprio (na
verdade uma extenso que faz parte do BIOS principal), que permite criar os arrays. Muitas vezes, est
disponvel tambm um utilitrio acessvel atravs do Windows.
Como estas controladoras precisam de um driver adicional, voc precisa copiar os arquivos do driver para
um disquete e fornec-lo durante a instalao (pressionando a tecla "F6" quando exibida a mensagem
"Pressione F6 se precisar instalar um driver SCSI ou RAID de TERCEIROS") ao instalar o Windows XP
diretamente dentro do array RAID. No caso do Vista, os drivers podem ser carregados a partir de um pendrive.
Tanto o XP SP2 quanto o Vista incluem drivers para diversas controladoras, mas naturalmente no para
todas. A situao melhorou bastante no Windows 7, que trouxe um conjunto bem mais atualizado de drivers.
Outro problema que muitas controladoras fake RAID no possuem suporte no Linux e muitas no possuem
sequer drivers para o Vista. Nesse caso, a soluo partir para o RAID via software.
Depois de configurar o RAID, interessante simular a falha de um dos discos para ter certeza de que o
sistema reagir como esperado. A melhor forma simplesmente desligar o micro e desconectar um dos drives.
Se voc est usando RAID 1, 10 ou 5, o sistema dever continuar funcionando de forma normal depois de
novamente ligado, exibindo avisos durante o boot, ou incluindo entradas no log do sistema (ao utilizar RAID
via software). Ao utilizar RAID 0, o sistema simplesmente deixar de dar boot, j que a falha de um dos drives
implica na perda de todos os dados.

6.5 [EXTRA] A TRANSIO PARA OS SETORES DE 4 KBYTES


Tradicionalmente, os HDs usam setores de 512 bytes, uma caracterstica que persiste desde os HDs da
dcada de 80. Do ponto de vista dos sistemas operacionais e sistemas de arquivos, o uso de setores de 512
bytes garante um acesso a disco livre de problemas, j que os clusters usados pelo sistema de arquivos so
sempre compostos por um conjunto de setores no HD. Ao usar clusters de 4 kbytes, por exemplo, cada cluster
ser sempre composto por 8 setores.
O grande problema que cada setor precisa conter uma rea separada de bits de ECC (necessrios para
verificar os dados lidos a partir dos discos e corrigir erros), alm de uma pequena rea de separao
correspondente ao prembulo e bits de sincronismo (Sync/DAM) que permite que a controladora identifique o
incio e o final de cada setor.
Conforme a capacidade de armazenamento dos HDs foi aumentando, a rea da superfcie ocupada por
cada setor foi se tornando cada vez menor e o sinal magntico mais frgil. Com isso, os fabricantes se viram
obrigados a dedicar percentagens cada vez maiores da rea til dos discos a estas reas redundantes dentro
de cada setor.
A Western Digital, por exemplo, utiliza um total de 80 bytes adicionais por setor nos HDs de 1 TB, o que
corresponde a uma perda de 13% na capacidade. Mantendo o uso de setores de 512 bytes seria necessrio
aumentar a rea de ECC para 80 bytes nas prximas geraes, o que aumentaria a perda para 19%.
Embora no seja possvel reduzir o nmero de bits de ECC por setor sem comprometer a confiabilidade
dos discos, os fabricantes logo chegaram concluso de que seria possvel reduzir consideravelmente o
overhead ao adotar o uso de setores maiores. O grande motivo que o sistema de ECC se torna
progressivamente mais eficiente (menos bits de ECC por kbyte de dados) conforme aumenta o tamanho dos
blocos. Com isso, ao usar setores maiores, a proporo de bits de ECC por kbyte de dado se torna menor e a
diferena pode ser usada para aumentar a capacidade de armazenamento dos HDs.
Existem pesquisas com relao ao aumento dos tamanho dos setores desde o final da dcada de 90, mas
os fabricantes chegaram a um consenso apenas em 2006, concordando em torno do uso de setores de 4
kbytes, que a menor rea de alocao usada na maioria dos sistemas de arquivos atuais. Com a mudana,
283

passamos a ter uma nica rea de redundncia no final de cada setor de 4 kbytes, em vez de usar oito reas
separadas, uma para cada setor de 512 bytes.
No caso da Western Digital, isso representou uma reduo de 66% (de 80 bytes por setor de 512 bytes
para um total de 140 bytes por setor de 4 kbytes), o que representa um ganho real de 9% em relao aos
setores de 512 bytes com 40 bytes de ECC e de 15% no caso dos setores de 512 bytes com 80 bytes de ECC:

Slide da Western Digital mostrando a reduo no percentual ocupado pelos bits de correo.
A primeira a iniciar a transio foi a Western Digital, com a srie de 1 TB da linha Caviar Green. O novo
sistema foi batizado de "Advanced Format" e os primeiros HDs incluem um aviso sobre a necessidade de
"alinhar" as parties ao usar o Windows XP:

Para manter a compatibilidade com o Windows XP e distribuies Linux antigas (ainda sem suporte aos
setores de 4 KB) estes drives utilizam um sistema de emulao (batizado de read-modify write, ou RMW), que
faz com que os drivers reportem o uso de setores de 512 bytes para o sistema, fazendo a traduo dos
endereos via software.
284

O grande problema que o Windows XP cria por default a primeira partio a partir do setor 63, um setor
antes dos 64 setores que seriam necessrios para que o espao correspondesse a 8 setores de 4 kbytes. Essa
simples diferena de um setor no incio da partio faz com que todos os clusters da partio fiquem
desalinhados em relao aos setores, com cada cluster ocupando 512 bytes do setor anterior e 3584 bytes do
subsequente:

Embora o sistema continue funcionando normalmente, o desalinhamento reduz consideravelmente o


desempenho do HD (obrigando a controladora a ler os dois setores e reorganizar os dados antes de entreglos
ao
sistema),
da
a
necessidade
de
usar
o
WDAlign
(http://support.wdc.com/product/downloadsw.asp?sid=123) para alinhar a partio. Como pode imaginar, ele
trabalha movendo fisicamente todos os dados, o que torna a operao demorada.
A questo do alinhamento das parties afeta apenas o Windows XP e o 2003 Server (e verses antigas do
Windows) juntamente com distribuies Linux muito antigas, onde o tamanho dos setores fixado
(hardcoded) em 512 bytes. Tanto o Windows Vista, 2008 Server e o Windows 7 quanto as distribuies Linux
atuais, so capazes de trabalhar com setores de vrios tamanhos, sem necessidade de utilizar nenhum
utilitrio de alinhamento e sem perda de desempenho.
Embora tenha citado a Western digital como exemplo, apenas questo de tempo at que todos os
demais fabricantes iniciem a transio. Em um primeiro momento todos os drives utilizaro o sistema de
emulao e por isso continuaro funcionando em conjunto com sistemas operacionais antigos (com exceo
do problema de alinhamento), mas eventualmente os fabricantes iro puxar o plugue e passar a vender drives
"puros", sem o sistema de emulao. Isso no deve acontecer antes de 2014 ou 2015, mas quando a hora
chegar, teremos uma quebra de compatibilidade com o Windows XP e outros sistemas operacionais antigos.

6.6 SISTEMAS DE ARQUIVOS


A forma como a controladora do HD v os dados armazenados nos discos magnticos pode ser bem
diferente da forma como v o sistema operacional. Enquanto a controladora enxerga as trilhas, setores e
cilindros e se esfora para localiz-los nos discos magnticos, usando as marcaes servo, o sistema
operacional enxerga apenas uma longa lista de endereos, chamados de clusters ou blocos. Quando o sistema
precisa de um determinado arquivo, ele no se preocupa em tentar descobrir em qual trilha e setor ele est
armazenado. Ele apenas envia o endereo do bloco que deve ser lido e a controladora se encarrega do
restante.
O fato da controladora "esconder" as informaes sobre a organizao interna dos discos, o que faz com
que os sistemas operacionais sejam compatveis com todos os HDs do mercado, sem que seja necessrio
instalar drivers completos para cada um. Quando acontece de uma verso antiga do Windows ou de alguma
distribuio Linux no detectar seu HD durante a instalao, quase sempre o problema causado pela falta de
drivers para a interface IDE ou para a controladora SATA do chipset da placa-me, e no para o HD em si. A
primeira verso do Windows XP, por exemplo, no oferecia suporte nativo maioria das controladoras SATA,
de forma que era preciso fornecer um disquete com drivers durante a instalao.
285

Originalmente, os discos magnticos do HD so um terreno inexplorado, uma mata virgem sem qualquer
organizao. Para que os dados possam ser armazenados e lidos de forma organizada, necessrio que o HD
seja previamente formatado.
Em primeiro lugar, temos a formatao fsica, na qual os discos so divididos em trilhas, setores e cilindros
e so gravadas as marcaes servo, que permitem que a placa lgica posicione corretamente as cabeas de
leitura.
Nos HDs atuais, a formatao fsica feita em fbrica, durante a fabricao dos discos. O processo envolve
o uso de mquinas especiais e, apenas para garantir, restries so adicionadas no firmware do drive, para
que a placa lgica seja realmente impedida de fazer qualquer modificao nas reas reservadas. Graas a isso,
impossvel reformatar fisicamente um drive atual, independentemente do software usado.
No caso dos drives "pr-ATA", como os antigos ST-506 e ST-412, a histria era diferente. Eles precisavam
ser periodicamente reformatados fisicamente atravs do setup, pois as mudanas de temperatura, a vibrao
causada pelo motor de rotao e as prprias operaes de leitura e gravao acabavam por alterar a posio
das trilhas na mdia magntica, causando desalinhamento e dificultando a leitura dos dados pela cabea de
leitura. Era necessria, ento, uma nova formatao fsica, para que as trilhas, setores e cilindros, voltassem s
suas posies iniciais.
No caso dos discos atuais, esse processo no mais necessrio, pois as mdias so muito mais confiveis e
a placa controladora pode compensar eventuais desvios rapidamente, simplesmente calibrando o movimento
do brao de leitura.
Em seguida, temos a formatao lgica, que adiciona as estruturas utilizadas pelo sistema operacional. Ao
contrrio da formatao fsica, ela feita via software e pode ser refeita quantas vezes voc quiser. O nico
problema que, ao reformatar o HD, voc perde o acesso aos dados armazenados, embora ainda seja possvel
recuper-los usando as ferramentas apropriadas, como veremos mais adiante.
Chegamos ento ao sistema de arquivos, que pode ser definido como o conjunto de estruturas lgicas que
permitem ao sistema operacional organizar e otimizar o acesso ao HD. Conforme cresce a capacidade dos
discos e aumenta o volume de arquivos e acessos, esta tarefa torna-se mais e mais complicada, exigindo o uso
de sistemas de arquivos cada vez mais complexos e robustos.
Existem diversos sistemas de arquivos diferentes, que vo desde sistemas simples como o FAT16, que
utilizamos em cartes de memria, at sistemas como o NTFS, EXT3 e ReiserFS, que incorporam recursos
muito mais avanados.
A formatao do HD feita em duas etapas. A primeira o particionamento, onde voc define em quantas
parties o HD ser dividido e o tamanho de cada uma. Mesmo que voc no pretenda instalar dois sistemas
em dual boot, sempre interessante dividir o HD em duas parties, uma menor, para o sistema operacional,
e outra maior, englobando o restante do disco para armazenar seus arquivos. Com isso, voc pode reinstalar o
sistema quantas vezes precisar, sem o risco de perder junto todos os seus arquivos.
Podemos ter um total de 4 parties primrias ou trs parties primrias e mais uma partio estendida,
que pode englobar at 255 parties lgicas. justamente a partio lgica que permite dividir o HD em mais
de 4 parties.
Esta limitao das 4 parties primrias uma limitao que existe desde o primeiro PC, lanado em 1981.
Os projetistas que escreveram o BIOS para ele precisavam economizar memria e chegaram concluso que 2
bits (4 combinaes) para o endereo das parties seriam suficientes, pois na poca os HDs mais vendidos
tinham apenas 5 MB e s existia um sistema operacional para PCs (o MS-DOS), de forma que era raro algum
precisar criar mais de uma partio. As coisas mudaram bastante de l pra c, mas infelizmente a limitao
continua at os dias de hoje.

286

Para amenizar o problema, foi adicionada a possibilidade de criar parties lgicas. Em vez de criar 4
parties primrias e ficar sem endereos para criar novas parties, voc cria uma "partio estendida", que
uma espcie de container, que permite criar mais parties. A partio estendida contm uma rea extra de
endereamento, que permite enderear as 255 parties lgicas. possvel criar at 4 parties estendidas, de
forma que (em teoria) possvel dividir o HD em at 1020 parties.
Digamos que voc queira particionar um HD de 160 GB para instalar Windows e Linux em dual boot,
deixando uma partio de 20 GB para o Windows, uma partio de 20 GB para o Linux, uma partio de 1 GB
para swap (do Linux) e uma partio maior, englobando os 119 GB restantes para guardar seus arquivos.
Como precisamos de 4 parties no total, seria possvel criar diretamente 4 parties primrias, mas neste
caso voc ficaria sem endereos e perderia a possibilidade de criar novas parties mais tarde, caso resolvesse
testar uma outra distribuio, por exemplo.
Ao invs disso, voc poderia comear criando a partio de 20 GB do Windows como primria ( sempre
recomendvel instalar o Windows na primeira partio do HD e em uma partio primria, devido s
particularidades do sistema) e em seguida criar uma partio estendida, englobando todo o resto do espao,
criando as demais parties como parties lgicas dentro dela.
Este um screenshot do Gparted, que mostra um HD dividido em vrias parties. Veja que a quarta
partio est marcada como "extended", ou seja, como partio extendida. Ela no armazena dados, nem
ocupa um espao considervel no disco, mas permitiu que fossem criadas as parties de 5 a 7. Veja que existe
tambm um trecho marcado como "no alocada", ou seja, espao vago onde possvel criar mais uma
partio:

Exemplo de particionamento no Gparted


Do ponto de vista do sistema operacional, cada partio uma unidade separada, quase como se
houvesse dois ou trs discos rgidos instalados na mquina. Cada partio possui seu prprio diretrio raiz e
sua prpria FAT. As informaes sobre o nmero de parties, sua localizao no disco e o espao ocupado por
cada uma so armazenadas na tabela de partio, que compartilha o primeiro setor do disco com o setor de
boot.
Voc pode particionar o HD usando o prprio assistente mostrado durante a instalao do Windows XP ou
Vista, usando um dos particionadores mostrados durante a instalao de vrias distribuies Linux ou atravs
de programas avulsos, como o Partition Magic (no Windows) ou o Gparted (no Linux), que voc pode usar
dando boot atravs de uma distribuio live-CD que o traga pr-instalado.

287

Tanto o PartitionMagic quanto o Gparted so particionadores grficos fceis de usar. O espao disponvel
mostrado na forma de uma barra na parte superior da tela, que vai sendo dividida em retngulos menores,
conforme voc vai criando as parties. A cor de cada partio representa o sistema de arquivos usado e os
espaos no particionados do disco aparecem em cinza. Alm de criar e deletar parties, os dois programas
tambm oferecem opes adicionais, como redimensionar parties (sem perder os dados), muito til quando
voc j tem um sistema operacional instalado e precisa liberar espao para instalar um segundo sistema em
dual boot, por exemplo.
Este um screenshot do PartitionMagic. Veja que a interface muito similar do Gparted, que mostrei h
pouco:

PartitionMagic
Em seguida, temos a formatao propriamente dita, onde as estruturas do sistema de arquivos so
finalmente gravadas na partio. Na maioria dos casos, o prprio programa de particionamento se encarrega
de formatar a partio usando o sistema de arquivos escolhido, mas, em outros, temos dois programas
diferentes, como no caso do fdisk e do format, usados no Windows 98.
No mundo Windows, temos apenas trs sistemas de arquivos: FAT16, FAT32 e NTFS. O FAT16 o mais
antigo, usado desde os tempos do MS-DOS, enquanto o NTFS o mais complexo e atual. Apesar disso, temos
uma variedade muito grande de sistemas de arquivos diferentes no Linux (e outros sistemas Unix), que
incluem o EXT2, EXT3, ReiserFS, XFS, JFS e muitos outros. Para quem usa apenas o Windows, estes sistemas
podem parecer exticos, mas eles so velhos conhecidos de quem trabalha com servidores, j que neles o
Linux o sistema mais popular.
Vamos comear estudando as estruturas do sistema FAT. Por ser o sistema mais antigo ele tambm o
mais simples e mais fcil de entender.

6.6.1 FAT16 E FAT32


O sistema FAT16 uma espcie de "pau pra toda obra", j que compatvel com praticamente todos os
sistemas operacionais e tambm dispositivos como cmeras, palmtops, celulares e mp3players. Ele o sistema
de arquivos usado por padro nos cartes SD e tambm nos pendrives de at 2 GB. S recentemente os
cartes passaram a utilizar FAT32, com a introduo do padro SDHC.
No sistema FAT, o HD dividido em clusters, que so a menor parcela do HD vista pelo sistema
operacional. Cada cluster possui um endereo nico, que permite ao sistema localizar os arquivos
armazenados. Um grande arquivo pode ser dividido em vrios clusters, mas no possvel que dois arquivos
pequenos sejam gravados dentro do mesmo cluster. Cada cluster pode ser composto por de 1 a 64 setores (ou
seja, de 512 bytes a 32 KB), de acordo com o tamanho da partio.

288

A principal limitao que, como o nome sugere, o FAT16 usa endereos de 16 bits para enderear os
clusters dentro da partio, permitindo um mximo de 65536 clusters, que no podem ser maiores que 32 KB.
Isso resulta num limite de 2 GB para as parties criadas.
No caso de HDs (e tambm pendrives ou cartes) maiores que 2 GB, possvel criar vrias parties de 2
GB cada uma, at utilizar todo o espao disponvel. Esta pode ser uma soluo no caso de dispositivos com 4
ou 5 GB, por exemplo, mas, naturalmente, no uma opo realstica no caso de um HD de 60 GB, por
exemplo, onde seria necessrio criar 30 parties!
Numa partio de 2 GB, cada cluster possui 32 KB, o que acaba resultando num grande desperdcio de
espao ao gravar uma grande quantidade de arquivos pequenos. Imagine que gravssemos 10.000 arquivos de
texto, cada um com apenas 300 bytes. Como um cluster no pode conter mais do que um arquivo, cada
arquivo iria ocupar um cluster inteiro, ou seja, 32 kbytes. No total, os 10.000 arquivos ocupariam um total de
10.000 clusters, ou seja, um total de 320 MB!
O tamanho dos clusters em parties FAT16 varia de acordo com o tamanho da partio. Quanto maior o
tamanho da partio, maior o tamanho dos clusters:
Tamanho da Partio

Tamanho dos Clusters usando FAT16

Entre 1 e 2 GB

32 KB

Menor que 1 GB

16 KB

Menor que 512 Mb

8 KB

Menor que 256 Mb

4 KB

Como em toda regra, existe uma exceo. O Windows NT permitia criar parties FAT de at 4 GB usando
clusters de 64 KB, mas este foi um recurso pouco usado, devido ao desperdcio de espao.
A verso original do Windows 95 suportava apenas o FAT16, obrigando quem possua HDs maiores que 2
GB a dividi-los em duas ou mais parties e lidar com o desperdcio de espao causado pelos clusters de 32 KB.
A soluo foi a criao do sistema FAT32, que foi incorporado no Windows 95 OSR/2 e continuou sendo usado
nas verses seguintes.
A principal evoluo foi o uso de endereos de 32 bits para o endereamento dos clusters, o que possibilita
a criao de parties muito maiores, de at 2 terabytes. Isso foi possvel por que o Windows 95 era um
sistema de 32 bits, ao contrrio do MS-DOS e do Windows 3.1, que eram sistemas de 16 bits.
A princpio, o uso de endereos de 32 bits permitiu o uso de clusters de 4 KB mesmo em parties muito
grandes mas, por questes de desempenho, ficou estabelecido que por default os clusters de 4 KB seriam
usados apenas em parties de at 8 GB. Acima disto, o tamanho dos clusters varia de acordo com o tamanho
da partio:
Tamanho da partio

Tamanho do cluster

Menor do que 8 GB

4 KB

De 8 GB a 16 GB

8 KB

De 16 GB a 32 GB

16 KB

Maior do que 32 GB

32 KB

Usando clusters de 4 KB, os 10.000 arquivos do exemplo anterior ocupariam apenas 40 MB, uma economia
considervel. De fato, ao converter uma partio FAT16 para FAT32 normal conseguir de 10 a 20% de
reduo no espao ocupado, devido reduo do espao desperdiado.
A grande limitao do sistema FAT32 est relacionada ao tamanho mximo dos arquivos. Mesmo usando
uma grande partio, no possvel armazenar arquivos com mais de 4 GB, o que um grande problema para
289

quem trabalha com arquivos grandes, como vdeos em formato RAW (sem compresso). No possvel sequer
armazenar um ISO de DVD, j que a cpia ou transferncia ser sempre abortada depois de transferidos os
primeiros 4 GB.
No existe qualquer sinal de que futuras verses do sistema de arquivos derrubaro esta limitao, j que
a Microsoft vem recomendando o uso do NTFS desde a primeira verso do Windows XP, de forma que a
melhor opo, para quem usa Windows, seguir a recomendao e migrar para ele.
Outra limitao que o particionador usado durante a instalao do Windows XP se recusa a formatar
parties FAT32 maiores do que 32 GB. Este um limite do software e no do sistema de arquivos em si. A
soluo para criar parties FAT maiores utilizar o PartitionMagic, Gparted ou outro particionador para criar
a partio e em seguida apenas instalar o sistema na partio criada.
Uma curiosidade que, antes do FAT16, existiu o FAT12, um sistema ainda mais primitivo, utilizado em
disquetes e tambm nas primeiras verses do MS-DOS. Nele, so usados endereos de apenas 12 bits para
enderear os clusters, permitindo um total de 4096 clusters de at 4 KB, o que permitia parties de at 16
MB.
Em 1981, quando o IBM PC foi lanado, 16 MB parecia ser uma capacidade satisfatria, j que naquela
poca os discos rgidos tinham apenas 5 ou 10 MB. Claro que, em se tratando de informtica, por maior que
seja um limite, ele jamais ser suficiente por muito tempo. Um excelente exemplo a clebre frase "Por que
algum iria precisar de mais de 640 KB de memria RAM?" dita por Bill Gates em uma entrevista, no incio da
dcada de 80. Logo comearam a ser usados discos de 40, 80 ou 120 MB, obrigando a Microsoft a criar a FAT
16, e inclu-la na verso 4.0 do MS-DOS.
Apesar de obsoleto, o FAT12 ainda continua vivo at os dias de hoje, fazendo companhia para outro
fantasma da informtica: os disquetes. Por ser mais simples, o FAT12 o sistema padro para a formatao
dos disquetes de 1.44", onde so usados clusters de apenas 512 bytes.
Estruturas Lgicas: Todos os vrios sistemas de arquivos so constitudos de um conjunto de estruturas
lgicas, que permitem ao sistema operacional organizar os dados gravados e acess-los com a maior
velocidade e confiabilidade possveis.
Tudo comea com o setor de boot, que lido pelo BIOS da placa-me no incio do boot, logo aps a
contagem de memria e outros procedimentos executados durante o POST.
O setor de boot, tambm chamado de MBR ou trilha zero, contm dois componentes essenciais. O
primeiro um bootstrap, o software responsvel por iniciar o carregamento do sistema operacional.
Tipicamente, utilizado um gerenciador de boot, como o NTLDR (usado pelo Windows XP) ou o Grub (usado
pela maior parte das distribuies Linux). A funo do gerenciador de boot mostrar uma lista com os
sistemas operacionais instalados no incio do boot e carregar o sistema escolhido.
O bootstrap ocupa os primeiros 446 bytes do MBR. Os 66 bytes restantes so usados para armazenar a
tabela de parties, que guarda informaes sobre onde cada partio comea e termina. Alguns vrus, alm
de acidentes em geral, podem danificar os dados armazenados na tabela de partio, fazendo com que parea
que o HD foi formatado. Mas, na maioria dos casos, os dados continuam l, intactos, e podem ser
recuperados.
Depois que o disco rgido foi formatado e dividido em clusters, mais alguns setores so reservados para
guardar a FAT ("file allocation table" ou "tabela de alocao de arquivos"). A funo da FAT servir como um
ndice, armazenando informaes sobre cada cluster do disco. Atravs da FAT, o sistema sabe se uma
determinada rea do disco est ocupada ou livre e pode localizar qualquer arquivo armazenado.
Cada vez que um novo arquivo gravado ou apagado, o sistema operacional altera a FAT, mantendo-a
sempre atualizada. A FAT to importante que, alm da tabela principal, armazenada tambm uma cpia de
segurana, que usada sempre que a tabela principal danificada de alguma maneira.
290

Todos os demais sistemas de arquivos utilizam algum tipo de ndice, similar FAT. Quando o HD
reformatado, este ndice apagado e substitudo por uma tabela em branco. Apesar disso, os arquivos
continuam gravados nas mesmas posies, embora inacessveis. Enquanto eles no forem realmente
sobrescritos por outros, possvel recuper-los usando um programa de recuperao de dados, como
veremos em detalhes mais adiante.
Em seguida, temos o diretrio raiz. Se fssemos comparar um disco rgido, formatado em FAT16 ou FAT32,
com um livro, as pginas seriam os clusters, a FAT serviria como as legendas e numerao das pginas,
enquanto o diretrio raiz seria o ndice, com o nome de cada captulo e a pgina onde ele comea.
O diretrio raiz ocupa mais alguns setores no disco, logo aps os setores ocupados pela FAT. Cada arquivo
ou diretrio do disco rgido possui uma entrada no diretrio raiz, com o nome do arquivo, a extenso, a data
de quando foi criado ou quando foi feita a ltima modificao, o tamanho em bytes e o nmero do cluster
onde o arquivo comea.
Um arquivo pequeno pode ser armazenado em um nico cluster, enquanto um arquivo grande
"quebrado" e armazenado ocupando vrios clusters. Nesse caso, haver no final de cada cluster uma
marcao, indicando o prximo cluster ocupado pelo arquivo. No ltimo cluster ocupado, temos um cdigo
que marca o fim do arquivo.

Quando um arquivo deletado, simplesmente removida sua entrada no diretrio raiz, fazendo com que
os clusters ocupados por ele paream vagos para o sistema operacional. Ao gravar um novo arquivo no disco,
o sistema simplesmente procura o primeiro setor livre, continuando a grav-lo nos setores livres seguintes,
mesmo que estejam muito distantes uns dos outros. Surge ento o problema da fragmentao, que reduz
consideravelmente a velocidade de acesso, j que dados espalhados significam mais movimentos da cabea de
leitura.
Ao contrrio de outros sistemas de arquivos mais modernos, o sistema FAT (tanto o FAT16 quanto o
FAT32) no possui nenhum mecanismo que impea (ou pelo menos diminua) a fragmentao, da a
necessidade de rodar o defrag ou outro programa desfragmentador periodicamente. A funo deles mover
os arquivos, de forma que eles fiquem gravados em clusters sequenciais.
Uma curiosidade que a fragmentao um problema apenas nos HDs, j que eles trabalham com tempos
de acesso muito altos. Nos cartes de memria, o tempo de acesso comparativamente muito baixo, de
forma que a fragmentao possui um impacto muito pequeno sobre a performance.

6.6.2 NTFS
O NTFS um sistema de arquivos mais antigo do que muitos acreditam. Ele comeou a ser desenvolvido
no incio da dcada de 90, quando o projeto do Windows NT dava os seus primeiros passos.
J que o grande problema do sistema FAT16 era o fato de serem usados apenas 16 bits para o
endereamento de cada cluster, permitindo apenas 65 mil clusters por partio, o NTFS incorporou desde o
incio a capacidade para enderear os clusters usando endereos de 64 bits. A nica limitao agora passa a ser
o tamanho dos setores do HD. Como cada setor possui 512 bytes, o tamanho de cada cluster usando NTFS
tambm poder ser de 512 bytes, independentemente do tamanho da partio.
sem dvida um grande avano sobre os clusters de 32 KB e as parties de at 2 GB do sistema FAT16.
Mas, existe um pequeno problema em enderear parties muito grandes usando clusters de 512 bytes: o
291

desempenho. Com um nmero muito grande de clusters, o processamento necessrio para encontrar os
dados desejados passa a ser muito grande, diminuindo a performance.
Assim como na FAT 32, ficou estabelecido que o tamanho mnimo de clusters seria usado por default
apenas em parties de um certo tamanho:
Tamanho da partio

Tamanho do cluster

at 512 MB

512 bytes

at 1 GB

1 KB

at 2 GB

2 KB

acima de 2 GB

4 KB

Apesar do default ser usar clusters de 4 KB em qualquer partio maior do que 2 GB, voc pode criar
parties com clusters do tamanho que desejar, atravs do assistente para criao de parties do Windows
2000/XP, que pode ser encontrado no "Painel de controle > Ferramentas Administrativas > Gerenciamento do
computador > Armazenamento > Gerenciamento de disco". Do lado direito da tela ser mostrado um mapa
dos HDs instalados na mquina, basta clicar com o boto direito sobre uma rea de espao livre e em seguida
em "criar partio":

Continuando, mais uma vantagem do sistema NTFS que os nomes de arquivos e pastas utilizam
caracteres em Unicode, em vez de ACSII. O ASCII o sistema onde cada caracter ocupa 1 byte de dados, mas
so permitidas apenas letras, nmeros e alguns caracteres especiais. No Unicode, cada caracter ocupa dois
bytes, o que permite 65 mil combinaes, o suficiente para armazenar caracteres de diversos idiomas. Isso
permite que usurios do Japo, China, Taiwan e outros pases que no utilizam o alfabeto ocidental, possam
criar arquivos usando caracteres do seu prprio idioma, sem a necessidade de instalar drivers e programas
adicionais.
Outro ponto importante onde o NTFS superior ao sistema FAT na tolerncia a falhas. No sistema FAT,
sempre que o sistema trava ou desligado enquanto esto sendo atualizados arquivos e diretrios no HD,
existe uma possibilidade muito grande de o sistema tornar-se inconsistente, com arquivos interligados,
agrupamentos perdidos e outros problemas. Surge, ento, a necessidade de rodar o scandisk depois de cada
desligamento incorreto.
292

No NTFS, o sistema mantm um log de todas as operaes realizadas. Com isto, mesmo que o micro seja
desligado bem no meio da atualizao de um arquivo, o sistema poder, durante o prximo boot, examinar
este log e descobrir exatamente em que ponto a atualizao parou, tendo a chance de automaticamente
corrigir o problema. Alm de reduzir a perda de tempo, a possibilidade de perda de dados muito menor.
Se voc chegou a usar o Windows 95/98/ME, deve lembrar-se da "tela de boas vindas" do scandisk, que
era executado aps cada desligamento incorreto:

O famigerado teste do scandisk...


Clusters contendo setores defeituosos tambm so marcados automaticamente, conforme so
detectados, sem a necessidade de usar o scandisk ou qualquer outro utilitrio. Nesse caso, a marcao feita
na tabela de endereamento da partio, de forma que a lista de setores defeituosos perdida ao
reparticionar o HD. Antigamente, os HDs eram menos confiveis e o aparecimento de setores defeituosos, um
fenmeno muito mais comum, de forma que muitos aplicativos de formatao realizavam um teste de
superfcie durante a formatao da partio (como no caso do format usado no Windows 95/98, onde
formatar uma partio podia demorar mais de uma hora). Atualmente, a maioria dos programas realiza uma
formatao rpida, presumindo que o HD no possua setores defeituosos.
Existiram diversas verses do NTFS, que acompanharam a evoluo do Windows NT. A partir do Windows
2000, foi introduzido o NTFS 5, que trouxe diversos aperfeioamentos, incluindo o suporte ao Active Directory.
Outro recurso interessante a possibilidade de encriptar os dados gravados, de forma a impedir que sejam
acessados por pessoas no autorizadas, mesmo caso o HD seja removido e instalado em outro micro. Este
recurso de encriptao interessante, por exemplo, para profissionais de campo, que levam dados secretos
em seus laptops. possvel tanto criptografar o disco inteiro quanto pastas ou arquivos individuais.
Tambm possvel compactar pastas e arquivos individuais, economizando espao em disco. No Windows
95/98 era possvel compactar parties usando o drvspace, mas s era possvel compactar parties inteiras, o
que normalmente acaba no sendo um bom negcio, pois diminua bastante a velocidade do micro e
aumentava a possibilidade de perda de dados. Naturalmente, a compactao tambm diferente da feita por
programas como o Winzip, j que os arquivos e pastas continuam acessveis exatamente da mesma forma,
com o sistema fazendo a compactao e descompactao do arquivo de forma transparente.
Com a possibilidade de compactar pastas individuais, voc pode comprimir apenas as pastas contendo um
grande volume de arquivos que suportam um bom nvel de compresso, deixando de lado pastas com fotos,
msicas e arquivos de vdeo, arquivos que j esto comprimidos. Para compactar uma pasta, acesse o menu
"Propriedades". Na seo "avanadas", marque a opo "Compactar arquivos para economizar espao".
293

A compactao de arquivos exige uma carga adicional de processamento, j que o sistema tem o trabalho
de descompactar os arquivos antes de acess-los. Antigamente, usar compactao reduzia muito o
desempenho do sistema, j que os processadores eram mais lentos. Num micro atual, a reduo muito
menos significativa e, em muitos casos, o uso da compactao pode at mesmo melhorar o desempenho, j
que arquivos compactados ocupam menos espao e, consequentemente, so lidos mais rapidamente pela
cabea de leitura.

6.6.3 EXT3
O EXT3 atualmente o sistema de arquivos mais utilizado no mundo Linux. Usado por padro pela grande
maioria das distribuies.
Tudo comeou com o sistema EXT (Extended File System), introduzido em 1992. Nos estgios primrios de
desenvolvimento, o Linux utilizava um sistema de arquivos bem mais antigo, o MinixFS (o Minix um sistema
Unix, que Linux Torvalds usou como base nos estgios primrios do desenvolvimento do Linux). Entretanto, o
MinixFS possua pesadas limitaes, mesmo para a poca. Os endereos dos blocos de dados tinham apenas
16 bits, o que permitia criar parties de no mximo 64 MB. Alm disso, o sistema no permitia nomes de
arquivos com mais de 14 caracteres.
No de se estranhar que, em pouco tempo o Linux ganhou seu sistema de arquivos prprio, o "Extended
File System", ou simplesmente EXT, que ficou pronto em abril de 92 a tempo de ser includo no Kernel 0.96c.
Nesta primeira encarnao, o EXT permitia a criao de parties de at 2 GB e suportava nomes de
arquivos com at 255 caracteres. Foi um grande avano, mas o sistema ainda estava muito longe de ser
perfeito. O desempenho era baixo e ele era to sujeito fragmentao de arquivos quanto o sistema FAT.
Alm disso, logo comearam a surgir HDs com mais de 2 GB, de forma que em 1993 surgiu a primeira grande
atualizao, na forma do EXT2.
O EXT2 trouxe suporte a parties de at 32 TB, manteve o suporte a nomes de arquivos com at 255
caracteres, alm de diversos outros recursos.
O maior problema do EXT2 que ele no inclui nenhum sistema de tolerncia a falhas. Sempre que o
sistema desligado incorretamente, necessrio utilizar o fsck, um utilitrio similar ao scandisk do Windows,
que verifica todos os blocos do sistema de arquivos, procurando por inconsistncias entre as estruturas e
descries e os dados efetivamente armazenados.
O teste do fsck demora bastante (bem mais que o scandisk) e o tempo cresce proporcionalmente de
acordo com o tamanho da partio. Em um HD atual, o teste pode, literalmente, demorar horas.
Este problema foi corrigido com o EXT3, que foi introduzido em 1999. A principal caracterstica do EXT3 o
uso do recurso de journaling, onde o sistema de arquivos mantm um journal (dirio) das alteraes
realizadas, um recurso similar ao LFS usado no NTFS.
Este "dirio" armazena uma lista das alteraes realizadas, permitindo que o sistema de arquivos seja
reparado de forma muito rpida aps o desligamento incorreto. O fsck continua sendo usado, mas agora ele
joga de acordo com as novas regras, realizando o teste longo apenas quando realmente necessrio.
O EXT3 possui trs modos de operao:

No modo ordered (o default), o journal atualizado no final de cada operao. Isto faz com que exista
uma pequena perda de desempenho, j que a cabea de leitura do HD precisa realizar duas operaes
de gravao, uma no arquivo que foi alterado e outra no journal (que tambm um arquivo, embora
especialmente formatado) ao invs de apenas uma.

No modo writeback o journal armazena apenas informaes referentes estrutura do sistema de


arquivos (metadata) e no em relao aos arquivos propriamente ditos, e gravado de forma mais
ocasional, aproveitando os momentos de inatividade. Este modo o mais rpido, mas em
294

compensao oferece uma segurana muito menor contra perda e corrompimento de arquivos
causados pelos desligamentos incorretos.

Finalmente, temos o modo journal, que o mais seguro, porm mais lento. Nele, o journal armazena
no apenas informaes sobre as alteraes, mas tambm uma cpia de segurana de todos os
arquivos modificados, que ainda no foram gravados no disco. A cada alterao, o sistema grava uma
cpia do arquivo (no journal), atualiza as informaes referentes estrutura do sistema de arquivos,
grava o arquivo e atualiza novamente o journal, marcando a operao como concluda. Como disse,
isso garante uma segurana muito grande contra perda de dados, mas em compensao reduz o
desempenho drasticamente. Justamente por causa disso, este o modo menos usado.

Para usar o modo writeback ou o modo journal, voc deve adicionar a opo "data=writeback", ou
"data=journal" nas opes referentes partio, dentro do arquivo "/etc/fstab".
Desta forma, ao invs de usar "/dev/hda5 /mnt/hda5 ext3 defaults 0 2", por exemplo, voc usaria
"/dev/hda5 /mnt/hda5 ext3 data=writeback 0 2"
O EXT3 (assim como o EXT2) utiliza endereos de 32 bits e blocos (anlogos aos clusters usados no sistema
FAT) de at 8 KB. Tanto o tamanho mximo da partio quanto o tamanho mximo dos arquivos so
determinados pelo tamanho dos blocos, que pode ser escolhido durante a formatao:
Tamanho dos blocos

Tamanho mximo da partio

Tamanho mximo dos arquivos

1 KB

2 TB

16 GB

2 KB

8 TB

256 GB

4 KB

16 TB

2 TB

8 KB

32 TB

2 TB

Uma observao que, em verses antigas do Kernel, o limite para o tamanho mximo de arquivos no
EXT2 j foi de 2 GB e em seguida de 16 GB, mas ambas as limitaes caram a partir do Kernel 2.6, chegando
tabela atual.
Por padro, o tamanho do bloco determinado automaticamente, de acordo com o tamanho da partio,
mas possvel forar o valor desejado usando o parmetro "-b" do comando mkfs.ext3 (usado para formatar
as parties EXT3 no Linux), como em "mkfs.ext3 -b 2048 /dev/hda1" (cria blocos de 2 KB) ou "mkfs.ext3 -b
4096 /dev/hda1" (para blocos de 4 KB).
Assim como no caso do NTFS, usar clusters maiores resulta em mais espao desperdiado (sobretudo ao
guardar uma grande quantidade de arquivos pequenos) mas, alm do aumento no tamanho mximo dos
arquivos e parties, resulta em um pequeno ganho de desempenho, j que reduz o processamento e o
nmero de atualizaes na estrutura do sistema de arquivos ao alterar os dados gravados.
Embora o limite de 32 TB para as parties EXT3 no seja um problema hoje em dia, ele tende a se tornar
um obstculo conforme os HDs cresam em capacidade, assim como os limites anteriores. Para evitar isso, o
EXT4, legtimo sucessor do EXT3, incorporou o uso de endereos de 48 bits, o que permite enderear um
volume virtualmente ilimitado de blocos (s para referncia, o EXT4 permite criar parties de at 1024
petabytes).
O limite de 2 TB para os arquivos tambm foi removido, abrindo espao para o armazenamento de bases
de dados gigantes e outros tipos de arquivos que eventualmente venham a superar esta marca.
Embora existam diversos outros sistemas de arquivos para o Linux, como o ReiserFS, XFS, JFS e assim por
diante, o EXT3 continua sendo o sistema de arquivos mais utilizado, j que ele atende bem maioria e muito
bem testado e por isso bastante estvel. A tendncia que o EXT3 seja lentamente substitudo pelo EXT4 e os
demais sistemas continuem entrincheirados em seus respectivos nichos.
295

6.7 [EXTRA] RECUPERAO DE DADOS


Um dos problemas fundamentais dos HDs que, por guardarem uma quantidade muito grande de
informaes, qualquer defeito tem um efeito potencialmente catastrfico. muito diferente de riscar ou
perder um CD-ROM, por exemplo, j que o CD armazena uma pequena quantidade de dados, geralmente
cpias de dados que esto gravados em algum outro lugar.
Os casos de perda de dados podem ser divididos em duas classes: falhas causadas por defeitos mecnicos,
onde o HD realmente para de funcionar, impedindo a leitura, e os defeitos lgicos, onde os dados so
apagados ou ficam inacessveis, mas o HD continua funcionando.
Diferentemente dos demais componentes do micro, que so eletrnicos, o HD composto de partes
mveis, componentes mecnicos que se desgastam e possuem uma vida til definida. bem verdade que os
HDs atuais so muito mais confiveis do que os modelos que utilizvamos h dez ou vinte anos atrs, mas o
ndice de defeitos continua sendo relativamente grande.
Componentes individuais do HD, como o brao de leitura e o motor de rotao podem ser substitudos e
os prprios discos podem ser removidos e instalados em outro HD, de forma que os dados possam ser lidos.
Entretanto, a "manuteno de HDs" possui trs problemas que impedem que ela seja utilizada em larga escala.
O primeiro que voc precisa de outro HD idntico ao primeiro, de onde possa retirar peas. Ou seja, para
recuperar um HD, voc precisaria, quase sempre, inutilizar outro. O segundo que o processo bastante
delicado, sobretudo ao manipular os discos e as cabeas de leitura, que so incrivelmente sensveis, Alm
disso, temos o problema principal, que a necessidade de realizar todo o processo dentro de uma sala limpa,
j que a poeira presente no meio ambiente condena qualquer HD aberto fora de uma.
Defeitos na placa lgica do HD podem ser resolvidos com a substituio dos componentes avariados ou
(mais simples) com a substituio da placa lgica inteira por outra, retirada de um HD do mesmo modelo.
Como a placa lgica externa, muito simples substitu-la e perfeitamente possvel encontrar outro HD
idntico venda, pesquisando nos sites de leilo. Qualquer volume de dados importantes vale muito mais do
que um HD usado.
Entretanto, defeitos nos componentes internos do HD demandam os servios de uma empresa
especializada em recuperao de dados, que tenha uma sala limpa e a aparelhagem necessria. Na grande
maioria dos casos, abrir o HD em casa s vai servir para reduzir as chances de recuperao dos dados.

6.7.1 S.M.A.R.T
A boa notcia sobre os defeitos mecnicos que, na maioria dos casos, eles so causados por desgaste
cumulativo, de forma que, antes de parar definitivamente, o HD emite sinais que permitem perceber que algo
est errado.
Tudo geralmente comea com uma reduo progressiva no desempenho, causada por desgaste do motor
de rotao, desgaste do sistema que movimenta as cabeas de leitura, erros de leitura ou as trs coisas
combinadas.
Outro sinal caracterstico um barulho de "click click" no incio do boot (que com o tempo passa a se
tornar mais e mais frequente, at que o HD passa a no fazer outra coisa ao ser ligado). Ele indica problemas
de posicionamento das cabeas de leitura, causados por envelhecimento da mdia ou danos cumulativos nas
prprias cabeas. normal que o HD emita um "click" ao ser ligado ou retornar do modo de economia de
energia, mas clicks repetidos so sinal de problema.
Outros sinais, menos visveis, so monitoradas pela prpria placa lgica do HD, utilizando um sistema
chamado S.M.A.R.T. O relatrio armazenado em uma rea de memria no voltil do HD e guarda
informaes estatsticas armazenadas desde o primeiro boot.
296

O S.M.A.R.T no tem como prever defeitos sbitos, como um chip estourado na placa lgica, por causa de
um pico de tenso, mas ele faz um bom trabalho em alertar sobre o risco de defeitos mecnicos.
Todos os HDs atuais oferecem suporte ao S.M.A.R.T. Voc pode acompanhar o relatrio atravs de
programas como o HDTune (http://www.hdtune.com/) e o SmartExplorer (http://adenix.net/downloads.php),
ambos freeware, ou o daemon smartmontools (http://smartmontools.sourceforge.net/), no Linux.
Estes programas mostram uma srie de atributos relacionados ao HD, como neste screenshot do HDTune:

Em um HD saudvel (mesmo em um HD que j tenha dois anos de uso ou mais), todos atributos devem
receber o Status "ok", indicando que esto dentro da faixa de tolerncia especificada pelo fabricante. Quando
qualquer um dos atributos passa a apresentar a flag "failed", hora de fazer backup dos dados e trocar de HD,
j que a possibilidade de falha passa a ser muito grande. Se ainda no houver muitos sintomas aparentes, voc
pode at aproveitar o HD em algum micro sem muita importncia (usado apenas para navegar, por exemplo),
mas no o utilize mais para guardar dados importantes.
Cada atributo possui quatro valores. O "Current" o valor atual, enquanto o "Worst" a pior medio j
obtida (na maioria dos casos ambos so iguais, j que a maioria dos valores vai decaindo progressivamente),
ambos indicados na forma de um valor decrescente. A coluna "Threshold", por sua vez, indica o limite mnimo,
estabelecido pelo fabricante.
A quarta coluna (Data) mostra a informao em valores absolutos (geralmente crescente). Por exemplo, no
screenshot, o "Start/Stop Count" (que indica quantas vezes o HD foi ligado e desligado) est em "213" e o
"Power On Hours Count" (quantas horas o HD j permaneceu ligado) est em "454", indicando que se trata de
um HD semi-novo.
A coluna "Data" da opo "Raw Read Error Rate" indica o nmero de erros de leitura, enquanto a
"Reallocated Event Count" indica o nmero de badblocks remapeados. Qualquer aumento constante nos dois
valores uma indicao de envelhecimento da mdia ou (em casos mais extremos) danos s cabeas de
leitura.
As opes "Throughput Performance" (o desempenho bruto do HD) e "Seek Time Performance" (o tempo
de acesso) so indicativos do desempenho relativo do HD (por isso ambas esto com o valor "100" na coluna
297

Current do screenshot, indicando que as medies esto normais). Redues nestes dois valores indicam
desgaste do motor de rotao, ou do sistema de movimentao dos braos de leitura.
Em ambos os casos, os valores vo mudando lentamente, permitindo que voc acompanhe o desgaste do
HD e possa planejar o prximo upgrade ou substituio muito antes dos alarmes comearem a disparar. Sai
sempre muito mais barato fazer backup e trocar o HD quando ele comea a apresentar sinais do problemas do
que ter que recorrer a uma empresa de recuperao depois que o desastre j aconteceu.

6.7.2 CRIANDO UMA IMAGEM BINRIA


Se, por outro lado, os dados foram apagados mas o HD continua funcionando perfeitamente, quase
sempre possvel recuperar utilizando os softwares adequados. Desde que os arquivos deletados ainda no
tenham sido sobrescritos por outros, voc vai conseguir recuper-los em mais de 90% dos casos.
O primeiro passo ao perceber que os arquivos foram deletados ou que o HD foi acidentalmente formatado
desligar o micro imediatamente, reduzindo as chances de que novos arquivos sejam gravados sobre os
antigos. Quanto menos tempo o micro permanecer ligado, maior as chances de recuperar os dados.
O prximo passo fazer uma imagem binria do HD. Uma imagem binria uma cpia bit a bit do HD,
incluindo o contedo da trilha MBR, a tabela de parties e todos os dados. A imagem binria permite que o
contedo do HD (incluindo os arquivos deletados) sejam restaurados posteriormente. Ela um "seguro" que
permite retornar ao estgio original depois de qualquer tentativa malfadada.
Uma das ferramentas mais simples e mais eficazes para fazer isso o "dd", um pequeno utilitrio padro
do Linux, disponvel em qualquer distribuio.
Para us-lo, instale um segundo HD, maior que o primeiro, onde ser guardada a cpia. A imagem binria
possui sempre exatamente o mesmo tamanho do HD, de forma que um HD de 80 GB, resultar em uma
imagem de tambm 80 GB, mesmo que ele possua apenas 5 GB ocupados. A ideia da imagem binria salvar
no apenas os arquivos que o sistema "v", mas sim todos os dados armazenados nos discos magnticos,
incluindo seus arquivos deletados.
Em seguida, d boot usando uma distribuio Linux live-CD com que tenha familiaridade, como o Ubuntu,
Knoppix, Kanotix, Sidux ou outro. Depois de terminado o boot, abra uma janela de terminal e logue-se como
root. Na maioria dos live-CDs, voc pode fazer isso digitando simplesmente:
$ sudo su
Em outros, voc encontrar um link para abrir um terminal como root em algum lugar do menu.
Chame agora o "gparted", rodando o comando no terminal. Use-o para ver como o sistema detectou
seus HDs e assim ter certeza de qual o dispositivo referente ao HD de origem e qual o do HD de destino.
Por padro, os HDs so detectados como:
Master da IDE primria: /dev/hda
Slave da IDE primria: /dev/hdb
Master da IDE secundria: /dev/hdc
Slave da IDE secundria: /dev/hdd
Primeiro HD SATA: /dev/sda
Segundo HD SATA: /dev/sdb
Terceiro HD SATA: /dev/sdc
Quarto HD SATA: /dev/sdd
Dentro de cada HD, as parties primrias so numeradas de 1 a 4 e as estendidas de 5 em diante. A
primeira partio do primeiro HD SATA, por exemplo, seria vista pelo sistema como "/dev/sda1".
298

Depois de identificados os HDs, o primeiro passo montar a partio do HD maior, onde ser armazenada
a imagem. Como disse, esta partio deve ter um volume de espao livre equivalente ou superior ao tamanho
do HD onde esto os dados a se recuperar.
Se o HD destino o "/dev/sdb" e voc vai salvar a imagem na primeira partio primria, ento os
comandos para mont-la seriam:
# mkdir /mnt/sdb1
# mount /dev/sdb1 /mnt/sdb1
Voc deve montar apenas o HD destino. O HD de origem permanece desmontado, pois o sistema se
limitar a fazer uma cpia de baixo nvel, sem tentar entender os dados gravados.
Para gerar a imagem do HD "/dev/sda", salvando-a no arquivo "sda.img", dentro da partio que
acabamos de montar, o comando seria:
# dd if=/dev/sda of=/mnt/sdb1/sda.img
A cpia binria sempre demorada. Se a transferncia de dados entre os dois HDs ficar em mdia a 30
MB/s, por exemplo, a cpia de um HD de 80 GB demoraria pouco mais de 45 minutos. Infelizmente o dd no
exibe um indicador de progresso, por isso o melhor a fazer deixar o micro fazendo seu trabalho e ir se
preocupar com outra coisa.
Outra opo fazer a cpia diretamente para o segundo HD. Esta segunda opo at prefervel, pois
voc pode fazer todo o processo de recuperao diretamente no segundo HD (com a cpia), sem sequer
precisar se arriscar a mexer no HD original. O segundo HD no precisa ser idntico ao primeiro, nem possuir
exatamente a mesma capacidade. A nica regra que ele seja do mesmo tamanho ou maior que o primeiro.
Neste caso, voc indica diretamente os dois dispositivos no comando do dd, com ambos desmontados.
Para criar uma cpia do /dev/sda, no /dev/sdb (apagando todo o contedo do disco de destino), o comando
seria:
# dd if=/dev/sda of=/dev/sdb
Este mesmo comando pode ser usado para clonar HDs, em casos onde voc precisa instalar o sistema em
vrios micros iguais. Existem formas mais rpidas de fazer isso, usando programas como o Partimage, mas o
dd tambm funciona.

6.7.3 REPARANDO PARTIES


Possivelmente, o tipo mais comum de "recuperao" de arquivos no implica em realmente recuperar
arquivos deletados, mas simplesmente reaver arquivos depois de problemas no sistema operacional, que
impeam o boot.
Antes de mais nada, comece verificando se os arquivos realmente foram perdidos, ou se ficaram
simplesmente inacessveis por causa da pane do sistema. Muitas vezes, parties aparentemente danificadas,
que no so mais vistas atravs do Windows podem ser lidas perfeitamente ao dar boot usando uma
distribuio Linux live-CD.
Comece abrindo o gparted (como root, atravs do terminal), de forma a verificar se as parties do HD
continuam presentes (se no estiverem, passe para o tpico seguinte).
Se tudo estiver em ordem, o prximo passo montar as parties via linha de comando, como em:
# mkdir /mnt/sda1
# mount -o ro /dev/sda1 /mnt/sda1
# mkdir /mnt/sda2
# mount -o ro /dev/sda2 /mnt/sda2
299

Se as parties do HD foram montadas sem erros, significa que provavelmente a estrutura est intacta,
bom sinal. interessante usar a opo "-o ro", como no exemplo, para que as parties sejam montadas em
modo somente-leitura, eliminando qualquer possibilidade de piorar as coisas caso elas estejam danificadas.
Abra o Konqueror (ao utilizar uma distribuio baseada no KDE), ou o Nautilus (ao usar o Ubuntu ou outra
baseada no Gnome). Faa isso usando o terminal aberto como root, para evitar qualquer problema
relacionado s permisses de acesso. Para abrir o Konqueror, j mostrando o contedo da pasta onde foi
montada a partio, use o comando:
# konqueror /mnt/sda1
Para usar o Nautilus, o comando fica:
# nautilus /mnt/sda1
Se todos os arquivos estiverem em ordem, voc s precisa copi-los para outro HD (ou um
compartilhamento de rede) e o problema estar resolvido.
Caso o problema seja justamente na montagem de partio, o prximo passo reparar as estruturas
lgicas do sistema de arquivos, de forma que a partio possa ser montada e os dados voltem a ficar
acessveis. Mais uma vez, tudo pode ser feito a partir do live-CD.
Para parties formatadas em FAT16 ou FAT32, incluindo pendrives, cartes, cmeras e outros
dispositivos, use o comando "fsck.vfat". Verificar regularmente parties formatadas em FAT importante,
pois este sistema de arquivos no possui um mecanismo confivel de deteco de erros. As parties e
pendrives so montados mesmo que o sistema de arquivos esteja corrompido, fazendo com que os erros
acabem se acentuando at o ponto em que os arquivos no possam ser lidos ou modificados, ou o sistema
realmente no consegue montar a partio, dizendo que ela no est formatada ou outro erro similar.
Comece fazendo o teste no destrutivo, que acessa o dispositivo em modo somente-leitura e apenas avisa
dos erros que encontrar:
# fsck.vfat /dev/hda1
De acordo com os erros que forem encontrados e a importncia dos dados, voc pode optar pela
recuperao automtica, que simplesmente corrige todos os erros, colocando arquivos corrompidos que
puderam ser recuperados no diretrio raiz, ou a recuperao manual, onde voc pode verificar cada
modificao.
Para fazer a recuperao automtica, use:
# fsck.vfat -a /dev/hda1
Para a recuperao manual (bem mais longa e sujeita a erro humano), use:
# fsck.vfat -r /dev/hda1
Para que ele faa um exame de superfcie, marcando os setores defeituosos, use a opo "-at", como em:
# fsck.vfat -at /dev/hda1
Erros em parties NTFS so mais incomuns, pois o sistema de arquivos inclui mais camadas de tolerncia
a falhas e o Windows realiza uma verificao a cada boot, executando o teste longo quando necessrio. Apesar
disso, em casos onde a partio acumule erros a ponto de no ser mais montada pelo Windows, voc pode
utilizar o "ntfsfix", um pequeno utilitrio que corrige os problemas mais comuns. Para us-lo, indique a
partio NTFS a recuperar, como em:
# ntfsfix /dev/sda1
Depois de executado, o ntfsfix marca a flag de verificao para a partio, o que fora a verificao do
sistema de arquivos no prximo boot do Windows. Normalmente ele consegue reparar a partio o suficiente
para que ela volte a ser montada e o scandisk do Windows cuida do resto.
300

Caso o ntfsfix no esteja disponvel, abra o gerenciador de pacotes e procure pelo programa
"ntfsprogs". A maioria das distribuies live-CD atuais utilizam o UnionFS, que permite instalar pequenos
programas mesmo com o sistema rodando a partir do CD.
Temos em seguida as parties Linux, onde so utilizados os sistemas de arquivos EXT3 (ou EXT2), ReiserFS
e (mais raramente) XFS. Assim como no caso do Windows, danos nas estruturas lgicas das parties podem
fazer com que o sistema no inicialize mais, ou mesmo fazer com que voc no consiga mais montar a
partio, mesmo ao dar boot atravs do live-CD. Nesse caso, um reparo manual necessrio.
Para reparar uma partio EXT3, use o comando:
# fsck.ext3 /dev/hda1
Ele vai comear a apontar os erros e perguntar se cada um deve ser corrigido. Normalmente voc pode ir
apenas respondendo "y" para tudo, mas caso existam dados realmente importantes na partio melhor
prestar mais ateno. Arquivos danificados ou fragmentos de arquivos que puderam ser recuperados vo para
a pasta "lost+found" no diretrio raiz da partio.
Voc pode tambm adicionar o parmetro "-f", que fora a verificao da partio mesmo que o sistema
de arquivos parea no ter problemas:
# fsck.ext3 -f /dev/hda1
O fsck no capaz de recuperar o sistema de arquivos em casos de problemas com o superbloco, o setor
que contm informaes essenciais, como o tipo, tamanho, status e informaes sobre a estrutura do sistema
de arquivos. Quando no encontra o superbloco, o fsck simplesmente falha miseravelmente, exibindo um
"fatal error", sem maiores explicaes.
Sempre que a partio criada, so criados vrios superblocos alternativos, que servem justamente de
backups para casos de problemas com o primeiro. Voc pode ver a lista de endereos usando o comando
"mkfs.ext3 -n partio", como em:
# mkfs.ext3 -n /dev/hda1
Ao usar o comando, nunca esquea de incluir o "-n". Caso contrrio, ao invs de mostrar as informaes,
ele vai formatar a partio (estou falando srio). No final do relatrio voc encontra:
Superblock backups stored on blocks:
32768, 98304, 163840, 229376, 294912, 819200, 884736
Alternativamente, voc pode usar tambm o comando "dumpe2fs /dev/hda1 | grep -i
superblock", que devolve a mesma informao.
Outra opo usar o Testdisk (que veremos a seguir). Ele oferece uma opo para listar superblocos
alternativos em parties EXT, que voc acessa em "Advanced > Superblock".
Para restaurar o superbloco, chame novamente o comando "fsck.ext3", adicionando a opo "-b",
seguida do endereo do superbloco que ser usado. Caso, eventualmente, o primeiro resulte em erro,
experimente o segundo, e assim por diante:
# fsck.ext3 -f -b 32768 /dev/hda2
Para parties EXT2, use o comando "fsck.ext2", que suporta os mesmos parmetros.

6.7.4 RECUPERANDO A MBR E TABELA DE PARTIES


Ao comprar um novo HD, voc precisa primeiro format-lo antes de poder instalar qualquer sistema
operacional. Existem vrios programas de particionamento, como o qtparted, gparted, cfdisk e outros.
Os programas de particionamento salvam o particionamento na tabela de partio, gravada no incio do
HD. Esta tabela contm informaes sobre o tipo, o endereo de incio e final de cada partio, entre outras
301

informaes. Depois do particionamento, vem a formatao de cada partio, onde voc pode escolher o
sistema de arquivos que ser usado em cada uma (NTFS, EXT3, FAT32, ReiserFS, etc.).
Ao instalar o sistema operacional, gravado mais um componente: o gerenciador de boot, responsvel por
carregar o sistema operacional durante o boot.
Tanto o gerenciador de boot quanto a tabela de particionamento do HD so salvos no primeiro setor do
HD (a famosa trilha MBR), que contm apenas 512 bytes. Destes, 446 bytes so reservados para o setor de
boot, enquanto os outros 66 bytes guardam a tabela de partio.
Ao trocarde sistema operacional, voc geralmente subscreve a MBR com um novo gerenciador de boot,
mas a tabela de particionamento s modificada ao criar ou deletar parties. Caso, por qualquer motivo, os
66 bytes da tabela de particionamento sejam sobrescritos ou danificados, voc perde acesso a todas as
parties do HD. O HD fica parecendo vazio, como se tivesse sido completamente apagado.
Para evitar isso, voc pode fazer um backup da trilha MBR do HD. Assim, voc pode recuperar tudo caso
ocorra qualquer eventualidade. Para fazer o backup, d boot usando um live-CD, logue-se como root e use o
comando:
# dd if=/dev/hda of=backup.mbr bs=512 count=1
O comando vai fazer uma cpia dos primeiros 512 bytes do "/dev/hda" no arquivo "backup.mbr" (salvo no
diretrio atual). Lembre-se de substituir o "hda" pelo dispositivo correto do HD, que voc pode conferir
usando o Gparted.
Voc pode salvar o arquivo num disquete ou pendrive, mandar para a sua conta do gmail, etc. Caso no
futuro, depois da ensima reinstalao do Windows XP, vrus, falha de hardware ou de um comando errado a
tabela de partices for pro espao, voc pode dar boot com o live-CD e regravar o backup com o comando:
# dd if=backup.mbr of=/dev/hda
Claro que, no mundo real, quase ningum faz backup da tabela de parties, o que nos leva ao Testdisk,
uma ferramenta "sem preo" para recuperar parties acidentalmente deletadas, ou restaurar tabelas de
parties corrompidas.
Lembre-se de que o Testdisk capaz de recuperar parties apenas enquanto as informaes no so
subscritas. Se voc acabou de apagar a sua partio de trabalho, bem provvel que consiga recuper-la, mas
se o HD j tiver sido reparticionado e formatado depois do acidente, as coisas ficam muito mais complicadas.
Sempre que um acidente acontecer, pare tudo e volte a usar o HD s depois de recuperar os dados.
O Testdisk permite recuperar desde parties isoladas (incluindo as extendidas), at toda a tabela de
parties, caso o HD tenha sido zerado. Ele suporta todos os principais sistemas de arquivos, incluindo FAT32,
NTFS, EXT2, EXT3, ReiserFS, XFS, LVM e Linux Raid.
A pgina oficial a http://www.cgsecurity.org/testdisk.html onde, alm da verso Linux, voc encontra
verses para Windows, DOS e at para o Solaris. Todas utilizam a mesma interface, e possuem os mesmos
recursos, de forma que voc pode simplesmente escolher qual utilizar de acordo com a situao.
Se voc tiver uma mquina Windows disponvel, pode instalar o HD com a tabela de parties danificada
como HD secundrio e rodar a verso Windows do Testdisk. Em outros casos, pode ser mais rpido dar boot
usando um live-CD e rodar a verso Linux do Testdisk, usando a prpria mquina onde o HD est instalado,
sem
precisar
remov-lo.
O
Link
de
download
do
programa

o:
http://www.cgsecurity.org/wiki/TestDisk_Download.
Ao rodar sob o Linux, o programa pode ser chamado diretamente atravs do terminal, enquanto ao rodar
sob o Windows, os executveis abrem uma janela do DOS. Em ambos os casos, voc pode executar o
programa diretamente, depois de descompactar o arquivo. No necessrio instalar.

302

No caso da verso Windows, voc s precisa descompactar o arquivo .zip e clicar sobre o
"testdisk_win.exe":

Ao baixar a verso Linux, voc obtm um arquivo .tar.bz2, que precisa ser descompactado usando o
comando "tar -jxvf", como em:
$ tar -jxvf testdisk-6.6.linuxstatic.tar.bz2
Acesse agora a pasta "testdisk-x.x/linux" (onde o x-x a verso baixada) e logue-se como root,
usando o comando "su -" e execute o comando "./testdisk_static", como em:
$ cd testdisk-*/linux
$ su # ./testdisk_static
Alm da verso "genrica", disponvel para download, o Testdisk pode ser (na maioria dos casos) instalado
atravs do gerenciador de pacotes. Nos derivados do Debian, voc pode instal-lo via apt-get:
# apt-get install testdisk
Neste caso, o comando para execut-lo depois de instalado apenas "testdisk".
Outra observao que muitos live-CDs trazem o testdisk pr-instalado, incluindo verses recentes do
Knoppix (http://www.knoppix.com/), o PLD (http://www.pld-linux.org/) e o Ultimate Boot CD
(http://www.ultimatebootcd.com).
Vamos a um exemplo prtico de como recuperar duas parties deletadas "acidentalmente". Onde o cfdisk
est mostrando "Free Space" existem, na verdade, as parties "/dev/hda2" e "/dev/hda3", que removi
previamente:

303

Ao ser aberto, o Testdisk comea detectando os HDs instalados, permitindo que voc selecione em qual
deles o teste deve ser realizado.
Ele multiplataforma, por isso, na opo seguinte ele pergunta sob qual plataforma est sendo executado.
A menos que voc esteja usando um Mac, uma workstation Sun ou um Xbox, responda sempre "[Intel]
Intel/PC partition" (a opo default). Esta opo indica que voc est usando um micro PC. O "intel", no caso,
indica a plataforma (Intel i386); no tem nada a ver com o fabricante do processador usado.
Na tela inicial, selecione o HD que ser analisado, acesse a opo "Analyse" e em seguida "Proceed", para
iniciar a varredura do disco.
O Testdisk verifica a tabela de parties atual e em seguida pesquisa em todos os setores onde podem
existir informaes sobre outras parties que no constam na tabela principal.
Veja que, apenas com o teste rpido, ele j conseguiu localizar as duas parties que haviam sido
deletadas:

Pressionando a tecla "P" voc pode ver os dados dentro da partio para ter certeza que os arquivos esto
l. Nos raros casos onde ele localize a partio, mas identifique incorretamente o sistema de arquivos, use a
opo "T" para indicar o correto.
Depois de checar se o particionamento detectado est correto, pressione "Enter" mais uma vez e voc
chega tela final, onde pode salvar as alteraes, usando a opo "Write". Reinicie o micro e monte a partio
para checar os dados.
Caso a lista no exiba a partio que voc est procurando, use a opo "Search" no lugar do Write. Isto
ativa o teste mais longo, onde ele vasculha todos os setores do HD em busca de parties deletadas. Este
segundo teste demora alguns minutos e, em um HD com bastante uso, pode retornar uma longa lista de
parties que foram criadas e deletadas durante a vida til do HD. Nesse caso, preste ateno para recuperar a
partio correta.

304

Todas as parties listadas aqui aparecem com o atributo "D", que significa que a partio foi deletada.
Para recuperar uma partio, selecione-a usando as setas para cima/baixo e use a seta para a direita para
mudar o atributo para "*" (se ela for uma partio primria e bootvel, como o drive C: no Windows), "P" se
ela for uma partio primria ou "L" se ela for uma partio lgica. Lembre-se de que, no Linux, as parties de
1 a 4 so primrias e de 5 em diante so extendidas.
possvel tambm adicionar uma partio manualmente, caso voc saiba os setores de incio e final, mas
isso raramente necessrio.

Pressione "Enter" mais uma vez e ele mostrar uma tela de confirmao, com a tabela de particionamento
alterada que ser salva no disco. Use o "Write" para salvar ou volte tela inicial para comear novamente em
caso de erros.
Tenha em mente que o tamanho da partio reportado de acordo com o nmero de setores de 512
bytes. Uma partio de 5 GB, por exemplo, tem pouco mais de 10 milhes de setores.
Depois de recuperar qualquer partio, importante chec-la usando o utilitrio apropriado, para que
qualquer problema dentro da estrutura do sistema de arquivos seja corrigido.
Outro programa para recuperar a tabela de parties, desta vez comercial, o PTDD (Partition Table
Doctor), disponvel no http://www.ptdd.com/. Ele mais limitado que o Testdisk em diversos aspectos, e
capaz de recuperar apenas parties FAT, NTFS e EXT, enquanto o Testdisk oferece suporte a um conjunto
305

mais completo de sistema de arquivos. O PTDD roda apenas sobre o Windows, de forma que voc precisa
sempre remover o HD a reparar e instal-lo como slave na mquina Windows com o PTDD instalado. Apesar
disso, ele grfico e por isso mais fcil de usar, o que o torna a escolha preferida de muitos.

Partition Table Doctor

6.7.5 RECUPERANDO ARQUIVOS APAGADOS


O Testdisk pode salvar a sua pele quando parties do HD so apagadas devido ao de vrus, erros
diversos durante o reparticionamento do HD, etc. Entretanto, ele pouco pode fazer para recuperar dados
deletados dentro das parties, o que demanda ferramentas especficas. Entram em cena ento os programas
de recuperao, que vasculham os discos magnticos em busca de arquivos que foram apagados porm ainda
no sobrescritos por outros.

6.7.5.1 USANDO O EASY RECOVERY


Um dos programas mais antigos e respeitados o Easy Recovery, desenvolvido pela Ontrack. Ele est
disponvel no: http://www.ontrack.com/software/.
Assim como em outros programas de recuperao de dados, o trabalho do Easy Recovery se concentra em
acessar diretamente os dados armazenados na partio, procurando diretamente por diretrios e arquivos,
sem depender das estruturas do sistema de arquivos. Apesar disso, todo o trabalho pesado feito por baixo
dos panos, fazendo com que o programa tenha uma interface muito simples. Basicamente, voc indica a
partio, espera o final do teste, marca os arquivos que deseja recuperar e indica o destino e, no final, checa
os arquivos recuperados.
Dentro do programa, acesse a seo "Data Recovery". Dentro dela, a opo "Deleted Recovery" permite
recuperar arquivos e pastas dentro de uma partio contendo outros arquivos, como em casos em que
algumas pastas e arquivos especficos foram deletados, mas o restante dos arquivos continua presente;
enquanto a "Format Recovery" recupera dados em parties que foram reformatadas ou em casos onde o
sistema foi reinstalado. Usando essa opo, o programa ignora a estrutura atual e tenta remontar a estrutura
da formatao anterior.
Existe ainda a opo "Raw Recovery" que tenta recuperar dados remanescentes em casos onde o HD j foi
reparticionado mais de uma vez e dados foram gravados por cima, subscrevendo os anteriores. Nesse caso a
eficincia limitada, mas quase sempre possvel recuperar alguns arquivos.

306

Note que o EasyRecovery eficiente ao recuperar dados apagados dentro de parties, mas ele no
capaz de recuperar a tabela de particionamento.
Em casos em que as parties so apagadas ou a tabela corrompida, o trabalho de recuperao seria
feito em duas partes. Na primeira voc utilizaria o Testdisk para recuperar as parties originais e (caso
necessrio) usaria em seguida o EasyRecovery para recuperar arquivos dentro delas. relativamente incomum
que as duas coisas aconteam ao mesmo tempo (perder a tabela de particionamento e perder junto arquivos
dentro das parties) por isso normalmente usamos ou um ou outro.

Tela principal do EasyRecovery


O passo seguinte indicar a partio onde esto os arquivos a recuperar. Alm de parties em HDs, voc
pode recuperar dados em pendrives, cartes de memria e outros tipos de mdia. A principal observao que
voc precisa sempre de uma partio separada para onde copiar os arquivos recuperados. Todo o teste do
Easy Recovery feito de forma no destrutiva, sem alterar os arquivos dentro da partio, por isso ele no
capaz de restaurar os arquivos diretamente.
Outra observao que voc nunca deve instalar o Easy Recovery nem usar uma instalao do Windows
dentro da mesma partio onde esto os arquivos. Se os arquivos perdidos esto armazenados na mesma
partio onde o Windows est instalado, o melhor a fazer desligar o micro, remover o HD, instal-lo como
slave em outro PC e realizar o teste a partir dele. Se voc pretende recuperar dados de forma rotineira, o ideal
j ter um PC preparado para isso.

Seleo da partio
307

Dentro da tela de seleo de partio, voc tem a opo de ativar o "Complete Scan". Essa opo faz o
teste demorar mais, mas oferece uma eficincia muito maior. recomendvel marc-la sempre que voc
precisar recuperar mais do que um ou dois arquivos recentemente deletados.
De acordo com o tamanho da partio, o teste pode demorar de alguns minutos a algumas horas, j que o
programa precisa ler todos os dados gravados e aplicar os algoritmos que permitem identificar os arquivos.
Concludo o teste, os arquivos localizados so marcados e voc s precisa selecionar quais quer recuperar
(ou simplesmente marcar tudo). Lembre-se de verificar o espao disponvel na partio de destino.
No screenshot a seguir, estou recuperando um grande volume de arquivos intencionalmente deletados em
uma partio FAT32. Como os arquivos no tinham sido sobrescritos, todos os arquivos foram recuperados.
Duas das pastas perderam a primeira letra do nome ("_IMP" ao invs de "GIMP" e "_LV" ao invs de "VLC") e
alguns dos arquivos de imagem ficaram com pequenos defeitos nos primeiros kbytes. Com exceo de
detalhes como estes, a recuperao de arquivos recentemente deletados quase sempre perfeita.

Na tela seguinte voc indica a pasta onde salvar os arquivos. Existe tambm a opo de dar upload para
um servidor FTP (voc pode manter um servidor FTP local na sua rede, de forma que os arquivos sejam
copiados na velocidade de transmisso da rede local) ou gerar um arquivo compactado em .zip, de forma a
reduzir o espao ocupado.

308

O Easy Recovery inclui tambm algumas ferramentas para reparo de arquivos danificados (as opes "File
Repair" e "Email Repair" do menu) que permitem reparar arquivos do Office, arquivos .zip e arquivos de e-mail
do outlook corrompidos. Elas podem ser usadas de forma independente das opes de recuperao.
O grande problema com o EasyRecovery que ele um programa caro, voltado para o uso profissional. A
verso de demonstrao, disponvel para download executa a varredura e mostra os arquivos que podem ser
recuperados, mas sem opo de recuper-los. A verso completa (para uso pessoal) custa nada menos que
US$ 499 e est limitada recuperao de dados em 20 HDs, enquanto a verso para uso profissional custa US$
1499 anuais. Existe ainda uma verso Lite, que custa apenas US$ 89, mas est limitada recuperao de
apenas 25 arquivos por sesso.
Outra questo que o Easy Recovery no multiplataforma e se restringe a recuperar arquivos em
parties formatadas em FAT16, FAT32 e NTFS. Isso impede que ele possa ser considerado, sozinho, como
uma opo completa de recuperao de dados.

6.7.5.2 USANDO O PHOTOREC


Outro programa digno de nota, que vale a pena tambm ter no kit de ferramentas o Photorec. Ele utiliza
algoritmos de recuperao bem menos eficientes que o Easy Recovery, por isso no indicado para recuperar
grandes quantidades de arquivos. Em compensao, ele oferece trs diferenciais: gratuito (e de cdigo
aberto), oferece suporte a um nmero muito maior de sistemas de arquivos e multiplataforma, rodando
tanto no Windows quanto no Linux e outros sistemas. Embora esteja longe de ser perfeito, ele faz um bom
trabalho em recuperar arquivos do Office, imagens, arquivos zip e outros formatos de arquivos comuns.
O Photorec mantido pelos mesmos desenvolvedores do Testdisk. Originalmente a ideia era recuperar
fotos acidentalmente deletadas em cmeras e cartes de memria (da o nome). Como praticamente todo
mundo usa cmeras digitais hoje em dia, ele atende a uma demanda crescente, que recuperar fotos e vdeos
deletados acidentalmente na memria de uma forma rpida. Da em diante, foi adicionado suporte a outros
formatos de arquivos e a um nmero crescente de sistemas de arquivos, transformando o Photorec em uma
ferramenta de recuperao de dados de uso geral.
O Link de download o mesmo do Testdisk: http://www.cgsecurity.org/wiki/TestDisk_Download.
Assim como no caso do Testdisk, existem tanto verses Windows quanto Linux e o uso de ambas muito
similar. No caso da verso Windows, voc s precisa descompactar o arquivo. zip e clicar sobre o
"photorec_win.exe".
No caso da verso Linux, descompacte o arquivo e acesse a pasta criada (da mesma forma que no Testdisk)
e execute o comando "./photorec_static -d", seguido de uma pasta do HD, onde os arquivos
recuperados sero armazenados, e o dispositivo referente partio, pendrive, cmera ou carto onde esto
os arquivos deletados, como em:
# ./photorec_static -d /home/joao/tmp /dev/sda1
Dispositivos USB de armazenamento so reconhecidos no Linux como "/dev/sda" e o "1" indica a partio
dentro do carto ou pendrive (quase sempre dispositivos de memria Flash so particionados usando uma
nica partio). Em mquinas com HD SATA, o HD assume a posio de "/dev/sda" e o dispositivo USB assume
a prxima posio disponvel: "/dev/sdb". Se voc tiver dois HDs SATA, ento o dispositivo USB passa a ser o
"/dev/sdc" e assim por diante. Se voc tiver o Gparted instalado, pode us-lo para ver como cada dispositivo
foi reconhecido pelo sistema.
Ao abrir o Photorec, ele comea confirmando o dispositivo onde ser feita a recuperao. Como ele no
altera os dados dentro da partio, apenas verifica os dados gravados, procurando por arquivos deletados, no
existe um grande perigo ao mandar ele procurar arquivos no lugar errado (na sua partio de trabalho por
exemplo), mas sempre bom conferir se voc indicou o dispositivo correto antes de continuar, at para evitar
perder tempo. Use a opo "Proceed" para continuar:
309

No caso da verso Windows (onde voc abre o programa sem especificar parmetros), ele mostra um
menu de seleo, contendo todas as parties disponveis no sistema. Ele detecta as parties usando a
nomenclatura do Linux (/dev/sda, /dev/sdb, etc.) mas voc pode localizar a partio referente ao carto ou
cmera rapidamente, baseado no tamanho:

Antes de continuar, ele confirma a partio onde ser feita a recuperao. Esta opo s tem serventia
caso o carto ou pendrive esteja dividido em mais de uma partio. Na maioria dos casos voc s precisa
confirmar a partio pr-selecionada:

310

A opo seguinte (a ltima) se refere ao sistema de arquivos em que a partio alvo est formatada. Se por
acaso voc estiver tentando recuperar fotos apagadas em uma partio Linux, formatada em EXT2, ou EXT3,
voc escolheria a opo "[ EXT2/EXT3 ]", mas em todos os outros casos, incluindo recuperao em cartes,
pendrives, parties Windows e mesmo em parties Linux formatadas em outros sistemas de arquivos, voc
deve usar sempre a opo [ Other]:

No caso da verso Windows, ele pergunta tambm onde deve salvar os arquivos recuperados, j que voc
no especifica a pasta ao abrir o programa. A grande limitao que, por rodar atravs do Cygwin, ele enxerga
a pasta onde est o executvel do programa como diretrio raiz, impedindo que voc salve os arquivos
recuperados fora dela. Mesmo que voc indique o "c" como diretrio destino, ele salvar na pasta "c" dentro
do diretrio. A melhor forma de burlar essa limitao copiar a pasta com o programa para dentro do
diretrio onde quer salvar os arquivos e execut-lo a partir de l. Depois de indicar a pasta, pressione "Y" para
continuar:

Nunca demais lembrar que voc sempre deve salvar os arquivos em uma unidade ou partio separada.
Pode ser do pendrive para o HD ou do HD para um HD externo, no importa, desde que sejam duas unidades
separadas. Jamais tente recuperar arquivos de uma partio salvando-os nela mesma.
Agora vem a parte automtica, onde ele vai ler cada setor da partio, em busca de fotos e vdeos
deletados. Ele ignora a tabela de alocao e vai diretamente "na fonte", lendo os bits armazenados
diretamente e procurando por blocos que paream ser arquivos.

311

Ao terminar o teste, s sair do programa e verificar os arquivos recuperados, que sero armazenados
dentro da pasta indicada no comando inicial.
Se voc execut-lo como root (no Linux), vai precisar ajustar as permisses de acesso pasta onde foram
salvos os arquivos recuperados no final do processo, usando o comando "chown -R", seguido do usurio de
sistema que voc utiliza e a pasta onde os arquivos foram salvos, como em:
# chown -R joao /home/joao/tmp
A partir da voc pode acessar os arquivos normalmente, atravs do gerenciador de arquivos, sem precisar
mais do terminal aberto como root.
O maior problema que o Photorec recupera apenas os arquivos propriamente ditos, sem conseguir
recuperar a estrutura de pastas ou os nomes, fazendo com que, no final, voc acabe com uma salada de
arquivos.
Se voc precisa apenas recuperar alguns documentos especficos, isto no chega a ser um grande
problema, pois voc pode encontr-los rapidamente pela extenso e pelo tamanho do arquivo. Mas, se voc
precisa recuperar uma srie de pastas, com um grande volume de arquivos pequenos, ele j no a melhor
opo.
Uma dica que voc pode selecionar manualmente os tipos de arquivos que ele deve procurar.
Desmarcando as extenses que no interessam, voc reduz o nmero de arquivos recuperados (e assim reduz
o trabalho necessrio para encontrar os que realmente precisa). Para isso, use a opo "[ File Opt ]" na tela de
escolha da partio (a ltima antes de comear a busca):

312

recomendvel que voc desmarque a opo "txt", pois o Photorec tende a encontrar um grande nmero
de arquivos de log e fragmentos de arquivos parcialmente deletados, que acabam gerando, muitas vezes,
alguns milhares de pequenos arquivos .txt no final do processo.

6.8 GIGABYTES E GIBIBYTES


Ns, como seres humanos, estamos acostumados a pensar em valores segundo o padro decimal, por isso
temos muito mais facilidade em lidar com nmeros mltiplos de 10.
Os computadores, por outro lado, trabalham utilizando o sistema binrio, ou seja, com potncias do
nmero 2. Um nico bit permite duas combinaes possveis, dois bits permitem 4, oito bits permitem 256, 16
bits permitem 65.536 e assim por diante.
Por causa dessa peculiaridade, um kilobyte no corresponde a 1000 bytes, mas sim a 1024, j que 1024 a
potncia de 2 mais prxima de 1000. Um megabyte corresponde a 1024 kbytes, que por sua vez
correspondem a 1.048.576 bytes.
Quando falamos em gigabytes e terabytes, as diferenas crescem, j que um gigabyte corresponde a
1.073.741.824 bytes e um terabyte corresponde a 1.099.511.627.776 bytes. Ou seja, um acrscimo de quase
10% em relao ao que teramos utilizando o padro decimal.
313

Diversos dispositivos seguem essa notao binria, incluindo mdulos de memria e CD-ROMs. Um
mdulo de memria de 1 GB possui exatamente 1.073.741.824 bytes, enquanto um CD-ROM de 650 MB
dividido em 333.000 setores de 2048 bytes cada um, totalizando 681.984.000 bytes, ou 650.39 MB.
Esta notao segue o padro do JEDEC para dispositivos de memria, onde o "mega" o nmero 2 elevado
vigsima segunda potncia e o "giga" o nmero 2 elevado trigsima potncia.
O ponto de discrdia so os fabricantes de HDs, que comodamente adotaram o padro decimal para medir
a capacidade dos seus produtos. A discordncia comeou muito antes do que se imagina, datando dos
primeiros discos fabricados pela IBM. O IBM 350 no armazenava 5 megabytes, mas sim 5 milhes de
caracteres, com 7 bits cada um.
Concordando ou no, todos os fabricantes acabaram sendo obrigados a aderir ideia, j que qualquer
fabricante que preferisse seguir o padro binrio teria a capacidade de seus produtos "encolhida" em relao
concorrncia. Querendo ou no, o anncio de um HD de "1 terabyte" soa melhor do que o anncio de um
HD de "931 gigabytes binrios".
Graas a isso, um HD de 500 GB possui, na verdade, 500 bilhes de bytes, que correspondem a apenas
465.6 GB, divididos em pouco mais de 931 milhes de setores de 512 bytes cada um.
Inicialmente, os programas de particionamento exibiam a capacidade dos HDs de forma correta,
calculando o espao em termos de potncias binrias. O problema que isso resultava numa diferena
considervel entre o espao exibido e o espao declarado pelos fabricantes, o que gerava dvidas e confuso
entre os usurios, que ficavam sem saber por que o programa de particionamento dizia que seu HD de "120
GB" tinha apenas 111.7 GB.
Depois de muita confuso e inclusive alguns processos na justia por propaganda enganosa, os fabricantes
de HDs acabaram ganhando a queda de brao e os programas de particionamento passaram a mostrar a
capacidade utilizando potncias de 10. Veja como o cfdisk (no Linux) reconhece um HD Samsung de 300 GB:

Ou seja, ele reconhece corretamente a capacidade do drive em bytes, mas arredonda o nmero para
"300.0 GB", muito embora 300.069.052.416 bytes correspondam na verdade a apenas 286.16 GB.
Temos ainda o caso dos pendrives e cartes de memria, que ficam no meio do caminho. Por comodidade,
os fabricantes tambm adotam a notao decimal, de forma que um pendrive de 1 GB divulgado como
tendo "1.000.000.000 de bytes, ou mais", enquanto a capacidade real tende a variar um pouco de fabricante
para fabricante. Um pendrive de 1 GB da PQI que testei tinha 1.027.603.968 bytes, enquanto um carto de 2
GB da Kingston tinha 2.002.255872 bytes.
O caso dos pendrives e cartes interessante, pois eles so originalmente compostos por chips de
memria Flash que seguem o padro binrio. Ou seja, um pendrive composto por 2 chips de 8 gigabits
314

possuiria realmente 2 GB "reais". Apesar disso, os fabricantes precisam reservar parte da capacidade dos chips
para o mapeamento de blocos defeituosos e cdigos de correo de erros, de forma que a capacidade
utilizvel acaba sendo sempre um pouco menor, alm de variar de fabricante para fabricante, de acordo com o
nmero de bits reservados.
Na prtica acabamos com dois padres de medida conflitantes dentro do ramo da informtica; o padro
decimal e o padro binrio, onde cada um apoiado por um segmento.
Em 2005 o IEEE acabou cedendo presso dos fabricantes de HDs e introduziu um novo conjunto de
medidas para a designao de valores binrios, incluindo o mebibyte, o gibibyte e o tebibyte. O "bi" em todos
os prefixos abreviao de "binary", indicando justamente que estamos falando de grandezas binrias.
Pelo novo padro (IEEE 1541), um kilobyte deixa de ter 1024 bytes e passa a ter apenas 1000. Um
"kibibyte" no mais uma mordida no kibe, mas sim um conjunto de 1024 bytes, enquanto um "kibibit" passa
a ser um conjunto de 1024 bits. Mudam tambm as abreviaes, onde "Pib" deixa de ser "produto interno
bruto" e passa ser abreviao de "pebibyte", ou seja, pouco mais que um quadrilho de bits.
Vamos ento parar com as piadinhas e ir diretamente tabela com o novo padro e as novas abreviaes:
Padro Decimal

Padro Binrio

kilobyte (KB)

kilobit (Kb)

kibibyte (KiB)

kibibit (Kib)

megabyte (MB)

megabit (Mb)

mebibyte (MiB)

mebibit (Mib)

gigabyte (GB)

gigabit (Gb)

gibibyte (GiB)

gigibit (Gib)

terabyte (TB)

terabit (Tb)

tebibyte (TiB)

tebibit (Tib)

petabyte (PB)

petabit (Pb)

pebibyte (PiB)

pebibit (Pib)

exabyte (EB)

exabit (Eb)

exbibyte (EiB)

exbibit (Eib)

zettabyte (ZB)

zettabit (Zb)

zebibyte (ZiB)

zebibit (Zib)

yottabyte (YB)

yottabit (Yb)

yobibyte (YiB)

yobibit (Yib)

Naturalmente, o novo padro encontrou opositores e a adoo vem caminhando a passos de tartaruga.
Muitos autores optaram por ignorar o novo padro e continuar utilizando a notao binria, usando o termo
"decimal" para indicar o uso do padro decimal quando isso puder dar origem confuso. Posso ento dizer
que o padro ATA-6 derrubou o limite de 128 GB para o endereamento dos HDs, ou que ele derrubou o limite
de 137 GB decimais.

6.9 MEMRIA FLASH


Diferentemente da memria RAM e tambm das SRAM, a memria Flash permite armazenar dados por
longos perodos, sem precisar de alimentao eltrica. Este simples fato acabou fazendo com que a memria
Flash se tornasse uma das tecnologias mais importantes das ltimas dcadas, possibilitando o surgimento dos
cartes de memria, pendrives, SSDs, celulares, cmeras e players de mdia com armazenamento interno e
assim por diante.
Se a memria Flash no existisse, todas essas reas estariam muito atrasadas em relao ao que temos
hoje. Os celulares e os palmtops provavelmente ainda utilizariam memria SRAM para armazenar os dados e
seriam por isso mais caros e perderiam os dados quando a bateria fosse removida. Os pendrives simplesmente
no existiriam e os cartes de memria estariam estagnados nos cartes CompactFlash, utilizando microdrives
ou chips de memria SRAM alimentados por uma pequena bateria. Formatos mais compactos, como os
cartes SD e miniSD simplesmente no existiriam.

315

As clulas de memria Flash so bastante similares a um transistor MOSFET, construdas sobre um wafer
de silcio (o substrato). A grande diferena que a clula utiliza dois gates em vez de um. O primeiro o
"control gate", que usado para ativar a clula e fazer a leitura dos dados armazenados.
Os dados propriamente ditos so armazenados no segundo, o "floating gate", que precisamente
construdo entre duas camadas de xido de silcio (oxide layer). O termo "floating" indica justamente o fato de
ele ser posicionado entre as duas camadas, sem contato direto com os outros componentes da clula:

As camadas de dixido de silcio armazenam cargas negativas, o que cria uma espcie de armadilha de
eltrons, que impede a sada de qualquer carga armazenada no floating gate, um arranjo que permite manter
os dados por longos perodos de tempo, sem que seja necessrio manter a alimentao eltrica (como nas
memrias SRAM), ou muito menos fazer um refresh peridico (como na memria DRAM). Isso simplifica muito
o design dos cartes, pendrives e outros dispositivos, pois eles precisam incluir apenas os chips de memria
Flash, um chip controlador e as trilhas necessrias, sem necessidade de baterias ou de circuitos de refresh.
Os dados so gravados na clula atravs de um processo de programao, que consiste em ativar o
transistor (a corrente flui do emissor para o coletor) e, simultaneamente, aplicar uma tenso mais alta (12
volts ou mais) no control gate. A alta tenso faz com que alguns dos eltrons sejam "sugados" para dentro do
floating gate, onde ficam presos devido s duas camadas de xido de silcio. Uma vez que a clula
programada, os dados podem ser lidos inmeras vezes, sem que seja necessrio regravar os dados.
Para modificar os dados gravados necessrio primeiro limpar o contedo das clulas, o que feito
aplicando uma tenso diferencial entre o emissor e o control gate. Isso remove qualquer carga armazenada no
floating gate, fazendo com que a clula retorne ao estado original e possa ser programada novamente. Todo
chip de memria Flash suporta um nmero finito de operaes de escrita (de 10.000 a 100.000) mas suporta
um nmero quase ilimitado de operaes de leitura.
Continuando, nem todos os chips de memria Flash nascem iguais. Embora a funo seja sempre a mesma
(armazenar dados), existem diferenas nas tecnologias usadas, que determinam onde o chip ser usado.
Existem dois tipos de memria Flash. A primeira tecnologia de memria Flash a se popularizar foi o tipo
NOR, que chegou ao mercado em 1988. Os chips de memria Flash NOR possuem uma interface de endereos
similar da memria RAM, incluindo o suporte ao XiP (eXecute in Place), que permite que softwares
armazenados no chip de memria Flash sejam executados diretamente, sem precisarem ser primeiro copiados
para a memria RAM.
Isso permite que eles sejam usados para armazenar o BIOS da placa-me e firmwares em dispositivos
diversos, que antes eram armazenados em chips de memria ROM ou EEPROM. Nos primeiros PCs, por
exemplo, o BIOS da placa-me era gravado em um chip de memria ROM e por isso no era atualizvel, a
menos que o chip fosse fisicamente substitudo.
O problema com as memrias NOR que elas so muito caras e, embora as leituras sejam rpidas, o
tempo de gravao das clulas muito alto. Em um chip de memria NOR tpico, as operaes de gravao
316

demoram cerca de 750 nanosegundos, o que vrias ordens de magnitude mais lento do que em um chip de
memria RAM.
No caso do BIOS da placa-me, isso no um grande problema, pois voc s precisa atualiz-lo
esporadicamente, mas os chips de memria Flash NOR no seriam muito adequados para uso em um SSD, por
exemplo.
As memrias NOR chegaram a ser
utilizadas em muitos palmtops e
smartphones (at por volta de 2006) para
armazenar o firmware do sistema, mas
nesse caso ela era usada apenas para
leitura, com todas as operaes de escrita
sendo feitas em um chip de memria SRAM
ou Flash NAND separado. A vantagem nesse
caso que o boot era um pouco mais
rpido, j que o sistema podia rodar
diretamente a partir da memria Flash, sem
precisar ser primeiro copiado para a
memria RAM. Eles so tambm muito
utilizados em dispositivos mais simples, como impressoras, modems ADSL, pontos de acesso e outros,
armazenando o firmware do sistema.
De volta aos PCs, as memrias Flash NOR chegaram a ser utilizadas nos primeiros cartes de memria
PCMCIA e CompactFlash, mas elas desapareceram desse ramo quando foram introduzidas as memrias NAND,
que rapidamente se tornaram as mais populares.
Alm de mais baratas que as NOR, as memrias NAND tambm so muito mais rpidas na hora de gravar
dados. A principal limitao que elas so endereadas usando pginas de 4 KB (ou 2 KB, dependendo do
design do chip) e acessadas atravs de um barramento serial. Ou seja, do ponto de vista do sistema, um carto
de memria Flash NAND est mais para um HD do que para uma unidade de memria. Voc pode us-lo para
guardar dados, mas na hora que o sistema precisa rodar um programa, precisa primeiro copi-lo para a
memria RAM, da mesma forma que faria ao usar um HD.
A partir de 2006, at mesmo os smartphones e palmtops passaram a utilizar chips de memria NAND para
armazenar o firmware e os aplicativos instalados, em vez de um chip separado de memria XOR.
Isso se tornou possvel graas ao uso de sistema de execuo dinmica, onde os aplicativos so primeiro
copiados da memria Flash para a memria RAM e executados a partir dela. Esse esquema muito similar ao
que temos num PC, onde os arquivos so salvos no HD, porm processados usando a memria RAM.
O grande boom da memria Flash aconteceu entre 2004 e 2005, quando uma combinao de dois fatores
fez com que os preos por MB cassem rapidamente.
O primeiro foi o brutal aumento na produo e a concorrncia entre os fabricantes, que empurraram os
preos para baixo. Alm de gigantes como a Samsung e a Toshiba, at mesmo a Intel e a AMD investiram
pesadamente na fabricao de memria Flash.
O segundo foi a introduo da tecnologia MLC (Mult-Level Cell), onde cada clula passa a armazenar dois
ou mais bits em vez de apenas um. Isso possvel graas ao uso de tenses intermedirias. Com 4 tenses
diferentes, a clula pode armazenar 2 bits, com 8 pode armazenar 3 bits e assim por diante. Em 2009 os chips
armazenavam apenas 2 bits, mas no deve demorar at que os fabricantes desenvolvam clulas capazes de
armazenar 3 e 4 bits, j que isso reduzir proporcionalmente o custo por megabyte.

317

O MLC foi implantado de forma mais ou menos simultnea pelos diversos fabricantes e permitiu reduzir
drasticamente o custo por megabyte, quase que de uma hora para a outra. Hoje em dia, os chips MLC so os
usados na esmagadora maioria dos pendrives, cartes de memria e SSDs.
Os chips "tradicionais", que armazenam um nico bit por clula passaram a ser chamados de "SLC" (SingleLevel Cell) e ainda so produzidos com o objetivo de atender o mercado de SSDs de alto desempenho
(sobretudo os modelos destinados ao
mercado de servidores). Embora muito mais
caros, eles oferecem um melhor desempenho
e so mais durveis.
Outra tecnologia usada pelos fabricantes
para cortar custos e ao mesmo tempo
permitir a criao de chips de maior
densidade o "Die-Stacking", onde dois ou
mais chips so "empilhados", conectados
entre si e selados dentro de um nico
encapsulamento, que possui o mesmo
formato e contatos que um chip tradicional.
Assim como em outras tecnologias, o uso do die-stacking inicialmente encarecia os chips, mas, com a
evoluo das tcnicas de produo, ele acabou resultando em reduo de custos, j que boa parte do preo de
um chip de memria flash corresponde, justamente, ao processo de encapsulamento. Com isso, acaba sendo
bem mais barato produzir um nico chip com 8 camadas, do que 8 chips separados, por exemplo.
Por serem muito pequenos, os chips de memria Flash so incrivelmente flexveis, permitindo o uso nos
mais diversos formatos. Hoje em dia, essa questo est praticamente decidida, j que com exceo de alguns
aparelhos da Sony, todos os outros aparelhos novos utilizam cartes microSD, mas os primeiros anos foram
bem mais movimentados, com uma verdadeira guerra de formatos, alguns abertos e outros proprietrios.

6.9.1 OS FORMATOS DE CARTES


Como de praxe, a popularizao das memrias Flash deu incio a uma guerra entre diversos formatos de
cartes, alguns abertos e outros proprietrios.

6.9.1.1 COMPACTFLASH
Excluindo os jurssicos cartes de memria PCMCIA, o primeiro formato de carto foi o CompactFlash (CF),
onde utilizada uma interface muito similar interface IDE usada pelos HDs, com nada menos que 50 pinos.
Aqui temos um carto CF aberto:

318

De um dos lados temos o chip controlador e um dos chips de memria e no outro temos espao para mais
dois chips, totalizando at 3 chips de alta capacidade. Graas a esse design, os cartes CF oferecem boas taxas
de transferncia, mas em compensao so caros e volumosos, o que explica a decadncia do formato.
Os cartes CompactFlash ainda so produzidos e sobrevivem em alguns nichos. Eles so usados por
algumas cmeras da Canon, voltadas para o segmento profissional (onde a boa taxa de transferncia dos
cartes CF presta bons servios) e em diversos tipos de sistemas embarcados. Devido similaridade entre os
dois barramentos, existem adaptadores que permitem instalar cartes CF numa porta IDE, criando uma
espcie de SSD de baixo custo (porm tambm de baixo desempenho).

6.9.1.2 SMARTMEDIA
Em 1995 a Toshiba lanou o formato SmartMedia (SM), um formato muito mais simples, onde o chip de
memria acessado diretamente, sem o uso de um chip controlador. O chip de memria encapsulado
dentro de um cartucho plstico, com apenas 0.76 mm de espessura e os contatos externos so ligados
diretamente a ele. Nesta foto voc pode ver um carto SmartMedia em comparao com um carto MMC e
um Memory Stick:

Apesar de finos, os cartes SM eram relativamente grandes, o que levou os fabricantes a abandonarem o
formato, dando origem aos cartes xD, MMC, SD e Memory Stick.
Percebendo o nicho criado pela confuso, os fabricantes de leitores de cartes USB passaram a oferecer
suporte para todos os formatos simultaneamente. Isso foi possvel graas ao desenvolvimento de chips
controladores "tudo em um", capazes de converter cada um dos protocolos nos comandos suportados pelo
padro USB. Existem tambm os leitores includos nos notebooks, que lem cartes SD e Memory Stick. Do
ponto de vista do sistema operacional, eles so diferentes dos leitores USB, pois so ligados ao barramento PCI
(ou PCI Express) ao invs de usarem o barramento USB e a maioria das funes so executadas via software
(como em um softmodem), graas ao driver instalado.

6.9.1.3 CARTES XD
O prximo da lista o xD, um formato
proprietrio, usado em cmeras da Olympus e da
Fujifilm. Eles so relativamente rpidos se
comparados com os SmartMedia e com os cartes
MMC, mas so bem mais lentos que os cartes SD
usados atualmente. Existiram duas atualizaes para
o formato: o "xD M" (que permitiu o
319

desenvolvimento de cartes com mais de 512 MB) e o "xD H" (que melhorou a velocidade de transferncia).
Apesar disso, ambos acabaram sendo pouco usados, devido concorrncia dos cartes SD.
Assim como nos cartes SM, os contatos so ligados diretamente no chip de memria, sem o uso de um
chip controlador. Isso em teoria baratearia os cartes, mas devido pequena demanda (e consequentemente
aos baixos volumes de produo), os cartes xD so atualmente bem mais caros. Isso acaba prejudicando a
competitividade das cmeras dos dois fabricantes, que perdem mercado por insistirem no padro.

6.9.1.4 CARTES MMC


O MMC um padro "quase aberto", onde necessrio pagar uma taxa inicial para obter as especificaes
e mais um valor anual MMC Association, alm de seguir um conjunto de restries. Os cartes MMC
possuem exatamente as mesmas dimenses dos cartes SD atuais e so compatveis com a maior parte das
cmeras e outros dispositivos, alm de utilizarem o mesmo encaixe que eles nos adaptadores. As nicas
diferenas visveis so que os cartes MMC so um pouco mais finos (1.4 mm, contra 2.1 mm dos SD) e
possuem apenas 7 pinos, enquanto os SD possuem dois pinos extras, totalizando 9.
O maior problema que os cartes MMC so lentos, pois utilizam um antiquado barramento serial para a
transferncia de dados, que transfere um bit por vez a uma frequncia mxima de 20 MHz. Em teoria, os
cartes MMC poderiam transferir a at 2.5 MB/s, mas a maioria dos cartes fica muito longe dessa marca. Os
cartes mais antigos utilizam um modo de transferncia ainda mais lento, limitado a 400 KB/s.
Como no existe praticamente nenhuma diferena de custo entre produzir um carto MMC ou SD, os
fabricantes migraram rapidamente para o padro mais rpido, fazendo com que o MMC entrasse em desuso.
Mais recentemente foram lanados os padres RS-MMC, MMC Plus e SecureMMC, verses atualizadas do
padro MMC, que visam reconquistar seu lugar no mercado.
Chegamos ento aos dois padres que sobreviveram guerra: o SD, que o padro "parcialmente aberto",
apoiado pela grande maioria dos fabricantes e o Memory Stick, o padro proprietrio da Sony.

6.9.1.5 MEMORY STICK


Embora tenha conseguido atingir uma sobrevida surpreendente, o Memory Stick ficou restrito aos
produtos da Sony e por isso seu futuro incerto. Alm do padro original, existem tambm os formatos
Memory Stick Duo, Pro, Pro Duo, Micro e Pro-HG.
Tanto o padro original quanto o Memory Stick Duo esto limitados a 128 MB, por isso ficaram
rapidamente obsoletos e so usados apenas por dispositivos antigos, fabricados at o incio de 2003. A
principal diferena entre os dois formatos o tamanho reduzido dos cartes Memory Stick Duo, que so um
pouco menores que os cartes SD.
Em seguida temos os cartes Memory Stick Pro e Memory Stick Pro Duo (ambos lanados em 2003), que
substituem diretamente os dois padres anteriores. Alm do melhor desempenho, eles trouxeram um padro
atualizado de endereamento, que permite o desenvolvimento de cartes de at 32 GB.
O Memory Stick Micro (ou M2) um formato miniaturizado, desenvolvido para uso em celulares (mais
especificamente nos Sony Ericsson), que mede apenas 1.5 x 1.2 cm. Os cartes normalmente so vendidos em
conjunto com um adaptador, que permite us-los em qualquer dispositivo ou leitor que use cartes Memory
Stick Pro.

320

Os dois formatos antigos, MS Pro, MS Pro Duo e o Memory Stick Micro


Concluindo, temos o Memory Stick Pro-HG, que utiliza um novo barramento de dados, que transmite 8 bits
por ciclos a uma frequncia de 60 MHz, o que permite uma taxa de transferncia de at 60 MB/s (contra 20
MB/s dos padres anteriores). Embora na prtica a taxa de transferncia dependa mais dos chips de memria
Flash usados, o barramento mais rpido coloca os cartes Pro-HG em vantagem em relao aos cartes SD, j
que eles esto limitados a um mximo de 20 MB/s pelo barramento usado.

6.9.1.6 CARTES SD
Finalmente, temos os cartes SD (Secure Digital), que acabaram se tornando o formato dominante. Como
o nome sugere, os cartes SD oferecem um sistema de proteo de contedo (o CPRM), que implementado
diretamente no chip controlador. Ele se destina a atender o lobby das gravadoras, oferecendo uma forma de
"proteger" arquivos de udio e outros tipos de contedo contra cpias no autorizadas. Os cartes Memory
Stick implementam um sistema similar (o Magic Gate), mas felizmente ambos so pouco usados.
Existem trs formatos de cartes SD. Alm do formato padro, temos os cartes miniSD e microSD,
verses miniaturizadas, que so eletricamente compatveis com o padro original e podem ser encaixados
num slot para cartes SD regulares usando um adaptador simples.
Os cartes SD suportam 3 modos de transferncia. O 4 bits mode o modo "padro", onde o carto
transfere 4 bits por ciclo, a uma frequncia de at 50 MHz, resultando em taxas de transferncia de at 25
MB/s (desde que os chips de memria usados acompanhem, naturalmente). O segundo o 1 bit mode, onde
transferido um nico bit por ciclo, a uma frequncia de no mximo 20 MHz. Este modo usado para manter
compatibilidade com os cartes MMC. graas a ele que voc pode usar cartes MMC em cmeras e leitores
para cartes SD e vice-versa. Finalmente, existe o modo SPI (ainda mais lento), que utilizado por algumas
cmeras antigas e tambm em diversos tipos de dispositivos embarcados.
por causa dos trs modos de operao que um mesmo carto SD pode ser acessado a velocidades bem
diferentes de acordo com o dispositivo onde ele usado. Muitas cmeras antigas que permitem acessar o
contedo do carto quando ligadas a uma porta USB transferem a velocidades muito baixas, muitas vezes
inferiores a 300 KB/s. O driver "sdhci" (no Linux), que d suporte aos leitores de cartes includos em
notebooks, por exemplo, (pelo menos at o Kernel 2.6.21) limitado ao modo SPI, por isso bastante lento
em relao ao driver Windows, que capaz de utilizar o modo 4 bits. Ou seja, o leitor do seu notebook
funciona, mas a uma velocidade muito baixa e com uma grande utilizao do processador.
O modo SPI o preferido pelos desenvolvedores de sistemas embarcados e drivers open-source, pois ele
muito simples e por isso pode ser emulado via software, sem a necessidade de usar um controlador adicional.
No modo SPI 4 so usados 4 pinos do carto: um para enviar o sinal de clock, outro para enviar comandos, o
terceiro para selecionar qual chip dentro do carto ser acessado e o ltimo para transferir dados, um bit de
cada vez. Desde que voc possa controlar o uso dos 4 pinos, fcil escrever uma funo ou driver para acessar
o carto.
321

O modo SPI o mais lento, mas suficiente para muitas aplicaes. Imagine o caso de um sensor de
temperatura que usa o carto apenas para armazenar um log das variaes, gravando alguns poucos bits por
vez, por exemplo.
Concluindo, temos tambm o formato "SD Duo", um nome mercadolgico para cartes SD que podem ser
ligados diretamente em uma porta USB, assumindo tambm a funo de pendrive. Este padro foi
originalmente criado pela Sandisk e depois copiado por outros fabricantes. Eles possuem uma dobradia ou
protetor removvel, que esconde um conector USB:

Estes cartes utilizam um controlador dual, que alm de ser um controlador SD, incorpora tambm as
funes de controlador USB. Graas a isso, o fabricante pode colocar os contatos normais do carto SD de um
lado, e os contatos da porta USB do outro, criando um design muito engenhoso. Apesar de prticos, eles
acabaram no pegando, j que os cartes SD regulares foram logo inteiramente substitudos pelos microSD.

6.9.1.7 CONTROLADORES
Com exceo dos antigos cartes SmartMedia e xD, que vimos h pouco, todos os cartes de memria
Flash incluem um chip controlador, que encarregado do gerenciamento dos endereos e todas as operaes
de leitura e gravao, alm de executarem funes de manuteno diversas.
Os cartes atuais utilizam o sistema "wear levelling" para ampliar a vida til das clulas. O grande
problema que as clulas de memria Flash NAND MLC suportam cerca de 10.000 operaes de gravao, o
que bem pouco se comparado a outras mdias de armazenamento. Para complicar, a maioria dos sistemas de
arquivos (especialmente FAT e EXT) realizam atualizaes frequentes na tabela de endereamento da partio.
Se nada fosse feito a respeito, as gravaes sucessivas iriam rapidamente inutilizar as clulas responsveis
pelo armazenamento da tabela, inutilizando o carto. Graas ao wear levelling feito uma espcie de "rodzio"
dos endereos mais acessados entre as clulas do carto, evitando a fadiga de alguns endereos isolados.
Outra funo remapear os endereos defeituosos, onde um setor de uma rea reservada passa a ser
usado em seu lugar. Isto muito similar ao sistema utilizado nos HDs modernos, onde a controladora tambm
capaz de remapear os badblocks automaticamente.
Voc pode ento se perguntar como o controlador faz para descobrir os endereos defeituosos. A resposta
que, alm dos dados e dos setores da rea reservada, a memria armazena tambm alguns bytes adicionais
(tipicamente 64 bytes adicionais para cada bloco de 2048 bytes), usados para guardar cdigos ECC. Estes
cdigos permitem no apenas identificar, mas tambm corrigir erros simples nos dados gravados. Como o
controlador no tem como descobrir exatamente em qual clula ocorreu o erro, normalmente todo o bloco de
2048 bytes remapeado.
Grande parte dos cartes de memria Flash j saem de fbrica com alguns setores defeituosos
remapeados (assim como os HDs). Isso permite que os fabricantes aproveitem mdulos que de outra forma
precisariam ser descartados, reduzindo o custo de forma considervel.

322

At certo ponto, o controlador tambm responsvel pelas taxas de transferncia suportadas pelo carto,
j que ele quem determina os modos de acesso e as frequncias de clock suportadas. Mesmo que os chips
de memria sejam suficientemente rpidos, a taxa de transferncia mxima pode ser limitada pelo
controlador. Por exemplo, muitos cartes microSD utilizam controladores limitados a 20 MHz, que so capazes
de transferir a, no mximo, 10 MB/s, enquanto muitos dos novos j utilizam controladores capazes de operar a
50 MHz, como nos cartes SD regulares.
A velocidade dos cartes comparada pelos fabricantes velocidade dos drives de CD-ROM. Um carto
"133x" um carto que usa um controlador capaz de transferir a 20 MB/s, um "155x" um carto capaz de
transferir a 25 MB/s e assim por diante. As taxas reais so normalmente mais baixas (sobretudo nas operaes
de gravao), pois ficam limitadas tambm velocidade dos chips, por isso no leve o ndice muito a srio, ele
apenas uma ferramenta de marketing. De qualquer forma, conveniente evitar cartes que no fazem
meno velocidade de transferncia, pois eles normalmente so limitados a 33x ou menos. Note que os
cartes SDHC adotam um ndice diferente, como veremos a seguir.

6.9.1.8

MINISD E MICRO SD

Embora pequenos em relao aos cartes CompactFlash e SmartMedia, os cartes SD ainda so grandes
demais para algumas aplicaes, sobretudo para uso em celulares e nas cmeras mais compactas. Para
solucionar o problema foram criados dois formatos miniaturizados, o miniSD e o microSD, que so menores e
mais finos.

O miniSD mede 2.15 x 2.0 cm, com apenas 1.4 mm de espessura, enquanto o microSD mede apenas 1.5 x
1.1 cm, com apenas 1 mm de espessura, o que fez com que ele se tornasse rapidamente o formato mais
usado, substituindo todos os anteriores.
Alm da miniaturizao, outro segredo para a popularizao do microSD o custo. Os cartes so
produzidos diretamente em torno dos chips de memria, sem o uso de nenhum circuito adicional. O
controlador includo diretamente dentro do chip e os contatos do carto so ligados diretamente em
contatos do chip de memria, que ento acessado diretamente pelo dispositivo no qual ele encaixado.
Voc pode pensar nos cartes microSD como chips de memria flash avulsos, que voc pode usar onde quiser.
Em comparao, em um pendrive necessrio incluir tambm um chip controlador (que faz a interface
entre o chip de memria e o controlador USB), alm da placa de circuito, o cristal de clock e outros
componentes, um conjunto que acaba saindo mais caro:

323

A capacidade a mesma, mas o pendrive usa um volume muito maior de componentes


Como toda nova tecnologia, os cartes microSD eram inicialmente mais caros, j que poucos fabricantes os
produziam. Entretanto, conforme o volume de produo foi crescendo, os preos foram caindo
vertiginosamente. Cartes de 8 GB que custavam (preos do exterior) mais US$ 100 no incio de 2008 caram
para US$ 30 no incio de 2009 e em seguida para US$ 15 (ou at menos) no incio de 2010 (pesquise em lojas
como a dealextreme ou no ebay), preos bem mais baixos que pendrives da mesma capacidade.
Na maioria dos casos, o carto acompanha um adaptador SD. Como os dois padres so compatveis
eletricamente, o adaptador apenas um dispositivo passivo, muito barato de se produzir. Existem tambm
adaptadores para mini-SD e Memory Stick Duo, sem falar nos leitores USB, que transformam o carto microSD
em um mini-pendrive:

Voc pode se perguntar como possvel que os cartes microSD sejam to compactos, j que qualquer
carto SD precisa de pelo menos dois chips (o chip de memria e o controlador) e num carto microSD mal
temos espao para um. A resposta est no die-stacking, tecnologia que comentei h pouco. Num carto
microSD temos um ou mais chips de memria e o prprio controlador "empilhados", formando um nico
324

encapsulamento. Ele instalado pelo fabricante numa placa de circuito que contm os contatos externos e em
seguida selado dentro da cobertura externa. O mesmo se aplica aos cartes Memory Stick Micro, que possuem
dimenses similares.
No possvel desmontar um carto microSD e, mesmo que voc quebre um no meio, no vai conseguir
diferenciar os chips, pois eles so produzidos usando wafers muito finos (at 0.025 mm de espessura nos mais
recentes) e juntados de forma muito precisa.

6.9.1.9 SDHC
Alm do formato, outra questo importante sobre os cartes SD a
questo da capacidade. Inicialmente, o padro de cartes SD previa o
desenvolvimento de cartes de at 2 GB, formatados por padro em FAT16.
Voc pode reformatar o carto em NTFS ou em outros sistemas de arquivos,
mas, nesse caso, a maior parte das cmeras e outros dispositivos deixam de
conseguir acess-lo, embora voc ainda consiga acessar o carto
normalmente se conect-lo a um PC usando um adaptador USB.
Quando o limite de 2 GB foi atingido, os fabricantes passaram a criar
extenses para permitir a criao de cartes de 4 GB, usando hacks para
modificar o sistema de endereamento e passando a usar o sistema FAT32
(no lugar do FAT16) na formatao. Estes cartes de 4 GB "nopadronizados" so compatveis com a maioria dos dispositivos antigos, mas voc pode enfrentar problemas
diversos de compatibilidade, j que eles no seguem o padro.
Para colocar ordem na casa, foi criado o padro SDHC (Secure Digital High Capacity), onde a tabela de
endereamento foi expandida e o sistema de arquivos FAT32 passou a ser oficialmente usado. Todos os
cartes que seguem o novo padro carregam o logotipo "SDHC" ou "microSDHC" (que permite diferenci-los
dos cartes de 4 GB "no-oficiais") e trazem um nmero de classe, que indica a taxa de transferncia mnima
em operaes de escrita. Veja um exemplo de carto com o logotipo.
Os cartes "Class 2" gravam a 2 MB/s, os "Class 4" a 4 MB/s, os "Class 6" a 6 MB/s, e assim por diante. O
mesmo se aplica aos cartes miniSD e microSD. Note que a numerao no diz nada sobre a velocidade de
leitura, mas ela tende a ser proporcionalmente maior.
O lanamento do padro SDHC criou problemas de compatibilidade entre os novos cartes e aparelhos
antigos, incluindo no apenas smartphones e cmeras, mas tambm leitores de cartes.
Para suportar o SDHC, necessrio que o dispositivo utilize um controlador compatvel e (no caso dos
smartphones), tambm, um firmware atualizado. Muitos smartphones lanados de 2006 em diante, que
originalmente no oferecem suporte ao SDHC, podem se tornar compatveis atravs de atualizaes de
firmware, mas, por outro lado, existem tambm muitos modelos relativamente recentes (fabricados entre
2007 e 2008) que realmente ficaro para sempre limitados aos cartes de 2 GB.
Em muitos casos, possvel utilizar os cartes de 4 GB no-padronizados nesses aparelhos (eles podem ser
diferenciados dos SDHC facilmente, pois no possuem o logo), mas, nesse caso, uma questo de tentativa e
erro. muito melhor confirmar a compatibilidade com o SDHC antes de comprar.
O padro SDHC original prev a criao de cartes de at 32 GB, que o limite de tamanho para parties
FAT 32 com clusters de 16 KB. Em 2009 foi anunciado o formato SDXC (SD Extended Capacity), que elevou o
limite para 2 TB, adotando o uso do sistema de arquivos exFAT (o sucessor do FAT32, que utiliza um sistema de
endereamento de 64 bits).
A mudana do SDHC para o SDXC no ser indolor, j que o novo sistema de endereamento torna
necessrio o uso de controladores atualizados e mudanas nos softwares. Por outro lado, ela uma
atualizao necessria, j que os cartes de 64 e 128 GB j esto no horizonte.
325

6.10 ESTADO SLIDO: OS SSDS


Os SSDs ou "Solid State Disks" (discos de
estado slido) so possivelmente a maior
revoluo dentro do ramo dos HDs desde o IBM
350, j que eles utilizam um princpio de
armazenamento completamente diferente, com
os discos magnticos dando lugar aos chips de
memria Flash.
A vantagem bvia dos SSDs que eles
oferecem tempos de acesso muito baixos,
combinados com excelentes taxas de leitura e
gravao em setores aleatrios, onde mesmo os
melhores HDs magnticos oferecem apenas
alguns poucos MB/s. Isso melhora o desempenho
consideravelmente em uma grande gama de aplicativos e reduz bastante o tempo de boot, tornando o sistema
muito mais respondvel.
Os SSDs tambm oferecem um consumo eltrico mais baixo (o que os tornam um componente atrativo
especialmente para os notebooks), so silenciosos, resistentes a impactos e oferecem uma melhor segurana
contra perda de dados devido a defeitos de hardware, j que no possuem partes mveis.
A grande desvantagem por outro lado o custo por megabyte, j que em vez de combinar 4 discos
magnticos de 500 GB cada um para criar um HD de 2 TB, voc precisa juntar 20 chips de memria Flash de 8
GB cada para criar um SSD de apenas 160 GB. Quanto mais gigabytes, mais chips, o que leva os preos dos
drives de maior capacidade para as alturas.
Os primeiros SSDs para uso domstico comearam a
chegar ao mercado em 2007, mas por serem muito caros
(pense em US$ 500 por um SSD de 32 GB) eles
receberam pouca ateno. Apenas recentemente (final
de 2009) os SSDs comearam a chegar com mais fora,
liderados pela srie X25 da Intel e modelos da Kingston,
Corsair, OCZ, Super Talent e outros fabricantes menores,
que se especializaram em vender verses OEM de drives
da Samsung, Indilinx ou at mesmo da Intel.
A grande maioria dos SSDs domsticos utilizam mdulos de memria Flash MLC, assim como nos cartes e
pendrives. Entretanto, eles oferecem um diferencial importante, que o uso de mltiplos canais de acesso.
Isso permite que o controlador acesse vrios chips simultaneamente, dividindo os arquivos em pequenos
blocos que podem ser divididos entre os chips e depois lidos simultaneamente, de maneira muito similar ao
que temos em um sistema RAID.
A maioria dos drives atuais utilizam 10 ou 20 chips de memria Flash (o que permite que os fabricantes
produzam drives de baixa e alta capacidade usando as mesmas placas) e 10 canais de acesso simultneo. Um
bom exemplo o Intel X25-M G2, que usa 10 chips na verso de 160 GB e 20 chips na verso de 320 GB (com
os mesmos 10 canais de acesso em ambos os casos).
Ao escrever um arquivo de 4 MB, por exemplo, o controlador o dividir em 10 blocos de 400 KB cada um,
que sero escritos simultaneamente em 10 chips diferentes, ocupando um total de 100 pginas de 4 KB em
cada um. Ao ler o arquivo posteriormente, a leitura novamente dividida entre os 10 chips, o que multiplica
tanto a taxa de escrita quanto a de leitura, sem que exista penalidade com relao aos tempos de acesso.
326

Outro ponto importante a favor dos SSDs o uso de controladores mais inteligentes, que utilizam buffers
de dados relativamente grandes. Isso permite que as operaes sejam organizadas e agrupadas de maneiras
mais eficientes e muitas operaes sejam cacheadas.
Em situaes em que a controladora dispe de um volume suficiente de blocos limpos (veja mais detalhes
a seguir) um SSD de segunda gerao como o Intel X25-M G2 pode atingir facilmente 250 MB/s de taxa de
leitura sequencial e 80 MB/s de escrita sequencial (muitos drives atingem os 160 MB/s), se aproximando dos
300 MB/s tericos do SATA-300.
Entretanto, nas operaes de leitura e escrita em setores aleatrios que a diferena se torna mais
marcante. Enquanto um HD magntico de 7200 RPM no capaz de manter mais do que 800 ou 1000 KB/s de
escrita ao gravar arquivos de 4 KB em setores aleatrios, um bom SSD capaz de ultrapassar facilmente os 20
MB/s (o X25-M G2 capaz de manter de 36 a 40 MB/s de acordo com o volume de requisies simultneas), o
que acaba representando uma diferena muito grande em situaes reais de uso.

6.10.1 OS ACIDENTES EVOLUTIVOS


Alm dos SSDs SATA destinados a desktops, existiram tambm alguns modelos de baixo custo e baixo
desempenho (como os usados no Eee PC 701, 900 e 901), mas eles se comportavam basicamente como um
pendrive ligado a um slot Express Mini. Eles ofereciam taxas razoveis de leitura, mas em compensao
ofereciam taxas de escrita incrivelmente baixas para pequenos arquivos (combinados com buffers de escrita
muito pequenos), o que prejudicava a responsividade do sistema, resultando em irritantes pausas de at um
segundo sempre que o sistema precisava escrever dados no SSD.
Para ter uma ideia, o SSD Phison de 8 GB usado no Eee 901 capaz de executar apenas 12 gravaes de
arquivos de 4 KB por segundo, o que corresponde a apenas 48 KB/s!
Este problema das pausas em operaes de escrita afetou tambm a primeira gerao de SSDs, baseados
no controlador JMicron JMF602, que foi usado em drives de diversos fabricantes, incluindo modelos da OCZ,
SuperTalent, Corsair e outros.
Embora eles apresentassem taxas de leitura e escrita sequenciais relativamente altas, as deficincias do
controlador faziam com que a latncia de operaes de escrita de pequenos arquivos ultrapassassem os 900
ms em muitas situaes.
Para complicar, o controlador inclua um buffer de escrita de apenas 16 KB, suficiente para absorver
apenas um punhado de operaes. Sempre que o buffer ficava cheio, o drive deixava de aceitar comandos,
fazendo com que o sistema simplesmente congelasse por um ou dois segundos antes de voltar a responder, o
que acontecia com frequncia mesmo em operaes corriqueiras, como abrir uma pgina web ou enviar
mensagens de IM (caso o cliente tentasse salvar a mensagem no histrico).
Pode-se discutir se a culpa foi da JMicron em
colocar o controlador no mercado, ou se foi dos
fabricantes de SSDs que passaram a vender drives
baseados nele apesar dos problemas, mas, de
qualquer maneira, o JMicron JMF602 um
controlador que viver na infmia.
Felizmente, a notcia logo se espalhou e estes
drives ruins foram logo substitudos por modelos
baseados em controladores da Samsung, Indilinx e
Intel, dando origem gerao atual. No final, o
JMF602 acabou sendo usado em apenas alguns milhares de drives, vendidos principalmente no mercado
norte-americano.
327

Outra opo muito comentada so os adaptadores SD > IDE,


que permitem transformar um carto de memria em SSD de
baixo custo.
O grande problema com estes leitores que eles utilizam
controladores destinados a leitores de cartes PCMCIA, como o
FC1306T (que oferece suporte tambm interface IDE) e no
controladores de disco como os SSDs de verdade, que incluem
buffers, uso de vrios canais e outras otimizaes. Como
resultado, os leitores oferecem um desempenho muito ruim no
apenas em leitura e gravao (j que ficam limitados s taxas
suportadas pelo carto) mas principalmente ao gravar pequenos arquivos. Se o BIOS do micro suportar boot
via USB, bem melhor simplesmente usar um pendrive.

6.10.2 DESEMPENHO
Diferente dos HDs magnticos, o desempenho dos SSDs praticamente no afetado pela fragmentao, j
que no faz muita diferena para o controlador se os endereos a serem lidos esto em setores adjacentes ou
espalhados pelo disco. Entretanto, particularidades na maneira como os setores so acessados fazem com
que, em muitas situaes, o desempenho decaia com o uso, conforme dados so gravados e apagados.
primeira vista, o efeito pode parecer similar perda de desempenho causada pela fragmentao, mas as
razes so completamente diferentes.
Em um HD magntico os dados so gravados em setores de 512 bytes, que podem ser apagados e
sobrescritos de maneira independente. Nos SSDs, por outro lado, os endereos so organizados em pginas de
4 KB, que so ento agrupadas em blocos de 512 KB:

As pginas funcionam de maneira muito similar aos clusters dos HDs magnticos. Cada pgina pode
armazenar um arquivo ou fragmento de arquivo. Dois arquivos no podem compartilhar a mesma pgina, o
que faz com que arquivos com menos de 4 KB ocupem uma pgina inteira, desperdiando espao.
Este no chega a ser um grande problema, j que a maioria dos sistemas de arquivos utilizam clusters de 4
KB ou mais de qualquer forma. O grande problema mesmo a questo dos blocos e das operaes de escrita.
Assim como em um HD magntico, a controladora capaz de acessar as pginas de forma independente,
lendo e gravando dados. Em um chip de memria MLC tpico, uma operao de leitura demora 50
microssegundos (0.05 ms) e uma operao de escrita demora 900 microssegundos, o que explica a diferena
entre o desempenho de leitura e escrita na maioria dos SSDs.
O grande problema que as pginas na memria Flash no podem ser simplesmente regravadas, como os
setores em um HD magntico. Sempre que necessrio gravar dados em uma pgina j ocupada, a
controladora precisa primeiro apagar os dados anteriores (revertendo as clulas a seu estado original) para s
ento executar a nova operao de escrita.
328

Para piorar (desgraa pouca bobagem...) no possvel apagar as pginas de forma independente.
Sempre que precisa apagar alguma coisa, a controladora tem que limpar todo o bloco (128 pginas), uma
operao demorada, que leva 1 ms ou mais (ou seja, 1000 vezes mais tempo que a escrita de uma pgina
vazia).
Se j houverem outros dados vlidos dentro do bloco a ser apagado, a operao se torna ainda mais
demorada, j que a controladora precisa ler todo o contedo do bloco, copi-lo para o buffer, executar o
comando de limpeza (que apaga todo o contedo do bloco), fazer a modificao dos dados no buffer e em
seguida gravar todo o bloco novamente. Essa sequncia de passos demora uma verdadeira eternidade, o que
explica como o desempenho de muitos SSDs pode ser to baixo em algumas situaes.
Para reduzir o nmero de vezes em que precisa arcar com a penalidade, a controladora procura sempre
que possvel usar blocos vazios, em vez de regravar o contedo de blocos existentes. Nesse caso, um novo
bloco usado para armazenar a verso modificada e a tabela de alocao do sistema de arquivos atualizada,
com a entrada apontando para o novo endereo.
O grande problema com essa abordagem que ela funciona bem durante as primeiras semanas ou meses
de uso, mas a partir do momento em que todos os blocos foram usados pelo menos uma vez, a controladora
passa a ser obrigada a voltar e reciclar os blocos anteriormente utilizados, executando todos os passos. Isso
leva a um fenmeno curioso, onde o desempenho do drive "novo" consideravelmente melhor que o do drive
"usado", depois de algum tempo de uso. Como comentei, o sintoma similar ao que temos em um HD
fragmentado, mas a causa diferente.
Esse problema afetou toda a primeira gerao de SSDs (dos genricos baseados em controladores da
jMicron aos Intel X25), cujo desempenho de escrita caa para menos da metade depois de algum tempo de
uso. O caso acabou gerando uma grande repercusso, o que levou os fabricantes a responderem com
atualizaes de firmware destinadas a remendar o problema, implementando sistemas de "reciclagem", que
limpam os setores marcados como vagos enquanto o drive est ocioso, mantendo sempre um determinado
volume de blocos vagos.
A soluo definitiva veio com o comando TRIM, uma nova funo que permite ao sistema operacional
agendar a limpeza das pginas cujo contedo foi deletado ou movido em vez de simplesmente marc-las como
vagas. Isso faz com que as pginas livres do SSD realmente estejam prontas para receber novos dados, sem
depender unicamente de algum sistema de reciclagem executado pela controladora.
O grande problema com o TRIM que ele suportado apenas pelo Windows 7 e por verses recentes do
kernel Linux, o que deixa de fora usurios do Windows Vista ou Windows XP. No caso deles existem utilitrios
de otimizao oferecidos pelos fabricantes, como o SSD Toolbox da Intel, que permitem executar testes e
otimizaes.

329

Naturalmente, o TRIM precisa ser suportado tambm pelo SSD, o que abre outra margem para problemas,
j que apenas os drives produzidos a partir do final de 2009 oferecem suporte a ele. No caso dos drives da
Intel, por exemplo, o suporte est disponvel apenas a partir do X25-M G2. Se voc tem um X25-M da primeira
gerao, est sem sorte.
Concluindo, voc pode se perguntar por que os fabricantes no passam a produzir chips de memria Flash
com pginas que podem ser apagadas e regravadas de forma independente, eliminando o uso dos blocos.
Bem, com certeza muitos fabricantes devem ter considerado essa ideia. O grande problema que isso
demandaria o uso de muito mais trilhas, o que reduziria a densidade dos chips (as trilhas roubariam o espao
utilizado pelas clulas) e aumentaria o custo por megabyte. Outro obstculo que os chips atuais (com os
blocos de 512 KB) so os mesmos utilizados em cartes e pendrives. Desenvolver linhas separadas de chips
destinados a SSDs aumentaria ainda mais o custo, tornando a produo quase invivel. Como o bolso a parte
mais sensvel do corpo humano, solues via software como o TRIM acabam sendo a resposta mais fcil.

6.10.3 CICLOS DE GRAVAO E A QUESTO DA LONGEVIDADE


Um dos grandes problemas com as clulas de memria Flash a longevidade. Diferente dos platters de um
HD, que podem ser regravados alguns milhes de vezes (o desgaste est mais relacionado ao tempo de uso e a
danos fsicos e no ao nmero de regravaes), as clulas de memria Flash tm uma vida til estimada em
100.000 regravaes no caso dos chips SLC e apenas 10.000 regravaes no caso dos MLC.
Os chips SLC so a tecnologia original de chips de memria flash NAND, onde cada clula armazena um
nico bit, salvo na forma de um impulso eltrico (1 ou 0). As clulas MLC armazenam dois bits, utilizando 4
nveis de tenso diferentes. O uso do MLC permite produzir chips com o dobro da capacidade sem
praticamente nenhum custo adicional, mas por outro lado resulta em chips mais lentos (principalmente nas
operaes de escrita) e menos durveis.
Como sempre, a questo do custo acaba falando mais alto, o que faz com que os chips MLC sejam os
utilizados em praticamente todos os cartes de memria e pendrives (com exceo de alguns modelos de alto
desempenho) e tambm na esmagadora maioria dos SSDs de baixo e mdio custo, o que nos leva ao problema
das 10.000 regravaes.
Em um carto de memria ou mesmo em um pendrive, este nmero no parece to preocupante, j que,
mesmo que enchesse o carto da sua cmera todos os dias, voc demoraria 30 anos para atingir as 10.000
regravaes. Em um SSD, por outro lado, a coisa um pouco mais sria, j que no apenas o volume de
operaes muito maior (principalmente se for usada memria swap) mas tambm a importncia dos dados
armazenados muito maior.
Para evitar que algumas reas (como no caso de reas usadas como swap) falhem prematuramente,
inutilizando o disco, os fabricantes utilizam sistemas de wear leveling (distribuio de uso), que alteram os
setores usados cada vez que arquivos so criados ou alterados. Em outras palavras, sempre que o contedo de
um bloco modificado, o controlador simplesmente l os dados, faz a alterao e grava o contedo em um
novo bloco.
Isso faz com que o bloco anterior seja novamente utilizado apenas depois que todos os outros blocos do
SSD forem utilizados pelo menos uma vez. Note que o wear leveling se encaixa bem com os algoritmos para
evitar as penalidades de escrita.
Com 10.000 operaes de escrita por bloco, um SSD de 80 GB teria uma vida til estimada em 800 TB de
gravaes, o que um nmero difcil de atingir em situaes normais, j que voc precisaria gravar 40 GB de
dados todos os dias por 60 anos para atingir a marca.
Entretanto, na prtica, a vida til menor devido a um outro fator, o write amplification, que causado
pela questo dos blocos. Enquanto o controlador est gravando grandes arquivos isso no um problema, j
330

que eles sero quebrados em pedaos de 512 KB e cada um ocupar um bloco inteiro. O grande problema a
gravao de arquivos pequenos, onde existe a possibilidade de ter que apagar e em seguida regravar um bloco
inteiro para salvar um arquivo de apenas 4 KB (ou menos).
No pior caso possvel o write amplification seria de 128x (gravar um bloco inteiro para alterar uma nica
pgina), mas em situaes reais ele estimado em de 20x a 40x (ou seja, para cada 8 GB de dados, a
controladora acabaria escrevendo um total de 160 a 320 GB de dados nas clulas de memria).
Nos drives atuais, porm, o cenrio no to sombrio, pois graas ao uso de sistemas inteligentes de
reduo (combinao de escritas e outras tcnicas), os controladores so capazes de reduzir bastante este
nmero. A Intel por exemplo promete (embora no garanta) valores de at 1.1x nos SSDs da srie X25.
Como so obrigados a levar vrios fatores em conta e oferecer uma estimativa mnima do quanto o SSD vai
durar, os fabricantes adotam posturas bem mais conservadoras, estimando a vida til do SSD em de 5 a 10
anos de uso intenso, o que , de qualquer forma, bem mais que a mdia dos HDs magnticos. As clulas de
memria flash so tambm capazes de preservar os dados por pelo menos 10 anos sem receberem
alimentao eltrica, o que tambm uma boa marca.

6.10.4 A QUESTO DA CAPACIDADE


Assim como no caso dos chips de memria, a capacidade dos chips de memria Flash medida em valores
binrios e no em decimais (como no caso dos HDs). Com isso, um chip de 8 GB armazena 8.589.934.592
bytes, e no 8.000.000.000.
Entretanto, os fabricantes adotam a nomenclatura decimal, assim como os fabricantes de HDs, reduzindo
o espao utilizvel do disco. Um SSD de 80 GB passa a ter ento apenas 80 bilhes de bytes, ou seja, apenas
74.5 GB binrios, assim como em um HD magntico.
Os 5.5 GB restantes so usados pelo controlador como uma rea reservada (spare area). Ela tem
basicamente duas funes: servir como uma rea de armazenamento temporrio para novos dados,
permitindo que o controlador grave informaes imediatamente mesmo que no tenha setores limpos
disponveis e, mais importante, permite que o controlador remapeie pginas defeituosas.
Como sempre, as 10.000 operaes de escrita so apenas uma estimativa. Dentro do SSD, algumas clulas
podem falar muito antes, enquanto outras acabam resistindo a um volume muito maior de escritas. A rea
reservada permite que o controlador substitua as pginas conforme os defeitos aparecem, fazendo com que a
longevidade do HD seja muito maior. Graas a isso, o sistema comear a acusar setores defeituosos apenas
depois que o SSD j tiver 7% (5.5 GB no caso de um SSD de 80 GB) de pginas defeituosas.

6.10.5 POPULARIZAO
Considerando o brutal custo por gigabyte dos SSDs, no faz muito sentido pensar em utiliz-los para
armazenar seus 2 TB de filmes e msicas (a menos que voc seja algum milionrio excntrico sem nada melhor
para fazer com o dinheiro...) j que voc simplesmente gastaria uma fortuna.
O truque para reduzir os custos e maximizar os ganhos combinar um SSD de baixa capacidade com um ou
mais HDs magnticos de grande capacidade, usando o SSD para armazenar a partio principal (com o sistema
operacional, programas e arquivos de trabalho) e usar o HD magntico para os arquivos maiores.
Isso permite que o SSD desempenhe seu papel de oferecer um boot mais rpido e carregamento quase
instantneo dos aplicativos, exibindo seus dotes com leitura de setores no sequenciais, ao mesmo tempo em
que o HD magntico tem a oportunidade de demostrar seus talentos com relao capacidade e leitura de
setores sequenciais.
No demorou para que muitos fabricantes percebessem o nicho, passando a lanar SSDs de baixo custo e
baixa capacidade, destinados a serem usados como disco de boot. Um bom exemplo o Kingston V Series de
331

40 GB, que uma verso econmica do Intel X25-M G2, com menos chips de memria Flash (ele usa apenas 5
chips de 8 GB, em vez de 10 chips de 16 GB como no X25-M G2 de 160 GB). Ele foi o primeiro SSD de alto
desempenho a ser vendido (nos EUA) abaixo da marca dos US$ 100, o que pode ser considerado um marco.
Com relao aos preos dos SSDs de maior capacidade, no espere nenhuma mudana sbita a curto
prazo. A tendncia que os chips de memria Flash continuem dobrando de capacidade a cada 18 meses,
permitindo que os fabricantes ofeream SSDs com o dobro da capacidade por basicamente o mesmo preo.
As verses iniciais do Intel X25-M, por exemplo, foram lanadas em capacidades de 80 e 160 GB, usando
(respectivamente), 10 e 20 chips de 8 GB, produzidos usando uma tcnica de 50 nm. A segunda gerao (o
X25-M G2) foi equipada com chips de 16 GB, produzidos usando uma tcnica de 34 nm, o que permitiu Intel
dobrar as capacidades e oferecer modelos com 160 e 320 GB.
Eventualmente migraro para a tcnica de 22 nm, o que permitir equipar os drives com chips de 32 GB
(novamente dobrando a capacidade) e, eventualmente, para a tcnica de 15 nm, dobrando mais uma vez. Os
preos devem flutuar de acordo com a demanda, mas a tendncia geral que no exista uma grande reduo
no custo por unidade.
O que deve acontecer o aparecimento de mais opes de SSDs de baixa capacidade (e menos chips),
vendidos por preos mais baixos. Em outras palavras, os HDs magnticos continuaro entre ns por pelo
menos mais uma ou duas dcadas, seno mais.

6.10.6 FORMATOS
Embora os SSDs no paream to atrativos nos desktops devido ao custo e baixa capacidade em relao
aos HDs magnticos, eles tendem a se tornar muito populares em notebooks ultraportteis. Por serem mais
caros, eles so os modelos que podem absorver melhor o aumento no custo e, ao mesmo tempo, so onde as
dimenses reduzidas e o consumo eltrico mais baixo dos SSDs fazem mais diferena.
Os primeiros modelos de SSDs destinados a ultraportteis utilizam o formato half-slim, com metade do
comprimento de um HD de 2.5" regular, baseados no conector SATA padro. Entretanto, prevendo o
crescimento do setor, a SATA-IO se apressou em criar um padro miniaturizado, o mSATA (ou mini-SATA) que
permite a criao de SSDs mais compactos.
Embora o mSATA utilize o mesmo conector
das placas Express Mini, ele mantm o uso da
sinalizao Serial-ATA. Graas a isso, os SSDs
suportam as mesmas taxas de 150 e 300 MB/s
do SATA-150 e do SATA-300 e so detectados
pelo sistema operacional da mesma maneira
que HDs SATA regulares, sem necessidade de
novos drivers (ou seja, muda apenas o
conector).
Uma observao importante que os SSDs
mSATA so diferentes dos SSDS usados nos
primeiros modelos do Eee PC (e em alguns outros notebooks), que embora utilizassem o formato Express Mini,
eram ligados ao barramento USB.

6.11 [EXTRA] HDS HBRIDOS, ACELERADORES E RAM-DRIVES


Um meio termo entre os SSDs e os HDs tradicionais so os HHDs (Hybrid Hard Drives, ou HDs hbridos),
que so HDs tradicionais, que incorporam chips de memria Flash, usados como um buffer de dados.
332

Todos os HDs atuais incluem uma pequena quantidade de memria SDRAM (ou SRAM), usada como cache
de disco. O cache bastante rpido, mas limitado por dois fatores: muito pequeno (16 MB na maioria dos
HDs atuais) e perde os dados armazenados quando o micro desligado.
Em um HHD usada uma quantidade generosa de memria Flash (512 MB ou mais em muitos modelos),
que tem a funo de armazenar dados frequentemente acessados (como arquivos carregados durante o boot),
de forma que eles continuem disponveis depois de desligar o micro e possam ser usados no prximo boot; e,
tambm, a de servir como um buffer de dados, permitindo que arquivos sejam salvos na memria Flash e
copiados para os discos magnticos quando for mais conveniente. Nesse caso no existe problema de perda
de dados armazenados no buffer ao desligar o micro no boto, pois os dados ficam retidos na memria Flash e
so gravados nos discos magnticos no boot seguinte.
Alm dos ganhos de desempenho, sobretudo a potencial reduo no tempo de boot, o buffer permite que
o HD fique mais tempo em modo de economia de energia, j que no preciso "acordar" o HD ao salvar
arquivos ou quando o sistema precisa atualizar arquivos de log, por exemplo, operaes que podem ser
realizadas no buffer. Isso acaba tornando a tecnologia bastante interessante para os notebooks, onde o HD
chega a representar um quarto do consumo eltrico total.
Naturalmente, a memria Flash muito mais
lenta que a memria RAM tipicamente usada no
cache de disco e (em muitos casos) mais lenta at
mesmo que os discos magnticos em leitura ou
gravao de arquivos sequenciais. Ao salvar um
arquivo grande (uma imagem de DVD, por exemplo),
a gravao feita diretamente nos discos
magnticos, sem passar pelo buffer.
Temos tambm a tecnologia Robson,
desenvolvida pela Intel, onde temos um buffer
similar, instalado na placa-me. Os chips de memria
Flash podem ser incorporados diretamente na placa, ou instalados atravs de uma placa de expanso (opo
que fica a cargo do fabricante).
Em ambos os casos, o buffer se comunica com o chipset atravs do barramento PCI Express e ele (chipset),
com a ajuda de um driver instalado no sistema operacional, se encarrega de usar o buffer para cachear as
operaes do HD. O princpio de funcionamento e o resultado prtico o mesmo que usar um HHD, a nica
grande diferena que o dinheiro vai para a Intel, ao invs de para o fabricante do HD :). A tecnologia Robson
foi introduzida no chipset i965GM e usado em alguns notebooks baseados na plataforma Santa Rosa.
Na gerao inicial, o ganho de desempenho e de autonomia da bateria muito pequeno, mas isso pode vir
a melhorar nas revises subsequentes. De qualquer forma, fica a cargo do fabricante usar o buffer ou no.
Alm dos SSDs, outra modalidade de discos de estado slido (o "disco" apenas figura de linguagem, j
que chips no so redondos...) so os RAM-drives, que utilizam memria RAM como mdia de
armazenamento, oferecendo tempos de acesso ainda mais baixos que os SSDs NAND e taxas de leitura e
gravao absurdamente altas.
Embora sejam muito caros e consumam muita
energia, eles so moderadamente populares em
servidores de alto desempenho, onde o ganho de
desempenho compensa o custo. Um bom exemplo o
RamSan-440
(http://www.superssd.com/products/),
uma unidade com 256 ou 512 GB de memria DDR2, que
suporta at 600.000 operaes de I/O por segundo, com
333

uma taxa de leitura e gravao em setores no sequenciais de 4 GB/s.


Diferente de um SSD tpico, ele uma unidade 4U externa, que conectada ao servidor atravs de um link
Fibre Channel. Dentro do gabinete temos 128 ou 256 mdulos de memria de 2 GB cada um, combinados com
uma fonte de alimentao e um conjunto de controladores encarregados de criar a interface de dados e dividir
as operaes de leitura e gravao entre os mdulos (maximizando a performance).
Como a memria RAM voltil e dados em servidores so uma coisa importante, ele implementa um
sistema duplo de manuteno, composto por uma bateria que preserva os dados da memria por algumas
horas em caso de falta de energia e um sistema de backup contnuo dos dados em uma unidade de memria
Flash.
Em 2005, a Gigabyte tentou
popularizar o uso de RAM-drives em
desktops com o i-RAM, uma placa PCI que
permitia o uso de 4 GB de memria DDR.
Apesar do uso do slot PCI, a conexo
de dados era feita atravs de uma porta
SATA, o que permitia que o i-RAM fosse
detectado como um HD convencional, sem
necessidade de drivers adicionais (o slot
PCI era usado apenas para o fornecimento eltrico). Ele continuava sendo alimentado com o PC desligado
(desde que a fonte continuasse ligada na tomada, naturalmente) e uma pequena bateria de backup mantinha
os dados por algumas horas em caso de falta de luz.
Graas ao uso dos mdulos de memria, os tempos de acesso eram muito baixos, mas a taxa de
transferncia era limitada aos 150 MB/s da interface SATA. A ideia no era de todo ruim, mas ele acabou
desaparecendo com a chegada dos primeiros SSDs NAND.

6.12 MDIAS PTICAS


Durante a segunda metade da dcada de 70, a Philips e a Sony trabalharam no desenvolvimento de uma
mdia ptica capaz de substituir os antigos discos de vinil. A cooperao entre as duas empresas deu origem ao
CD, que embora tenha se popularizado apenas na dcada de 90, chegou ao mercado bem antes, em 1982. A
tecnologia do CD evoluiu ao longo das dcadas, dando origem ao DVD e ao Blu-ray, que usamos atualmente.

6.12.1 CD (COMPACT DISK)


Originalmente, os CDs eram destinados a armazenar apenas udio, com uma taxa de amostragem de 44.1
kHz e 16 bits de resoluo, mas no demorou at que o padro fosse adaptado para o armazenamento de
dados. Os CDs de udio passaram a ser chamados de "CD-DA" (Compact Disk Digital Audio) e os CDs de dados
de "CD-ROM" (Compact Disk Read Only Memory).
Tanto os CDs de udio quanto os CDs de dados so mdias digitais; a grande diferena a forma como os
dados so gravados. A capacidade total de um CD de 74 minutos de 742 MB, que so organizados em setores
de 2352 bytes cada um. Cada setor inclui uma rea adicional de 98 bits (o subcanal Q) que inclui sinais de
sincronismo, informaes sobre a faixa e 16 bits de ECC, que oferecem um sistema rudimentar de correo de
erros.
Nos CDs de dados so reservados 288 bytes adicionais para os cdigos ECC e 16 bytes para sincronismo e
endereamento. Este uso massivo do ECC resulta em uma mdia muito mais confivel, onde os dados podem
ser lidos mesmo depois de muitos arranhes. Por outro lado, mais espao reservado ao ECC corresponde a
menos espao para os dados, o que faz com que a capacidade total do CD-ROM seja de apenas 650 MB.
334

Dentro do CD, os dados so armazenados na forma de sulcos, que contrastam com a superfcie lisa e
reflexiva do disco. Durante a leitura, os sulcos dissipam o laser do leitor, enquanto o restante da superfcie o
reflete, permitindo que o leitor diferencie os bits "1" dos bits "0" com base na intensidade da reflexo:

Diferente do que temos nos HDs (onde so usadas trilhas concntricas), no CD os dados so armazenados
na forma de uma espiral contnua, como em um disco de vinil. Esta espiral engloba todo o disco dando cerca
de 20.000 voltas e tendo um comprimento total de quase 5 quilmetros em um CD de 74 minutos.
O disco lido a partir do centro, o que possibilitou o surgimento dos mini-CDs (185 MB), CDs em formato
de carto (50 MB) e tambm dos CDs com formatos especiais, com capacidades variadas. Temos tambm os
CDs de 80 minutos (700 MB) onde o espaamento entre as voltas da espiral sutilmente reduzido para
acomodar mais dados.
O baixo custo de produo, combinado com a grande capacidade de armazenamento (para a poca)
fizeram com que os CD-ROMs se tornassem rapidamente a mdia mais usada para distribuio de softwares,
antes que a popularizao das conexes de banda larga possibilitassem o download de grandes arquivos.
Mesmo hoje em dia, os CDs ainda so bastante populares como uma forma de transportar dados, j que as
mdias so baratas e praticamente qualquer PC possui um drive ptico.
Considerando o impacto que o CD e os
sucessores tiveram, o funcionamento bsico
bastante simples, baseado na reflexo da luz.
Dentro do drive, o CD gira a uma grande
velocidade e a cabea de leitura se desloca
para atingir toda a superfcie do disco. Embora
inclua apenas uma lente, a cabea de leitura
composta
por
dois
componentes
independentes: o laser de leitura e um sensor,
que capta a luz refletida pelo disco,
possibilitando a leitura.
Os CDs prensados so compostos por trs
camadas. A base um disco de policarbonato (um polmero resistente) que contm os sulcos gravados. Para
possibilitar a leitura, adicionada uma fina camada de alumnio, que atua como um espelho, refletindo o laser.
Ela recoberta por uma camada de laqu, que sela o disco, evitando oxidao.
A camada de laqu (a nica proteo nas mdias lisas) bastante fina e frgil, o que faz com que o CD seja
muito vulnervel a riscos na parte superior. Pequenos danos criam tambm pontos de oxidao ou bolhas, que
com o tempo se espalham inutilizando a mdia. Para tornar as mdias mais resistentes, a maioria dos
fabricantes adota o uso de camadas de proteo adicionais (como as usadas nas mdias foscas) ou rtulos
impressos.
335

A fina e frgil proteo de laqu das mdias lisas


Um dos grandes motivos do sucesso do CD o baixo custo de produo das mdias, o que permite que elas
sejam distribudas em massa em revistas ou at mesmo de graa, como na poca dos infames CDs da AOL.
Tudo comea com a criao de um disco mestre, feito de vidro. Ele gravado usando um laser de alta
potncia, que vaporiza pontos da camada superficial, criando uma imagem positiva do CD final, com todos os
sulcos. Este disco de vidro usado para produzir uma srie de moldes metlicos, que so prensados contra o
original, produzindo imagens negativas do disco.
Estes moldes de metal so usados para produzir os discos finais, atravs de um processo simples de
prensa, onde grnulos de policarbonato so forados sobre o disco de metal dentro de uma cmara aquecida,
criando o disco plstico com os sulcos. Depois de solidificado, ele recebe a camada reflexiva, a camada de
laqu e a estampa. As prensas atuais so capazes de gravar um disco a cada 3 segundos, o que torna o custo
unitrio bastante baixo.
Os dois grandes problemas
com os CDs prensados que eles
no so regravveis (j que seria
impossvel realocar os sulcos do
disco) e que eles so viveis
apenas em grande quantidade, o
que levou ao surgimento do CDR (CD gravvel) e do CD-RW (CD
regravvel), que eliminaram o
estigma de mdia somenteleitura.
Os CD-R e CD-RW utilizam uma estrutura um pouco diferente da dos CDs prensados, com o uso de uma
camada de gravao entre o disco e a camada reflexiva. Esta fina camada baseada em compostos orgnicos
sensveis ao calor, que tm sua composio qumica alterada devido ao calor gerado pelo laser do gravador,
que utiliza uma potncia bem maior que durante a leitura. As partes da superfcie queimadas pelo laser ficam
opacas e criam pequenas bolhas, deixando de refletir a luz do leitor, substituindo sulcos dos CDs prensados.
por isso que usamos a expresso "queimar CDs" em relao gravao.
A cor da mdia varia de acordo com o composto usado na camada de gravao (as mdias douradas usam o
Phthalocyanine enquanto as azuis usam o Cyanine, por exemplo). Na poca em que os CD-R foram
introduzidos, muito se discutia sobre as diferenas na taxa de reflexo e durabilidade das diferentes cores de
mdia, mas com a evoluo dos materiais isso deixou de ser um fator significativo.
336

Nos CD-RW a camada de gravao composta por uma liga contendo telrio, antimnio, prata e outros
metais. Diferente dos compostos orgnicos usados nos CD-R, estas ligas so capazes de alternar entre dois
estados (opaco e cristalino), de acordo com a temperatura em que so fundidas.
Durante a gravao, o drive usa um laser infravermelho mais forte, que aquece a camada de gravao a
uma temperatura de 400 graus. O rpido aquecimento faz com que os pontos marcados se tornem opacos,
assumindo o papel dos sulcos que dissipam o laser de leitura.
Os CD-RW trabalham com um ndice de refrao luminosa muito mais baixa que a dos CD-R, por isso
muitos leitores antigos possuem dificuldade em l-los. Com exceo disso, eles se comportam da mesma
forma que CDs gravados, conservando os dados por muitos anos.
A grande diferena que os dados podem ser apagados posteriormente, reaproveitando a mdia. Nesse
caso, o gravador usa um laser com uma potncia mais baixa, realizando um processo mais lento de
aquecimento e resfriamento que retorna a liga a seu estado cristalino original, deixando a mdia pronta para
uma nova gravao. A opo de apagar o disco est disponvel em qualquer programa de gravao. No K3B,
por exemplo, ela acionada atravs do "Ferramentas > Apagar CD-RW".
Alm da opo de apagar todo o disco a cada gravao, existe a opo de fazer uma gravao multisesso,
ou de usar um sistema de packet writing para gravar novos arquivos conforme necessrio, de forma mais
parecida com o que faria em um pendrive ou carto de memria.
A gravao multisesso o sistema mais tradicional, que permite manter o CD "aberto", gravando os
dados a prestao at que a capacidade da mdia se esgote. A gravao em multisesso pode ser feita em
qualquer tipo de mdia (tanto CD-R quanto CD-RW), mas a maior incidncia de problemas de leitura e perda de
dados fizeram com que ela nunca fosse muito popular.
A segunda tecnologia o packet writing, que permite acessar a mdia de forma muito similar a um drive de
disco, gravando e apagando arquivos conforme desejado. Embora tenha surgido como uma funo do
DirectCD, o packet writing baseado no sistema de arquivos UDF, um formato aberto, que suportado por
outros utilitrios (como o InCD) e tambm no Linux. Ele pode ser usado em qualquer mdia ptica, incluindo
CDs, DVDs e at mesmo em mdias Blu-ray.
Outro truque conhecido o oversize, que permite usar a rea de terminao do CD (lead out) para
armazenar dados, permitindo esticar a capacidade das mdias em alguns megabytes. O oversize atualmente
suportado por quase todos os programas de gravao (procure pela opo na janela com as opes de
gravao) e pode ser til quando voc precisa gravar arquivos um pouco maiores que a capacidade do CD
(como no caso de muitos arquivos de vdeo, que teimam em ter 701 MB em vez de 700) e no quer usar duas
mdias.

6.12.2 DVD (DIGITAL VERSATILE DISK)


Em seguida temos o DVD, a evoluo natural do CD, que surgiu como uma mdia para a distribuio de
filmes, substituindo as antigas fitas VHS. Assim como no caso dos CDs de udio, o padro foi rapidamente
adaptado para a gravao de dados, dando origem ao DVD-ROM.
Uma das grandes diferenas entre o CD e o DVD o comprimento de onda do laser, que de 780 nm no
CD e 650 nm no DVD. Combinada com outras melhorias tcnicas, a mudana permitiu reduzir o comprimento
dos sulcos de 1.6 para 0.74 micron, resultando em uma capacidade total de 4.7 GB.
Diferente do CD, onde a camada reflexiva vai na parte superior do disco, o DVD composto por dois discos
de 0.6 mm colados, com a camada reflexiva posicionada entre ambos. Alm de tornar a mdia mais resistente,
isso abriu as portas para a criao dos DVDs double-sided (DS) onde so usados os dois lados da mdia,
dobrando a capacidade. Temos tambm as mdias dual-layer (DL) que so compostas por duas camadas de
gravao sobrepostas, que so lidas variando o foco do laser de leitura:
337

A combinao das duas


tcnicas deu origem aos 4
padres de DVDs, que incluem
o DVD 5 (um lado e uma
camada, com 4.7 GB), DVD 9
(um lado, duas camadas, com
8.5 GB), DVD 10 (dois lados, uma camada cada, com 9.4 GB) e DVD 18 (dois lados, duas camadas cada, com 17
GB). Embora os DVDs de duas camadas sejam bastante comuns em filmes longos, os padres com duas faces
so bastante raros, j que o alto custo das mdias faz com que seja mais vivel usar dois DVDs separados.
Por presso dos grandes estdios, o primeiro formato de DVD gravvel (desenvolvido pela Pioneer) tinha
uma capacidade ligeiramente menor que as mdias prensadas, com apenas 3.95 GB. Essa limitao foi
introduzida com o objetivo de impedir a cpia direta de DVDs de filmes, mas os fabricantes logo passaram a
ignor-la, resultando nas mdias de 4.7 GB (single-layer) e 8.5 GB (dual-layer) que usamos atualmente.
Uma peculiaridade dos DVDs gravveis a guerra dos formatos, entre o DVD-R, DVD+R e o DVD-RAM, trs
formatos similares, porm incompatveis.
O padro DVD-R foi finalizado em 1997 e foi o primeiro formato a se popularizar, enquanto o DVD+R um
formato mais novo, desenvolvido em 2002. Embora as mdias sejam similares, o DVD+R implementa um
sistema de correo de erros mais robusto, que torna as mdias um pouco mais confiveis e resistentes a
danos. Em ambos os padres temos tambm mdias regravveis, chamadas de DVD-RW e DVD+RW.
Felizmente, a existncia dos dois padres no levou a uma guerra de formatos, pois os fabricantes
passaram a produzir leitores e gravadores compatveis com ambos os padres, criando os drives "DVDR", que
so de longe os mais comuns atualmente. Apesar disso, o DVD-R continua sendo o padro mais compatvel, j
que muitos leitores antigos oferecem suporte apenas a ele.
Embora as capacidades nominais sejam de "4.7" e "8.5" GB, existem pequenas diferenas de capacidade
entre os dois padres. As mdias DVD-R armazenam 4.707 MB (single-layer) e 8.543 (dual-layer), enquanto as
DVD+R armazenam respectivamente 4.700 MB e 8.547 MB.
Em ambos os casos, as capacidades so calculadas em bits decimais (como nos HDs), o que faz com que a
capacidade real indicada pelo sistema operacional seja ligeiramente inferior, com 4.38 ou 7.96 GB.
O DVD-RAM por sua vez oferece uma opo de mdia regravvel de acesso aleatrio, onde voc pode
gravar e apagar os arquivos livremente, como em uma mdia magntica. Isso tambm possvel em outras
mdias usando um software com suporte ao packet writing, mas no DVD-RAM esta uma funo nativa, que
no depende do uso de um software externo.
Alm de diferenas nas funes lgicas (uso de um sistema de correo de erros mais desenvolvido e
gerenciamento de blocos defeituosos) as mdias DVD-RAM utilizam trilhas concntricas (como em um HD) e
no uma espiral contnua, como em outras mdias pticas.
Embora sejam prticas e mais confiveis que as mdias DVD-RW e DVD+RW, as mdias DVD-RAM nunca se
tornaram muito populares. Existem muitos motivos para isso, incluindo o alto custo (as mdias DVD-RAM so
consideravelmente mais caras que as concorrentes) e o fato de uma grande percentagem de leitores no
serem compatveis com elas. Outro motivo a popularizao dos pendrives e HDs externos, que fizeram os
DVDs e CDs regravveis de uma forma geral carem muito em popularidade.

6.12.3 BLU-RAY
Concluindo, temos o Blu-ray, que representa a terceira gerao das mdias pticas, desenvolvido com o
objetivo de atender demanda por uma mdia capaz de armazenar filmes em 1080p comprimidos em H.264
338

ou VC1, que ocupam em mdia 5 vezes mais espao que os 480p usados no DVD. O padro foi desenvolvido
pela Sony e apresentado em 2002, mas comeou a se tornar popular apenas a partir de 2009, em parte devido
batalha contra o HD DVD da Toshiba.
O Blu-ray utiliza um laser com comprimento de onda de 405 nm, o que resulta na cor azulada que deu
origem ao nome. Assim como no DVD, o menor comprimento de onda permitiu o uso de sulcos menores, com
apenas 0.32 micron de comprimento (contra 0.74 micron do DVD), o que elevou a capacidade para 25 GB nas
mdias single-layer e 50 GB nas dual-layer.
Existem tambm mdias prensadas com 27 GB, que utilizaram uma espiral ligeiramente mais extensa
(assim como nos CD-ROMs de 80 minutos). Elas so muito usadas em discos com filmes, para dificultar a cpia
direta em mdias gravveis.
Temos aqui um comparativo entre o tamanho dos sulcos e do ponto focal do laser no Blu-ray e no DVD,
que mostra a diferena na escala:

Devido questo do foco do laser de leitura, a camada de gravao nas mdias Blu-ray no fica mais no
centro da mdia (como no DVD) mas sim diretamente na parte inferior, protegida apenas por uma camada
protetora com 100 micra (0.1 mm) de espessura.
No caso das mdias dual-layer, o conjunto ainda mais frgil, com o uso de uma camada de separao de
25 micra entre as duas camadas de gravao e uma camada protetora de apenas 75 micra sobre as duas, o que
faz com que a espessura total do conjunto seja a mesma de uma mdia single layer.
Combinada com a maior densidade de gravao, isso torna as mdias Blu-ray especialmente vulnerveis a
arranhes, o que demanda mais cuidado no manuseio. Durante a fase de desenvolvimento, chegou a ser
cogitado o uso de um cartucho plstico de proteo (como nos antigos discos Zip), mas a ideia acabou sendo
abandonada, j que tornaria as mdias caras e desajeitadas.
Os discos Blu-ray prensados so chamados de BD-ROM, enfatizando o fato de serem mdias apenas para
leitura. Os discos gravveis so chamados de
BD-R e os regravveis de BD-RE. Diferente das
mdias CD-R e DVD-R, que utilizam compostos
orgnicos na camada de gravao, tanto as
mdias BD-R e BD-RE so baseadas em
compostos inorgnicos, mudando apenas a
composio.
Assim como nas geraes anteriores, os
drives Blu-ray mantm a compatibilidade com
os padres anteriores, permitindo ler tambm
CDs e DVDs. Entretanto, isso no se deve
compatibilidade entre os padres, mas sim ao
uso de mltiplos laseres de leitura, que so usados de acordo com a mdia. Isso leva aos casos de drives
combo, que so capazes de gravar CDs e DVDs, mas apenas leem discos Blu-ray.
339

Uma curiosidade que a maioria dos drives usam lentes separadas para o Blu-ray e para o combo CD/DVD.
Por estranho que possa parecer, essa uma soluo adotada para reduzir os custos, j que permite aproveitar
componentes da gerao anterior (cujo custo j est mais do que amortizado), simplesmente adicionando um
conjunto separado de laser, lente e sensor para o Blu-ray. Como os dois conjuntos so semi-independentes,
no incomum que apenas um deixe de funcionar em caso de defeito, fazendo com que o drive passe a ler
apenas DVDs ou apenas mdias Blu-ray.
Diferente dos CDs e DVDs gravveis, que rapidamente se tornaram populares, os discos Blu-ray gravveis
tero uma batalha mais difcil pela frente, j que o custo inicial das mdias muito mais alto e a capacidade
continua sendo baixa em relao dos HDs. Em 2012 teremos cartes de memria de 32 GB a preos
relativamente baixos, fazendo com que os 25 GB das mdias BD-R single-layer soem como algo ultrapassado.
bem provvel que a maioria continue usando os CDs e DVDs para o transporte de pequenos arquivos,
migrando para os pendrives de grande capacidade e HDs externos na hora de transportar grandes volumes.
A principal esperana para os discos pticos so as mdias Blu-ray de grande capacidade, que esto em
desenvolvimento e podem chegar ao mercado nos prximos anos.
O padro Blu-ray permite o uso de um nmero indefinido de camadas de gravao, que podem ser lidas de
forma alternada variando o foco do laser, em uma verso mais precisa da tecnologia j usada nas mdias duallayer. Isso deixou as portas abertas para a produo de mdias multi-layer, com de 100 GB (4 camadas) a 500
GB (20 camadas). O grande problema que estas novas mdias sero mais caras (j que so baseadas no
empilhamento de mltiplas camadas de gravao independentes) e dificilmente sero compatveis com os
leitores atuais, o que dificultar a adoo.
Concluindo, uma observao bvia, porm importante que as taxas de leitura e gravao das mdias
mudam de acordo com o padro. No CD-ROM, uma taxa de 1x corresponde a apenas 150 KB/s, de forma que
um leitor de 56x atinge um mximo de 8.4 MB/s e um gravador atinge 4.8 MB/s ao gravar a 32x. Em ambos os
casos, a velocidade mxima atingida apenas nas trilhas mais externas, j que os drives atuais usam o sistema
CAV (Constant Angular Velocity), onde o disco gira sempre na mesma velocidade.
No caso dos CD-ROMs, a velocidade acabou estacionando nos 56x, j que o uso de velocidades mais altas
esbarra nos limites fsicos para a velocidade de rotao da mdia. A Kenwood chegou a apresentar um drive
capaz de ler a 72x em 2001, utilizando sete feixes de laser separados, mas a tecnologia era cara e os drives
acabaram no fazendo sucesso.
Entretanto, a migrao para o DVD e o Blu-ray abriu as portas para o uso de taxas mais altas, j que o uso
de sulcos menores permite ler mais dados por rotao dos discos. A nomenclatura tambm mudou,
acompanhando o aumento no bitrate dos contedos.
No DVD, 1x corresponde a 1.35 MB/s (equivalente a 9x do CD-ROM), o que faz com que um leitor de 24x
leia a at 32.4 MB/s e um gravador capaz de gravar a 16x atinja 20.6 MB/s, gravando uma mdia single-layer
em cerca de 4 minutos.
No caso do Blu-ray, a taxa nominal subiu para 4.5 MB/s (equivalente a um CD-ROM 30x), de forma que um
leitor que trabalhe a 12x atinge nada menos que 54 MB/s. O mesmo se aplica aos gravadores, que atingem 18
MB/s a 4x e 36 MB/s a 8x, velocidade na qual uma mdia single-layer gravada em 12 minutos.
Como sempre, a velocidade de gravao limitada pela qualidade da mdia e pela configurao do PC (que
precisa ser capaz de fornecer os dados ao gravador na velocidade necessria), por isso sempre menos
problemtico gravar usando velocidades mais baixas.

340

EXERCCIOS
1) Voc capaz de explicar, em suas prprias palavras, o funcionamento interno de um HD? Ento faa!
2) Dentro de um HD, h vcuo? Explique.
3) Dentro de um HD h um nico disco? Qual a relao entre o nmero de discos, de faces e a capacidade?
4) Logo abaixo do HD, encontramos uma placa de circuito impresso. Qual a funo dela? Explique, baseado
nos 3 principais chips que a equipa.
5) Como os HDs evoluem em capacidade? Quais fatores foram sendo melhorados ao longo do tempo?
6) Quando falamos na organizao interna do disco, os principais parmetros fsicos so: trilhas, setores e
cilindros. Qual o significado de cada um deles?
7) A velocidade angular (velocidade de rotao) de um disco varivel? E quanto a velocidade linear? Que
relao existe, ento, com as velocidades de transferncia de dados ao longo de todo o disco?
8) O que um badblock? Como pode ser causado? grave?
9) Quais so os principais parmetros de medida de desempenho de um HD?
10) O que vem a ser o recurso de NCQ?
11) O HD possui um cache/buffer de dados. Qual o seu papel no desempenho do mesmo?
12) Cite as principais caractersticas das interfaces IDE/ATA.
13) SATA um barramento serial. Significa que seja mais lento? Quais as vantagens dessa interface, se
comparada a IDE/ATA?
14) O que a tecnologia RAID? Para que serve?
15) Qual o significado dos termos: formatao fsica e formatao lgica?
16) Os sistemas FAT16/32 so bastante antigos. possvel us-los hoje, num HD de alta capacidade? Isso
significa que estejam fora de uso j?
17) Cite algumas vantagens do NTFS frente ao sistema FAT.
18) O que a tecnologia S.M.A.R.T.? Como pode ser usado para analisar a sade de um HD?
19) Apaguei alguns arquivos (sem passar pela lixeira do Windows). Significa que tudo est perdido? Explique.
20) Me ferrei mais ainda. Formatei o HD sem querer agora. Perdi o emprego? Explique.
21) Que tipo de memria usado nas pendrives e cartes de memria em uso hoje em dia? Alias, em meio a
tantos formatos de cartes, quem de fato tem prevalecido?
22) O que vem a ser um SSD? Significa que os HDs esto morrendo? Explique (muito bem) esse assunto.
23) CDs, DVDs e Blu-ray usam todos o mesmo principio de leitura/gravao de dados. Explique seu
funcionamento bsico e as diferenas entre tais tecnologias.
341

Cap. 7: PLACAS DE VIDEO


7.1 UM RESUMO SOBRE PLACAS DE VIDEO
Depois do processador, memria e HD, a placa de vdeo provavelmente o componente mais importante
do PC. Originalmente, as placas de vdeo eram dispositivos simples, que se limitavam a mostrar o contedo da
memria de vdeo no monitor. A memria de vdeo continha um simples bitmap da imagem atual, atualizada
pelo processador, e o RAMDAC (um conversor digital-analgico que faz parte da placa de vdeo) lia a imagem
periodicamente e a enviava ao monitor.
A resoluo mxima suportada pela placa de vdeo era limitada pela quantidade de memria de vdeo. Na
poca, memria era um artigo caro, de forma que as placas vinham com apenas 1 ou 2 MB. As placas com 1
MB permitiam usar no mximo 800x600 com 16 bits de cor, ou 1024x768 com 256 cores, limitadas ao que
cabia na memria de vdeo.
A foto ao lado uma Trident 9440, uma placa de
vdeo muito comum no incio dos anos 90. Uma
curiosidade que ela foi uma das poucas placas de
vdeo "atualizveis" da histria. Ela vinha com
apenas dois chips de memria, totalizando 1 MB,
mas era possvel instalar mais dois, completando 2
MB. Hoje em dia, atualizar a memria da placa de
vdeo impossvel, j que as placas utilizam mdulos
BGA, que podem ser instalados apenas em fbrica.
Em seguida, as placas passaram a suportar
recursos de acelerao, que permitem fazer coisas
como mover janelas ou processar arquivos de vdeo de forma a aliviar o processador principal. Esses recursos
melhoram bastante a velocidade de atualizao da tela (em 2D), tornando o sistema bem mais responsivo.
Finalmente, as placas deram o passo final, passando a suportar recursos 3D. Imagens em trs dimenses
so formadas por polgonos, formas geomtricas como tringulos e retngulos em diversos formatos.
Qualquer objeto em um jogo 3D formado por um grande nmero destes polgonos. Cada polgono tem sua
posio na imagem, um tamanho e cor especficos. O "processador" includo na placa, responsvel por todas
estas funes chamado de GPU (Graphics Processing Unit, ou Unidade de Processamento Grfico).

Quase todo o processamento da imagem em games 3D feito pela placa 3D


342

Para tornar a imagem mais real, so tambm aplicadas texturas sobre os polgonos. Uma textura nada
mais do que uma imagem 2D comum, aplicada sobre um conjunto de polgonos. O uso de texturas permite
que um muro realmente tenha o aspecto de um muro de pedras, por exemplo, j que podemos usar a imagem
de um muro real sobre os polgonos. Quanto maior o nmero de polgonos usados e melhor a qualidade das
texturas aplicadas sobre eles, melhor ser a qualidade final da imagem. Este demo da nVidia mostra um
exemplo de aplicao de texturas sobre uma estrutura de polgonos:

Polgonos e imagem finalizada


O processo de criao de uma imagem tridimensional dividido em trs etapas, chamadas de desenho,
geometria e renderizao. Na primeira etapa, criada uma descrio dos objetos que compem a imagem, ou
seja: quais polgonos fazem parte da imagem, qual a forma e tamanho de cada um, qual a posio de cada
polgono na imagem, quais sero as cores usadas e, finalmente, quais texturas e quais efeitos 3D sero
aplicados. Depois de feito o "projeto" entramos na fase de geometria, onde a imagem efetivamente criada e
armazenada na memria da placa 3D.
Ao final da etapa de geometria, todos os elementos que compem a imagem esto prontos. O problema
que eles esto armazenados na memria da placa de vdeo na forma de um conjunto de operaes
matemticas, coordenadas e texturas, que ainda precisam ser transformadas na imagem que ser exibida no
monitor. nessa fase que chegamos parte mais complexa e demorada do trabalho, que a renderizao da
imagem.
Essa ltima etapa consiste em transformar as informaes armazenadas na memria em uma imagem
bidimensional que ser mostrada no monitor. O processo de renderizao muito mais complicado do que
parece; necessrio determinar (a partir do ponto de vista do espectador) quais polgonos esto visveis,
aplicar os efeitos de iluminao adequados, etc.
Apesar de o processador tambm ser capaz de criar imagens tridimensionais (o que feito ao usar
algoritmos de renderizao que trabalham via software), ele no muito rpido na tarefa. A placa 3D por sua
vez capaz de gerar imagens e aplicar efeitos a uma grande velocidade, o que torna possvel rodar jogos 3D
complexos com um bom FPS, com a placa 3D se encarregando do processamento 3D e o processador cuidando
das demais tarefas.
A grande diferena que o processador utiliza uma arquitetura serializada, otimizada para o
processamento de sequncias de instrues (como as usadas por aplicativos) e no para o brutal volume de
clculos necessrios para renderizar uma imagem 3D. As placas 3D por sua vez utilizam uma arquitetura
paralela, com vrios processadores simples trabalhando em conjunto.

343

Em um exemplo simplista, o processador seria um matemtico capaz de executar clculos complexos,


porm um de cada vez, enquanto a placa 3D seria um batalho de alunos de primeiro grau trabalhando em
conjunto, que conseguem resolver apenas clculos simples, porm a uma grande velocidade.
Com a evoluo das placas 3D, os jogos passaram a utilizar grficos cada vez mais elaborados, explorando
os recursos das placas recentes. Isso criou um crculo vicioso, que faz com que voc precise de uma placa
razoavelmente recente para jogar qualquer jogo atual.
As placas 3D atuais so praticamente um computador parte. Alm da quantidade generosa de memria
RAM, acessada atravs de um barramento muito mais rpido que a memria do sistema, o chipset de vdeo
bem mais complexo e absurdamente mais rpido que o processador principal no processamento de grficos. O
chipset AMD Cypress que equipa a Radeon 5870, por exemplo, possui 2.15 bilhes de transistores, bem mais
do que qualquer processador da gerao atual.
As placas 3D dedicadas tambm incluem uma quantidade generosa de memria de vdeo (1 GB ou mais
nos modelos mais recentes), acessada atravs de um barramento muito rpido. A GPU (o chipset da placa)
tambm muito poderosa, de forma que as duas coisas se combinam para oferecer um desempenho
monstruoso em 3D.
Com a introduo do PCI Express, surgiu tambm a possibilidade de instalar duas, trs ou at mesmo
quatro placas, ligadas em SLI (no caso das placas nVidia) ou CrossFire (no caso das placas AMD/ATI), uma
soluo cara mas que permite obter um desempenho bem superior ao oferecido por apenas uma placa.

3-Way SLI, com trs placas GeForce 8800 Ultra


Longe do mundo brilhante das placas de alto desempenho, temos os chipsets de vdeo integrados, que so
de longe os mais comuns. Eles so solues bem mais simples, onde a GPU integrada ao prprio chipset da
placa-me e, em vez de utilizar memria dedicada, como nas placas dedicadas, utiliza parte da memria RAM
principal, que "roubada" do sistema.
Mesmo uma placa muito antiga como a GeForce 4 Ti4600, tem 10.4 GB/s de barramento com a memria
de vdeo, enquanto ao usar um mdulo de memria DDR2-800 temos apenas 6.4 GB/s de barramento na
memria principal, que ainda por cima precisa ser compartilhado entre o vdeo e o processador principal. O
processador lida bem com isso, graas aos caches L1 e L2, mas a placa de vdeo realmente no tem para onde
correr. por isso que os chipsets de vdeo integrados so normalmente bem mais simples: mesmo um chip
caro e complexo no ofereceria um desempenho muito melhor, pois o grande limitante o acesso memria.
De uma forma geral, os chipsets 3D integrados atuais atendem bem s tarefas do dia a dia, com a grande
vantagem do custo. Eles tambm permitem rodar jogos mais antigos, apesar de, naturalmente, ficarem
344

devendo nos lanamentos recentes. As placas mais caras so reservadas a quem realmente faz questo de
rodar os jogos recentes com uma boa qualidade e em altas resolues.
Como nos monitores LCD preciso rodar os jogos na resoluo nativa do monitor para ter uma boa
qualidade de imagem e o FPS oferecido pela placa 3D est diretamente relacionado resoluo usada, o
desempenho necessrio para a placa 3D est cada vez mais relacionado ao tamanho do monitor.
Quem usa um monitor menor, com resoluo de 1280x800 ou menos, pode passar muito bem com uma
placa 3D mediana, enquanto quem faz questo de usar um monitor full-HD (1920x1080) vai precisar de uma
placa bem mais parruda (j que com mais pixels por quadro, a placa precisa "suar" muito mais para manter o
FPS desejado).
Concluindo, existem ainda modelos de placas 3D especficos para uso profissional, como as nVidia Quadro,
que compartilham da mesma arquitetura das placas domsticas, mas incluem drivers otimizados para o
mercado profissional.

7.2 FPS, V-SYNC, TRIPLE BUFFERING E TEARING


Existem basicamente trs motivos para investir em uma placa 3D mais rpida: FPS, qualidade de imagem e
compatibilidade.
O aumento no frame-rate (FPS, ou Taxa de Quadros por Segundo) o aspecto mais enfatizado, j que
melhora a jogabilidade e torna a movimentao mais fluda. Ele determinado diretamente pela resoluo e
pelas configuraes usadas. Quanto mais trabalho a placa precisa executar a cada frame, menos frames ela
consegue renderizar por segundo, e vice-versa.
possvel rodar jogos atuais em placas relativamente modestas, mas voc fica limitado a resolues mais
baixas e precisa se conformar em manter a maior parte dos efeitos visuais desativados e reduzir a qualidade
das texturas. Um bom exemplo so os jogos 3D para o iPhone e outros smartphones, que rodam dentro das
limitaes dos aparelhos justamente por utilizarem resolues muito mais baixas e efeitos visuais modestos se
comparados a um PC.
O FPS pode ser tambm limitado pelo desempenho do processador (afinal, ele quem executa a maior
parte do processamento referente ao jogo ou ao aplicativo), mas em situaes normais a placa 3D torna-se um
gargalo muito antes do processador.
Um Athlon II X2 250 (3.0 GHz), por exemplo, capaz de (caso o desempenho no seja limitado pela placa
3D) rodar o Left 4 Dead a cerca de 100 FPS com o nvel mximo de qualidade, enquanto um Core i5 750
oferece cerca de 130. Mesmo um velho Athlon 64 3000+ (2.0 GHz) oferece uma mdia de 35 FPS, o que mais
do que suficiente para um jogador casual.
Por outro lado, uma GeForce GTS 250 oferece uma mdia "apenas" 56 FPS ao rod-lo a 1680x1050 com AA
de 4x e mesmo uma Radeon HD 4850 X2 oferece pouco mais de 100 FPS nas mesmas condies.
Em geral, o processador limita o FPS apenas ao usar uma placa 3D desproporcionalmente rpida em
relao a ele (como ao instalar uma placa 3D high-end em um micro antigo), ou ao jogar usando resolues
muito baixas (o que reduz o trabalho da placa 3D para renderizar cada frame).
Isso nos leva ao segundo motivo, que a qualidade da imagem. Usando uma placa mais rpida, voc pode
se dar ao luxo de sacrificar parte dos quadros para usar resolues mais altas, ativar o uso de antialiasing,
recursos de sombra, Anisotropic Filtering e outros recursos, que melhoram de forma expressiva a qualidade
visual.
O FPS "prtico" limitado pela taxa de atualizao do monitor. A maioria dos monitores de LCD atuais
trabalha com 60 Hz de taxa de atualizao, o que permite a exibio de um mximo de 60 quadros por

345

segundo. Em situaes onde a placa 3D capaz de gerar um nmero maior de quadros por segundo, os
quadros adicionais acabam sendo simplesmente descartados.
Monitores CRT ofereciam taxas de atualizao um pouco mais altas (indo geralmente at 85 Hz com
resoluo de 1024x768 nos monitores de 17"), mas isso no foi suficiente para que eles resistissem ao avano
dos LCDs. Muitas pessoas associam a maior taxa de atualizao com uma melhor jogabilidade, mas na verdade
ela acaba fazendo pouca diferena. O principal motivo de os monitores CRT trabalharem com taxas de
atualizao mais altas que elas so necessrias para evitar o aparecimento de flicker. Diferenas de
jogabilidade ao utilizar um monitor de CRT e um LCD esto mais relacionadas ao tempo de resposta, que era
consideravelmente mais alto nos monitores LCD antigos.
Este limite "fsico" para a exibio dos quadros, representado pela taxa de atualizao do monitor, faz com
que no faa muito sentido gastar mais com uma placa para jogar com um FPS muito acima de 60 quadros,
simplesmente porque os quadros excedentes no sero exibidos. O principal motivo de algumas pessoas
gastarem mais de mil reais em uma placa 3D de ponta no o desejo de jogar a 200 quadros por segundo,
mas sim de poder jogar a 60 FPS em um monitor de 22" ou mais, usando a resoluo nativa do LCD e com
todos os efeitos ativados.
O problema com relao ao FPS que ele no um valor fixo. Ele varia de forma considervel de acordo
com a cena, caindo bastante nas cenas mais movimentadas, que so justamente quando voc mais precisa.
Isso faz com que muitos prefiram reduzir os efeitos (ou comprar uma placa ainda mais rpida), de forma a
obter 100 FPS ou mais e assim jogar com uma boa margem de segurana, de forma que o valor no caia muito
abaixo dos 60 FPS mesmo nas cenas mais pesadas.
Em condies normais, o olho humano no capaz de diferenciar muito mais do que 25 quadros por
segundo, que a taxa utilizada nos filmes. justamente por isso que os novos formatos de vdeo sempre
priorizam o aumento na resoluo e no no nmero de quadros por segundo. A questo que voc tende a
ficar muito alerta ao jogar, sobretudo no caso dos jogos de primeira pessoa, o que faz com que o crebro
consiga captar mais informaes e assim diferenciar entre um nmero maior de quadros.
Para um jogador ocasional, um FPS de 30 quadros pode ser mais do que satisfatrio, mesmo levando em
conta que a taxa caia para 20 ou mesmo 18 FPS nas cenas mais movimentadas. Por outro lado, um gamer mais
hardcore dificilmente ficar satisfeito com menos de 60 FPS e talvez seja at capaz de perceber a queda para
40 ou 35 FPS na cenas mais intensas.
Uma forma de tornar a exibio dos quadros mais fluda ativar o V-Sync, opo que sincroniza a
atualizao dos quadros com o refresh do monitor. A ideia que o monitor exiba um novo quadro a cada
atualizao, sem pular ou repetir quadros. Ao usar refresh de 60 Hz para o monitor, o sistema tenta exibir
sempre 60 quadros, ao usar 75 Hz tenta exibir 75 quadros e assim por diante, o que seria o ideal.
Naturalmente, o sistema s ser capaz de exibir 60 FPS caso a placa de vdeo seja capaz de renderizar um
novo quadro a cada 0.1666 segundo. Em situaes onde a placa passa a demorar mais do que isso para
renderizar cada quadro, a imagem passa a ser atualizada a cada dois quadros (30 FPS) ou mesmo a cada 3
quadros (20 FPS). A vantagem que a atualizao sempre mais ou menos constante, sem "pulos", mas a
desvantagem que os quadros ficam alguns milissegundos parados no buffer da placa de vdeo, esperando a
prxima atualizao do monitor.
Com o V-Sync desativado, os novos frames so exibidos o mais rpido possvel. Se um novo frame fica
pronto enquanto o monitor ainda est renderizando a primeira metade do anterior, o monitor finaliza a
atualizao da tela exibindo o novo frame. Isso causa um fenmeno curioso, que faz com que a tela exiba a
metade superior do primeiro frame e a metade inferior do frame seguinte, fazendo com que a imagem fique
cortada (efeito que chamado de tearing):

346

Muitos no percebem o tearing e preferem jogar com o V-Sync desativado, de forma a obter o melhor FPS
possvel, mas muitos ficam bastante incomodados com ele e preferem o "conforto" de jogar com o V-Sync
ativado. Nesse caso a questo subjetiva e depende basicamente do gosto pessoal.
Ao optar pelo uso do V-Sync voc pode escolher entre usar o Double Buffering, onde a placa de vdeo
utiliza dois frame-buffers e o Triple Buffering (uma tcnica mais recente, disponvel em jogos atuais), onde a
placa de vdeo utiliza trs buffers:

Ao usar o Double Buffering, o primeiro buffer contm o frame completo que est sendo exibido no
monitor, enquanto o segundo contm o frame seguinte, no qual a GPU da placa de vdeo ainda est
trabalhando.
Caso o V-Sync esteja ativado, sempre que a placa de vdeo no consegue finalizar o quadro seguinte antes
que o tempo da atualizao da tela se esgote, o sistema repete o quadro anterior e a placa precisa esperar
mais 16.66 ms (a 60 Hz), para poder trabalhar no quadro seguinte, o que causa um retardamento na exibio
do quadro (input-lag) que pode ser suficiente para transformar um kill em um down em um FPS multiplayer.
Ao desativar o Double Buffering (e consequentemente o V-Sync), o input-lag eliminado, mas em
compensao voc passa a lidar com o tearing.
347

Ao ativar o Triple Buffering, a placa passa a dispor de um terceiro buffer, o que permite que ela inicie o
processamento de um novo quadro em situaes em que o segundo buffer j est cheio. Isso ajuda a absorver
melhor a variao de processamento necessrio entre os quadros e faz com que a placa perca a atualizao de
um nmero muito menor de quadros, resultando em um bom meio-termo, onde o tearing completamente
eliminado e o input-lag tambm reduzido. Em resumo temos:
V-Sync desativado: Muito tearing, porm baixo input-lag
V-Sync com Double Buffering: Sem tearing, porm input-lag mais alto
V-Sync com Triple Buffering: Sem tearing, input-lag mediano
Como ningum perfeito, existe uma pequena desvantagem em usar o Triple Buffering, que um
pequeno aumento no uso de memria de vdeo, mas ele desprezvel em uma placa atual.
Uma dvida recorrente com relao questo da movimentao e FPS o uso do motion blur, um efeito
usado em filmes e animaes para suavizar a transio entre quadros. Basicamente, ele faz com que as cenas
fiquem levemente desfocadas, criando uma melhor impresso de continuidade.
O motion blur um efeito suportado em placas 3D desde a poca da Voodoo 4 (e pode ser tambm
implementado inteiramente via software), mas ele geralmente utilizado apenas em jogos de corrida (para a
movimentao da pista), j que o desfoque acaba atrapalhando a jogabilidade em jogos de FPS, onde voc
precisa saber exatamente onde os alvos esto. No caso deles, no existe outra soluo seno usar uma placa
3D que oferea pelo menos 30 FPS (ou se possvel 60) com o V-Sync ativo.
No fim da linha, temos a questo da compatibilidade, que est relacionada s verses do DirectX (ou do
OpenGL) suportadas pela placa, assim como o suporte ao processamento de shaders via hardware. Usando um
notebook com uma Mobility Radeon X1270 (uma placa compatvel com o DirectX 9) por exemplo, voc no
conseguir rodar jogos baseados no DirectX 10 ou DirectX 11, independentemente das configuraes de
imagem usadas.
Em geral, a questo da compatibilidade um problema em placas no extremo low-end, j que o baixo
desempenho inviabiliza rodar jogos atuais bem antes do que a obsolncia relacionada API suportada. Outro
ponto importante que os desenvolvedores de jogos raramente limitam a compatibilidade com uma
determinada API antes que a grande maioria dos usurios tenham feito a transio para placas compatveis
com ela (afinal, mais usurios com hardware capaz de rodar o jogo significam mais vendas).
Um bom exemplo que a grande maioria dos jogos compatveis com o DirectX 10 incluem rotinas de
compatibilidade, que permitem que eles rodem tambm sobre placas limitadas ao DirectX 9 (como as GeForce
7, por exemplo), embora com menos efeitos. Ao que tudo indica, a transio para o DirectX 11 ser tambm
feita de maneira similar, j que ele basicamente um superset da verso anterior.

7.3 RECURSOS BSICOS


Em um PC para jogos, a placa 3D o componente mais importante. Como placas 3D de bom desempenho
no so um item barato, voc acaba gastando bem mais na placa 3D do que no processador. Em muitos casos,
a placa pode ser mais cara que todo o resto do micro, por isso importante saber investir o seu dinheiro.
Vamos comear com um resumo das principais caractersticas das placas atuais.

7.3.1 O CHIPSET
O principal componente da placa 3D a GPU (Graphics Processing Unit), como bem sabemos. Apesar
disso, muito comum o uso do termo "chipset" no lugar de "GPU". O principal motivo que o termo "chipset"
mais genrico, indicando o conjunto de componentes que so comuns s placas de vdeo da mesma famlia,
incluindo no apenas a GPU, mas tambm outros chips que faam parte do projeto. muito comum que
348

diferentes placas, sem falar das inmeras variaes produzidas pelos diferentes fabricantes, sejam produzidas
utilizando o mesmo chipset.
Tanto a GeForce 8400 GS quanto a GeForce 8500 GT, por exemplo, so baseadas no chipset G86. Apesar
disso, o desempenho das duas placas bem diferente, pois a 8400 utiliza um barramento com a memria de
apenas 64 bits, enquanto a 8500 utiliza um barramento de 128 bits.
Tanto a nVidia quanto a ATI1 costumam lanar novas arquiteturas a cada 12 ou 18 meses, com o
lanamento de modificaes e verses atualizadas dos chipsets entre os releases principais. Como de praxe,
existem casos de atrasos e at mesmo de lanamentos antecipados para responder a um produto do
concorrente, mas a meta normalmente essa.
No caso da nVidia tivemos o NV40 (lanado em 2004), o G70 (lanado em 2005) e o G80 (lanado no final
de 2006), seguido pelo GT200 e os outros chipsets atuais. Estes chips deram origem a um grande nmero de
subverses, gerando toda a linha de placas nVidia que temos visto nos ltimos anos.
Uma curiosidade que as linhas de placas so, quase sempre, construdas "de cima para baixo", com as
placas mais rpidas sendo lanadas primeiro e os modelos de baixo custo sendo lanados nos meses seguintes.
Por exemplo, a GeForce 7800 GTX (o modelo high-end) foi lanada em junho de 2005, enquanto a GeForce
7200 GS (um dos modelos mais baratos dentro da srie) foi lanada apenas em abril de 2007, quase dois anos
depois. Isso feito de forma a maximizar os lucros dos fabricantes, j que eles trabalham com margens de
lucro muito maiores nas placas mais caras.
Outro fator que importante enfatizar que tanto a nVidia quanto a ATI no produzem um grande
volume de placas. Eles simplesmente desenvolvem os chipsets e placas de referncia e terceirizam a maior
parte da produo para outros fabricantes. As frequncias de operao para as GPUs e as memrias das placas
que cito aqui so simplesmente as especificaes de referncia, que podem ser alteradas livremente pelos
fabricantes das placas. muito comum encontrar placas de baixo custo, que utilizam mdulos de memria
mais lentos, ou mesmo a GPU operando a uma frequncia inferior (de forma a reduzir a dissipao de calor e
assim possibilitar o uso de um cooler mais barato) e tambm placas "diferenciadas", que utilizam mdulos de
memria mais rpidos e GPUs overclocadas de forma a oferecer um desempenho superior ao das
concorrentes.

7.3.2 CLOCK DA GPU


Assim como no caso dos processadores, aumentar o clock da GPU resulta em um ganho proporcional no
poder bruto de processamento da placa, j que mais vrtices, pixels, texturas e efeitos podem ser processados
no mesmo espao de tempo. Entretanto (assim como nos processadores) o desempenho de diferentes placas
pode ser brutalmente diferente, mesmo que elas operem mesma frequncia, devido a diferenas na
arquitetura (sobretudo no nmero de unidades de processamento e no barramento com a memria).
Por exemplo, o chipset GMA 950 (onboard) usado em placas com chipset Intel (que o low-end entre os
chipsets low-end) opera a 400 MHz, enquanto a GPU da GeForce 8800 GTS, que j esteve no topo da pirmide,
opera a 500 MHz, apenas 100 MHz a mais. Este um exemplo extremo de como o desempenho de duas placas
de clock similar pode ser brutalmente diferente.
Nas placas recentes, comum que alguns componentes internos operem a uma frequncia maior que o
restante da GPU, de forma a melhorar o desempenho. Na GeForce 8800 GTS do exemplo anterior, as unidades
de processamento operam a 1.2 GHz, mais do dobro do restante da GPU. Isso torna ainda mais difcil
comparar diretamente o desempenho de duas placas diferentes.

Em 2006, a ATI foi adquirida pela AMD. A marca ATI continuou ativa at Agosto/2010, quando foi finalmente substituda pela marca
AMD. Assim, as placas antes chamadas de ATI Radeon, por exemplo, passam a ser chamadas de AMD Radeon. Assim, quando este
texto estiver referenciando a marca ATI, tenha em mente tais fatos.

349

O clock da GPU pode ser ajustado via software (assim como o clock da memria), usando utilitrios como o
ATI Tray Tools, o RivaTuner ou o ATITool. Em muitos casos, os prprios fabricantes podem alterar o clock do
chipset, de forma que suas placas sejam um pouco mais rpidas que concorrentes baseadas no mesmo
chipset. O maior problema que as placas de vdeo normalmente trabalham muito prximo do limite, de
forma que voc raramente obtm overclocks de 20% ou mais, como comum nos processadores. Em muitas
placas, um overclock de 5% j suficiente para desestabilizar o equipamento.
Ao contrrio dos processadores, as GPUs so baseadas em unidades de processamento com poucos
estgios de pipeline e so pesadamente limitadas ao desempenho da memria (embora as GPUs mais recentes
incluam pequenas quantidades de cache, ele no funciona de forma to efetiva quanto em um processador,
devido natureza dos dados processados). Por isso, elas acabam operando a frequncias muito mais baixas,
mesmo quando produzidas usando uma tcnica similar de fabricao (comparado aos processadores).

7.3.3 FILL RATE


Toda imagem 3D comea como um enorme conjunto de polgonos, coordenadas e comandos, gerado pelo
processador principal e armazenado na memria. A funo bsica da placa de vdeo transformar estes dados
na imagem 2D que ser mostrada no monitor, processo chamado de renderizao. No caso dos jogos, as
informaes na memria so atualizadas em tempo real (ou quase :) pelo processador, conforme o cdigo do
jogo processado e a placa de vdeo se encarrega de tirar "screenshots" peridicos, que so exibidos no
monitor. Por estranho que possa parecer, o trabalho necessrio para renderizar as cenas em tempo hbil
muito maior do que o prprio trabalho de executar o jogo e armazenar as informaes na memria, da a
necessidade de usar uma placa 3D.
O fill rate indica a capacidade bruta da placa de vdeo em renderizar pixels. Em placas antigas, o fill rate a
especificao mais importante da placa, mas nas atuais existem diversos outros fatores, como o
processamento de shaders, de texturas e o suporte a recursos diversos.
Existem dois tipos de fill rate, o "pixel fill rate" e o "texel fill rate". O primeiro indica o processamento de
pixels (medido em megapixels por segundo), enquanto o segundo indica a capacidade da placa em aplicar
texturas (medida em megatexels por segundo). O pixel fill rate especialmente importante ao ativar o suporte
a antialiasing, enquanto que um bom texel fill rate permite rodar os jogos usando texturas maiores e efeitos
relacionados a elas (como o Anisotropic Filtering), que resultam em uma melhor qualidade de imagem.
O fill rate pode ser calculado com base no nmero de unidades de processamento e o clock da GPU. O
processamento dos pixels dividido em duas etapas. A primeira executada pelos pixel pipelines, que geram
a imagem "bruta" a partir dos polgonos. Os pixels so ento enviados aos ROPs (Raster Operations Pipelines,
ou Render Output Pipelines) que combinam a imagem com as texturas (geradas pelas unidades de
processamento de texturas), aplicam efeitos adicionais e geram a imagem final, que mostrada no monitor.
A GeForce 7900 GTX, por exemplo, possui 16 ROPs, 24 pixel pipelines, 24 unidades de processamento de
texturas e opera a 650 MHz. Isso resulta em um fill rate de 10400 megapixels e 15600 megatexels. Voc pode
notar que ela possui mais pixel pipelines e mais unidades de processamento de texturas do que ROPS, ao
contrrio de placas mais antigas (como as GeForce 6), que possuem a mesma quantidade de cada tipo. Isso
visa melhorar o desempenho da placa ao usar recursos como o Antialiasing e o Anisotropic Filtering, sem
contanto aumentar exageradamente a complexidade do projeto adicionando mais ROPs.
Como de praxe, o fill rate determinado pela combinao do clock da GPU e do nmero de unidades de
processamento. A GeForce 8800 GTS, por exemplo, opera a uma frequncia mais baixa que a 7900 GTX
(apenas 500 MHz) mas possui, em compensao, 48 unidades de processamento de texturas, o que resulta em
um fill rate de 24000 megatexels, mais de 50% maior.
Antigamente, as placas possuam o mesmo fill rate para pixels e texels, mas as atuais possuem, via de
regra, uma capacidade de processamento de texturas muito maior. Isso acontece porque nos jogos atuais o
350

uso de texturas muito mais intenso, inclusive com o uso de texturas sobrepostas. Isso faz com que a placa
acabe processando um volume muito maior de texturas do que de pixels, fazendo com que o texture fill rate
torne-se, quase sempre, um gargalo muito antes do pixel fill rate. por isso que o pixel fill rate sequer
mencionado nas especificaes de muitas placas atuais.
S para efeito de comparao, a Voodoo 1, lanada em 1996, possui um fill rate de apenas 50 megatexels,
enquanto a Riva TNT2, lanada em 1999, tem um fill rate de 250 megatexels. A TNT2 tem um fill rate cinco
vezes maior do que a Voodoo, mas quase 100 vezes menor que a GeForce 8800 GTS. Como voc pode ver, as
placas 3D evoluram (proporcionalmente) bem mais rpido do que os processadores do final da dcada de
1990 pra c.
Diferente do que tnhamos h uma dcada atrs, o fill-rate deixou de ser uma especificao importante, a
ponto de muitas vezes sequer ser citado no material publicitrio. Assim como em outras reas, o poder de
renderizao das placas 3D evoluiu a ponto de mesmo os modelos mais simples oferecerem um fill-rate mais
do que suficiente. Conforme os grficos dos jogos e aplicativos 3D cresceram em complexidade, o
desempenho passou a ser limitado por outros fatores, com destaque para o processamento de shaders.

7.3.4 SHADERS E STREAM PROCESSORS


Os shaders so pequenos programas utilizados pelos jogos e aplicativos de renderizao recentes para
executar operaes especficas dentro das imagens, criando efeitos diversos, fazendo com que objetos se
movam ou sejam distorcidos de forma realstica ou simplesmente criando objetos muito detalhados, que
seriam complexos demais para criar usando apenas polgonos e texturas.
Um caso clssico o cabelo dos personagens, onde s possvel obter um resultado realstico desenhando
cada fio separadamente e fazendo com que eles se movam de forma mais ou menos independente,
acompanhando os movimentos do personagem. Outros usos comuns so efeitos de exploses, grama (no o
desenho das folhas propriamente ditas, mas sobretudo a movimentao), folhas de rvores e outros efeitos e
detalhes diversos em objetos. Os shaders fazem um trabalho muito bom em todas essas reas, consumindo
relativamente pouco poder de processamento e oferecendo animaes realsticas.
Em poucas palavras, os shaders permitem adicionar "profundidade" e realismo aos objetos da cena,
contrastando com a aparncia lisa e pouco realista dos grficos usados em jogos antigos.
Antes dos shaders, todas as placas 3D ofereciam apenas um conjunto de efeitos pr-programados, que
eram processados por componentes especializados dentro do pipeline grfico da GPU. A lista inclua efeitos de
luz, clculo de perspectiva, filtros de textura e outros, uma lista de truques que foi evoluindo juntamente com
as novas verses do DirectX e do OpenGL.
O grande problema era que os grficos ficavam limitados e estes truques pr-programados, o que limitava
muito o que se podia fazer, resultando em grficos pouco realistas. Em um exemplo simplista, seria como se
voc precisasse se comunicar usando um vocabulrio de apenas 100 palavras. Para complicar, a lista dos
truques era fixa, por isso era necessrio desenvolver novas GPUs e atualizar as APIs sempre que novos efeitos
eram introduzidos.
Essa especializao era necessria para que as GPUs da poca pudessem oferecer um desempenho
aceitvel, mas no resultava em grficos muito convincentes, como voc pode notar rodando qualquer jogo
antigo, anterior a 2005. O uso dos pipelines de renderizao e das caixinhas de truques pr-programados
continuou at a era DirectX 7 (incluindo jogos como o Medal of Honour e o Call of Duty 1 e GPUs como as
GeForce 2):

351

Medal of Honour: um exemplo de jogo antigo, que ainda no utiliza shaders


As coisas comearam a mudar com o DirectX 8.0, que trouxe o suporte a shaders programveis,
permitindo a criao de pequenos programas que adicionam novos efeitos lista de truques suportados pela
GPU. O DirectX 8.0 possua muitas limitaes com relao aos shaders, a comear pelo limite de apenas 128
instrues, que restringia o uso a efeitos simples.
As coisas melhoraram com o DirectX 9.0 (lanado em 2002), que trouxe suporte ao Shader Model 2.0, que
incorporou muitas melhorias. Entretanto, a primeira verso definitiva veio em 2004, com o DirectX 9.0c, que
trouxe o suporte ao Shader Model 3, uma verso sensivelmente aprimorada, que continuou sendo usada pela
maioria dos jogos at o final de 2009, resistindo aos avanos do DirectX 10.
Embora as verses do Shader Model sejam um recurso independente, elas so atreladas s verses do
DirectX. Ao ler que uma determinada placa suporta o Shader Model 4.1, por exemplo, voc pode presumir que
se trata de uma placa compatvel com o DirectX 10.1 e vice-versa:
DirectX 8.0: Shader Model 1
DirectX 9.0: Shader Model 2
DirectX 9.0c: Shader Model 3
DirectX 10: Shader Model 4
DirectX 10.1: Shader Model 4.1
DirectX 11: Shader Model 5.0
Embora paream ser apenas uma superficialidade, os shaders foram os grandes responsveis pelo
aumento na qualidade grfica dos jogos de alguns anos para c e se tornaram o recurso mais importante em
qualquer GPU, assumindo o posto que anteriormente era do fill-rate.

352

Call of Duty World at War, com o DirectX 9.0c e o shader Model 3


At o shader model 3 (DirectX 9.0c), existiam dois tipos de shaders: os vertex shaders e os pixel shaders.
Os vertex shaders trabalham na estrutura dos objetos 3D que compe a imagem, adicionando efeitos e
criando animaes, como no caso da grama ou dos cabelos, por exemplo.
Os pixel shaders atuam na etapa de renderizao da imagem, analisando a estrutura dos objetos, as fontes
de luz, cores e outras variveis e usando estas informaes para criar efeitos de luz e sombra, realce de cores,
reflexos e outros efeitos bastante realsticos, complementando o trabalho iniciado pelos vertex shaders. Esta
considerada a parte mais importante do trabalho, j que determina a qualidade das imagens que sero
finalmente mostradas no monitor e tambm a parte que consome mais processamento.
Em placas das gerao DirectX 9 (GeForce 7xxx e Radeon X1xxx) eles so processados em unidades
independentes da placa, as vertex shader units (ou vertex processors) e as pixel shader units (ou pixels
processors), que so especializadas no processamento de cada um dos dois tipos.
O problema com essa arquitetura que a proporo de vertex shaders e pixel shaders varia de acordo com
a situao e tambm de acordo com o tipo de efeitos usados pela engine do jogo. Isso faz com que sempre ou
as unidades de vertex shader ou as de pixel shader sejam subutilizadas, criando um gargalo. Visando reduzir o
problema, os fabricantes optam frequentemente por utilizar um nmero maior de unidades de pixel shader (a
GeForce 7800 possui 24 unidades de pixel shader, para apenas 8 unidades de vertex shader, por exemplo),
mas essa tambm estava longe de ser uma soluo ideal.
O Shader Model 4 (DirectX 10) introduziu um terceiro tipo de shader, os geometry shaders, destinados
criao de grupos de vrtices, que permitem criar objetos usando quase que exclusivamente processamento
da GPU, com pouca carga sobre o processador principal. A grande vantagem dos geometry shaders a
possibilidade de criar cenas com um volume muito maior de objetos diferentes, sem que a engine do jogo
fique restrita aos recursos do processador principal.
Em vez de um exrcito de soldados idnticos (como no Rome Total War, por exemplo), voc poderia ter
um exrcito onde cada soldado tem uma fisionomia prpria. O mesmo poderia ser aplicado a florestas,
castelos e assim por diante. Tudo o que o projetista precisaria fazer seria escrever vrios geometry shaders
diferentes, criando variaes dos objetos e fazer com que a placa os executasse em uma ordem especfica, em
vez de simplesmente repetir a renderizao do mesmo objeto ou personagem, como era feito
tradicionalmente:
353

Um dos exrcitos de clones do Rome Total War


Este o tipo de truque que tambm pode ser feito via software (como no caso do Empire Total War, por
exemplo, sucessor do Rome), mas nesse caso a carga sobre o processador principal muito maior, o que faz
com que ele se torne um limitante muito antes da GPU.
Em vez de adicionarem um terceiro tipo de unidade dedicada (aumentando ainda mais o ndice de
ociosidade), tanto a nVidia quanto a ATI (e mais tarde tambm a Intel) optaram por migrar para arquiteturas
unificadas, onde os vertex processors e pixels processors so substitudos por stream processors, que so
capazes de executar vertex shaders, pixel shaders ou geometry shaders conforme a demanda.
Basicamente, cada uma destas unidades age como um pequeno processador de clculos de ponto
flutuante independente, que pode ser programado para executar praticamente qualquer tipo de operao.
Isso abriu as portas para o uso da GPU como processador auxiliar, convertendo vdeos e executando tarefas
diversas, uma possibilidade que pode ser explorada com a ajuda do OpenCL, Brook+ e CUDA.
Embora o uso de unidades de shader unificadas no seja necessariamente um pr-requisito para o suporte
ao DirectX 10, acabou coincidindo de todos os fabricantes adotarem a nova arquitetura, de forma que as duas
coisas acabaram relacionadas.

7.3.5 TMUS E ROPS


As unidades de processamento de texturas (Texture Mapping Units, ou TMUs) trabalham em conjunto com
as unidades de processamento de shaders, carregando texturas utilizadas na cena. Embora o trabalho das
TMUs seja muito mais simples do que o das unidades de pixel shader, elas podem ser um limitante em
algumas situaes, sobretudo ao ativar o uso do Anisotropic Filtering, que resulta em um grande nmero de
operaes relacionadas ao carregamento de texturas.
O desempenho das unidades de texturas tambm muito dependente do barramento com a memria, de
forma que placas low-end, com chips de memria mais lentos e/ou um barramento mais estreito acabam
sendo penalizadas, mesmo que o chipset usado seja o mesmo. Nesses casos a melhor opo evitar o uso do
Anisotropic Filtering e de outros efeitos que utilizem um grande volume de texturas.
comum tambm que os fabricantes desenvolvam verses reduzidas de seus chipsets principais, com um
volume menor de unidades de processamento, que so destinadas s placas de baixo custo.
O G94, usado na GeForce 9600 GT, por exemplo, possui apenas 32 unidades de processamento de
texturas, contra as 64 do G92, a verso "completa", usada na GeForce 9800 GTX (e outros modelos). Estes
354

chipsets reduzidos so mais baratos de se produzir, o que, combinado com a reduo no barramento com a
memria (o que significa menos trilhas na placa) e outras economias, permite produzir placas bastante
baratas, embora tambm mais lentas.
Os ROPs (Raster Operation Units) entram em ao no final do processo de renderizao. Eles so
responsveis pela aplicao de filtros adicionais, dos algoritmos de antialiasing, clculo de profundidade (Zbuffer) e outras operaes.
Muitos chipsets antigos utilizam arquiteturas balanceadas, onde esto disponveis o mesmo nmero de
unidades de processamento de texturas (os TMUs), de processamento de pixel shaders e ROPs (um exemplo
o R300, usando na Radeon 9700, que possui 8 unidades de cada tipo). Entretanto, os chipsets recentes
migraram para o uso de arquiteturas mais flexveis, de forma a melhor distribuir o uso dos recursos internos.
O nmero de ROPs disponveis na placa tambm no um indicador direto de performance, pois o volume
de processamento executado por cada unidade varia muito de acordo com a arquitetura do chipset. Eles so
mais exigidos (em relao aos demais componentes da placa) ao utilizar as opes mais pesadas de antialiasing
e ao ativar o uso de mais filtros e efeitos diversos.
No caso de placas com um nmero menor de ROPs (como as GeForce 9500 GT, que possuem apenas 8
unidades, ou as GeForce 9400 GT, que possuem apenas 4), a melhor forma de evitar que os ROPs tornem-se
um gargalo antes de outros componentes desativar o uso de antialiasing.

7.3.6 MEMRIA
No existe nenhuma diferena fundamental no tipo de memria RAM utilizado nas placas de vdeo. Elas
podem usar os mesmos chips de memria DDR, DDR2 ou DDR3 encontrados nos mdulos de memria
regulares (muitas placas de baixo e mdio custo realmente utilizam, para reduzir os custos de produo), mas
os fabricantes de placas 3D geralmente optam por utilizar memrias GDDR3 ou GDDR5, tipos de memria
especialmente otimizados para placas de vdeo, capazes de operar frequncias mais altas.

Chips de memria GDDR5 em uma Radeon HD 4770


O barramento com a memria ainda mais importante para a GPU do que para o processador, j que ela
trabalha com um volume muito maior de dados (com destaque para as texturas), que precisam ser acessados
rapidamente. Em um processador, possvel remediar um barramento estreito com a memria usando mais
cache L2 ou L3, mas no caso da placa de vdeo nada substituiu um barramento rpido.
355

Este um dos fatores que dificulta o desenvolvimento de placas 3D onboard de alto desempenho, j que,
por mais poderoso que fosse o chipset grfico, o desempenho seria seriamente penalizado pelo lento acesso
memria compartilhada.
No existem muitos segredos com relao a como aumentar a banda com a memria na placa de vdeo.
Existem basicamente duas opes: alargar o barramento com a memria, permitindo que a GPU transfira mais
bits de cada vez, ou utilizar chips de memria mais rpidos, que suportem frequncias de operao mais altas,
ou realizem um nmero maior de transferncias por ciclo.
Alargar o barramento sempre a opo mais segura, j que o ganho de desempenho diretamente
proporcional ao nmero de trilhas de dados, sem muitas variaes. Dobrando o nmero de trilhas (de 256
para 512 bits, por exemplo), dobra-se a taxa de transferncia, sem nenhum efeito colateral do ponto de vista
do desempenho.
O grande problema que usar mais trilhas torna a produo da placa muito mais cara, influindo em
diversas etapas da produo. No apenas a GPU precisa ser fisicamente maior (para acomodar o maior
nmero de contatos), mas so necessrias mais trilhas na placa de circuito (o que encarece a placa) e um
nmero maior de chips de memria. Para complicar, as trilhas e chips adicionais tambm aumentam o
consumo eltrico, complicando ainda mais o projeto.
Um bom exemplo das dificuldades em desenvolver placas com barramentos de 512 bits o caso das
GeForce GTX 280 e 285. No apenas o chipset GT200 enorme (ele possui 1.4 bilhes de transistores e
quase 6 vezes maior que um Core 2 Duo baseado no Penryn) mas o layout da placa de circuito bastante
dispendioso, com nada menos do que 16 chips de memria, e um grande volume de outros circuitos de apoio:

Devido a todos esses problemas, os fabricantes so bastante cautelosos com relao a barramentos mais
largos, preferindo o uso de chips mais rpidos sempre que possvel (evitando assim os grandes aumentos no
custo). Isso explica por que os fabricantes demoraram quase 10 anos para iniciar a mudana dos 128 bits
(usado desde placas de primeira gerao, como as Riva 128) para os 256 e 512 bits. De fato, depois de testar o
uso de um barramento de 512 bits nas Radeon HD 2900 Pro e XT, a ATI recuou e voltou a utilizar barramentos
de 256 bits nas placas das sries 38xx e 48xx.
Chegamos ento segunda possibilidade, que usar chips de memria mais rpidos, migrando no apenas
para mdulos que suportam frequncias mais altas, mas tambm entre diferentes tecnologias de memria.

356

Diferente dos desktops, onde tivemos uma escalada das memrias DDR para as DDR2 e em seguida para as
DDR3, a evoluo das placas 3D seguiu um caminho um pouco mais tortuoso, com uma mistura entre as
memrias DDR e GDDR.
Inicialmente, as placas fizeram a migrao das memrias SDR para as DDR, que com suas duas
transferncias por ciclo ofereciam o dobro da banda por trilha de dados, o que representava uma grande
economia em relao a usar mais trilhas. No caso das placas high-end, as memrias DDR aumentaram a
sobrevida dos barramentos de 128 bits (como no caso das GeForce 3 e GeForce 4) e nas de baixo custo
permitiram o desenvolvimento de placas baratas, com barramentos de apenas 64 bits (como as GeForce 2
MX200).
O passo seguinte foram as memrias GDDR2, uma verso overclocada do padro DDR2, onde os chips de
memria utilizam uma tenso de 2.5 volts, em vez de 1.8V. Assim como ao fazer overclock da memria atravs
do setup, o aumento da tenso permite que os mdulos suportem frequncias mais altas, mas em troca
aumenta o consumo e a dissipao eltrica, resultando em uma configurao longe do ideal.
Com exceo da tenso e das frequncias, no existem diferenas entre as memrias DDR2 e GDDR2.
Ambas as tecnologias so baseadas no uso de 4 transferncias por ciclo, novamente duplicando a taxa de
transferncia em relao s memrias DDR. Na prtica, o GDDR2 foi pouco usado, sendo logo substitudo por
chips DDR2 regulares, que alm de mais baratos, ofereciam um consumo eltrico muito mais baixo (uma
diferena que era significativa sobretudo nas placas high-end, onde usado um nmero maior de chips). No
final, a nica a utilizar chips GDDR2 foi a nVidia, com as GeForce FX 5700 e 5800, lanadas em 2003.
A evoluo seguinte foi o padro GDDR3, que acabou sendo muito bem sucedido, se tornando o padro
para placas de alto desempenho por quase 5 anos. O GDDR3 um padro aberto, desenvolvido pela ATI em
parceria com o JEDEC, como uma evoluo do padro DDR2 (e no do DDR3, que foi finalizado muito depois,
em 2007). Ele foi finalizado no incio de 2004 e, ironicamente, a primeira a utiliz-lo foi a nVidia, que se
apressou em lanar uma verso GDDR3 da GeForce FX 5700 Ultra.
Embora continue utilizando apenas 4 transferncias por ciclo, assim como nas memrias DDR2 e GDDR2, o
GDD3 implementou uma srie de melhorias, que permitiram reduzir o uso de corrente (permitindo assim o
uso de frequncias mais altas sem necessidade de apelar para grandes aumentos de tenso, como no GDDR2)
e aumentar a estabilidade dos sinais.
Dois bons exemplos so a adoo do uso de terminadores resistivos (que aumentam a estabilidade dos
sinais, impedindo que os impulsos voltem na forma de interferncia ao atingirem o final da trilha) e um
sistema de calibragem de sinais, duas tecnologias que viriam mais tarde a ser integradas ao padro DDR3.
Embora modestas, estas melhorias acabaram possibilitando um aumento muito grande na frequncia dos
chips. Enquanto os chips DDR2 (e GDDR2) so tipicamente capazes de atingir frequncias de at 500 MHz
(1000 MHz efetivos), os sucessivos aperfeioamentos nas tcnicas de fabricao permitiram aos fabricantes de
memria produzir chips GDDR3 com frequncias de 900 MHz (1.8 GHz efetivos) ou mesmo 1000 MHz (2.0 GHz
efetivos).
Em 2005 surgiu o padro GDDR4, que implementou um sistema de prefetch de 8 bits, permitindo o uso de
8 transferncias por ciclo, assim como nos mdulos DDR3. Entretanto, dificuldades tcnicas relacionadas
sinalizao e interferncia acabaram limitando os chips a frequncias de apenas 500 MHz (2.0 GHz efetivos) a
550 MHz (2.2 GHz efetivos), resultando em ganhos muito pequenos em relao aos mdulos GDDR3, que j
estavam bem estabelecidos.
A ATI chegou a utilizar memrias GDDR4 nas Radeon X1950 XTX e 2900 XT, esperando que os fabricantes
seriam logo capazes de produzir chips mais rpidos. Entretanto, as promessas acabaram no se concretizando
e a tecnologia foi logo abandonada, levando grande sobrevida do GDDR3.

357

Com o fracasso do GDDR4, os fabricantes se concentraram no padro seguinte, mantendo o uso de 8


transferncias por ciclo mas adicionando refinamentos para atingir frequncias mais altas, o que legou ao
desenvolvimento do GDDR5, que fez sua estreia em 2008, na Radeon HD 4870.
Uma das principais melhorias o Clock Data Recovery, que funciona como uma funo de treinamento,
que permite ao controlador detectar pequenas diferenas de sincronismo entre os sinais dos diferentes pinos,
facilitando bastante o uso de frequncias mais altas e relaxando as especificaes com relao ao
comprimento das trilhas.
Ao usar memrias GDDR3 (ou qualquer um dos padres anteriores), todas as trilhas do barramento da
memria precisam ter o mesmo comprimento (j que diferenas no comprimento levam perda de
sincronismo dos sinais), o que obriga os fabricantes a usarem trilhas em zig-zag e outros remendos, que
acabam aumentando o nvel de crosstalk.
Com as GDDR5 as especificaes so afrouxadas, simplificando bastante o layout das placas. Um bom
exemplo de comparao direta so as Radeon HD 4850 (GDDR3) e 4870 (GDDR5), que utilizam o mesmo
chipset e o mesmo barramento de 256 bits, mas se diferenciam pelo tipo de memria usada. Voc pode notar
que o layout das trilhas da 4850 bem mais bagunado:

Trilhas em uma Radeon HD 4850 com GDDR3 ( esquerda) e uma 4870, com GDDR5
Outro recurso importante o protocolo de deteco de erros de leitura e escrita, que aumenta muito a
margem de tolerncia dos mdulos a erros diversos, j que o chipset pode simplesmente repetir as operaes
quando necessrio. O percentual de erros aumenta junto com a frequncia de operao, de modo que com
um nvel de tolerncia maior, possvel atingir frequncias muito mais altas. Ele complementado por
recursos herdados do padro GDDR4, como o DBI (Data Bus Inversion) e o Multi-Preamble, que permitem
reduzir os tempos de espera dos chips.
Combinadas todas as melhorias, as memrias GDDR5 so capazes de operar a frequncias muito similares
as das GDDR3, o que resulta em um desempenho quase duas vezes maior, j que temos 8 transferncias por
ciclo. A primeira gerao de chips GDDR5 (usados na Radeon HD 4870) so capazes de operar a 900 MHz (3600
MHz efetivos) e no deve demorar muito para que tenhamos mdulos de 1000 MHz ou mais.
Como pode ver, novas tecnologias como o GDDR3 e GDDR5 aumentaram brutalmente a taxa de
transferncia efetiva dos chips de memria, mas os aumentos nas frequncias "reais" foram muito mais
modestos. Como no final das contas o mais importante a taxa de transferncia bruta oferecida pelos chips e
no a discusso terica sobre frequncia real e frequncia efetiva, o mais comum que os fabricantes
358

simplesmente anunciem as memrias usadas segundo a frequncia efetiva, criando uma distino mais clara
entre as diferentes tecnologias.
Uma placa GDDR5 pode ser ento anunciada como usando uma frequncia de "4.4 GHz" para a memria,
enquanto uma GDDR3 seria anunciada com uma frequncia de "2.2 GHz", muito embora em ambos os casos
sejam usados chips de 1.1 GHz e a diferena fique por conta do nmero de transferncias por ciclo.
Concluindo, temos a velha discusso sobre a quantidade de memria nas placas. A memria de vdeo
necessria para armazenar texturas, vrtices e outras informaes necessrias para compor a imagem.
Naturalmente, usar mais memria permite ativar mais opes relacionadas qualidade (texturas de maior
resoluo, por exemplo) e evita que a placa de vdeo perca desempenho utilizando memria do sistema.
Entretanto, a partir de um certo ponto, adicionar mais memria no tem efeito algum sobre o desempenho da
placa, simplesmente porque o excesso no ser utilizado.
Isso especialmente verdade nas placas de baixo custo, onde o fraco desempenho impede que voc utilize
resolues mais altas e ative as opes mais pesadas relacionadas ao uso de texturas, que seriam as opes
que justificariam o uso de mais memria. De nada adianta comprar uma Radeon 4650 com 1 GB de memria,
por exemplo.
Do outro lado da moeda temos as placas com pouca memria (como as verses da GeForce 8800 GT com
apenas 256 MB), que acabam tendo seu desempenho penalizado quando obrigadas a processar um volume
maior de dados que ela comporta.
No caso delas, uma das melhores formas de reduzir o uso de memria e assim permitir que a GPU mostre
todo o seu potencial reduzir a qualidade das texturas (elas so o componente da imagem que mais consome
memria), reduzir (ou desativar) o uso de antialiasing (j que ele faz com que a placa precise renderizar a
imagem em uma resoluo mais alta, o que tambm gasta mais memria).

7.3.7 ANTIALIASING E ANISOTROPIC FILTERING


Antes de ser renderizada, a imagem 3D uma espcie de desenho vetorial, que pode ser exibido em
qualquer resoluo, sem perda de qualidade. O problema que o monitor possui uma resoluo definida, de
forma que a placa de vdeo precisa renderizar a imagem de acordo com a limitao de resoluo do monitor,
muitas vezes descartando detalhes das imagens.
A partir do ponto em que a placa de vdeo tem potncia suficiente para renderizar os frames a uma
resoluo superior do monitor, voc pode ativar o uso de um algoritmo de antialiasing, o que permite aplicar
parte dos ciclos ociosos em melhorar a qualidade das imagens exibidas.
Os algoritmos de antialiasing so chamados genericamente de "FSAA" (Full-Scene Antialiasing). A ideia
bsica suavizar as imagens (sobretudo os contornos), reduzindo a granulao e tornando a imagem mais
"lisa", de forma que ela aparente uma resoluo maior que a real:

Temos aqui um exemplo de aplicao do antialiasing. Nos dois screenshots temos exatamente a mesma
cena, mas voc pode perceber que a da direita ficou com os contornos mais suaves e uma qualidade geral
muito melhor:
359

A primeira gerao foi o SSAA (SuperSampling Antialiasing), suportado desde as primeiras verses das
placas nVidia GeForce e ATI Radeon. A ideia por trs do SSAA bastante simples: renderizar imagens 2, 4 ou 8
vezes maiores do que a resoluo do monitor e em seguida reduz-las at a resoluo que ser exibida,
aplicando um algoritmo de antialiasing. Com isso os detalhes so suavizados e a imagem preserva a maior
parte dos detalhes da imagem inicial.
O grande problema que usar o SSAA causa uma grande reduo no desempenho da placa de vdeo, j
que ela passa a essencialmente renderizar as imagens em uma resoluo muito mais alta. Ao usar o valor "4X",
a placa passa a renderizar imagens 4 vezes maiores que a resoluo do monitor (2560x1600 ao usar 1280x800,
por exemplo), o que reduz o fill-rate efetivo da placa a aproximadamente um quarto do valor original,
reduzindo severamente o FPS em casos onde o limitante no o processador ou o processamento de shaders.
Isso faz com que o SSAA seja utilizvel apenas em resolues relativamente baixas, ou ao rodar jogos mais
antigos.
A segunda gerao o MSAA, suportado a partir das GeForce 3. No MSAA o clculo de antialiasing feito
de forma mais inteligente com a renderizao de mltiplas cpias de cada pixel e a interpolao entre eles e o
uso de algoritmos otimizados, que permitem que a placa se concentre nos trechos da imagem onde o
antialiasing vai resultar em um maior ganho de qualidade. Se dentro de um polgono existem 4 pixels
idnticos, por exemplo, eles so processados como se fossem apenas um e o mesmo valor de cor aplicado
aos quatro. No SSAA eles seriam processados como 4 pixels separados, o que consumiria 4 vezes mais
processamento.
Com a aplicao de sucessivas melhorias no algoritmo do MSAA, tanto por parte da nVidia, quanto por
parte da ATI, chegamos ao ponto atual, onde as placas so capazes de aplicar o algoritmo de Antialiasing com
uma perda de desempenho relativamente pequena, se comparada ao que tnhamos na poca do SSAA.
O antialiasing pode ser ajustado tanto dentro dos jogos quanto atravs do driver. A configurao dentro
das opes de cada jogo so quase sempre preferveis, j que permitem escolher entre os modos oficialmente
suportados pelo desenvolvedor. De uma maneira geral, o uso de antialiasing de 4x com multisampling o
melhor custo-benefcio, j que oferece uma melhoria perceptvel na qualidade, sem uma perda to gritante no
FPS. Os nveis mais altos (vai at o 16x) oferecem ganhos incrementais, mas a reduo no FPS grande
demais.
A segunda opo forar o uso de um modo especfico atravs do driver, o que permite escolher entre
todos os modos suportados pela placa, mas em compensao resulta em muito mais problemas. Um bom
360

meio termo o "Enhance the application setting", que tenta ativar a configurao quando possvel, sem forar
o uso em jogos onde ela resulta em problemas.

O Anisotropic Filtering, por sua vez, uma tcnica usada para melhorar a qualidade das texturas quando
aplicadas sobre objetos de formato irregular (como, por exemplo, a textura aplicada sobre o piso, em jogos de
primeira pessoa), evitando que a qualidade e a nitidez da textura variem de acordo com a proximidade. Veja
um exemplo:

Anisotropic Filtering Ativado

Anisotropic Filtering Desativado

361

Tudo comeou com o Bilinear Filtering, efeito usado em jogos antigos, onde a mesma textura usada em
toda a extenso do objeto, utilizando um simples algoritmo de zoom. O Bilinear Filtering bastante leve, mas
resulta em uma qualidade visual ruim, pois faz com que a parte mais prxima fique pixerizada.
Em seguida veio o Trilinear Filtering, que utiliza diferentes verses da mesma textura (com diferentes
tamanhos) para obter transies mais suaves. Dessa forma, uma verso de 512x512 maior da mesma textura
pode ser utilizada na parte mais prxima e verses menores (de 256x256, 128x128, etc.) podem ser utilizadas
na parte mais distante, amenizando o problema. Naturalmente, o uso do Trilinear Filtering consome mais
recursos da placa, sobretudo mais memria, mas nas placas atuais a diferena no to grande assim.
O Trilinear Filtering oferece resultados satisfatrios em superfcies verticais (como no caso das paredes e
janelas), mas resulta em texturas borradas no caso de superfcies em ngulos abertos, como no caso do piso.
O Anisotropic Filtering segue o mesmo princpio, mas utiliza um nmero muito maior de verses da mesma
textura, incluindo tambm verses oblquas, com resolues como 128x512, 256x64 e assim por diante. Isso
permite que a placa combine o uso de diferentes verses da mesma textura, aplicando as que mais se
aproximam do ngulo de viso utilizado.
Quando ativado, voc pode configurar o Anisotropic Filtering com valores de 2x (duas vezes mais verses
de cada textura do que no Trilinear Filtering) a 32x (32 vezes mais).

Cada aumento no valor corresponde a um pequeno ganho de qualidade, mas a partir de 8x a diferena
torna-se muito pequena. De uma forma geral, os modos 2x e 4x so os que oferecem um melhor custobenefcio, j que oferecem um ganho tangvel sobre o Trilinear Filtering, sem uma reduo to grande no FPS.
A principal observao que o Anisotropic Filtering taxa pesadamente o barramento com a memria,
fazendo com que a placa passe a armazenar um volume muito maior de texturas (o que aumenta tanto o
volume de memria de vdeo usada, quanto o volume de dados transferidos).
Isso faz com que ele tenha um impacto relativamente pequeno sobre o FPS em placas como as Radeon HD
4870 ou as GeForce GTX 285, que desfrutam de barramentos mais largos com a memria, mas seja desastroso
em placas de baixo custo, como a Radeon HD 4650, onde a GPU gargalada pelo barramento estreito. No caso
delas, voc acaba sendo obrigado a usar o Trilinear Filtering com texturas de mdia qualidade para manter um
bom FPS.

7.3.8 ENTENDENDO O SLI


As primeiras placas a suportarem o uso do SLI foram as placas Voodoo 2 da 3dfx, que utilizavam um
sistema primitivo, onde as duas placas eram alimentadas com os mesmos dados e uma delas renderizava as
linhas pares e a outra as linhas mpares de cada frame. Um cabo pass-thru interligava as duas placas, atravs
do prprio conector VGA, permitindo que a imagem final fosse gerada e enviada ao monitor.

362

A 3dfx acabou indo falncia no final do ano 2000 e a propriedade intelectual relacionada a seus produtos
foi adquirida pela nVidia. Isso permitiu que o SLI ressurgisse como uma tecnologia para interligar duas placas
nVidia, dividindo o processamento e assim aumentando o desempenho. Mais tarde a ATI desenvolveu um
sistema prprio, o CrossFire, dando incio briga.
Nas Voodoo 2, SLI era a abreviao de "Scan-Line Interleave", mas nas nVidia o significado mudou para
"Scalable Link Interface", indicando as mudanas no funcionamento do sistema, onde a comunicao entre as
placas passou a ser feita atravs de bridges e no mais atravs do cabo VGA como na poca da Voodoo:

Inicialmente a nVidia tentou usar o SLI como um recurso estratgico para diferenciar seus chipsets, se
recursando a licenciar a tecnologia para uso em chipsets da Intel e da AMD. Isso acabou restringindo muito o
uso do sistema (especialmente no Brasil), j que as placas-me com chipset nVidia respondem por apenas uma
frao das placas vendidas e so quase sempre mais caras.
A nVidia mudou um pouco a estratgia a partir do Core i7, passando a licenciar o uso do SLI para placas
baseadas nos chipsets X58 e P55. Ainda existem restries, entre elas a falta de suporte a configuraes
assimtricas nos slots PCIe (o que deixa de fora as placas que utilizam 16 linhas para o primeiro slot e 4 linhas
para o segundo) e a necessidade de o fabricante certificar cada nova placa junto nVidia (pagando uma taxa
de US$ 30.000 pela certificao e mais US$ 3 de royalties por placa), mas j foi uma evoluo em relao
postura anterior. Por outro lado, ainda no existem (final de 2009) notcias com relao ao uso do SLI em
chipsets da AMD/ATI, o que mantm a plataforma refm dos chipsets da nVidia.
O suporte a SLI consiste em nada mais do que uma flag no BIOS que orienta os drivers a ativarem o
recurso. Ao pagarem os royalties e pelo processo de certificao, os fabricantes de placas-me simplesmente
recebem permisso para incluir a flag e usar os logos.
Isso nos leva a outro problema com relao ao uso do SLI como soluo de upgrade barato. Raramente
existe a possibilidade de adicionar uma segunda placa de baixo custo complementando a que voc j tem, j
que a deciso precisa ser tomada na hora em que voc escolhe a placa-me.
Tecnicamente, no existe qualquer obstculo para o uso do SLI em qualquer placa com dois slots PCIe x16,
trata-se apenas de uma poltica restritiva da nVidia. Pesquisando, possvel, inclusive, encontrar verses
crackeadas de drivers antigos, que permitem ativar o SLI em outras placas, embora com muitas limitaes.
A soluo para quem no quer pagar mais caro pela placa-me comprar uma placa com duas GPUs, como
a GeForce GTX 295 ou a GeForce 9800 GTX2. Nelas a comunicao entre as duas GPUs feita internamente, o
que permite que a placa use um nico slot PCIe x16 e funcione em qualquer placa-me:

363

Continuando, os bridges SLI so fornecidos junto com as placas-me compatveis, que acompanham os
bridges SLI para os modos suportados (e no com as placas de vdeo), mas possvel tambm compr-los
separadamente.
Toda a comunicao entre as duas placas feita diretamente, e apenas a primeira placa ligada ao
monitor. A segunda fica fazendo seu trabalho silenciosamente, recebendo tarefas a processar e devolvendo
quadros j renderizados. Os drivers so capazes tambm de detectar monitores plugados s outras placas,
permitindo usar at 6 monitores em uma configurao triple-SLI.
A exceo fica por conta das GeForce 6600, 6600 LE, 7100 GS e outras placas low-end, que podem
trabalhar em SLI sem o uso do bridge. Como essas placas usam pouca banda, toda a comunicao pode ser
feita diretamente atravs do barramento PCI Express.
Com relao ao suporte por parte das placas de vdeo, basta verificar a presena dos conectores. O uso de
um nico conector indica o suporte ao uso de duas placas, enquanto dois conectores atestam que a placa
suporta tambm o uso do triple-SLI e quad-SLI, que pode ser usado nas placas-me que oferecem mltiplos
slots:

Inicialmente todos os bridges SLI eram rgidos, com os dois conectores sendo presos a um pequeno PCB,
mas eles logo foram substitudos por cabos flexveis. Temos tambm os bridges triple-SLI e quad-SLI, que
possuem (respectivamente) seis e oito conectores (dois para cada placa). Eles so capazes de criar um
barramento duplo de comunicao, ampliando o barramento de comunicao entre as placas.

364

O trabalho de renderizao pode ser dividido entre as duas placas de duas formas distintas. A primeira,
chamada de SFR (Split Frame Rendering) consiste em dividir a cena em duas partes, onde a primeira placa fica
com a parte superior e a segunda com a inferior. A diviso baseada na carga de processamento necessria e
ajustada de forma dinmica pelo driver, por isso no necessariamente meio a meio. Voc pode ver uma
indicao visual da diviso, atualizada em tempo real, ativando a opo "Show GPU load balancing" na
configurao do driver. As duas barras verticais indicam o nvel de carregamento de cada uma das duas placas
e a linha horizontal indica o ponto da imagem onde est sendo feita a diviso.
A segunda o AFR (Alternate Frame Rendering), onde cada placa processa um frame completo, de forma
alternada. Por ser mais simples, esta a opo que acaba sendo usada por padro na maioria dos jogos. Ao
usar a opo de visualizao em conjunto com o AFR, a linha horizontal fica exatamente no meio da tela e
apenas as barras que indicam o carregamento das duas placas se movem:

Nas verses atuais do driver est disponvel o "Alternate Frame Rendering 2", uma verso otimizada do
algoritmo, que oferece um melhor desempenho em vrios aplicativos e jogos. Existe ainda a opo "SLI
Antialiasing" (onde a segunda placa usada apenas para auxiliar na aplicao do algoritmo de antialiasing) e a
"Single-GPU Rendering", que permite desativar o SLI em casos de jogos que apresentem problemas de
compatibilidade diversos ou simplesmente rodem mais rpido com o SLI desativado (que o caso de muito
ttulos antigos, no otimizados).
Sob vrios pontos de vista, usar duas placas em SLI similar a usar um processador dual-core. Embora
ttulos otimizados ofeream um grande ganho de desempenho, muitas vezes prximo do dobro, a maioria
apresenta ganhos menores, de apenas 50 a 70%, e muitos jogos antigos apresentam ganhos muito menores,
ou at mesmo uma pequena perda.
365

Outra observao importante que os ganhos mais expressivos so obtidos em resolues mais altas
(1920x1200 ou mais), onde o grande nmero de pixels permite que o trabalho seja distribudo de maneira
mais eficiente entre as placas. Se voc usa um monitor de resoluo mais baixa, usar uma nica placa de
configurao superior vai resultar em melhores resultados em quase todos os casos.
Com poucas excees, tambm no faz muito sentido comprar duas placas medianas pensando em lig-las
em SLI para obter o desempenho de uma placa high-end. Quase sempre, as linhas so criadas com aumentos
geomtricos no nmero de unidades de processamento das placas low-end para as mid-range e delas para as
high-end, criando uma escalada onde o desempenho cresce de maneira mais ou menos proporcional ao preo.
A GeForce GTS 250, por exemplo, possui apenas 128 stream processors, enquanto a GTS 275 possui 240 e
utiliza um barramento bem mais largo com a memria, resultando em um desempenho cerca de 80% superior.
Em algumas pocas era possvel comprar duas GTS 250 pelo preo de uma nica GTS 275, mas o desempenho
em SLI no era vantajoso, j que as duas 250 em SLI perdem para a 275 por uma boa margem na maioria das
situaes.
Isso faz com que o uso do SLI acabe ficando restrito a quem realmente quer o melhor desempenho
possvel e est disposto a pagar caro por isso. Salvo raras excees, no vale muito pena tentar usar duas
placas antigas com o objetivo de atingir o desempenho de uma placa mais atual, pois, mesmo combinadas,
elas acabaro oferecendo um desempenho inferior ao da placa de gerao superior e custando mais caro.
importante tambm colocar na conta o custo da placa me (j que as placas com suporte a SLI so quase
sempre modelos mais caros, destinados a entusiastas) e tambm o gasto adicional com a fonte de alimentao
(j que voc precisar de uma fonte de maior capacidade).
Continuando, para que o SLI seja ativado em cada game necessrio o uso de um profile, que inclui as
configuraes necessrias. Sem o profile, o game roda sem tirar proveito do SLI.
O driver da nVidia incorpora um
conjunto de profiles com as melhores
configuraes
para
um
nmero
relativamente grande de ttulos (a lista
est
disponvel
no
SliZone:
http://www.slizone.com/object/slizone2_g
ame.html).
Eles
so
aplicados
automaticamente ao rodar ttulos
oficialmente suportados. Para os demais,
voc deve criar um profile manualmente,
especificando o modo SLI desejado:
No obrigatrio utilizar duas placas
idnticas para ativar o SLI. Embora no
seja uma soluo exatamente livre de
falhas, possvel usar duas placas de
fabricantes diferentes, desde que elas
sejam baseadas no mesmo chipset. Voc
poderia utilizar uma GeForce 8800 GTX em
conjunto com uma 8800 GTS, por exemplo, j que ambas so baseadas no mesmo chipset, o G80. Em muitos
casos, voc pode encontrar incompatibilidades diversas ao usar placas de diferentes fabricantes, mas em
outros tudo funciona como esperado.
O problema em utilizar duas placas diferentes em SLI que o driver precisa "nivelar por baixo", reduzindo
o clock da placa mais rpida e desativando a memria adicional, de forma que as duas placas ofeream o
366

mesmo volume de processamento e de memria de vdeo. Entretanto nada impede que voc resolva o
problema "na marra" fazendo um overclock na placa mais lenta.
Uma observao com relao quantidade de memria que ambas as placas precisam trabalhar nos
mesmos frames, o que implica conservar o mesmo conjunto de dados na memria. Com isso, ao usar duas
placas de 512 MB em SLI, voc continua com apenas 512 MB de memria para todos os fins prticos.

7.3.9 CROSSFIRE
O CrossFire a resposta da ATI ao SLI. Embora as duas tecnologias no sejam relacionadas e o
funcionamento interno seja diferente, a necessidade acabou fazendo com que as solues adotadas pelos dois
fabricantes fossem bastante similares.
Veja a questo dos algoritmos usados para dividir a carga entre as duas placas, por exemplo. No SLI so
utilizados os modos SFR (onde a cena dividida em dois pedaos) e AFR (onde os frames so processados
pelas duas placas de forma intercalada). No CrossFire temos os modos AFR (que funciona da mesma forma que
no SLI), o modo "Scissor", onde a cena dividida, de forma muito similar ao SFR e o SuperTiling (onde a
imagem dividida em quadrados de 32x32 pixels, o que oferece um melhor desempenho que o modo Scissor
em muitos jogos), que o nico modo realmente diferente.
Assim como no caso do SLI, o CrossFire fortemente dependente do trabalho dos drivers, que precisam
bypassar funes e ativar otimizaes diversas para que o CrossFire possa ser usado de maneira
transparente mesmo em jogos que no foram desenvolvidos com ele em mente.
Inicialmente a ATI optou por tentar uma abordagem simplificada, fazendo com que o Catalyst aplicasse o
CrossFire automaticamente em todos os jogos, sem necessidade de utilizar profiles como no caso do SLI, mas
os problemas de compatibilidade fizeram com que adotassem um meio-termo, utilizando profiles para alguns
ttulos e utilizando o sistema automtico para os demais. O CrossFire pode ser tambm ativado e desativado
atravs do Catalyst Control Center sem necessidade de reiniciar, o que permite que ele seja desativado
rapidamente no caso de problemas com ttulos especficos.
O CrossFire passou por duas grandes mudanas desde sua introduo em 2005. A verso inicial
(encontrada nas Radeon x800, x850, x1800 e x1900) utilizava um sistema deselegante, onde a comunicao
entre as placas era feita atravs de um cabo DVI em Y e a primeira placa (master) inclua um conjunto de
controladores adicionais (5 chips no total, que formavam a "Compositing Engine"), encarregados de compor os
frames a partir dos pedaos renderizados pelas duas placas:

Configurao inicial do CrossFire, usando o cabo externo


367

Como os chips adicionais formavam um


conjunto relativamente caro, a ATI optou por
criar verses separadas das placas. De um lado
tnhamos as placas "normais", que podiam ser
usadas em modo single, ou como placa
secundria e do outro tnhamos as placas
"CrossFire Edition" (com os controladores
adicionais e o cabo Y) que assumiam a funo de
placa primria. Removendo o cooler de uma CrossFire Edition, voc encontrava o conjunto com os 5 chips.
Naturalmente, as CrossFire Edition eram mais caras e mais difceis de encontrar (sobretudo aqui no Brasil)
o que, combinado com a pequena lista de placas suportadas, tornava o CrossFire uma soluo de uso bastante
restrito.
A partir das RADEON X1950 Pro e X1650 XT, a ATI introduziu uma soluo mais elegante, onde as duas
placas trocam informaes atravs de um par de bridges, muito similar ao usado nas placas da nVidia:

Todos os circuitos necessrios foram incorporados diretamente ao chipset, eliminando o uso das placas
CrossFire Edition. A ATI tambm inovou ao adotar o uso de bridges flexveis, que mais tarde acabaram sendo
adotados tambm pela nVidia.
A partir da Radeon HD 3870 (baseada no chipset RV670), foi introduzido o suporte ao uso de trs e quatro
GPUs, o que deu origem ao CrossFireX usado atualmente:

368

As placas continuam oferecendo os mesmos dois conectores, mas agora o segundo bridge destinado
conexo de placas adicionais, como na foto. Ao interligar apenas duas GPUs, voc precisa de apenas um bridge
(o segundo bridge utilizado caso conectado, mas a diferena no desempenho insignificante).
Entretanto, a principal vantagem do CrossFire em relao ao SLI no tem a ver com os aspectos tcnicos,
mas sim com a disponibilidade. Diferente da nVidia, que usa o SLI como uma fonte adicional de renda e como
um diferencial para seus chipsets, a ATI tem sido bem mais liberal no licenciamento do CrossFire, permitindo
que ele seja usado sem pagamento de royalties tambm em chipsets Intel.
Graas a isso, praticamente todas as placas com dois slots x16 baseadas X38, P35, P45, P55 e outros
chipsets atuais oferecem suporte ao CrossFire (incluindo muitas placas de baixo custo) enquanto o SLI
suportado por apenas algumas high-end, fazendo com que na prtica o uso seja muito restrito.
Diferente do SLI, que exige o uso de duas placas de mesmo modelo e com os mesmos clocks e quantidade
de memria (reduzindo o clock da placa mais rpida, ou desativando parte da memria em caso de
divergncia), o CrossFire oferece uma certa flexibilidade com relao s placas, permitindo que voc use duas
GPUs da mesma famlia porm com clocks diferentes. Entretanto, nesses casos o ganho de desempenho ser
um pouco menor.
Outra observao importante que a nVidia exige o uso de slots com 16 ou 8 linhas PCI Express (x16, x16
ou x8, x8), enquanto a ATI permite o uso de configuraes assimtricas, como no caso de muitas placas P55,
onde o primeiro slot recebe 16 linhas e o segundo apenas 4 (x16, x4). Embora flexibilidade seja sempre uma
coisa boa, voc deve ter em mente que configuraes assimtricas oferecem um desempenho inferior, j que
as 4 linhas limitam o desempenho da segunda placa:

O principal empecilho que o bridge para uso do CrossFire raramente fornecido junto com a placa-me
(afinal, voc no paga nada a mais para ter acesso funo, diferente do SLI). Algumas placas high-end
incluem o bridge, mas o mais comum compr-lo separadamente. No exterior ele custa em mdia US$ 12
(voc pode at mesmo compr-lo diretamente da ATI no http://shop.ati.com/product.asp?sku=3186855), mas
no Brasil os preos variam.

369

Alm das placas e bridges, existem fontes e at mdulos de memria certificados para uso do SLI ou
CrossFire. No caso das fontes, a certificao garante que elas so capazes de fornecer a corrente necessria,
enquanto no caso das memrias, ela uma garantia de estabilidade. Naturalmente, em ambos os casos tratase mais de uma questo de marketing, j que outras fontes ou mdulos com as mesmas especificaes
fornecero exatamente os mesmos resultados.

7.3.10 TURBOCACHE E HYPERMEMORY


O TurboCache uma tecnologia desenvolvida pela nVidia, que permite que a placa de vdeo utilize parte
da memria RAM do sistema como extenso da memria de vdeo, realizando os acessos atravs do
barramento PCI Express. A ideia bsica oferecer placas com pouca memria de vdeo dedicada, permitindo
que a placa "roube" memria do sistema para completar 128, 256 ou 512 MB de memria de vdeo. Como
pode imaginar, essencialmente uma derivao dos sistemas de memria compartilhada encontrados em
chipsets de vdeo onboard.
O TurboCache encontrado em diversas placas de baixo custo da nVidia, incluindo as GeForce 6200 TC e
SE, 7100 GS, 7200 GS, 7300 LE e GS, 7500 LE e na 8400 GS (na verso de 256 MB), alm de alguns modelos da
srie GeForce Go, destinados a notebooks.
Ele no usado em placas de mdio e alto desempenho, simplesmente porque seu uso no faz sentido em
placas com mais memria. Apesar do nome "Turbo Cache", ele no um recurso destinado a melhorar o
desempenho da placa (em relao a uma placa com mais memria dedicada), mas simplesmente "remendar"
placas de baixo custo, permitindo que elas utilizem mais memria do que fisicamente disponvel. A pequena
quantidade de memria dedicada usada como uma espcie de "cache" para a memria compartilhada, da o
nome.
A ATI utiliza o HyperMemory, uma tecnologia muito similar, que tambm se baseia no uso de uma
pequena quantidade de memria de vdeo dedicada, combinada com uma quantidade maior de memria
compartilhada. Ele encontrado nas placas da srie HM e tambm em algumas placas de baixo custo, da srie
LE, alm de nos modelos mais bsicos da Mobility Radeon, destinada a notebooks.
Voc pode classificar as placas com o TurboCache ou o HyperMemory como uma classe intermediria
entre as placas onboard e as placas mais caras, com mais memria dedicada. A principal armadilha que os
fabricantes muitas vezes vendem as placas (ou os notebooks baseados nas verses mobile das mesmas)
anunciando a quantidade de memria total, incluindo tanto a memria dedicada quanto a memria
compartilhada. Uma determinada placa pode ser anunciada como tendo "512 MB" de memria, quando na
verdade tem apenas 64 MB e pode utilizar mais 448 MB de memria compartilhada.
O exemplo mais comum de placa que utiliza o TurboCache a antiga GeForce 6200 TC, lanada em 2005.
Ela uma placa bastante modesta, baseada no chipset NV44, uma verso reduzida do NV43, usada nas
GeForce 6600. A placa pode vir com 16, 32, 64 ou 128 MB de memria DDR (1) dedicada, operando 550 ou
700 MHz e ligada GPU atravs de um barramento de 32 ou 64 bits.
Esse arranjo resulta em um barramento com a memria de vdeo de 2.2 GB/s (550 MHz, 32 bits) a 5.6 GB/s
(700 MHz, 64 bits), que , em muitos casos, mais estreito que o barramento com a memria principal (que
pode ser de at 4 GB/s, j que o acesso feito atravs do barramento PCI Express). Nesses casos, a principal
vantagem da memria onboard passa a ser o tempo de latncia mais baixo. A placa pode utilizar 128 ou 256
MB de memria compartilhada, de acordo com o modelo e a verso dos drivers usados.
Outro exemplo, mais recente a GeForce 8400 GS de 256 MB, que suporta o uso de mais 256 MB atravs
do TurboCache, totalizando 512 MB. Assim como no caso da 6200, o TurboCache resulta em um pequeno
ganho desempenho, mas em compensao reduz a quantidade de memria disponvel para o sistema (um
problema srio em PCs com apenas 1 GB) e faz com que a placa dispute o barramento da memria com o
processador principal.
370

Embora o TurboCache no seja configurvel, possvel desativ-lo atravs do RivaTuner. Basta configurar
a opo "Power User > NVIDIA Forceware 163.75 w2k System > RMDisableRenderToSysmem" com o valor "1".
Isso pode reduzir o desempenho da placa em alguns jogos, mas em compensao evitar que ela roube
memria do sistema.

7.4 AS APIS: DIRECTX E OPENGL


Diferente dos processadores, que utilizam um conjunto comum de instrues (o x86), os chipsets de vdeo
so regidos por uma certa anarquia, onde no existe uma interface padro, especialmente entre chipsets de
diferentes fabricantes.
Na poca do MS-DOS, os jogos acessavam diretamente o frame-buffer e os demais recursos da placa de
vdeo. Embora isso permitisse extrair o mximo de desempenho das placas limitadas da poca, aumentava
muito o trabalho dos programadores, que precisavam escrever rotinas separadas para cada modelo de placa
disponvel. Funcionava enquanto os jogos utilizavam grficos 2D simples (como no caso do antigo Warcraft 2)
e o nmero de placas diferentes era relativamente pequeno, mas se tornou invivel a partir do incio da era
3D, devido complexidade do trabalho e s diferenas de arquitetura entre os diferentes chipsets.
Surgiram ento as APIs para a criao de grficos 3D, que facilitam o trabalho do desenvolvedor,
oferecendo um conjunto de comandos e recursos padronizados, que podem ser usados em qualquer placa 3D
compatvel. Passou ento a ser responsabilidade dos fabricantes tornarem seus chipsets compatveis com as
APIs existentes e disponibilizar drivers, assegurando que os ttulos existentes rodaro com um bom
desempenho.
De certa forma, uma API lembra bastante uma linguagem de programao de alto nvel, como o C++, onde
voc desenvolve os aplicativos usando as funes disponveis e deixa que o compilador se encarregue de gerar
o cdigo de mquina que ser executado pelo processador.
As funes disponveis determinam diretamente o que possvel fazer, o que transforma a API em um
potencial gargalo: uma API deficiente ou desatualizada pode limitar severamente o desenvolvimento,
bloqueando o acesso a recursos disponveis na GPU. Assim como tudo na informtica, as APIs evoluem,
incorporando novas funes e se moldando aos chipsets 3D existentes, mantendo a corrida de gato e rato.
A primeira API 3D para jogos a se tornar popular foi o Glide, criado pela antiga 3dfx para uso em suas
prprias placas. Ele surgiu como uma verso reduzida do OpenGL, otimizada para a criao de grficos em
tempo real, cujas funes eram implementadas diretamente no hardware das placas. Essa abordagem tinha
suas limitaes (no era possvel incluir novas funes sem modificar os chipsets e no era possvel corrigir
bugs ou atualizar as placas j disponveis) mas ofereceria ganhos significativos de desempenho.
A combinao da API fcil de usar e do bom desempenho permitiu que a Voodoo (lanada em 1996) e a
Voodoo 2 (1998) dominassem rapidamente o mercado, praticamente inventando o ramo das aceleradoras 3D
para jogos.
Na poca, a maioria dos jogos (Need for Speed II SE, Carmageddon, Tomb Raider, Virtua Fighter II, Resident
Evil, MechWarrior, etc., etc. :) podiam rodar tambm em modo de renderizao via software (sem uma
aceleradora 3D), mas nesse caso o desempenho era limitado e os grficos ficavam muito mais simples.

371

Need for Speed II SE com acelerao em Glide e uma Voodoo 1


O Glide era uma soluo bastante elegante, que permitia criar jogos facilmente portveis para outras
plataformas. O lado negro era o fato de ele ser completamente fechado e proprietrio, disponvel apenas para
as placas da prpria 3dfx. Se ele tivesse prevalecido, a 3dfx teria um quase monoplio dos chipsets 3D, o que
no seria uma boa coisa.
Embora tenha sido a API dominante nos primeiros anos, o Glide decaiu rapidamente entre 1998 e 2000
devido queda de popularidade das placas da 3dfx, que passaram a perder mercado para as placas da
Rendition, Matrox e S3, que logo deram lugar s placas da nVidia e da ATI.
Inicialmente, ambas tiveram dificuldades em concorrer com as placas da 3dfx devido falta de suporte ao
Glide, mas o uso de ciclos mais rpidos de desenvolvimento (sobretudo por parte da nVidia) combinados com
preos mais competitivos e migraes mais rpidas para novas tcnicas de fabricao, acabaram fazendo a
372

balana tender para o lado oposto. No final, a 3dfx acabou indo falncia, depois de vender parte da
propriedade intelectual para a nVidia.
possvel rodar jogos antigos, que utilizam o Glide em placas atuais utilizando os glide-wrappers, que so
emuladores destinados a processar as instrues via software (simular uma Voodoo com seus 50 megapixels
de throughput no problema para um processador atual) ou convert-las em chamadas OpenGL. Dois bons
exemplos
so
o
OpenGlide
(http://sourceforge.net/projects/openglide/)
e
o
dgVoodo
(http://www.freeweb.hu/dege/).
Com o Glide saindo de cena, foi aberto o caminho para o domnio do OpenGL e do Direct3D, dando incio
era moderna. O Direct3D faz parte do DirectX, que , na verdade, um conjunto de APIs, cada uma com uma
funo especfica relacionada a multimdia. Entre elas, o Direct3D a API especfica para a gerao de grficos
3D.
O OpenGL na verdade bem mais antigo que o Glide, em uma histria que remonta s estaes de
trabalho da dcada de 80. Ele surgiu oficialmente em 1992 quando, pressionada pelos concorrentes, a SGI
decidiu criar uma API aberta com base no IrisGL, usado em suas estaes de trabalho. Embora o objetivo inicial
fosse o uso em aplicativos profissionais de CAD e renderizao 3D, o OpenGL logo passou a ser usado tambm
em jogos, com os fabricantes de chipsets e placas 3D se esforando para adicionar o suporte a ele em seus
chipsets. Como comentei, o prprio Glide surgiu como uma verso reduzida do OpenGL, implementada via
hardware.
Alm do fato de ser um padro aberto, desenvolvido por uma associao de fabricantes, uma das
principais vantagens o fato de o OpenGL ser uma API multiplataforma, o que permite que os aplicativos e
jogos sejam portados para o Linux e outras plataformas sem muita dificuldade.
Um bom exemplo so os jogos da ID Software, que possuem todos verso Linux. Neles, a instalao feita
usando os mesmos CDs da verso Windows, voc precisa apenas baixar o executvel do jogo para Linux,
disponvel para download. A lista inclui o Doom3, que foi um dos ltimos grandes lanamentos baseados no
OpenGL:

Doom3, em verso Linux


O Direct3D, por sua vez, surgiu em 1995 quando percebendo que os jogos 3D seriam o futuro, a Microsoft
decidiu incorporar uma API 3D no DirectX. Nas primeiras verses, o Direct3D era visto como uma API limitada,
que era usada mais devido a incentivos e subsdios por parte da Microsoft do que por mritos prprios.
Entretanto, as coisas comearam a mudar a partir do DirectX 7.0, que atingiu uma quase paridade de recursos
373

com o OpenGL, ao mesmo tempo em que oferecia ferramentas de desenvolvimento mais fceis de usar. Com
exceo da ID Software, que continuou leal ao OpenGL, a maioria das software houses comearam a debandar
para o DirectX.
A tendncia foi reforada com o lanamento do DirectX 8.0 (lanado no final de 2000), que trouxe o
suporte a shaders, e com o 8.1 (final de 2001), que trouxe vrias melhorias na interface de desenvolvimento.
Inicialmente, os shaders so foram to usados pelos desenvolvedores de jogos, em parte devido falta de
familiaridade com o conceito e em parte devido s limitaes do DirectX 8 e das GPUs da poca. Entretanto, a
adoo cresceu rapidamente com o DirectX 9.0 (lanado em dezembro de 2002), que trouxe o suporte ao
Shader Model 2.0 e se solidificou com o DirectX 9.0c (2004) e a incluso do Shader Model 3.0, que se tornou a
plataforma comum da maioria dos ttulos lanados entre 2005 e 2009.
O OpenGL, por outro lado, acabou ficando um longo tempo estagnado, com as inovaes sendo
introduzidas lentamente devido s divergncias entre os membros do conselho. A prpria SGI acabou saindo
do mercado depois de ver suas estaes de trabalho perderem espao para placas das linhas Quadro FX da
nVidia e FireGL/FirePro da ATI que, devido ao grande volume de produo das placas domsticas, so capazes
de oferecer as solues profissionais com preos muito mais competitivos.

A diferena entre estas placas e as GeForce/Radeon domsticas no esto tanto no hardware (a Quadro FX
5600 baseada no mesmo G80 que equipa a GeForce 8800 domstica, a FirePro V8700 usa o mesmo RV770
da Radeon HD 4870 e assim por diante), mas sim nos drivers. Eles so desenvolvidos de forma independente
dos drivers domsticos, passando pelos processos oficiais de certificao e ganhando otimizaes que
resultam em um desempenho consideravelmente superior em aplicativos profissionais, como o Maya, 3ds
Max, AutoCAD, SolidWorks, ProEngineer, etc. O preo inclui tambm um plano de suporte, geralmente vlido
por um ano.
Voltando ao OpenGL, em 2007 a manuteno foi transferida para o Khronos Group e o anncio do OpenGL
3.0 renovou as esperanas em torno de uma renovao. Entretanto, as melhorias relacionadas ao
desenvolvimento de jogos foram gradualmente perdendo espao ao longo do caminho, fazendo com que o
OpenGL 3.0 acabasse trazendo apenas melhorias relacionadas ao uso em estaes de trabalho, que passaram
a ser o principal reduto da API.
Nesse ponto, o fato de o DirectX ser controlado pela Microsoft acabou se revelando uma vantagem, j que
as decises podiam ser tomadas mais rapidamente. O Direct3D uma API destinada a jogos, que otimizado
para o uso em placas de dois fabricantes (nVidia e ATI), enquanto o OpenGL tem um escopo muito mais
abrangente e uma carga de legado muito maior, o que torna a concorrncia mais difcil.
374

Isso permitiu que a Microsoft desenvolvesse um quase monoplio dos jogos para PCs, com quase todos os
ttulos sendo lanados exclusivamente em verso Windows (o nico sistema capaz de rodar nativamente o
DirectX) e apenas alguns ganhando verses para MacOS X ou Linux. possvel tambm rodar jogos DirectX no
Linux atravs do Wine e do CrossOver, mas neste caso a compatibilidade limitada e existe quase sempre uma
perda considervel de desempenho.
Continuando, cada nova verso do DirectX oferece mais chamadas e novos recursos de desenvolvimento,
que possibilitam a criao de efeitos mais complexos e permitem acessar os recursos oferecidos pelas GPUs
mais atuais, mas por outro lado quebram a compatibilidade com GPUs antigas, criando uma espcie de
obsolescncia programada.
Um dos principais fatores o Shader Model, a API responsvel pelo uso dos shaders, que tem se tornado
um dos principais fatores relacionados qualidade das imagens e efeitos. O DirectX 9.0 (lanado em 2002)
inclui suporte ao Shader Model 2.0, o DirectX 9.0c (lanado em 2004) ao Shader Model 3.0, enquanto o
DirectX 10 (lanado no incio de 2007, juntamente com o Vista) oferece suporte ao Shader Model 4.0, que
diretamente otimizado para as unidades programveis das placas atuais.
Com isso, a verso do DirectX suportada pela placa tornou-se uma especificao importante (sobretudo no
caso das placas integradas, que so quase sempre baseadas em chipsets antigos), j que est diretamente
relacionada com a compatibilidade da placa com os jogos atuais.
Placas como as GeForce 6 e GeForce 7 e as ATI X1000, baseadas nos chipsets da famlia R520, so limitadas
aos ttulos com suporte ao DirectX 9.0c, enquanto as placas da srie GeForce 8xxx (NV80) e as Radeon HD 2xxx
(R600) em diante, oferecem suporte ao DirectX 10, o que garante efeitos extras em muitos ttulos atuais e a
compatibilidade com pelo menos mais uma gerao de jogos. As placas onboard com chipset Intel GMA X3000
tambm suportam o DirectX 10 no papel, mas na prtica o desempenho muito fraco.
A verso do DirectX usada pelos jogos no uma deciso encravada em pedra. Os desenvolvedores podem
optar por focar o desenvolvimento em uma verso especfica (o DirectX 9.0c, por exemplo) e incluir camadas
de funes que utilizem recursos do DirectX 10 ou DirectX 11 (ativadas apenas nos PCs compatveis), ou
mesmo funes adicionais para manter a compatibilidade com verses antigas. Ao ser executado, o jogo
detecta quais so as verses suportadas pela placa e ativa automaticamente as funes apropriadas, variando
o nvel de detalhes de acordo com os recursos do hardware.
Em pleno final de 2009 ainda tnhamos uma predominncia de jogos desenvolvidos primariamente para o
DirectX 9, contra um nmero pequeno de ttulos desenvolvidos exclusivamente para o DirectX 10, diferente do
que tivemos nas verses anteriores, onde a migrao foi muito mais rpida.
Existem vrios motivos para isso. Um dos principais foi a deciso da Microsoft de amarrar o DirectX 10 ao
Vista, esperando por uma rpida adoo do sistema, que no final no aconteceu. Ao olharem os nmeros de
usurios do XP e do Vista, os desenvolvedores chegavam concluso de que era melhor continuar
desenvolvendo primariamente para o DirectX 9, adicionando apenas uma camada posterior de efeitos
baseados no DirectX 10, que passavam longe de serem convincentes.
Outro motivo a predominncia de ttulos portados, que so desenvolvidos primariamente para o Xbox
360 ou o PS3 e em seguida portados para os PCs. O Xbox 360 usa uma API baseada no DirectX 9, o que torna
natural que ele seja utilizado tambm nos portes para PC. Com uma base cada vez mais fragmentada, o
desenvolvimento de ttulos para vrias plataformas utilizando uma base de cdigo comum, se tornou norma.
Um bom exemplo o Call of Duty World at War, que apesar dos bons grficos, um ttulo DirectX 9, que
foi portado sem muitas modificaes dos consoles para o PC:

375

Essa dependncia dos consoles um fator que tem retardado a adoo de novas tecnologias, j que os
consoles possuem configuraes muito mais modestas que um PC high-end e so atualizados em um ritmo
muito mais lento. Por um lado isso bom, j que torna os desenvolvedores mais conservadores com relao
ao uso de recursos (reduzindo a velocidade com que novas GPUs se tornam obsoletas), mas por outro lado
atrapalha os sonhos de quem quer ver imagens fotorealsticas em jogos.
Hoje em dia, possvel renderizar imagens bastante realsticas com o OpenGL, usando uma combinao do
ray-tracing, photon mapping e outras tcnicas (como na imagem a seguir). O problema que isso torna a
renderizao muito cara em termos de processamento, fazendo com que cada imagem demore vrios
minutos, ou mesmo horas para ser renderizada, muito longe dos 30 a 60 FPS que so esperados em jogos,
onde so necessrios algoritmos menos precisos, porm mais rpidos.

Isso explica grande parte do hype em torno do DirectX 11, que alm de ser suportado pelo Windows 7 e
Vista, ser utilizado pela prxima gerao de consoles. No vai ser uma migrao rpida (j que depende de os
usurios migrarem para o Windows 7 ou Vista e atualizarem as GPUs), mas ele tem tudo para se tornar a
prxima grande verso da API, finalmente substituindo o DirectX 9.0c.
376

Do ponto de vista dos desenvolvedores, um dos grandes atrativos o fato de o DX 11 ser um superset das
instrues disponveis no DirectX 10, que simplesmente inclui novas funes, sem abandonar as funes
disponveis anteriormente. Isso permite uma migrao mais suave, j que ao deixar de usar as novas funes
possvel escrever cdigo compatvel com as duas verses, assegurando a compatibilidade com a grande base
de placas compatveis com o DirectX 10.
Naturalmente, novos recursos e melhores grficos consomem mais processamento, o que torna necessrio
o uso de placas mais poderosas, recomeando o ciclo. Se voc ainda tem dvidas sobre para onde vai todo o
poder de processamento das GPUs atuais, basta ter em mente que o DirectX 11 introduz o suporte de texturas
de at 16.384 x 16.384, expandindo o antigo limite de 4096 x 4096, que j era impensvel h poucos anos
atrs.
Se voc parar por um momento para pensar sobre o poder de processamento necessrio para processar
cenas com texturas desse tamanho em tempo real, vai logo entender os motivos da corrida armamentista
entre a nVidia, ATI e Intel: no fundo tudo se resume ao uso de mais polgonos, texturas maiores e efeitos mas
realistas.

7.5 O MUNDO DA FSICA: PHYSICS, PHYSX E HAVOK


Uma GPU enxerga uma cena 3D de uma maneira muito diferente de uma pessoa. Enquanto voc enxerga
pedras, carros, projteis, fumaa e exploses, a GPU enxerga apenas polgonos e shaders, que no interagem
entre si da mesma maneira que no mundo real.
A GPU no sabe que uma pedra deve se espatifar ao se chocar contra o solo (em vez de penetr-lo e ficar
com a ponta para fora), nem que um projtil deve abrir um buraco em uma parede de tijolos, em vez de
simplesmente atravess-la ou desaparecer ao atingi-la. Ela no sabe nem mesmo que os membros dos
personagens no devem atravessar paredes, o que leva aos tantos glitches que vemos em jogos.
Para a GPU, uma cena 3D composta de polgonos: formas geomtricas sem massa, que por ventura so
usadas para desenhar objetos. Como a placa no enxerga objetos, mas apenas contornos e texturas, ela no
sabe como faz-los interagir de maneira realstica.
Para adicionar uma certa camada de realidade, os desenvolvedores incluem scripts pr-programados, que
adicionam alguns efeitos especficos. So eles os responsveis por deixar buracos em paredes quando voc
atira nelas, ou deixar o cho preto depois que uma bomba explode, por exemplo. Eles resolvem alguns
problemas, mas consomem muito tempo de desenvolvimento e so bastante limitados. Seria necessrio um
brutal volume de trabalho para criar algo prximo de um ambiente real (onde voc pode mover objetos,
destruir paredes, ver objetos recocheteando de maneira realista, etc.) usando scripts, e mesmo assim o
resultado final dificilmente seria convincente.
A resposta para o problema so os clculos de fsica (Physics), que consiste em calcular as trajetrias de
fragmentos, fazendo com que eles interajam de maneira realstica com o ambiente. Usando clculos de fsica,
uma exploso pode resultar em estilhaos ricocheteando nas paredes e atingindo os personagens (em vez de
uma simples nuvem de fumaa), paredes podem ser destrudas, estilhaos de vidro e outros materiais se
comportam de maneira realstica e assim por diante:

377

Efeitos de Physics no Unreal Tournament 3 (repare nos objetos distorcidos e detritos voando)
A primeira iniciativa de acelerador dedicado (o PPU, ou Physics Processing Unit) veio por parte da AGEIA,
que em 2005 lanou o "Physx", em conjunto com uma API prpria (tambm chamada de Physx) para a
programao dos efeitos. Embora fosse um chip produzido usando uma tcnica de 130 nm, o acelerador
possua 125 milhes de transistores, e era capaz de processar 20 bilhes de instrues por segundo, bastante
poderoso para a poca.
Ele chegou a ser vendido na forma de placas PCI produzidas pela Asus, BFG e ELSA, mas acabou fazendo
pouco sucesso devido ao custo (a Asus PhysX P1, um dos poucos modelos de placas baseadas no chip, custava
nada menos que US$ 270) e ao pequeno nmero de jogos com suporte tecnologia. Para complicar, os
poucos ttulos utilizavam o hardware apenas para aprimorar efeitos j existentes de exploses e estilhaos
(como no caso do Ghost Recon: Advanced Warfighter) e no para implantar melhorias na mecnica ou na
jogabilidade.
Essencialmente, a AGEIA enfrentou o problema do ovo e da galinha, com os desenvolvedores esperando
at que existisse uma grande base de usurios e os usurios esperando at que existisse um grande nmero
de ttulos com efeitos realsticos.

Asus PhysX P1, de 2006

378

Apesar do fracasso das placas da AGEIA, a ideia do uso de clculos de fsica para melhorar o realismo dos
jogos foi lentamente ganhando adeptos, principalmente atravs do Havok (desenvolvido pela empresa de
mesmo nome), um middleware que permite processar efeitos simples usando o processador. Ele o sistema
usado pela maioria dos jogos atuais com suporte a Physics, incluindo os ttulos baseados na Source Engine,
como o Half Life 2, CS Source, Left 4 Dead e outros.
A Havok comeou como uma empresa independente, mas ela logo despertou o interesse da Intel, que viu
o uso de Physics como um incentivador para a venda de processadores quad-core, que tipicamente no
ofereciam grandes ganhos em jogos, devido natureza single-thread da maioria dos ttulos.
A compra da Havok pela Intel levou ao cancelamento do Havok FX, uma nova verso do middleware que
seria baseada no uso da GPU. Como pode imaginar, a Intel estava mais interessada em otimizar a API para uso
em processadores (e no Larrabee) do que em desenvolver uma tecnologia que beneficiasse as concorrentes.
Isso deixou tanto a nVidia quanto a ATI de calas na mo, correndo o risco de verem suas GPUs perderem
mais uma batalha para as CPUs multicore. A resposta veio com a compra da AGEIA pela nVidia (em 2008), que
absorveu a tecnologia e adaptou o PhysX para rodar sobre suas GPUs.
Em resumo, o PhysX permite que o desenvolvedor especifique como os objetos se comportaro ao
colidirem, qual o efeito da gravidade sobre os estilhaos e assim por diante, deixando que a Engine se
encarregue da maior parte do trabalho pesado. Existem muitas similaridades entre ele e o Havok (a comear
pelo fato de que ambos servem para a mesma coisa), mas o fato de o PhysX utilizar a GPU para o
processamento (arquitetura paralela) representa um grande ganho de desempenho em relao ao Havok, que
baseado no uso da CPU, especializada em processamento serial.
O grande asterisco em relao ao PhysX que ele integrado ao CUDA, que por sua vez suportado
nativamente apenas nas placas da prpria nVidia (das GeForce 8xxx em diante). Isso no impede que os
efeitos funcionem em PCs com placas da ATI, mas nesse caso o cdigo passa a ser executado pelo processador
e o desempenho muito mais baixo.
Como pode imaginar, isso limitou a adoo do PhysX, mas pelo menos dessa vez ele passou a ser oferecido
como um bnus, que funciona em qualquer placa que suporte o CUDA, desde que voc esteja disposto a
sacrificar parte do FPS em troca dos efeitos, ou se sinta tentado a ponto de adicionar uma segunda (ou
terceira) placa para o processamento do PhysX.
Nos jogos atuais, o Havok e o Physics so ainda usados para efeitos simples, como exploses,
movimentao realstica para roupas e objetos especficos e movimentao de partculas, como uma opo
mais elaborada ao uso de scripts. Entretanto, podemos imaginar que no futuro o conceito possa evoluir para a
criao de ambientes interativos, onde voc possa interagir com todos os objetos do cenrio de uma maneira
similar ao que temos no mundo real, explodindo paredes e movendo os objetos a esmo, diferente dos
ambientes estticos e indestrutveis dos jogos atuais.
Existem muitas dificuldades em criar esse tipo de ambiente realstico, a comear pelo brutal poder de
processamento exigido e pelo enorme trabalho manual necessrio para programar cada aspecto das cenas,
mas essa no deixa de ser uma possibilidade interessante para o futuro.

7.6 COMO ESCOLHER UMA PLACA DE VIDEO?


Fato: Escolher uma placa de vdeo adequada as suas necessidades e ao seu bolso no algo fcil. Alias,
muito mais difcil que escolher uma CPU. Por qu?
1. Novas arquiteturas de GPUs (Graphics Processing Units) so lanadas mais frequentemente que novas
arquiteturas de CPUs;
2. Dentro de uma mesma arquitetura, h diversos modelos de chips, indo de um extremo a outro de
desempenho e preo. Essa distncia (entre o chip mais fraco e o mais poderoso) muitssimo mais
379

expressiva do que o que acontece com as CPUs de uma mesma arquitetura. Em outras palavras, a GPU
mais poderosa muitas vezes mais poderosa que o modelo mais simples da mesma linha.
Consequentemente, tem-se diversos modelos intermedirios a fim de se enquadrarem nos diversos
mercados de custo/desempenho. E, essa fragmentao, alm de maior, menos clara do que no
mercado de CPUs. Ou seja, distinguir entre um chip de alto/mdio/baixo/terrvel desempenho exige
mais conhecimento de hardware.
3. No basta apenas escolher o chip, preciso escolher tambm a placa de vdeo como um todo. Isso
envolve escolher o fabricante da placa (Asus, MSI, Gigabyte, XFX, etc...), observar a escolha do
tipo/largura de banda/quantidade de memria que ele usou naquele modelo especfico da placa. Sem
falar em outros parmetros de projeto, como o sistema de refrigerao (que implica diretamente em
estabilidade em temperaturas mais alturas e possibilidade de overclock) e o tamanho da placa
(comprimento e largura, que algumas vezes inviabiliza o uso em alguns gabinetes ou entra em disputa
por espao com outros hardwares do micro).
No entanto, apesar de toda essa dificuldade, vamos tentar entender um pouco desse assunto, traando
alguns parmetros a serem analisados de modo que seja possvel fazer uma escolha mais consciente.

7.6.1 ENTENDENDO O MERCADO DE GPUS


Sejamos claros e simples. Quando se fala em
fabricantes de GPUs no integradas (ou seja, estamos
excluindo os modelos on-board), temos uma disputa
entre apenas dois gigantes: AMD (com a extinta marca
ATI) e nVidia. A primeira, cuja cor predominante o
vermelho e a segunda o verde.
Essas duas companhias vivem uma eterna disputa
entre quem lana a melhor arquitetura. E isso no envolve apenas lanar o chip mais poderoso, mas,
principalmente, lanar modelos intermedirios com custo/desempenho equilibrados. Isso porque o maior
retorno financeiro dessas empresas no vem dos modelos de alto desempenho, mas sim dos medio e baixo
custos.
Mas, como a AMD ou nVidia fazem para diferenciar seus chips a fim de variar o custo/desempenho dos
seus chips? Pois bem, vamos entender melhor essa histria com um exemplo da nVidia (abordaremos o caso
da ATI posteriormente).
Em 2006, a nVidia lanou uma nova arquitetura, a 8 Gerao da linha GeForce. Esta era, de fato, uma
nova arquitetura, com grandes mudanas em relao linha anterior, como a presena de shaders unificados
e compatibilidade com o DirectX 10. importante que fique claro que, quando se fala numa nova arquitetura,
no estamos especificando nenhum chip ou modelo de placa. Estamos num nvel mais alto de especificao,
definindo caractersticas que sero comuns entre todos os chips derivados daquela arquitetura. Se voc
entendeu bem o nosso estudo sobre CPUs, saiba que a analogia direta (Por exemplo, o Sandy Bridge no
um processador e sim uma arquitetura de processadores. Derivados dessa arquitetura, tem-se modelos
comerciais dos chips da srie i3, i5 e i7.).
O primeiro chip dessa nova arquitetura foi o G80 que, alm das caractersticas arquiteturalmente
inovadoras, apresenta uma fora bruta significativamente superior gerao anterior, do G70. E isso algo
clssico no mundo das GPUs. Visto que uma GPU um processador dedicado e especializado em
processamento de dados altamente paralelizvel, fora bruta importa muito. Quando se fala em fora bruta,
estamos nos referindo a unidades bsicas de processamento em maior nmero (por exemplo, o G70 possui 32
unidades de processamento de shaders, enquanto o G80 possui 128 stream processors) e as vezes operando
em frequncia mais alta.
380

Pois bem, o G80 foi lanado originalmente como um chip de alto desempenho, e equipou as placas
comercialmente conhecidas como GeForce 8800 GTX e 8800 Ultra, ambas com o mesmo chip, diferenciandose apenas por essa ultima operar a frequncias levementes superiores. Observe, duas placas diferentes com o
mesmo chip. Depois, para o mercado de mdio desempenho, ela lanou a 8800 GTS com uma verso castrada
do G80 (com 96 stream processors funcionais, apenas 20 ROPs e clock mais baixo). Lembre-se de que essa
mesma estratgia usada pelos fabricantes de CPUs, que vendem verses castradas dos seus chips com um
preo mais baixo, muitas vezes para aproveitar aqueles com pequenos defeitos (como no caso do cache dos
processadores em que se desativa a parte do cache com defeito e vende-se como um modelo de baixo custo).
A fim de atingir mercados de custo/desempenho ainda mais baixo, ao invs de castrar os chips (tendo que,
as vezes at desativar unidades de processamento que estejam boas), a empresa acaba refazendo o design do
chip original, criando um chip menor e mais barato de se produzir. Isso deu origem ao G84, que equipou as
GeForce 8600 GT e 8600 GTS, placas consideradas de mdio desempenho.
Por fim, foi criado o G86, o chip mais barato da dentro dessa famlia (e com apenas 1/8 do nmero de
unidades de shader unificada), que equipou as GeForce 8500 GT e 8400 GS, consideradas de baixo
desempenho, esta ltima, inclusive, praticamente invivel para ser usada para jogar minimamente qualquer
jogo em 3D, embora possa ser uma boa opo para estaes de trabalho e media-centers (rodar vdeos em
HD).
Atravs desse exemplo, voc pode perceber como se criam chips diferenciados dentro de uma mesma
famlia/arquitetura a fim de atingir os mais diversos pblicos consumidores. Pontuando cada um deles, a
diviso se d em trs segmentos bsicos:

High-end (Alto Desempenho): Seria o processador grfico "completo" de cada gerao, oferecido em
placas de vdeo mais robustas e mais caras, devido quantidade de canais simultneos de memria
acessados pelo processador grfico, a chamada interface de memria.
O processador grfico tem a obrigao de realizar, simultaneamente, vrias operaes em paralelo, como
renderizar os polgonos, aplicar-lhes texturas e efeitos sobre estas texturas, suavizar arestas e pixels e
gerar toda essa imagem, em tempo real, no monitor na forma de imagens bidimensionais determinada
resoluo com perspectiva tridimensional determinada taxa, quantidade de quadros por segundo.
Devido a esse forte processamento paralelo exigido, o processador grfico dedicado "completo" precisa de
memrias de ultima gerao e uma via de acesso ultra-rpida a essas memrias. O primeiro ponto
compreende o uso de memrias mais velozes e mais caras, como as GDDR5. J o segundo ponto, implica
em mais canais de acesso, o que deixa suas placas de vdeo mais caras, j que so necessrios bem mais
caminhos construdos, mais vias de acesso simultneo que as placas de vdeo mais baratas.
Geralmente, tais processadores vo muito alm dos requisitos mnimos exigidos pelos jogos lanados
naquela poca.

381

Mid-end ou Mid-range (Mdio Desempenho): Seria o processador grfico intermedirio de cada gerao,
geralmente uma verso bem capada do processador grfico completo, oferecido em placas de vdeo
menos robustas e um pouco menos caras, cuja interface de memria possui bem menos canais de
memria simultneos que uma voltada ao pblico high-end, apenas para atender um pouco alm dos
requisitos mnimos exigidos pelos jogos mais atuais da respectiva gerao de processadores grficos.

Low-end ou Entry-level (Baixo Desempenho): Seria uma amostra barata, um rascunho do processador
grfico completo de cada gerao, oferecido em placas de vdeo bem modestas e simples, para atender
apenas os requisitos mnimos dos jogos mais atuais da respectiva gerao de processadores grficos. Seu
projeto, geralmente, tambm aproveitado na linha de processadores grficos integrados que tanto a
AMD quanto a nVidia lanam na gerao seguinte, tendo apenas um ou outro canal de memria (as
conhecidas placas com apenas 64 bits de acesso a memria).

Existe ainda um nvel acima do alto desempenho, que so placas de altssimo custo voltada para o pblico
entusiasta, que querem ter, a todo custo, a melhor performance possvel. Tais placas so, algumas vezes,
formadas por dois chips (dual-GPU), como o caso da AMD Radeon HD 6990 que basicamente duas HD 6950
integradas.

7.6.2 MAIOR QUANTIDADE DE MEMRIA NEM SEMPRE QUER DIZER ALGUMA COISA
Conforme mencionado na seo 7.3.6, a quantidade de memria influencia no desempenho da placa. No
entanto, preciso entender que, se o fator limitante (o gargalo) da placa a GPU, de nada adianta
adicionar mais memria. preciso ter isso em mente uma vez que muito comum vermos no mercado placas
de vdeo equipadas com GPUs de baixo desempenho e memrias com apenas um canal (64 bits), mas com
quantidades generosas de memria, chegando a aburdos 2 GB. A metade desse valor j seria suficiente para
um chip fraco.
Portanto, no se engane quando algum disser: Tal placa de vdeo boa porque possui 2 GB de
memria. Isso pode no ter qualquer influencia sobre o seu desempenho. Seria como fazer um carro 1.0 com
7 lugares. Encha-o de pessoas, e ele no sair do lugar!
A quantidade da memria inclusa na placa de vdeo algo to secundrio que pode ser at omitido da
comparao, principalmente quando nos referimos aos processadores grficos integrados (vdeo onboard),
low e mid-end.
Mesmo quando falamos em placas de vdeo cujos processadores sejam high-end, a quantidade de
memria ainda um detalhe bem secundrio, j que influencia apenas quando se est operando em alta
resoluo (Full HD, por exemplo) e est se usando recursos como Antialiasing e Anisotropic Filtering em nveis
elevados.

7.6.3 ENTENDENDO AS DENOMINAES/MODELOS DAS PLACAS DE VIDEO


No caso dos processadores Intel, por exemplo, possvel, pelo nome do processador, saber se ele
destinado a um mercado low, mid ou high. Neste caso, tem-se os i3, i5 e i7, respectivamente. E quanto as
GPUs? Bom, a coisa no bem assim. preciso conhecer um pouco de como funcionam as nomenclaturas
adotadas pelos fabricantes, j que elas tendem a seguir uma lgica.

7.6.3.1 AMD: RADEON


Comecemos pela AMD, cuja nomenclatura um pouco mais fcil de entender. Observe, na tabela abaixo,
os modelos dos chips da gerao 6000 da AMD Radeon, divididos pelo seu desempenho:

382

Low-end
6450
6570

Mid-end
6670
6750
6770
6790

High-end
6850
6870

Enthusiast
6950
6970
6990

No difcil observar a lgica dessa nomenclatura. Os chips low-end so os da srie 6400 e 6500. Tem-se
dois exemplos na tabela. Mas, se surgisse um terceiro, denominado 6590, voc poderia de imediato inferir que
se trata de um chip low-end melhorzinho. J as sries 6600 e 6700 so de mdio desempenho e a 6800 de
alto desempenho. Por fim, a srie 6900 para os endinheirados de planto, que esto dispostos a pagar por
volta de R$ 1.500,00 ou mais por uma placa de vdeo.
Para uma descrio mais completa das diferenas entre esses chips, visite:
http://en.wikipedia.org/wiki/Northern_Islands_(GPU_family)

7.6.3.2 NVIDIA: GEFORCE


No mundo da nVidia, as coisas so um pouquinho mais complicadas de serem entendidas. Mas, h uma
lgica por trs das nomenclaturas. Vejamos a tabela comparativa simplificada dos chips da GeForce srie 500:
Low-end
GT 520
GT 530

Mid-end
GT 545 DDR3
GT 545 GDDR5
GTX 550 Ti

High-end
GTX 560
GTX 560 Ti
GTX 570

Enthusiast
GTX 580
GTX 590

Temos aqui uma combinao de prefixo, de um nmero 5xx e adicionalmente algum sufixo. O prefixo GT
indica GPUs de entrada de linha da nVidia, ou seja, baixo a mdio custo, como o caso das GT 520 e GT 530
em baixo custo e das GT 545 (DDR3 e GDDR5) em mdio custo. As vezes, como se deu no caso da gerao 400
(anterior), o prefixo GTS tambm usado indicando mdio desempenho. J o prefixo GTX atribudo a placas,
no mnimo, Mid-end mais avanadas e especialmente High-end. Ou seja, tanto o nmero cresce quanto o
prefixo muda. O Ti, no caso das GTX 560 Ti indica que ela um pouco melhor que a GTX 560 normal (no-Ti).
Para uma descrio mais completa das diferenas entre esses chips, visite:
http://en.wikipedia.org/wiki/GeForce_500_Series

7.6.4 DIFICIL COMPARAR ARQUITETURAS DIFERENTES


Vimos que, no caso dos processadores da Intel e AMD tem muita coisa em comum, j que ambas precisam
manter a compatibilidade com os programas escritos para as arquiteturas x86 e x64. No entanto, visando se
destacar (seja no custo, velocidade, frequncia, etc.) elas tomam determinadas decises de projeto que so
diferentes umas das outras. Voc deve estar se lembrando, por exemplo, das diferenas entre os pipelines dos
processadores da Intel e da AMD na poca do Pentium 4. Muitas dessas decises tem srio impacto sobre o
desempenho do chip.
Pois bem, no caso das GPUs a coisa no diferente. Apesar de terem a obrigao de manterem
compatibilidade com o DirectX e OpenGL, por exemplo, e serem capazes de processarem Shaders, Antialiasing,
Filtragem Anisotrpica, etc, no significa dizer que os projetos de cada uma das empresas parecido.
As diferenas ficaram ainda maiores na poca em que o AMD R600 (sries HD 2xxx e HD 3xxx) foi lanado.
Ele era o concorrente direto do nVidia G80 (GeForce 8xxx). Ambos so baseados numa arquitetura de shaders
unificados. Internamente, o R600 composto por 320 unidades de processamento, agrupados em 64 clusters
(com 5 unidades cada um) e utiliza um barramento com a memria de generosos 512 bits (8 canais de 64 bits).
383

A primeira vista, pode parecer que o R600 muito mais poderoso que o G80, j que ele possui apenas 128
stream processors e utiliza um barramento de apenas 384 bits (6 canais de 64 bits), mas a arquitetura interna
dos dois chips bastante diferente, de forma que a comparao no to simples.
Em primeiro lugar, as unidades de processamento usadas no R600 so muito mais simples do que os
stream processors usados no G80 e justamente por isso eles esto presentes em um nmero to maior. Dentro
de cada cluster, temos 4 stream processors capazes de processar apenas instrues simples e uma nica
unidade capaz de processar instrues complexas, diferente da arquitetura da nVidia, onde todos os stream
processors podem processar tanto instrues simples quanto instrues complexas. Isso faz com que o
desempenho dos dois chips varie muito de acordo com o tipo de instruo predominantemente usadas em
cada situao.
Outra questo importante que as unidades de processamento do G80 trabalham ao dobro ou mais do
clock da GPU, enquanto que no R600 eles operam na mesma frequncia do restante do chip. A grande
diferena na frequncia na frequncia de operao acaba revertendo a vantagem que o R600 teria com
relao ao processamento bruto e faz com que, na maioria das aplicaes, o G80 seja mais rpido
(considerando duas placas com GPU operando mesma frequncia e com o mesmo tipo de memria). Apesar
disso, a AMD conseguiu equilibrar as coisas fazendo com que o R600 atingisse frequncias mais altas e
reduzindo os preos.
No ano seguinte, a AMD lanou o RV770 (HD 48xx), concorrente direto do GT200 (GeForce srie 200). O
RV770 possuia 800 unidades de processamento, tambm agrupadas em clusters de 5 stream processors, onde
4 deles executam apenas instrues simples (soma) e 1 unidade que pode processar operaes complexas
(somas e multiplicaes de dupla preciso). As 5 unidades de processamento de cada cluster compartilham o
mesmo bloco de registradores, operando essencialmente como uma nica unidade.
As 5 unidades dentro de cada cluster precisam obrigatoriamente trabalhar em instrues dentro da
mesma thread (unidades de execuo menores em que os processos so divididos), o que faz com que o
desempenho em relao s placas da nVidia varie bastante, de acordo com o tipo de processamento e o nvel
de otimizao do software (nesse ponto voc pode observar como um driver bem otimizado para um
determinado jogo pode fazer diferena). Em resumo, temos situaes em que cada cluster processa uma nica
instruo por ciclo (pior cenrio) e situaes em que cada um processa 5 instrues por ciclo.

7.6.5 UMA FORMA SEGURA DE CONHECER O DESEMPENHO DE UMA PLACA DE VIDEO


Diante do exposto na seo passada, voc pode estar se perguntando: Mas... e ento, qual das duas
abordagens melhor? E a resposta a clssica: Depende!
Por isso, apesar de estudar as caractersticas internas de cada chip, bem como a quantidade stream
processors, ROPs, TMUs, e etc, ser de grande ajuda, eles so um parmetro razovel apenas dentro de uma
mesma arquitetura. Definitivamente, a maneira mais segura de conhecer o desempenho de uma placa de
vdeo analisando comparativos com testes feitos na prtica. Tais testes podem ser sintticos (softwares
especialmente desenvolvidos para testar o desempenho do chip, como o 3DMark) e/ou reais (com diferentes
jogos nas mais diversas situaes e ajustes de qualidade possveis). Tais testes, chamados em ingls de
reviews, o mais prximo do conhecimento real da performance da placa que voc poder chegar, quando
estiver em dvida de qual placa de vdeo escolher.
Nas referncias bibliogrficas dessa apostila voc poder conhecer muitos desses sites. Mas nada como
uma simples busca no Google por review placa X...

384

7.6.6 SEMPRE ANALISE A GERAO ATUAL E A ANTERIOR


Eis aqui um dica muito imporante: Sempre analise a gerao atual e no mnimo a gerao (arquitetura)
anterior! Mas, por qu? O motivo simples: No pelo fato de uma placa possuir um chip da gerao atual
que ela supera em desempenho os chips de uma gerao anterior. Por exemplo, um chip mid-end (mdio
desempenho) da gerao anterior vai dar uma surra em qualquer chip low-end de uma gerao atual.
Normamente, os fabricantes vo lanando chips novos que passam a ocupar o mesmo nicho de outros chips
da gerao anterior. No entanto, muitas placas j se encontram no mercado e levaro um bom tempo para
desaparecerem, mesmo que o fabricante resolva no mais produzir tais chips mais antigos (o que no
acontece de imediato).
Vamos a um grfico comparando vrias GPUs, exibindo o nmero de fps (frames por segundo).
Crysis: Warhead - DirectX 10 - 1680 x 1050
Frost Bench - Gamer Quality + Enthusiast Shaders + 4xAA
No grfico ao lado, esto listadas 20
GPUs diferentes, tanto da nVidia quanto
da AMD. Tenha em mente que essa
avaliao de desempenho vlida apenas
para o jogo em questo e nas condies
mencionadas. No entanto, uma nica
anlise suficiente para mostrarmos a
ideia dessa seo.
Observe que existem diversas GPUs de
nova gerao (Radeon HD 6000 e GeForce
500) sendo superadas por modelos da
gerao anterior (Radeon HD 5000 e
GeForce 400). Exemplos:
Uma Radeon HD 5870 26% mais
rpida que uma HD 6850, mesmo sendo as
duas consideradas modelos High-end.
Uma GeForce GTX 480 superando
uma GTX 560 Ti por uma margem de 16%.
Anlises desse tipo so tambm
interessantes a fim de analisarmos a
equivalncia entre GPUs de fabricantes
diferentes, conforme comentado na seo
7.6.4.
Em outros cenrios (DirectX 11, outras
resolues, Antialiasing, etc) e/ou com
outros jogos, essa ordem pode mudar
significativamente. Por isso importante
uma anlise mais ponderada, e no levar
em considerao apenas um caso pontual.
Grficos comparativos personalizados
podem ser gerados em:
www.anandtech.com/bench/
385

7.6.7 EM RESUMO: DICAS AO ESCOLHER UMA PLACA DE VIDEO


Diante de tudo o que vimos anteriormente, podemos sintetizar alguns aspectos importantes.
Aspectos gerais:

Tenha em mente a faixa de preo da placa de vdeo desejada. Por exemplo: Quero uma placa de
vdeo entre R$ 400 e R$ 600 (mdio desempenho)

Faa uma pesquisa em diversas lojas/vendedores em busca de placas tanto da AMD quando da nVidia
nessa faixa de preo (isso se voc no tiver uma pr-preferncia entre as duas).

De posse de todos os modelos listados, dentro da sua faixa de aquisio, busque reviews na internet
que comparam essas placas, como mencionado anteriormente. Busque tambm experincias de
outros
usurios
em
fruns
de
discusso
especializados,
como
em
http://forum.clubedohardware.com.br/placas-video/f117.

No despreze o fabricante de placa de vdeo. Bons fabricantes (como Asus, MSI, Gigabyte, etc.) em
geral so levemente mais caros, mas oferecem um projeto superior (melhor dissipao trmica, rudos,
vida til mais longa, etc.).

Aspectos tcnicos:

Caractersticas inovadoras das placas de gerao mais nova, talvez alguma delas seja interessante para
voc em detrimento de um desempenho levemente inferior. Isso aconteceu recentemente com a
transio para o DirectX 11.

Para placas de uma mesma arquitetura, compare o nmero de stream processors e ROPs, bem como
frequncia da GPU e memrias, tipo de memria, quantidade de bits de acesso memria.

No deixe de levar em considerao o consumo da placa de vdeo, pois isso pode implicar na
obrigatoriedade de adquirir uma nova fonte de alimentao (mais potente).

386

EXERCCIOS
1) Como eram as placas de vdeo bem no incio dos computadores pessoais? Como foram evoluindo at
chegarem onde esto hoje?
2) Justifique por que um processador no consegue fazer um bom trabalho com grficos 3D assim como uma
placa de vdeo 3D.
3) Qual um dos principais fatores que limitam o desempenho dos chips de vdeo onboard?
4) O que vem a ser o termo FPS? Teria um mnimo aceitvel? De maneira geral, cite alguns dos principais
fatores que afetam este valor.
5) Como acontece o efeito conhecido como tearing? possvel evita-lo? Como?
6) O que uma GPU? Seu clock importante?
7) O fill rate de uma placa um indicativo de que?
8) O que um shader? Por que eles surgiram (em outras palavras, que quais as mudanas que provocaram)?
9) Quais so os trs tipos de shaders?
10) O que so os stream processors?
11) Qual o papel das unidades TMU e ROP?
12) No que diz respeito as memrias das placas 3D, como fundamentalmente possvel aumentar sua taxa de
transferncia (GPU Memria)? Quais as dificuldades disso e que influncia tem isso sobre o preo da
placa?
13) Explique o que so e para que servem os efeitos: Antialiasing e Anisotropic Filtering.
14) De maneira geral, para que servem os recursos SLI e CrossFire?
15) O que uma API Grfica? No que elas facilitam a vida do programador?
16) OpenGL e Direct3D (DirectX) so compatveis entre si? Explique.
17) Em se tratando do DirectX, comente sobre as verses 9.0c, 10.x e 11 em relao aos respectivos sistemas
operacionais em que rodam. Como isso influencia o mercado de jogos? Explique.
18) O que vem a serem as APIs destinadas fsica?
19) Por que to difcil escolher uma placa de vdeo nos dias de hoje?
20) Quando a AMD/nVidia lanam uma nova arquitetura, como fazem para diferenciar os chips que equipam
as diversas placas de vdeo da mesma arquitetura? Como essa diferenciao implica em custo e
desempenho?

387

21) Explique por que a quantidade de memria, muitas vezes a caracterstica mais evidenciada pelo marketing,
no o fator determinante para o desempenho (na maioria dos casos)?
22) H alguma lgica por trs dos nomes/modelos dos chips de vdeo? Explique.
23) Quem melhor, AMD ou nVidia? Explique.
24) Qual a forma mais segura de se conhecer o desempenho real de uma placa de vdeo?
25) Placas de vdeo equipadas com chips da ltima gerao so sempre melhores? Explique.

388

REFERNCIAS IMPORTANTES

Guia do Hardware, www.hardware.com.br

Lgica Temporizada, http://wwwusers.rdc.puc-rio.br/rmano/comp0clk.html, <acessado em 20/02/2011>

Anandtech, http://www.anandtech.com/

Toms Hardware, http://www.tomshardware.com/

Guru 3D, http://www.guru3d.com/

Clube do Hardware, http://www.clubedohardware.com.br/

Frum PCs, http://www.forumpcs.com.br

389

HISTRICO DE VERSES
[2011-11-11] v1.0.0

Verso Inicial

[2012-11-19] v1.2.0

Captulo sobre processadores completamente reestruturado. Os assuntos sobre


processadores muito antigos foram abreviados e foram adicionados assuntos
sobre as novas arquiteturas.

Demais ajustes menores em outros captulos

[2013-10-07] v1.3.0

Adicionadas informaes
gerao (Haswell).

sobre

os

processadores

Intel

Core

de

quarta

390

Você também pode gostar