Você está na página 1de 52

Processadores

Caractersticas e recursos dos processadores


Conhea as caractersticas e recursos dos vrios modelos de processadores, desde o 8088, usado no vov XT, at as prximas geraes de processadores de 64 bits. Tutorial dividido em 4 partes. Apesar do processador ser o componente mais importante do micro, j que ele quem processa quase todas as informaes, ele no necessariamente o maior responsvel pelo desempenho. Na verdade, dependendo da aplicao qual o micro se destina, o desempenho do processador pode ser menos importante que a quantidade de memria RAM, que o desempenho da placa de vdeo 3D, ou at mesmo que o desempenho do disco rgido. Tenha em mente que o computador um conjunto, cada componente depende dos demais para mostrar o seu potencial. Dizemos que um micro to rpido quanto seu componente mais lento. Como estamos falando de um conjunto, apenas um componente que apresente uma baixa performance ser suficiente para colocar tudo a perder. Assim como vemos em outras situaes, num carro por exemplo, onde um simples pneu furado pode deixar o carro parado na estrada. Se o micro tiver pouca memria RAM por exemplo, o sistema operacional ser obrigado a usar memria virtual, limitando a performance ao desempenho do disco rgido, que centenas de vezes mais lento que ela. Caso o micro no possua memria cache, o desempenho ficar limitado ao desempenho da memria RAM, que muito mais lenta que o processador e por a vai. Dizemos neste caso, que o componente de baixo desempenho um gargalo, pois impede que o conjunto manifeste todo o seu potencial. s vezes, simplesmente aumentar a quantidade de memria RAM, operao que custa relativamente pouco, capaz de multiplicar a velocidade do micro. Mas, apesar de tudo, o processador ainda o componente bsico de qualquer PC. Com o avano cada vez mais rpido da tecnologia, e vrias empresas disputando o mercado, os projetistas vem sendo obrigados a desenvolver projetos cada vez mais ousados a fim de produzir os processadores com o melhor desempenho. Isso excelente para ns, mas tambm pode trazer armadilhas, j que com projetos to diferentes, cada processador acaba saindo-se bem em algumas aplicaes, mas muito mal em outras. No d para julgar o desempenho do processador apenas pela frequncia de operao, como fazamos na poca do 486, os tempos mudaram. Mas, j que est aqui, que tal conhecermos os avanos pelos quais os processadores passaram at chegar aos dias de hoje? Vamos discutir primeiro algumas caractersticas bsicas dos processadores, conhecer os pioneiros da dcada de 70 e avanar pelos anos 80 e 90, at chegar nos dias de hoje. Aperte os cintos :-) Caractersticas Bsicas dos processadores modernos

Existem no mercado vrios modelos de processadores, que apresentam preos e desempenho bem diferentes. Este tpico inicial se destina a estabelecer os diferenciais bsicos que determinam a performance de um processador, a parte terica que vai lhe ajudar a compreender a diferena entre os processadores que vamos examinar com detalhes mais adiante. Quando vamos comprar um processador, a primeira coisa que perguntamos qual sua frequncia de operao, medida em Megahertz (MHz) ou milhes de ciclos por segundo, frequncia tambm chamada de clock. Acontece, que nem sempre um processador com uma velocidade de operao mais alta mais rpido do que outro que opera a uma frequncia um pouco mais baixa. A frequncia de operao de um processador indica apenas quantos ciclos de processamentos so realizados por segundo, o que cada processador capaz de fazer em cada ciclo j outra histria. Imagine um processador 486 de 100 MHz, ao lado de um Pentium tambm de 100 MHz. Apesar da frequncia de operao ser a mesma, o 486 perderia feio em desempenho. Na prtica, o Pentium seria pelo menos 2 vezes mais rpido. Isto acontece devido diferenas na arquitetura dos processadores e tambm no coprocessador aritmtico e cache. Coprocessador aritmtico Todos os processadores da famlia x86, usada em micros PC, so basicamente processadores de nmeros inteiros. Muitos aplicativos porm, precisam utilizar valores de maior preciso, assim como funes matemticas complexas, como Seno, Coseno, Tangente, etc., para realizar suas tarefas. Este o caso dos programas de CAD, planilhas, jogos com grficos tridimensionais e de processamento de imagens em geral. A funo do coprocessador aritmtico justamente auxiliar o processador principal no clculo destas funes complexas, cada vez mais utilizadas, principalmente em jogos. como um matemtico profissional que ajuda o processador a resolver os problemas mais complexos, que ele demoraria muito para resolver sozinho. At o 386, o coprocessador era apenas um acessrio que podia ser comprado parte e instalado num encaixe apropriado da placa me, sendo que cada modelo de processador possua um modelo equivalente de coprocessador. O 8088 utilizava o 8087, o 286 o 287, o 386SX e 386DX utilizavam respectivamente o 387SX e o 387DX e o 486SX utilizava 487DX. O problema nesta estratgia que como poucos usurios equipavam seus micros com coprocessadores aritmticos, a produo destes chips era baixa, e consequentemente os preos eram altssimos, chegando ao ponto de em alguns casos o coprocessador custar mais caro que o processador principal. Com o aumento do nmero de aplicativos que necessitavam do coprocessador, sua incorporao ao processador principal apartir do 486DX foi um passo natural. Com isso, resolveu-se tambm o problema do custo de produo dos coprocessadores, barateando o conjunto. Atualmente, o desempenho do coprocessador determina o desempenho do micro em jogos e aplicativos grficos em geral, justamente as aplicaes onde os processadores atuais so mais exigidos. Infelizmente, o desempenho do coprocessador uma caracterstica que varia muito entre os processadores atuais. Encaixe para o coprocessador aritmtico

Memria Cache Enquanto os processadores tornaram-se quase 10 mil vezes mais rpidos desde o 8088 (o processador usado no XT), a memria RAM, sua principal ferramenta de trabalho, pouco evoluiu em performance. Quando foram lanados os processadores 386, percebeu-se que as memrias no eram mais capazes de acompanhar o processador em velocidade, fazendo com que muitas vezes ele tivesse que ficar esperando os dados serem liberados pela memria RAM para poder concluir suas tarefas, perdendo muito em desempenho.

Se na poca do 386 a velocidade das memrias j era um fator limitante, imagine o quanto este problema no atrapalharia o desempenho dos processadores que temos atualmente. Para solucionar este problema, comeou a ser usada a memria cache, um tipo ultra-rpido de memria que serve para armazenar os dados mais frequentemente usados pelo processador, evitando na maioria das vezes que ele tenha que recorrer comparativamente lenta memria RAM. Sem ela, o desempenho do sistema ficar limitado velocidade da memria, podendo cair em at 95%!. So usados dois tipos de cache, chamados de cache primrio, ou cache L1 (level 1), e cache secundrio, ou cache L2 (level 2). O cache primrio embutido no prprio processador e rpido o bastante para acompanh-lo em velocidade. Sempre que um novo processador desenvolvido, preciso desenvolver tambm um tipo mais rpido de memria cache para acompanh-lo. Como este tipo de memria extremamente caro (chega a ser algumas centenas de vezes mais cara que a memria RAM convencional) usamos apenas uma pequena quantidade dela. O 486 traz apenas 8 KB, o Pentium traz 16 KB, enquanto o Pentium II e o Pentium III trazem 32 KB, enquanto o Athlon e o Duron da AMD trazem 128 KB. Para complementar, usamos tambm um tipo um pouco mais lento de memria cache na forma do cache secundrio, que por ser muito mais barato, permite que seja usada uma quantidade muito maior. Nos micros 486 o mais comum o uso de 128 ou 256 KB de cache L2, enquanto nos micros mais modernos o mais comum o uso de 512 KB. Dependendo do processador usado, o cache L2 pode vir embutido no prprio processador ou fazer parte da placa me. Sempre que o processador precisar ler dados, os procurar primeiro no cache L1. Caso o dado seja encontrado, o processador no perder tempo, j que o cache primrio funciona na mesma frequncia que ele. Caso o dado no esteja no cache L1, ento o prximo a ser indagado ser o cache L2. Encontrando o que procura no cache secundrio, o processador j perder algum tempo, mas no tanto quanto perderia caso precisasse acessar diretamente a memria RAM. Por outro lado, caso os dados no estejam em nenhum dos dois caches, no restar outra sada seno perder vrios ciclos de processamento esperando que eles sejam entregues pela lenta memria RAM. Para exemplificar, imagine que voc estivesse escrevendo um e-mail e derrepente precisasse de uma informao que voc havia anotado em um papel. Se o papel estivesse sobre sua mesa, voc poderia l-lo sem perder tempo. Se estivesse dentro de uma gaveta da sua mesa, j seria necessrio algum tempo para encontr-lo enquanto se ele estivesse perdido em algum lugar de um enorme fichrio do outro lado da sala, seria preciso um tempo enorme. Antigamente, era comum as placas mes virem com soquetes apropriados, que permitiam ao usurio adicionar mais memria cache caso quisesse. Os mdulos adicionais, chamados de mdulos COAST (cache on a stick) eram relativamente acessveis, levando muita gente a fazer o upgrade. Entretanto, atualmente esta possibilidade no existe mais, pois a grande maioria dos processadores j trazem o cache L2 integrado, no permitindo qualquer modificao, j que no d para abrir o processador e soldar mais cache. Mesmo no caso de processadores que ainda usam cache embutido na placa me, como o K6-2, no existe mais o encaixe para adicionar mais cache. Ou seja, atualmente a quantidade de cache que voc deseja no processador ou placa me deve ser decidida antes da compra, baseado nas opes disponveis. Uma vez adquiridos o processador e a placa me no ser possvel fazer qualquer alterao. Processadores RISC X Processadores CISC Sempre houve uma grande polmica em torno de qual dessas plataformas melhor. Talvez voc ache intil eu estar falando sobre isto aqui, mas interessante que voc compreenda a diferena entre estas duas plataformas, para entender vrios aspectos dos processadores modernos.

Um processador CISC (Complex Instruction Set Computer, ou computador com um conjunto complexo de instrues), capaz de executar vrias centenas de instrues complexas diferentes, sendo extremamente verstil. Exemplos de processadores CISC so o 386 e o 486.

No comeo da dcada de 80, a tendncia era construir chips com conjuntos de instrues cada vez mais complexos. Alguns fabricantes porm, resolveram seguir o caminho oposto, criando o padro RISC (Reduced Instruction Set Computer, ou computador com um conjunto reduzido de instrues). Ao contrrio dos complexos CISC, os processadores RISC so capazes de executar apenas algumas poucas instrues simples. Justamente por isso, os chips baseados nesta arquitetura so mais simples e muito mais baratos. Outra vantagem dos processadores RISC, que, por terem um menor nmero de circuitos internos, podem trabalhar a frequncias mais altas. Um exemplo so os processadores Alpha, que em 97 j operavam a 600 MHz.

Pode parecer estranho que um chip que capaz de executar algumas poucas instrues, possa ser considerado por muitos, mais rpido do que outro que executa centenas delas, seria como comparar um professor de matemtica com algum que sabe apenas as quatro operaes. Mas, um processador RISC capaz de executar tais instrues muito mais rapidamente. A idia principal, que apesar de um processador CISC ser capaz de executar centenas de instrues diferentes, apenas algumas so usadas frequentemente. Poderamos ento criar um processador otimizado para executar apenas estas instrues simples que so mais usadas. Como de qualquer forma, pouca gente programa diretamente em Assembly, bastaria alterar os compiladores, para que os programas fossem compatveis com os novos processadores.

indiscutvel, porm, que em muitas tarefas os processadores CISC saem-se melhor, principalmente pelo seu grande nmero de recursos. Por isso, ao invs da vitria de uma das duas tecnologias, atualmente vemos processadores hbridos, que so essencialmente processadores CISC, mas incorporam muitos recursos encontrados nos processadores RISC (ou vice-versa).

Apesar de por questes de Marketing, muitos fabricantes ainda venderem seus chips, como sendo Processadores RISC, no existe praticamente nenhum processador atualmente que siga estritamente uma das duas filosofias. Tanto processadores da famlia x86, como o Pentium II, Pentium III e AMD Athlon, quanto processadores supostamente RISC, como o MIPS R10000 e o HP PA-8000 misturam caractersticas das duas arquiteturas, por simples questo de performance. Por que ficar de um lado ou de outro, se possvel juntar o melhor dos dois mundos? A ltima coisa que os fabricantes de processadores so teimosos, sempre que aparece uma soluo melhor, a antiga e abandonada.

Examinando de um ponto de vista um pouco mais prtico, a vantagem de uma arquitetura CISC que j temos muitas das instrues guardadas no prprio processador, o que facilita o trabalho dos programadores, que j dispe de praticamente todas as instrues que sero usadas em seus programas. No caso de um chip estritamente RISC, o programador j teria um pouco mais de trabalho, pois como disporia apenas de instrues simples, teria sempre que combinar vrias instrues sempre que precisasse executar alguma tarefa mais complexa. Seria mais ou menos como se voc tivesse duas pessoas, uma utilizando uma calculadora comum, e outra utilizando uma calculadora cientifica. Enquanto estivessem sendo resolvidos apenas clculos simples, de soma, subtrao, etc. quem estivesse com a calculadora simples poderia at se sair melhor, mas ao executar clculos mais complicados, a pessoa com a calculadora cientfica disporia de mais recursos.

Nos chips atuais, que so na verdade misturas das duas arquiteturas, juntamos as duas coisas. Internamente, o processador processa apenas instrues simples. Estas instrues internas, variam de processador para processador, so como uma luva, que se adapta ao projeto do chip. As instrues internas de um K6 so diferentes das de um Pentium por exemplo. Sobre estas instrues internas, temos um circuito decodificador, que converte as instrues complexas utilizadas pelos programas em vrias instrues simples que podem ser entendidas pelo processador. Estas instrues complexas sim, so iguais em todos os processadores usados em micros PC. isso que permite que um K6 e um Pentium sejam compatveis entre s.

O conjunto bsico de instrues usadas em micros PC chamado de conjunto x86. Este conjunto composto por um total de 187 instrues, que so as utilizadas por todos os programas. Alm deste

conjunto principal, alguns processadores trazem tambm instrues alternativas, que permitem aos programas executar algumas tarefas mais rapidamente do que seria possvel usando as instrues x86 padro. Alguns exemplos de conjuntos alternativos de instrues so o MMX (usado apartir do Pentium MMX), o 3D-NOW! (usado pelos processadores da AMD, apartir do K6-2), e o SSE (suportado pelo Pentium III). PCs x Macs Continuando na discusso de processadores RISC e CISC, vamos estudar um pouco sobre a arquitetura de dois processadores atuais, o G4, utilizado nos micros Macintosh e o AMD Athlon, usado em micros PC. Existe uma idia geral de que o G4, usado nos Macs um processador RISC, enquanto os processadores usados em micros PC, incluindo o Pentium III e o Athlon so todos CISC. Ambas as afirmaes esto erradas. Na verdade, tanto o G4, quanto o Athlon e o Pentium III so considerados processadores Post-RISC, processadores que possuem um conjunto de instrues gigantesco, maior do que o conjunto de instrues de um processador CISC tpico. A diferena que toda essa gigantesca gama de instrues diferentes, podem ser decodificadas em instrues RISC simples, estas sim que sero processadas. A converso das instrues feita por um componente especial do processador, chamado de Hardware Decoder, encontrado tanto no G4 quanto no Athlon. O G4 possui um enorme conjunto de instrues, assim como os processadores x86, mas todas instrues que podem ser convertidas pelo Hardware decoder e em seguida processadas. O Hardware Decoder extremamente rpido, por isso no compromete o desempenho do processador. De fato, a perda de desempenho por usar este grande conjunto de instrues que precisam ser quebradas em instrues menores de menos de 1%. por isso que os processadores atuais abandonaram a idia RISC original: a perda de desempenho nfima perto do ganho de flexibilidade. O Athlon por sua vez, tem que poderia ser usado em micros PC. As instrues simples, que podem ser tempo, e as instrues complexas, chamado Microcode decoder. ser compatvel com o conjunto de instrues x86, caso contrrio no instrues x86 consistem em basicamente dois tipos de instrues, as diretamente processadas pelo Hardware decoder, sem perda de que so quebradas em instrues simples por outro componente,

As instrues simples, que podem ser diretamente processadas, so as mais frequentemente usadas nos programas. De fato, num programa atual tpico, composto de entre 95 e 97% destas instrues simples. O restante so as instrues complexas, que apesar de raramente usadas so as que do mais trabalho, pois precisam passar por um processo de decodificao muito mais lento, feito pelo Microcode Decoder. Para amenizar este problema, a AMD incluiu um buffer de pr extrao no Athlon, que funciona como uma espcie de fila por onde as instrues j decodificadas passam antes de ser processadas. Graas a isto, o processador pode processar outras instrues enquanto aguarda o Microcode Decoder decodificar cada instruo complexa, sem perder muito tempo. Com isto, mesmo mantendo compatibilidade com o conjunto de instrues x86, o Athlon perde muito pouco em desempenho em relao ao G4, isto naturalmente comparando dois processadores de mesma frequncia. O IPC, ou seja, o nmero de instrues processadas por ciclo de ambos muito prximo, o que garante que um Athlon de 500 MHz apresente um desempenho muito parecido com um G4 tambm de 500 MHz. Front End e Back End Qualquer processador atual pode ser dividido em dois blocos bsicos, o Front End e o Back End. O Front End corresponde aos circuitos que decodificam as instrues, no caso o Hardware decoder, Microcode decoder e buffer de pr extrao que acabei de explicar, junto com mais alguns componentes, como os circuitos de Branch Prediction (que ordenam as instrues de forma que o

processador possa processador o maior nmero possvel de instrues por ciclo e o cache L1. Estes componentes so a porta de entrada do processador, tendo a funo de preparar as instrues para serem processadas. O Back End a parte do processador que finalmente processa as instrues, sendo composto basicamente pelas unidades de execuo. Como vimos, o fato como ambos os processadores decodificam as instrues, contando com o Hardware decoder bastante semelhante, mas o Athlon possui alguns componentes a mais para garantir compatibilidade com as instrues x86. Isto no atrapalha o desempenho do processador, mas o torna um projeto mais complexo. Em termos de unidades de execuo, ou seja, o Back End, que os processadores mostram mais algumas diferenas na forma como processam as instrues j decodificadas. O Athlon possui um total de 9 unidades de execuo, enquanto o G4 possui apenas 6. A diferena parece grande, mas na prtica o desempenho quase o mesmo, veja por que: O Athlon possui 3 unidades de execuo para leitura/gravao de dados na memria, enquanto o G4 possui apenas uma. O ponto que todas as instrues, tanto de inteiros, quanto de ponto flutuante no Athlon, vem com um espao reservado para uma instruo de leitura/gravao, espao que nem sempre preenchido, fazendo com que as 3 unidades fiquem ociosas na maior parte do tempo, apesar de agilizarem algo de vez em quando. No G4, s existe uma unidade de leitura/gravao, mas que em compensao fica ocupada na maior parte do tempo. Na prtica, esta nica unidade acaba fazendo o mesmo volume de trabalho das trs do Athlon, que ficam boa parte do tempo ociosas. Sem dvida, o G4 perde alguma coisa em termos de desempenho, mas muito pouco.

Em termos de unidades de execuo de inteiros e de ponto flutuante, que so as mais importantes, temos especificaes parecidas em ambos: O Athlon possui trs unidades de ponto flutuante (que formam o coprocessador aritmtico), o mesmo nmero encontrado no G4. Apenas para efeito de comparao, o Pentium 3 possui apenas duas. Com o mesmo nmero de unidades, o desempenho dos dois processadores no quesito ponto flutuante quase igual. J em termos de unidades de processamento de inteiros, o cenrio muda um pouco de figura, pois o Athlon possui trs unidades de execuo contra apenas duas do G4. Isto garante que o Athlon tenha um desempenho um pouco melhor que o G4 em aplicativos de escritrios, mas a diferena pequena, pois o desempenho real tambm depende do cache, velocidade de acesso memria, etc. Em termos de instrues 3D, o Athlon conta com o 3D-Now, o famoso conjunto de instrues, embutido nos processadores AMD que permite melhorar o desempenho do processador em jogos e aplicativos 3D. O Athlon traz tambm o velho MMX, que garante algum ganho em aplicativos multimdia. O G4 por sua vez traz um conjunto unificado, o Altivec, que inclui tanto instrues 3D (como no 3DNow!), quanto instrues multimdia (como no MMX), isto garante que tanto o Athlon quanto o G4 possuam armas semelhantes neste quesito, o resto fica por conta dos programadores. Do 8086 ao Pentium MMX O primeiro microprocessador foi lanado pela Intel em 1971 e se chamava i4004. Este era um processador extremamente simples, formado por pouco mais de 2000 transstores, mas que foi o precursor dos processadores que temos atualmente. A chamada lei de Moore, que leva o nome do fundador da Intel, Gordon Moore, prega que a potncia dos processadores dobra a cada 18 meses. Apesar desta previso ter sido feita no final da dcada de 70, continuou mantendo-se verdadeira at os dias de hoje, com uma preciso notvel.

De l pra c, foi um longo caminho. Enormes investimentos foram feitos e muitos dos maiores gnios do planeta trabalharam em busca de solues para questes cada vez mais complexas. Vamos agora examinar os avanos feitos desde o 8088, usado no XT, at o Pentium, onde estudaremos quando e porque recursos como o modo protegido e a multiplicao de clock foram introduzidos, e no que eles afetam o funcionamento do processador. Entendendo estes conceitos, voc poder facilmente entender as diferenas entre os processadores Pentium III, Athlon, K6-3 etc. que temos atualmente e veremos com mais detalhes adiante, assim como dos processadores que vierem a ser lanados futuramente que, pode ter certeza, continuaro utilizando os mesmos conceitos bsicos. 8088 O 8088 era na verdade uma verso econmica do processador 8086, que havia sido lanado pela Intel em 78. Quando a IBM estava desenvolvendo seu computador pessoal, chegou a ser cogitado o uso do 8086, mas acabou sendo escolhido o 8088 devido ao seu baixo custo. Tanto o 8086 quanto o 8088 so processadores de 16 bits e eram considerados avanadssimos para a poca, apesar de serem extremamente simples para os padres atuais. A diferena entre eles que o 8088, apesar de internamente trabalhar com palavras binrias de 16 bits, usava um barramento de apenas 8 bits, o que permitiu IBM utilizar os mesmos componentes usados nos computadores de 8 bits da poca, que eram muito mais baratos do que os perifricos de 16 bits. Esta arquitetura permitiu ao primeiro PC competir na mesma faixa de preo dos computadores de 8 bits mais populares e, ao mesmo tempo, possuir um desempenho bem superior devido ao seu processador de 16 bits. O 8088 capaz de acessar at 1 MB de memria RAM, e funciona a 4.77 MHz, recursos incrveis para a poca, j que estamos falando de um processador lanado no final de 1979. Falando em recursos, s para matar sua curiosidade, o PC original da IBM, lanado em Agosto de 1981 possua apenas 64 KB de memria RAM (a verso mais simples vinha com apenas 16 KB), monitor MDA mono de 12 polegadas, usava uma unidade de disquetes de 5 1/4 de apenas 160 KB e vinha sem disco rgido. O sistema operacional usado era o MS-DOS 1.0 (na poca ainda chamado de PC-DOS), que foi desenvolvido pela Microsoft com base num sistema operacional mais simples, chamado QDOS, comprado da Seattle Computers, uma pequena empresa desenvolvedora de sistemas. Na verdade, a Microsoft foi a segunda opo da IBM, depois de ter sua proposta de licena recusada pela Digital Research, que na poca desenvolvia verses do seu CP/M para vrias arquiteturas diferentes. Dois anos depois, foi lanado o PC XT, que apesar de continuar usando o 8088 de 4.77 MHz, vinha bem mais incrementado, com 256 KB de RAM, disco rgido de 10 MB, monitor CGA e o MS-DOS 2.0. Mesmo com o surgimento dos micros 286, o XT ainda continuou sendo bastante vendido, pois era mais barato. Fabricantes de clones criaram projetos de micros XTs mais avanados, equipados com processadores 8088 de 8 MHz, discos rgidos maiores e at 640 KB de memria RAM. Segmentao de Endereos Um recurso bem interessante, usado no 8088, a segmentao de endereos, que permitiu aumentar a quantidade de memria RAM suportada pelo processador. Para que o processador possa acessar a memria RAM, preciso que a memria seja dividida em endereos. Cada byte depositado na memria recebe um endereo nico, assim como cada rua do Brasil tem um CEP diferente. Como o 8088 pode lidar apenas com palavras binrias de 16 bits, a princpio no seria possvel para ele acessar mais do que 64 Kbytes de memria RAM, j que 16 bits permitem apenas 65,536 combinaes diferentes (2 elevado 16 potncia). Se o 8088 pudesse acessar apenas 64 KB de memria RAM, os micros baseados nele seriam muito limitados e poderiam apenas rodar programas muito simples. Para voc ter uma idia, 64 KB no dariam nem mesmo para carregar o DOS 3.0. Para solucionar este problema, foi adotada uma soluo bastante engenhosa: apesar do processador continuar podendo acessar apenas 64 KB de memria de cada vez, foram criados mais 4 bits de endereamento, que permitem o acesso a 16 blocos de memria. Como cada bloco possui 64 KB,

chegamos a 1 MB inteiro de capacidade total. Basicamente criamos 16 reas diferentes de memria, cada uma com 64 KB, que o mximo que o 8088 pode enderear. O processador pode acessar uma nica rea de cada vez. Se por exemplo, est sendo usado o bloco 1, e de repente preciso ler um dado gravado no bloco 2, preciso limpar todos os endereos relativos ao bloco 1 e carregar os endereos do bloco 2. Neste momento, o processador perde o acesso ao bloco 1 e passa a enxergar apenas o segundo bloco. Quando novamente for preciso ler ou gravar dados no bloco 1 (ou qualquer outro bloco), novamente so carregados os endereos relativos a ele, e o acesso ao bloco 2 ser perdido. mais ou menos como se voc precisasse fazer anotaes em vrias pginas de um caderno. Como s possvel ler ou escrever em uma pgina de cada vez, voc precisaria ficar continuamente virando as pginas. 286 O processador 286 foi lanado em Fevereiro de 1982, apenas 6 meses aps a IBM ter lanado o seu primeiro PC. Porm, o 286 passou a ser utilizado apenas em 1984, quando a IBM lanou o seu PC AT. Esta demora justificvel, pois, para lanar um computador usando o novo processador da Intel, foi preciso desenvolver toda uma nova arquitetura. Da placa de vdeo ao gabinete, praticamente tudo foi mudado, o que somado burocracia e a longos perodos de testes antes do lanamento, demandou um certo tempo. Atualmente, o perodo de desenvolvimentos dos perifricos muito mais curto. Quase sempre quando um novo processador lanado, j temos placas me para ele disponveis quase que imediatamente, pois o desenvolvimento feito de forma simultnea. O 286 trouxe vrios avanos sobre o 8088. Ele utilizava palavras binrias de 16 bits tanto interna quanto externamente, o que permitia o uso de perifricos de 16 bits, muito mais avanados do que os usados no PC original e no XT. O custo destes perifricos desta vez no chegou a ser um grande obstculo, pois enquanto o PC AT estava sendo desenvolvido, eles j podiam ser encontrados com preos mais acessveis. O principal avano trazido pelo 286 so seus dois modos de operao, batizados de Modo Real e Modo Protegido. No modo real, o 286 se comporta exatamente como um 8086 (apesar de mais rpido), oferecendo total compatibilidade com os programas j existentes. J no modo protegido, ele manifesta todo o seu potencial, incorporando funes mais avanadas, como a capacidade de acessar at 16 Megabytes de memria RAM (usando os 24 bits de endereamento do 286), multitarefa, memria virtual em disco e proteo de memria. Assim que ligado, o processador opera em modo real, e com uma certa instruo, passa para o modo protegido. O problema que trabalhando em modo protegido, o 286 deixava de ser compatvel com os programas escritos para o modo real, inclusive com o prprio MS-DOS. Para piorar, o 286 no possua nenhuma instruo que fizesse o processador voltar ao modo real, isto era possvel apenas resetando o micro. Isso significa que um programa escrito para rodar em modo protegido, no poderia usar nenhuma das rotinas de acesso a dispositivos do MS-DOS, tornando inacessveis o disco rgido, placa de vdeo, drive de disquetes memria, etc., a menos que fossem desenvolvidas e incorporadas ao programa todas as rotinas de acesso a dispositivos necessrias. Isso era completamente invivel para os desenvolvedores, pois para projetar um simples jogo, seria praticamente preciso desenvolver todo um novo sistema operacional. Alm disso, o programa desenvolvido rodaria apenas em micros equipados com processadores 286, que ainda eram minoria na poca, tendo um pblico alvo muito menor. De fato, apenas algumas verses do UNIX e uma verso do OS/2 foram desenvolvidas para utilizar o modo protegido do 286. Basicamente, os micros baseados no 286 eram usados para rodar aplicativos de modo real, que tambm podiam ser executados em um XT, aproveitando apenas a maior velocidade do 286. Falando em velocidade, a primeira verso do 286 funcionava a apenas 6 MHz, sendo lanada logo depois uma nova verso de 8 MHz, que foi usada no PC AT. Posteriormente, foram desenvolvidas verses de at 20 MHz. Devido s vrias mudanas na arquitetura, destacando o acesso mais rpido memria e alteraes no conjunto de instrues do processador, que permitiam realizar muitas operaes de

maneira mais rpida e eficiente, um 286 consegue ser quase 4 vezes mais rpido que um 8088 do mesmo clock. 386 O 386 foi lanado apenas em Outubro de 85, trs anos e meio depois do 286. Desta vez, a diretoria da IBM demorou muito para chegar um acordo e desenvolver um sistema baseado no 386, dando tempo para a Compaq sair na frente. Este foi um verdadeiro marco pois, de repente, as companhias perceberam que no eram mais obrigadas a seguir a IBM. Qualquer um que tivesse tecnologia suficiente poderia sair na frente, como fez a Compaq. A partir da, a IBM comeou a gradualmente perder a liderana do mercado, tornando-se apenas mais um entre inmeros fabricantes de PCs. O 386 trouxe vrios recursos novos. Para comear, o 386 trabalha tanto interna quanto externamente com palavras de 32 bits e capaz de acessar a memria usando um barramento de 32 bits, permitindo uma transferncia de dados duas vezes maior. Como o 386 pode trabalhar com palavras binrias de 32 bits, possvel acessar at 4 GB de memria (2 elevado 32 potncia), mesmo sem usar a segmentao de endereos, como no 8088 e no 286. Assim como o 286, o 386 continua possuindo os dois modos de operao. A diferena que no 386 j possvel alternar entre o modo real e o modo protegido livremente. Um programa que rode sobre DOS, pode chavear o processador para o modo protegido, para beneficiar-se de suas vantagens, e voltar ao modo real sempre que precisar usar alguma sub-rotina do DOS, de maneira transparente ao usurio. Neste caso, usado um programa de DPMI (DOS Protected Mode Interface, ou interface DOS de modo protegido) para fazer o chaveamento entre os dois modos. Toda vez que o programa precisa usar alguma sub-rotina do DOS, ele passa o comando ao chaveador e fica esperando. O chaveador por sua vez, passa o processador para o modo real, executa o comando, chaveia o processador para o modo protegido e entrega o resultado ao aplicativo, que continua trabalhando como se nada tivesse acontecido. Um bom exemplo de programa de DPMI o DOS4GW, que usado por muitos jogos que rodam sobre o MS-DOS, como o Doom, Sim City 2000 e vrios emuladores de vdeo-games. O esquema de chaveamento tambm utilizado pelo Windows 3.x, que j inclui todas as rotinas necessrias, dispensando qualquer programa de DPMI. O Windows 95/98 tambm pode chavear para o modo real caso precise carregar algum driver de dispositivo de modo real. Porm, devido ao modo virtual 8086, que veremos logo a seguir, no preciso colocar o processador em modo real para executar aplicativos MS-DOS dentro do Windows 95/98 Ter um processador 386 o requisito mnimo para rodar qualquer sistema operacional ou aplicativo de modo protegido moderno. Com um 386, um mnimo de memria RAM e espao em disco suficiente, voc pode rodar o Windows 95 e a maioria dos aplicativos para ele, embora bem lentamente devido pouca potncia do processador. Com um simples 286, no mximo voc poder rodar o DOS e aplicativos mais simples, que trabalhem somente com o modo real. Tambm possvel rodar o Windows 3.0, porm em modo Standard, onde possvel acessar todos os 16 MB de memria permitidos pelo 286, mas sem memria virtual nem multitarefa. A Introduo do Cache Os processadores 386 acima de 20 MHz eram muito rpidos para as memrias RAM existentes na poca. Por isso, a cada acesso, o processador tinha que ficar esperando os dados serem liberados pela memria RAM para poder concluir suas tarefas, perdendo muito em desempenho. Para solucionar esse problema, passaram a ser usadas pequenas quantidades de memria cache na grande maioria das placas me para micros 386 e superiores. A memria cache um tipo de memria ultra-rpida, que armazena os dados mais usados pelo processador, evitando na grande maioria dos casos, que ele precise perder tempo buscando dados diretamente na lenta memria RAM. Mesmo uma pequena quantidade de memria cache capaz de melhorar bastante a velocidade da troca de dados entre o processador e a RAM.

10

Apesar de j ser bem mais rpido que a memria RAM, o 386 ainda no era um processador muito rpido, justamente por isso, ainda no era to dependente do desempenho da memria cache quanto os processadores atuais. Um 386 equipado com memria cache de 20 a 30% mais rpido que um 386 da mesma frequncia, mas sem memria cache, enquanto um processador moderno pode ficar at 20 vezes mais lento caso sejam desabilitados tanto o cache L1 quanto o cache L2. 386SX Como o 386 era um processador de 32 bits, foi preciso desenvolver toda uma nova categoria de chipsets e circuitos de apoio para trabalhar com ele, o que acabou encarecendo bastante os sistemas baseados no 386 e afastando muitos compradores em potencial. Para contornar este problema, a Intel optou por lanar uma verso de baixo custo do 386, batizada de 386SX, que apesar de continuar funcionando internamente com palavras de 32 bits, comunicava-se com a memria RAM e os demais perifricos usando palavras de 16 bits (como o 286). Apenas para diferenciar os dois processadores, a Intel passou a chamar o 386 original de 386DX. Esta arquitetura permitiu que fossem aproveitados os mesmos perifricos usados em placas de micros 286, tornando as mquinas baseadas no 386SX muito mais acessveis. Pra voc uma idia, um PC bsico equipado com um 386SX, chegava a custar menos de 1,000 dlares, quase metade de um equipamento com uma configurao parecida baseado no 386DX. Apesar de, devido ao preo, o 386SX ter tornado-se uma boa opo em termos de custo-beneficio, em termos de performance ele fica bem atrs de um 386DX da mesma frequncia, pois apesar de internamente os processadores serem idnticos, o SX usa praticamente os mesmos componentes usados nos micros 286, acessa a memria usando palavras de 16 bits e, para completar, as placas me para ele no possuem memria cache. Modo Real x Modo Protegido Operando em modo real, o processador funciona exatamente como um 8086, apenas trabalhando com uma velocidade maior. No somente o 386, mas todos os processadores atuais podem alternar entre o modo real e o modo protegido livremente, sempre que necessrio. No modo real, rodamos o MS-DOS e outros aplicativos de modo real mais antigos, enquanto no modo protegido rodamos o Windows e seus programas. Com certeza, alguma vez ao tentar rodar um programa antigo, voc j se deparou com uma enigmtica mensagem de falta de memria, apesar dos manuais do programa dizerem que ele precisa apenas de 500 ou 600 KB de memria e voc ter instalado bem mais do que isso. Estas mensagens surgem por que estes programas rodam com o processador operando em modo real onde, como o 8086, ele capaz de reconhecer apenas o primeiro Megabyte da memria RAM. Este primeiro Megabyte por sua vez, subdividido em dois blocos, chamados de memria convencional e memria estendida. A memria convencional corresponde aos primeiros 640 Kbytes da memria, e a rea de memria usada pelos programas que operam em modo real. Os 384 Kbytes restantes so chamados de memria superior, e so reservados para armazenar uma cpia do BIOS, que passa a ser executado mais rapidamente, j que a memria RAM muito mais rpida do que o chip de memria ROM ou Flash onde ele originalmente armazenado. Esta cpia do BIOS chamada de Shadow, ou sombra, e serve para aumentar o desempenho geral do sistema. A memria superior tambm usada para armazenar sombras dos BIOS de outros dispositivos, como placas de vdeo, aumentando tambm a velocidade de operao destes perifricos. Apesar de existirem 640 Kbytes de memria convencional, protos para ser usada por qualquer programa que opere em modo real, nem toda esta memria fica disponvel, j que parte dela usada pelo MS-DOS e drivers de dispositivos de modo real. possvel liberar mais memria convencional, editando os arquivos de inicializao do DOS, conseguindo assim rodar estes programas. Quando o computador ligado, o processador est operando em modo real. Quem d o comando para que ele mude para o modo protegido o sistema operacional. No caso do Windows, este comando dado durante o carregamento do sistema.

11

Em modo protegido, o processador capaz de reconhecer toda a RAM instalada no sistema, alm de incorporar recursos como a multitarefa e a memria virtual em disco. neste modo que usamos a interface grfica do Windows e rodamos seus aplicativos.

Recursos do Modo Protegido Apesar de, em nome da compatibilidade retroativa com programas desenvolvidos para micros PC XT e 286, tanto o 386 como todos os processadores atuais poderem operar em modo real, apenas no modo protegido eles incorporam os recursos mais avanados, que permitem a existncia dos softwares que temos atualmente. A partir do 386, poucas funes novas foram incorporadas aos novos processadores. Basicamente, evolumos apenas em termos de velocidade. Tanto que, com um simples 386, possvel rodar praticamente qualquer aplicativo mais atual, apenas com uma velocidade menor. O modo protegido traz basicamente quatro novos recursos: memria virtual, multitarefa, proteo de memria e o modo virtual 8086. Memria Virtual A capacidade do 386 de trabalhar com vrios aplicativos ao mesmo tempo (multitarefa) realmente muito til, mas esta caracterstica traz um pequeno problema: abrindo vrios aplicativos sucessivamente, logo a memria RAM do sistema se esgota. Para corrigir este problema, o modo protegido traz tambm a memria virtual, que permite criar um arquivo temporrio no disco rgido, chamado de Swap File, ou arquivo de troca, que funciona como uma extenso da memria RAM, permitindo abrir quantos aplicativos forem necessrios, at que o espao do disco rgido se esgote. Por exemplo, s o Windows 2000 Professional, junto com os servios bsicos ocupa cerca de 40 MB de memria. Se voc abrir o Word 97, sero necessrios mais 10 Megabytes, um total de quase 50 MB. Caso o micro em questo possua apenas 32 MB de memria, seria criado um arquivo temporrio de 18 MB no disco rgido, que armazenaria os dados que no couberam na memria RAM. O problema em usar memria virtual que o disco rgido centenas de vezes mais lento do que a memria RAM. Um disco rgido razovel possui um tempo de acesso em torno de 10 milessegundos (milsimos de segundo) enquanto um mdulo de memria PC-100 possui um tempo de acesso inferior a 10 nanossegundos (bilionsimos de segundo) ou seja, um tempo de acesso um milho de vezes menor!Em termos de taxa de transferncia, novamente temos um contraste marcante: 800 MB para o mdulo de memria e de 5 a 20 MB (dependendo do modelo) para o disco rgido. Graas a este abismo, apesar dos programas funcionarem normalmente usando memria virtual, o sistema vai ficando cada vez mais lento. Experimente, por exemplo, tentar trabalhar em um PC com apenas 4 MB de RAM (seja qual for o processador) rodando o Windows 95. A lentido insuportvel. No Windows 3.x, era necessrio reservar uma quantidade espao do disco rgido para a memria virtual, quantidade que podia ser configurada livremente atravs do Painel de Controle. O problema que este espao ficava indisponvel. Se voc possusse um disco de 800 MB, e reservasse 200 para a memria virtual, ficaria com apenas 600 MB para instalar programas e guardar arquivos. Se por outro lado, voc reservasse pouco espao para a memria virtual, ficaria com pouca memria para abrir vrios programas e trabalhar com arquivos grandes. Apartir do Windows 95 este problema foi resolvido com a adoo de um arquivo de troca dinmico, que vai aumentando ou diminuindo de tamanho conforme a necessidade de memria, evitando o desperdcio de espao em disco que tnhamos no Windows 3.x. Apartir do Windows 95, existe tambm uma administrao mais racional dos recursos do sistema, movendo os arquivos mais importantes, acessados com mais frequncia para memria RAM (ou memria cache, dependendo da importncia do arquivo), e deixando apenas arquivos usados mais raramente no arquivo de troca. Esta simples medida diminui bastante a perda de performance causada pelo uso da memria virtual.

12

No Windows 2000 possvel determinar um valor inicial e um valor mximo para um arquivo de troca. No caso do Linux, a fim de melhorar o desempenho, os desenvolvedores optaram por criar um sistema de arquivos prprio para a memria virtual. Multitarefa Multitarefa significa executar mais de uma tarefa de cada vez, como assobiar e chupar cana ao mesmo tempo :-). Apesar de na vida real no ser muito fcil fazer duas coisas ao mesmo tempo, do ponto de vista de um computador este processo relativamente simples. Todos os aplicativos so carregados na memria e o processador passa a executar algumas instrues de cada aplicativo por vez. Como o processador capaz de executar vrios milhes de instrues por segundo, esta troca feita de maneira transparente, como se os aplicativos estivessem realmente sendo executados ao mesmo tempo. Enquanto o processador d ateno para um aplicativo, todos os demais ficam paralisados, esperando sua vez. Memria Protegida Usando a multitarefa, quase sempre teremos vrios aplicativos carregados na memria, seja na memria RAM ou no arquivo de troca. Se no houvesse nenhum controle por parte do processador, um aplicativo poderia expandir sua rea de memria, invadindo reas de outros aplicativos e causando travamentos no micro. Um editor de imagens, por exemplo, precisa ocupar mais memria conforme as imagens vo sendo abertas ou criadas. Sem nenhuma orientao por parte do processador, simplesmente seriam ocupadas as reas adjacentes, que poderiam tanto estar vazias, quanto estar ocupadas pelo processador de textos, por exemplo. Para colocar ordem na casa, foi desenvolvido o recurso de proteo de memria, que consiste no processador isolar a rea de memria ocupada por cada aplicativo, impedindo que ele ocupe outras reas ao seu bel prazer. Se, por acaso, o programa precisar de mais memria, o prprio processador ir procurar uma rea vazia de memria e ordenar ao aplicativo que ocupe a rea reservada. Existem basicamente dois tipos de multitarefa, denominadas multitarefa preemptiva e multitarefa cooperativa, que diferem justamente pelo uso ou no da proteo de memria. O Windows 3.x, apesar de ser considerado um sistema operacional multitarefa, no capaz de usar o recurso de proteo de memria, nele usada a multitarefa cooperativa, que consiste em cada aplicativo usar os recursos do processador por um certo tempo, passar para outro programa e esperar novamente chegar sua vez para continuar executando suas tarefas. A alternncia entre os programas neste caso no comandada pelo sistema e sim pelos prprios aplicativos. Neste cenrio, um aplicativo mal comportado poderia facilmente monopolizar o sistema, consumindo todos os recursos do processador por um longo perodo, ou mesmo invadir reas de memria ocupadas por outros aplicativos, causando em qualquer um dos casos o famoso GPF, (General Protection Falt, ou falha geral de proteo) que tanto atormentava os usurios do Windows 3.x. Experimente tentar fazer dois irmos dividirem os mesmo brinquedo; pode funcionar durante um certo tempo, mas uma hora um no vai querer deixar o outro brincar e vai sair briga, exatamente como acontece com os aplicativos dentro da multitarefa cooperativa :-) O Windows 95/98 por sua vez, usa a multitarefa preemptiva, isolando as reas de memria ocupadas pelos aplicativos. Isto garante uma estabilidade bem maior do que a que temos no Windows 3.11. Porm, o modo como a multitarefa preemptiva implementada no Windows 95 assim como do Windows 98 e do Windows Millennium, que so baseados no mesmo kernel (ncleo) do Windows 95, ainda possui dois problemas graves: O primeiro que, quando executado um programa de 16 bits, o Windows 95 cai em multitarefa cooperativa para poder rodar o programa, deixando de proteger as reas de memria e tornando-se to vulnervel quanto o Windows 3.11. Porm, mesmo usando apenas aplicativos de 32 bits os travamentos ainda so comuns, pois o Windows 95 os servios do sistema no tem prioridade sobre os aplicativos. Isto significa que caso um

13

aplicativo qualquer entre em loop, poder consumir todos os recursos do processador, neste caso o sistema operacional ficar paralisado, simplesmente sem ter como fechar o aplicativo e restaurar o sistema, obrigando o usurio a resetar o micro e perder qualquer trabalho que no tenha sido salvo. Na verdade costuma-se dizer que o Windows 95/98 utiliza multitarefa semi-preemptiva, pois no utiliza todos os recursos de uma verdadeira multitarefa. A soluo para este problema veio com o Windows NT. Desde suas primeiras verses, o Windows NT bem estvel neste aspecto, pois implementa a multitarefa preemptiva de forma completa. As tarefas executadas pelo sistema operacional, so priorizadas sobre as de qualquer outro aplicativo. Isto significa que em nenhuma situao, um aplicativo ter como passar por cima do sistema operacional e consumir todos os recursos do processador como acontece no Windows 95/98. Na prtica, significa que o sistema at pode travar devido a algum bug, mas se algum aplicativo travar ou tentar invadir uma rea de memria no designada para ele, simplesmente ser fechado, permitindo que todos os demais aplicativos continuem trabalhando sem problemas. Voc logo notar quais aplicativos costumam dar problemas, bastando substitu-los por verses mais recentes que corrijam seus bugs ou mesmo passar a usar um programa concorrente. Tanto o Windows 2000, quanto o XP so baseados no kernel do Windows NT e mantm o mesmo sistema de funcionamento. Por ter sido inspirado no Unix, o Linux utiliza multitarefa preemptiva desde suas primeiras verses, por isso que o Linux considerado um dos sistemas mais estveis, a ponto de ser usado em vrios dos mais importantes servidores do planeta. O MacOS por sua vez, utilizou a multitarefa cooperativa durante muito mais tempo, at a verso 9.x. Os usurios dos Mac s passaram a ter disponvel um sistema com multitarefa preemptiva apartir do MacOS X, que baseado no FreeBSD, um sistema Unix de cdigo aberto, semelhante ao Linux em vrios aspectos. A Apple usou o FreeBSD para construir o Darwin, que a base do sistema e completou a obra com a interface Aqua, que mantm a idia de facilidade de uso das verses anteriores do MacOS. Modo Virtual 8086 Apesar de, operando em modo real, o processador ser totalmente compatvel com qualquer programa antigo, seria impossvel executar um aplicativo de modo real dentro do Windows 95 ou qualquer outro sistema operacional que utilize o modo protegido. Seria preciso fechar o Windows e fazer o processador voltar para o modo real para poder executar o aplicativo. Pensando nesta possvel limitao, os projetistas da Intel desenvolveram o modo virtual 8086 onde o processador, operando em modo protegido, capaz de simular vrios ambientes de modo real, cada um com 1 MB de memria e total acesso ao hardware do micro, chamados de mquinas virtuais. como se dentro do 386 fossem abertos vrios XTs completos, um para cada programa de modo real a ser executado. justamente o modo virtual 8086 que permite abrir janelas DOS dentro do Windows 95/98. Como o processador continua em modo protegido, cada mquina virtual tem sua rea isolada na memria. O programa roda sem prejudicar a estabilidade do sistema. 486 O 386 foi o grande marco dos processadores para micros PC, pois foi o primeiro processador a trazer o conjunto de instrues x86, que so suportadas por todos os processadores modernos. Apartir dele, surgiram vrios melhoramentos, mas apenas em termos de desempenho. Apesar de no trazer instrues novas, o 486 conquistou seu lugar na histria, por trazer vrios recursos que continuam sendo usados at os processadores atuais. Em primeiro lugar, o 486 foi o primeiro processador a trazer cache integrado. Eram 8 Kbytes, mas que eram capazes de entregar dados a cada ciclo do processador. Como os fabricantes continuaram incluindo cache na placa me, um pouco mais lentos, mas em maior quantidade, surgiu tambm a distino entre o cache L1 e o L2. Outra evoluo foi o coprocessador aritmtico. Ao invs do carssimo componente que deveria ser adquirido separadamente, o coprocessador passou a ser um item de srie. Este foi o impulso que faltava para a popularizao de vrios programas e o surgimento de jogos bem mais elaborados.

14

Com tudo isso, um 486 quase duas vezes mais rpido do que um 386 da mesma frequncia. Em alguns aplicativos, que dependem do coprocessador aritmtico, um 486 chega a ser 10 vezes mais rpido. Como fez anteriormente com o 386, a Intel criou um 486 de baixo custo chamado de 486SX. A diferena entre o SX e o 486 original, que passou a ser chamado de 486DX. Os dois compartilhavam a mesma arquitetura, mas o SX vinha sem o coprocessador aritmtico, o que o tornava muito mais lento em aplicativos grficos e cientficos. Para os proprietrios, existia a opo de posteriormente comprar um 80487SX, um coprocessador aritmtico que era vendido separadamente. O problema era que comprado separadamente, o coprocessador custava quase tanto quanto um processador 486DX que j vinha com o coprocessador embutido, definitivamente um pssimo negcio. Para evitar confuso, o 486 original passou a ser chamado de 486DX.

Foram lanadas verses do 486 rodando 25 MHz, 33 MHz e 40 MHz, porm, criou-se uma barreira, pois no haviam na poca circuitos de apoio capazes de trabalhar a mais de 40 MHz. Para solucionar esse problema, foi criado o recurso de Multiplicao de Clock, atravs do qual o processador trabalha internamente uma velocidade maior do que a da placa me. Foram lanados ento os processadores 486DX2 (que trabalhavam ao dobro da frequncia da placa me) e logo depois os 486DX4 (que trabalhavam ao triplo da frequncia da placa me):

Com isso, surgiram tambm as placas me upgradable, que permitem atualizar o processador, apenas configurando alguns jumpers da placa. Os processadores 486, apartir do DX-33 foram os primeiros a utilizar cooler, que naquela poca eram dissipadores com menos de um centmetro de altura, com exaustores minsculos. Conforme os processadores passaram a dissipar cada vez mais calor, os coolers foram crescendo na mesma proporo, at chegar nos exageros que vemos atualmente :-) Multiplicao de Clock Dentro de qualquer computador, os dados so transmitidos e processados na forma de sinais eltricos. O processador muito pequeno, no mede mais do que 1, ou 1,2 centmetros quadrados. A placa me por sua vez muito maior que isso. Graas a esta diferena de propores, acaba sendo muito mais fcil desenvolver um processador capaz de operar a, digamos, 2 gigahertz, do que uma placa me capaz de acompanha-lo. Apesar dos sinais eltricos percorrerem os circuitos a uma velocidade prxima da da luz, estamos falando de bilhes de transmisses por segundo. O recuso de multiplicao de clock surgiu para evitar que os processadores ficassem limitados frequncia da placa me. Num Pentium III de 800 MHz por exemplo, a placa me opera a apenas 100 MHz. O multiplicador de 8x. Hoje em dia os processadores trazem tanto cache L1, quanto cache L2 integrados, operando na mesma frequncia do restante do processador, o que diminui muito a dependncia da velocidade da memria RAM, que sempre opera na mesma frequncia de a placa me, meros 100 ou 133 MHz. Mesmo assim, quanto maior for o multiplicador, maior ser a perda de desempenho. Um bom exemplo disso, uma comparao entre o Celeron 766 (que usa bus de 66 MHz) e o Celeron 800 (que j usa bus de 100 MHz). Apesar da frequncia de operao ser quase a mesma, o Celeron 800 chega a ser 20% mais rpido, graas ao acesso mais rpido memria. Apesar das limitaes, o recurso de multiplicao de clock indispensvel atualmente, pois sem ele seria impossvel desenvolver processadores muito rpidos, j que no possvel aumentar a frequncia das placas me e dos demais perifricos na mesma proporo do aumento do clock nos processadores. Se o Pentium III, por exemplo, tivesse que trabalhar na mesma frequncia da placa me, no passaramos de 100 ou 133 MHz.

15

Nos PCs 486, Pentium, MMX e K6 necessrio configurar o multiplicador manualmente, atravs de alguns jumpers da placa me. uma maravilha, principalmente quando voc no tm o manual da placa em mos. Mas, apartir do Pentium II, a placa capaz de detectar automaticamente o multiplicador. Na verdade, apartir do Pentium II, todos os processadores Intel tm o seu multiplicador travado ainda na fbrica. No possvel alter-lo mesmo que queira. Pipeline At o 386, os processadores da famlia x86 eram capazes de processar apenas uma instruo de cada vez. Uma instruo simples podia ser executada em apenas um ciclo de clock, enquanto instrues mais complexas demoravam vrios ciclos de clock para serem concludas. Seria mais ou menos como montar um carro de maneira artesanal, pea por pea. Para melhorar o desempenho do 486, a Intel resolveu usar o pipeline, uma tcnica inicialmente usada em processadores RISC, que consiste em dividir o processador em vrios estgios distintos. O 486, possui um pipeline de 5 nveis, ou seja, dividido em 5 estgios. Quando carregada uma nova instruo, ela primeiramente passa pelo primeiro estgio, que trabalha nela durante apenas um ciclo de clock, passando-a adiante para o segundo estgio. A instruo continua ento sendo processada sucessivamente pelo segundo, terceiro, quarto e quinto estgios do processador. A vantagem desta tcnica, que o primeiro estgio no precisa ficar esperando a instruo passar por todos os demais para carregar a prxima, e sim carregar uma nova instruo assim que se livra da primeira, ou seja, depois do primeiro pulso de clock. As instrues trafegam dentro do processador na ordem em que so processadas. Mesmo que a instruo j tenha sido processada ao passar pelo primeiro ou segundo estgio, ter que continuar seu caminho e passar por todos os demais. Se por acaso a instruo no tenha sido completada mesmo aps passar pelos 5, voltar para o primeiro e ser novamente processada, at que tenha sido concluda. Desta maneira, conseguimos que o processador seja capaz de processar simultaneamente, em um nico ciclo de clock, vrias instrues que normalmente demorariam vrios ciclos para serem processadas. Voltando ao exemplo do carro, seria como se trocssemos a produo artesanal por uma linha de produo, onde cada departamento cuida de uma parte da montagem, permitindo montar vrios carros simultaneamente. O uso dos 5 estgios de pipeline no 486 no chega a multiplicar por cinco a performance do processador, na verdade a performance no chega nem mesmo a dobrar, mas o ganho bem significativo. Pentium Assim como o 486, o Pentium um processador de 32 bits, capaz de acessar at 4 GB de memria RAM. Mas, novamente o processador trouxe vrias melhorias que o tornaram muito mais rpido que a gerao anterior. No toa que o primeiro Pentium operava a apenas 60 MHz, e era, na poca do lanamento, muito mais caro que um 486DX4-100. O Pentium de 65 a 100% mais rpido que um 486 do mesmo clock. Como o processador aritmtico tambm foi completamente remodelado, o Pentium acaba sendo ainda mais rpido em aplicativos que demandam um grande nmero de clculos. Os processadores Pentium existiram em verses de 60 a 200 MHz, sempre utilizando multiplicao de clock (com exceo apenas para as verses de 60 e 66 MHz):

Como na poca dos micros 486, as placas me para processadores Pentium (com excesso de placas muito antigas) suportam vrias frequncias de barramento e vrios multiplicadores distintos. Na maioria dos casos possvel configurar a placa me para utilizar qualquer processador da famlia. Melhorias no Cache L1

16

A primeira mudana trazida pelo Pentium foi o aumento da quantidade de cache L1, que passou a ser de 16 KB, o dobro do 486. Alm do aumento da capacidade, foram implementados trs novos recursos, que tornaram o cache ainda mais eficiente: A primeira medida foi a diviso do cache em dois blocos de 8 KB, um dedicado a armazenar dados e outro dedicado a armazenar instrues. Esta diviso permite que tanto as instrues a serem executadas pelo processador (comparao, multiplicao, soma, deciso, etc.) quanto os dados a serem processados, possam ser acessados simultaneamente no cache, aumentando sua eficincia. Se, por exemplo, um programa qualquer ordena que o processador leia um nmero gravado na memria e verifique se ele maior ou menor que 10, temos duas instrues (ler o nmero e compar-lo com o nmero 10) e duas variveis (o nmero 10 e o nmero a ser lido). Com um cache unificado, como no 486, primeiro seriam lidas as instrues e em seguida as variveis. No cache dividido do Pentium, ambos podem ser lidos no mesmo ciclo de clock, poupando tempo. Outra modificao foi a ampliao do barramento de dados entre o processador e o cache. Enquanto no 486 podem ser lidos ou gravados at 128 bits de dados por ciclo de clock, no Pentium podem ser lidos ou gravados at 256 bits no cache de instrues e mais 256 no cache de dados. Como ambos os caches podem ser acessados simultaneamente, temos um barramento total de 512 bits, o qudruplo do que tnhamos no 486! Este barramento mais largo permite que quantidades maiores de dados possam ser lidos a partir do cache no mesmo espao de tempo, permitindo ao cache acompanhar a maior velocidade de processamento do Pentium. A ltima medida foi a adoo de um cache Write Back, que capaz de cachear tanto as operaes de leitura de dados na memria RAM, quanto as operaes de escrita. O cache usado no 486, cacheia apenas as operaes de leitura, o que permite ao processador ganhar tempo ao ler dados, mas no ajuda na hora de gravar dados, quando so perdidos vrios ciclos at que a memria RAM torne-se disponvel. Previso de desvio dinmico Aps concluda uma instruo do programa, para que o processador no perca um nico ciclo de clock aguardando que o cache ou a memria RAM enviem a prxima instruo a ser processada, foi includo no Pentium um buffer de pr extrao. Este pequeno circuito armazena as prximas instrues a serem processadas, formando uma espcie de fila. Na verdade, o buffer de pr extrao funciona como uma espcie de cache L0, ficando entre o processador e o cache L1. A maior utilidade deste buffer prever o resultado de operaes de tomada de deciso. Se chega ao processador uma instruo como Se X > Y ento Z = K, seno Z = Q o buffer ir carregar tanto a instruo seguinte para X < Y quanto para X > Y, fazendo com que seja qual for o resultado da operao anterior, a prxima instruo j esteja carregada no buffer. O buffer de pr extrao tambm ajuda a memria cache a carregar antecipadamente os dados que o processador possa precisar. No caso do exemplo anterior, seriam carregados na memria cache tanto o valor de K quanto de Q. Coprocessador Aritmtico mais rpido O coprocessador aritmtico do Pentium foi completamente remodelado. Foram alteradas algumas das instrues, que passaram a ser executadas muito mais rapidamente e, como o processador principal, o coprocessador do Pentium tambm passou a utilizar um pipeline para aumentar a velocidade de execuo das instrues. Somadas com as brutais melhorias na arquitetura, o coprocessador do Pentium tornou-se cerca de 5 vezes mais rpido do que o utilizado no 486, tornando o processador muito mais rpido em aplicativos que demandem um grande nmero de clculos. Arquitetura Superescalar Mais um aperfeioamento do Pentium e um dos principais motivos de seu maior desempenho, a adoo de uma arquitetura superescalar.

17

Internamente, o Pentium trabalha como dois processadores de 32 bits distintos (chamados de canaleta U e canaleta V), sendo capaz de processar duas instrues por ciclo de clock (uma em cada processador). Cada processador possui acesso total ao cache, memria RAM, e aos demais componentes do micro. Foi includa tambm, uma unidade de controle, com a funo de comandar o funcionamento dos dois processadores e dividir as tarefas entre eles. Teoricamente, o uso de dois processadores distintos dobraria o desempenho do Pentium, j que ao invs de uma, poderiam ser executadas duas instrues por ciclo de clock. Mas, na prtica existem algumas limitaes. Se por exemplo, um programa ordena que o processador some 4 nmeros, X + Y + W + K, o processador poderia no primeiro ciclo de clock usar a canaleta U para somar X e Y e a canaleta V para somar W, mas no segundo ciclo, haveria apenas mais um clculo para ser executado, o resultado das duas somas. Neste caso, apenas uma das canaletas poderia ser usada; a segunda ficaria ociosa. No final das contas, houve um ganho de 33%, j que ao invs do processador demorar 3 ciclos para executar o clculo, demorou apenas 2. Caso a continuao do clculo dependesse da concluso do clculo anterior, como em (X + Y) x 3, a segunda canaleta novamente no poderia ser usada, pois o processador teria primeiro que somar X e Y para depois multiplicar o resultado por 3. Neste caso, no haveria ganho algum, pois o processador demoraria os mesmos dois ciclos que seriam necessrios com apenas uma canalizao. Em mdia, a segunda canalizao permite um desempenho 30 ou 40% superior ao desempenho obtido com apenas uma canalizao. Caso o software seja alterado e otimizado para rodar em um processador com duas canalizaes, ordenando as instrues de modo a deixar a segunda canaleta ocupada durante a maior parte do tempo, podemos conseguir mais 10 ou 15% de desempenho, chegando a algo entre 40 e 50%, mas, jamais ser possvel conseguir o dobro de desempenho. Isto pode ser notado por exemplo ao recompilar o kernel do Linux. possvel orientar o utilitrio a otimizar o cdigo para qualquer processador, de um 486 a um Pentium III. Esta otimizao permite que o Linux utilize todos os recursos do processador, obtendo um desempenho bastante superior. Otimizar um programa para rodar em um processador Pentium, no o torna incompatvel com processadores com apenas uma canalizao (como o 486), nem torna seu desempenho menor nestes processadores, j que as mesmas instrues sero executadas, apenas em ordem diferente. Execuo Especulativa Se o processador tivesse que processar uma instruo de tomada de deciso, como em Se X > 0 ento Y = 30, seno Y = 20, enquanto a primeira canaleta do processador verifica se X maior ou menor que 0, a segunda ao invs de ficar ociosa, pode executar uma das duas opes seguintes (atribuir o valor 30 ou atribuir o valor 20 a Y). No prximo ciclo, quando a primeira canaleta tivesse terminado de processar sua instruo, teramos 50% de chance da segunda canaleta ter adivinhado qual seria a instruo seguinte e j t-la executado. O nome execuo especulativa foi dado por que a segunda canaleta escolhe aleatoriamente a instruo a executar, entre as duas possveis. Acesso mais rpido Memria O Pentium capaz de acessar a memria usando palavras binrias de 64 bits, o dobro do 486, que a acessa a 32 bits. Este recurso permite que sejam lidos 8 bytes por ciclo, ao invs de apenas 4, dobrando a velocidade de acesso memria. Isto diminuiu bastante o antigo problema de lentido das memrias, mas apenas provisoriamente, pois logo surgiram processadores Pentium utilizando multiplicadores de clock cada vez mais altos. Como a maioria das placas para processadores Pentium utiliza mdulos de memria de 72 vias, que so mdulos de 32 bits, preciso usa-los em pares. O processador acessa cada dupla como se fosse um nico mdulo, chegando aos 64 bits necessrios.

18

Mesmo com a capacidade de acessar a memria a 64 bits e sendo composto internamente por dois processadores de 32 bits, o Pentium continua sendo um processador de 32 bits. Estes novos recursos servem apenas para melhorar o desempenho do processador. Multiprocessamento Visando o mercado de Workstations (mquinas muito rpidas, destinadas a aplicaes pesadas como processamento de imagens 3D ou vdeo) e servidores de rede, a Intel incluiu no Pentium o recurso de multiprocessamento simtrico, que permite o uso de dois processadores na mesma placa me. Neste caso, preciso adquirir uma placa me especial, com encaixe para dois processadores e um chipset com suporte ao multiprocessamento. Como a diviso das tarefas entre os dois processadores no feita automaticamente pelo chipset, preciso que o sistema operacional seja capaz de reconhecer os dois processadores e acess-los individualmente, dividindo as tarefas entre eles da melhor maneira possvel. Caso o sistema operacional no oferea suporte ao multiprocessamento, como o caso do Windows 95 e do Windows 98, apenas um dos processadores ser usado pelo sistema, ficando o outro inativo. Neste caso, ser como se tivssemos apenas um processador instalado. A maioria dos sistemas operacionais, incluindo o Windows NT, 2000 e XP, Linux e a maioria das verses do Unix suportam multiprocessamento, as excesses mais notveis ficam por conta do Windows 95,98 e ME. Apesar de, pela lgica, o desempenho dobrar com dois processadores trabalhando em paralelo, na prtica o ganho dificilmente passa de 40 ou 60%, pois dificilmente ser possvel organizar a execuo das tarefas de modo a deixar ambos os processadores ocupados todo o tempo, assim como difcil manter as duas canaletas do Pentium cheias 100% do tempo. At pouco tempo atrs, o recurso de multiprocessamento foi exclusividade dos processadores Intel. Tanto o Pentium, quanto o MMX, o Pentium II e o Pentium III suportam o uso de at dois processadores simultaneamente, enquanto o Xeon suporta o uso de at quatro processadores (8 com a adio de um circuito especial na placa me). Com exceo do Athlon MP, todos os demais processadores da AMD e Cyrix no suportam multiprocessamento, o que no chega a ser uma grande desvantagem para um usurio domstico, j que fora do ramo dos servidores de alto desempenho, este recurso raramente usado. Clock e Overclock Ao contrrio do que muitos pensam, velocidade de operao dos processadores no fixa, mas sim determinada pela placa me. Na placa me temos um pequeno cristal de Quartzo, chamado gerador de clock, que vibra alguns milhes de vezes por segundo, com uma preciso quase absoluta. As vibraes deste cristal so usadas para sincronizar os ciclos da placa me, que sabe que a cada vibrao do cristal deve gerar um certo nmero de ciclos de processamento. mais ou menos como um farol, que abre e fecha algumas vezes por minuto. Quando o farol est fechado, o trnsito fica parado, voltando a fluir quando a farol abre. Um pulso de clock justamente a abertura do farol, um j! que faz todos os perifricos trabalharem simultaneamente e de forma sincronizada. O funcionamento de todos os perifricos, da placa de vdeo ao disco rgido, coordenado por este relgio. O processador no possui um gerador de clock, e por isso trabalha usando o sinal recebido da placa me. Num Pentium MMX de 200 MHz, por exemplo, a placa me funciona a 66 MHz, e o multiplicador 3x, o que significa que para cada ciclo da placa me, o processador gerar 3 ciclos. Justamente por estar limitada frequncia indicada pela placa me, a frequncia do processador no fixa; pode ser maior ou menor do que o especificado, dependendo de como a placa me estiver configurada.

19

Como as placas me atuais, para manter compatibilidade com vrios processadores podem operar a vrias frequncias diferentes, possvel fazer o processador trabalhar mais rpido simplesmente configurando a placa me para trabalhar a uma frequncia maior. Esta tcnica chamada de Overclock, uma gria que significa acima do clock numa traduo livre. Um Pentium 120 por exemplo, usa bus 60 MHz e multiplicador de 2x. Se configurssemos a placa me para trabalhar a 66 MHz, mantendo o multiplicador em 2x, o processador passaria a trabalhar a 133 MHz. Se a freqncia da placa me fosse aumentada para 75 MHz, o processador funcionaria a 150 MHz. Em muitos casos, o processador tambm aceita um multiplicador maior. Um AMD K6 de 266 MHz por exemplo, trabalha com a placa me funcionando a 66 MHz e usando multiplicador de 4x. Se aumentssemos o multiplicador para 4.5x, mantendo a placa me funcionando a 66 MHz, faramos o processador funcionar a 300 MHz. A performance de um processador trabalhando em overclock idntica de um processador normal funcionando a essa velocidade. Um Pentium 120 overclocado para 133 MHz por exemplo, apresenta exatamente a mesma performance de um Pentium 133 de verdade. Quando um fabricante desenvolve um projeto de processador, testa-o a vrias frequncias diferentes, a fim de determinar sua freqncia ideal de operao. Geralmente, os fabricantes adotam uma certa margem de segurana, vendendo o processador com uma freqncia ligeiramente inferior freqncia mxima. justamente esta margem de segurana que permite o overclock; estaramos ento simplesmente fazendo o processador funcionar na sua frequncia mxima. Esta margem muda de fabricante para fabricante e de processador para processador. Por isso, alguns processadores aceitam overclocks maiores que outros. Existem casos de processadores que aceitam trabalhar sem problemas a uma freqncia 50% maior que a original, assim como existem casos de processadores que apresentam instabilidade operando a uma freqncia apenas 10% maior que a original. Obviamente, o overclock tambm traz algumas desvantagens. Fazendo o processador trabalhar a uma freqncia maior do que a ideal, podemos ter problemas de travamentos, superaquecimento e sempre haver alguma diminuio de sua vida til. Outros processadores Alm dos processadores principais que vimos at agora, existiram alguns modelos lanados como processadores de baixo custo, alternativa de upgrade para quem tinha um processador antigo e no queria gastar muito. 486DLC e 486SLC Estes dois processadores foram a tentativa da Cyrix de entrar no mercado de processadores de baixo custo, oferecendo uma opo barata de upgrade para usurios de micros 386 e tambm uma opo de processador para micros de baixo custo, especialmente micros de menos de 1.000 dlares. Estes processadores so basicamente processadores 386 (respectivamente o DX e o SX), que incorporam um pequeno cache L1 de apenas 1 KB. O cache no fazia milagres, mas j era o suficiente para aumentar um pouco o desempenho do processador, o que somado ao baixo preo de venda, foi suficiente para vrios usurios investirem no upgrade, j que os 486DLC e SLC eram totalmente compatveis com as placas para micros 386. Vale lembrar que, como o 386 padro, estes processadores no possuem coprocessador aritmtico, podendo ser acoplados a eles o 387DCL ou o 387SLC, que deviam ser comprados separadamente. Sob licena da Cyrix, a Texas Instruments desenvolveu verses prprias do 486DLC e SLC, preservando a mesma arquitetura, mas aumentando a quantidade de cache L1 para 8KB. AMD 5x86 No incio, a AMD produzia clones de processadores Intel, utilizando os projetos desenvolvidos pela Intel e pagando royalties em troca. Porm, devido a vrias divergncias, a aliana acabou sendo desfeita

20

e a AMD passou a batalhar seus prprios projetos de processadores. Apesar de, durante muito tempo, a AMD ter tido que se contentar com um distante segundo lugar, produzindo basicamente processadores de baixo custo, atualmente ela vem competindo diretamente com a Intel tambm no ramo de processadores de alto desempenho com seu Athlon, conseguindo na maioria das vezes manter preos mais baixos que a concorrente. Mas, voltando nossa aula de histria, depois que a Intel lanou o 486DX4-100, abandonou o desenvolvimento de processadores 486 para se dedicar somente ao desenvolvimento do Pentium. Com a inteno de apresentar um processador que possusse um desempenho semelhante a um Pentium low end (os modelos mais lentos e baratos), mas que ao mesmo tempo tivesse um preo competitivo, a AMD continuou o desenvolvimento do seu processador 486, lanando uma verso de 120 MHz (que opera usando barramento de 40 MHz e multiplicador de 3x),e logo em seguida tambm uma verso de 133 MHz. Por questes de Marketing, a AMD batizou este 486 de 133 MHz de AMD 5x86 o que confundiu alguns usurios, que pensaram tratar-se de um processador semelhante ao Pentium. O AMD 5x86 utiliza placas me para 486, necessita apenas que a placa seja capaz de sinalizar o multiplicador de 4x. O clock fica em 33 MHz, totalizando seus 133 MHz. Como o AMD 5x86 no passa de um 486 funcionando a 133 MHz, seu desempenho pouco menos de 33% superior a um 486DX4-100, sendo mais ou menos equivalente ao de um Pentium de 75 MHz. Alis, outra medida de marketing tomada pela AMD na poca, foi criar um ndice Pr, ou Pentium Rating, comparando o desempenho do 5x86 ao do Pentium. O 5x86 de 133 MHz recebeu o ndice Pr 75, indicando possuir um desempenho semelhante ao apresentado por um Pentium de 75 MHz. A AMD conseguiu fazer um razovel sucesso com este processador, j que alm de ser sido muito usado em micros de baixo custo, o 5x86 passou a ser uma alternativa barata de upgrade para usurios de micros 486 com processadores mais lentos. Cyrix Cx5x86 Alm de desenvolver projetos de processadores 486, que foram fabricados pela Texas Instruments, a Cyrix lanou um processador que mistura recursos do 486 e do Pentium, oferecendo um desempenho bastante superior a um 486 padro. Este processador foi batizado como Cx5x86, e apresenta um cache L1 de 16 KB, alm de algumas outras melhorias que tornam seu desempenho cerca de 35% superior ao de um 486 do mesmo clock. A verso de 100 MHz do Cx5x86 possui um desempenho equivalente ao 5x86 de 133 MHz da AMD e ao Pentium 75, enquanto a verso de 120 MHz rivaliza em desempenho com um Pentium 90. Como o 5x86 da AMD, Cx5x86 totalmente compatvel com as placas me para 486, bastando configurar a placa com multiplicador de 3x e bus de 33 MHz para instalar a verso de 100 MHz e, 3x 40 MHz para utilizar a verso de 120 MHz. AMD K5 Depois de muitos atrasos, a AMD finalmente conseguiu lanar um processador que pudesse concorrer diretamente com o Pentium. O K5, porm, no chegou a tornar-se muito popular devido ao seu lanamento atrasado. Quando finalmente saram as verses Pr 120 e Pr 133 do K5, a Intel j havia lanado as verses de 166 e 200 MHz do Pentium, ficando difcil a concorrncia. Ao invs de simplesmente tentar copiar o projeto da Intel, a AMD optou por desenvolver um processador completamente novo, tecnicamente superior ao Pentium. O K5 tambm utiliza uma arquitetura superescalar, mas ao invs de duas, possui quatro canalizaes. O cache L1 tambm foi ampliado, passando a ser de 24 KB, dividido em dois blocos, um de 16 KB para instrues e outro de 8 KB para dados. O coprocessador aritmtico porm no foi muito melhorado, apresentando um desempenho quase 50% inferior ao apresentado pelo coprocessador do Pentium, devido principalmente ausncia de Pipeline. Este acabou sendo o calcanhar de Aquiles do K5, que a AMD sempre fez o possvel para tentar esconder. Mas, como na maioria das aplicaes o K5 era bem mais rpido que o Pentium, a AMD optou

21

novamente por vender seu processador segundo um ndice Pr, que compara seu desempenho com o dos processadores Pentium:

Pentium Overdrive Como fez com os antigos 386 SX, a Intel lanou (ou pelo menos tentou, pois este processador nunca chegou a ser muito vendido) tambm um Pentium low cost. Este processador, apesar de internamente ter um funcionamento idntico a um Pentium, utiliza placas me para processadores 486, sendo por isso chamando de Overdrive. A Intel lanou o Overdrive em verses de 63 MHz (25 MHz x 2.5) e 83 MHz (33 MHz x 2.5) mas, por utilizarem placas de 486, que operam a frequncias muito mais baixas e acessam a memria a apenas 32 bits, estes processadores perdem feio em performance se comparados com um Pentium de verdade. O Overdrive de 63 MHz apresenta performance idntica ao 486DX4-100, enquanto o de 83 MHz empata com o 5x86 de 133 MHz da AMD. Alm da baixa performance, o Overdrive era extremamente caro (por isso usei o low cost entre aspas no pargrafo anterior :-), e acabou sendo uma pssima opo de compra. Em termos de custobeneficio, o 5x86 da AMD foi uma opo muito melhor. Mesmo aps este primeiro fracasso, a Intel continuou tentando lanar sucessivamente vrios processadores Overdrive, entre eles uma verso do MMX que funciona em placas soquete 7 antigas e uma verso do Pentium II que funciona em placas me para Pentium Pro. Apesar da propaganda feita por alguns especialistas nenhum destes modelos de Overdrive foi uma opo de compra que sequer merecesse ser considerada, pois devido baixa procura e consequentemente baixa produo, sempre custaram muito mais caro do que processadores equivalentes. A nica vantagem de se utilizar um processador Overdrive seria continuar utilizando a mesma placa me, trocando apenas o processador. Porm, na maioria vezes, por causa da baixa produo o processador Overdrive custa mais caro que um processador normal mais uma placa me para ele, tornando-se uma opo lusitana de upgrade. bem possvel que no futuro sejam lanados outros modelos de processadores Overdrive, mas no espere ver boas opes. Adianta muito pouco trocar apenas o processador, mantendo a mesma velha e ultrapassada placa me, a mesma quantidade de memria de RAM, o mesmo velho e lento disco rgido etc. e vale menos pena ainda pagar caro por isso. Seria como comprar uma Braslia e trocar o motor, voc vai continuar com o mesmo carro velho. Na maioria das vezes, mais sensato gastar em mais memria RAM, num disco rgido maior e mais rpido, ou numa placa 3D, caso o micro seja utilizado para jogos. Um tal de 186 O 8086 foi o pai do 8088, que equipou os primeiros PCs. Depois vieram os processadores 286, que tambm conhecemos bem. Mas, entre as duas geraes, existiu um modelo intermedirio, pouco conhecido, mas igualmente importante. O 80186 uma evoluo do 8086, que trouxe algumas instrues novas e um sistema de tolerncia falhas. Apesar de no ter sido usado como processador em micros PC, o 80186 tornou-se um componente bastante popular, sendo usado em controladores de HDs, controladores de interrupo entre vrios outros perifricos. Nestas aplicaes, o 80186 continua em uso at hoje.

22

Caractersticas e recursos dos processadores Do MMX ao Pentium II: Na segunda parte deste super-tutorial, conhea os processadores Pentium MMX, K6, K6-2, K6-2, Cyrix 6x86, Media GX, IDT C6, Pentium Pro, Pentium II, Celeron e Xeon.Carlos E. Morimoto 30/10/2002 O 8086 foi lanado em 79, doze anos antes do Pentium MMX, lanado em 97. Doze anos na indstria de semicondutores, corresponde a 3 ou 4 geraes de processadores, uma eternidade. Mas, de 97 pra c, as coisas comearam a avanar ainda mais rpido. Em parte por causa da concorrncia entre a Intel, AMD, Cyrix, a novata Transmeta e at empresas como a IBM e a Motorola, que tambm fabricam chips, apesar de no diretamente para o mercado de PCs. Outro fator importante o aumento no nmero de processadores vendidos. Na dcada de 70, os poucos computadores pessoais que podiam ser encontrados venda, eram produzidos quase que artesanalmente e vendiam algumas centenas de unidades por ms. Hoje em dia, empresas como a Dell vendem milhes de PCs todos os anos. Com este crescimento astronmico, foi natural que os investimentos no desenvolvimento de novos processadores aumentassem na mesma proporo. Durante a dcada de 70, uma fbrica de microchips no custava mais do que alguns milhes de dlares. Hoje em dia, uma fbrica capaz de produzir processadores de ponta, no sai por menos de 3 bilhes de dlares. mais do que o PIB de muitos pases. Apesar tudo, o preo dos processadores vem caindo. Hoje em dia, processadores como o Duron e o Celeron custam menos de 100 dlares por unidade. O desempenho claro, inferior ao dos processadores topo de linha, que custam 300 ou 400 dlares, mas muito maior do que tudo o que vimos at agora. No futuro, os processadores se tornaro cada vez mais baratos e tero incorporadas cada vez mais funcionalidades. s ver o caso do coprocessador aritmtico e da memria cache. Na poca do 386, ambos eram espetados na placa me, enquanto hoje em dia so componentes de fbrica mesmo nos processadores mais simples. Componentes que hoje so adicionados na forma de placas de expanso ou fazem parte do chipset da placa me, como vdeo, som, rede, etc. mais cedo ou mais tarde tambm sero incorporados aos processadores. Continuaro existindo placas de alto desempenho para quem tiver interesse, mas graas integrao, ser possvel montar PCs bsicos muito mais baratos do que os atuais. Mesmo um processador de baixo custo, como todos estes componentes integrados, ser muito mais rpido que um atual. No estou falando de mais 12 anos, mas de apenas mais 2 ou 3 anos. As coisas agora esto avanando mais rpido lembra-se? :-) Mas, vamos encerrar nosso exerccio de futurologia por enquanto. Mais adiante teremos vrias outras oportunidades para exercitar nossa imaginao.

Pentium MMX No existem muitas diferenas entre o Pentium 1 e o MMX. Como o nome j sugere, a principal modificao foram as instrues MMX, que segundo o marketing feito pela Intel na poca, seriam suficientes para aumentar de forma considervel o desempenho do processador em aplicativos que envolvem multimdia. O problema que as instrues MMX ajudam apenas em aplicativos otimizados. necessrio que o desenvolvedor altere o cdigo do programa, substituindo as instrues x86 padro por instrues MMX, recompile e redistribua o programa, um processo que exige muito trabalho e custa dinheiro. Mesmo os programas lanados depois do MMX, nem sempre so otimizados para as novas instrues.

23

Para no depender apenas das novas instrues, a Intel aumentou o cache L1 do processador, de 16 para 32 KB. Com isto, o MMX passou a ser um pouco mais rpido do que um Pentium 1 da mesma frequncia, mesmo nos aplicativos sem otimizao. Lembre-se que naquela poca o cache L2 do processador ainda fazia parte da placa me e operava a apenas 66 MHz. Um cache L1 competente era essencial. A Intel lanou tambm, modelos de processadores MMX Overdrive, que podem substituir antigos processadores Pentium de 75, 100 ou 120 MHz com a simples troca do processador. O problema que estes processadores eram mais caros e difceis de encontrar, assim como os overdrives anteriores. Novamente uma pssima opo de upgrade, j o overdrive chegava a custar mais caro que um MMX normal junto com uma nova placa me.

Como funcionam as instrues MMX O Pentium um processador que trabalha com palavras binrias de 32 bits. O problema que muitas vezes preciso realizar clculos utilizando dados de 8 ou 16 bits, que so utilizados principalmente por programas de edio de imagem ou som. Pela lgica, seria possvel processar quatro palavras de 8 bits ou duas de 16 de cada vez, mas na prtica, o processador capaz de processar apenas um valor de cada de cada vez, independentemente do nmero de bits. A soma de dois nmeros de 8 bits demora tanto quanto a soma de dois nmeros de 32 bits, simplesmente os bits adicionais do processador no so utilizados. As instrues MMX, permitem juntar vrias palavras binrias de 8 ou 16 bits e transform-las em uma nica palavra maior, que pode ser processada (da mesma maneira que seria processada separadamente utilizando as instrues padro) usando instrues especficas do conjunto MMX. Para tornar mais fcil a tarefa de adaptar os programas para utilizar as instrues MMX, a Intel optou por adicion-las ao processador na forma de uma extenso do coprocessador aritmtico. Esta arquitetura traz a vantagem de no exigir praticamente nenhuma alterao no projeto do processador, pois seu funcionamento continua sendo idntico, apenas sendo remendado com as novas instrues. Um programa antigo, simplesmente ignorar as instrues MMX, e acabar no apresentando nenhum ganho de performance. Para tirar proveito das novas instrues, preciso que o programador altere o cdigo do programa, alterando suas rotinas para que as instrues MMX sejam utilizadas no lugar das instrues x86 padro. O ganho de performance real depende da habilidade do programador em detectar onde e como o MMX pode ser usado para tornar a execuo do programa mais rpida.

Um golpe de Marketing Teoricamente, as instrues MMX podem tornar a execuo de aplicativos grficos at 400% mais rpida, j que at 4 palavras de 16 bits poderiam ser processadas de cada vez. Outros aplicativos tambm poderiam ser muito beneficiados. Na prtica porm, os ganhos trazidos pelas instrues MMX so muito menores. Para comear, apenas algumas das rotinas utilizadas pelos programas podem ser otimizadas, j que a nica vantagem trazida pelas instrues MMX o processamento mais rpido de palavras de 8 ou 16 bits. A maioria das instrues continuam sendo executadas atravs das instrues x86 padro. Na prtica, apenas 30 ou 40% das instrues executadas pelos processadores de imagens poderiam ser executadas mais rpido, resultando em um ganho de performance em torno de 20 ou 30%. Trinta por cento de ganho real j no seria uma ganho to ruim, porm, mais um pequeno problema com as instrues MMX tornam o ganho de desempenho ainda menor. Como o acesso s instrues MMX feito atravs do mesmo barramento utilizado pelo coprocessador aritmtico, no possvel acessar ao mesmo tempo ambos os dispositivos. Ou seja, o programa pode ou executar uma instruo MMX ou uma instruo de ponto flutuante, nunca fazer as duas coisas ao mesmo tempo.

24

Para piorar um pouco mais a situao, um certo tempo perdido para alternar entre o acesso s instrues MMX e o uso do coprocessador aritmtico. Como os programas grficos so muito dependentes do coprocessador aritmtico, preciso constantemente alternar entre as instrues MMX e as instrues de FPU (do coprocessador aritmtico) fazendo com que o ganho de performance conseguido atravs do uso das instrues MMX seja em mdia de apenas 10 ou 12%. Vendo o pequeno ganho de desempenho que poderia ser conseguido atravs do MMX, poucas softwarehouses se interessaram em otimizar seus programas para as novas instrues. A adeso s instrues MMX foi to pequena que mesmo hoje, vrios anos depois do lanamento do MMX, praticamente pode-se contar nos dedos os programas realmente otimizados para as novas instrues, sendo que os programas otimizados rodam em mdia apenas 10% mais rpido. O MMX muito mais um golpe de Marketing, do que realmente um melhoramento nos processadores. Apesar dos ganhos anmicos de performance, as campanhas publicitrias da Intel foram to fortes que obrigaram concorrentes como a AMD e a Cyrix a tambm adotar o MMX em seus processadores, pois caso contrrio, simplesmente no conseguiriam vend-los. Infelizmente, apesar do estardalhao, as instrues MMX tornaram-se apenas um elefante branco da informtica.

AMD K6 Depois do fiasco do K5, a AMD trabalhou duro para atualizar seu projeto e lanar o K6 a tempo de competir com o MMX da Intel. Em termos de recursos, o K6 trazia 64 KB de cache L1 integrado ao processador e compatibilidade com as instrues MMX. Uma grande sacada da AMD com o K6 foi mant-lo compatvel com as placas me soquete 7 usadas pelo Pentium e Pentium MMX, facilitando bastante a vida dos usurios. Por causa de sua arquitetura mais avanada, o K6 supera em desempenho no somente o Pentium clssico, mas tambm o Pentium MMX, chegando perto at mesmo do Pentium II em muitos aplicativos. O calcanhar de Aquiles do K6 porm, seu coprocessador aritmtico, que possui uma arquitetura muito mais simples do que os modelos utilizados pela Intel no Pentium MMX e no Pentium II, sendo por isso bem mais lento. Apesar deste defeito no atrapalhar o desempenho do K6 em aplicativos de escritrio, faz com que seu desempenho em aplicativos grficos, como processamento de imagens ou vdeos, jogos com grficos tridimensionais (como o Quake II) fique bastante prejudicado. Nestes aplicativos o K6 chega a ser mais de 20% mais lento que um Pentium MMX do mesmo clock e uma porcentagem ainda maior se comparado com processadores Pentium II ou Pentium III. Na poca do lanamento, o K6 no era exatamente um processador de baixo custo, pelo contrrio, o mais enfatizado pela AMD era o seu bom desempenho em inteiros e sua arquitetura mais avanada. Na verdade, o K6 j um processador de sexta gerao, com uma arquitetura muito semelhante dos processadores Pentium II e Pentium III. A principal diferena entre a arquitetura destes processadores e do Pentium e Pentium MMX antigos que esta nova safra de processadores j incorpora um ncleo RISC, so na verdade processadores Post-RISC. Foi esta mudana de filosofia que permitiu que a frequncia dos processadores crescesse tanto nos ltimos tempos. Veja, um Pentium MMX de 233 MHz utiliza uma arquitetura de 0.35 mcron. Quanto menores os transstores, mais alta ser a frequncia de operao que o processador ser capaz de atingir. Seguindo esta regra, d para imaginar que se produzido numa tcnica de 0.13 mcron, como os processadores mais atuais, o 233 MMX pudesse operar a 700, talvez 800 MHz. Pois bem, a Intel j demonstrou um prottipo do Pentium 4 de 0.13 mcron operando a nada menos que 3.5 GHz. Ou seja, no foi apenas a miniaturizao dos transstores, mas tambm a evoluo nos projetos dos processadores que permitiram que a indstria de semicondutores chegasse aonde chegou.

Freqncia x Aquecimento

25

Quanto mais elevada for a freqncia de operao de um processador, maior ser a quantidade de calor gerado. Justamente por isso, os fabricantes procuram desenvolver novas tecnologias de fabricao, que permitam produzir chips com transstores cada vez menores, a fim de diminuir o consumo de energia e consequentemente a gerao de calor. As primeiras verses do K6 utilizavam uma tcnica de produo de 0.35 mcron e utilizavam tenso interna de 2.9 ou 3.2 volts. Estas primeiras sries so chamadas de modelo 6 e costumavam aquecer bastante, necessitando de um cooler de boa qualidade. A partir da verso de 233 MHz, o K6 passou a ser produzido usando uma nova tcnica de produo de 0.25 mcron, o que garante uma gerao de calor bem menor. Estas verses so chamadas de modelo 7 e operam com tenso de apenas 2.2v. Note que apesar do encaixe ser o mesmo, nem todas as placas soquete 7 oferecem os 2.2v exigidos pelos K6 modelo 7. Na verdade, a maioria das placas antigas s so capazes de fornecer 3.3 ou 3.5v, as tenses utilizadas pelo Pentium antigo. Todos os K6 de 166 e 200 MHz so produzidos usando-se a tcnica de produo de 0.35 mcron, enquanto que todos os processadores de 266 e 300 MHz o so pela tcnica de 0.25 mcron. O problema so os processadores de 233 MHz, pois estes foram fabricados com ambas as tcnicas, dependendo da srie. Para reconhecer um ou outro, basta olhar a voltagem que est estampada no processador.

Evoluo dos Processadores Desde o 4004 da Intel, lanado em 1971, os processadores evoluram assustadoramente. Os processadores no foram apenas os componentes dos computadores que mais evoluram, mas sim o dispositivo que evoluiu mais rpido em toda a histria da humanidade. No toa que o transstor foi considerado a inveno do sculo.

O grande segredo para esta evoluo vertiginosa pode ser contado em uma nica palavra: miniaturizao. Foi justamente a miniaturizao dos transstores que permitiu criar o circuito integrado, em seguida o microchip e processadores com cada vez mais transstores e operando a frequncias cada vez mais altas.

Para voc ter uma idia do quanto as tcnicas de construo de processadores evoluram, o 8088 possua apenas 29,000 transstores, e operava a apenas 4.7 MHz, enquanto o Pentium 4 tem 42.000.000 de transstores e opera a frequncias acima de 2.0 GHz.

Nmero de transstores: O primeiro transstor, criado no incio da dcada de 50, foi feito a mo e no era nada pequeno. Depois de algum tempo, passaram a construir transstores usando silcio e desenvolveram a litografia ptica, tcnica utilizada at hoje, que usa luz, mscaras e vrios produtos qumicos diferentes para esculpir as camadas do transstor, permitindo alcanar nvel incrveis de miniaturizao.

Veja agora uma tabela com o tamanho dos transstores usados em cada processador. Um mcron equivale a 1 milsimo de milmetro, ou a 1 milionsimo de metro.

AMD K6-2 Ao desenvolver o projeto do K6, os projetistas da AMD estavam convencidos de que o mais importante num processador era o seu desempenho em nmeros inteiros. Em parte eles estavam certos, se

26

voc j teve um 486 ou um Pentium I, quantos jogos 3D voc chegou a jogar nele? Poucos no mesmo? Quantas projetos voc fez no Cad ou quantas imagens 3D voc renderizou no 3D Max?

Mas, houve um pequeno erro de clculo neste raciocnio, as aplicaes 3D no eram populares na poca no por falta de interesse, mas por falta de potncia dos processadores para roda-los decentemente. Quando perceberam isso, o K6 j estava sendo produzido. O coprocessador aritmtico do K6 um projeto bastante simples e elegante. Apenas uma unidade de execuo faz todo o trabalho. Isto permitiu eliminar todos os componentes de controle que equipam o coprocessador aritmtico de processadores como o Pentium III e o Athlon que possuem respectivamente 2 e 3 unidades de execuo no coprocessador aritmtico. Com apenas uma unidade de execuo tambm possvel ter uma latncia mais baixa, ou seja, conseguir intervalos mais curtos entre cada instruo processada. Apesar de tudo, isso no foi o suficiente para dar condies para o K6 competir em p de igualdade com o Pentium II em ponto flutuante. Desenvolver um projeto de coprocessador aritmtico demora anos. Por isso, a AMD novamente optou por umas soluo elegante para tentar corrigir este problema no K6-2, seguiu o exemplo da Intel e incorporou novas instrues ao seu processador, o conjunto 3D-Now!, formado por 27 novas instrues que tem o objetivo de agilizar o processamento de imagens tridimensionais, funcionando em conjunto com uma placa aceleradora 3D. Como acontece com as instrues MMX, necessrio que o software usado faa uso do 3D-Now!, caso contrrio no existe ganho algum. Alm das novas instrues, os novos K6-2 trouxeram mais uma novidade (pelo menos para a poca) que foi o uso de bus de 100 MHz. Lembre-se que o K6-2 ainda utiliza cache L2 na placa me. Como o cache opera na mesma frequncia que o restante da placa, utilizar placas de 100 MHz trouxe uma grande vantagem para o K6-2, o cache L2 ficou 50% mais rpido, sem falar na memria RAM, que teve seu desempenho aumentado na mesma proporo. Apesar disso, a AMD continuou produzindo seus processadores K6-2 com o multiplicador destravado. Isso permite instalar processadores K6-2 em placas antigas, que trabalham a apenas 66 MHz, desde claro, que a placa suporte a tenso de 2.2v (ou 2.4v nas verses mais recentes) utilizada pelo processador. Um K6-2 de 300 MHz pode ser utilizado tanto numa placa me configurada para operar a 100 MHz com multiplicador de 3x, quanto numa outra, configurada para operar a 66 MHz com multiplicador de 4.5x. Naturalmente, o desempenho ser melhor na placa de 100 MHz, pela diferena na frequncia da memria e do cache L2. Tambm foi mantida a compatibilidade com as instrues MMX, com a possibilidade de executar at 2 instrues MMX por ciclo de clock. Todos os K6-2 so fabricados usando-se uma tcnica de produo de 0.25 mcron. por isso que o K6-2 chegou a apenas 550 MHz, antes de dar lugar ao Athlon e ao Duron, que trouxeram a resposta para a maior parte dos seus problemas.

3D-Now! x MMX Por incrvel que possa parecer, ao contrrio do MMX, o 3D-Now! da AMD conseguiu obter um grande apoio por parte dos desenvolvedores de jogos, conseguindo que a maioria dos jogos atuais sejam otimizados para as novas instrues. Aplicativos 3D otimizados para o 3D-Now! rodam de 10 a 20% mais rpido em processadores K6-2, resultando em um desempenho prximo ao alcanado pelo Pentium II. Existem tambm casos de drivers de vdeo otimizados para o 3D-Now!, como os drivers Detonator para placas nVidia (TnT, TnT 2, GeForce, etc.) que garantem um ganho de desempenho considervel mesmo em jogos sem otimizao. A diferena bsica entre o MMX e o 3D-Now!, que enquanto o MMX permite apenas melhorar sutilmente o desempenho do processador no clculo de nmeros inteiros, onde tanto o Pentium, quanto o K6 e o 6x86 da Cyrix so fortes, o 3D-Now! capaz de melhorar o desempenho do K6-2 onde ele mais precisa, no clculo de nmeros de ponto flutuante. Basicamente, temos uma extenso do coprocessador

27

aritmtico, que permite a ele desempenhar suas funes de maneira mais rpida, atravs de instrues mais eficientes. O 3D-Now continua presente no Athlon e no Duron, os processadores AMD atuais. Apesar de ambos possurem um coprocessador muito poderoso, capaz de executar 3 instrues por ciclo, o 3D-Now! continua prestando bons servios.

AMD K6-3 Apesar de desde o final da era 486 a AMD utilizar tecnologia prpria, sempre conseguiu lanar bons processadores, que muitas vezes introduziam novas tecnologias que viriam a ser utilizadas apenas nas prximas geraes de processadores Intel, chegando muitas vezes at a superar os processadores Intel em performance, quase sempre custando menos. O problema que sempre que a AMD conseguia lanar um processador novo, a Intel j estava dois ou trs passos frente, restando AMD competir com chips obsoletos da Intel no mercado de PCs de baixo custo. Foi assim com o K5, com o K6, e at certo ponto com o K6-2. Vender chips de baixo custo pode ser uma boa maneira de aumentar a participao no mercado, mas definitivamente no a melhor maneira de conseguir obter lucro. Lanado em novembro de 98, o Sharptooth, ou simplesmente K6-3 foi a primeira tentativa da AMD em competir diretamente com os processadores topo de linha da Intel, que na poca eram os Pentium II de 500 e 550 MHz. Como o K6-3 possui uma arquitetura bem diferente do Pentium II, no to fcil fazer uma comparao direta, j que cada processador acaba saindo-se melhor em um tipo de aplicao.

O cache de trs nveis O cache surgiu na poca dos processadores 386, como uma forma de acelerar o acesso aos dados gravados na memria RAM. Inicialmente, tnhamos apenas alguns Kbytes de cache espetados na placa me, mas, quando a Intel desenvolveu o 486, embutiu uma pequena quantidade de memria cache dentro do processador. Tnhamos agora dois tipos de cache diferentes, um interno ao processador, e outro espetado na prpria placa me. Para diferenciar os dois, o cache incorporado ao processador passou a ser chamado de cache nvel um, ou L1, enquanto o cache da placa me passou a ser chamado de nvel 2, ou L2. A diferena entre o cache L1 e o cache L2 reside na velocidade. Enquanto o cache L1 trabalha na frequncia do processador, possuindo tempos de acesso extremamente baixos, o cache L2 trabalha na frequncia da placa me, sendo bem mais lento do que o cache L1. Justamente por ser mais lento, o cache nvel 2 mais barato, possibilitando o uso de quantidades maiores. Mesmo nos processadores atuais, onde o cache L2 tambm faz parte do processador, a velocidade mais baixa. Os dados mais requisitados pelo processador so inicialmente armazenados no cache L2, sendo os dados que o processador est processando no momento, juntamente com alguns outros dados importantes, transferidos para o cache L1. Assim que o processador termina de processar uma determinada rotina e passa para a prxima, so trocados os dados do cache L1, evitando ao mximo que o processador precise acessar dados contidos no cache L2 (que sempre ser mais lento) e principalmente acessar diretamente a memria RAM, o que resultaria em uma grande perda de tempo. Nos processadores atuais, a velocidade e a quantidade de memria cache so muito mais importantes que a prpria velocidade da memria RAM. Vou usar um exemplo tosco, s para tentar tornar mais claro este tema: Imagine que num sistema qualquer, 40% das vezes que o processador necessite de dados, encontre-os no cache L1, 45% da vezes precise recorrer ao cache L2, e em 15% dos casos os dados no estejam gravados no cache e o processador precise busca-los diretamente na memria RAM. Imagine que neste sistema, um acesso ao cache L1 demore 2 nanossegundos, um acesso ao cache L2 demore 6 nanos, e um acesso memria RAM demore 50 nanos ( apenas um exemplo). Usando a estatstica anterior (40-45-15), 1000 acessos dados demorariam 12.800 nanos (400 x 2 + 450 x 6 + 150 x 50).

28

Imagine agora que aumentamos o tamanho do cache L1 deste processador, aumentamos a velocidade do cache L2, mas foi mantida a mesma memria RAM. Neste caso, poderamos imaginar que em 50% das vezes que o processador precisar de dados, os encontrar no cache L1 (j que agora maior do que no exemplo anterior), em 40% das vezes encontrar os no cache L2 e em 10% das vezes ser necessrio um acesso memria RAM. Imaginando que um acesso ao cache L1 continue demorando 2 nanos (j que aumentamos apenas seu tamanho, e no a velocidade), um acesso ao cache L2 passe a demorar 4 nanos depois de aumentarmos sua velocidade, e um acesso memria RAM continue demorando os mesmos 50 nanos, 1000 acessos demorariam agora apenas 6600 nanos (500 x 2 + 400 x 4 + 100 x 50), uma diminuio de quase 50%, muito mais do que conseguiramos aumentando a velocidade da memria RAM. Terminando, imagine agora, que fosse acrescentado um cache nvel 3, um pouco mais lento do que o cache L2, mas em uma quantidade um pouco maior, e que um acesso a este novo cache demore 10 nanos. Manteramos ento um cache-hit de 50% no cache L1, 40% no cache L2, mas passaramos a ter um cache-hit de (digamos) 5% no cache L3, fazendo com que em apenas 5% dos casos fosse necessrio um acesso memria RAM. Os 1000 acessos demorariam ento apenas 5600 nanos (500 x 2 + 400 x 4 + 50 x 10 + 50 x 50), um aumento de quase 15% na velocidade de acesso, que certamente resultaria em um aumento considervel na velocidade global do equipamento. A idia do K6-3 justamente essa, aumentar o desempenho atravs de uma maior eficincia da memria cache. O K6-3 traz os mesmos 64 KB de cache L1 do K6-2, mas vem agora com 256 KB de cache L2 embutidos no encapsulamento do processador, cache que trabalha na mesma frequncia do processador, assim como o cache usado no Celeron e no Pentium II Xeon. Ora, se apenas 128 KB de cache L2 trabalhando na frequncia do processador, conseguiram transformar o anmico Celeron sem cache, em um processador cujo desempenho chega at mesmo a superar o desempenho do Pentium II em alguns aplicativos, imagine o que o dobro dessa quantidade no pode fazer pelo K6-3. Para aumentar ainda mais o desempenho do K6-3, a AMD resolveu aproveitar tambm o cache L2 encontrado em todas as placas me Soquete 7, passando a usa-lo como um cache L3. O funcionamento do cache da placa me continua idntico, apenas mudamos seu nome. O uso do cache L3 consegue aumentar de 3 a 8% o desempenho do K6-3, dependendo da quantidade usada. No chega a ser nenhuma revoluo, mas um ganho bem perceptvel, principalmente se lembrarmos que o Pentium II apenas 3 ou 5% mais rpido do que o K6-2 em aplicativos de escritrio. Testando o K6-3 em uma placa me com 512 KB de cache, o ganho de performance fica em cerca de 3.8%. Segundo nmeros obtidos por outros usurios, o ganho de performance com 1024 KB de cache fica em torno de 6%, chegando a 8% no caso de placas me com 2048 KB de cache. O que mais mudou? Fora a incluso do cache L2 trabalhando na mesma frequncia do processador, e do uso do cache L3, o K6-3 trouxe poucas mudanas sobre o antigo K6-2. Foram feitas algumas alteraes nos registradores do processador, mas nada gritante. O K6-3 continua utilizando as 21 instrues 3D-Now! e o mesmo coprocessador aritmtico do K6-2. Este o grande problema. O maior defeito do K6-2 no o cache, mas sim o prprio coprocessador aritmtico, com apenas uma unidade de execuo, que apesar do reforo do 3D-Now! No foi alterado desde o primeiro modelo do K6. Graas ao cache rpido, o K6-3 consegue at mesmo superar um Pentium III da mesma frequncia em aplicativos de escritrio, mas continua perdendo em jogos e aplicativos grficos. Mantendo a idia de deixar de ser uma mera coadjuvante e passar a realmente competir em p de igualdade com a Intel, a AMD resolveu investir pesado para desenvolver um coprocessador decente para seu prximo processador, o Athlon, que veremos com mais detalhes adiante. Por sinal, o investimento valeu pena, pois o coprocessador aritmtico do Athlon consegue no apenas igualar o desempenho do coprocessador do Pentium III, mas chega a super-lo. Realmente o desempenho do Athlon vem

29

surpreendendo, principalmente pelo fato da AMD desta vez estar conseguindo lanar verses mais rpidas antes da Intel.

Compatibilidade Na poca em que o K6-3 foi lanado, existia um enorme contingente de usurios de equipamentos baseados em placas me Super-7, entre usurios de processadores AMD e de processadores Cyrix, que sem dvida se sentiam muito mais inclinados a trocar seu processador por outro que continuasse utilizando o soquete 7, permitindo um upgrade sem necessidade de troca da placa me. Percebendo isso, a AMD optou por tornar o K6-3 totalmente compatvel com as placas me soquete 7, mantendo apenas a velha exigncia de que a placa me seja capaz de fornecer a tenso correta para o processador e seja capaz de sinalizar o multiplicador correto. Qualquer placa me que suporte o AMD K6-2 de 400 MHz, suportar tambm o K6-3 de 400 e 450 MHz sem problema algum, dispensando inclusive upgrades de BIOS. A voltagem utilizada pelo K6-3 tambm a mesma utilizada pelo K6-2: 2.2v, dispensando qualquer configurao adicional. Tambm no preciso configurar nada relacionado ao cache L3, pois espetando o K6-3 na placa me, o cache da placa passa automaticamente a ser reconhecido como cache L3, novamente dispensando qualquer configurao adicional. Resumindo, basta configurar o multiplicador da placa me para 4x 100 MHz, ou 4.5x 100 (no caso do K6-3 de 450 MHz) e a voltagem para 2.2v para que tudo funcione.

Cyrix 6x86MX Voltando um pouco no tempo, o 6x86MX foi o concorrente da Cyrix para o MMX da Intel. Como o K6, este processador traz 64 KB de cache L1, instrues MMX, e oferece compatibilidade com as placas me soquete 7. A performance em aplicaes Windows muito parecida com um K6, porm, o coprocessador aritmtico ainda mais lento do que o que equipa o K6, tornando muito fraco seu desempenho em jogos e aplicativos que faam uso intenso de clculos de ponto flutuante. Enquanto o K6 usa um coprocessador aritmtico simples, com apenas uma unidade de execuo, mas com otimizaes para ser capaz de executar uma instrues por ciclo, o coprocessador 6x86MX da Cyrix pode demorar vrios ciclos para processar cada instruo. Apenas as instrues simples so executadas em um nico ciclo. Enquanto o coprocessador aritmtico do K6 cerca de 20% mais lento que o do MMX, o do 6x86MX chega a ser 50% mais lento, sem nem mesmo instrues especiais, como o 3D-Now! Para tentar salvar a ptria. Para aplicaes de escritrio como o Office, o 6x86MX foi at uma boa opo devido ao baixo custo do processador, que custava at metade do preo de um MMX, mas ele no era nada adequado para PCs destinados principalmente a jogos ou aplicaes grficas. O 6x86MX usa tenso de 2.9v mas, segundo o fabricante, caso a placa me no oferea esta tenso especfica, podemos usar a voltagem 2.8v, como no MMX, sem problemas. Como o K5, o 6x86 adota o ndice Pr, agora comparando seu desempenho com o de um Pentium. O 6x86MX encontrado nas verses PR150 (120 MHz), PR166 (133 MHz), PR200 (166 MHz), PR233 (187 ou 200 MHz dependendo da srie) e PR266 (225 ou 233 MHz). O uso do ndice Pr j foi causador de muita confuso. Alguns usurios chegavam a pensar que o Cyrix Pr 266 trabalhava realmente a 266 MHz e no a 233 MHz e acabavam achando que o processador estava com algum defeito, por no trabalhar na frequncia correta. Felizmente, o ndice Pr deixou de ser usado. Mesmo os processadores atuais da Cyrix, os C3 so vendidos segundo sua frequncia real de operao, apesar de alguns j defenderem a volta do ndice Pr no caso do Athlon da AMD, que consideravelmente mais rpido que um Pentium 4 da mesma frequncia.

30

Cyrix 6x86MII O MII foi na verdade apenas uma continuao da srie 686MX, alcanando agora ndices PR 300, 333, 350 e 400. Como o 686MX, o MII utiliza tenso de 2.9v ou 2.8v caso a placa no suporte a ideal. Um dos maiores problemas no 6x86 justamente seu aquecimento exagerado. Mesmo nas suas verses mais rpidas era utilizada uma tcnica de fabricao de 0.35 mcron, resultando em um aquecimento considervel, que pode causar travamentos caso no sejam tomados alguns cuidados. Ao usar um 6x86 sempre essencial adquirir um bom cooler.

Cyrix Media GX O Media GX um processador 6x86MX acrescido de circuitos controladores de memria e cache, assim como controladores de vdeo e som, que se destina ao mercado de PCs de baixo custo e, principalmente, a notebooks. Quando usado em computadores portteis, o Media GX traz a vantagem de consumir pouca eletricidade, proporcionando maior autonomia da bateria. J os micros de mesa equipados com o Media GX pecam por oferecerem poucas possibilidades de upgrade. Por exigir uma placa me especfica, o media GX destina-se somente aos computadores de arquitetura fechada. Justamente por isso ele foi utilizado apenas em alguns micros de grife.

IDT C6 Lanado no incio de 98, o C6 foi a tentativa da IDT de entrar no mercado de processadores, competindo na faixa de processadores de baixo custo com o MMX e o 6x86 MX. Tecnicamente, o C6 no traz nenhuma novidade. Basicamente temos uma arquitetura no superescalar simples, que lembra um pouco a dos micros 486, combinada com um cache L1 de 64 KB, dividido em dois blocos de 32 KB. O coprocessador tambm fraco, ficando atrs at mesmo dos processadores Cyrix. O C6 foi lanado em verses de 180, 200, 225 e 240 MHz, utiliza placas me soquete 7 e tenso de 3.5v, como o Pentium antigo. Apesar do pouco sucesso alcanado com o C6, a IDT lanou depois de algum tempo o C6+, que incorporou instrues equivalentes ao 3D-Now! da AMD, e passou a usar barramento de 100 MHz mas que, como no caso anterior, acabou sendo praticamente ignorado pelo mercado. Foi ltimo processador lanado por esta companhia.

Pentium Pro At aqui, apresentei os processadores numa ordem mais ou menos cronolgica (ok, nem to cronolgica assim :-), mas acabei abrindo uma exceo para o Pentium Pro. Na verdade, este processador foi lanado bem antes do MMX, sendo praticamente um contemporneo do Pentium Clssico. Porm, a arquitetura usada no Pentium Pro foi usada como base para o Pentium II e o Pentium III, assim como para o Xeon e o Celeron, processadores que examinaremos com detalhes mais adiante. O Pentium Pro foi desenvolvido para competir no mercado de mquinas de alto desempenho, equipando Workstations e servidores. Apesar de usar um pouco da tecnologia do Pentium, o Pentium Pro um projeto quase que totalmente novo, trazendo brutais alteraes na arquitetura. Entre as inovaes trazidas pelo Pentium Pro, podemos destacar a arquitetura superescalar com trs canalizaes, o suporte a multiprocessamento com at 4 processadores trabalhando em paralelo e o cache L2 integrado ao processador. O barramento de endereos do Pentium Pro tambm foi ampliado, de 32 para 36 bits, permitindo ao Pentium Pro enderear at 64 GB de memria (2 elevado 36).

31

Pode parecer um exagero, afinal, mesmo hoje em dia dificilmente um PC tem mais de 256 ou 512 MB de memria. Mas, muitos servidores de alto desempenho usam muito mais memria do que isto, chegando casa de alguns terabytes em alguns supercomputadores. Toda esta memria RAM permite executar simulaes complexas e clculos inimaginveis. Se no fosse este tipo de equipamento, a previso do tempo no seria to precisa :-)

Trs unidades de execuo Enquanto o Pentium pode processar at duas instrues simultaneamente, o Pentium Pro possui trs unidades de execuo, o que permite processar at trs instrues por ciclo. Mas, as coisas no so to simples quanto parecem, pois os programas continuam esperando por um processador capaz de executar uma nica instruo por ciclo, como um 486. Apenas de alguns anos pra c que os aplicativos comerciais comearam a ser otimizados para a arquitetura do Pentium Pro (e consequentemente tambm para o Pentium III, Celeron e Athlon, que tem um funcionamento semelhante). O Linux leva uma certa vantagem neste aspecto, pois possvel, a qualquer momento recompilar o Kernel do sistema para otimiza-lo para qualquer processador, garantindo um desempenho bastante superior. Novos problemas, novas solues. Para garantir que as outras duas unidades de execuo no acabassem ociosas na maior parte do tempo foi includo tambm o recurso de execuo de instrues fora de ordem. Caso chegue ao processador uma instruo como Se X >10, ento Y = X + 2, seno Y = X + 5 onde as prximas instrues dependem da resoluo da primeira, a unidade de controle vasculhar o cdigo do programa em busca de instrues que possam ser executadas antecipadamente. Atravs deste recurso, enquanto uma das canaletas se ocupa em resolver o primeiro problema, as demais podem se dedicar a resolver as instrues seguintes, ganhando tempo. Caso no seja possvel localizar nenhuma instruo que possa ser adiantada, entra em cena o recurso de execuo especulativa, tomando um dos caminhos possveis. No to vantajoso, pois existe uma grande chance do processador tomar o caminho errado, e ter de recomear o trabalho quando perceber o erro, mas melhor do que no fazer nada enquanto a condio est sendo processada.

Cache L2 integrado O engenheiro da Intel que inventou a multiplicao de clock deve ter ganho vrios prmios, afinal, este recurso foi um dos fatores que possibilitaram as frequncias assombrosas dos processadores atuais. Mas, este recurso tambm tem seus efeitos colaterais. Um deles, notado at mesmo num 486, a lentido do cache L2, pois como ele tradicionalmente se localizava na placa me, tinha sua freqncia de operao limitada velocidade da placa, ou seja, apenas 33, 66 ou 100 MHz, muito mais lento que o processador. Tnhamos ento um gargalo, pois frequentemente os poucos dados gravados no cache L1 se esgotavam, fazendo com que o processador precisasse perder vrios ciclos esperando que novos dados fossem entregues pelo cache L2. Para solucionar este problema, a Intel resolveu integrar o cache L2 ao Pentium Pro, criando tambm um novo barramento, batizado de Backside Bus dedicado unicamente comunicao entre o ncleo do processador e o cache L2. O uso de um barramento separado, permite que o cache opere na mesma freqncia do processador, independentemente da velocidade da placa me, trazendo a vantagem adicional de permitir o acesso simultneo memria RAM, j que temos dois barramentos distintos.

Mesmo com o cache L2 trabalhando na mesma freqncia do processador, o cache L1 continua sendo necessrio, pois apesar dos dois caches operarem na mesma freqncia, o barramento de dados do cache L1 bem maior, o que permite taxas de transferncias muito mais altas. O tempo de resposta do

32

L1 tambm menor, pois alm de nele serem usadas memrias mais rpidas, a distncia fsica a ser percorrida pelo sinal ser sempre muito menor, j que o L1 faz parte do ncleo do processador. Justamente devido ao cache, o Pentium Pro era muito difcil de produzir, pois a complexidade do cache L2 resultava em uma alta taxa de defeitos de fabricao. Como no Pentium Pro o cache L2 est embutido no mesmo invlucro do processador, um defeito no cache L2 condenava todo o processador lata de lixo. Os problemas de fabricao contribuam para tornar o Pentium Pro ainda mais caro. Apesar de compartilhar o mesmo invlucro do processador, o cache L2 do Pentium Pro formado por um chip separado. Isso permitiu que a Intel lanasse vrias verses do Pentium Pro, equipadas com quantidades variadas de cache. Existiram trs verses, com 256 KB, 512 KB e 1 MB de cache. O preo claro, crescia exponencialmente junto como cache, por isso os de 256 KB foram praticamente os nicos a serem comercializados em PCs domsticos e Workstations. Quanto frequncia de operao, existiram apenas duas verses, de 166 MHz e 200 MHz. A limitao bsica no foi a arquitetura do processador, mas sim o cache. Na poca, a Intel tinha condies de lanar verses bem mais rpidas, mas no tinha como produzir chips de cache capazes de operar a mais de 200 MHz.

Multiprocessamento O Pentium Pro permite o uso de at 4 processadores na mesma placa me. Neste caso, as regras so as mesmas do multiprocessamento no Pentium, sendo necessria uma placa me especial e um sistema operacional com suporte ao multiprocessamento. Apesar deste recurso no ser muito til para um usurio domstico, ele permitiu o desenvolvimento de servidores com um desempenho incrvel a um custo relativamente baixo, usando o Pentium Pro no lugar de caros processadores RISC topo de linha disponveis na poca. Os mainframes com 2 ou 4 processadores Pentium Pro apresentavam um desempenho to bom, graas ao cache rpido, que muitas empresas continuam utilizando-os at hoje, mesmo depois do lanamento de processadores muito mais rpidos.

Soquete 8 Com a grande mudana na arquitetura do processador e o novo encapsulamento, o Pentium Pro deixou de ser compatvel com as velhas placas soquete 7 usadas pelos processadores anteriores. Foi criado ento um novo tipo de soquete, batizado de soquete 8, que foi utilizado apenas em placas para processadores Pentium Pro. Estas placas so naturalmente incompatveis com o Pentium, MMX, K6, etc. Para permitir o uso de todos os novos recursos trazidos pelo Pentium Pro, foi criado tambm o chipset i440FX, que equipa a maioria das placas me para Pentium Pro. O soquete 8 bem maior do que o soquete 7 utilizado pelo Pentium clssico e similares, e possui tambm uma pinagem diferenciada que impede que o processador seja encaixado ao contrrio. Como no Pentium Pro o cache L2 integrado ao processador, as placas para ele no possuem cache algum.

Arquitetura otimizada para instrues de 32 Bits O Pentium Pro pode ser considerado um processador Post-RISC, pois basicamente o processador composto por um ncleo formado por 3 processadores RISC (as trs unidades de execuo de instrues) e trs decodificares, com a funo de converter as instrues x86 usadas pelos programas em instrues mais simples, que possam ser processadas pelo ncleo RISC. Instrues simples, como operaes de soma

33

e atribuio, podem ser convertidas em uma nica instruo RISC, enquanto instrues mais complexas precisam ser quebradas em vrias instrues simples, precisando ento de vrios ciclos para serem processadas. Este esquema funciona muito bem com instrues de modo protegido (32 bits), mas o decodificador do Pentium Pro possui uma certa dificuldade para trabalhar com instrues de modo real (16 bits), que acabam sendo decodificadas em muitas instrues RISC, demorando muito mais para serem processadas. Rodando sistemas operacionais de 32 bits, como o Windows NT, Windows 2000, OS/2, Linux e UNIX, o Pentium Pro apresenta um desempenho bastante superior ao Pentium Clssico. Porm, rodando sistemas de modo real, como o MS-DOS, ou hbridos, como o Windows 95/98, mesmo com o cache mais rpido, o Pentium Pro acaba apresentando um desempenho equivalente, ou at mesmo um pouco mais baixo que um Pentium comum. No caso de servidores, esta no chegava a ser uma limitao, pois, invariavelmente estas mquinas rodavam verses do Unix, Netware ou Windows NT, sempre sistemas de 32 bits. Os usurios domsticos porm, acabaram sendo penalizados pelo fraco desempenho do Pentium Pro rodando o Windows 95/98, sistemas que ainda possuem muito cdigo de 16 bits. Para uso domstico, no faria muito sentido o uso de um Pentium Pro. Porm, num servidor, o cache L2 funcionando na mesma velocidade do processador faz muita diferena, pois o processamento de dados nestas mquinas muito repetitivo, tanto que, mesmo com o surgimento do Pentium II (onde o cache L2 apesar de ser de 512 KB funciona a apenas metade da velocidade do processador) muitos ainda preferiram continuar usando o Pentium Pro, pois alm do cache, ele oferece recursos interessantes para uma mquina servidora, como a possibilidade de usar at quatro processadores em paralelo (o Pentium II limitado a dois processadores), alm da maior quantidade de memria suportada, recursos que s foram superados pelo Xeon, o atual processador Intel destinado a servidores, que traz uma quantidade maior de cache L2, e j encarnou na forma de verses especiais do Pentium II, Pentium III e agora do Pentium 4.

Pentium II A Intel desenvolveu o Pentium II, usando como base o projeto do Pentium Pro. Foram feitas algumas melhorias de um lado, e retirados alguns recursos (como o suporte a 4 processadores) de outro, deixando o processador mais adequado ao mercado domstico. A mudana mais visvel no Pentium II o novo encapsulamento SEPP (Singled Edge Processor Package). Ao invs de um pequeno encapsulamento de cermica, temos agora uma placa de circuito, que traz o processador e o cache L2 integrado. Protegendo esta placa, temos uma capa plstica, formando um cartucho muito parecido com um cartucho de video-game. Novamente, foi alterado o encaixe usado pelo processador. O Pentium II no compatvel tanto com as placas soquete 7, quanto com as placas para Pentium Pro, exigindo uma placa me com o encaixe slot 1. A maioria dos usurios no gostou muito da idia, j que por utilizar um novo encaixe, o Pentium II era incompatvel com as placas me soquete 7 disponveis at ento, o que obrigava os usurios a trocar tambm a placa me no caso de um upgrade. O uso do slot 1 no deixa de ser uma poltica predatria da Intel, pois tendo sido criado e patenteado por ela, outros fabricantes no podem fazer uso dessa tecnologia em seus processadores. A utilizao do slot 1 pela Intel foi o primeiro passo para a salada de padres e tecnologias proprietrias que temos atualmente no ramos dos processadores. Porm, do ponto de vista da Intel, a mudana foi necessria, pois a presena do cache L2 na placa me limitava sua freqncia de operao aos 66 ou 100 MHz da placa me, formando um gargalo. gdh4Pentium II

34

Na poca, a Intel no tinha outra soluo para mover o cache L2 para mais perto do ncleo do processador e ao mesmo tempo manter custos aceitveis de produo. A tcnica utilizada no Pentium Pro, onde o cache L2 fazia parte do encapsulamento do processador, mas era composto por um chip separado, era mais cara e gerava um ndice de defeitos muito maior, o que aumentava os custos de produo. J que no tinha outra opo melhor, acabou optando pelo uso do encapsulamento SEPP. Fora o aspecto externo, o Pentium II traz um cache L1 de 32 KB (dividido em dois blocos de 16 KB para dados e instrues), cache L2 integrado de 512 KB e compatibilidade com as instrues MMX. Como os processadores anteriores, o Pentium II tambm oferece suporte a at 4 GB de memria RAM. Como o Pentium II foi desenvolvido para o mercado domstico, onde ainda o Windows 98 o sistema operacional mais utilizado, a Intel deu um jeito de solucionar o problema do Pentium Pro com instrues de 16 bits, adicionando ao processador um registrador de segmento. Ao contrrio do Pentium Pro, seu antecessor, o Pentium II pode processar instrues de 16 bits to rapidamente quanto processa as de 32, oferecendo um bom desempenho rodando o DOS, Windows 3.x ou Windows 95/98.

Cache L2 integrado O Pentium II traz integrados ao processador, nada menos que 512 KB de cache L2, o dobro da quantidade encontrada na verso mais simples do Pentium Pro. No Pentium II porm, o cache L2 trabalha a apenas metade do clock do processador. Em um Pentium II de 266 MHz por exemplo, o cache L2 trabalha a 133 MHz, o dobro da frequncia do cache encontrado nas placas me soquete 7, mas bem menos do que os 200 MHz do cache encontrado no Pentium Pro. A Intel optou por usar este cache mais lento para solucionar trs problemas que atrapalharam o desenvolvimento e a popularizao do Pentium Pro: O primeiro o alto grau de incidncia de defeitos no cache. O cache full-spped do Pentium Pro era muito difcil de se produzir com a tecnologia existente na poca, o que gerava um ndice de defeitos muito grande. Como no possvel testar o cache separado do processador, era preciso ter o processador pronto para depois testar todo o conjunto. Se o cache apresentasse algum defeito, ento todo o processador era condenado lata do lixo. Este problema inutilizava boa parte dos processadores Pentium Pro produzidos, resultando em custos de produo mais altos e consequentemente preos de venda mais elevados, que tornavam o Pentium Pro ainda mais inacessvel ao consumidor final. O cache mais lento utilizado no Pentium II era mais fcil de se produzir, e ao mesmo tempo o formato SEPP permite substituir os chips de cache durante o processo de fabricao, caso estes apresentassem defeito. O segundo problema a dificuldade que a Intel encontrou para produzir memrias cache rpidas na poca do Pentium Pro; dificuldade acabou impossibilitando o lanamento de processadores desta famlia operando a mais de 200 MHz. Naquela poca, a Intel ainda no tinha tecnologia suficiente para produzir mdulos de cache L2 capazes de trabalhar a mais de 200 MHz, com um custo de produo aceitvel. Se o cache L2 do Pentium II operasse na mesma freqncia do processador, o mesmo problema logo voltaria a aparecer, atrapalhando o desenvolvimento de verses mais rpidas. Por ltimo, temos o fator custo, pois utilizando memrias cache um pouco mais lentas no Pentium II, os custos de produo se reduzem, tornando o processador mais atraente ao mercado domstico. Voc nunca encontrar venda uma placa me para Pentium II com cache, j que o cache L2 j vem embutido na placa de circuito do processador.

Arquitetura O Pentium II foi produzido em duas arquiteturas diferentes. As verses de at 300 MHz utilizam a arquitetura Klamath, que consiste numa tcnica de fabricao de 0.35 mcron, muito parecida com a utilizada nos processadores Pentium MMX. Nas verses a partir de 333 MHz j utilizada a arquitetura Deschutes de 0.25 mcron, que garante uma dissipao de calor muito menor, o que possibilitou o desenvolvimento de processadores mais rpidos.

35

Vale lembrar tambm que no Pentium II no preciso se preocupar em configurar corretamente a tenso do processador, pois isto feito automaticamente pela placa me. S para matar sua curiosidade, os processadores baseados na arquitetura Klamath utilizam 2.8 volts, enquanto os baseados na arquitetura Deschutes utilizam 2.0 volts. Note apenas que necessrio que a placa suporte a voltagem utilizada pelo processador. Se voc tiver em mos uma placa slot 1 antiga, que trabalhe apenas com tenses de 2.8 e 2.0v, voc no poder utilizar por exemplo um Pentium III Coppermine, que usa tenso de 1.75v. Em muitos casos este problema pode ser resolvido com um upgrade de BIOS, cheque se existe algum disponvel na pgina do fabricante. Uma ltima considerao a respeito dos processadores Pentium II sobre a freqncia de barramento utilizada pelo processador. As verses do Pentium II de at 333 MHz usam bus de 66 MHz, enquanto que as verses a partir de 350 MHz usam bus de 100 MHz, o que acelera a troca de dados entre o processador e a memria RAM. Lembra-se do recurso de Pipeline introduzido no 486? Enquanto o Pentium clssico, assim como o Pentium MMX mantm a mesma estrutura bsica do 486, com um Pipeline de 5 nveis, o Pentium II por utilizar a mesma arquitetura do Pentium Pro possui um Pipeline de 10 estgios. Alm de melhorar a performance do processador, o uso de um Pipeline de mais estgios visa permitir desenvolver processadores capazes de operar a frequncias maiores. A idia que com um Pipeline mais longo, o processador capaz de processar mais instrues simultaneamente. Porm, ao mesmo tempo, o Pentium II possui um ncleo RISC, o que significa que internamente ele processa apenas instrues simples. A combinao destes dois fatores permite simplificar a operao de cada estgio do Pipeline, fazendo com que cada estgio execute menos processamento, mas em conjunto consigam executar as mesmas tarefas, j que so em maior nmero. Executando menos processamento por ciclo em cada estgio, possvel fazer o processador operar a frequncias mais altas, sem sacrificar a estabilidade. Na prtica, existe a possibilidade de desenvolver processadores mais rpidos, mesmo utilizando as mesmas tcnicas de fabricao.

Multiprocessamento Ao contrrio do Pentium Pro, o Pentium II oferece suporte ao uso de apenas dois processadores simultaneamente, como o Pentium comum. Esta mais uma adaptao feita para diminuir um pouco o preo de venda. Outra razo desta limitao, tornar mais atraente o Pentium II Xeon (pronuncia-se Zion), basicamente um Pentium II equipado com um cache mais rpido, suporte ao uso de at 8 processadores e suporte a mais memria RAM. Naturalmente, o Xeon um processador muito mais caro, dedicado ao mercado de servidores e Workstations.

Celeron Com o lanamento do Pentium II, a Intel abandonou a fabricao do Pentium MMX, passando a vender apenas processadores Pentium II que eram muito mais caros. O problema com esta estratgia foi que a Intel passou a perder terreno rapidamente no mercado de PCs de baixo custo, para os processadores K6 e 6x86 respectivamente da AMD e da Cyrix, que apesar de apresentarem um desempenho ligeiramente inferior, custavam menos da metade do preo de um Pentium II do mesmo clock. Tentando consertar a besteira, a Intel resolveu lanar uma verso de baixo custo do Pentium II, batizada de Celeron, do Latin Celerus que significa velocidade. O Celeron original, nada mais era do que um Pentium II desprovido do Cache L2 integrado e do invlucro plstico, responsveis por boa parte dos custos de produo do Pentium II, ou seja, vinha pelado. impossvel evitar uma comparao com o 486SX, que no passava de uma verso castrada do 486DX.

36

As primeiras verses do Celeron, que incluem todos os de 266 MHz e alguns dos de 300 MHz, no traziam cache L2 algum e por isso apresentavam um desempenho muito fraco na maioria dos aplicativos, apesar de ainda conservarem um desempenho razovel em jogos e aplicativos que utilizam muito o coprocessador aritmtico. O Cache L2 um componente extremamente importante nos processadores atuais, pois apesar da potncia dos processadores ter aumentado quase 10,000 vezes nas ltimas duas dcadas, a memria RAM pouco evoluiu em velocidade. Pouco adianta um processador veloz, se ao todo instante ele tem que parar o que est fazendo para esperar dados provenientes da memria RAM. justamente a que entra o cache secundrio, reunindo os dados mais importantes da memria para que o processador no precise ficar esperando. Retirando o cache L2, a performance do equipamento cai em quase 40%, s no caindo mais por que ainda conservamos o cache L1. Justamente por isso, alm de perder feio para o seu irmo mais velho, o Celeron sem cache perdia at mesmo para processadores mais antigos. De fato, um Celeron sem cache de 266 MHz perde at mesmo para um 233 MMX em muitas aplicaes. Devido ao seu baixo desempenho, o Celeron sem cache no conseguiu uma boa aceitao no mercado, sendo inclusive muito criticado pela imprensa. Numa nova tentativa de consertar a besteira cometida, a Intel resolveu equipar as novas verses do Celeron com 128 KB de cache L2, que ao contrrio do cache encontrado no Pentium II, funciona na mesma frequncia do processador. Todos os Celerons venda atualmente possuem cache, isto inclui todas as verses apartir do Celeron de 333 MHz e a maioria dos de 300 MHz. Para no haver confuso, a verso de 300 MHz com cache chamada de 300A. Enquanto no Pentium II o cache formado por chips separados, soldados na placa de circuito do processador, no Celeron o cache L2 faz parte do prprio ncleo do processador. Estes 128 KB de cache fazem uma diferena incrvel na performance do processador. Enquanto um Celeron antigo quase 40% mais lento que um Pentium II do mesmo clock, o Celeron com cache menos de 6% mais lento, chegando a empatar em algumas aplicaes. Isto acontece pois apesar Celeron possuir uma quantidade 4 vezes menor de cache, nele o cache L2 funciona duas vezes mais rpido, compensando em grande parte a diferena. Claro que isso depende do aplicativo que estiver sendo executado. Alguns programas, como o Word por exemplo, necessitam de uma grande quantidade de cache. Neste caso, mesmo sendo mais lento, o cache do Pentium II acaba sendo muito mais eficiente por ser maior. Em compensao, aplicativos que manipulam imagens em geral necessitam de um cache L2 mais rpido, pois os dados a serem manipulados so menos repetitivos. Neste caso, o cache do Celeron acaba sendo to ou at mesmo mais eficiente do que o cache encontrado no Pentium II. Outro ponto a favor do Celeron seu coprocessador aritmtico, que, sendo idntico ao do Pentium II, muito mais rpido que o do MMX ou do K6, o que lhe garante um bom desempenho em aplicaes grficas. Propositadamente, todas as verses do Celeron (com exceo dos Celerons de 800 MHz em diante, recentemente lanados) utilizam barramento de apenas 66 MHz. Este outro diferencial em relao ao Pentium II e ao Pentium III. Apesar de em termos de processamento o Celeron chegar s vezes a bater uma Pentium II do mesmo clock, acaba sendo mais lento por utilizar um multiplicador mais alto. Por exemplo, um Pentium II de 400 MHz utiliza bus de 100 MHz e multiplicador de 4x. Um Celeron de 400 MHz por sua vez utiliza bus de 66 MHz e multiplicador de 6.0x. Apesar de nos dois casos o processador trabalhar na mesma freqncia, no caso do Celeron a placa me e a memria RAM funcionam mais lentamente, acabando por atrapalhar o desempenho do processador. por isso que muitas vezes o Celeron acaba ficando 10, at 15% atrs do Pentium II nos benchmarks. Se por um lado isto atrapalha o desempenho, por outro torna os micros baseados no Celeron ainda mais baratos, e facilita tambm na hora do upgrade, j que possvel continuar utilizando antigas memrias de 66 MHz e, em muitos casos, a mesma placa me utilizada em conjunto com os Pentium II de 266 e 300 MHz.

Soquete 370 x slot 1

37

Inicialmente, a Intel lanou o Celeron no mesmo formato do Pentium II, ou seja, na forma de uma placa de circuito que utiliza o slot 1, a fim de manter a compatibilidade com todas as placas me j existentes e facilitar as vendas do novo processador. Porm, logo depois foi lanado um novo formato de encapsulamento e um novo encaixe para o Celeron, chamado de soquete 370. O formato muito parecido com o de um Pentium MMX; a diferena que o Celeron possui alguns pinos a mais. O Celeron para soquete 370 tambm chamado de PPGA, abreviao de Plastic Pin Grid Array. Vale lembrar que, apesar dos encaixes serem parecidos, o Celeron PPGA no compatvel com as placas me soquete 7 utilizadas em conjunto como o MMX e o K6. O soquete 370 utiliza a mesma pinagem do slot 1, e as placas utilizam os mesmos chipsets e demais componentes bsicos. possvel inclusive encaixar um Celeron soquete 370 em uma placa me slot 1 com a ajuda de um adaptador que custa cerca de 15 dlares. A desculpa da Intel para mudar subitamente o formato do Celeron, foi a de que depois que o cache L2 foi movido para dentro do invlucro do processador, a placa de circuito usada no Pentium II tornou-se desnecessria, servindo apenas para aumentar os custos de produo. Retirando-a do Celeron, seria possvel fabricar processadores um pouco mais baratos. Durante muito tempo, a Intel continuou fabricando o Celeron nos dois formatos, mas a algum tempo atrs cancelou a produo das verses slot 1, continuando a fabricar apenas as verses para soquete 370. Os Celerons soquete 370 podem ser utilizados tanto em placas me para Pentium II ou Pentium III utilizando-se o adaptador, quanto em placas me soquete 370. Como disse, os dois encapsulamentos so eltricamente compatveis, o que muda apenas o formato. gdh5Adaptador soquete 370 > slot 1

Pentium II Xeon O Pentium II acabou revelando-se uma soluo muito mais adequada que o Pentium Pro para o mercado domstico. O Celeron trouxe mais um avano neste sentido, pois manteve um bom desempenho (se comparado aos processadores da poca) a um custo mais baixo. Mas, nem todo mundo ficou satisfeito com o cache L2 operando metade da frequncia do processador usado no Pentium II, nem com o minsculo cache de 128 KB do Celeron. Sim, so os donos de servidores de alto desempenho, que precisam de mquinas com vrios processadores e muito cache. O Pentium II Xeon surgiu como uma alternativa para quem precisava de mais desempenho e podia pagar por ele. Assim como no Celeron, o cache L2 opera na mesma frequncia do processador, a diferena a quantidade. Existiram verses do Pentium II Xeon com 512 KB, 1 MB e 2 MB de cache e operando a 400, 450 e 500 MHz. Outra caracterstica do Xeon um melhor suporte a multiprocessamento. Existe suporte para o uso de at 4 processadores na mesma placa, ou at 8 processadores em cluster. O Xeon foi especialmente concebido para equipar servidores, pois nestes ambientes o processamento muito repetitivo, e por isso, o cache mais rpido e em maior quantidade faz uma grande diferena, Claro que no faz muito sentido pensar em usar um desses para uso domstico, justamente devido ao seu alto preo.

38

Alguns Processadores
Phenom

O Phenom a mais nova srie de processadores da AMD baseada na nova microarquitetura K10. Neste tutorial listaremos todas as principais especificaes tcnicas de todos os modelos do Phenom lanados ou anunciados at o momento. Para uma explicao mais aprofundada sobre a nova arquitetura K10, leia nosso tutorial Por Dentro da Microarquitetura K10 da AMD. As principais diferenas entre o Phenom e o Athlon 64 so as seguintes: * Uso de um cache de memria L3. * Uso de um barramento HyperTransport 3.0 entre o processador e o chipset, aumentando a largura de banda disponvel entre o processador e o mundo externo. importante notar que at o momento os processadores Phenom no trabalham com o desempenho mximo oferecido pelo barramento HyperTransport 3.0. * Uso de linhas separadas de alimentao para o processador e para o controlador de memria, que est embutido dentro do prprio processador (esta tecnologia tambm conhecida como splitplane alimentao dividida ou DDPM, Dual Dynamic Power Management, ou Gerenciamento Eltrico Dinmico Duplo). * Uso de um gerador de clock para o controlador de memria com um valor fixo. Isto resolve o problema que acontece com o Athlon 64 onde dependo do modelo do processador as memrias no funcionam em seu desempenho mximo. * Suporte para memrias DDR2 at DDR2-1066/PC2-8500 (processadores Athlon 64 suportam at DDR2-800/PC2-6400) nos modelos para soquete AM2+; suporte para memrias DDR3 nos modelos para soquete AM3, que tambm suportam memrias DDR2 quando instalados em placas-me AM2+ certificadas. Existem mais diferenas entre os processadores Phenom e os processadores Athlon 64, como voc pode aprender lendo o tutorial mencionado acima. Os processadores Phenom podem ser instalados em placas-me soquete AM2 antigas, mas eles estaro limitados taxa de transferncia de 4.000 MB/s do HyperTransport 2.0, no usufruiro da tecnologia DDPM e o controlador de memria trabalhar com a clock menor (1,6 GHz). Alguns modelos do Phenom II so projetados para uso em placas-me soquete AM3 e funcionam com memrias DDR3 quando instalados nessas placas-me. Eles so, porm, compatveis com placasme AM2+, s que trabalham com memrias DDR2. At agora a AMD lanou modelos do Phenom de trs e quatro ncleos, e Phenom II de dois, trs e quatro ncleos, com as seguintes especificaes tcnicas para todos os modelos: * Cache de memria L1 de 128 KB por ncleo. * Cache de memria L2 de 512 KB por ncleo. * Cache de memria L3 de 2 MB compartilhado por todos os ncleos (4 MB ou 6 MB nos modelos Phenom II). * Barramento HyperTransport 3.0 trabalhando a 1,6 GHz (6.400 mb/s), 1,8 GHz (7.200 MB/s), 2 GHz (8.000 MB/s), dependendo do modelo. Note que o HyperTransport 3.0 oferece taxas maiores (2,4 GHz/9.600 MB/s e 2,6 GHz/10.400 MB/s) que ainda no esto sendo utilizadas; * Soquete AM2+ ou AM3 (alguns modelos do Phenom II). * Processo de fabricao de 65 nm (45 nm nos modelos Phenom II).

39

* Conjunto de instrues "SSE4a", que simplesmente a adio de duas novas instrues SSE e no tem nada a ver com o SSE4.1 existente nos mais recentes processadores da Intel e que traz 47 novas instrues. * Modelos "Black Edition" possuem o multiplicador de clock destravado, significando uma maior capacidade para overclock, j que eles podem ser configurados como se fossem um processador de clock mais elevado.

Athlon 64

Neste tutorial listaremos todos os modelos de Athlon 64, Athlon 64 FX, Athlon 64 X2, Athlon II X2, Athlon II X3 e Athlon II X4 lanados at hoje e as principais diferenas entre eles. A propsito, a AMD recentemente mudou o nome desses processadores, retirando o "64". Assim, "Athlon 64 X2" e "Athlon X2" so o mesmo processador, e assim por diante. Todos esses processadores so baseados na arquitetura AMD64, cuja principal caracterstica a presena do controlador de memria dentro do prprio processador e no no chipset, como acontece com outros processadores. Alm do Athlon 64, Athlon FX, Athlon X2, Athlon II X2, Athlon II X3 e Athlon II X4, tambm o Sempron (modelos baseados nos soquetes 754, AM2 e AM2+), Opteron e Turion 64 so baseados nessa arquitetura. Por causa desta arquitetura a comunicao entre o processador e os mdulos de memria feita atravs de um barramento dedicado, enquanto que a comunicao entre o processador e o chipset feita atravs de um barramento independente, chamado HyperTransport . Processadores da AMD baseados na arquitetura do Athlon 64 podem ser encontrados com os seguintes padres de pinagem: Soquete 754: Usado pelas primeiras verses de Athlon 64 e alguns modelos de Sempron e Turion 64. Seu controlador de memria usa somente um canal (single channel), o que significa que o processador acessa a memria a 64 bits. Aceita somente memrias do tipo DDR. Soquete 939: Usado por alguns modelos de processadores Athlon 64, Athon 64 FX, Athlon 64 X2 e Opteron. Seu controlador de memria usa dois canais (dual channel), o que significa que o processador acessa memria a 128 bits, se um nmero par de mdulos de memria for usado. Aceita somente memrias do tipo DDR. Soquete 940: Usado pelos primeiros processadores Athon 64 FX e alguns modelos do Opteron. Seu controlador de memria usa dois canais (dual channel), o que significa que o processador acessa a memria a 128 bits, se dois mdulos forem usados (ou um nmero par de mdulos de memria forem usados). necessria a utilizao de memrias do tipo ECC e aceita somente memrias do tipo DDR. Soquete AM2: Usado por modelos de Athlon 64, Athlon 64 FX e Athlon 64 X2 suportando memrias DDR2 at 800 MHz, suportando a configurao de dois canais (dual channel), o que significa que o processador acessa a memria a 128 bits, se um nmero par de mdulos for usado. Lembre-se que o controlador de memria dos processadores soquete 754, 939 e 940 suporta apenas memrias DDR. Soquete AM2+: Usado por alguns modelos do Athlon X2 baseados no processador Phenom. O soquete AM2+ permite dois recursos, o uso do barramento HyperTransport 3.0 (maior taxa de transferncia entre o processador e o chipset) e separao dos pinos de alimentao dos ncleos de processamento e do controlador de memria, o que permite ao controlador de memria a trabalhar a um clock mais elevado e tambm resolvendo o problema do multiplicador de clock da memria que descrevemos mais abaixo. Processadores soquete AM2+ podem ser instalados em placas-me soquete AM2, porm a taxa de transferncia do barramento HyperTransport ser limitada a 4 GB/s, o controlador de memria trabalhar a um clock inferior e o problema da memria ser acessada a um clock inferior (ver abaixo) poder existir. Placas-me soquete AM2+ aceitam processadores soquete AM2 sem problemas. Processadores soquete AM2+ suportam memrias DDR2 at 1.066 MHz. Soquete AM3: Usado pelo Athlon II X2, Athlon II X3 e Athlon II X4. Esse soquete tambm usa o HyperTransport 3.0 e sua principal diferena em relao ao soquete AM2+ o uso de memrias DDR3. Um processador AM3 pode ser instalado em placas-me AM3 (onde vai trabalhar apenas com memrias DDR3) ou em placas-me AM2+ (suportando, assim, memrias DDR2). Placas-me AM3, no entanto, suportam apenas processadores AM3. Soquete F: Este soquete de 1.207 pinos criado para modelos do processador Opteron tambm usado pelos processadores Athlon 64 FX utilizados na plataforma Quad FX da AMD (Athlon 64 FX

40

modelos 7x). Os processadores que utilizam este soquete trabalham no modo SMP (multiprocessamento simtrico), podendo trabalhar com mais de um processador em paralelo. Assim como os processadores soquete AM2 e AM2+, nesses processadores o controlador de memria integrado suporta memrias DDR2533, DDR2-667 e DDR2-800 na configurao de dois canais, o que significa que o processador acessa a memria a 128 bits, se um nmero par de mdulos de memria for usado. O controlador de memria integrado nos processadores Athlon 64 soquete AM2 e Athlon 64 FX soquete F suporta memrias DDR2-533, DDR2-667 e DDR2-800. O problema, no entanto, como o clock do barramento da memria obtido. Em vez de ser gerado atravs do clock base do processador (clock HTT, que de 200 MHz), usada uma diviso do clock interno do processador. O valor desta diviso metade do valor do multiplicador do processador. Por exemplo, um processador AMD64 com um multiplicador de clock 12x ter um divisor do barramento de memria de 6. Este processador trabalhar a 2,4 GHz (200 MHz x 12) e sua memria funcionar a 400 MHz (DDR2-800, 2.400 MHz / 6). Tenha em mente que as memrias DDR e DDR2 so rotuladas com o dobro dos seus clocks reais. O problema quando o multiplicador de clock do processador um nmero mpar. Para um processador AM2 com um multiplicador de clock 13x teoricamente o divisor do seu barramento de memria seria de 6,5. Como o barramento de memria do AMD64 no trabalha com divisores quebrados este valor arredondado para o prximo nmero inteiro, sete neste caso. Enquanto este processador funcionar a 2,6 GHz (200 MHz x 13) seu barramento de memria funcionar a 371 MHz (742 MHz DDR) e no a 400 MHz (800 MHz DDR), fazendo com que o processador no alcance a largura de banda mxima que as memrias DDR2 podem fornecer. Aqui esto alguns exemplos: do Divisor da Barramento da Clock Multiplicador Processador Memria Memria Interno 2,8 GHz 14x 7 800 MHz 2,6 GHz 13x 7 742 MHz 2,4 GHz 12x 6 800 MHz 2,2 GHz 11x 6 733 MHz 2 GHz 10x 5 800 MHz 1,8 GHz 9x 5 720 MHz 1,6 GHz 8x 4 800 MHz Este mesmo problema no ocorre com processadores soquetes AM2+ e AM3. Outras caractersticas encontradas nos processadores baseados na arquitetura do Athlon 64 so as seguintes: O processador no vendido com base em seu clock de operao, mas sim atravs de um indicativo de desempenho chamado performance rating ou PR. Podem acessar at 1 TB (terabyte) de memria RAM (barramento de endereos de 40 bits, 2^40 = 1 TB). Suporte s instrues MMX, 3Dnow!, SSE e SSE2 (SSE3 apenas nos modelos mais novos, SSE4a nos modelos para soquete AM2+ e AM3). Tencnologia EVP (Enhanced Vrus Protection), tambm conhecida como NX Bit Disable, Tecnologia CoolnQuiet, Veremos agora todos os modelos de Athlon 64, Athlon 64 FX, Athlon 64 X2, Athlon II X2, Athlon II X3 e Athlon II X4 lanados at hoje.

Sempron

O Sempron o processador da AMD voltado para o mercado low-end, ou seja, ele destinado a usurios que no precisam de grande poder computacional e que esto mais preocupados com preo do que com desempenho. O concorrente do Sempron Celeron da Intel e voc pode clicar aqui para ver uma comparao tcnica entres esses dois processadores. O processador Sempron est disponvel em cinco verses de soquete: 462, 754, AM2, AM3 e S1, este ltimo apenas para notebooks. Os processadores Sempron soquete 462 so verses mais simples do Athlon XP, enquanto que os processadores Sempron soquete 754, soquete AM2 e soquete S1 so verses mais

41

simples do Athlon 64. Os modelos para soquete AM3 so baseados no Athlon II X2, mas com apenas um ncleo de processamento. Tome cuidado: como o Sempron soquete 462 usa uma arquitetura interna completamente diferente dos demais processadores Sempron, uma comparao direta entre esses processadores no possvel. A nomenclatura PR (Performance Rating) usada pelo Sempron s serve para a comparao entre modelos de Sempron usando o mesmo tipo de soquete. No possvel comparar a nomenclatura PR do Sempron com a do Athlon XP ou com a do Athlon 64. Por exemplo, um Sempron 3000+ no necessariamente mais rpido do que um Athlon XP 2800+ ou do que um Athlon 64 2800+. Da mesma forma, um Sempron 3000+ soquete 462 no necessariamente mais rpido do que um Sempron 2800+ soquete 754. S podemos usar esse sistema de numerao para comparar modelos baseados no mesmo soquete. Podemos afirmar, por exemplo, que um Sempron 3000+ soquete 754 mais rpido do que um Sempron 2800+ tambm usando o soquete 754.

Turion 6 Lanado para ser o principal concorrente do Pentium M da Intel, o Turion da AMD um processador de baixo consumo voltado para o mercado de notebooks e est disponvel em duas verses: ncleo nico ("single core") e dois ncleos ("dual core") de processamento. Neste tutorial listaremos todos os modelos j lanados at o momento e as diferenas entre os modelos existentes. Vamos falar primeiro dos modelos de ncleo nico. Na prxima pgina falaremos dos modelos de dois ncleos. O Turion 64 baseado na arquitetura do Athlon 64 e a principal diferena entre o Turion 64 e o Athlon 64 Mobile o consumo: o Athlon 64 Mobile dissipa 65 W enquanto que o Turion 64 dissipa apenas 35 W (modelos ML), 31 W (modelos MK) ou 25 W (modelos MT). Uma outra diferena entre eles a quantidade de memria cache L2, que de 1 MB nos processadores Athlon 64 Mobile, enquanto que os processadores Turion 64 podem ter memria cache L2 de 512 KB ou 1 MB, dependendo do modelo. Tanto o Turion 64 quanto o Athlon 64 Mobile possuem a tecnologia PowerNow! da AMD, que similar a tecnologia CoolnQuiet usado pelos processadores desktop. Esta tecnologia altera o clock e a tenso de alimentao do processador de acordo com a carga de trabalho que esteja sendo realizada, de modo a economizar bateria. Como voc pode ver, esta tecnologia compete com a tecnologia Enhanced SpeedStep da Intel. As principais caractersticas do Turion 64 so as seguintes: O processador no vendido com base em seu clock de operao, mas atravs de um nmero de modelo. Apenas um ncleo de processamento ("single core") 64 KB de cache de memria L1 de instrues e 64 KB de cache L1 de dados. 512 KB ou 1 MB de cache de memria L2, dependendo do modelo. Barramento HyperTransport trabalhando a 800 MHz (3,2 GB/s). Este clock pode tambm ser referenciado como 1.600 MHz. Suporte a memrias DDR em canal nico (single channel) nos modelos soquete 754 e suporte a memrias DDR2 em dois canais (dual-channel) nos modelos soquete S1. Soquete 754 ou S1 (modelos MK-36 e MK-38). Podem acessar at 1 TB (terabyte) de memria RAM (barramento de endereos de 40 bits, 2^40 = 1 TB). Suporte s instrues MMX, 3Dnow!, SSE e SSE2 e SSE3. Tecnologia PowerNow! Tencnologia EVP (Enhanced Vrus Protection), tambm conhecida como NX Bit Disable, Tecnologia de 90 nanmetros. Como mencionamos, os processadores Turion 64 esto disponveis em duas sries: ML, que tem dissipao trmica mxima de 35 W, e MT, que tem dissipao mxima de 25 W. Quanto menor a dissipao trmica, maior ser a autonomia da bateria do seu notebook e menor ser o calor gerado. Clock TDP Cache L2 Soquete Modelo Interno 2,2 MK-38 512 KB S1 31 W GHz MK-36 2,0 31 W 512 KB S1

42

GHz ML-44 ML-42 ML-40 ML-37 ML-34 ML-32 ML-30 ML-28 MT-40 MT-37 MT-34 MT-32 MT-30 MT-28 2,4 GHz 2,4 GHz 2,2 GHz 2,0 GHz 1,8 GHz 1,8 GHz 1,6 GHz 1,6 GHz 2,2 GHz 2,0 GHz 1,8 GHz 1,8 GHz 1,6 GHz 35 W 35 W 35 W 35 W 35 W 35 W 35 W 35 W 25 W 25 W 25 W 25 W 25 W 1 MB 512 KB 1 MB 1 MB 1 MB 512 KB 1 MB 512 KB 1 MB 1 MB 1 MB 512 KB 1 MB 754 754 754 754 754 754 754 754 754 754 754 754 754

1,6 25 W 512 KB 754 GHz TDP significa Thermal Design Power e indica a maxima dissipao trmica do processor, isto , o cooler do processador dever ser capaz de dissipar pelo menos esta quantidade de calor.

Opteron

O Opteron o processador da AMD voltado para o mercado de servidores. Os primeiros modelos do Opteron eram baseados na arquitetura AMD64 (tambm conhecida como X86-64 ou hammer), a mesma usada pelos processadores Athon 64, Athlon 64 FX, Athlon 64 X2, Turion e Sempron (os modelos de Sempron para soquete 462 no so baseados na arquitetura do Athlon 64). Os modelos mais novos do processador Opteron so baseados na nova microarquitetura K10 da AMD. Neste tutorial apresentaremos as principais caractersticas tcnicas do Opteron bem como listaremos todos os modelos deste processador lanados at hoje. A principal caracterstica das arquiteturas AMD64 e K10 a presena do controlador de memria dentro do prprio processador e no no chipset, como acontece com outros processadores. Por causa desta arquitetura a comunicao entre o processador e os mdulos de memria feita atravs de um barramento dedicado, enquanto que a comunicao entre o processador e o chipset feita atravs de um barramento independente, chamado HyperTransport (clique aqui para saber mais sobre o barramento HyperTransport). Existem duas diferenas principais entre o Opteron e os outros processadores da AMD. Primeiro, vrios modelos do Opteron permitem o multiprocessamento simtrico (SMP), ou seja, permitem trabalhar com mais de um processador na placa-me, enquanto que os outros processadores no. Os processadores Opteron so identificados atravs de um nmero de modelo e o primeiro dgito deste nmero indica qual o grau de processamento simtrico que o processador aceita: os modelos do Opteron comeando com 1 no permitem multiprocessamento simtrico, enquanto que os modelos comeando com 2 permitem multiprocessamento simtrico com at 2 processadores (voc pode

43

instalar at dois processadores na mesma placa-me) e os modelos comeando com 8 permitem multiprocessamento simtrico com at 8 processadores (voc pode instalar at oito processadores na mesma placa-me). Os processadores Opteron com suporte s memrias DDR usam um nmero de modelo de trs dgitos; estes modelos tm um ou dois ncleos de processamento. J processadores Opteron com suporte s memrias DDR2 usam um nmero de modelo de quatro dgitos; estes modelos podem ter dois ou quatro ncleos de processamento. A segunda diferena principal no nmero de barramentos HyperTransport suportados. Todos os processadores baseados na arquitetura AMD64 e os processadores Opteron iniciados com 1 tm apenas um barramento HyperTransport. Processadores Opteron iniciados com 2 tm dois barramentos HyperTransport (ou trs, no caso dos processadores Opteron de quatro dgitos), enquanto que processadores Opteron iniciados com 8 tm trs barramentos HyperTransport. Esses barramentos adicionais so usados para interconectar processadores quando h mais de um processador instalado na placa-me. Em nosso tutorial Por Dentro da Arquitetura AMD64 h uma explicao detalhada sobre este assunto. Os processadores Opteron podem ser encontrados para vrios tipos de soquete: Soquete 939: Existem alguns modelos de Opteron da srie 1 para este soquete. Eles no passam de modelos do Athlon 64 ou do Athlon 64 X2 (se tiver dois ncleos) com outro nome. Estes modelos trabalham com memrias DDR comuns. Soquete 940: Estes modelos necessitam de memrias DDR registradas (isto , com buffer), que so um tipo especial de memria para servidores. Soquete AM2: Existem alguns modelos do Opteron da srie 1 para este soquete. Estes modelos trabalham com memrias DDR2 comuns. Soquete F: Estes modelos trabalham com memrias DDR2 registradas (isto , com buffer), que so um tipo especial de memria para servidores.

Os primeiros Opteron, lanados para os soquetes 940 e 939, so chamados Operon de primeira gerao. J os processadores Opteron que trabalham com memrias DDR2 e so baseados na arquitetura AMD64 so chamados de Opteron de segunda gerao. J os processadores Opteron baseados na microarquitetura K10 so chamados Opteron de terceira gerao e tambm trabalham com memrias DDR2. Em todos os modelos do Opteron o controlador de memria usa dois canais (dual channel), ou seja, o processador acessa a memria a 128 bits, se dois mdulos forem usados (ou se um nmero par de mdulos de memria forem usados). As principais caractersticas tcnicas do Opteron so as seguintes: Suporte a Muliprocessamento Simtrico: at dois processadores nos modelos comeando com 2 e at oito processadores nos modelos comeando com 8. Modelos comeando com 1 no suportam multiprocessamento. 64 KB de cache de memria L1 de instrues e 64 KB de cache L1 de dados. 512 KB (processadores Opteron de terceira gerao) ou 1 MB (todos os demais modelos) de cache de memria L2 por ncleo. 2 MB de cache de memria L3 (processadores Opteron de Terceira Gerao). Barramento HyperTransport trabalhando a 800 MHz (3,2 GB/s) ou 1 GHz (4 GB/s). Esses clocks podem tambm ser referenciados como 1.600 MHz ou 2.000 MHz, respectivamente. Um barramento HyperTransport nos modelos da srie 1, dois barramentos HyperTransport nos modelos da srie 2 (ou trs barramentos nos modelos de quatro dgitos) e trs barramentos HyperTransport nos modelos da srie 8. Configurao de memria em dois canais (voc precisa instalar dois ou um nmero par de mdulos de memria para usar este recurso). Podem acessar at 1 TB (terabyte) de memria RAM (barramento de endereos de 40 bits, 2^40 = 1 TB). Suporte s instrues MMX, 3Dnow!, SSE, SSE2, SSE3 (apenas nos modelos mais recentes) e SSE4 (somente nos processadores Opteron de terceira gerao). Tencnologia EVP (Enhanced Vrus Protection), tambm conhecida como NX Bit Disable, leia nosso tutorial sobre o assunto. Tecnologia de virtualizao AMD-V nos modelos de quatro dgitos. Alguns modelos possuem dois ou quatro ncleos. Esses modelos possuem dois ou quatro

44

processadores dentro de um s. Leia nossos tutoriais Processadores de Ncleo Duplo da AMD e Por Dentro da Arquitetura K10 para aprender mais sobre estas tecnologias.

Core i7

O Core i7 o primeiro processador da Intel com controlador de memria integrado, recurso j disponvel nos processadores da AMD desde o Athlon 64. Ele baseado na arquitetura Core, assim como o Core 2 Duo e Core 2 Quad, porm com diversos aprimoramentos para o aumento do desempenho (microarquitetura Nehalem). Esse processador est disponvel em trs diferentes soquetes, LGA1366 (arquitetura de memria de trs canais e barramento QPI), LGA1156 (arquitetura de memria de dois canais, controlador PCI Express 2.0 e barramento DMI) e PGA988 para notebooks (com as mesmas especificaes do LGA1156). Tradicionalmente os processadores da Intel utilizam um controlador de memria externo localizado no chip ponte norte (tambm conhecido como MCH ou Hub Controlador de Memria) do chipset. Isto significa que com processadores usando esta arquitetura o chipset (e conseqentemente a placa-me) o componente que determina qual a tecnologia e a quantidade de memria que voc pode instalar no micro. Como no Core i7 o controlador de memria est embutido no processador, este e no mais o chipset que define qual tecnologia e a quantidade de memria voc pode ter instalada no micro. A placa-me, no entanto, pode ter uma limitao na quantidade de memria instalada. O controlador de memria integrado no Core i7 aceita apenas memrias DDR3 (at 1,6 V; memrias que requerem mais do que isto no funcionaro e podem inclusive danificar o processador). Os modelos soquete 1366 suportam a nova arquitetura de trs canais com memrias DDR3-800 e DDR3-1066, enquanto os modelos para soquetes 1156 e 988 suportam a (j padro) arquitetura de dois canais e memrias DDR3-800, DDR3-1066 e DDR3-1333. A arquitetura de trs canais dos modelos soquete 1366 permite ao processador acessar trs mdulos de memria ao mesmo tempo para gravar e ler dados, aumentando a quantidade de bits que so transferidos por pulso de clock de 128 (na arquitetura de dois canais) para 192. Em teoria a arquitetura de trs canais oferece um aumento de 50% na largura de banda em relao arquitetura de dois canais rodando com o mesmo clock. Por exemplo, memrias DDR3-1066 trabalhando no modo de dois canais tm uma taxa de transferncia mxima terica de 17 GB/s, enquanto que na arquitetura de trs canais elas tm uma taxa de transferncia mxima de 25,5 GB/s. Os processadores soquete 1366 comunicam-se com o restante do sistema por meio de um novo barramento chamado QPI (Quick Path Interconnect), que trabalha a 2,4 GHz (4,8 GB/s) no Core i7 e a 3,2 GHz (6,4 GB/s) no Core i7 Extreme. Nos modelos soquete 1156 e 988 o processador tambm tem um controlador PCI Express 2.0 integrado, ento nesses processadores a placa de vdeo est conectada diretamente ao processador, o que em teoria pode aumentar a taxa de transferncia da placa de vdeo obtida na prtica. Esses processadores podem comunicar-se com uma placa de vdeo na velocidade x16 ou com duas placas de vdeo a x8 cada. Como nesses modelos o controlador PCI Express 2.0 fica dentro do processador, a Intel decidiu usar um barramento de menor velocidade chamado DMI (Digital Media Interface), que opera a 2 GB/s, para conectar o processador ao chipset. Esse barramento usado para a comunicao entre a ponte norte e a ponte sul nos chipsets anteriores da Intel. Essa largura de banda baixa no problema, j que a razo para a alta largura de banda do QPI que ele usado para conectar o processador ao controlador PCI Express 2.0 presente na ponte norte e j que nos processadores soquete 1156 e 988 esse componente fica dentro do processador, um barramento de alta velocidade no mais necessrio. Assim como nos processadores da AMD, a arquitetura do Core i7 utiliza um clock base a partir do qual os outros clocks so gerados, cada um de acordo com seu multiplicador especfico. Esse clock base de 133 MHz.

45

Os processadores Core i7 possuem uma tecnologia chamada Turbo Boost, que um recurso de overclock automtico. Quanto o processador percebe que precisa de mais poder de processamento, ele aumenta o clock interno acima do clock padro, automaticamente. Outra caracterstica interessante a tecnologia Hyper-Threading, que simula dois processadores lgicos para cada ncleo de processamento. Assim, como o Core i7 tem quatro ncleos "reais", o sistema operacional detecta oito ncleos "virtuais", ou seja, oito processadores. O Core i7 Extreme a verso mais poderosa (e cara) do Core i7. Suas principais diferenas so o multiplicador destravado, alm de velocidades do clock do processador e do barramento QPI (apenas nos modelos soquete 1366) mais altas. As principais caractersticas tcnicas dos processadores da famlia Core i7 so as seguintes: * Microarquitetura Nehalem. * 64 KB de cache L1 (32 KB de dados + 32 KB de instrues) por ncleo. * 256 KB de cache L2 por ncleo. * 4 MB, 6 MB ou 8 MB de cache de memria L3 compartilhado. * Tecnologia de dois ou quatro ncleos. * Soquete 1366 ou 1156 nos processadores para desktops, soquete 988 nos modelos para notebooks. * Barramento QPI rodando a 2,4 GHz (4,8 GB/s) ou a 3,2 GHz (6,4 GB/s) nos modelos soquete 1366. * Barramento DMI (2 GB/s) nos modelos soquete 1156 e 988. * Controlador de memria integrado suportando arquitetura de dois canais (soquetes 1156 e 988) ou trs canais (soquete 1366) * Suporte a memrias DDR3 at 1066 MHz (soquete 1366) ou at 1333 MHz (soquetes 1156 e 988) * Controlador PCI Express 2.0 embutido nos modelos soquete 1156 e 988 (uma pista x16 ou duas x8) * Controlador grfico embutido em alguns modelos para notebooks * Tecnologia Turbo Boost * Tecnologia de Virtualizao * Tecnologia Intel EM64T * Tecnologia Hyper-Threading (HT) * Instrues SSE4.2 * Instrues AES-NIS (nos modelos de 32 nm comente) * Tecnologia Execute Disable * Tecnologia Enhanced SpeedStep * Processo de fabricao de 32 nm ou 45 nm Uma explicao mais aprofundada do funcionamento dos processadores Core i7 contendo todas as diferenas entre a sua arquitetura e a arquitetura usada pelos processadores Core 2 Duo e Core 2 Quad .

Core 2 Duo

Os processadores Core 2 Solo, Core 2 Duo, Core 2 Quad e Core 2 Extreme so baseados na nova microarquitetura Core, lanada para substituir a microarquitetura Netburst que era usada no Pentium 4 e processadores derivados deste. Neste tutorial listaremos todos os modelos j lanados destes processadores bem como as suas principais caractersticas tcnicas. A famlia dos processadores Core 2 formada por quatro membros: Core 2 Solo, que um processador de um ncleo que substitui o Pentium M, sendo um modelo para notebooks; Core 2 Duo, um processador de dois ncleos que substitui o Pentium 4 e o Pentium D; Core 2 Quad, que formado por dois processadores Core 2 Duo em um mesmo invlucro sendo, portanto, um processador de quatro ncleos; e o Core 2 Extreme, que substitui o Pentium Extreme Edition, com modelos de dois e quatro ncleos. O Core 2 Extreme trabalha com clocks mais elevados e tem o multiplicador de clock destravado, o que permite fazer overclock alterando o multiplicador de clock do processador.

46

Cuidado para no confundir o processador Core 2 Duo com o Core Duo. O Core Duo (conhecido anteriormente pelo nome-cdigo Yonah) o nome comercial para um Pentium M com dois ncleos de processamento construdo com tecnologia de 65 nm. J o Core 2 Duo o nome comercial para o processador que utiliza a microarquitetura Core da Intel. Para aprender mais sobre esta nova microarquitetura leia nossos tutoriais Por Dentro da Microarquitetura Core e Novas Caractersticas do Ncleo Penryn. As principais caractersticas tcnicas dos processadores da famlia Core 2 (Core 2 Duo, Core 2 Quad e Core 2 Extreme) so as seguintes: * Arquitetura Core * 64 KB de cache L1 (32 KB de dados + 32 KB de instrues) por ncleo * Tecnologia de um (Core 2 Solo), dois (Core 2 Duo, alguns modelos de Core 2 Extreme) ou quatro ncleos (Core 2 Quad, alguns modelos de Core 2 Extreme) * Tecnologia fabricao de 65 nm ou 45 nm * Soquete 775 nos modelos para computadores de mesa (soquete 771 no Core 2 Extreme QX9775) * Barramento externo de 800 MHz (200 MHz transferindo quatro dados por pulso de clock), 1.066 MHz (266 MHz transferindo quatro dados por pulso de clock), 1.333 MHz (333 MHz transferindo quatro dados por pulso de clock) ou 1.600 MHz (400 MHz transferindo quatro dados por pulso de clock). * 2 MB, 3 MB, 4 MB ou 6 MB de cache de memria L2 compartilhado. Nos processadores de quatro ncleos, cada par de ncleos tem seu prprio cache, compartilhado entre os dois ncleos mas independente dos outros dois. * Tecnologia de Virtualizao (exceto no Core 2 Duo modelos E4x00, E7x00 e E81xx) * Tecnologia Intel EM64T * Instrues SSE3 * Instrues SSE4.1 nos modelos de 45 nm * Execute Disable * Intelligent Power Capability * Tecnologia Enhanced SpeedStep

Core Duo

O Core Duo (conhecido anteriormente pelo nome-cdigo Yonah) foi o primeiro processador da Intel voltado para o mercado de notebooks a ter tecnologia de dois ncleos, isto , dentro dele h dois processadores completos. Curiosamente este foi tambm o primeiro processador da Intel adotado pela Apple. Neste tutorial ns apresentaremos as principais caractersticas do Core Duo e do Core Solo e tabelas contendo todos os modelos j lanados. Cuidado para no confundir o processador Core Duo com o Core 2 Duo. O Core Duo o nome comercial para um Pentium M com dois ncleos de processamento construdo com tecnologia de 65 nm. J o Core 2 Duo o nome comercial para o processador de nome-cdigo Merom (para notebooks) ou Conroe (para desktops), que utiliza a nova microarquitetura Core da Intel, que a mesma microarquitetura usada pelo Pentium M porm com novos recursos. Na realidade este processador um Pentium M com dois ncleos de processamento e construdo com tecnologia de 65 nm (lembrando que o Pentium M atualmente construdo com tecnologia de 90 nm). Leia nosso tutorial Tecnologia de Ncleo Duplo da Intel para entender melhor sobre esta tecnologia. Leia nosso tutorial Todos os Modelos de Pentium M se voc quiser comparar o Core Duo ao Pentium M. E, ainda, se voc estiver interessado na arquitetura interna deste processador, leia o nosso tutorial Por Dentro do Pentium M. Apesar de ter dois ncleos de processamento dentro de um nico processador, o tamanho do ncleo do Core Duo praticamente o mesmo do Pentium M (ncleo Dothan). Isto significa que o custo para a Intel produzir um Core Duo quase o mesmo para produzir um Pentium M, que tem apenas um nico ncleo. O Core Duo tem 151,6 milhes de transistores ocupando uma rea de 90,3 mm2, enquanto o Pentium M com ncleo Dothan possui 140 milhes de transistores ocupando uma rea de 87,66 mm2. Lembre-se que o Core Duo construdo com tecnologia de 65 nm, enquanto que o Pentium M construdo com tecnologia de 90 nm.

47

Figura 1: Ncleo do Core Duo. O cache de memria L2 do Core Duo de 2 MB compartilhado entre os ncleos (a Intel chama esta implementao de cache L2 compartilhado de Smart Cache, ou cache inteligente). No Pentium D 840, por exemplo, que um processador de ncleo duplo, o tamanho do seu cache L2 de 2 MB, sendo 1 MB destinado para cada ncleo. Ou seja, no Pentium D existem dois cache L2 de 1 MB, um por ncleo. J no Core Duo, existe apenas um cache L2 de 2 MB que compartilhado entre os dois ncleos. A propsito, o Core 2 Duo usa esta mesma arquitetura introduzida no Core Duo. Com o cache compartilhado, a quantidade de memria cache que cada ncleo utiliza no fixa. Com um cache L2 de 2 MB, em um dado momento um ncleo pode estar usando 1,5 MB de cache e o outro 512 KB (0,5 MB), por exemplo. Se em um processador de ncleo duplo com cache separado o cache L2 de um ncleo acabe (isto , seu 1 MB est sendo totalmente usado), ele precisa ir lenta memria RAM buscar os dados, diminuindo o desempenho do sistema. No caso do cache compartilhado, cada ncleo pode simplesmente redimensionar o seu cache L2. Outra vantagem do cache L2 compartilhado que se um ncleo buscou um dado ou uma instruo e a armazenou no cache L2, esta mesma informao pode ser aproveitada pelo outro ncleo. Em processadores de ncleo duplo com memrias cache separadas o segundo ncleo teria de acessar este dado (ou instruo) atravs do barramento local do processador, isto , pelo lado de fora do processador, usando o clock do barramento local, que muito inferior ao clock interno do processador, diminuindo o desempenho do sistema. As principais caractersticas do Core Duo so as seguintes: Tecnologia de ncleo duplo Nome-cdigo: Yonah Possui 151,6 milhes de transistores ocupando uma rea de 90,3 mm2 32 KB de cache L1 de instrues e 32 KB de cache L1 de dados 2 MB de cache L2 compartilhado entre os dois ncleos Soquete 478 ou 479 Tecnologia de 65 nm Barramento externo de 667 MHz (166 MHz transferindo quatro dados por pulso de clock) ou 533 MHz (133 MHz transferindo quatro dados por pulso de clock). . Tecnologia de Virtualizao Tecnologia Execute Disable Tecnologia Enhanced SpeedStep, que permite que o processador reduza o seu clock interno em momentos de ociosidade de modo a economizar bateria Suporte s instrues SSE3. O Core Solo a verso do Core Duo com apenas um ncleo de processamento. Ele mantm as outras especificaes tcnicas do Core Duo, como cache de memria L2 de 2 MB, tecnologia de 65 nm, tecnologia de Virtualizao, tecnologia Execute Disable, tecnologia Enhanced SpeedStep, suporte s instrues SSE3 e barramento externo de 533 ou 667 MHz. O Core Duo e o Core Solo fazem parte da plataforma Centrino.

Pentium 4

48

O processador Pentium 4 da Intel foi lanado em novembro de 2000, usando a microarquitetura x86 de stima gerao da Intel, chamada Netburst. Os processadores Pentium 4 podem encontrados em trs verses de ncleos: Willamette, Northwood e Prescott. Neste tutorial falaremos sobre cada uma dessas verses de ncleo bem como listaremos todos os modelos de Pentium 4 j lanados at o presente momento. Os primeiros modelos de Pentium 4 utilizavam soquete 423, que, como o prprio nome j sugere, possua 423 terminais. Depois foram lanados modelos de Pentium 4 com soquete 478, que, apesar de possurem mais contatos do que os modelos anteriores (soquete 423), eram fisicamente menores. Os modelos de Pentium 4 atuais utilizam um novo tipo de soquete, chamado Soquete 775. Os primeiros modelos de Pentium 4 eram baseados no ncleo Willamette, que tinha 256 KB de cache L2, trabalhava externamente a 400 MHz (100 MHz transferindo quatro dados por pulso de clock), suporte a instrues SSE2, tecnologia de construo de 0,18 m e tinha 42 milhes de transistores ocupando uma rea de 217 mm2. O metal utilizado para fazer a conexo dos transistores e de outros componentes dentro do ncleo era o alumnio.

Pentium D e Pentium Extreme Edition

O processador Pentium D a verso de dois ncleos do Pentium 4, e o Pentium Extreme Edition a verso do Pentium D com tecnologia Hyper-Threading habilitada. Os processadores Pentium D e Pentium Extreme Edition podem ser encontrados em duas verses de ncleos: Smithfield e Presler. Neste tutorial falaremos sobre cada uma dessas verses de ncleo bem como listaremos todos os modelos do Pentium D e Pentium Extreme Edition lanados at hoje. O Pentium D e o Pentium Extreme Edition so baseados na microarquitetura x86 de stima gerao da Intel, chamada Netburst, ou seja, apesar do nome diferente, eles so internamente um Pentium 4 (ou melhor, dois processadores Pentium 4 em um nico encapsulamento). A diferena bsica entre o Pentium D e o Pentium Extreme Edition a ausncia da tecnologia Hyper-Threading nos processadores Pentium D. No confunda o Pentium Extreme Edition com o Pentium 4 Extreme Edition. O primeiro um processador de dois ncleos, enquanto que o segundo um processador de apenas um ncleo. Para detalhes mais aprofundados sobre os processadores Pentium D e Pentium Extreme Edition sugerimos a leitura do nosso tutorial Tecnologia de Ncleo Duplo da Intel. Sugerimos tambm a leitura de nosso outro tutorial Todos os Modelos de Pentium 4 caso voc queira comparar as especificaes tcnicas do Pentium 4 com a do Pentium D e Pentium Extreme Edition.

Pentium M

O Pentium M o processador da Intel voltado para o mercado de notebooks e utilizado nas primeiras geraes da plataforma Centrino. Neste tutorial ns apresentaremos as principais caractersticas deste processador e tabelas contendo todos os modelos j lanados at o momento. Ao contrrio do que muita gente imagina Centrino no um processador para notebooks, mas sim uma plataforma composta por um conjunto de componentes especficos ditados pela Intel: um determinado processador, um determinado chipset e uma determinada rede sem fio. Um notebook s pode ser considerado Centrino se ele possuir todos esses trs componentes. O processador Pentium M da Intel foi lanado em maro de 2003, usando a microarquitetura x86 de sexta gerao da Intel, ou seja, a mesma arquitetura usada pelos processadores Pentium Pro, Pentium II e Pentium III.

49

Os processadores Pentium M podem ser encontrados em duas verses de ncleos: Banias (fabricado usando processo de 130 nm) e Dothan (fabricado usando processo de 90 nm). Os primeiros modelos de Pentium M eram baseados no ncleo Banias, que tinha 32 KB de cache L1 de instrues e 32 KB de cache L1 de dados, 1 MB de cache L2, trabalhava externamente a 400 MHz (100 MHz transferindo quatro dados por pulso de clock), suporte as instrues SSE2, tecnologia Enhanced SpeedStep apenas nos modelos SL6NA e SL6P4 (que permite que o processador reduza o seu clock interno em momentos de ociosidade de modo a economizar bateria), tecnologia de construo de 0,13m, padro de pinagem soquete 478 e 479, e tinha 77 milhes de transistores ocupando uma rea de 82,79 mm2. O metal utilizado para fazer a conexo dos transistores e de outros componentes dentro do ncleo era o cobre.

Figura 1: Ncleo Banias.

Celeron

Desde o seu lanamento, em abril de 1998, at os dias atuais, o processador Celeron da Intel vem sofrendo muitas modificaes. O nome Celeron utilizado pela Intel para designar sua linha de processadores de baixo custo. Na verdade, o Celeron uma verso econmica dos processadores topo de linha da Intel. Ou seja, o Celeron uma verso capada do Pentium II, Pentium III, Pentium 4 ou do Core 2 Duo, com algumas caractersticas reduzidas ou removidas. Na tabela abaixo listamos os modelos de Celeron lanados para desktops e em qual processador topo de linha eles so baseados.

Modelo Celeron SEPP Celeron A Celeron PPGA Celeron Coppermine

Nomecdigo Convington Mendocino Mendocino Coppermine

Baseado no Pentium II com ncleo Deschutes Pentium II com ncleo Deschutes Pentium II com ncleo Deschutes Pentium III com ncleo Coppermine

Quantidade de Ncleos 1 1 1 1

Cache Cache L2 L1 32 KB 32 KB 32 KB 32 KB 128 KB 128 KB 128 KB

Tecnologia 0,25 m 0,25 m 0,25 m / 0,18 m 0,18 m

Barramento Externo 66 MHz 66 MHz 66 MHz 66 MHz / 100 MHz

Soquete Slot 1 Slot 1 Soquete 370 Soquete 370

50

Celeron Tualatin

Tualatin

Celeron Willamette Willamette Celeron Northwood Celeron D Celeron Srie 400 Celeron Srie E1000 Celeron Srie E3000 Northwood Prescott Conroe-L Allendale Penryn

Pentium III com ncleo Tualatin Pentium 4 com ncleo Willamette Pentium 4 com ncleo Northwood Pentium 4 com ncleo Prescott Core 2 Duo com ncleo Conroe-L Core 2 Duo com ncleo Allendale Core 2 Duo com ncleo Penryn

1 1 1 1 1 2 2

32 KB 8 KB 8 KB 16 KB 64 KB 64 KB 64 KB

256 KB 128 KB 128 KB 256 KB 512 KB 512 KB 1 MB

0,13 m 0,18 m 0,13 m 90 nm / 65 nm 65 nm 65 nm 45 nm

100 MHz 400 MHz 400 MHz 533 MHz 800 MHz 800 MHz 800 MHz

Soquete 370 Soquete 478 Soquete 478 Soquete 478 / Soquete 775 Soquete 775 Soquete 775 Soquete 775

O Celeron diferencia-se do Pentium II, Pentium III, Pentium 4 ou do Core 2 Duo em basicamente trs aspectos: Tamanho do cache L2 Clock interno Clock do barramento externo Essas diferenas fazem com que o Celeron seja mais barato e tenha um desempenho menor do que os processadores Pentium II, Pentium III, Pentium 4 ou Core 2 Duo, sendo, portanto, destinado para o mercado de usurios domsticos ou para aqueles que no necessitam de grande poder computacional.

Xeon

Em 1998 a Intel estabeleceu uma distino entre seus processadores voltados para o mercado de servidores e estaes de trabalho dos voltados para o mercado de usurios domsticos. Desde ento, a Intel passou a incluir o termo Xeon (pronuncia-se zon) no nome dos processadores voltados para o mercado de servidores e estaes de trabalho. Esses processadores reconhecem mais memria RAM, permitem trabalhar em ambiente multiprocessado (isto , com placas-me com vrios processadores instalados sobre ela) e possui um desempenho maior que os processadores voltados para o mercado domstico. A Intel lanou verses para o mercado de servidores e estaes de trabalho dos seus processadores Pentium II e Pentium III, chamadas, respectivamente, de Pentium II Xeon e Pentium III Xeon. Assim, o processador Pentium II era direcionado para o mercado de usurios domsticos enquanto que o Pentium II Xeon era um processador voltado para o mercado de servidores e estaes de trabalho. A mesma coisa acontece com o Pentium III e Pentium III Xeon. No caso do Pentium 4, em vez do nome escolhido ter sido Pentium 4 Xeon, optou-se pelo nome Xeon. Ou seja, o Xeon um processador voltado para o mercado de servidores e estaes de trabalho baseado no Pentium 4. Na tabela abaixo voc pode ver os processadores voltados para o mercado de usurios domsticos e seus equivalentes no mercado de servidores e estaes de trabalho.

Mercado Usurios Domsticos Mercado de servidores e estaes de trabalho Pentium II Pentium II Xeon Pentium III Pentium III Xeon Xeon Xeon MP Pentium 4 Xeon 50xx Xeon 70xx Xeon 71xx Xeon 30xx Core 2 Duo Xeon 31xx
51

Xeon 32xx Xeon 33xx Xeon 51xx Xeon 52xx Xeon 53xx Xeon 54xx Xeon 72xx Xeon 73xx
A principal diferena entre o Pentium II Xeon e o Pentium II o clock em que o cache de memria L2 acessado. Enquanto que o Pentium II Xeon acessa o seu cache L2 na mesma freqncia de operao interna (ex: 400 MHz em um Pentium II Xeon de 400 MHz), o Pentium II acessa o seu cache L2 na metade de sua freqncia de operao interna (ex: 200 MHz em um Pentium II de 400 MHz).

As principais caractersticas do Pentium II Xeon so as seguintes:

* 32 KB de cache L1 dividido, sendo 16 KB para instrues e 16 KB para dados. * 512 KB, 1 MB e 2 MB de cache de memria L2 sendo acessado na mesma freqncia de operao interna do processador. * Barramento externo de 100 MHz. * Acesso a at 64 GB de memria RAM. * Multiprocessamento simtrico com at quatro processadores (os modelos com 2 MB de cache L2 permitiam multiprocessamento com at oito processadores). * O processador era acondicionado em um cartucho chamado SECC (Single Edge Contact Cartridge) e conectado placa-me atravs de um conector de 330 contatos chamado slot 2. * Baseado no ncleo Deschutes (o mesmo usado pelo processador Pentium II com barramento externo de 100 MHz) com tecnologia de fabricao de 0,25 m e com 7,5 milhes de transistores, ocupando uma rea de 203 mm2.

O Pentium II Xeon utilizava um slot parecido, porm incompatvel, com o do Pentium II, chamado slot 2 (tambm conhecido como slot de 330 contatos). Isto significa que no poderamos instalar um Pentium II Xeon em placas-me para Pentium II e vice-versa.

52

Você também pode gostar