2002 Analisedesempenho

Alexandre Nicolau Sarty Priscila Gisely Paes Lima
Anlise de Desempenho de CPU
Unama Belm/PA 2002
ii
Alexandre Nicolau Sarty Priscila Gisely Paes Lima
Anlise de Desempenho de CPU
Monografia apresentada como exigncia parcial para a obteno do Ttulo de Bacharelado em Cincia da Computao Banca Examinadora da Universidade da Amaznia, elaborada sob a orientao do Professor Doutor Jos Augusto Furtado Real.
Unama Belm/PA 2002
iii
Jos Augusto Furtado Real
Jacqueline de F. Teixeira Regiane Kawasaki Francs Data ___/___/___
iv
A Deus, por ter iluminado meu caminho e me

amparado em suas mos nos momentos mais difceis.
AOS
meus pais Nicolau e Sheila. Pela
amizade, amor e carinho com os quais sou presenteado em todos os dias da minha vida.
AO
meu amigo, Fernando que esteve
sempre ao meu lado nas horas que eu mais precisei.
A minha namorada Priscila, que me apoiou

em todos os momentos difceis que passei durante o ano que se passou.
A todas as pessoas que conheo, pois delas

tiro todo meu nimo, alegria e vontade de viver.
Alexandre Nicolau Sarty
Deus, a quem agradeo pela sade,
inteligncia e realizao de todos o meu ideais.
A minha me Maria Jos Santos Paes, que

nunca mediu esforos para que eu conseguisse a concretizao de mais este sonho.
meu tio Pedro pelo carinho, apoio e
incentivo.
A minha av, Maria Rosa, que mesmo em

outras condies de existncia, faz-se presente cada dia da minha vida; tenho a certeza que est orgulhosa e torcendo pelo meu sucesso.
AO meu namorado Alexandre, pelo carinho,

compreenso e pacincia.
vi
Priscila Lima
Gisely
Paes
AO
Furtado
nosso
orientador,
Jos
Augusto
Real
pela
sua
ajuda
pela
disposio com que orientou nosso estudo, as professoras Jacqueline Teixeira e Regiane Francs pelo apoio no momento mais
imperioso e a todos os nossos amigos que,
vii
de modo direto ou indireto, nos deram o apoio e o estmulo necessrios para a concretizao deste trabalho.
Trs classes de pessoas so infelizes:
viii
as que no sabem e no perguntam, as que sabem e no ensinam, as que aprendem e no fazem.
Vanessa Beta
LISTA DE GRFICOS
Grfico 1: Grfico comparativo do desempenho entre PENTIUM x ATHLON. Grfico 2: Grfico comparativo entre as arquiteturas 47 48
ix
LISTA DE TABELAS
Tabela 1: Configurao dos computadores utilizados no teste. Tabela 2: Resultados obtidos com base na execuo do Sisoftware Sandra 2002. Tabela 3: Comparao dos resultados com mquina de referncia.
46 46
48
LISTA DE ABREVIATURAS
CISC Complex-Instruction-Set-Computing. CPI Clock cycles per Instruction. CPU Central Processing Unit. MFLOPS Millions of Floating Point Operations per Second. MIPS Millions of Instruction per Second. MWIPS Millions of I instruction Whetstone per Second. PC Personal Computer. RISC Reduced-Instruction-Set-Computing SPEC System Performance Evaluation Cooperative.
xi
RESUMO
Este estudo objetiva especificamente analisar microprocessadores dos
fabricantes Intel e AMD, buscando identificar aquele de melhor desempenho em relao a operaes aritmticas. Para isso, foram analisados os principais programas que realizam testes de desempenho, entre eles o Sisoftware SANDRA 2002, que um programa capaz de efetuar esses testes nos microcomputadores da linha IBM-PC. Alm disso, foram feitos testes de desempenho em computadores com vrias configuraes. Os resultados parecem indicar que a arquitetura do ATHLON mostrou ser mais eficiente tanto em clculos aritmticos e manipulao de strings quanto em operaes que envolvem ponto flutuante.
xii
Abstract
This essay will only analyse Intel and AMD microprocessors searching to identify wich one is best to perform mathematical operations. For that, we used the main programs to test the performance of the microprocessors, the Sisoftware SANDRA 2002, that is a program capable of alnalysing IBM-PC microprocessors. After that, tests were made in computers of several configurations. The results seem to point that Athlon architecture showed to be more efficient either in Mathematical operations or in Strings manipulation in operations that use floating points.
xiii
SUMRIO
1. INTRODUO 2. FUNDAMENTOS TERICOS 2.1. MTRICAS DE DESEMPENHO 2.1.1. MIPS 2.1.2. MFLOPS 3. BENCHMARKS 3.1. BENCHMAK WHETSTONE 3.2. BENCHMAK DHRYSTONE 3.3. BENCHMAK LIVERMORE LOOPS 3.4. BENCHMAK LINPACK 3.5. BENCHMAK SPEC 4. CONSIDERAES SOBRE ANLISE DE DESEMPENHO DA CPU 4.1. CACHE 4.1.1. Cache L1 4.1.2. Cache L2 4.2. PIPELINE 4.3. ARQUITETURA SUPERESCALAR 4.4. BARRAMENTO EXTERNO 4.5. QUANTIDADE DE REGISTRADORES 5. UMA APLICAO PENTIUM 4 VERSUS ATHLON 6. CONCLUSO 15 21 21 22 26 28 30 31 33 34 36 39 39 39 40 41 42 43 43 45 51
xiv
7. BIBLIOGRFIAS
52
1. Introduo
importante que na escolha de por determinado microcomputador, o usurio faa uma comparao entre os disponveis no mercado levando em conta, principalmente, o parmetro desempenho. Entretanto, na maioria das vezes esta comparao feita com base em dados gerais disponibilizados pelos fabricantes e em informaes fornecidas pelos revendedores informaes estas que na maioria das vezes so superficiais e que nem sempre consideram a necessidade real do consumidor. O objetivo deste trabalho de concluso de curso , realizar um estudo dos mtodos de analise de desempenho de CPU (Central Processing Unit) evitando analises baseada em informaes subjetivas do consumidor. No somente os usurios esto preocupados com o desempenho, os projetistas e fabricantes de
microcomputador, necessitam de dados especficos e precisos sobre o desempenho da mquina para se poder, por exemplo, projetar uma arquitetura com maior capacidade de processamento. Por este motivo, o estudo de mtodos para avaliao de desempenho uma rea de pesquisa importante no desenvolvimento de arquitetura de computadores. Por outro lado, o crescimento acelerado da tecnologia e o aumento da complexidade dos sistemas computacionais fazem da avaliao de desempenho uma questo no muito simples de ser resolvida [3]. Uma forma de avaliar o desempenho de um sistema computacional atravs de ferramentas capazes de quantificar em dados o desempenho de um computador. Essas ferramentas so conhecidas como Benchmarks, e so programas desenvolvidos
16
especialmente para trabalhar na medida de desempenho. Atravs de um benchmark, possvel determinar se um sistema em particular pode processar adequadamente uma carga real, se as caractersticas de custo e desempenho so adequadas para um determinado problema e quais as melhores opes de configurao de hardware e software, considerando se um sistema em particular [2]. Alm disso, os benchmarks podem ser utilizados na avaliao de sistema j em operao, neste caso deseja-se verificar se uma alterao em um determinado parmetro do sistema, seja de hardware ou em software, resultar na melhoria do desempenho. Neste caso preciso que haja condies de submeter o benchmark ao sistema alterado antes de consolidar definitivamente a modificao. Pois existem casos em que no possvel interromper a operao de um sistema, neste caso, uma soluo disponibilizar um outro sistema no qual possam ser efetuados os testes antes de alterar o sistema em operao. Toda e qualquer atividade envolvida no processo computacional pode e deve ser medida e avaliada, a fim de que se possa ter a certeza que ela adequada aplicao para a qual foi projetada e que corresponde s expectativas em termos de eficincia e confiabilidade. Existem vrias medidas para quantificar o desempenho de um sistema computacional, as mtricas utilizadas so relacionadas a aspectos histricos envolvidos. At o final dos anos 80, as medidas dominantes de desempenho de computadores eram MIPS (milhes de instrues por segundo) e MFLOPS (milhes de operaes de ponto-flutuante por segundo). Essas medidas tiveram origem na percepo do conjunto de instrues que representava a carga de trabalho de um sistema. Entretanto, medidas baseadas no conjunto de instrues tm provado ser um critrio no muito adequado para a comparao de desempenho. Devido s diferenas
17
existentes nos conjuntos de instrues dos diversos processadores. Alm do mais, o aspecto de desempenho em relao ao conjunto de instrues representa um critrio do uso de benchmark voltado somente as operaes que envolvem CPU. A evoluo das famlias RISC (reduced-instruction-set-computing) e CISC (complex-instruction-setcomputing)1 mostra que medidas de MIPS e MFLOPS so inadequadas para indicar com preciso as mtricas de desempenho [6]. Um benchmark constitudo por cargas naturais e cargas artificiais. As cargas naturais correspondem exatamente carga real, onde estas so observadas nos sistemas em operao normal utilizando um determinado aplicativo real. J as cargas artificiais podem ser de duas espcies: as cargas sintticas, projetadas e implementadas sem nenhum compromisso em utilizar cargas reais, e as cargas hbridas, que se caracterizam em possuir partes de uma carga real. De um modo geral, as cargas naturais necessitam de perodos de medio muito longos para que se possa garantir um alto grau de representatividade, o que no ocorre com as cargas artificiais, pois so projetadas adequadamente apara analisar um certo aspecto do sistema (anlise de CPU, perifricos etc.) permitem aplicaes repetitiva e controlada. Isso constitui uma das razes bsicas pela qual as cargas artificiais so geralmente preferidas. Entre as cargas artificiais, as hbridas so, aparentemente, de obteno menos dispendiosa que as sintticas. Estas, entretanto, constituem os chamados benchmarks sintticos, so mais flexveis e, uma vez cuidadosamente ajustadas e validadas, permitem que alcance uma melhor representatividade igual num perodo de testes mais curto.
RISC so arquiteturas com o conjunto de instrues reduzidas e CISC o conjuntos de instrues so complexas.
18
Todavia, os profissionais da computao sempre quiseram estabelecer critrios de avaliao de um sistema. Dois Benchmarks comuns para medir o desempenho de computadores so do tipo kernel e sintticos usados como representaes de carga de trabalho para computadores. Programas kernel so segmentos de cdigo extrados de aplicaes reais e altamente representativas (inverso de matrizes e busca em rvores, por exemplo), enquanto programas sintticos so programas gerados artificialmente para tentar retratar as caractersticas de um grande conjunto de programas. Os testes mais comuns de benchmark baseados em kernel ou programas sintticos incluam os testes Dhrystone, Whetstone, Linpack e Livermore Loops, que so benchmarks comuns. MIPS foi derivado do Dhrystone e o MFLOP foi largamente influenciado pelo Linpack, apesar da contribuio do Livermore Loops [10]. Um outro benchmark muito conhecido chama-se System Performance Evaluation Corporative (SPEC) uma cooperativa formada por grandes fabricantes de computadores que buscam desenvolver, manter e apoiar um conjunto padronizado de benchmarks que possam ser aplicados a mais nova gerao de computadores de alto desempenho. O SPEC no exatamente o nome de um benchmark. Na verdade, tratase de um consrcio de vinte e duas empresas que tm como objetivo prover a indstria com um padro realstico para medir o desempenho de sistemas de computadores avanados [2]. Os benchmarks desenvolvidos por esta cooperativa de empresas so programas reais (o que os classifica como benchmarks de aplicao), que visam medir o desempenho da maior parte possvel de componentes do sistema, principalmente o processador, arquitetura de memria e compilador. O que se tem de mais recente no conceito de benchmark o acoplamento de um hardware ao processador, monitorando o seu desempenho. Os dados coletados por
19
esse hardware fornecem informaes de desempenho das aplicaes, do sistema operacional e do processador. Os dados podem guiar os esforos de obteno de desempenho fornecendo informaes que ajudam os programadores a melhorar os algoritmos utilizados pelas aplicaes, o sistema operacional e as seqncias de cdigo que implementam esses algoritmos [5]. Este trabalho de concluso de curso, objetiva especificamente analisar processadores dos fabricantes Intel e AMD, buscando identificar aquele que possui melhor desempenho em termos de clculos aritmticos. Para alcanar esse objetivo, foi realizado um estudo que consiste de trs fazes. A diviso em fazes necessria para uma anlise detalhada dos principais programas que realizam testes de desempenho, e consistem em: a) Escolha de um programa capaz de efetuar todos os testes de desempenho nos microcomputadores da linha IBM-PC; (Athlon e Pentium 4) b) Realizao dos testes de desempenho considerando-se vrias configuraes; c) Apresentao dos resultados dos teste de desempenho. O trabalho foi estruturado em cinco captulos o primeiro representado por esta introduo, que apresenta os objetivos principais, estado da arte em que se encontra a rea. O segundo captulo apresenta os fundamentos tericos, necessrios para a compreeno do trabalho. J o terceiro captulo focaliza os principais e mais comuns benchmarks encontrados na literatura computacional, dando maior nfase ao benchmark SPEC. O quarto captulo, por sua vez, discute os aspectos gerais envolvidos na anlise de desempenho de CPUs, enquanto o captulo quinto traz uma aplicao dos testes de benchmark realizados nos computadores Pentium 4 e Athlon, a partir de certos parmetros de comparao, da escolha da configurao, dos resultados
20
obtidos e da anlise desses resultados. A concluso do trabalho aborda as principais constataes resultantes dessa anlise e comenta a perspectiva de trabalhos futuros na rea.
21
2- Fundamentos Tericos 2.1 Mtricas de Desempenho

A medida geral de desempenho de um sistema de computao depende fundamentalmente da capacidade e velocidade de seus diferentes componentes, da rapidez com que estes componentes se comunicam entre si e do grau de compatibilidade que possa existir entre eles (por exemplo, se a velocidade da CPU de um sistema muito maior que a da memria, ento este sistema tem um desempenho inferior ao de um outro em que a CPU e a memria tm velocidades mais prximas). Considerando a existncia de tantos fatores que influenciam o desempenho de um sistema de computao, desenvolveram-se diversos meios para medir seu desempenho. O desempenho dos processadores, em geral, medido em termos da sua velocidade de trabalho. Como seu trabalho executar instrues, criaram-se as unidades chamadas MIPS (milhes de instrues por segundo) e MFLOPS (milhes de operaes de ponto flutuante por segundo), esta ltima uma medida tpica de estaes de trabalho e de supercomputadores, pois estes costumam trabalhar com clculos matemticos. J quando se trata de recuperao ou escrita de informaes na memria, o tempo de acesso uma unidade de medida mais apropriada, estando relacionada velocidade de cada componente e a do canal de interligao entre a CPU e a memria [2]. Tempo de resposta uma medida ligada ao desempenho mais global do sistema. Trata-se do perodo de tempo gasto entre o instante em que o usurio iniciou uma solicitao ou interrupo e o instante em que o sistema apresentou ao usurio a sua resposta ou atendeu sua solicitao. Como exemplo, pode-se citar o intervalo de
22
tempo entre a solicitao de um saldo de conta em um terminal bancrio e a apresentao, no vdeo, da resposta, o saldo da conta. Uma outra unidade de medida de desempenho a vazo ("throughput"), que define a quantidade de aes ou transaes que podem ser realizadas por um sistema na unidade de tempo, por exemplo, pode-se mencionar a quantidade de atualizaes que so realizadas em um sistema de controle de estoque de uma empresa. Quando se faz referncia velocidade com que um determinado dispositivo de entrada ou de sada transfere ou recebe dados da CPU, utilizada uma unidade que mede a taxa de transferncia que o canal de ligao pode suportar, isto , a quantidade de bits por segundo que podem trafegar por aquele canal [4].
2.2.1 - MIPS
No contexto de medidas de desempenho de CPU, MIPS significa Milhes de Instrues por Segundo. A taxa de MIPS de uma CPU se refere ao nmero de instrues de cdigo de mquina um processador pode executar em um segundo. Infelizmente, usar este nmero como uma maneira de medir desempenho de processador algo completamente sem sentido, j que dois processadores individuais nunca usam o mesmo tipo de instrues, mtodos de execuo etc. Por exemplo, em um processador, uma simples instruo pode realizar vrias tarefas quando executadas como se observa na famlia CISC, enquanto em outro processador uma simples instruo pode fazer muito pouco, mas mais rpida de ser executada como ocorre na famlia RISC. Alm disso, instrues diferentes no mesmo processador quase sempre significam cargas muito diferentes de trabalho (por exemplo, uma simples instruo
23
aritmtica pode levar apenas um ciclo de clock para ser completada, enquanto fazer algo como uma diviso de ponto flutuante ou uma operao de raiz quadrada pode levar de 20 a 50 ciclos de clock). Os especialistas que desenvolvem processadores e as pessoas interessadas em saber como eles funcionam quase nunca utilizam a taxa de MIPS quando discutem desempenho porque isto intil (muitos ainda pensam que a taxa de MIPS o aspecto mais importante relativo ao desempenho). O nmero de MIPS de uma mquina geralmente muito alto em decorrncia da maneira como trabalham os processadores, porm, na verdade, o nmero de MIPS geralmente diz muito pouco sobre como o processador realmente funciona. Em um processador hipottico com uma taxa de MIPS menor que a de outro pode, na realidade, ser um processador melhor no aspecto de velocidade, uma vez que suas instrues teriam condies, por exemplo, de realizar mais trabalho por ciclo de clock do que um outro com uma taxa maior [2]. Vejamos uma ilustrao: imagine um processador de 32 bits rodando a 400 MHz, ele pode possuir uma taxa de 400 MIPS. J um processador de 64 bits rodando a 200 MHz pode ter uma taxa de 200 MIPS (assumindo um design simples em cada caso). Se a tarefa a ser realizada pelos processadores envolvesse processamento de ponto-flutuante de 64 bits (processamento de udio, por exemplo), o processador de 32 bits levaria muito mais ciclos de clock para completar uma simples multiplicao de ponto-flutuante de 64 bits, j que os seus registradores tm comprimento de palavra de 32 bits apenas. A CPU de 32 bits levaria pelo menos o dobro do tempo para realizar tal operao. Ento, para operaes de 64bits, o processador de 32 bits seria muito mais lento do que o de 64 bits. Em compensao, se a tarefa envolvesse operaes de 32 bits, se os registradores de 64 bits, na CPU de 64 bits, pudessem ser tratados como dois
24
registradores de 32 bits, a CPU de 32 bits seria muito mais rpida. Tudo dependeria dos requerimentos de processamento. A situao na vida real , entretanto, muito mais complicada, pois CPUs reais raramente realizam tarefas uma de cada vez em apenas um ciclo de clock. Operaes aritmticas simples podem levar apenas um ciclo de clock, uma multiplicao de inteiros pode levar dois ciclos, uma multiplicao de ponto-flutuante pode levar cinco ciclos, e assim por diante. Alm do mais, algumas CPUs foram projetadas para fazer mais do que uma operao do mesmo tipo ao mesmo tempo por exemplo, quando possuem mais de uma unidade de processamento. As CPUs modernas (entre elas as sries R10000 e PA8000) na maioria das vezes possuem duas ou mais unidades de processamento aritmtico para inteiros, duas ou mais unidades de processamento de ponto-flutuante e pelo menos uma unidade de load/store (instrues de mquina). s vezes, elas tambm podem ter unidades especiais para acelerar, por exemplo, clculos de raiz quadrada. Atualmente, h tecnologias tais como a MMX, da Intel que foi desenvolvida para permitir que um registrador aritmtico de 64 bits seja tratado como mltiplos registradores de 32 bits, 16 bits ou 8 bits. Existe ainda a MDMX (da MIPS Technologies Inc.) que faz o mesmo, mas mais poderosa devido ao fato de tambm permitir a mesma diviso do registrador para ser feita com registradores de ponto-flutuante [2]. Essas novas idias permitem que um nmero maior de clculos seja realizado simultaneamente em comparao a arquiteturas mais velhas. Um exemplo: o sombreamento Gouraud, que envolve operaes de ponto-flutuante de 32 bits, usando um registrador de 64 bits de ponto-flutuante como dois registradores de 32 bits
25
separados resulta na melhor das hipteses, no dobro da capacidade de processamento da CPU. A mtrica MIPS pode ser definida como [2]:
MIPS =
taxa _ clock CPI 10 6
Onde CPI a media dos tempos gasto por todas as instrues executadas pelo programa e a taxa de clock a mdia de ciclos de clock por segundo de um microcomputador expressado em Mega Hertz (1 MHz sendo igual a 1 milho de ciclos por segundo). Segundo. A frmula mostra que, quanto maior a taxa de clock, maior o desempenho da mquina. E, quanto menor for o CPI, ou melhor, ciclos de clock por segundo (o valor mnimo 1), maior ser o desempenho medido em MIPS. O MIPS tem a grande vantagem de ser fcil de entender e bastante intuitivo quando se analisa a relao dos fatores envolvidos na frmula. Entretanto existem alguns problemas quando se utiliza MIPS para comparar o desempenho de duas arquiteturas diferentes. O primeiro problema que MIPS especifica a taxa de execuo de instrues de forma independente do conjunto de instrues. No razovel comparar mquinas com diferentes conjuntos de instruo usando MIPS, uma vez que o nmero de instrues de mquina vai ser diferente para cada caso. Segundo, os resultados obtidos com o uso do MIPS variam entre programas no mesmo computador impedindo, portanto, que determinada mquina tenha um nico valor MIPS [2].
26
2.2.2 - MFLOPS
definido, de uma forma geral, como o nmero de palavras de tamanho total de palavra resultante das operaes de multiplicao de ponto flutuante que podem ser realizadas por segundo. Obviamente, operaes de adio e subtrao de ponto flutuante levam menos tempo, sendo a diviso a mais lenta de todas. As CPUs mais antigas levam muitos ciclos de clock para completar uma operao de ponto flutuante e, mesmo considerando-se freqncias altas de clock, a taxa de operaes de ponto flutuante pode ser baixa. Como no caso do 486DX4 de 100 MHz que tem taxa de 6 MFLOPS, ao compar-lo ao R4400 de 200 MHz, que tem taxa de 35 MFLOPS, percebe-se que, para processadores mais antigos, a velocidade de clock no uma indicao clara de taxa de MFLOPS. Com o advento de novas arquiteturas o problema tornou-se ainda mais complexo, pois CPUs como a R10000 podem fazer duas operaes de ponto-flutuante a cada ciclo de clock, conseguindo isso a uma taxa de 400 MFLOPS a 200 MHz. O R8000 ainda mais complexo, pois possui duas unidades de execuo de pontosflutuantes, cada uma capaz de realizar duas operaes deste tipo por ciclo de clock a uma taxa de 360 MFLOPS a 900 MHz, dez vezes mais rpido que o P90 da Intel. Novamente, a tarefa a ser executada um aspecto importante. Uma CPU de 64 bits capaz de fazer 400 MFLOPS pode ser algo significativo, mas, se a tarefa a ser realizada precisa apenas de processamento de 32 bits, ento boa parte da capacidade da CPU est sendo desperdiada. Algumas CPUs tais como a R5000 tratam desse problema visando principalmente os mercados consumidores que no precisam de operaes de processamento de ponto-flutuante de 64 bits. Projetos futuros, como o
27
MDMX, resolvero o problema do desperdcio, mas tambm tornaro a medio do desempenho de CPUs ainda mais difcil. Apesar do que foi dito acima, h ainda um ponto a ser analisado: a velocidade de acesso memria. Uma CPU rpida um aspecto importante quando se refere ao desempenho de pico etc, mas, na realidade, a obteno do melhor desempenho possvel para uma CPU depende tambm da taxa em que ela pode acessar dados dos vrios tipos de memria (caches L1 e L2 e RAM principal). Em um sistema, uma CPU rpida com pouca memria ou de tempo de acesso lento, no ser capaz de obter desempenho semelhante ao desempenho de pico terico. Baseados nesses aspectos, conclui-se que difcil comparar duas arquiteturas tendo como base o desempenho em MFLOP, j que o conjunto de operaes de ponto flutuante das duas arquiteturas pode no ser coincidente. Assim, em caso de dvida sobre qual mtrica utilizar, uma boa estratgia adotar a do tempo de execuo [2].
28
3- Benchmarks
Este captulo, define o que vem a ser benchamrk, alm de apresentar os diferentes tipos e principais benchmarks existentes no mercado para a anlise de desempenho da CPU. Um teste de benchmark o processo que consiste na execuo de um determinado programa ou carga de trabalho em uma mquina ou sistemas especficos, medindo o desempenho resultante. Esta tcnica permite uma avaliao do desempenho desta mquina para a carga de trabalho utilizada que, em termos prticos, pode ser um conjunto de programas executados em um computador. Esses benchmarks podem ser aplicaes completas, sendo partes mais executadas de um programa que so os kernels, ou programas sintticos [10]. Os programas benchmarks podem ser classificados em quatro grupos: sintticos, kernel, algortimo e aplicao. Os benchmarks sintticos so aqueles cujo cdigo no faz nenhuma computao til, no representa nenhuma aplicao real, somente exercita alguns componentes bsicos do computador. Geralmente, tentam determinar uma freqncia mdia de instrues tpicas, comumente utilizadas, e recri-las em um programa. Os mais conhecidos so o Whetstone e o Dhrystone. Os do tipo Kernel so baseados no fato de que a maior parte da computao de um programa concentrada em uma pequena parte de seu cdigo. Esta pequena parte, chamada de ncleo (kernel), extrada do programa e usada como benchmark. Ressalte-se que eles no servem para avaliar completamente o desempenho de uma mquina. So bastante interessantes por sua simplicidade e pequeno tamanho. Um bom exemplo deste tipo de
29
programa o Livermore Loops. Os benchmarks do tipo algoritmos so aqueles que possuem seus algoritmos bem definidos, geralmente implementaes de mtodos conhecidos em computao numrica como, por exemplo, os mtodos de resoluo de equaes lineares (lgebra linear) que fazem parte do benchmark Linpack. Finalmente, os benchmarks do tipo aplicao so programas completos, que resolvem problemas cientficos bem definidos, entre eles o SPEC [13]. Um benchmark deve ser escolhido de tal forma a caracterizar uma carga de trabalho particular da qual se deseja medir o desempenho. Hoje em dia, est claro que o melhor benchmark o emprego de programas reais que sero usados no dia a dia da mquina. Porm, aplicaes reais no so usadas no caso de projetos de novos processadores. O uso de benchmarks sinttico tem algumas vantagens j que so programas pequenos e mais fceis de simular do que programas reais. Alm disso, a gerao de cdigo executvel de programas reais pode ainda nem estar disponvel nos compiladores. Mas para comparar o desempenho de um sistema computacional j no mercado, a melhor estratgia a utilizao de programas reais. Mais uma vez vale lembrar que o desempenho no uma medida absoluta. Para dois programas diferentes P1 e P2, um sistema A pode ter um melhor desempenho para o primeiro programa (P1) e o sistema B, para o segundo programa (P2). Na seo seguinte, sero conceituados os diferentes tipos de benchmarks, suas caractersticas e modo de funcionamento.
30
3.1 Benchmark Whetstone

um programa escrito em linguagem C que permite testar o desempenho do processador em operaes de ponto-flutuante. A verso original foi desenvolvida em 1976. O Whetstone faz parte de vrios programas de benchmark atuais, cujo resultado indica o nmero de vezes por segundo em que o processador capaz de executar o programa. O desempenho do processador neste teste um bom indicativo do seu desempenho em jogos 3D e em aplicativos cientficos, apesar de no ser necessariamente uma medida confivel para aplicativos reais [13]. O Whetstone foi o primeiro benchmark sinttico mencionado na literatura com fins especficos de medida de desempenho. Sua primeira verso foi publicada na linguagem ALGOL 60 (apesar de ter sido mais utilizado em FORTRAN), em 1976, por H. J. Curnow e B. A. Wichmann, do Laboratrio Nacional de Fsica na Inglaterra. O Whetstone um programa com poucas linhas de cdigo, composto de vrios mdulos. Cada mdulo tem um tipo diferente, explora diferentes caractersticas da linguagem de programao e executado vrias vezes atravs de laos do tipo "FOR". Na verdade, existia uma linguagem chamada ALGOL Whetstone, que foi utilizado para coletar estatsticas sobre a distribuio das instrues Whetstone de um grande nmero de programas numricos. O prprio cdigo do benchmark foi traduzido para esta linguagem intermediria (instrues Whetstone), de onde eram calculadas as freqncias das diferentes instrues e comparadas com o cdigo original. Alguns ajustes eram feitos atravs da atribuio de pesos (alterando-se os tamanhos dos laos), at que a distribuio das
31
instrues do benchmark refletisse a freqncia mdia das instrues dos cdigos analisados anteriormente. Os resultados eram, ento, medidos em termos de MWIPS (Mega Whetstone Instructions per Second - Milhes de Instrues Whetstone por Segundo) [2]. As vantagens deste benchmark so o seu tamanho reduzido e simplicidade do cdigo, alm de explorar bastante as operaes em ponto-flutuante. Portanto, serve como comparativo para pequenas aplicaes cientficas em computadores de pequeno e mdio porte. Algumas vezes, para fins comerciais, o programa sofre pequenas alteraes como retirada dos comandos de impresso, o que pode eliminar partes importantes do cdigo. Para tentar resolver este tipo de problema, em 1988, uma nova verso em Pascal foi publicada.
3.2- Benchmark Dhrystone

O benchmark Dhrystone foi publicado pela primeira vez na linguagem ADA, em 1984. Agora a verso em linguagem C do Dhrystone onde sua aplicao principal na anlise da eficincia de combinaes hardware/compilador em mquinas de pequeno e mdio porte. No entanto o benchmark Dhrystone original ainda utilizado para medir desempenho de processadores. Originalmente, com o Dhrystone, pretendia-se criar um programa pequeno de benchmark que fosse representativo na programao de sistemas (no caso de operaes aritmticas). O cdigo do Dhrystone dominado por aritmtica simples, operaes com string, decises lgicas, e acessos de memria com inteno de refletir
32
as atividades da CPU nas aplicaes de computao de propsito mais geral. O resultado do teste do Dhrystone determinado atravs do clculo do tempo mdio que um processador leva para executar as muitas interaes de um simples lao que, por sua vez, contm uma seqncia fixada de instrues que compem o benchmark. Quando se menciona o Dhrystone, usualmente caracterizado como DMIPS (Dhrystone Millions of Instruction per Second) [10]. O Dhrystone tem um nmero de atributos que o levaram a ser amplamente usado no passado para medir desempenho de processadores. Em primeiro lugar, o Dhrystone compacto, tem alta disponibilidade no domnio pblico e simples de usar. O Dhrystone compara o desempenho do processador em anlise ao de uma mquina de referncia. Esta a vantagem que se tem sobre a utilizao direta do nmero de MIPS, j que usar uma mquina de referncia efetivamente compensa as diferenas na complexidade das instrues, etc. Assim, comparar literalmente os nmeros de MIPS de uma arquitetura RISC com os de uma CISC no importante, como dito anteriormente neste trabalho [2]. No passado, a indstria adotou o VAX 11/780 como uma mquina de referncia de 1 MIPS. O VAX 11/780 alcana 1757 D/S (Dhrystone por segundo). O resultado do benchmark Dhrystone calculado medindo o nmero de D/S para o sistema, e dividindo este nmero por 1757 (da mquina de referncia). Ento, 80 MIPS significam 80 MIPS VAX Dhrystone, o que, por sua vez, significa dizer que esta mquina 80 vezes mais rpida que a mquina de referncia VAX 11/780. Uma taxa de DMIPS/MHz leva esta normalizao ainda mais adiante, permitindo uma comparao de desempenho de processador para taxas diferentes de clock [2].
33
Entretanto, algumas das vantagens aparentes do Dhrystone tambm so fraquezas significativas deste benchmark. Os nmeros do Dhrystone refletem na verdade o desempenho do compilador da linguagem C e suas bibliotecas, provavelmente mais do que o desempenho do prprio processador. Alm disso, seu projeto foi baseado na anlise de vrios outros programas, escritos em diferentes linguagens e por diferentes autores, porm, voltados programao de sistemas (sistemas operacionais, compiladores, etc.). Esta uma caracterstica bastante relevante, pois, diferentes classes de aplicaes enfatizam diferentes tipos de operaes, como por exemplo, aplicaes numricas utilizam bastante vetores e aritmtica de ponto-flutuante; aplicaes comerciais utilizam predominantemente atividades de entrada/sada; e programao de sistemas utiliza bastante ponteiros, sentenas "IF ", chamadas de procedimentos, alm de conter menos laos e expresses numricas mais simples [13].
3.3- Livermore Loops

O nome mais correto deste benchmark Livermore Fortran Kernels, porm, ele mais conhecido como "Livermore Loops". Ele se classifica como um benchmark do tipo kernel. O Livermore Loops uma sntese dos ncleos de vrios programas, cujo responsvel foi Frank H. McMahon, do Laboratrio Nacional de Lawrence Livermore, em 1970. O benchmark composto de vinte e quatro ncleos de programas, extrados de cdigos vindos de diferentes reas cientficas e escritos por diferentes autores. Este ncleo contm sentenas comumente utilizadas em FORTRAN. Os laos contidos
34
neste benchmark utilizam aplicaes com vetores, que so executados em trs dimenses diferentes [13]. A nfase deste benchmark est nas operaes em ponto-flutuante, alm da possibilidade de verificar a habilidade do compilador em gerar cdigos eficientes. Este benchmark originou a unidade de medida MFLOP/s [2].
3.4- Linpack
O Linpack um dos mais famosos benchmarks, utilizado inclusive nos testes das 500 mquinas mais rpidas existentes (Top500), por ser o que tem maior nmero de resultados reportados. Originalmente, o Linpack era um pacote de sub-rotinas que tinham por finalidade resolver sistemas de equaes lineares algbricas. Jack Dongarra, da Universidade do Tennessee (antigo Laboratrio Nacional Argonne), publicou-o em 1976, sem inteno de torn-lo um benchmark, incluindo apenas como um apndice no Guia do Usurio do Linpack, dados referentes ao desempenho de vinte e trs computadores [13]. O Linpack encaixa-se na classificao de benchmark tipo algoritmico. Ele contm dois conjuntos de rotinas: um para decomposio de matrizes e outro para resolver o sistema de equaes lineares baseados em decomposio. Dentre as vrias sub-rotinas contidas no pacote, a mais utilizada e a que consome a maior parte do tempo de execuo do programa a "saxpy". Ela contm somente 15 linhas de cdigo, em linguagem de baixo nvel e trabalha com vetores de apenas uma dimenso. As rotinas de mais alto nvel chamam-na vrias vezes e operam com vetores bi-dimensionais [13].
35
Este benchmark baseia-se em um subpacote de rotinas para operaes bsicas de lgebra linear, o BLAS (Basic Linear Algebra Subroutine - Subrotinas de lgebra Linear Bsica). A verso FORTRAN chamada FORTRAN BLAS e a verso Assembly, Coded BLAS, mas j no mais utilizada. Existem verses diferentes para o Linpack cada verso diferencia-se no tamanho das matrizes (a mais utilizada 100x100); na preciso, que pode ser dupla ou simples; e em relao aos tipos de laos (rolled/unrolled). Os laos unrolled so incrementados de 4 em 4, e o corpo do lao contm sentenas para ndices i, i+1, i+2 e i+3. Em algumas mquinas/compiladores o cdigo executa mais rpido desta maneira. Nas mquinas vetoriais mais modernas, o compilador j faz isto de maneira mais otimizada e, portanto, elas executam a verso "rolled" (laos incrementados de 1 em 1) mais rapidamente. Os resultados dos testes so reportados em MFLOPS (Millions of Floating Point Operations per Second), GFLOPS (Billions of Floating Point Operations per Second) ou at TFLOPS (Trillions of Floating Point Operations per Second) [2]. Sua aplicao visvel em mquinas que utilizam softwares para clculos cientficos e de engenharia, visto que as operaes mais utilizadas nestes tipos de aplicaes so em ponto-flutuante.
36
3.5 Benchmark SPEC

O mais conhecido entre os benchmarks para processadores o SPEC (System Performance Evaluation Cooperative). Essa cooperativa americana, criada em 1989, por diversas empresas do ramo de fabricao de computadores, objetiva melhorar as mtricas e as informaes disponveis sobre desempenho de processadores [2]. Apesar de serem muito teis para as mquinas dessa gerao de computadores, os esforos dos cooperados da SPEC no sero suficientes para atender s exigncias da prxima gerao de mquinas [6]. Em 1991, uma medida do throughput foi adicionada ao benchmark SPEC. Embora este programa seja mais apropriado para a avaliao da utilizao de tempo compartilhado entre os diversos usurios do sistema, ligados a sistemas com um ou vrios processadores. Foram adicionados outros benchmark, entre eles, principalmente, os que fazem uso do sistema operacional e de atividades de entrada e sada. Outra mudana realizada foi excluso do programa matrix300, alm da insero de mais benchmarks no padro SPEC. A verso inicial do SPEC, chamada SPEC89, era composta por seis programas em ponto flutuante e apenas quatro programas de inteiros, geralmente voltados computao de nmeros em ponto-flutuante. O ano de 1992 marcou a incorporao de um novo benchmark, denominado SPEC92, que apresentava novos programas, sendo que o matrix300 fora eliminado, e ainda calculava dois ndices separados, o SPECint e SPECpf, respectivamente, para programas em ponto fixo e ponto flutuante. Alem disso, o SPEC92 incluiu uma medida denominada SPECbase que no permitia a utilizao de compiladores com opes
37
especificas. O SPECbase a medida de desempenho que mais se aproxima da vivncia em aplicaes reais [6]. Em 1995, houve mais uma atualizao do SPEC que apresentava novos programas, tanto inteiros quantos em ponto-flutuantes. Tambm foram eliminados outros tantos, ou por defeito do programa ou por no mais satisfazerem aos requisitos do desempenho desde a primeira verso [6]. A partir da continuou a incluso de novos conjuntos de benchmarks, alm dos anteriores cujo alvo era o desempenho do processador. O benchmark SDM (System Development Multitasking) compreende dois programas que so verses sintticas de carga de trabalho, tpicos de ambiente de desenvolvimento, com edies, compilaes, comandos de sistemas. O benchmark SFS (System-level File Server) uma carga de trabalho sinttica para teste de desempenho de um servidor de arquivos. Ambos os benchmark incluem componentes de entrada/sada e sistema operacional em vez de testar processadores. A mais recente atualizao do SPEC recebeu o nome de CPU2000 da SPEC que representa o conjunto de programas de benchmark mais cotado da SPEC. um benchmark padronizado para CPU, projetado para fornecer uma medida comparativa de desempenho nas reas mais amplas e prticas do que aquelas que a tecnologia de hardware de hoje abrange. Os benchmarks CPU2000 da SPEC foram desenvolvidos para aplicaes reais de usurios. Esses benchmarks medem o desempenho do processador, da memria e do compilador do sistema testado. O CPU2000 dividido em dois conjuntos principais de benchmarks: o SPECint e o SPECfp. O SPECint mede o desempenho das operaes aritmticas com inteiros do
38
sistema testado. Processamento de palavras, compresso de arquivos, e-mail e desempenho de database compreendem esta categoria. O SPECfp mede o desempenho das operaes de ponto-flutuante do sistema testado; jogos 3D e processamento de udio so exemplos de aplicaes de pontos-flutuantes. Um aspecto importante da metodologia utilizada pela SPEC para desenvolver o CPU2000 a percepo de que, com as complexas aplicaes que se tem hoje, quase impossvel e, mais importante ainda, ftil separar o desempenho da CPU do sistema de memria. Por exemplo, as aplicaes do SPECfp e as cargas de trabalho associadas a essas aplicaes tendem a requerer grandes quantidades de memria em adio a um bom desempenho computacional com pontos-flutuantes. Isto no um acidente, nem se deve a peculiaridades associadas s cargas de trabalho do SPECfp. As maiorias das aplicaes que utilizam processamentos de ponto-flutuante necessitam, por natureza, tanto um de bom processamento de pontos-flutuantes quanto de grandes quantidades de memria. este equilbrio delicado no comportamento das aplicaes que os benchmarks CPU2000 procuram expor [11].
39
4- Consideraes na Anlise de Desempenho da CPU.

Este captulo tem por objetivo apresentar as principais estruturas que influenciam diretamente no desempenho da CPU. Dentre estas estruturas no se pode deixar de citar as cinco principais que so: cache, pipeline, arquitetura Superescalar, barramento externo e finalmente quantidade de registradores.
4.1 - Cache
pouco provvel, um microprocessador hoje em dia sem cache de memria, um sistema que utiliza uma pequena quantidade de memria esttica como intermediria no acesso lenta memria RAM, embora o seu funcionamento varie de acordo com o mtodo organizacional empregado pelo controlador de cache, a finalidade a mesma: aumentar o desempenho do microcomputador, fazendo com que o estado de espera (wait stats) no seja necessrio [9]. inquestionvel a importncia do cache de memria em microcomputadores modernos, tanto que hoje em dia, tem-se dois tipos de cache de memria: cache L1 (interno, presente dentro do processador) e o cache L2 (tambm interno, atualmente presente dentro dos processadores mais novos).
4.1.1- Cache L1
Atualmente todos os processadores trabalham com um esquema chamado de multiplicao de clock. Dessa forma, a freqncia de operao interna s utilizada na execuo de instrues que no dependam da memria RAM, tais como: os clculos,
40
aritmticos e lgicos, por exemplo. No caso da instruo necessitar buscar um dado na memria, a velocidade do processador cair para mesma velocidade do barramento local, onde, ainda por cima, ter de utilizar os estados de espera no acesso memria RAM. O controlador de cache L1, que est embutido dentro do processador, carrega para a cache de memria interno dados que ela acredita que o processador necessitar durante os prximos pulsos de clock. Dessa forma, em vez de acessar dados na memria RAM, que lenta, o processador acessa uma cpia de tais dados no cache de memria L1. Como o processador capaz de acessar o cache L1 em sua freqncia de operao interna, os dados so lidos quase que instantaneamente [7].
4.1.2 Cache L2
Assim como o cache L1, o cache L2 tenta antecipar os prximos endereos a serem lidos pelo processador, colocando no cache de memria os dados l contidos. O acesso ao cache de memria feito sem a utilizao dos estados de espera e, com isso, o desempenho do processador mantido. Na maioria das vezes, o processador busca dados no da memria RAM, mas sim a cpia desses dados contida no cache de memria. Se precisasse ler a memria RAM, diminuiria o desempenho do micro por causa da utilizao dos estados de espera ou por causa da latncia da memria (tempo demorado para a memria devolver dados solicitados).
41
4.2 Pipeline
O pipeline uma tcnica de implementao em que mltiplas instrues so sobrepostas na execuo [9]. Existem trs tipos de pipeline. So eles os pipelines de instruo, os aritmticos e os superescalares. Um pipeline de instruo tpico possui as fases de busca, decodificao, busca de dados e write back (escrita dos resultados). Esses blocos so simples e geralmente so executados em apenas um ciclo de clock, com exceo do bloco de execuo que por ser mais complexo pode demorar vrios ciclos de clock para ser executado. Isso pode causar um desequilbrio j que as fases possuem tempos de execuo diferentes. Para resolver esse problema, duas tcnicas podem ser utilizadas. Uma delas consiste em subdividir a fase de execuo em vrios estgios e a outra consiste em alongar as fases mais curtas. Existem tambm pipelines utilizados para aumentar a velocidade das operaes aritmticas. Esses pipelines aritmticos so projetados para executar funes fixas. Eles efetuam separadamente as operaes em ponto fixo e ponto flutuante. Esse tipo de pipeline pode ter vrios blocos dependendo da aplicao implementada. Todas as operaes aritmticas (add, subtract, multiply, division, squaring, rooting, logarithm, etc.) podem ser implementadas atravs de um adicionador bsico e de operaes de deslocamento [9]. Os pipelines estticos so monofuncionais, pois executam apenas funes fixas, e os dinmicos so multifuncionais, pois podem realizar mais de uma funo. A diferena entre os dois que o esttico executa uma funo de cada vez, e diferentes
42
funes podem ser efetuadas em instantes diferentes, j o dinmico pode realizar vrias funes simultaneamente. Os pipelines superescalares so basicamente um conjunto de pipelines funcionando em paralelo. Consiste em se aumentar o nmero de pipelines, ao invs de um, tm-se dois ou trs pipelines em paralelo. As vantagens desse tipo de pipeline se d pelo paralelismo real, com dois ou mais instrues sendo processadas em paralelo, com melhora significativa do desempenho j as desvantagens consistem na necessidade do cdigo ser preparado, aumento de complexidade e problemas de dependncias e desvios.
4.3 Arquitetura Superescalar

Da mesma forma que o pipeline, a arquitetura superescalar, uma forma de paralelismo no nvel das instrues, pois tem como objetivo aumentar o desempenho de um processador executando mais de uma instruo ao mesmo tempo. Esta arquitetura composta basicamente de mltiplas unidades funcionais dentro de um nico processador. De forma que, comparando a um suposto processador com apenas uma unidade funcional, esta tecnologia, aumenta teoricamente n vezes a velocidade do processamento, devido n unidades funcionais adicionadas arquitetura para trabalhar em paralelo.
43
4.4 Barramento Externo

O barramento um conjunto de vias onde so conectados vrios dispositivos possibilitando a troca de informaes entre eles. Logo quanto maior a largura do barramento, melhor ser a transmisso de bits e em conseqncia disso, melhor ser o desempenho total de um sistema.
4.5 Quantidade de Registradores

Os registradores so memrias auxiliares internas CPU que possui maior velocidade de transferncia e menor capacidade de armazenamento dentro do sistema computacional. A capacidade de armazenamento dos registradores est na habilidade de guardar apenas um nico dado, uma nica instruo ou at mesmo um nico endereo. Dessa forma, a quantidade de bits de cada um de 8 a 128 bits, dependendo do tipo de processador. Registradores de dados tm, em geral, tamanho definido pelo fabricante. Os registradores so memrias de semicondutores e, portanto para funcionarem precisam de energia eltrica, logo so memrias volteis, sendo fabricados com tecnologia igual dos demais circuitos da CPU, visto que eles se encontram inseridos no seu interior. No entanto, h diversos modelos de tecnologia de fabricao de semicondutores, uns com tempo de acesso maior que outros custos e capacidade de armazenamento, no mesmo espao fsico, diferente. Tecnologia bipolar e MOS metal oxido semiconductor so comuns na fabricao de registradores.
44
Pelo fato dos registradores armazenar dados que sero requisitados pela CPU, e possurem o menor tempo de acesso, a quantidade de registradores influenciam no desempenho do processador, pois uma arquitetura que possui uma vasta quantidade de registradores pode armazenar vrios dados e evita que a CPU fique ociosa durante o seu processamento [7][12]. As informaes dadas no decorrer deste captulo, se fazem necessrias para o entendimento da justificativa mencionada no captulo 5 em relao anlise dos resultados dos testes de desempenho.
45
5 Uma aplicao: PENTIUM 4 versus ATHLON

Este captulo tem por objetivo apresentar os resultados de uma experincia prtica de aplicao dos benchmarks. O teste consistiu em uma comparao de desempenho feita entre dois computadores da linha IBM-PC: o Athlon Thunderbird e o Pentium 4 Willamette, fabricados por indstrias concorrentes e amplamente utilizados no mercado atual de computadores pessoais. No experimento foram utilizados dois programas benchmarks, comentados anteriormente neste trabalho: o whetstone e o dhrystone. O primeiro mede o desempenho do processador no que se refere a operaes de pontos flutuantes, enquanto o outro mede o desempenho no que se refere a operaes com inteiros e manipulaes de strings. Os benchmarks foram executados atravs de um programa de domnio pblico: o Sandra 2002, da Sisoftware um conjunto de ferramentas de diagnstico e testes de desempenho de hardware que ajuda o usurio a identificar e ajustar as configuraes do seu computador. Os mdulos do Sandra podem diagnosticar componentes e perifricos do micro, como CPU, memria RAM, placa-me, drives e outros subsistemas do PC, sugerindo configuraes otimizadas e melhorias para incrementar seu desempenho. O programa da Sisoftware contm os dois benchmarks necessrios para o teste e, ao ser executado em um computador, realiza automaticamente os testes do whetstone e dhrystone no computador, fornecendo o resultado desses testes em MFLOPS e MIPS, respectivamente (Ver anexo A).
46
A configurao dos computadores escolhidos segue a tabela 1: Componente/perifrico Processador Placa Me Placa de Vdeo Memria Disco Rgido Sistema Operacional Cache Programa usado no teste Pentium 4 1.3 GHz Intel D850GB Geforce2 Mx 400 64 Mb 128 Rambus Maxtor 40 GB Windows 2000 Pro 256 kb Sisoftware Sandra 2002 Athlon 1.3 GHz Asus A7A 266 c/ som Geforce2 Mx 400 64 Mb 128 DDR266 Maxtor 40 GB Windows 2000 Pro 256 kb Sisoftware Sandra 2002
Tabela 1: Configurao dos computadores utilizados no teste.
O uso destas configuraes se justifica pelo fato de ser o objetivo principal analisar isoladamente o desempenho dos processadores e memrias. Em virtude disso que se deu a escolha dessas duas configuraes, similares em relao a outros dispositivos. Realizados os testes, obtiveram-se os seguintes resultados: Whetstone (MFLOP com SSE2) 1546 1868 Dhrystone (MIPS) 2472 3741
PENTIUM 4 1.3 ATHLON 1.3
Tabela 2: Resultados obtidos com base na execuo do Sisoftware Sandra 2002.
Tendo como base os resultados obtidos pelos testes pode-se fazer uma anlise comparativa fornecendo quantas vezes o Athlon obteve o desempenho melhor que o Pentium 4 atravs da razo entre o resultado obtido pelo computador Athlon, o que
47
alcanou melhor desempenho, e o computador Pentium 4 que alcanou desempenho inferior. Aps a realizao destes clculos afirma-se que o desempenho do computador Athlon foi 1,208 vezes mais rpido perante o Pentium 4 ou ainda aproximadamente 18% mais rpido em relao ao clculo de ponto flutuante e, em relao a clculos aritmticos o Athlon foi 1,513 vezes mais rpido que o Pentium 4 ou ainda aproximadamente 34% mais veloz. Estes resultados foram esboados no grfico 1.
Dhrystone (MIPS) PENTIUM 4 1.3 ATHLON 1.3 Whetstone (MFLOP)
1000
2000
3000
4000
Grfico 1: Grfico comparativo do desempenho entre PENTIUM x ATHLON.
Neste captulo tambm foram comparados os resultados j citados com mquinas de referncia fornecidas pelo programa Sisoftware Sandra 2002. Visualizados na tabela 3.
48
ATHLON 1.2 MHz ATHLON 1.3 MHz ATHLON XP 1.4 MHz PENTIUM 4 1.2 MHz PENTIUM 4 1.3 MHz PENTIUM 4 1.6 MHz
Whetstone (MFLOP) 1636 1868 1940 1466 1546 1955
Dhrystone (MIPS) 3295 3741 3872 2213 2472 2950
Tabela 3: Comparao dos resultados com mquinas de referncia.
Dhrystone (MIPS)
PENTIUM 4 1.6 PENTIUM 4 1.3 PENTIUM 4 1.2 ATHLON XP 1.4
Whetstone (MFLOP)
ATHLON 1.3 ATHLON 1.2
1000
2000
3000
4000
Grfico 2: Grfico comparativo entre as arquiteturas
Essas comparaes foram exibidas para ter uma melhor visualizao do desempenho nas principais mquinas fornecidas pelo mercado atualmente. Os testes de desempenho foram executados em microcomputadores de usurios, no qual houve uma troca de perifricos, com o intuito de equiparar as configuraes destes microcomputadores para que o desempenho no sofresse nenhuma modificao e que fossem testados apenas o processador destas mquinas. Uma justificativa do tipo de memria escolhida na configurao que no afeta o desempenho, pois, as rotinas dos benchmarks whetstone e dhrystone no fazem
49
nenhum acesso de memria RAM, essas rotinas rodam exclusivamente entre o processador e o cache. O processador Athlon possui uma arquitetura superescalar de nove pipelines funcionando em paralelo sendo que trs so para instrues de ponto flutuante, trs para instrues aritmticas e trs para microinstrues, e todos esses pipelines possuem onze estgios, possui tambm uma cache L1 de 128 KB sendo sessenta e quatro para dados e sessenta e quatro para instrues e uma cache L2 de 256 KB, e finalmente o seu barramento externo de 200MHz. O processador Pentium 4 possui um cache L1 de apenas 8 KB para dados, mas isso se justifica em duas inovaes que compensam esta aparente deficincia. A primeira que graas ao tamanho reduzido, o pequeno cache de dados tem um tempo de latncia menor, ou seja, mais rpido que o cache L1 encontrado no Pentium 3 e no Athlon. A segunda que o Cache de instrues por sua vez foi substitudo pelo Execution Trace Cache, que ao invs de armazenar instrues, armazena diretamente micro operaes, que so as instrues j decodificadas, prontas para serem processadas. Isto garante que o cache tenha apenas um ciclo de latncia, ou seja, o processador no perde tempo algum ao utilizar um dado armazenado no Trace Cache. Pelo fato do cache L1 ser pequeno o cache L2 bem mais requisitado com 256 KB operando na mesma freqncia do processador, o seu barramento duplo operando a 400 MHz, em sua arquitetura tambm superescalar o Pentium 4 possui cinco pipelines sendo dois para intrues aritmticas, dois para gerao de endereamento e apenas um para ponto flutuante. Essas pipelines so a linha de produo das unidades de execuo. Cada elemento da pipeline responsvel em executar certas micro operaes. O Pentium 4 utiliza uma pipeline que tem o dobro de estgios da de um
50
Pentium 3 (dez estgios) e praticamente o dobro da de um Athlon (onze estgios). O grande benefcio disso que a CPU pode operar com freqncias mais elevadas, pois os ncleos de processamento tornam-se mais simples e possuem menos portas lgicas. Quanto mais compacto maior a velocidade e escalabilidade. O longo pipeline uma das supostas razes que levou o Pentium 4 a perder para Athlon em termos de desempenho, preciso que ela atinja freqncias muitos mais elevadas do que de um processador de pipeline mais curta, se quiser competir. Outro problema dessa microarquitetura um erro de prognstico (tcnica utilizada para preencher a pipeline antecipadamente) ser muito mais crtico, pois vrios ciclos sero perdidos [12].
51
6- CONCLUSO
Ao longo deste trabalho foram apresentadas as tcnicas e os componentes bsicos para anlise de desempenho de computadores, utilizando programas pblicos e de fcil utilizao e execuo, alm dos aspectos tericos envolvidos no desempenho de computadores. A anlise dos resultados fornecidos pelos testes realizados durante o desenvolvimento do trabalho fornece indicadores mais consistentes sobre o desempenho esperado do microcomputador testado. Estes indicadores permitem que um pesquisador se sinta mais vontade em um processo de seleo e compra de equipamentos de acordo com as demandas do seu projeto de pesquisa. Em relao aos testes realizados entre os computadores da marca PENTIUM 4 e ATHLON concluiu-se que a arquitetura do ATHLON mostrou ser mais eficiente tanto em clculos aritmticos e manipulao de strings quanto em operaes que envolvem ponto flutuante. A expectativa deste trabalho, em futuras aplicaes, envolve verificar avaliaes mais concretas dos processadores, utilizando os demais tipos de benchmarks citados no decorrer do trabalho.
52
7. BIBLIOGRAFIAS
[1] JAIN, Raj. The Art of Computer Systems Performance Analisis. John Wiley & Songs, Inc, 1991. [2] PATTERSON, David. Hennessy, Jonh. Computer Organization & Design: the Hardware, Software. 2a.ed. San Francisco, Morgan Kaufmann, Inc, 1997. [3] SOSNOWSKI, J., JURKIEWICZ, R., NOWICKI, J. Experimental Evaluation of CPU Performance Features, Warsaw Univercity of Technology, Ul.Nowowiejska, 2001. [4] GONZLEZ, Antonio. Computer Performance Evaluation Techniques. Universidat Politcnica the Catalunya, Barcelona. [5] SPRUNT, Brinkley. The Basics of Performance Monitoring Hardware, Bucknell Univercity, Lewisburg, JulY/Augusto. 2002. [6] GILADI, Ran. SPEC as a Performance Evaluation Measure. IEEE, Univercity of The Negev, August.1995. [7] MONTEIRO, Mrio. Introduo Organizao de Computadores. 3a.ed. Rio de Janeiro: Livro Tcnicos e Cientficos AS.A. 1996. [8] SPEC, Standard Performance Evaluation Corporation. 1996/2000. Capturado OnLine em 19/05/2002, no site http://www.spec.org/osg/cpu2000/CPU2004/search_program.html [9] TORRES, Gabriel. Hardware Curso Completo. 3a.ed. Rio de janeiro: Axcels Books, 1999. [10] Weicker, R.P.Dhrystone: A synthetic systems programming benchmark, Comm.ACM 27:10(October). 1984.
53
[11] HENNING, Jonh. Spec CPU2000: Measuring CPU Performance in the new Millennium. JulY. 2000.
[12] TAKAHASHI, Alexandre. PCS Entendendo-Montando-Otimizando-Concertando. Pentium 4 vs.Athlon. N 27, So Paulo-SP. P.35-41, 2002.
[13] OSSAMU, Csar. Benchmarks. 11/05/2000 Capturado OnLine em 19/05/2002, no site

http://www.inf.ufrgs.br/procpar/disc/cmp134/trabs/T1/001/benchmarks/Bencmarks_p2.html
54
ANEXO 1 Informaes sobre o Sisoftware Sandra 2002 Professional Quem / O que Sandra?
SiSoftware Sandra (the System ANalyser, Diagnostic and Reporting Assistant) ( o analisador de sistema, assistente de diagnstico de relatrio) um utilitrio de informao e diagnstico. Ele deve prover informaes (incluindo no documentadas) que voc precisa saber sobre o seu hardware, software e outros dispositivos de hardware e software. Sandra prove um nvel similar de informaes s do Norton SI, Quarterdeck, Winprobe/Manifest, etc. Ele nativo de aplicaes Win32 bits. Ele tambm prov informaes de windows 16 bits e DOS sem usar muitos outros programas de informao. Coisas Legais: Sandra um acrnimo e no tem conexo com nada nem ningum que viveu no passado, presente ou futuro. Qualquer semelhana pura coincidncia. A propsito, no pesquise pelo nome Sandra nos portais WWW. Voc ter pelo menos um milho de ocorrncias e nenhuma ir se referir a esta pgina. Pesquise por Sisoftware Sandra. Abaixo segue uma lista dos mdulos e das tecnologias suportadas na anlise de desempenho do sistema computacional.
55
Lista dos Mdulos do SiSoftware Sandra

Aqui est a lista dos mdulos atuais.

Sumrio do Sitema. CPU/BIOS Info (inc. voltagem/temperatura). Mainboard/Chipset/System Monitors Info. APM & ACPI (Gerenciamento de Fora Avanado) Info (Professional). PCI & AGP bus and devices Info. Informaes de Vdeo (monitor, card, video bios, caps, etc.) Informao sobre OpenGL. Informao sobre DirectX (DirectDraw, Direct3D, DirectSound (3D), DirectMusic, DirectPlay, DirectInput).
Informao sobre Teclado. Informao sobre Mouse. Informao sobre Sound Card (wave, midi, aux, mix). Informao sobre Dispositivos MCI (mpeg, avi, seq, vcr, video-disc, wave). Informao sobre Joystick. Informao sobre Impressoras. Informao sobre Memria DOS (base, HMA, UMB, XMS, EMS, DPMI, VCPI). Informao sobre Memria Windows. Informao sobre Windows (& DOS SubSistema). Font (Raster, Vector, TrueType, OpenType) Informaes (Plus e Professional). Informao sobre Modem/ISDN TA (Plus e Professional). Informao sobre Rede (Professional).
56
Informao sobre Redes IP (Professional). Informao sobre WinSock (Internet). Informao sobre Drives (HDs removveis, Disks, CD-ROM/DVD, RamDrives, etc.).
Informao sobre Portas (Serial/Parallel). Acesso ao servio de conexes remotas (Dial-Up, Internet). Informao sobre Objetos OLE/Servidores (Professional). Informao sobre Processos (Tarefas, 32 & 16-bit) & Threads. Informao sobre Modulos (DLL, DRV, 32 & 16-bit) (Professional). Informao sobre Servios & Drivers de dispositivos. Informao sobre Drivers para DOS (Professional). Informao sobre SCSI (Professional). Informao sobre ATA/ATAPI (Professional). Informao sobre Fontes ODBC (Professional). Informao sobre CMOS/RTC (Plus e Professional). CPU Benchmark Aritmtico (Suporte MP/MT ). CPU Benchmark Multi-Media (including MMX, MMX Enh, 3DNow!, 3DNow! Enh, SSE(2)) (MP/MT support).
Benchmark Sistema de Arquivos (Removveis, HDs, Rede, RamDrives). CD-ROM/DVD Benchmark. Largura de Banda da Memria Benchmark (MP/MT support). Largura de Banda da Rede/LAN Benchmark . Uso de interrupo de Hardware (Plus e Professional). Software de interrupo em modo real (DOS SubSystem) Handlers .
57
Software de interrupo em modo protegido (Windows) Handlers (Professional). Uso do canal DMA (Plus e Professional). Uso das portas de I/O (Plus e Professional) . Uso do intervalo de memria (Plus e Professional). Enumerador Plug & Play (Professional). Configurao dos registros de hardware. Configurao de ambiente. Listagem dos sistemas de arquivos (.ini, .sys, .bat). Assistentes adicionar ou remover mdulos. Cria relatrio e assistentes de scripts (salvar, imprimir, fax ou e-mail no CIM (SMS/DMI), HTML, XML, RPT or TEXT format).
Assistentes que checam o desempenho (& Wizard). Assistentes que fazem atualizao automtica da verso pela WEB. Tip of the day (Dica do dia). Documentao extensive com mais de 450 dicas. Extensa documentao on-line em (HTML) com uma base de conhecimento de perguntas e respostas.
Interface com o escalonador de tarefas do 98/Me/200X.
58
Sistemas Operacionais
Microsoft
o
Windows NT/200X Kernel

Microsoft Windows NT x86 Workstation 4.00.1381 SP5/SP6/SP6a. Microsoft Windows NT x86 Server 4.00.1381 SP5/SP6/SP6a Microsoft Windows 2000 x86 Professional 5.00.2195/SP1/SP2/SP3. Microsoft Windows 2000 x86 (Advanced/Data Center) Server 5.00.2195/SP1/SP2/SP3.

Microsoft Windows 2002 XP x86 Home/Professional 5.01.2600. Microsoft Windows 2002 .Net x86 (Advanced/Data Center) Server 5.01.3xxx.
Windows 9X Kernel (ANSI Sandra)

Microsoft Windows 98 4.10.1998/SP1. Microsoft Windows 98 SE 4.10.2222A. Microsoft Windows Me 4.90.3000.
DOS (built-in Windows 9x kernel) (ANSI Sandra)

Microsoft MS-DOS 7.10A (98, 98SE). Microsoft MS-DOS 8.00A (Me).
59
Bibliotecas API de Software
Microsoft
o o o o o o
Windows Sockets 2.00, 2.02. DirectX 3.00/a/b, 5.00/a, 5.20, 6.00, 6.10, 6.20 (98SE), 7.00/a/b, 8.00/a/b. ADO (OLE DB) 2.5, 2.6. ODBC 3.50, 3.51, 3.52. CDOSYS 6.0. MS DTS 2.0.
OpenGL
o
OpenGL 1.0.x, 1.1.x, 1.3.x
Processadores
AMD
o
Sistemas de um processador.

AMD 386DX 40MHz. AMD 486DX2 50, 66, 80MHz. AMD 486DX4/wb 100, 133MHz. AMD 5x86/wb 120MHz PR66, 133 PR75, 160 PR100. AMD K5 (m0) 75MHz PR75+, 90 PR90+, 100 PR100+. AMD K5 (m1) 100MHz PR133+. AMD K5 (m2) 117MHz PR166+ AMD K6 MMX 166, 200, 210, 225, 233, 266MHz.
60

AMD K6-2 (3D) 266, 300, 333, 350MHz. AMD K6-2 (3D, CTX core) 350, 400, 450, 475, 500, 550MHz. AMD K6-2+ (3D, mobile) 500, 550, 600MHz. AMD K6-III (3D+) 375, 400, 450MHz. AMD K6-III+ (3D+, mobile) 500MHz. AMD Athlon (M1/M2) 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000MHz.

AMD Athlon (M4) 800, 900, 1000, 1133, 1200, 1333, 1400MHz. AMD Duron (M3) 600, 650, 700, 750, 800, 850, 900, 950MHz. AMD Athlon (M6) 4/MP/XP 1.0, 1.2, 1.33, 1.4, 1.53, 1.6GHz. AMD Duron (M7) 1.0, 1.1GHz.
Sistemas com mais um processador.

2x AMD Duron (M3) 900, 950MHz. 2x AMD Athlon (M4) 1.0, 1.2, 1.4GHz. 2x AMD Athlon (M6) MP 1.0, 1.2, 1.33, 1.4, 1.53, 1.6GHz. 2x AMD Duron (M7) 1.0GH.z.
Cyrix / VIA
o

Cyrix 486DX2 80MHz. Cyrix 5x86 (M1sc) 100 PR75+, 120MHz PR100+. Cyrix MediaGX 150, 180MHz. Cyrix MediaGXm (MMX) 233, 266MHz.
61
Cyrix 6x86 (M1) 100MHz PR120+, 120 PR150+, 133 PR166+, 150 PR200+, 166 PR220+.
Cyrix 6x86MX (M2) 125MHz PR133+, 133 PR166+, 150/166 PR200+, 200 PR266+.

Cyrix 6x86MII (M2) 233MHz PR300+, 250/266 PR300+. VIA Cyrix III (M3) 400MHz PR500.
IDT / VIA
o

IDT WinChip C6 180, 200MHz. IDT WinChip 2/2-3D 200, 225, 240MHz. VIA Cyrix III (Samuel) 500, 533, 600, 677, 700MHz. VIA C3 (Samuel2) 533, 550, 600, 650, 667, 700MHz. VIA C3 (Ezra) 750, 800MHz.
Intel
o

Intel i386DX 33MHz. Intel i486DX 25, 33MHz. Intel i486DX2 50, 66MHz. Intel i486DX4 OverDrive 75, 100MHz (for 5V 486). Intel i486DX4/wb 75, 100MHz. Intel i486SX2 50MHz. Intel Pentium P24T OverDrive 33/82.5MHz (for 5V 486). Intel Pentium 60, 66MHz 5V. Intel Pentium P54C 75, 90, 100, 120, 133, 150, 166, 200MHz.
62

Intel Pentium OverDrive 60/120, 66/133MHz (for 5V Pentium). Intel Pentium P55C MMX 150, 166, 187, 200, 225, 233, 266MHz. Intel Pentium MMX OverDrive 150, 166, 200MHz (for 3.3V Pentium) Intel Pentium Pro 180, 200MHz. Intel Pentium II (Klamath) 233, 266, 300MHz. Intel Pentium II (Deschutes) 266, 300, 333, 350, 400, 450MHz. Intel Pentium II OverDrive 333MHz (for Pentium Pro). Intel Pentium II (Mobile) 300, 333MHz. Intel Pentium II (Dixon Mobile) 333, 366, 400MHz. Intel Celeron (Covington - no L2 cache) 266, 300MHz. Intel Celeron (Mendocino) 300A, 333, 366, 400MHz, 433, 450, 466, 500, 533MHz.

Intel Celeron (Coppermine128) 533A, 566, 700MHz. Intel Pentium III (Katmai) 450, 500, 533B, 550, 600, 600B MHz. Intel Pentium III-E (Coppermine) 500E, 533EB, 550, 600EB, 633, 650, 667, 700, 733, 750, 800, 866, 933, 1000, 1133MHz.

Intel Pentium III-M (Tualatin) 1.0, 1.13GHz. Intel Pentium III-S (Tualatin) 1.13, 1.2GHz. Intel Celeron (Tualatin) 1.2GHz. Intel Pentium 4 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9, 2.0GHz.
63
Sistemas com mais um processador

2x, 4x Intel Pentium Pro 180, 200MHz. 2x Intel Celeron (Mendocino) 300, 333, 366, 433, 500MHz. 2x Intel Pentium II (Klamath) 266, 300. 2x Intel Pentium II Xeon 400, 450MHz. 2x Intel Pentium III (Katmai) 450, 500, 550, 600MHz. 2x Intel Pentium III-E (Coppermine) 600, 800, 850, 866, 1000MHz. 2x Intel Pentium III-S (Tualatin) 1.2GH. 2x, 4x, 6x, 8x Intel Pentium III Xeon 500, 550, 600, 667, 700MHz. 2x Intel Pentium 4 Xeon 1.4, 1.5, 1.6, 1.7, 2.0GHz.
Nexgen / AMD
o
NexGen Nx586 110MHz.
Rise
o
Sistemas de um processador
Rise mP6 166MHz PR166, 190 PR233, 200 PR266.
Texas Instruments
o
Sistemas de um processador
Texas Instruments 486DX2 50MHz.
64
Transmeta
o
Transmeta Crusoe
Instrues Suportadas
Introduzido Set de Instrues Descrio Fabricantes no 3DNow! 3DNow! Enhanced AMD MMX Extensions 3DNow! Professional Multi-Media MMX (MMX) SSE SSE2 Streaming SIMD (SSE) Intel Pentium III Pentium 4 eXtensions Intel Pentium MMX AMD AMD AMD AMD K6-2 Athlon (K7) Athlon (K7) Athlon 4 (A4)
Streaming SIMD2 (SSE2) Intel
65
Memria Cache

Asynchronous (assncrona). Pipeline. Pipeline Burst (Rajada). Synchronous (built-in CPU) Sincronismo. ECC Synchronous (built-in CPU). ATC (advanced transfer cache) (built-in CPU). Trace (built-in CPU).
Memria Principal

Standard (STD) (100ns, 80). FPM (80ns, 70). EDO (80ns, 70, 60, 50). BEDO (70ns, 60). SDRAM (PC66, 100, 133, 150, 166). DDR-SDRAM (DDR100/PC1600, 133/2100, 166/2700). H/ESDRAM (PC133, 150, 166). VC-SDRAM (PC133, 166). RDRAM (PC600, 700, 800, 1064). Parity. EC (Error Checking). ECC (Error Checking and Correcting).
66
Barramentos

ISA (Plug & Play 1.0, 1.0a). PCI 2.00, 2.10, 2.20. MCA. PCMCIA / PC-CardBus. SCSI I/II/III. VESA. AGP 1x/2x/4x/8x 1.0, 2.0, 3.0. USB 1.0, 1.1 (UHCI, OHCI), 2.0 (EHCI). FireWire/1394 1.0, 1.1 (OHCI). i2c / SMBus / BMB.
67
ANEXO 2 Informaes sobre a Placa Me Asus A7A 266 c/ som Suporte da CPU
AMD Athlon e Duron socket A CPUs de 550 Mhz at 1Ghz +
Ferramentas de Chipset
Ali M1647 (Ali Magik 1 DDR)200/266 MHz FSB Ali 1535D+ South Bridge (Ponte Sul).
Sistema de Memria
Suporte para SDRAM e DDR RAM 2 Bancos DDR tanto para PC1600 ou PC2100 DDR RAM. 2Gb Max 3 Bancos SDRAM para 168 pinos DIMMs. Max 3Gb PC133.
Expanso de Slots
1 x AGP pro / AGP 4x (2x e 1x modos disponveis) 4 x PCI slots 1 x PCI / AMR (compartilhado)
Opcional
C-Media CMI-8738 PCI Controlador de Audio com 4 mdulos speaker.
3Com 3C920 100.10Mbps Controlador de LAN.
68
Outras Ferramentas
Recuperao de perda de fora, ASUS JumperFreeTM, CPU Throttle, SFS (Stepless Frequency Selection) Seleao de frequncia por passos).
Dois suportes adicionais para portas no USB SIR (Infravermelho Serial Integrado) Headphone (Opcional), MIC (Opcional), CD / AUX / Modem udio in (Opcional) CPU / Fonte de alimentao / Chassis Fan (gabinete bem projetado).
BIOS
2Mb Award BIOS, PnP, ACPI, SMBIOS 2.3, Trend ChipAway Virus (TCAV), Green, Boot Block, BIOS
Tamanho do Quadro
ATX Form Factor 9.6" x 12" (24.5cm x 30.5cm)
69
ANEXO 3 Informaes sobre a Placa Me Intel D850GB Desktop Board D850GB para o processador Pentium 4 da Intel o que h de melhor em tecnologia para a Internet.
A Desktop Board D850GB da Intel libera o poder de processamento avanado do processador Pentium 4 da Intel. Desenvolvida para o novo chipset 850 da Intel, a Desktop Board D850GB utiliza toda a banda e o desempenho do processador Pentium 4 com canais duplos RAMBUS* e suporte microarquitetura NetBurst da Intel. A Desktop Board D850GB a mais nova soluo de plataforma a fornecer a eficincia do sistema sem precedentes para se posicionar no que h de melhor em Internet.
Desempenho avanado
A Desktop Board D850GB suporta a microarquitetura NetBurst da Intel com canais duplos RDRAM*, fornecendo 3,2 GB/segundo de largura de banda de memria para atender aos requisitos de barramento de sistema do processador Pentium4. O novo chipset 850 da Intel tambm suporta velocidades de barramento de sistema de 400 MHz para melhora de desempenho em aplicaes semelhantes e de alta largura de banda necessrias para as tecnologias emergentes na Web atual. A Desktop Board D850GB tambm desenvolvida para aumentar o desempenho geral do sistema utilizando recursos como Rapid BIOS Boot da Intel, que torna mais rpido o Teste Automtico de Inicializao (POST), CNR* (Communications and Networking Riser) para udio, modem, suporte TLAN e HPNA, suporte disco Ultra ATA/100 e quatro portas USB. Esta motherboard de desktop ATX com cinco slots PCI,
70
AGP 4X e Instantly Available PC (Suspender para RAM) a plataforma com desempenho comprovado da Intel para o processador Pentium 4.
Situe-se no que h de melhor da revoluo da Internet

Quando combinada com o processador Pentium 4, a Desktop Board D850GB fornece s empresas o desempenho necessrio para processos automatizados de eBusiness e auxilia na utilizao e no gerenciamento da exploso de informaes na Internet. Alm disso, o espao superior e a escalabilidade maximizam a vida do investimento no PC, enquanto permitem que a empresa situe-se na ponta da revoluo da Internet. Usurios finais e jogadores tambm necessitam de um melhor espao, a medida em que cada vez mais os lares tm acesso a vdeo, jogos e voz interativa de banda larga.
Solues completas in-a-box

Para integrar facilmente um sistema de alto desempenho, a Desktop Board D850GB "in-a-box" vem com muitos itens necessrios, como cabos para unidade de disquete e Ultra ATA/66/100, escudo de I/O, mecanismo de fixao AGP, mdulos RIMM de continuidade, documentao do produto e CD-ROM contendo o Express Software Suite da Intel, com aplicaes como o Active Monitor da Intel e o Norton* Internet Security 2000, e softwares desenvolvidos especificamente para motherboards de desktop da Intel para facilidade de integrao.Integradores de produtos se beneficiaro de grande compatibilidade e do teste de validao limitado que ajuda a assegurar desempenho consistente e confivel. Toda motherboard de desktop da Intel
71
possui trs anos de garantia limitada, engenharia e suporte abrangentes que somente a Intel pode fornecer.
Recursos e Benefcios da Desktop Board D850GB da Intel

Recursos Suporte para o processador Pentium 4 da Intel Benefcios Suporte PPGA (Plastic Pin Grid Array) de 423 pinos com microarquitetura NetBurst da Intel, incluindo barramento de sistema de 400 MHz. Chipset 850 da Intel com suporte a O mais novo chipset da Intel suporta canal duplo RDRAM* as capacidades do novo processador Pentium 4. Fornece banda larga de 3,2 GB/segundo para um mximo desempenho. Rapid BIOS Boot da Intel O tempo reduzido de inicializao possibilita uma disponibilizao mais rpida do sistema. Conector universal AGP 4X 1.5V Suporte mais nova tecnologia de grficos. Quatro soquetes RDRAM RIMM Suporte memria PC800 e PC600 RDRAM de 128 MB a 2 GB. Ultra ATA/100 I/O de disco mais rpida. Cinco slots PCI Slots de expanso para configuraes personalizadas de sistemas e atualizaes futuras. Quatro portas USB Conectores em pilha dupla na parte posterior e indicador para dois conectores USB de painel frontal. Suporte a CNR (Communication and Nova tecnologia que suporta LAN Networking Riser*) integrada, HPNA, modem ou placas de udio para uma economia de custos em sistemas e personalizao. Formato ATX Padro de fbrica para uma fcil integrao Instantly available PC (Suspender O modo de gerenciamento de energia para RAM) reduz o consumo de energia do PC. Ele permite que o PC se comporte como um aparelho domstico.
72
Express Software Suite da Intel
Gerenciamento de hardware ASIC
Garantia limitada de trs anos
Software desenvolvido especificamente para motherboards de desktop da Intel e de fcil integrao. O pacote inclui: Express Installer da Intel Active Monitor da Intel Norton* Internet Security Software Drivers Guia do produto Encryption Plus* Secure Export Permite monitoramento remoto das condies do sistema, em conjunto com o Active Monitor da Intel, para reduzir o custo total de aquisio. Maior proteo do investimento.
As solues da Motherboard "in a box" Desktop Board D850GB da Intel incluem:

Desktop Board D850GB da Intel. Escudo de I/O compatvel com ATX. Cabos: um cabo Ultra ATA/33, um Ultra ATA/100 e um cabo para unidade de
disquete.
Mecanismo de fixao AGP ou AGP Pro 50 (recomendado para suporte de AGP 4X
ou AGP PRO 50).

Dois mdulos de continuidade RIMM*. Guia de incio rpido. Etiqueta de configurao, adesivos, etiqueta de aviso na parte posterior e na
bateria.

CD-ROM com drivers garantia, guia do produto e pacote de aplicaes includas. Mecanismo de fixao de processador.
73
Especificaes Tcnicas da Desktop Board D850GB da Intel

Processadores (via conector barramento de sistema de 400 MHz no pacote PPGA PPGA423) Processador Processadores Pentium 4 da Intel com suportados microarquitetura NetBurst da Intel que inclui suportando velocidades que iniciam em 1,4 GHz.
Chipset 850
Chipset Hub 82850 Controlador de Memria da Intel (MCH)da Intel com barramento Arquitetura Acelerada de Hub (AHA) Hub 82801BA Controlador de IO da Intel (ICH2) com barramento AHA Hub 82802AB de Firmware da Intel (FWH) Hub controlador de memria (MCH) Tecnologia integrada dupla Direct RAMBUS* Suporte memria principal do sistema de 128 MB at 2 GB Hub controlador de I/O (ICH2) Ultra ATA/66/100 Ultra DMA/33 Seis pares de alocadores de PCI para suporte de seis Controladores de Barramento PCI Controlador de barramento integrado Super I/O LPC Cinco slots PCI Local Bus CNR* (Communication and Networking Riser)(opcional), compartilhado com slot PCI 5 Suporte para Gerenciamento de Energia para ACPI 1.0 e APM 1.2 Compatibilidade com PC 99 e PC 99A Dois controladores USB com quatro portas USB Conectores traseiros em pilha de duas portas Indicador para dois conectores USB de painel frontal.
Hub controlador (ICH2)I/O
Recursos de I/O
USB
74
BIOS de Sistema
Rapid BIOS Boot da Intel
Firmware Hub Flash EEPROM de 4 Mb com BIOS Intel/AMI* e suporte a Plug and Play, Gerenciamento Avanado de Energia (APM) 1.2, de auto configurao de drive IDE, ACPI 1.0, DMI 2.0, Suporte Multilinge 1.0 POST otimizado fornece rpido acesso ao PC no momento da inicializao Memria do Sistema Quatro soquetes de RIMM de 168 pinos sem buffer com suporte a RDRAM de 128 MB (mnimo) a 2 GB (mximo) RDRAM de canal paralelo PC600 ou PC800 2,5 V
Capacidade de Memria Tipo de memria Voltagem da Memria
Recursos de Gerenciamento de Hardware Sensor de voltagem para detectar intervalo de valores Entradas de sensor da ventoinha para monitorar atividade do dissipador Controle de velocidade da ventoinha com temperatura Diagnsticos Avanados Quatro LEDs coloridos em paralelo no painel traseiro para se obter decodificao do diagnstico de hardware durante o teste de ligao Wake-Up pela Rede Compatvel com Wired for Management (WfM) 2.0 Suporte para wake-up de sistema utilizando uma placa de extenso de rede com capacidade ou PCI para wake-up remoto Capacidades de expanso Cinco conectores de barramento PCI para placas de extenso (Especificao PCI Local Bus Reviso 2.2) Um conector CNR (Communication and Networking Riser) compartilhado com slot PCI 5 Um conector de porta AGP 4X/2X de 1,5 V
75
Jumpers e conectores do painel frontal Bloco de jumpers de trs pinos para definir o modo de Jumpers configurao do jumper, de configurao do CNR, do programa de configurao do BIOS (opcional) Reset, Led de HD, LEDs de alimentao, Liga/Desliga, Conector do Indicador de Standby, Porta IR, LED Auxiliar Painel Frontal Mecnica de Tamanho compatvel com ATX 2.03 da (12.0"x9.6") de Utiliza nova especificao ATX12V com os seguintes de requisitos: da +3.3V 20A +5V 25A +12V 13A -12V .8A +5VSB 1.5A -5V .3 Ambiente de 0 C to +55 C
Estilo Motherboard Tamanho Motherboard Requisitos alimentao fora motherboard
Temperatura Funcionamento Temperatura de -40 C to +70 C Armazenamento
EUA e Canad Europa EMI/RFI reg: EUA Canad Europa Japo Os requisitos de alimentao de energia podem variar.
Regulamentaes de Segurana CSA 950-95, UL 1950. Marcas de componente de reconhecimento nos EUA e Canad UL Classificada para IEC 950 Para uso em sistemas que atendem s seguintes regulamentaes EMI/RFI: FCC Class B (DofC - Cover off testing) IC Class B EU Class B (Res, Com, Light Industry) VCCI, Class B (ITE) Compatvel com o US CRF via EN55022 + 6db no que se refere a configurao de sistema /gabinete aberto e com a Diretiva EU 89/336/EEC e uso via EN55022 e EN50082-1 com relao a gabinete representativo.
76

2002 Analisedesempenho

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

2002 Analisedesempenho

Enviado por

Direitos autorais:

Formatos disponíveis

Alexandre Nicolau Sarty Priscila Gisely Paes Lima

Anlise de Desempenho de CPU

Unama Belm/PA 2002

Alexandre Nicolau Sarty Priscila Gisely Paes Lima

Anlise de Desempenho de CPU

Unama Belm/PA 2002

Jos Augusto Furtado Real

Jacqueline de F. Teixeira Regiane Kawasaki Francs Data ___/___/___

A Deus, por ter iluminado meu caminho e me

meus pais Nicolau e Sheila. Pela

meu amigo, Fernando que esteve

sempre ao meu lado nas horas que eu mais precisei.

A minha namorada Priscila, que me apoiou

A todas as pessoas que conheo, pois delas

Alexandre Nicolau Sarty

Deus, a quem agradeo pela sade,

inteligncia e realizao de todos o meu ideais.

A minha me Maria Jos Santos Paes, que

meu tio Pedro pelo carinho, apoio e

A minha av, Maria Rosa, que mesmo em

AO meu namorado Alexandre, pelo carinho,

imperioso e a todos os nossos amigos que,

Trs classes de pessoas so infelizes:

as que no sabem e no perguntam, as que sabem e no ensinam, as que aprendem e no fazem.

2- Fundamentos Tericos 2.1 Mtricas de Desempenho

taxa _ clock CPI 10 6

3.1 Benchmark Whetstone

3.2- Benchmark Dhrystone

3.3- Livermore Loops

3.5 Benchmark SPEC

4- Consideraes na Anlise de Desempenho da CPU.

4.3 Arquitetura Superescalar

4.4 Barramento Externo

4.5 Quantidade de Registradores

5 Uma aplicao: PENTIUM 4 versus ATHLON

Tabela 1: Configurao dos computadores utilizados no teste.

PENTIUM 4 1.3 ATHLON 1.3

Tabela 2: Resultados obtidos com base na execuo do Sisoftware Sandra 2002.

Dhrystone (MIPS) PENTIUM 4 1.3 ATHLON 1.3 Whetstone (MFLOP)

Grfico 1: Grfico comparativo do desempenho entre PENTIUM x ATHLON.

Whetstone (MFLOP) 1636 1868 1940 1466 1546 1955

Dhrystone (MIPS) 3295 3741 3872 2213 2472 2950

Tabela 3: Comparao dos resultados com mquinas de referncia.

PENTIUM 4 1.6 PENTIUM 4 1.3 PENTIUM 4 1.2 ATHLON XP 1.4

ATHLON 1.3 ATHLON 1.2

Grfico 2: Grfico comparativo entre as arquiteturas

[13] OSSAMU, Csar. Benchmarks. 11/05/2000 Capturado OnLine em 19/05/2002, no site

Lista dos Mdulos do SiSoftware Sandra

Interface com o escalonador de tarefas do 98/Me/200X.

Windows NT/200X Kernel

Windows 9X Kernel (ANSI Sandra)

Microsoft Windows 98 4.10.1998/SP1. Microsoft Windows 98 SE 4.10.2222A. Microsoft Windows Me 4.90.3000.

DOS (built-in Windows 9x kernel) (ANSI Sandra)

Microsoft MS-DOS 7.10A (98, 98SE). Microsoft MS-DOS 8.00A (Me).

Bibliotecas API de Software

OpenGL 1.0.x, 1.1.x, 1.3.x

Sistemas com mais um processador.

Sistemas com mais um processador

NexGen Nx586 110MHz.

Rise mP6 166MHz PR166, 190 PR233, 200 PR266.

Texas Instruments 486DX2 50MHz.

Streaming SIMD2 (SSE2) Intel

3Com 3C920 100.10Mbps Controlador de LAN.

Jacqueline de F. Teixeira Regiane Kawasaki Francs Data _/_/___