Você está na página 1de 16

Arquitetura do IBM Netezza Data Warehouse Appliance: Uma Plataforma para Anlises e Data Warehousing de Alto Desempenho

Redguides
para Lderes de Negcios

Phil Francisco

Explore a energia e a simplicidade de um appliance construdo especificamente para anlises de alta velocidade Aumente a qualidade e a exatido da inteligncia de negcios

Consulte dados em alta velocidade de maneira eficiente e econmica

Viso geral executiva


O sucesso em qualquer corporao depende de possuir a melhor informao disponvel, no momento certo, para tomar decises sensatas. Pequenos deslizes desperdiam oportunidades, tempo e recursos e podem at mesmo colocar a organizao em risco. Mas encontrar as informaes essenciais para conduzir as melhores aes possveis pode significar a anlise de bilhes de pontos e petabytes de dados, sejam para prever um resultado, identificar uma tendncia ou traar o melhor curso atravs de um oceano de ambigidades. As empresas com esse tipo de inteligncia sob demanda reagem mais rpido e tomam melhores decises do que as empresas concorrentes. Inovaes contnuas em inteligncia de negcios fornecem s empresas uma inteligncia inesperada que beneficia todas as reas dos negcios. Quando voc precisa de informaes essenciais com urgncia, a plataforma que a entrega deve ser a ltima coisa a considerar. Deve ser simples, confivel e imediata como um interruptor de luz, capaz de lidar com cargas de trabalho quase incompreensveis sem que a complexidade atrapalhe. Deve ser construda para a durabilidade, com uma base tecnolgica capaz de sustentar o desempenho medida que mais usurios executam cargas de trabalho cada vez mais complexas, enquanto os volumes de dados continuam crescendo. Alm disso, para maximizar o retorno dos negcios, deve ter um custo total de propriedade menor.

Mximo desempenho com simplicidade do appliance


A Netezza, uma empresa da IBM, transforma o panorama de data warehouse e anlises de negcio com uma plataforma projetada para entregar o maior custo-benefcio lder de mercado com a simplicidade do appliance. uma nova fronteira em anlises avanadas, com a capacidade de vencer desafios de processamento monumentais atravs de altssima velocidade, sem barreiras ou comprometimentos. Para os usurios e suas organizaes, isso significa melhor inteligncia para todos que precisam dela, mesmo para as demandas de informaes em escala. O design revolucionrio dos appliances de data warehouse e analtica da Netezza oferece custobenefcio excepcional. Como um appliance construdo especificamente para anlises de negcio de alta velocidade, sua fora no proveniente dos componentes mais potentes e dispendiosos, mas sim da coleta dos componentes certos que trabalham juntos para maximizar o desempenho. Os fluxos de MPP (Massively Parallel Processing) combinam CPUs de mltiplos ncleos com os mecanismos exclusivos de FPGA (Field Programmable Gate Arrays) FAST (Accelerated Streaming Technology) da Netezza para entregar um desempenho que em muitos casos superam as expectativas. E como um appliance fcil de usar, o sistema entrega seus resultados extraordinrios prontos para o uso, sem a necessidade de indexao ou ajuste. A simplicidade do appliance se estende ao desenvolvimento do aplicativo, permitindo que as organizaes inovem rapidamente e apresentem analtica de alto desempenho para a mais ampla gama de usurios e processos. Copyright IBM Corporation 2011. Todos os direitos reservados. 1

Esta publicao IBM Redguide apresenta a arquitetura AMPP (Asymmetric Massively Parallel Processing) da Netezza e descreve como o sistema organiza as consultas e a analtica para obter sua velocidade sem precedentes. Voc entender como o software e o hardware da Netezza so combinados para extrair o mximo aproveitamento de cada componente essencial e como um sistema otimizado para dezenas de milhares de usurios consultando grandes volumes de dados realmente funciona. uma plataforma exclusiva de analtica e data warehouse com custo-benefcio incomparvel, pronta para as necessidades atuais e os desafios futuros.

Princpios da arquitetura
Os appliances da Netezza integram banco de dados, servidores e storage e em um sistema compacto otimizado para anlises de negcioe projetado para o crescimento flexvel. A arquitetura do sistema fundamentada nos seguintes princpios que so caractersticos da liderana da Netezza no mercado: f f f f f f Processamento prximo fonte de dados Arquitetura paralela massivamente balanceada Plataforma para anlises avanadas Simplicidade do appliance Inovao acelerada e melhorias de desempenho Configuraes flexveis e escalabilidade mxima

Processamento prximo fonte de dados


A arquitetura da Netezza baseada em um princpio fundamental da cincia da computao: ao operar em grandes conjuntos de dados, no mova os dados a menos que seja absolutamente necessrio. A Netezza explora completamente este princpio utilizando os componentes com base em mercadorias chamados de FPGAs (Field Programmable Gate Arrays) para filtrar dados irrelevantes logo no incio do fluxo de dados e to rpido quanto os fluxos de dados externos do disco. Este processo de excluso de dados prximo fonte de dados remove gargalos de E/S e libera componentes de recebimento de dados como CPU, memria e rede de processamento de dados suprfluo, possibilitando ento um efeito multiplicador significante no desempenho do sistema.

Arquitetura paralela massivamente balanceada


A arquitetura da Netezza combina os melhores elementos de SMP (Symmetric Multiprocessing) e de MPP (Massively Parallel Processing) para criar um appliance que analise rapidamente os petabytes de dados. Cada componente da arquitetura, incluindo processador, FPGA, memria e rede, cuidadosamente selecionado e otimizado para atender os dados da maneira mais rpida permitida pelo disco, minimizando o custo e o consumo de energia. O software da Netezza organiza esses componentes para operarem simultaneamente no fluxo de dados em formato de canais, maximizando assim, o aproveitamento e extraindo o melhor rendimento para cada n MPP. Alm do desempenho bruto, essa arquitetura balanceada fornece escalabilidade linear para mais de milhares de fluxos de processamento que executam em paralelo, enquanto oferece um custo total de propriedade econmico.

Plataforma para analtica avanada


Os princpios do MPP e o processamento de dados prximo fonte so igualmente aplicveis

Arquitetura do Appliance de Dados Netezza: Uma Plataforma para Anlises e Data Warehousing de Alto Desempenho

analtica avanada de grandes conjuntos de dados. Os appliances da Netezza simplesmente processam algoritmos complexos de escala paralela massivamente expressos em linguagens como SQL, sem a complexidade tpica da programao paralela ou em grade. Executar anlises de negcio de qualquer complexidade em fluxo contra grandes volumes de dados elimina os atrasos e custos envolvidos na movimentao dos dados para um hardware separado. Isso acelera o desempenho devido magnitude, tornando a Netezza a plataforma ideal para convergir data warehousing com anlises avanadas.

Simplicidade do appliance
Automatizando e simplificando operaes dirias, a arquitetura da Netezza protege os usurios da complexidade subjacente da plataforma. A simplicidade rege onde quer que haja uma escolha de design com qualquer outro aspecto do appliance. Diferentemente de outras solues, ela apenas executa, administra a demanda das consultas e combina as cargas de trabalho de intensa velocidade, sem que seja necessrio o ajuste por outros sistemas. Mesmo tarefas normalmente demoradas, como instalao e upgrades, garantem que a alta disponibilidade e a continuidade dos negcios sejam amplamente simplificadas, economizando tempo e recursos valiosos.

Inovao acelerada e melhorias de desempenho


Um dos principais objetivos da arquitetura da Netezza oferecer melhorias de custo-benefcio, alm de funcionalidade inovadora, mais rpido do que as tecnologias concorrentes ao longo da execuo. Enquanto o uso de componentes abertos, com base em blade, permite que a arquitetura da Netezza incorpore aprimoramentos tecnolgicos de forma muito mais rpida, o efeito turbo-compressor do FPGA, uma configurao de hardware balanceada e um software inteligente firmemente integrado associam-se para oferecer ganhos de desempenho em geral muito maiores do que queles dos elementos individuais. Na verdade, a plataforma da Netezza tem fornecido mais de 4 vezes a melhoria de desempenho a cada dois anos (o dobro do que a Lei de Moore) desde sua apresentao.
a. Cramming more components onto integrated circuits, Gordon Moore, Electronics, Volume 38, Nmero 8, 19 de abril de 1965

Lei de Moore: Gordon Moore, cofundador da Intel, previu em 1965 que o nmero de transistores em um chip dobraria a cada dois anos. Os aplicativos de software geralmente dependem dessas melhorias do processador para acelerarem o desempenho ao longo do tempo.a

Configuraes flexveis e escalabilidade mxima


A plataforma da Netezza escala modularmente de algumas centenas de gigabytes a dezenas de petabytes de dados de usurios que podem ser consultados. A arquitetura do sistema atende aos diferentes segmentos de anlises de negcios e data warehouse do mercado. O uso de componentes abertos com base em blade permite que a proporo disco-processador-memria seja facilmente modificada nas configuraes que fornecem requisitos centrados em desempenho ou armazenamento. A mesma arquitetura tambm suporta sistemas com base em memria que fornece anlises extremamente rpida em tempo real para aplicativos essenciais. As sees a seguir examinam como a soluo da Netezza coloca em prtica esses princpios.

System building blocks

Sistema de blocos de construo


A maior parte of the Netezzade desempenho da soluo da Netezza proveniente unique exclusiva A major part das vantagens solution's performance advantage comes from its de sua AMPP architecture (shown in Figure 1), which combines um front-end SMP com um shared nothing arquitetura AMPP (exibida na Figura 1), que combina an SMP front end with a backend MPP sem MPP back end for query processing. de consulta. Cada componente da arquitetura Each component of the architecture is carefully chosen compartilhamento para processamento and integrated to yield a balanced overall system. Every processing element operates on cuidadosamente escolhido e integrado para gerar um sistema geral balanceado. Cada elemento de multiple data streams, filtering out extraneous data as early as possible. More than a processamento opera em mltiplos fluxos de dados, filtrando dados irrelevantes o mais breve possvel. thousand of these customized MPP streams work together to divide and conquer the Mais de milhares desses fluxos MPP customizados trabalham juntos para dividir e vencer a carga de workload.
trabalho.

FPGA

CPU

Memria Memory

Anlises Advanced Avanadas Analytics

FPGA

CPU

BI Host

Memria Memory

Host
ETL

FPGA

CPU

Loader

Memory Memria

Gabinetes Disk de Disco Enclosures

S-Blades

Malha de Network Rede Fabric

Figure 1 Arquitetura AMPP Figura 1 AMPP architecture

Let's examine theprincipais blocos de construo do appliance: Vamos analisar os key building blocks of the appliance:
f Hosts da Netezza The SMP hosts servidores de alto desempenho servers set up em configurao ativa-passiva Os hosts SMP so are high-performance Linux Linux definidos in an active-passive configuration for high availability. The active host presents a standardized interface to para alta disponibilidade. O host ativo apresenta uma interface padronizada para ferramentas e external tools and applications. It compiles SQL queries into executable code segments aplicativos externos. Compila consultas SQL em segmentos de cdigo executveis chamados called snippets, creates optimized query plans, and distributes the snippets to the MPP fragmentos, cria planos de consulta otimizados e distribui os fragmentos em ns MPP para execuo.

Netezza hosts

nodes for execution.

f S-Blades (Snippet(S-Blades) Snippet Blades Blades) S-Blades so ns de processamento inteligentethat make up the turbocharged MPP engine of S-Blades are intelligent processing nodes que compem o mecanismo MPP turbo-compressor do appliance. Cada S-Blade um servidor independente que contm CPUs de mltiplos ncleos the appliance. Each S-Blade is an independent server containing powerful multi-core poderosas, mltiplos mecanismos FPGAs e gigabytes de all balanced and working concurrently CPUs, multi-engine FPGAs, and gigabytes of RAM, RAM, todos balanceados e trabalhando simultaneamente para fornecer o The CPU cores are designed with CPU foram projetados com um to deliver peak performance. melhor desempenho. Os ncleos da ample headroom to run amplo espao livre para executar algoritmos complexos em grandes analyticsde dados para complex algorithms against large data volumes for advanced volumes applications. aplicativos de anlise avanada. Disk enclosures

4
4

The disk enclosures' high-density, high-performance disks are RAID protected. Each disk f Gabinetes de disco contains a slice of every database e o alto desempenho dos discos so connects disk A alta densidade do gabinete de disco table's data. A high-speed networkprotegidos por RAID. Cada disco contm uma fatia de cada um dos dados da tabela de banco de dados. Uma rede de alta velocidade conecta gabinetes de discos aos S-Blades, permitindo que todos os discos em uma rede Netezza realizem um fluxo de dados simultneo nos S-Blades com a mxima taxa possvel. The Netezza Data Appliance Architecture: A Platform for High Performance Data Warehousing and Analytics
Arquitetura do Appliance de Dados Netezza: Uma Plataforma para Anlises e Data Warehousing de Alto Desempenho

f Malha de rede to the S-Blades at the maximum rate possible. Uma malha de rede de alta velocidade se conecta a todos os componentes do sistema. O Network fabric appliance da Netezza executa um protocolo customizado com base em IP que utiliza toda a largura de high-speed network fabric connects all system components. The Netezza appliance A banda de seo cruzada da malha e elimina o congestionamento mesmo sob trfego de redes em conexes constantes e intermitentes. A rede otimizada para escalar mais de milhares de ns runs a customized IP-based protocol that fully utilizes the total cross-sectional bandwidth of the fabric and eliminates inicie grandes transferncias de dados a cada outro traffic. The enquanto permite que cada ncongestion even under sustained, bursty network n network is optimized to scale to more than a thousand nodes, while allowing each node to simultaneamente.

enclosures to S-Blades, allowing all the disks in a Netezza to simultaneously stream data

initiate large data transfers to every other node simultaneously.

Onde ocorre o desempenho mximo: dentro de um S-Blade Nota: Todos os componentes do sistema so redundantes. Enquanto os hosts so ativos-passivos, other components in the appliance are hot swappable. User data is fully mirrored, todos os outros componentes no appliance so do tipo troca a quente. Os dados do usurio so enabling better than 99.99% availability. completamente espelhados, permitindo mais de 99,99% de disponibilidade.

Note: All system components are redundant. While the hosts are active-passive, all

Where extreme performance happens: inside an S-Blade

Onde ocorre o desempenho mximo: dentro de um S-Blade


Componentes com base em mercadorias e o software da Netezza so combinados para extrair o mximo rendimento de cada n Netezza software combine to extract the utmost throughput Commodity components and MPP. Uma interconexo dedicada de alta velocidade de uma matriz de armazenamento entrega dados memria to rpido quanto cada disco possa fluir. Dados from each MPP node. A dedicated high-speed interconnect from the storage array delivers compactados soas quickly as each diskcache utilizando um algoritmo inteligente que in memory a data to memory colocados em memria can stream. Compressed data is cached garante que maioria dos dados de memria frequentemente acessados seja oferecida de maneira imediata ao using a smart algorithm, which ensures that the most commonly accessed data is served right de of memory instead of requiring a disk access. FAST Engines (shown in Figure 2) invs out exigir um acesso de disco. Mecanismos FAST (exibidos na Figura 2) executando em paralelo running in parallel inside the FPGAs uncompress 98% dos dados da tabela na velocidade dentro dos FPGAs, descomprimem e filtram de 95% aand filter out 9598% of table data at physics speed, keeping only dados necessrios para responder The remaining data in the permitida, mantendo apenas osdata needed to answer the query. a consulta. Os dados restantes do stream is processed simultaneamente pelos ncleos da CPU e tambm so The process is fluxo so processados concurrently by CPU cores, also running in parallel. executados em repeated on more than a thousand of these parallel Snippet Processors running in the paralelo. O processo repetido em mais de milhares desses Processadores Snippet paralelos que Netezza appliance. executam o appliance da Netezza.

Memria Memory

FPGA

CPU

NIC

Memria Memory

FPGA

CPU

NIC

Host

Host

Memria Memory

FPGA

CPU

NIC

Figure 2 Inside S-Blade Figura 2 Dentro do S-Blade

Turbocharging the S-Blades: the power of Netezza FAST FAST da Netezza engines

S-Blades com turbo-compressor: a eficincia dos mecanismos


O FPGA um ativador essencial de vantagens de custo-benefcio da plataforma da Netezza. Cada FPGA contm mecanismos integrados que realizam funes de filtragem e transformao no fluxo de The FPGA is a critical enabler of the price-performance advantages of the Netezza platform. dados. Esses contains embedded engines that perform filtering and transformation functions Each FPGA mecanismos FAST (exibidos na Figura 3) so dinamicamente reconfigurveis, permitindo que sejam modificados ou estendidos atravs do software. Eles3) are dynamicallypara cada on the data stream. These FAST engines (shown in Figure so customizados reconfigurable, fragmento atravs be modified or extended through a execuo da consulta e atuam no fluxo de allowing them to dos parmetros fornecidos durante software. They are customized for every dados fornecido pelo mdulo DMA (Direct Memory Access) em altssima velocidade.

5
5

snippet through parameters provided during query execution and act on the data stream delivered by a Direct Memory Access (DMA) module at extremely high speed.

Compactao Compress Memria Memory

D M A

CPU
Projeto Project Restrito Restrict

NIC

FPGA

Figure 3 Netezza FAST engines Figura 3 Mecanismos FAST da Netezza

FAST engines include:

Mecanismos FAST incluem:

The Compress engine, a Netezza innovation boosting system performance by a factor of 4

f O mecanismo Compress, uncompresses data at wire speed, instantly transforming each do to 8 times. The engine uma inovao da Netezza, aumenta de 4 a 8 vezes o desempenho block on mecanismo descompacta os dados em result is a significant speedup of the sistema. Odisk into 4 to 8 blocks in memory. Thevelocidade de transmisso, transformando slowest component in any no disco em 4 a 8 blocos em instantaneamente cada bloco data warehouse, the disk. memria. O resultado uma acelerao significativa do mais lento componente em qualquer increase performance by filtering out The Project and Restrict engines, which further data warehouse, o disco. f Os mecanismos Project e Restrict aumentam o desempenho filtrando SELECT and WHERE clauses columns and rows respectively, based on the parameters in the colunas e linhas respectivamente, com base nos parmetros das clusulas SELECT e WHERE em uma consulta in a SQL query. SQL. The Visibility engine, which plays a critical role in maintaining Atomicity, Consistency, f O mecanismo Visibility desempenha um papel crtico na manuteno de conformidade platform. Isolation, and Durability (ACID) compliance at streaming speeds in the Netezza ACID (Atomicity, Consistency, should not be seen by a query; for example, rows plataforma da Netezza. It filters out rows that Isolation, and Durability) em fluxos de velocidade na belonging to a Ele filtra as linhas que no devem ser visualizadas por uma consulta, por exemplo, linhas que transaction that is not yet committed. pertencem a uma transao que ainda no esteja consolidada.

The Netezza FAST engines provide an extensible framework for innovative future functions to Os mecanismos FAST da Netezza Netezza software. These new para que promise further be added through updates to thefornecem uma estrutura extensvelfunctions funes inovadoras improvement adicionadas atravs das atualizaes do reliability. Netezza. Essas novas funes futuras sejam in system performance, security, and software da
prometem melhorias futuras no desempenho do sistema, na segurana e na confiabilidade.

Organizando consultas na plataforma Netezza Orchestrating queries on the Netezza platform


The Netezza hardware(exibido na Figura 4) foi projetado para explorar completamente os recursos interligados. O software components and intelligent system software are closely intertwined. The software (shown in Figure 4) is designed to fully exploit the hardware capabilities of the do hardware dos appliances e incorpora vrias inovaes para oferecer ganhos de desempenho appliance and incorporates numerous innovations to offer exponential performance gains, excepcionais, sejam para simples perguntas, consultas ad hoc complexas ou anlises detalhadas. whether for simple inquiries, complex ad-hoc queries, or deep analytics. In this section, we Nessa seo, examinamos a inteligncia integrada ao sistema examine the intelligence built into the system every step ofem cada etapa concluda. the way.
Os componentes do hardware da Netezza e o software de sistema inteligente esto intimamente

The Netezza Data Appliance Architecture: A Platform for High Performance Data Warehousing and Analytics

Arquitetura do Appliance de Dados Netezza: Uma Plataforma para Anlises e Data Warehousing de Alto Desempenho

Mecanismo de Execuo Mecanismos FAST Planejamento Anlise da Consulta

Planejador
Cache do Objeto Mecanismo de Execuo Mecanismos FAST

Compilador
Otimizador

Catlogo do Sistema Mecanismo de Execuo Mecanismos FAST Gabinetes de Disco Malha de Rede Host Netezza

S-Blades

Figure 4 Software architecture Figura 4 Arquitetura de Software

Netezza software components include: Componentes de software da Netezza incluem:


f Um otimizador each component in every processing nodepara que sejam executadas de ensures that paralelo sofisticado que transforma consultas is fully utilized maneira mais eficiente e garante que cada componente em cada n de processamento seja An intelligent scheduler that keeps the system running at its peak throughput, regardless completamente utilizado of workload f Um planejador inteligente que mantm o sistema funcionando em seu pico de rendimento, Turbocharged Snippet Processors that independentemente da carga de trabalho efficiently execute multiple queries and complex analytics functions concurrently f Processadores Snippet com turbo-compressor que executam mltiplas consultas com eficincia e A smart network de makes moving large amounts of data through the Netezza system a funes complexasthatanlise simultaneamente f Uma rede inteligente que move grandes quantidades de dados por meio do sistema da Netezza Let's see how these elements work together, starting when a user submits a query. rapidamente Technology-savvy readers will see that the Netezzaconjunto, comeandovery quando um than Vamos examinar como esses elementos funcionam em processes queries por differently usurio other data warehouse systems. realiza uma consulta. Os leitores conhecedores de tecnologia descobriro que a Netezza processa consultas de maneira bem diferente em relao aos outros sistemas de data warehouse.

A sophisticated parallel optimizer that transforms queries to run more efficiently and

breeze

Make an optimized query plan

Elabore um plano de consulta otimizado


The host compiles the query and creates a query execution plan optimized for the Netezza O host architecture. The e cria um plano de Netezza otimizado para a arquitetura AMPP da AMPP compila a consulta intelligence of the execuooptimizer is one of the system's greatest Netezza. A inteligncia do makes use of all the uma das maiores foras do gather O otimizador strengths. The optimizer otimizador da Netezza MPP nodes in the system tosistema. detailed, utiliza todos os ns MPP every database table referenced in a query. A majority em cada up-to-date statistics on no sistema para obter estatsticas detalhadas e atualizadas of these tabela de banco de dados referenciada em execution with maioria overhead, yielding just-in-time metrics are captured during query uma consulta. Avery lowdessas mtricas capturada durante a statistics thatconsulta com baixa sobrecarga resultando em estatsticas the Netezza system, with execuo da are individualized per query. The appliance nature of oportunas que so integrated components able A natureza do appliance do sistemaallows the cost-based optimizer individualizadas por consulta. to communicate with each other, da Netezza, com componentes to more accurately de se comunicarprocessing, and network costs o otimizador with an em integrados capazes measure disk, uns com os outros, permite que associated com base operation. By relying on accurate custos de disco, processamento e rede associadosis able to custos mea mais precisamente os data rather than heuristics alone, the optimizer operao. generate query plans that utilize allde heursticos somente, o otimizador capaz de gerar planos de components with extreme efficiency. Confiando em dados exatos ao invs
consulta que utilizam todos os componentes com extrema eficcia.

7
7

Inteligncia no otimizador (calculando o pedido de associao): Um exemplo de inteligncia de otimizador a capacidade de determinar o melhor pedido de associao em uma associao complexa. Por exemplo, ao adicionar mltiplas tabelas pequenas em uma tabela grande, o otimizador pode optar por transmitir as tabelas pequenas em sua totalidade para cada S-Blade, enquanto mantm a tabela grande distribuda ao longo dos processadores Snippet. Essa abordagem minimiza o movimento dos dados enquanto se beneficia da arquitetura AMPP para tornar paralela a associao. Utilizando essas estatsticas para transformar consultas antes de iniciar o processamento, o otimizador minimiza a E/S do disco e o movimento dos dados, dois fatores que reduzem o desempenho em um sistema de data warehouse. Transformar operaes executadas pelo otimizador inclui: f Determinar o pedido de associao correto f Reescrever expresses f Remover redundncias de operaes SQL

Converso para fragmentos


O compilador converte o plano de consulta em segmentos de cdigo executveis chamados fragmentos, que so segmentos de consulta executados pelos processadores Snippet em paralelo em todos os fluxos de dados do appliance. Cada fragmento possui dois elementos: um cdigo compilado executado por ncleos de CPU individuais e um conjunto de parmetros FPGA para customizar a filtragem dos mecanismos FAST para aquele fragmento especfico. Essa customizao individual de fragmentos permite que a plataforma Netezza fornea uma configurao de hardware otimizada de maneira imediata para as consultas individuais. Inteligncia no compilador (cache do objeto): O host utiliza um recurso chamado objeto cache para acelerar mais ainda o desempenho da consulta. Isso um grande cache de cdigo de fragmento previamente compilado que suporta variaes de parmetro. Por exemplo, um fragmento com a clusula where name = bob deve utilizar o mesmo cdigo compilado como um fragmento com a clusula where name = jim, mas com configuraes que expressem o nome diferente. Essa abordagem elimina a etapa da compilao para mais de 99% dos fragmentos.

Programe-os para que sejam executados no momento certo


O planejador da Netezza (exibido na Figura 5) equilibra a execuo nas cargas de trabalho complexas para atender aos objetivos de diferentes usurios enquanto mantm o mximo aproveitamento e rendimento. Ele considera uma srie de fatores, incluindo a prioridade da consulta, tamanho, disponibilidade de recursos, na determinao de quando executar os fragmentos nos S-Blades. O planejador utiliza a arquitetura do appliance para obter mtricas atualizadas e exatas sobre a disponibilidade dos recursos a partir de cada componente do sistema. Utilizando algoritmos sofisticados, o planejador maximiza o processamento do sistema utilizando cerca de 100% da largura de banda do disco e certificando-se de que a memria e os recursos de rede no estejam sobrecarregados, uma causa comum de problemas no desempenho em sistemas menos eficientes. Essa uma caracterstica importante da plataforma Netezza, garantindo que o sistema mantenha seu pico de rendimento mesmo sob cargas mais pesadas. Quando o planejador acende a luz verde, o fragmento transmitido a todos os processadores Snippet atravs da malha de rede inteligente.

Arquitetura do Appliance de Dados Netezza: Uma Plataforma para Anlises e Data Warehousing de Alto Desempenho

Consulta 1 Query 1

Consulta Query N N Rede Network

Disk

Memria Memory

Disco Disk

Memria Memory

Rede Network

Disco Disk

Disk Disco

Rede Network

Rede Network

Compartimento Bin Disk Resource de Recursos do Disco

Memria Memory

Memory Memria

Compartimento de Recursos Network Resource Bin de Rede

Compartimento de Recursos Memory Resource Bin da Memria

Figure 5 Intelligence in the Scheduler: no resource overloading Figura 5 Inteligncia no Planejador: Sem sobrecarga do recurso

Execute-os em paralelo Execute them in parallel


Cada Snippet Processor em cada S-Blade now has the instructions it needs to execute its Each processador Snippeton every S-Blade possui atualmente as instrues necessrias para executar sua parcela de fragmentos. Alm do planejador de host, os processadores Snippet possuem portion of the snippet. In addition to the host scheduler, the Snippet Processors have their seu smart planejador inteligente preventivo que permite from multiple serem to execute ownprprio preemptive scheduler that allows snippets aos fragmentosqueriesexecutados simultaneously. The scheduler takes into account the priority of the queryprioridade da consulta simultaneamente a partir de mltiplas consultas. O planejador leva em conta a and the resources set aside for the user orpor usurio ou grupo que a emitiram para decidir quando topor quanto a e os recursos separados group that issued it to decide when and for how long e schedule particular snippet forfragmento especfico para a execuo. Quando esse momento chega hora do tempo programar um execution. When that instant arrives, it's show time: show: 1. The processor core on each Snippet Processor configures the FAST engines with parameters contained in the query snippet and sets up a data stream.

2. The Snippet Processorfragmento da data from the disk array intode dados. utilizing a reads table consulta e configura um fluxo memory, parmetros contidos no Netezza innovation called ZoneMapTM acceleration to reduce disk scans. The Snippet 2. Processor alsoSnippet l os dados da tabela daaccessingdisco na memria, utilizando uma O processador interrogates the cache before matriz do the disk for a data block, avoiding a scan if theNetezza already inacelerao ZoneMap para reduzir as varreduras do disco. O inovao da data is chamada memory.
processador Snippet on the apura o cache first de acessar disco de um bloco a dados, 3. The FPGA then actstambm data stream. Itantes acceleratesothe data stream by defactor of up to 4 to 8 times by uncompressing the data stream at wire speed. evitando uma varredura caso os dados ainda estejam na memria.

1. O ncleo do processador em cada processador Snippet configura mecanismos FAST com

4. The FAST engines then filter out any data not relevant to the query. The remaining data 3. Ento, o FPGA atua no fluxo de dados. Ele acelera em at 4 a 8 vezes o fluxo de dados, streams back to memory for concurrent processing by the CPU core. This data is typically descompactando-o em velocidade de transmisso. a tiny fraction (25%) of the original stream, greatly reducing the execution time required by the processor core. 4. Em seguida, os mecanismos FAST filtram quaisquer dados irrelevantes consulta. Os fluxos de 5. The processor core picks up the data stream and performs core database operations such dados restantes retornam memria para o processamento simultneo por meio do ncleo da as sorts, joins, and aggregations. uma frao minscula (dealgorithms embedded in the CPU. Esses dados so tipicamente It also applies complex 2% a 5%) do fluxo original, Snippet Processor o tempo de execuo necessrio pelo ncleo do processador. reduzindo bastante for advanced analytics processing. 6. Results from each Snippet Processor are assembled in memory to produce a sub-result 5. O ncleo do processador seleciona o fluxo de dados e executa as principais operaes de banco for the entire snippet. This process is repeated simultaneously across more than a de dados Snippet Processors, with hundreds or thousands tambm se aplica aos algoritmos thousand como classificaes, associaes e agregaes. Issoof query snippets executing in complexos parallel. incorporados ao processador Snippet para o processamento de analtica avanada.
6. Os resultados de cada processador Snippet so coletados pela memria para produzir um subresultado por todo o fragmento. Esse processo repetido simultaneamente em mais de milhares de processadores Snippet , com centenas ou milhares de fragmentos de consultas executados em paralelo.

9
9

Acelerao ZoneMap (o anti-ndice da Netezza): A acelerao ZoneMap explora a ordem natural das linhas em um data warehouse para acelerar o desempenho por ordem de magnitude. A tcnica evita a varredura de linhas com valores de colunas fora do intervalo de incio e trmino de uma consulta. Por exemplo, se uma tabela contm dois anos de registros semanais (aproximadamente 100 semanas) e uma consulta busca por dados apenas de uma semana, a acelerao ZoneMap pode aprimorar o desempenho em at 100 vezes. Diferentemente dos ndices, as ZoneMaps so criadas automaticamente e atualizadas para cada tabela de banco de dados, sem qualquer sobrecarga administrativa.

E retornam os resultados!
Todos os processadores Snippet possuem atualmente resultados de fragmentos que devem ser coletados. Os processadores Snippet utilizam a malha de rede inteligente para se comunicar de maneira flexvel uns com os outros e com o host, executando clculos e agregaes intermedirias. Inteligncia na rede (desempenho e escalabilidade previsveis): O protocolo de rede customizado da Netezza foi projetado especificamente para volumes de dados e padres de trfego associados ao grande volume de data warehousing. O protocolo da Netezza garante o aproveitamento mximo da banda larga da rede sem sobrecarreg-la, permitindo o desempenho previsvel prximo ao limite a linha. O trfego flui naturalmente em trs direes diferentes: f Do host aos processadores Snippet (1 a mais de 1000) no modo de transmisso f Dos processadores Snippet ao host (mais de 1000 a 1), com agregao nos S-Blades e no nvel de rack do sistema f Entre os processadores Snippet (mais de 1000 a mais de 1000), com fluxo de dados livre em escala massiva para processamento intermedirio O host coleta os resultados intermedirios recebidos dos processadores Snippet, compila o resultado final, configura e retorna-os ao aplicativo do usurio. Enquanto isso, outras consultas so realizadas no sistema em vrios estgios de concluso.

Resumo
As melhores solues no so necessariamente as maiores ou mais dispendiosas, e sim aquelas projetadas da maneira mais inteligente. A equipe da Netezza reconheceu e explorou a vantagem inerente que o processamento de fluxos oferece sobre as arquiteturas de computao tradicionais utilizadas por outros sistemas de analtica e data warehousing. O resultado um appliance compacto com desempenho reduzido em relao a muitos dos grandes sistemas, em uma velocidade incrvel de execuo de algoritmos complexos contra grandes volumes de dados e cargas de trabalho combinadas criadas por milhares de usurios simultneos. O desempenho do processamento complementado por outros recursos que tornam a soluo da Netezza uma plataforma exclusiva para fazer as empresas prosperarem, incluindo: f Simplicidade de uso A plataforma da Netezza autogerenciada, como um appliance deve ser e est sempre executando em seu pico de rendimento. O software do sistema garante que no haja interveno humana. f Melhores decises para a corporao Funes integradas apresentam uma nova gerao de analtica no banco de dados com o mnimo esforo do desenvolvimento. No h necessidade de separar o hardware do servidor ou perda de

10

Arquitetura do Appliance de Dados Netezza: Uma Plataforma para Anlises e Data Warehousing de Alto Desempenho

tempo massiva os dados transferem apenas resultados extremamente rpidos e a capacidade de apresentar inteligncia de negcios essencial a todos que possam ser beneficiados, em todos os setores da organizao. f Agilidade para o futuro O sistema no foi projetado apenas para os desafios atuais e sim para os desafios futuros, escalando linearmente dezenas de petabytes de dados de usurio com acelerao de desempenho muito alm da velocidade convencional controlada pela Lei de Moore. A plataforma da Netezza permite que voc e sua empresa tomem decises com o mximo de clareza garantindo o desempenho. No tenha como base apenas nossa palavra. A melhor maneira de compreender a soluo da Netezza v-la em ao. Acreditamos que voc concordar que no existe igual para obter o mximo de seus dados.

Outros recursos para mais informaes


Para mais informaes, visite o site da Netezza: http://www.ibm.com/software/br/data/netezza/

O autor que escreveu este guia


Este guia foi produzido por um especialista que trabalha com a ITSO (International Technical Support Organization). Phil Francisco o Vice-Presidente do Gerenciamento de Produtos e Marketing de Produtos nos Estados Unidos para a Netezza, uma empresa da IBM. Possui 20 anos de experincia em desenvolvimento e marketing de tecnologia global. Phil bacharel em engenharia eltrica e cincia da computao pela Moore School of Electrical Engineering na Universidade da Pensilvnia, mestrado em engenharia eltrica pela Universidade de Stanford e concluiu o Advanced Management Program (Programa de Gerenciamento Avanado) pela Fuqua School of Business na Universidade Duke. Agradecimentos s seguintes pessoas por suas contribuies a este projeto: Stephanie Caputo IBM Software Group, Information Management David Carter IBM Software Group, Information Management LindaMay Patterson International Technical Support Organization, Rochester Center

Agora voc tambm pode ter o seu artigo publicado!


Aqui voc encontra um instrumento para destacar suas habilidades, desenvolver sua carreira e ter um artigo publicado tudo ao mesmo tempo! Rena um projeto de residncia ITSO e ajude a escrever um livro em sua rea de conhecimento, enquanto aprimora sua experincia atravs de tecnologias lderes. Seus esforos ajudaro a aumentar a aceitao do produto e a satisfao do cliente, e tambm a expandir sua rede de contatos e relacionamentos tcnicos. Residncias podem durar de duas a seis semanas e voc pode participar pessoalmente ou como um residente remoto trabalhando de sua casa. Saiba mais sobre o programa de residncia, navegue pelo ndice e registre-se on-line em: ibm.com/redbooks/residencies.html

11

Permanea conectado ao IBM Redbooks


f Encontre-nos no Facebook: http://www.facebook.com/IBMRedbooks f Explore as novas publicaes Redbooks, residncias e workshops atravs do newsletter semanal IBM Redbooks: https://www.redbooks.ibm.com/Redbooks.nsf/subscribe?OpenForm f Mantenha-se atualizado sobre as recentes publicaes Redbooks atravs de feeds RSS: http://www.redbooks.ibm.com/rss.html

12

Arquitetura do Appliance de Dados Netezza: Uma Plataforma para Anlises e Data Warehousing de Alto Desempenho

Avisos
Estas informaes foram desenvolvidas para produtos e servios oferecidos nos Estados Unidos. A IBM pode no oferecer os produtos, servios ou recursos abordados neste documento para outros pases. Consulte seu representante IBM local para informaes sobre os produtos ou servios disponveis em sua regio. Qualquer referncia a um produto, programa ou servio IBM no tem como inteno afirmar ou implicar que apenas produtos, programas ou servios IBM possam ser utilizados. Qualquer programa, servio ou produto funcionalmente equivalente que no infrinja os direitos de propriedade intelectual da IBM poder ser utilizado no lugar. de responsabilidade de o usurio avaliar e verificar o funcionamento de qualquer produto, programa ou servio que no seja da IBM. A IBM deve ter aplicativos patenteados ou com patentes pendentes relativos ao assunto em questo neste documento. O fornecimento deste documento no concede qualquer licena a essas patentes. possvel solicitar licenas por escrito atravs de: IBM Director of Licensing, IBM Corporation, North Castle Drive, Armonk, NY 10504-1785 U.S.A. O pargrafo a seguir no aplicvel ao Reino Unido ou a qualquer outro pas onde tais provises sejam inconsistentes com as leis locais: INTERNATIONAL BUSINESS MACHINES CORPORATION FORNECE ESTA PUBLICAO NO ESTADO EM QUE SE ENCONTRA SEM GARANTIA DE QUALQUER TIPO, TANTO EXPRESSA COMO IMPLICADA, INLCUINDO, MAS NO LIMITADA A, AS GARANTIAS IMPLICADAS DE NO INFRAO, MERCABILIDADE OU ADEQUAO PARA UM PROPSITO PARTICULAR. Alguns estados no permitem renncia de garantias expressas ou implicadas em certas transaes, portanto, esta declarao pode no ser aplicvel. Estas informaes podem incluir imprecises tcnicas ou erros tipogrficos. Periodicamente so feitas alteraes s informaes aqui contidas; tais alteraes sero incorporadas nas novas edies desta publicao. A IBM pode fazer melhorias e/ou modificaes em produtos e/ou programas descritos nesta publicao a qualquer momento, sem prvio aviso. Qualquer referncia neste informativo a Web sites no IBM so fornecidos somente por convenincia e de nenhuma maneira serve como um endosso para estes Web sites. Os materiais destes Web sites no fazem parte dos materiais para este produto da IBM e o uso destes Web sites so por sua conta e risco. A IBM no utiliza ou distribui qualquer das informaes fornecidas de modo apropriado sem incorrer qualquer obrigao a voc. Informaes relativas a produtos no IBM foram obtidas de fornecedores desses produtos, de seus anncios publicados ou de outras fontes de publicao. A IBM no testou esses produtos e no pode confirmar a preciso de desempenho, a compatibilidade, ou qualquer outra reclamao relacionada aos produtos que no sejam da IBM. Perguntas sobre os recursos de produtos no IBM devem ser dirigidas aos fornecedores destes produtos. Estas informaes contm exemplos de dados e relatrios utilizados nas operaes dirias do negcio. Para ilustr-las como completamente possveis, os exemplos incluem os nomes dos indivduos, empresas, marcas e produtos. Todos estes nomes so fictcios e qualquer semelhana em relao aos nomes e endereos utilizados por uma empresa real mera coincidncia. LICENA DE DIREITOS AUTORAIS: Estas informaes contm amostras de programas de aplicativos na linguagem fonte, que ilustra tcnicas de programao em vrias plataformas operacionais. permitido copiar, modificar e distribuir estas amostras de programas em qualquer formato sem pagamento para IBM, para os propsitos de desenvolvimento, utilizao, marketing ou distribuio dos programas de aplicativos de acordo com a interface de programao do aplicativo para a plataforma operacional para a qual a amostra do programa foi escrita. Estes exemplos no foram totalmente testados sob quaisquer condies. A IBM, portanto, no pode garantir ou implicar confiana, funcionamento ou funo destes programas.

13

This document, REDP-4725-00, was created or updated on January 14, 2011.


Este documento, REDP-4725-00, foi criado ou atualizado em 14 de janeiro de 2011.

Trademarks Marcas registradas

IBM, the IBM logo, andoibm.com IBM trademarks or marcas comerciais ou marcas IBM, logotipo are e ibm.com so registered trademarks of International Business Machines Corporation in the United States, other countries, or registradas da International Business Machines Corporation nos Estados both. These and other IBM trademarked terms are marked on their first occurrence in Unidos, em outros pases ou em ambos. Se a primeira ocorrncia or this information with the appropriate symbol ( or ), indicating US registered desses common law trademarks owned by IBMmarcas time this information was published. Such e de outros termos de at the registradas da IBM for marcada com um trademarks may also be registered registrada ( ou ), esses smbolos indicam marcas smbolo de marca or common law trademarks in other countries. A current list of IBM trademarks is available on the Web at registradas ou de direito consuetudinrio nos Estados Unidos de propriedade da IBM no momento da http://www.ibm.com/legal/copytrade.shtml

Redbooks

The following terms are consuetudinriothe International Business Machines Corporation in the United States, direito trademarks of em outros pases. Uma lista atual de marcas registradas da IBM est disponvel other countries, or both:
na Web no item: http://www.ibm.com/legal/copytrade.shtml The following terms are trademarks of other companies: IBM Redbooks

publicao destas informaes. Tais marcas registradas tambm podem ser marcas registradas ou de

Intel, Intel logo, Intel Inside logo, and Intel Centrino logo are trademarks or registered trademarks of Intel Corporation or its Os termos a seguir so marcas registradas de outras empresas: subsidiaries in the United States and other countries. Linux is a trademark of Linus Torvalds in the United States, other countries, or both.
IBM Redguide

Redguide Redbooks registradas da International Business Machines Corporation nos Os termos seguintes so marcas (logo) Estados Unidos, em outros pases ou em ambos:

Other company, product, or service names may be trademarks or service marks of others.
Redbooks Redbooks (logo) Intel, o logotipo Intel, o logotipo Intel Inside e o logotipo Intel Centrino so marcas comerciais ou marcas registradas da Intel Corporation ou de suas subsidirias nos Estados Unidos e em outros pases. Linux uma marca registrada de Linus Torvalds nos Estados Unidos, em outros pases ou em ambos. Outros nomes de empresas, produtos ou servios podem ser marcas registradas ou marcas de servio de terceiros.

14
14

The Netezza Data Appliance Architecture: A Platform for High Performance Data Warehousing and Analytics Arquitetura do Appliance de Dados Netezza: Uma Plataforma para Anlises e Data Warehousing de Alto Desempenho

Você também pode gostar