Escolar Documentos
Profissional Documentos
Cultura Documentos
Redguides
para Lderes de Negcios
Phil Francisco
Explore a energia e a simplicidade de um appliance construdo especificamente para anlises de alta velocidade Aumente a qualidade e a exatido da inteligncia de negcios
Esta publicao IBM Redguide apresenta a arquitetura AMPP (Asymmetric Massively Parallel Processing) da Netezza e descreve como o sistema organiza as consultas e a analtica para obter sua velocidade sem precedentes. Voc entender como o software e o hardware da Netezza so combinados para extrair o mximo aproveitamento de cada componente essencial e como um sistema otimizado para dezenas de milhares de usurios consultando grandes volumes de dados realmente funciona. uma plataforma exclusiva de analtica e data warehouse com custo-benefcio incomparvel, pronta para as necessidades atuais e os desafios futuros.
Princpios da arquitetura
Os appliances da Netezza integram banco de dados, servidores e storage e em um sistema compacto otimizado para anlises de negcioe projetado para o crescimento flexvel. A arquitetura do sistema fundamentada nos seguintes princpios que so caractersticos da liderana da Netezza no mercado: f f f f f f Processamento prximo fonte de dados Arquitetura paralela massivamente balanceada Plataforma para anlises avanadas Simplicidade do appliance Inovao acelerada e melhorias de desempenho Configuraes flexveis e escalabilidade mxima
Arquitetura do Appliance de Dados Netezza: Uma Plataforma para Anlises e Data Warehousing de Alto Desempenho
analtica avanada de grandes conjuntos de dados. Os appliances da Netezza simplesmente processam algoritmos complexos de escala paralela massivamente expressos em linguagens como SQL, sem a complexidade tpica da programao paralela ou em grade. Executar anlises de negcio de qualquer complexidade em fluxo contra grandes volumes de dados elimina os atrasos e custos envolvidos na movimentao dos dados para um hardware separado. Isso acelera o desempenho devido magnitude, tornando a Netezza a plataforma ideal para convergir data warehousing com anlises avanadas.
Simplicidade do appliance
Automatizando e simplificando operaes dirias, a arquitetura da Netezza protege os usurios da complexidade subjacente da plataforma. A simplicidade rege onde quer que haja uma escolha de design com qualquer outro aspecto do appliance. Diferentemente de outras solues, ela apenas executa, administra a demanda das consultas e combina as cargas de trabalho de intensa velocidade, sem que seja necessrio o ajuste por outros sistemas. Mesmo tarefas normalmente demoradas, como instalao e upgrades, garantem que a alta disponibilidade e a continuidade dos negcios sejam amplamente simplificadas, economizando tempo e recursos valiosos.
Lei de Moore: Gordon Moore, cofundador da Intel, previu em 1965 que o nmero de transistores em um chip dobraria a cada dois anos. Os aplicativos de software geralmente dependem dessas melhorias do processador para acelerarem o desempenho ao longo do tempo.a
FPGA
CPU
Memria Memory
FPGA
CPU
BI Host
Memria Memory
Host
ETL
FPGA
CPU
Loader
Memory Memria
S-Blades
Let's examine theprincipais blocos de construo do appliance: Vamos analisar os key building blocks of the appliance:
f Hosts da Netezza The SMP hosts servidores de alto desempenho servers set up em configurao ativa-passiva Os hosts SMP so are high-performance Linux Linux definidos in an active-passive configuration for high availability. The active host presents a standardized interface to para alta disponibilidade. O host ativo apresenta uma interface padronizada para ferramentas e external tools and applications. It compiles SQL queries into executable code segments aplicativos externos. Compila consultas SQL em segmentos de cdigo executveis chamados called snippets, creates optimized query plans, and distributes the snippets to the MPP fragmentos, cria planos de consulta otimizados e distribui os fragmentos em ns MPP para execuo.
Netezza hosts
f S-Blades (Snippet(S-Blades) Snippet Blades Blades) S-Blades so ns de processamento inteligentethat make up the turbocharged MPP engine of S-Blades are intelligent processing nodes que compem o mecanismo MPP turbo-compressor do appliance. Cada S-Blade um servidor independente que contm CPUs de mltiplos ncleos the appliance. Each S-Blade is an independent server containing powerful multi-core poderosas, mltiplos mecanismos FPGAs e gigabytes de all balanced and working concurrently CPUs, multi-engine FPGAs, and gigabytes of RAM, RAM, todos balanceados e trabalhando simultaneamente para fornecer o The CPU cores are designed with CPU foram projetados com um to deliver peak performance. melhor desempenho. Os ncleos da ample headroom to run amplo espao livre para executar algoritmos complexos em grandes analyticsde dados para complex algorithms against large data volumes for advanced volumes applications. aplicativos de anlise avanada. Disk enclosures
4
4
The disk enclosures' high-density, high-performance disks are RAID protected. Each disk f Gabinetes de disco contains a slice of every database e o alto desempenho dos discos so connects disk A alta densidade do gabinete de disco table's data. A high-speed networkprotegidos por RAID. Cada disco contm uma fatia de cada um dos dados da tabela de banco de dados. Uma rede de alta velocidade conecta gabinetes de discos aos S-Blades, permitindo que todos os discos em uma rede Netezza realizem um fluxo de dados simultneo nos S-Blades com a mxima taxa possvel. The Netezza Data Appliance Architecture: A Platform for High Performance Data Warehousing and Analytics
Arquitetura do Appliance de Dados Netezza: Uma Plataforma para Anlises e Data Warehousing de Alto Desempenho
f Malha de rede to the S-Blades at the maximum rate possible. Uma malha de rede de alta velocidade se conecta a todos os componentes do sistema. O Network fabric appliance da Netezza executa um protocolo customizado com base em IP que utiliza toda a largura de high-speed network fabric connects all system components. The Netezza appliance A banda de seo cruzada da malha e elimina o congestionamento mesmo sob trfego de redes em conexes constantes e intermitentes. A rede otimizada para escalar mais de milhares de ns runs a customized IP-based protocol that fully utilizes the total cross-sectional bandwidth of the fabric and eliminates inicie grandes transferncias de dados a cada outro traffic. The enquanto permite que cada ncongestion even under sustained, bursty network n network is optimized to scale to more than a thousand nodes, while allowing each node to simultaneamente.
enclosures to S-Blades, allowing all the disks in a Netezza to simultaneously stream data
Onde ocorre o desempenho mximo: dentro de um S-Blade Nota: Todos os componentes do sistema so redundantes. Enquanto os hosts so ativos-passivos, other components in the appliance are hot swappable. User data is fully mirrored, todos os outros componentes no appliance so do tipo troca a quente. Os dados do usurio so enabling better than 99.99% availability. completamente espelhados, permitindo mais de 99,99% de disponibilidade.
Note: All system components are redundant. While the hosts are active-passive, all
Memria Memory
FPGA
CPU
NIC
Memria Memory
FPGA
CPU
NIC
Host
Host
Memria Memory
FPGA
CPU
NIC
Turbocharging the S-Blades: the power of Netezza FAST FAST da Netezza engines
5
5
snippet through parameters provided during query execution and act on the data stream delivered by a Direct Memory Access (DMA) module at extremely high speed.
D M A
CPU
Projeto Project Restrito Restrict
NIC
FPGA
f O mecanismo Compress, uncompresses data at wire speed, instantly transforming each do to 8 times. The engine uma inovao da Netezza, aumenta de 4 a 8 vezes o desempenho block on mecanismo descompacta os dados em result is a significant speedup of the sistema. Odisk into 4 to 8 blocks in memory. Thevelocidade de transmisso, transformando slowest component in any no disco em 4 a 8 blocos em instantaneamente cada bloco data warehouse, the disk. memria. O resultado uma acelerao significativa do mais lento componente em qualquer increase performance by filtering out The Project and Restrict engines, which further data warehouse, o disco. f Os mecanismos Project e Restrict aumentam o desempenho filtrando SELECT and WHERE clauses columns and rows respectively, based on the parameters in the colunas e linhas respectivamente, com base nos parmetros das clusulas SELECT e WHERE em uma consulta in a SQL query. SQL. The Visibility engine, which plays a critical role in maintaining Atomicity, Consistency, f O mecanismo Visibility desempenha um papel crtico na manuteno de conformidade platform. Isolation, and Durability (ACID) compliance at streaming speeds in the Netezza ACID (Atomicity, Consistency, should not be seen by a query; for example, rows plataforma da Netezza. It filters out rows that Isolation, and Durability) em fluxos de velocidade na belonging to a Ele filtra as linhas que no devem ser visualizadas por uma consulta, por exemplo, linhas que transaction that is not yet committed. pertencem a uma transao que ainda no esteja consolidada.
The Netezza FAST engines provide an extensible framework for innovative future functions to Os mecanismos FAST da Netezza Netezza software. These new para que promise further be added through updates to thefornecem uma estrutura extensvelfunctions funes inovadoras improvement adicionadas atravs das atualizaes do reliability. Netezza. Essas novas funes futuras sejam in system performance, security, and software da
prometem melhorias futuras no desempenho do sistema, na segurana e na confiabilidade.
The Netezza Data Appliance Architecture: A Platform for High Performance Data Warehousing and Analytics
Arquitetura do Appliance de Dados Netezza: Uma Plataforma para Anlises e Data Warehousing de Alto Desempenho
Planejador
Cache do Objeto Mecanismo de Execuo Mecanismos FAST
Compilador
Otimizador
Catlogo do Sistema Mecanismo de Execuo Mecanismos FAST Gabinetes de Disco Malha de Rede Host Netezza
S-Blades
A sophisticated parallel optimizer that transforms queries to run more efficiently and
breeze
7
7
Inteligncia no otimizador (calculando o pedido de associao): Um exemplo de inteligncia de otimizador a capacidade de determinar o melhor pedido de associao em uma associao complexa. Por exemplo, ao adicionar mltiplas tabelas pequenas em uma tabela grande, o otimizador pode optar por transmitir as tabelas pequenas em sua totalidade para cada S-Blade, enquanto mantm a tabela grande distribuda ao longo dos processadores Snippet. Essa abordagem minimiza o movimento dos dados enquanto se beneficia da arquitetura AMPP para tornar paralela a associao. Utilizando essas estatsticas para transformar consultas antes de iniciar o processamento, o otimizador minimiza a E/S do disco e o movimento dos dados, dois fatores que reduzem o desempenho em um sistema de data warehouse. Transformar operaes executadas pelo otimizador inclui: f Determinar o pedido de associao correto f Reescrever expresses f Remover redundncias de operaes SQL
Arquitetura do Appliance de Dados Netezza: Uma Plataforma para Anlises e Data Warehousing de Alto Desempenho
Consulta 1 Query 1
Disk
Memria Memory
Disco Disk
Memria Memory
Rede Network
Disco Disk
Disk Disco
Rede Network
Rede Network
Memria Memory
Memory Memria
Figure 5 Intelligence in the Scheduler: no resource overloading Figura 5 Inteligncia no Planejador: Sem sobrecarga do recurso
2. The Snippet Processorfragmento da data from the disk array intode dados. utilizing a reads table consulta e configura um fluxo memory, parmetros contidos no Netezza innovation called ZoneMapTM acceleration to reduce disk scans. The Snippet 2. Processor alsoSnippet l os dados da tabela daaccessingdisco na memria, utilizando uma O processador interrogates the cache before matriz do the disk for a data block, avoiding a scan if theNetezza already inacelerao ZoneMap para reduzir as varreduras do disco. O inovao da data is chamada memory.
processador Snippet on the apura o cache first de acessar disco de um bloco a dados, 3. The FPGA then actstambm data stream. Itantes acceleratesothe data stream by defactor of up to 4 to 8 times by uncompressing the data stream at wire speed. evitando uma varredura caso os dados ainda estejam na memria.
4. The FAST engines then filter out any data not relevant to the query. The remaining data 3. Ento, o FPGA atua no fluxo de dados. Ele acelera em at 4 a 8 vezes o fluxo de dados, streams back to memory for concurrent processing by the CPU core. This data is typically descompactando-o em velocidade de transmisso. a tiny fraction (25%) of the original stream, greatly reducing the execution time required by the processor core. 4. Em seguida, os mecanismos FAST filtram quaisquer dados irrelevantes consulta. Os fluxos de 5. The processor core picks up the data stream and performs core database operations such dados restantes retornam memria para o processamento simultneo por meio do ncleo da as sorts, joins, and aggregations. uma frao minscula (dealgorithms embedded in the CPU. Esses dados so tipicamente It also applies complex 2% a 5%) do fluxo original, Snippet Processor o tempo de execuo necessrio pelo ncleo do processador. reduzindo bastante for advanced analytics processing. 6. Results from each Snippet Processor are assembled in memory to produce a sub-result 5. O ncleo do processador seleciona o fluxo de dados e executa as principais operaes de banco for the entire snippet. This process is repeated simultaneously across more than a de dados Snippet Processors, with hundreds or thousands tambm se aplica aos algoritmos thousand como classificaes, associaes e agregaes. Issoof query snippets executing in complexos parallel. incorporados ao processador Snippet para o processamento de analtica avanada.
6. Os resultados de cada processador Snippet so coletados pela memria para produzir um subresultado por todo o fragmento. Esse processo repetido simultaneamente em mais de milhares de processadores Snippet , com centenas ou milhares de fragmentos de consultas executados em paralelo.
9
9
Acelerao ZoneMap (o anti-ndice da Netezza): A acelerao ZoneMap explora a ordem natural das linhas em um data warehouse para acelerar o desempenho por ordem de magnitude. A tcnica evita a varredura de linhas com valores de colunas fora do intervalo de incio e trmino de uma consulta. Por exemplo, se uma tabela contm dois anos de registros semanais (aproximadamente 100 semanas) e uma consulta busca por dados apenas de uma semana, a acelerao ZoneMap pode aprimorar o desempenho em at 100 vezes. Diferentemente dos ndices, as ZoneMaps so criadas automaticamente e atualizadas para cada tabela de banco de dados, sem qualquer sobrecarga administrativa.
E retornam os resultados!
Todos os processadores Snippet possuem atualmente resultados de fragmentos que devem ser coletados. Os processadores Snippet utilizam a malha de rede inteligente para se comunicar de maneira flexvel uns com os outros e com o host, executando clculos e agregaes intermedirias. Inteligncia na rede (desempenho e escalabilidade previsveis): O protocolo de rede customizado da Netezza foi projetado especificamente para volumes de dados e padres de trfego associados ao grande volume de data warehousing. O protocolo da Netezza garante o aproveitamento mximo da banda larga da rede sem sobrecarreg-la, permitindo o desempenho previsvel prximo ao limite a linha. O trfego flui naturalmente em trs direes diferentes: f Do host aos processadores Snippet (1 a mais de 1000) no modo de transmisso f Dos processadores Snippet ao host (mais de 1000 a 1), com agregao nos S-Blades e no nvel de rack do sistema f Entre os processadores Snippet (mais de 1000 a mais de 1000), com fluxo de dados livre em escala massiva para processamento intermedirio O host coleta os resultados intermedirios recebidos dos processadores Snippet, compila o resultado final, configura e retorna-os ao aplicativo do usurio. Enquanto isso, outras consultas so realizadas no sistema em vrios estgios de concluso.
Resumo
As melhores solues no so necessariamente as maiores ou mais dispendiosas, e sim aquelas projetadas da maneira mais inteligente. A equipe da Netezza reconheceu e explorou a vantagem inerente que o processamento de fluxos oferece sobre as arquiteturas de computao tradicionais utilizadas por outros sistemas de analtica e data warehousing. O resultado um appliance compacto com desempenho reduzido em relao a muitos dos grandes sistemas, em uma velocidade incrvel de execuo de algoritmos complexos contra grandes volumes de dados e cargas de trabalho combinadas criadas por milhares de usurios simultneos. O desempenho do processamento complementado por outros recursos que tornam a soluo da Netezza uma plataforma exclusiva para fazer as empresas prosperarem, incluindo: f Simplicidade de uso A plataforma da Netezza autogerenciada, como um appliance deve ser e est sempre executando em seu pico de rendimento. O software do sistema garante que no haja interveno humana. f Melhores decises para a corporao Funes integradas apresentam uma nova gerao de analtica no banco de dados com o mnimo esforo do desenvolvimento. No h necessidade de separar o hardware do servidor ou perda de
10
Arquitetura do Appliance de Dados Netezza: Uma Plataforma para Anlises e Data Warehousing de Alto Desempenho
tempo massiva os dados transferem apenas resultados extremamente rpidos e a capacidade de apresentar inteligncia de negcios essencial a todos que possam ser beneficiados, em todos os setores da organizao. f Agilidade para o futuro O sistema no foi projetado apenas para os desafios atuais e sim para os desafios futuros, escalando linearmente dezenas de petabytes de dados de usurio com acelerao de desempenho muito alm da velocidade convencional controlada pela Lei de Moore. A plataforma da Netezza permite que voc e sua empresa tomem decises com o mximo de clareza garantindo o desempenho. No tenha como base apenas nossa palavra. A melhor maneira de compreender a soluo da Netezza v-la em ao. Acreditamos que voc concordar que no existe igual para obter o mximo de seus dados.
11
12
Arquitetura do Appliance de Dados Netezza: Uma Plataforma para Anlises e Data Warehousing de Alto Desempenho
Avisos
Estas informaes foram desenvolvidas para produtos e servios oferecidos nos Estados Unidos. A IBM pode no oferecer os produtos, servios ou recursos abordados neste documento para outros pases. Consulte seu representante IBM local para informaes sobre os produtos ou servios disponveis em sua regio. Qualquer referncia a um produto, programa ou servio IBM no tem como inteno afirmar ou implicar que apenas produtos, programas ou servios IBM possam ser utilizados. Qualquer programa, servio ou produto funcionalmente equivalente que no infrinja os direitos de propriedade intelectual da IBM poder ser utilizado no lugar. de responsabilidade de o usurio avaliar e verificar o funcionamento de qualquer produto, programa ou servio que no seja da IBM. A IBM deve ter aplicativos patenteados ou com patentes pendentes relativos ao assunto em questo neste documento. O fornecimento deste documento no concede qualquer licena a essas patentes. possvel solicitar licenas por escrito atravs de: IBM Director of Licensing, IBM Corporation, North Castle Drive, Armonk, NY 10504-1785 U.S.A. O pargrafo a seguir no aplicvel ao Reino Unido ou a qualquer outro pas onde tais provises sejam inconsistentes com as leis locais: INTERNATIONAL BUSINESS MACHINES CORPORATION FORNECE ESTA PUBLICAO NO ESTADO EM QUE SE ENCONTRA SEM GARANTIA DE QUALQUER TIPO, TANTO EXPRESSA COMO IMPLICADA, INLCUINDO, MAS NO LIMITADA A, AS GARANTIAS IMPLICADAS DE NO INFRAO, MERCABILIDADE OU ADEQUAO PARA UM PROPSITO PARTICULAR. Alguns estados no permitem renncia de garantias expressas ou implicadas em certas transaes, portanto, esta declarao pode no ser aplicvel. Estas informaes podem incluir imprecises tcnicas ou erros tipogrficos. Periodicamente so feitas alteraes s informaes aqui contidas; tais alteraes sero incorporadas nas novas edies desta publicao. A IBM pode fazer melhorias e/ou modificaes em produtos e/ou programas descritos nesta publicao a qualquer momento, sem prvio aviso. Qualquer referncia neste informativo a Web sites no IBM so fornecidos somente por convenincia e de nenhuma maneira serve como um endosso para estes Web sites. Os materiais destes Web sites no fazem parte dos materiais para este produto da IBM e o uso destes Web sites so por sua conta e risco. A IBM no utiliza ou distribui qualquer das informaes fornecidas de modo apropriado sem incorrer qualquer obrigao a voc. Informaes relativas a produtos no IBM foram obtidas de fornecedores desses produtos, de seus anncios publicados ou de outras fontes de publicao. A IBM no testou esses produtos e no pode confirmar a preciso de desempenho, a compatibilidade, ou qualquer outra reclamao relacionada aos produtos que no sejam da IBM. Perguntas sobre os recursos de produtos no IBM devem ser dirigidas aos fornecedores destes produtos. Estas informaes contm exemplos de dados e relatrios utilizados nas operaes dirias do negcio. Para ilustr-las como completamente possveis, os exemplos incluem os nomes dos indivduos, empresas, marcas e produtos. Todos estes nomes so fictcios e qualquer semelhana em relao aos nomes e endereos utilizados por uma empresa real mera coincidncia. LICENA DE DIREITOS AUTORAIS: Estas informaes contm amostras de programas de aplicativos na linguagem fonte, que ilustra tcnicas de programao em vrias plataformas operacionais. permitido copiar, modificar e distribuir estas amostras de programas em qualquer formato sem pagamento para IBM, para os propsitos de desenvolvimento, utilizao, marketing ou distribuio dos programas de aplicativos de acordo com a interface de programao do aplicativo para a plataforma operacional para a qual a amostra do programa foi escrita. Estes exemplos no foram totalmente testados sob quaisquer condies. A IBM, portanto, no pode garantir ou implicar confiana, funcionamento ou funo destes programas.
13
IBM, the IBM logo, andoibm.com IBM trademarks or marcas comerciais ou marcas IBM, logotipo are e ibm.com so registered trademarks of International Business Machines Corporation in the United States, other countries, or registradas da International Business Machines Corporation nos Estados both. These and other IBM trademarked terms are marked on their first occurrence in Unidos, em outros pases ou em ambos. Se a primeira ocorrncia or this information with the appropriate symbol ( or ), indicating US registered desses common law trademarks owned by IBMmarcas time this information was published. Such e de outros termos de at the registradas da IBM for marcada com um trademarks may also be registered registrada ( ou ), esses smbolos indicam marcas smbolo de marca or common law trademarks in other countries. A current list of IBM trademarks is available on the Web at registradas ou de direito consuetudinrio nos Estados Unidos de propriedade da IBM no momento da http://www.ibm.com/legal/copytrade.shtml
Redbooks
The following terms are consuetudinriothe International Business Machines Corporation in the United States, direito trademarks of em outros pases. Uma lista atual de marcas registradas da IBM est disponvel other countries, or both:
na Web no item: http://www.ibm.com/legal/copytrade.shtml The following terms are trademarks of other companies: IBM Redbooks
publicao destas informaes. Tais marcas registradas tambm podem ser marcas registradas ou de
Intel, Intel logo, Intel Inside logo, and Intel Centrino logo are trademarks or registered trademarks of Intel Corporation or its Os termos a seguir so marcas registradas de outras empresas: subsidiaries in the United States and other countries. Linux is a trademark of Linus Torvalds in the United States, other countries, or both.
IBM Redguide
Redguide Redbooks registradas da International Business Machines Corporation nos Os termos seguintes so marcas (logo) Estados Unidos, em outros pases ou em ambos:
Other company, product, or service names may be trademarks or service marks of others.
Redbooks Redbooks (logo) Intel, o logotipo Intel, o logotipo Intel Inside e o logotipo Intel Centrino so marcas comerciais ou marcas registradas da Intel Corporation ou de suas subsidirias nos Estados Unidos e em outros pases. Linux uma marca registrada de Linus Torvalds nos Estados Unidos, em outros pases ou em ambos. Outros nomes de empresas, produtos ou servios podem ser marcas registradas ou marcas de servio de terceiros.
14
14
The Netezza Data Appliance Architecture: A Platform for High Performance Data Warehousing and Analytics Arquitetura do Appliance de Dados Netezza: Uma Plataforma para Anlises e Data Warehousing de Alto Desempenho