Escolar Documentos
Profissional Documentos
Cultura Documentos
Guia estratégico de
prova de conceito do
Azure Synapse Analytics
Guia estratégico de prova de conceito do Azure Synapse Analytics 2
03 / 22
22
Identifique os recursos da POC
Defina um cronograma para a POC
23 Execute o projeto de POC
Resumo executivo 24 Avaliar e apresentar os resultados
24 Próximas etapas
24 Referências
04 /
Data Warehousing com pool 25 /
de SQL dedicado
4 Preparação para a prova de conceito
Análise de big data com o pool
4 Identifique patrocinadores e potenciais blockers do Apache Spark
5 Definição do cronograma 25 Preparação para a prova de conceito
6 riação de uma arquitetura com escopo de prova de conceito
C 27 Definir as metas para a POC
de alto nível 30 Planeje o projeto de POC
6 Considerações de migração 33 Avalie o conjunto de dados da POC
7 Identificação dos pontos problemáticos atuais 33 Crie uma arquitetura de alto nível para a sua POC
7 Definição das metas 34 Identifique os recursos da POC
8 Criação de um plano de teste 35 Defina o cronograma da POC
9 Identificar e validar o conjunto de dados de prova de conceito 35 Execute o projeto de POC
10 Montar sua equipe 37 Avaliar e apresentar os resultados
11 Colocando em prática 37 Próximas etapas
11 Configuração 38 References
12 Carregamento de dados
13 Consulta
15
15
Testes de valor agregado
Interpretação dos resultados
39 /
Conclusão
16 /
Exploração de data lake com pool de
SQL sem servidor
16 Preparação para a prova de conceito
18 Definir as metas para a POC
20 Planeje o projeto de POC
21 Avalie o conjunto de dados da POC
21 Crie uma arquitetura de alto nível para a sua POC
Guia estratégico de prova de conceito do Azure Synapse Analytics 3
Resumo executivo
Seja uma migração de data warehouse corporativo, uma redefinição de plataformas de big
data ou uma implementação de áreas novas; cada projeto normalmente começa com uma
prova de conceito.
Este guia estratégico de prova de conceito fornece uma metodologia de alto nível para planejar,
preparar e rodar um projeto de prova de conceito eficaz. Uma prova de conceito eficaz valida
o fato de que certos conceitos têm o potencial para aplicação de produção prática. O objetivo
geral de uma prova de conceito é validar possíveis soluções para problemas técnicos, como
a forma pela qual os sistemas podem ser integrados ou como os resultados podem ser
alcançados por meio de uma configuração específica.
Este guia estratégico ajudará você a avaliar o uso do Azure Synapse Analytics para a migração
de um workload existente. Ele foi criado com os seguintes leitores em mente:
• Especialistas técnicos que planejam um projeto interno pessoal de prova de conceito
do Azure Synapse
• Proprietários de empresas que farão parte da execução ou avaliação de um projeto
de prova de conceito do Azure Synapse
• Qualquer pessoa que procure saber mais sobre projetos de prova de conceito de data
warehouse
Vamos começar.
Guia estratégico de prova de conceito do Azure Synapse Analytics 4
Por fim, assista aos nossos vídeos e verifique casos de uso e novos comunicados sobre
o Azure Synapse.
É hora de:
• Identificar as restrições ou diretrizes da organização sobre a movimentação de dados para
a nuvem.
• Identificar o patrocínio executivo e de negócios para um projeto de data warehouse
baseado em nuvem.
• Verificar se o workload é adequado ao Azure Synapse. Leia mais aqui.
Guia estratégico de prova de conceito do Azure Synapse Analytics 5
Definição do cronograma
Uma prova de conceito é um exercício com escopo, temporário, com metas específicas
mensuráveis e métricas de sucesso. O ideal é que se baseie na realidade dos negócios
para que os resultados sejam significativos.
Após determinar que não há bloqueadores imediatos e definir o cronograma, vamos passar
para o escopo de uma arquitetura.
Guia estratégico de prova de conceito do Azure Synapse Analytics 6
Considerações de migração
Se você estiver migrando de um sistema de data warehouse herdado para o Azure Synapse,
considere as seguintes perguntas:
• Você está migrando e deseja fazer o mínimo possível de alterações no extrato, na
transformação, no processo de carga (ETL) e no consumo de data warehouse existentes?
• Você está migrando, mas deseja fazer várias melhorias ao longo do caminho?
• Você está criando um ambiente de data warehouse totalmente novo (áreas novas)?
Lembre-se de que uma prova de conceito deve ser um esforço breve e focado para provar
ou testar rapidamente um conjunto limitado de conceitos. Se você tem uma longa lista de
itens para provar, talvez queira mais do que uma prova de conceito com portões entre eles,
em que determina se precisa do próximo.
Refine testes adicionando vários cenários de teste para esclarecer eventuais perguntas
da estrutura de tabela.
A execução eficaz de prova de conceito costuma ser definida por um bom planejamento.
Verifique se todos os stakeholders concordam com um plano de teste escrito que vincula
cada objetivo de prova de conceito a um conjunto de casos de teste e medições de sucesso
declarados de forma clara.
• Lembre-se de que talvez você queira testar mais de uma opção de distribuição ou opção
de indexação para determinadas tabelas.
• Verifique com os empresários se há bloqueadores para migrar esses dados para a nuvem.
• Identifique preocupações de segurança ou privacidade.
Já que você está avaliando uma nova plataforma, recomendamos interagir com um consultor
especialista para ajudar na prova de conceito. A comunidade de parceiros da Microsoft tem
disponibilidade global de consultores especializados, prontos para demonstrar os recursos
e a performance do Azure Synapse Analytics.
Agora que você está totalmente preparado, é hora de colocar a prova de conceito em prática.
Guia estratégico de prova de conceito do Azure Synapse Analytics 11
Colocando em prática
É importante lembrar-se de:
• Implementar o projeto de prova de conceito com a disciplina e o rigor de qualquer projeto
de produção.
• Executá-lo de acordo com o plano.
• Ter um processo de solicitação de mudança no local para evitar a expansão e mudanças
da prova de conceito além do controle.
Configuração
Antes de começar os testes, você precisa configurar o ambiente de teste e carregar os dados:
Carregamento Testes de
Configuração Consulta
de dados valor agregado
Configurar uma prova de conceito no Azure Synapse é tão fácil quanto clicar em alguns botões.
Ao configurar o pool de SQL, você pode definir as Unidades de Data Warehouse (DWUs).
As DWUs variam de 100 a 30.000 e definem as características de performance do pool de SQL.
Esse valor pode ser alterado a qualquer momento pela escala do pool de SQL.
Carregamento de dados
Agora que o pool de SQL foi criado, é hora de carregar alguns dados.
Faça o seguinte:
• Se você ainda não tiver feito isso, carregue alguns dados em um blob de Armazenamento
do Azure. Aconselhamos o uso de um blob de armazenamento V2 de uso geral com
armazenamento localmente redundante para uma prova de conceito. Há várias ferramentas
para migrar dados para um blob de Armazenamento do Azure. A maneira mais fácil
é usar o Gerenciador de Armazenamento do Azure e copiar arquivos no contêiner de
armazenamento.
• Agora que você tem dados no contêiner de armazenamento do Azure, pode carregá-los
no pool de SQL. O Azure Synapse oferece suporte a dois métodos de carregamento T-SQL:
PolyBase e instrução COPY.
Para carregar dados, você precisa se conectar ao pool de SQL do Azure Synapse por meio
de uma ferramenta, como SSMS. Após conectar-se ao banco de dados, você poderá usar
PolyBase ou a instrução COPY INTO.
Ao carregar dados pela primeira vez em pools SQL do Azure Synapse, uma dúvida comum
é quanto à distribuição e ao índice a serem escolhidos. Embora pools de SQL do Azure Synapse
ofereçam suporte a ambos, é uma prática recomendada usar os padrões de distribuição
alternada e o índice columnstore clusterizado. A partir daqui, você pode ajustar seu ambiente,
assunto que será abordado em uma seção posterior.
Consulta
O principal objetivo da verificação de um data warehouse é a obtenção de análises a partir dos
dados. Então, vejamos como aproveitar ao máximo o banco de dados. A maioria das provas
de conceitos começam com um pequeno número de consultas representativas em relação
ao data warehouse, primeiro em sequência e, depois, simultaneamente. Isso deve ser definido
no plano de teste.
A consulta SQL a seguir usa um rótulo de consulta para rastrear a primeira consulta em
Exibições de Gerenciamento Dinâmico (DMV). Depois, ela usa sys.dm_pdw_exec_requests
para determinar a duração da execução da consulta:
Dica útil: usar um rótulo de consulta é uma ótima maneira de rastrear as consultas.
/* Use a sintaxe OPTION(LABEL = ‘’) para adicionar um rótulo de consulta para rastrear
a consulta em DMVs */
SELECT TOP (1000) * FROM [dbo].[Date] OPTION (LABEL = ‘Test1’)
/* Use sys.dm_pdw_exec_requests para determinar a duração da execução da consulta (ms) */
Selecione Total_elapsed_time como [Elapsed_Time_ms],
[label]
FROM sys.dm_pdw_exec_requests
ONDE [label] = ‘Test1’
№ de
Duração Duração Duração
Simultaneidade consultas DWU
mínima (s) máxima (s) média (s)
executadas
50 5.000 5.000 3 6 4
Vejamos um exemplo:
Duração USD/hr
Teste DWU Custo do teste
do teste para DWU
Teste 1 10 min 1.000 USD 12/hr USD 2
Teste 1 30 min 500 USD 6/hr USD 3
Resumindo, ao concluir todos os testes de prova de conceito, a próxima etapa será avaliar
os resultados:
• Comece avaliando se as metas de prova de conceito foram atendidas e os resultados
desejados coletados.
• Anote onde são necessários testes adicionais ou onde problemas adicionais foram levantados.
Guia estratégico de prova de conceito do Azure Synapse Analytics 16
Se você precisar explorar dados no data lake, obter insights a partir dele ou otimizar seu
pipeline de transformação de dados existente, poderá se beneficiar do uso do recurso
pool de SQL sem servidor. Ele é adequado para os seguintes cenários:
• Descoberta e exploração básica – argumentar rapidamente sobre os dados em vários
formatos (Parquet, CSV, JSON) em seu data lake, para que você possa planejar como
extrair insights dele.
• Data warehouse lógico – forneça uma abstração relacional sobre dados brutos ou díspares
sem realocar e transformar dados, permitindo uma visão sempre atualizada deles.
• Transformação de dados – maneira simples, escalável e eficiente de transformar dados
no lake usando T-SQL, para que possa ser alimentado com BI e outras ferramentas, ou
carregado em um armazenamento de dados relacional (pools de SQL dedicados em
Sinapse Azure, banco de dados Azure SQL, etc.).
Em apoio aos seus cenários de negócios, um projeto POC de pool de SQL sem servidor
identificará seus principais objetivos e drivers de negócios com os quais um pool de
SQL sem servidor está alinhado para oferecer suporte, além de testar os principais recursos
e coletar métricas para apoiar suas decisões de implementação.
Antes de começar a planejar seu projeto POC de pool de SQL sem servidor, faça o seguinte:
• Identifique as restrições ou diretrizes da organização sobre a migração de dados para
a nuvem.
• Identifique o patrocínio executivo/empresarial de um projeto de plataforma de big data
e soluções analíticas garanta que haja suporte para serem migrados para a nuvem.
• Identifique a disponibilidade de usuários de negócios e SME técnicos para oferecer suporte
a você e fornecer detalhes durante a execução da POC.
A essa altura, você já deve ter determinado que não há bloqueadores imediatos e poderá
começar a se preparar para a POC. Se você não conhece o pool de SQL sem servidor do
Azure Synapse Analytics, consulte a documentação do pool de SQL sem servidor, que
fornece uma visão geral dos recursos e benefícios.
Se você não conhece os pools de SQL sem servidor no Azure Synapse, solicite os
seguintes materiais de aprendizagem:
Criar soluções de análise de dados usando pools de SQL sem servidor do Azure Synapse
Guia estratégico de prova de conceito do Azure Synapse Analytics 18
Tenha em mente que uma POC deve ser um esforço breve e focado para provar ou testar
rapidamente um conjunto limitado de conceitos e recursos – o que é representativo do
workload global. Se você tem uma longa lista de itens para provar, talvez queira mais do
que uma POC com portões entre elas, em que você determina se precisa da próxima POC.
Consideradas as diferentes funções profissionais que podem fazer uso de um pool de SQL sem
servidor e os vários cenários onde ele pode ser usado, você pode optar por planejar e executar
várias POCs, incluindo pool de SQL sem servidor; uma concentrada nos cenários do cientista
de dados, como a descoberta e a exploração de dados em vários formatos, outra voltada para
as necessidades da engenharia de dados, como a transformação de dados, e outra que explore
a criação de um data warehouse lógico.
Ao considerar a POC, tenha em mente algumas das seguintes perguntas para ajudar
a moldar seus objetivos:
• Você está migrando de uma plataforma de soluções analíticas e big data existente (seja
na infraestrutura local ou na nuvem)?
• Você está migrando e deseja fazer o menor número possível de alterações na ingestão
e no processamento de dados existentes?
• Você está migrando, mas deseja fazer várias melhorias ao longo do caminho?
• Você está desenvolvendo uma plataforma de soluções analíticas e big data totalmente
nova (nova oportunidade)?
• Quais são seus problemas atuais, se houver – como escalabilidade, performance,
flexibilidade, etc.?
• Que novas necessidades de negócios você precisa apoiar?
Guia estratégico de prova de conceito do Azure Synapse Analytics 19
Verifique com os empresários se há bloqueadores para migrar esses dados para a nuvem.
Identifique todas as preocupações de segurança ou privacidade ou necessidades de
ofuscação de dados que precisam ser atendidas antes de migrar dados para a nuvem.
Se você já estiver usando o Azure, identifique todos os recursos já disponíveis (Azure Active
Directory, ExpressRoute, etc.) que possam ser usados durante a POC. Também identifique
as regiões do Azure utilizadas pela sua organização. Agora é um ótimo momento para
identificar a taxa de transferência da sua conexão ExpressRoute e verificar com outros usuários
de negócios que sua POC pode consumir parte dessa taxa de transferência sem efeito
adverso nas soluções de produção.
Guia estratégico de prova de conceito do Azure Synapse Analytics 22
Já que você está avaliando uma nova plataforma, recomendamos interagir com um consultor
especialista para ajudar na POC. A comunidade de parceiros da Microsoft tem disponibilidade
global de consultores especializados, prontos para demonstrar os recursos e a performance
do Azure Synapse. Você pode encontrar parceiros locais em Solution Providers Home.
Próximas etapas
Trabalhe com stakeholders técnicos e empresas para planejar a próxima fase do projeto,
seja uma POC de acompanhamento ou a implementação de produção.
Referências
• Pool de SQL sem servidor no Azure Synapse Analytics
• Criar soluções de análise de dados usando pools de SQL sem servidor do Azure Synapse
A essa altura, você já deve ter determinado que não há bloqueadores imediatos e poderá
começar a se preparar para a POC do Spark. Se você não conhece os Pools do Apache
Spark no Azure Synapse Analytics, consulte esta documentação para obter uma visão
geral da arquitetura Spark e saber como ela funciona no Azure Synapse.
Guia estratégico de prova de conceito do Azure Synapse Analytics 26
Entender a diferença entre diferentes conjuntos de APIs do Spark ajudará a decidir o que
funciona melhor para seu cenário, e você poderá escolher um deles para obter melhor
performance ou facilidade de uso ou aproveitar os conjuntos de habilidades já existentes das
suas equipes. Leia Um conto de três APIs do Apache Spark: RDDs vs DataFrames e conjuntos
de dados.
Tenha em mente que uma POC deve ser um esforço breve e focado para provar ou testar
rapidamente um conjunto limitado de conceitos e recursos – o que é representativo do
workload global. Se você tem uma longa lista de itens para provar, talvez queira mais do que
uma POC com portões entre elas, em que você determina se precisa da próxima POC. Para
o exemplo de POC do Spark, você pode ter duas POCs, a primeira concentrada em engenharia
de dados (ingestão e processamento), e a segunda concentrada em desenvolvimento de
modelos de machine learning.
Ao considerar a POC, tenha em mente algumas das seguintes perguntas para ajudar
a moldar seus objetivos:
• Você está migrando de uma plataforma de soluções analíticas e big data existente (seja
na infraestrtura local ou na nuvem)?
• Você está migrando e deseja fazer o mínimo de alterações no processamento de dados
e ingestão existente, por exemplo, se é uma migração de Spark para Spark ou uma
migração do Hadoop/Hive para Spark?
• Você está migrando, mas deseja fazer algumas melhorias extensas durante o processo, por
exemplo, reescrever trabalhos do MapReduce ou do Spark, ou converter código baseado
em RDD herdado para código baseado em Dataframe/conjunto de dados, etc.?
• Você está desenvolvendo uma plataforma de soluções analíticas e big data totalmente
nova (nova oportunidade)?
• Quais são seus problemas atuais, se houver – como escalabilidade, performance,
flexibilidade, etc.?
Guia estratégico de prova de conceito do Azure Synapse Analytics 28
• (Objetivo) Precisamos saber se nossos cientistas de dados existentes podem criar e treinar
modelos de machine learning nesta plataforma
• (Resultado) Testaremos alguns de nossos modelos de machine learning treinando em dados
no Spark ou no pool de SQL e aproveitando diferentes bibliotecas de machine learning.
Isso ajudará a determinar quais modelos de machine learning podem ser migrados para
o novo ambiente
- (Teste) Estes 2 a 3 modelos de machine learning (....) serão testados como parte da POC
- (Teste) Teste bibliotecas de machine learning base fornecidas com o Spark (Spark MLLib),
juntamente com a biblioteca adicional, que pode ser instalada no Spark (como o scikit)
para atender ao requisito.
• (Objetivo) Teremos testado a ingestão de dados e teremos os pontos de dados para
1) calcular o esforço para a nossa migração de dados históricos inicial para o data lake e/ou
pool dedicado e 2) planejar uma abordagem para migrar dados históricos.
• (Resultado) Testaremos e determinaremos a taxa de ingestão de dados alcançável em
nosso ambiente e poderemos determinar se nossa taxa de ingestão de dados é suficiente
para migrar dados históricos durante a janela de tempo disponível.
- (Testar) Teste diferentes abordagens de migração de dados históricos
Transferência de dados de e para o Azure
Casos de uso: Azure Data Box
- (Teste) Identifique a largura de banda alocada do ExpressRoute e se há alguma
configuração de limitação implementada pela equipe de infraestrutura
O que é o Azure ExpressRoute: opções de largura de banda
- (Teste) Teste a taxa de transferência de dados para migração de dados online e offline
Performance e escalabilidade de cópias que podem ser obtidas com o ADF
- (Teste) Teste a transferência de dados do data lake para o pool de SQL usando
ADF, Polybase ou o comando Copy
Estratégias de carregamento de dados para o pool de SQL do Synapse
Dados de carga em massa usando o extrato de COPY
• (Objetivo) Testaremos a taxa de ingestão de dados de carregamento de dados incremental
e teremos os pontos de dados para calcular a janela de tempo de ingestão e processamento
de dados para o data lake e/ou o pool de SQL.
Guia estratégico de prova de conceito do Azure Synapse Analytics 32
Refine seus testes adicionando vários cenários: a flexibilidade do Azure Synapse facilita o teste
em diferentes escalas (número variável de nós de trabalho, tamanho dos nós de trabalho,
como pequeno, médio e grande) para comparar a performance e o comportamento.
Verifique com os empresários se há bloqueadores para migrar esses dados para a nuvem.
Identifique todas as preocupações de segurança ou privacidade ou necessidades de
ofuscação de dados que precisam ser atendidas antes de migrar dados para a nuvem.
Já que você está avaliando uma nova plataforma, recomendamos interagir com um consultor
especialista para ajudar na POC. A comunidade de parceiros da Microsoft tem disponibilidade
global de consultores especializados, prontos para demonstrar os recursos e a performance
do Azure Synapse. Você pode encontrar parceiros locais em Solution Providers Home.
Guia estratégico de prova de conceito do Azure Synapse Analytics 35
Você pode considerar verificar a seção "Escopo da POC do Spark" no Apêndice para obter
mais dicas e truques para melhorar o escopo, além de calcular e definir o cronograma da
POC do Spark.
Próximas etapas
Trabalhe com stakeholders técnicos e partes interessadas de negócios para planejar a próxima
fase do projeto, seja outra POC de acompanhamento ou a migração da produção.
Guia estratégico de prova de conceito do Azure Synapse Analytics 38
Referências
• Escale automaticamente os pools do Azure Synapse Analytics Apache Spark
• Acelere a análise de Big data usando o conector do Apache Spark para Azure Cosmos DB
Conclusão
Os projetos de prova de conceito de dados eficazes começam com um plano bem projetado
e terminam com resultados de teste mensuráveis que podem ser usados para tomar decisões
de negócios com suporte de dados.
Este guia forneceu uma metodologia de alto nível para preparação e execução de uma prova
de conceito a fim de ajudar a usar o Azure Synapse como um data warehouse com pool de
SQL dedicado, um data lake com pool de SQL sem servidor e/ou para análise de big data com
o pool do Apache Spark.
Comece agora
Apêndice
Muitos clientes estão interessados em outras áreas do Azure Synapse. Segue uma tabela
dividida de acordo com tópicos de interesse, contendo informações adicionais e links
para a documentação aplicável.
Tópico de
Azure Synapse
interesse
Provisionamento • O Synapse está no seu locatário do Azure. Ele pode habilitar pontos
e disponibilidade de extremidade privados para que dados sejam sempre privados
regional e dentro de seu locatário.
Tópico de
Azure Synapse
interesse
Segurança de dados:
• Segurança em nível de coluna
• Row-level security
• Máscara de dados dinâmicos
• Segurança em nível de objeto
Segurança avançada:
• Descoberta de dados
• Avaliação de vulnerabilidade
• Proteção avançada contra ameaças
• Auditoria de SQL
Tópico de
Azure Synapse
interesse
Tópico de
Azure Synapse
interesse