Escolar Documentos
Profissional Documentos
Cultura Documentos
Core Infrastructure
Big Data e machine
learning na nuvem
Tópicos
Plataforma de Big Data
do Google Cloud
Teste e laboratório
Os serviços de Big Data do Google Cloud são totalmente
gerenciados e escalonáveis
O Apache Hadoop é um framework de código aberto para Big Data. Ele é baseado
no modelo de programação MapReduce, que o Google criou e publicou. O modelo
MapReduce, em definição simples, significa que essa função específica
(tradicionalmente chamada de função "map") é executada em paralelo em um
conjunto de dados grande, e outra função (tradicionalmente chamada de função
"reduce") gera um conjunto de resultado final baseado em todos esses resultados
intermediários. O termo "Hadoop" costuma ser usado informalmente para abranger
o próprio Apache Hadoop e os projetos relacionados, como Apache Spark, Apache
Pig e Apache Hive.
Depois que seus dados estiverem em um cluster, você poderá usar o Spark e o Spark
SQL para fazer extração de dados. Também poderá usar o MLlib, que são bibliotecas
de machine learning do Apache Spark, para detectar padrões por machine learning.
O Cloud Dataflow oferece pipelines de dados gerenciados
Gerenciamento de recursos
O Cloud Dataflow automatiza totalmente o gerenciamento dos recursos de
processamento necessários. Não é mais preciso ativar as instâncias manualmente.
Sob demanda
Todos os recursos são disponibilizados sob demanda, permitindo escalonar para
atender às necessidades da empresa. Não é preciso comprar instâncias de
computação.
Escalonamento automático
O escalonamento automático horizontal dos recursos do worker atende a requisitos
de excelência de capacidade e tem ótima relação custo/desempenho.
Código aberto
Os desenvolvedores que quiserem ampliar o modelo de programação do Dataflow
podem bifurcar ou enviar solicitações pull no SDK do Cloud Dataflow baseado em
Java. Os pipelines do Dataflow também podem ser executados em ambientes de
execução alternativos, como o Spark e o Flink.
Monitoramento
Integrado ao Console do Google Cloud Platform, o Cloud Dataflow disponibiliza
estatísticas como capacidade de pipeline e tempo até a conversão, bem como
inspeções consolidadas de registros do worker, tudo isso quase em tempo real.
Integrado
Integrado ao Cloud Storage, Cloud Pub/Sub, Datastore, Cloud Bigtable e BigQuery
para processamento de dados preciso. Além disso, pode ser expandido para
interagir com outras fontes e coletores, como o Apache Kafka e o HDFS.
Origem
Finalizado
3 min 35 s
ToLines
Finalizado
52 s
BigQuery NeedsHelp
Finalizado
22 s
IsPopular
Finalizado
34 s
Sum.PerKey Sum.PerKey2
Finalizado Finalizado
11 s 2 min 31 s
Transformações
ToView
Finalizado
12 s
CompositeScore
Finalizado
21 s
Top_1000
Finalizado
3s
Coletor ToString
Finalizado
0s
TextIO.Write
Finalizado
1s
Cloud Storage
O Dataflow é aplicado em uma série de casos de uso. Por exemplo, ele serve como
uma ferramenta de ETL de uso geral.
Seu caso de uso como mecanismo de análise de dados é útil em tarefas como:
detecção de fraude em serviços financeiros, análise de IoT em manufatura, saúde e
logística, e análise de sequência de cliques, ponto de venda e segmentação no
varejo.
Além disso, como os pipelines que vimos podem orquestrar vários serviços, até
mesmo serviços externos, eles podem ser usados em aplicativos que funcionem em
tempo real, como para a personalização de experiências do usuário em jogos.
O BigQuery é um armazenamento de dados
totalmente gerenciado
● Oferece análise interativa quase em tempo
real de grandes conjuntos de dados
(centenas de TB).
● Consulta usando sintaxe SQL (SQL 2011)
● A manutenção de clusters não é necessária.
Se, em vez de um pipeline dinâmico, você quiser fazer consultas SQL ad-hoc em um
conjunto de dados grande, essa é a finalidade do BigQuery. O BigQuery é o
armazenamento de dados de análise do Google. Ele é de baixo custo, totalmente
gerenciado e em escala de petabytes.
Recursos do BigQuery:
Segurança e permissões
Você tem controle completo sobre quem acessa os dados armazenados no
BigQuery. Os conjuntos de dados compartilhados não afetam o custo nem o
desempenho (os usuários com quem você compartilha pagam pelas próprias
consultas).
Controles de custo
O BigQuery oferece mecanismos de controle de custo que permitem limitar os
custos diários com o valor que você escolher. Para mais informações, acesse
Controles de custo.
Alta disponibilidade
A replicação transparente de dados em várias regiões geográficas significa que seus
dados estão disponíveis e são duráveis mesmo no caso de modos de falha extrema.
Totalmente integrado
Além das consultas SQL, você pode ler e gravar facilmente dados no BigQuery pelo
Cloud Dataflow, Spark e Hadoop.
Recursos do Pub/Sub:
Altamente escalonável
Qualquer cliente pode enviar até 10.000 mensagens por segundo, por padrão. Caso
solicite, poderá enviar milhões por segundo e muito mais.
Criptografia
Com a criptografia, todos os dados de mensagens em trânsito e em repouso ficam
seguros e protegidos.
Armazenamento replicado
Desenvolvido para garantir a entrega pelo menos uma vez ao armazenar cada
mensagem em vários servidores em várias zonas.
Fila de mensagens
Crie uma fila de mensagens altamente escalonável usando um tópico e uma
assinatura para permitir um padrão de comunicação entre duas pessoas.
Distribuição de dados
Publique mensagens em um tópico uma vez, e vários assinantes receberão cópias
para terem compatibilidade na comunicação de um para muitos ou de muitos para
muitos.
API REST
Interface simples e sem estado usando mensagens JSON com bibliotecas de API em
muitas linguagens de programação.
Por que usar o Cloud Pub/Sub?
O Cloud Datalab permite usar notebooks Jupyter para analisar e visualizar dados no
Google Cloud Platform. Ele é executado em uma máquina virtual do Compute
Engine. Para começar, especifique o tipo de máquina virtual que você quer e em qual
região do GCP ela deve ser executada. Quando ele é iniciado, apresenta um
ambiente Python interativo que está pronto para uso. Além disso, ele orquestra
vários serviços do GCP automaticamente para que você possa se concentrar em
analisar seus dados. Você só paga pelos recursos que usa. Não há cobrança
adicional pelo próprio Datalab.
Integrado
O Cloud Datalab lida com autenticação e computação em nuvem prontas e é
integrado a BigQuery, Compute Engine e Cloud Storage.
Suporte a várias linguagens
O Cloud Datalab é compatível com Python, SQL e JavaScript (para funções definidas
pelo usuário do BigQuery).
Formato de notebook
O Cloud Datalab é uma ferramenta que combina código, documentação, resultados
e visualizações em um formato intuitivo de notebook.
Local de trabalho
Controle de origem baseado em Git de notebooks com a opção de sincronizar com
repositórios de código-fonte que não são do Google, como GitHub e Bitbucket.
Código aberto
Desenvolvedores que queiram ampliar o Cloud Datalab podem bifurcar e/ou enviar
solicitações pull no projeto hospedado no GitHub.
Implantação personalizada
Determine requisitos mínimos de VM, host de rede e muito mais.
Suporte a IPython
O Cloud Datalab é baseado no Jupyter (anteriormente conhecido como IPython),
portanto é possível usar uma grande quantidade de pacotes já existentes em
estatísticas, aprendizado de máquina etc. Aprenda usando notebooks publicados e
troque dicas com uma comunidade IPython ativa.
Por que usar o Cloud Datalab?
Quando estiver tudo pronto, você pode visualizar seus dados com o Google Charts
ou o matplotlib. Além disso, como há uma comunidade Python ativa e interativa,
você pode aprender com os notebooks publicados. Há muitos pacotes existentes
para estatísticas, machine learning e assim por diante.
Você pode anexar uma GPU a uma instância do Cloud Datalab para processamento
mais rápido. Até o momento, esse recurso estava na versão Beta, o que significa que
nenhum SLA está disponível e que o recurso pode ser alterado de forma
incompatível com versões anteriores.
Tópicos
Plataforma de Big Data
do Google Cloud
Teste e laboratório
APIs de machine learning permitem que os aplicativos vejam,
escutem e compreendam
Pesquisa
Coisas
“Ok Google”
Aplicativos de grande porte do Google usam machine learning, entre eles, YouTube,
Fotos, o aplicativo móvel do Google e o Google Tradutor. A plataforma de machine
learning do Google está disponível como um serviço de nuvem para que você possa
adicionar recursos inovadores a seus próprios aplicativos.
Plataforma de machine learning do Cloud
Vamos supor que você queira um serviço mais gerenciado. O Google Cloud Machine
Learning Engine permite criar facilmente modelos de machine learning que
funcionam em qualquer tipo de dado, de qualquer tamanho. Ele pode realizar
treinamento em grande escala de qualquer modelo do TensorFlow em um cluster
gerenciado.
Por fim, vamos supor que você queira adicionar vários recursos de machine learning
aos aplicativos, sem precisar se preocupar com os detalhes de como foram
disponibilizados. O Google Cloud também oferece uma série de APIs de machine
learning ideais para fins específicos, e vamos falar sobre elas em breve.
Por que usar a plataforma de machine learning do Cloud?
Análise de texto
Recomendação
Detecção de anomalias
Com base em dados estruturados, você pode usar machine learning para vários
tipos de tarefas de classificação e regressão, como análise de rotatividade de
clientes, diagnóstico de produtos e previsões. Ele pode ser o cerne de um
mecanismo de recomendação, para personalização de conteúdo e vendas cruzadas
e upsell. Você pode usar machine learning para detectar anomalias, como para
detecção de fraude, diagnóstico de sensor ou métricas de registro.
Com base em dados não estruturados, você pode usar machine learning para
análise de imagens, como identificação de remessa danificada, identificação de
estilos e sinalização de conteúdo. Você também pode fazer análise de texto, como
análise de registros de call centers, identificação de idioma, classificação de tópicos
e análise de sentimento.
Em muitas dessas aplicações inovadoras para machine learning, vários desses tipos
de aplicações são combinados. E se, sempre que um de seus clientes publicasse
elogios a um de seus produtos nas mídias sociais, seu aplicativo pudesse enviar
automaticamente a ele um desconto personalizado em outro produto que
provavelmente ele vai gostar? A plataforma de machine learning do Google Cloud
permite que você use esse tipo de interatividade.
API Cloud Vision
Ela faz análise sintática, divide frases inseridas pelos usuários em tokens, identifica
substantivos, verbos, adjetivos e outras classes gramaticais e percebe as relações
entre as palavras.
Esses recursos estão presentes em vários idiomas, como inglês, espanhol e japonês.
Análise sintática
● extraia tokens e frases, identifique classes gramaticais e crie árvores de
análise de dependência para cada frase.
Reconhecimento de entidade
● Identifique entidades e rotule por tipos como pessoa, organização, local,
● eventos, produtos e mídia.
Análise de sentimento
● Compreenda o sentimento geral expressado em um bloco de texto.
Vários idiomas
● Você pode analisar o texto facilmente em vários idiomas, inclusive em inglês,
espanhol e japonês.
API REST integrada
● Acesse por API REST. O texto pode ser carregado na solicitação ou integrado
ao Cloud Storage.
A API Cloud Translation tem uma interface programática simples para traduzir uma
string arbitrária para qualquer idioma compatível. A API Translation é altamente
responsiva. Assim, ao integrar sites e aplicativos a ela, você consegue traduções
rápidas e dinâmicas de textos de um idioma de origem para um de chegada. Por
exemplo, do francês para o inglês. A detecção de idioma também é disponibilizada
para casos em que o idioma de origem é desconhecido.
E permite a anotação de formatos de vídeo comuns, como MOV, MPEG4, MP4 e AVI.
Tópicos
Plataforma de Big Data
do Google Cloud
Teste e laboratório
Pergunta nº 1
Quando usar o Cloud Dataproc?
Pergunta nº 1
Quando usar o Cloud Dataproc?
Você pode usá-lo para migrar trabalhos locais do Hadoop para a nuvem. Também
pode usá-lo para extração e análise de dados baseados na nuvem.
Pergunta nº 2
Descreva dois casos de uso para o Cloud Dataflow.
Pergunta nº 2
Descreva dois casos de uso para o Cloud Dataflow.
1. ETL
2. Orquestração
Pergunta nº 3
Descreva três casos de uso para a plataforma
de machine learning do Google.
Pergunta nº 3
Descreva três casos de uso para a plataforma
de machine learning do Google.
1. Detecção de fraudes
2. Análise de sentimento
3. Personalização de conteúdo
Laboratório
Neste laboratório,
você carregará dados
de registro do servidor
no BigQuery e realizará
uma consulta SQL nele.
Objetivos do laboratório
● Carregar dados do Cloud
Storage no BigQuery
1. Faça login na implantação do Qwiklabs (site) em que você fez o laboratório na aula.
2. Clique em "Meu aprendizado" no menu à esquerda para abrir a página com a lista
de aulas
3. a) Se a aula ainda não tiver acabado, você verá o card "Em andamento". Clique nele.
b) Se a aula tiver acabado, você verá a aula em "Cursos e Quests Concluídos".
Clique nela.
4. Clique no link em "Pesquisa" no painel "Visão geral" no lado direito para abrir
o formulário de pesquisa.
5. Responda a todas as perguntas e envie.
Você pode preencher a pesquisa durante ou após a aula. Você poderá revisar
suas respostas se fizer isso antes de completar todas as perguntas.