PT-BR - GCP Fund Module 8 Big Data and Machine Learning in The Cloud

GCP Fundamentals:
Core Infrastructure
Big Data e machine
learning na nuvem
Tópicos
Plataforma de Big Data
do Google Cloud
Plataforma de machine learning

do Google Cloud
Teste e laboratório
Os serviços de Big Data do Google Cloud são totalmente
gerenciados e escalonáveis
Cloud Cloud BigQuery Cloud Cloud

Dataproc Dataflow Pub/Sub Datalab
Serviço Hadoop Processamento Banco de dados Sistema Exploração
MapReduce, em streaming de análise, de mensagens interativa
Spark, Pig e e em lote, pipelines transmissão de corporativo dos dados
Hive gerenciado unificados e dados a 100.000 escalonável
simplificados linhas por segundo e flexível
As soluções de Big Data do Google Cloud são desenvolvidas para ajudar a

transformar seu negócio e as experiências do usuário com insights significativos de
dados. É uma plataforma integrada sem servidor. "Sem servidor" significa que você
não precisa provisionar instâncias de computação para executar seus trabalhos. Os
serviços são totalmente gerenciados, e você só paga pelos recursos que consome.
A plataforma é "integrada", de modo que os serviços de dados do GCP funcionem
juntos para ajudar a criar soluções personalizadas.
O Cloud Dataproc é um serviço Hadoop gerenciado
● É um jeito rápido, fácil e gerenciado de

executar Hadoop e Spark/Hive/Pig no GCP.
● Crie clusters em 90 segundos ou menos,
em média.
● Dimensione clusters vertical ou
horizontalmente quando os trabalhos
estiverem em execução.
O Apache Hadoop é um framework de código aberto para Big Data. Ele é baseado
no modelo de programação MapReduce, que o Google criou e publicou. O modelo
MapReduce, em definição simples, significa que essa função específica
(tradicionalmente chamada de função "map") é executada em paralelo em um
conjunto de dados grande, e outra função (tradicionalmente chamada de função
"reduce") gera um conjunto de resultado final baseado em todos esses resultados
intermediários. O termo "Hadoop" costuma ser usado informalmente para abranger
o próprio Apache Hadoop e os projetos relacionados, como Apache Spark, Apache
Pig e Apache Hive.
O Cloud Dataproc é uma forma rápida, fácil e gerenciada de executar Hadoop,

Spark, Hive e Pig no Google Cloud Platform. Tudo o que você precisa fazer é solicitar
um cluster do Hadoop. Ele será criado para você em 90 segundos ou menos, com
base em máquinas virtuais do Compute Engine com um número e um tipo que você
pode controlar. Se precisar de mais ou menos capacidade de processamento
enquanto seu cluster está em execução, você poderá escalonar vertical ou
horizontalmente. Você pode usar a configuração padrão para o software Hadoop no
seu cluster ou personalizá-lo. Além disso, é possível monitorar seu cluster usando o
Stackdriver.
Por que usar o Cloud Dataproc?
● Migre facilmente jobs locais do Hadoop

para a nuvem.
● Analise rapidamente dados (como dados
de registro) armazenados no Cloud Storage,
crie um cluster em 90 segundos ou menos,
em média, e exclua-o imediatamente.
● Use o Spark/Spark SQL para realizar
extração e análise de dados com rapidez.
● Use bibliotecas de machine learning
(MLlib, na sigla em inglês) do Spark
para executar algoritmos de classificação.
Executar trabalhos do Hadoop no local exige um investimento em hardware. Por

outro lado, executar esses trabalhos no Cloud Dataproc permite pagar apenas pelos
recursos de hardware durante a vida útil do cliente efêmero que você criou. Você
pode economizar ainda mais usando instâncias preemptivas para processamento
em lote.
Você também pode economizar instruindo o Cloud Dataproc a usar instâncias

preemptivas do Compute Engine para seu processamento em lote. Você precisa
verificar se os seus trabalhos poderão ser reiniciados corretamente se tiverem sido
encerrados para ter uma redução significativa no custo das instâncias. Por
enquanto, instâncias preemptivas são cerca de 80% mais baratas. O custo das
instâncias do Compute Engine não é o único componente de custo de um cluster do
Dataproc, mas é significativo.
Depois que seus dados estiverem em um cluster, você poderá usar o Spark e o Spark
SQL para fazer extração de dados. Também poderá usar o MLlib, que são bibliotecas
de machine learning do Apache Spark, para detectar padrões por machine learning.
O Cloud Dataflow oferece pipelines de dados gerenciados
● Processa dados usando instâncias

do Compute Engine.
○ Os clusters são dimensionados
para você.
○ Escalonamento automatizado,
não é necessário provisionamento
de instância.
● Escreva o código uma vez e tenha lote
e streaming.
○ Modelo de programação baseado
em transformação
O Cloud Dataproc é ótimo quando você tem um conjunto de dados de tamanho

conhecido ou quando você quer gerenciar o tamanho do próprio cluster. Mas e se os
dados aparecerem em tempo real? Ou se tiverem um tamanho ou uma taxa
imprevisíveis? É nesses casos que o Cloud Dataflow é uma escolha particularmente
boa. Ele é um modelo de programação unificado e também um serviço gerenciado,
que permite desenvolver e executar uma grande variedade de padrões de
processamento de dados: ETL, computação em lote e computação contínua. Você
pode usar o Dataflow para criar pipelines de dados, e os mesmos pipelines
funcionam tanto para dados em lote quanto para dados de streaming.
O Dataflow é um modelo de programação unificado e um serviço gerenciado para

desenvolver e executar uma grande variedade de padrões de processamento de
dados, inclusive ETL, computação em lote e computação contínua. O Cloud
Dataflow automatiza tarefas operacionais, como o gerenciamento de recursos e a
otimização do desempenho.
Recursos do Cloud Dataflow:
Gerenciamento de recursos
O Cloud Dataflow automatiza totalmente o gerenciamento dos recursos de
processamento necessários. Não é mais preciso ativar as instâncias manualmente.
Sob demanda
Todos os recursos são disponibilizados sob demanda, permitindo escalonar para
atender às necessidades da empresa. Não é preciso comprar instâncias de
computação.
Programação inteligente de atividades

Particionamento de atividades automatizado e otimizado, capaz de rebalancear
atividades paralisadas. Você não precisa procurar “teclas de atalho” ou
pré-processar seus dados de entrada.
Escalonamento automático
O escalonamento automático horizontal dos recursos do worker atende a requisitos
de excelência de capacidade e tem ótima relação custo/desempenho.
Modelo de programação unificado

A API do Dataflow permite expressar operações do tipo MapReduce, sistemas
robustos de janela de dados e controles de correções específicos, qualquer que seja
a fonte de dados.
Código aberto
Os desenvolvedores que quiserem ampliar o modelo de programação do Dataflow
podem bifurcar ou enviar solicitações pull no SDK do Cloud Dataflow baseado em
Java. Os pipelines do Dataflow também podem ser executados em ambientes de
execução alternativos, como o Spark e o Flink.
Monitoramento
Integrado ao Console do Google Cloud Platform, o Cloud Dataflow disponibiliza
estatísticas como capacidade de pipeline e tempo até a conversão, bem como
inspeções consolidadas de registros do worker, tudo isso quase em tempo real.
Integrado
Integrado ao Cloud Storage, Cloud Pub/Sub, Datastore, Cloud Bigtable e BigQuery
para processamento de dados preciso. Além disso, pode ser expandido para
interagir com outras fontes e coletores, como o Apache Kafka e o HDFS.
Processamento confiável e consistente

O Cloud Dataflow oferece suporte consistente, correto e integrado para execuções
tolerantes a falhas, qualquer que seja o tamanho dos dados ou clusters, os padrões
de processamento ou a complexidade do pipeline.
Os pipelines do Dataflow transmitem dados de uma origem por
transformações
GetJava
Origem
Finalizado
3 min 35 s
ToLines
Finalizado
52 s
BigQuery NeedsHelp
Finalizado
22 s
IsPopular
Finalizado
34 s
Sum.PerKey Sum.PerKey2
Finalizado Finalizado
11 s 2 min 31 s
Transformações
ToView
Finalizado
12 s
CompositeScore
Finalizado
21 s
Top_1000
Finalizado
3s
Coletor ToString
Finalizado
0s
TextIO.Write
Finalizado
1s
Cloud Storage
Neste exemplo, o pipeline do Dataflow lê dados de uma tabela do BigQuery (a

"origem"), processa-os de diversas formas (as "transformações") e grava o resultado
no Cloud Storage (o "coletor"). Algumas das transformações neste exemplo são
operações map e outras são reduce. É possível criar pipelines realmente
expressivos.
Cada etapa do pipeline é escalonada elasticamente. Não há necessidade de iniciar e

gerenciar um cluster. Em vez disso, o serviço disponibiliza todos os recursos sob
demanda. Ele conta com particionamento de atividades automatizado e otimizado,
capaz de rebalancear atividades paralisadas. Assim você não precisa se preocupar
com as "teclas de atalho", ou seja, situações em que partes desproporcionalmente
grandes da entrada são mapeadas no mesmo cluster.
Por que usar o Cloud Dataflow?
● Faça ETL (extrair/transformar/carregar)

de pipelines para mover, filtrar, enriquecer
e modelar dados
● Análise de dados: computação em lote
ou computação contínua usando streaming
● Orquestração: crie pipelines que coordenam
serviços, inclusive serviços externos
● Integra-se com serviços do GCP como
Cloud Storage, Cloud Pub/Sub, BigQuery
e Bigtable.
○ SDKs Java e Python de código aberto
O Dataflow é aplicado em uma série de casos de uso. Por exemplo, ele serve como
uma ferramenta de ETL de uso geral.
Seu caso de uso como mecanismo de análise de dados é útil em tarefas como:
detecção de fraude em serviços financeiros, análise de IoT em manufatura, saúde e
logística, e análise de sequência de cliques, ponto de venda e segmentação no
varejo.
Além disso, como os pipelines que vimos podem orquestrar vários serviços, até
mesmo serviços externos, eles podem ser usados em aplicativos que funcionem em
tempo real, como para a personalização de experiências do usuário em jogos.
O BigQuery é um armazenamento de dados
totalmente gerenciado
● Oferece análise interativa quase em tempo
real de grandes conjuntos de dados
(centenas de TB).
● Consulta usando sintaxe SQL (SQL 2011)
● A manutenção de clusters não é necessária.
Se, em vez de um pipeline dinâmico, você quiser fazer consultas SQL ad-hoc em um
conjunto de dados grande, essa é a finalidade do BigQuery. O BigQuery é o
armazenamento de dados de análise do Google. Ele é de baixo custo, totalmente
gerenciado e em escala de petabytes.
O BigQuery é o armazenamento de dados de análise do Google. Ele é de baixo

custo, totalmente gerenciado e em escala de petabytes. O BigQuery é NoOps: não
há infraestrutura para gerenciar, e você não precisa de um administrador de banco
de dados. Assim, você pode se concentrar na análise de dados para descobrir
insights significativos, usar SQL que já conhece e aproveitar nosso modelo de
pagamento conforme o uso. O BigQuery é uma plataforma avançada de análise de
Big Data usada por todos os tipos de organizações: de startups a empresas da
"Fortune 500".
Recursos do BigQuery:
Ingestão flexível de dados

Carregue seus dados do Cloud Storage ou do Cloud Datastore, ou faça o streaming
deles no BigQuery a 100 mil linhas por segundo para habilitar a análise em tempo
real dos seus dados.
Disponibilidade global
Você tem a opção de armazenar dados do BigQuery em locais na Europa, enquanto
continua a se beneficiar de um serviço totalmente gerenciado, agora com a opção
de controle de dados geográficos, sem as dores de cabeça da manutenção de
cluster de nível inferior.
Segurança e permissões
Você tem controle completo sobre quem acessa os dados armazenados no
BigQuery. Os conjuntos de dados compartilhados não afetam o custo nem o
desempenho (os usuários com quem você compartilha pagam pelas próprias
consultas).
Controles de custo
O BigQuery oferece mecanismos de controle de custo que permitem limitar os
custos diários com o valor que você escolher. Para mais informações, acesse
Controles de custo.
Alta disponibilidade
A replicação transparente de dados em várias regiões geográficas significa que seus
dados estão disponíveis e são duráveis mesmo no caso de modos de falha extrema.
Desempenho muito rápido

Execute consultas SQL muito rápidas em uma grande quantidade de terabytes de
dados em segundos, usando a capacidade de processamento da infraestrutura do
Google.
Totalmente integrado
Além das consultas SQL, você pode ler e gravar facilmente dados no BigQuery pelo
Cloud Dataflow, Spark e Hadoop.
Conecte com produtos do Google

Você pode exportar automaticamente seus dados do Google Analytics Premium
para o BigQuery e analisar conjuntos de dados armazenados no Google Cloud
Storage, Google Drive e Google Sheets.
O BigQuery pode realizar as ações Criar, Substituir, Atualizar e Excluir, sujeitas a

algumas limitações e com certos problemas conhecidos.
O BigQuery é executado na infraestrutura de alto desempenho
do Google
● A computação e o armazenamento são
separados por uma rede de terabit.
● Você só paga pelo armazenamento
e pelo processamento usados.
● É aplicado um desconto automático para
armazenamento de dados de longo prazo.
É fácil incluir dados no BigQuery. É possível carregá-los do Cloud Storage ou do

Cloud Datastore, ou transmiti-los no BigQuery a até 100 mil linhas por segundo.
O BigQuery é usado por todos os tipos de organizações: de startups a empresas da

"Fortune 500". Empresas menores preferem as cotas mensais gratuitas do BigQuery.
Empresas maiores preferem o escalonamento integrado e o contrato de nível de
serviço com disponibilidade de 99,9%.
Os preços de armazenamento de longo prazo são um desconto automático para

dados residentes no BigQuery por longos períodos. Quando os dados já estiverem
há 90 dias no BigQuery, o Google reduzirá automaticamente o preço do
armazenamento de US$ 0,02 por GB por mês para US$ 0,01 por GB por mês.
Para mais informações sobre a arquitetura do BigQuery, consulte:

https://cloud.google.com/blog/big-data/2016/01/bigquery-under-the-hood
O Cloud Pub/Sub é um sistema de mensagens confiável
e escalonável
● É compatível com muitos sistemas
de mensagens assíncronas confiáveis
de muitos para muitos.
○ Componentes de aplicativo fazem
assinaturas push/pull para tópicos.
● Inclui suporte para consumidores off-line.
● Com base em tecnologias comprovadas
do Google.
● Integra-se com o Cloud Dataflow para
pipelines de processamento de dados.
O Cloud Pub/Sub é um serviço de mensagens em tempo real totalmente gerenciado

que permite que você envie e receba mensagens entre aplicativos independentes.
Você pode usar a flexibilidade do Cloud Pub/Sub para desacoplar sistemas e
componentes hospedados no Google Cloud Platform ou em outro lugar na Internet.
Ao desenvolver com base na mesma tecnologia que o Google usa, o Cloud Pub/Sub
é designado para disponibilizar entrega "pelo menos uma vez" em uma latência baixa
com escalonabilidade sob demanda para 1 milhão de mensagens por segundo (e
além).
Recursos do Pub/Sub:
Altamente escalonável
Qualquer cliente pode enviar até 10.000 mensagens por segundo, por padrão. Caso
solicite, poderá enviar milhões por segundo e muito mais.
Entrega por push e pull

Os assinantes têm opções de entrega flexíveis, caso estejam acessíveis pela Internet
ou por trás de um firewall.
Criptografia
Com a criptografia, todos os dados de mensagens em trânsito e em repouso ficam
seguros e protegidos.
Armazenamento replicado
Desenvolvido para garantir a entrega pelo menos uma vez ao armazenar cada
mensagem em vários servidores em várias zonas.
Fila de mensagens
Crie uma fila de mensagens altamente escalonável usando um tópico e uma
assinatura para permitir um padrão de comunicação entre duas pessoas.
Confirmação de ponta a ponta

É muito fácil criar aplicativos confiáveis com a confirmação explícita no nível do
aplicativo.
Distribuição de dados
Publique mensagens em um tópico uma vez, e vários assinantes receberão cópias
para terem compatibilidade na comunicação de um para muitos ou de muitos para
muitos.
API REST
Interface simples e sem estado usando mensagens JSON com bibliotecas de API em
muitas linguagens de programação.
Por que usar o Cloud Pub/Sub?
● Elemento básico para ingestão de dados

em Dataflow, Internet das Coisas (IoT, na sigla
em inglês) e análise de marketing
● Base para streaming do Dataflow
● Notificações push para aplicativos baseados
em nuvem
● Conecte aplicativos no Google Cloud Platform
(push/pull entre Compute Engine e App Engine).
O Cloud Pub/Sub se baseia na mesma tecnologia que o Google usa internamente. É

um componente básico importante para aplicativos em que os dados chegam com
taxas altas e imprevisíveis, como sistemas de Internet das Coisas. Se estiver
analisando dados de streaming, o uso do Cloud Dataflow com o Pub/Sub é
recomendado.
O Cloud Datalab permite a exploração interativa dos dados
● Ferramenta interativa para exploração,

transformação, análise e visualização
de dados em grande escala
● Integrado, de código aberto
○ Criado no Jupyter (conhecido
anteriormente como IPython).
Para a ciência de dados, uma metáfora de notebook de laboratório on-line é um

ambiente útil, porque seria natural intercalar análises de dados com comentários
sobre os resultados. Um sistema conhecido de código aberto para hospedar isso é o
Project Jupyter. Ele permite criar e manter notebooks baseados na Web contendo
código Python, e você pode executar esse código interativamente e visualizar os
resultados.
O Cloud Datalab permite usar notebooks Jupyter para analisar e visualizar dados no
Google Cloud Platform. Ele é executado em uma máquina virtual do Compute
Engine. Para começar, especifique o tipo de máquina virtual que você quer e em qual
região do GCP ela deve ser executada. Quando ele é iniciado, apresenta um
ambiente Python interativo que está pronto para uso. Além disso, ele orquestra
vários serviços do GCP automaticamente para que você possa se concentrar em
analisar seus dados. Você só paga pelos recursos que usa. Não há cobrança
adicional pelo próprio Datalab.
Recursos do Cloud Datalab:
Integrado
O Cloud Datalab lida com autenticação e computação em nuvem prontas e é
integrado a BigQuery, Compute Engine e Cloud Storage.
Suporte a várias linguagens
O Cloud Datalab é compatível com Python, SQL e JavaScript (para funções definidas
pelo usuário do BigQuery).
Formato de notebook
O Cloud Datalab é uma ferramenta que combina código, documentação, resultados
e visualizações em um formato intuitivo de notebook.
Preços por uso

Pague apenas pelos recursos de nuvem que você usa: o aplicativo App Engine, o
BigQuery e qualquer recurso adicional que você decida usar, como o Cloud Storage.
Visualização interativa de dados

Use o Google Charting ou o matplotlib para facilitar as visualizações.
Local de trabalho
Controle de origem baseado em Git de notebooks com a opção de sincronizar com
repositórios de código-fonte que não são do Google, como GitHub e Bitbucket.
Código aberto
Desenvolvedores que queiram ampliar o Cloud Datalab podem bifurcar e/ou enviar
solicitações pull no projeto hospedado no GitHub.
Implantação personalizada
Determine requisitos mínimos de VM, host de rede e muito mais.
Suporte a IPython
O Cloud Datalab é baseado no Jupyter (anteriormente conhecido como IPython),
portanto é possível usar uma grande quantidade de pacotes já existentes em
estatísticas, aprendizado de máquina etc. Aprenda usando notebooks publicados e
troque dicas com uma comunidade IPython ativa.
Por que usar o Cloud Datalab?
● Crie e gerencie código, documentação,

resultados e visualizações em um formato
intuitivo de notebook.
○ Use o Google Charting ou o matplotlib
para facilitar as visualizações.
● Analise dados no BigQuery, Compute
Engine e Cloud Storage usando Python,
SQL e JavaScript.
● Implante facilmente modelos no BigQuery.
O Cloud Datalab é integrado com BigQuery, Compute Engine e Cloud Storage,

portanto, acessar os dados não gera problemas de autenticação.
Quando estiver tudo pronto, você pode visualizar seus dados com o Google Charts
ou o matplotlib. Além disso, como há uma comunidade Python ativa e interativa,
você pode aprender com os notebooks publicados. Há muitos pacotes existentes
para estatísticas, machine learning e assim por diante.
Você pode anexar uma GPU a uma instância do Cloud Datalab para processamento
mais rápido. Até o momento, esse recurso estava na versão Beta, o que significa que
nenhum SLA está disponível e que o recurso pode ser alterado de forma
incompatível com versões anteriores.
Tópicos
do Google Cloud

do Google Cloud
APIs de machine learning permitem que os aplicativos vejam,
escutem e compreendam
Pesquisa
Coisas
“Ok Google”
O machine learning é um ramo do campo da inteligência artificial. É uma forma de

resolver problemas sem programar explicitamente a solução. Em vez disso, os
programadores humanos criam sistemas aprimorados com o tempo, por meio da
exposição repetida a dados de amostra, que chamamos de "dados de treinamento".
Aplicativos de grande porte do Google usam machine learning, entre eles, YouTube,
Fotos, o aplicativo móvel do Google e o Google Tradutor. A plataforma de machine
learning do Google está disponível como um serviço de nuvem para que você possa
adicionar recursos inovadores a seus próprios aplicativos.
Plataforma de machine learning do Cloud
Ferramenta de código aberto para desenvolver e executar modelos

de redes neurais
● Amplo suporte a plataformas: CPU ou GPU, aplicativos móveis,

servidor ou nuvem
Serviço de machine learning totalmente gerenciado
● Experiência conhecida para o desenvolvedor baseada em

notebooks
● Otimizado para a infraestrutura do Google, integra-se ao
Cloud ML BigQuery e ao Cloud Storage
Modelos pré-treinados de machine learning desenvolvidos

pelo Google
● Speech: transmite resultados em tempo real, detecta 80 idiomas

APIs de machine learning ● Vision: identifica objetos, monumentos, texto e conteúdo
● Translate: tradução de idiomas, inclusive detecção
● Natural Language: estrutura, significado do texto
A plataforma de machine learning do Cloud oferece serviços modernos de machine

learning, com modelos pré-treinados e uma plataforma para gerar seus próprios
modelos personalizados. Assim como ocorre com outros produtos do GCP, há uma
série de serviços que vão do altamente generalizado ao pré-personalizado.
O TensorFlow é uma biblioteca de software de código aberto ideal para aplicativos

de machine learning, como redes neurais. Ele foi desenvolvido pelo Google Brain
para uso interno do Google, e seu código foi aberto para que todos pudessem se
beneficiar. Você pode executar o TensorFlow sempre que quiser, mas o GCP é o
ambiente ideal para ele, porque os modelos de machine learning precisam de muitos
recursos de computação sob demanda e muitos dados de treinamento. O
TensorFlow também pode usar as Unidades de Processamento de Tensor (TPU), que
são dispositivos de hardware desenvolvidos para acelerar cargas de trabalho de
machine learning com o TensorFlow. O GCP as disponibiliza na nuvem com
máquinas virtuais do Compute Engine. Cada Cloud TPU oferece até 180 teraflops de
desempenho e, como você só paga pelo que usa, não é necessário investimento
prévio de capital.
Vamos supor que você queira um serviço mais gerenciado. O Google Cloud Machine
Learning Engine permite criar facilmente modelos de machine learning que
funcionam em qualquer tipo de dado, de qualquer tamanho. Ele pode realizar
treinamento em grande escala de qualquer modelo do TensorFlow em um cluster
gerenciado.
Por fim, vamos supor que você queira adicionar vários recursos de machine learning
aos aplicativos, sem precisar se preocupar com os detalhes de como foram
disponibilizados. O Google Cloud também oferece uma série de APIs de machine
learning ideais para fins específicos, e vamos falar sobre elas em breve.
Por que usar a plataforma de machine learning do Cloud?
Para dados Para dados não

estruturados estruturados
Classificação Análise de imagem

e regressão e vídeo
Análise de texto
Recomendação
Detecção de anomalias
A plataforma de machine learning do Cloud é usada para muitas aplicações.

Geralmente, estão em duas categorias, dependendo do tipo de dados em que
trabalham: estruturados ou não estruturados.
Com base em dados estruturados, você pode usar machine learning para vários
tipos de tarefas de classificação e regressão, como análise de rotatividade de
clientes, diagnóstico de produtos e previsões. Ele pode ser o cerne de um
mecanismo de recomendação, para personalização de conteúdo e vendas cruzadas
e upsell. Você pode usar machine learning para detectar anomalias, como para
detecção de fraude, diagnóstico de sensor ou métricas de registro.
Com base em dados não estruturados, você pode usar machine learning para
análise de imagens, como identificação de remessa danificada, identificação de
estilos e sinalização de conteúdo. Você também pode fazer análise de texto, como
análise de registros de call centers, identificação de idioma, classificação de tópicos
e análise de sentimento.
Em muitas dessas aplicações inovadoras para machine learning, vários desses tipos
de aplicações são combinados. E se, sempre que um de seus clientes publicasse
elogios a um de seus produtos nas mídias sociais, seu aplicativo pudesse enviar
automaticamente a ele um desconto personalizado em outro produto que
provavelmente ele vai gostar? A plataforma de machine learning do Google Cloud
permite que você use esse tipo de interatividade.
API Cloud Vision
● Analise imagens com uma API REST simples.

○ Detecção de logotipos, detecção
de rótulos etc.
● Com a API Cloud Vision, é possível:
○ obter insights a partir de imagens;
○ detectar conteúdo inapropriado;
○ analisar sentimentos;
○ extrair texto.
A API Cloud Vision permite que os desenvolvedores entendam o conteúdo de uma

imagem ao encapsular modelos avançados de machine learning em uma API REST
fácil de usar. Ela classifica rapidamente imagens em milhares de categorias ("barco",
"leão", "Torre Eiffel"), detecta objetos individuais em imagens e encontra e lê palavras
impressas contidas nas imagens. É possível criar metadados no catálogo de
imagens, moderar conteúdo ofensivo ou criar novos cenários de marketing com a
análise de sentimento de imagens. Você pode analisar imagens carregadas na
solicitação ou integrá-las a um armazenamento de imagens no Cloud Storage.
API Cloud Speech
● Reconhece 80 idiomas e variantes.

● Consegue retornar texto em tempo real.
● É altamente precisa, mesmo em
ambientes ruidosos.
● Pode ser acessada de qualquer dispositivo.
● Tem a tecnologia de machine learning
do Google.
A API Cloud Speech permite que os desenvolvedores convertam áudio em texto.

Como você tem uma base de usuários cada vez mais global, a API reconhece mais
de 80 idiomas e variantes. É possível transcrever a fala de usuários no aplicativo por
meio de um microfone, ativar o controle e comando de voz ou transcrever arquivos
de áudio, entre muitos outros casos de uso.
API Cloud Natural Language
● Usa modelos de machine learning para

revelar a estrutura e o significado do texto.
● Extraia informações de itens mencionados
em documentos de texto, artigos de notícias
e postagens de blogs.
● Analise o texto carregado na solicitação
ou integre ao Cloud Storage.
A API Cloud Natural Language oferece aos desenvolvedores uma variedade de

tecnologias para compreensão de linguagem natural.
Ela faz análise sintática, divide frases inseridas pelos usuários em tokens, identifica
substantivos, verbos, adjetivos e outras classes gramaticais e percebe as relações
entre as palavras.
Ela faz reconhecimento de entidades. Ou seja, analisa textos e sinaliza menções a

pessoas, empresas, locais, eventos, produtos e mídias.
Ela consegue compreender o sentimento geral expressado em um bloco de texto.
Esses recursos estão presentes em vários idiomas, como inglês, espanhol e japonês.
Recursos da API Cloud Natural Language
Análise sintática
● extraia tokens e frases, identifique classes gramaticais e crie árvores de
análise de dependência para cada frase.
Reconhecimento de entidade
● Identifique entidades e rotule por tipos como pessoa, organização, local,
● eventos, produtos e mídia.
Análise de sentimento
● Compreenda o sentimento geral expressado em um bloco de texto.
Vários idiomas
● Você pode analisar o texto facilmente em vários idiomas, inclusive em inglês,
espanhol e japonês.
API REST integrada
● Acesse por API REST. O texto pode ser carregado na solicitação ou integrado
ao Cloud Storage.
Para mais informações sobre a API Natural Language, consulte:

https://cloud.google.com/natural-language/docs/.
API Cloud Translation
● Traduza strings arbitrárias entre milhares

de pares de idiomas.
● Detecte programaticamente o idioma
de um documento.
● Tem suporte para dezenas de idiomas.
A API Cloud Translation tem uma interface programática simples para traduzir uma
string arbitrária para qualquer idioma compatível. A API Translation é altamente
responsiva. Assim, ao integrar sites e aplicativos a ela, você consegue traduções
rápidas e dinâmicas de textos de um idioma de origem para um de chegada. Por
exemplo, do francês para o inglês. A detecção de idioma também é disponibilizada
para casos em que o idioma de origem é desconhecido.
A API Translation é compatível com bibliotecas de cliente de API do Google em

Python, Java, Ruby, Objective-C e outras linguagens.
Teste no seu navegador:

https://developers.google.com/apis-explorer/#p/translate/v2/.
API Cloud Video Intelligence
● Anote o conteúdo dos vídeos.

● Detecte mudanças na cena.
● Sinalize conteúdo inapropriado.
● É compatível com uma variedade
de formatos de vídeo.
A API Google Cloud Video Intelligence permite que desenvolvedores utilizem a

tecnologia de análise de vídeo do Google como parte dos aplicativos. Com a API
REST, é possível que os usuários anotem vídeos armazenados no Google Cloud
Storage com informações contextuais em vídeo e de um frame por segundo. Isso
ajuda na identificação de entidades importantes (substantivos) no vídeo, além do
momento em que aparecem. Ela pode ser usada para possibilitar a pesquisa e a
descoberta de conteúdo em vídeo.
E permite a anotação de formatos de vídeo comuns, como MOV, MPEG4, MP4 e AVI.
Tópicos
do Google Cloud

do Google Cloud
Pergunta nº 1
Quando usar o Cloud Dataproc?
Pergunta nº 1
Quando usar o Cloud Dataproc?
Você pode usá-lo para migrar trabalhos locais do Hadoop para a nuvem. Também
pode usá-lo para extração e análise de dados baseados na nuvem.
Pergunta nº 2
Descreva dois casos de uso para o Cloud Dataflow.
Pergunta nº 2
Descreva dois casos de uso para o Cloud Dataflow.
1. ETL
2. Orquestração
Pergunta nº 3
Descreva três casos de uso para a plataforma
de machine learning do Google.
Pergunta nº 3
Descreva três casos de uso para a plataforma
de machine learning do Google.
1. Detecção de fraudes
2. Análise de sentimento
3. Personalização de conteúdo
Laboratório
Neste laboratório,
você carregará dados
de registro do servidor
no BigQuery e realizará
uma consulta SQL nele.
Objetivos do laboratório
● Carregar dados do Cloud
Storage no BigQuery
● Realizar uma consulta nos dados

no BigQuery
Mais recursos
Google Big Data Platform https://cloud.google.com/products/big-data/
Plataforma de machine learning do Google

https://cloud.google.com/products/machine-learning/
Envie seu feedback. Leva apenas cinco minutos.
1. Faça login na implantação do Qwiklabs (site) em que você fez o laboratório na aula.
2. Clique em "Meu aprendizado" no menu à esquerda para abrir a página com a lista
de aulas
3. a) Se a aula ainda não tiver acabado, você verá o card "Em andamento". Clique nele.
b) Se a aula tiver acabado, você verá a aula em "Cursos e Quests Concluídos".
Clique nela.
4. Clique no link em "Pesquisa" no painel "Visão geral" no lado direito para abrir
o formulário de pesquisa.
5. Responda a todas as perguntas e envie.
Você pode preencher a pesquisa durante ou após a aula. Você poderá revisar
suas respostas se fizer isso antes de completar todas as perguntas.

PT-BR - GCP Fund Module 8 Big Data and Machine Learning in The Cloud

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

PT-BR - GCP Fund Module 8 Big Data and Machine Learning in The Cloud

Enviado por

Direitos autorais:

Formatos disponíveis

GCP Fundamentals:

Plataforma de machine learning

Cloud Cloud BigQuery Cloud Cloud

As soluções de Big Data do Google Cloud são desenvolvidas para ajudar a

● É um jeito rápido, fácil e gerenciado de

O Cloud Dataproc é uma forma rápida, fácil e gerenciada de executar Hadoop,

● Migre facilmente jobs locais do Hadoop

Executar trabalhos do Hadoop no local exige um investimento em hardware. Por

Você também pode economizar instruindo o Cloud Dataproc a usar instâncias

● Processa dados usando instâncias

O Cloud Dataproc é ótimo quando você tem um conjunto de dados de tamanho

O Dataflow é um modelo de programação unificado e um serviço gerenciado para

Recursos do Cloud Dataflow:

Programação inteligente de atividades

Modelo de programação unificado

Processamento confiável e consistente

Neste exemplo, o pipeline do Dataflow lê dados de uma tabela do BigQuery (a

Cada etapa do pipeline é escalonada elasticamente. Não há necessidade de iniciar e

● Faça ETL (extrair/transformar/carregar)

O BigQuery é o armazenamento de dados de análise do Google. Ele é de baixo

Ingestão flexível de dados

Desempenho muito rápido

Conecte com produtos do Google

O BigQuery pode realizar as ações Criar, Substituir, Atualizar e Excluir, sujeitas a

É fácil incluir dados no BigQuery. É possível carregá-los do Cloud Storage ou do

O BigQuery é usado por todos os tipos de organizações: de startups a empresas da

Os preços de armazenamento de longo prazo são um desconto automático para

Para mais informações sobre a arquitetura do BigQuery, consulte:

O Cloud Pub/Sub é um serviço de mensagens em tempo real totalmente gerenciado

Entrega por push e pull

Confirmação de ponta a ponta

● Elemento básico para ingestão de dados

O Cloud Pub/Sub se baseia na mesma tecnologia que o Google usa internamente. É

● Ferramenta interativa para exploração,

Para a ciência de dados, uma metáfora de notebook de laboratório on-line é um

Recursos do Cloud Datalab:

Preços por uso

Visualização interativa de dados

● Crie e gerencie código, documentação,

O Cloud Datalab é integrado com BigQuery, Compute Engine e Cloud Storage,

Plataforma de machine learning

O machine learning é um ramo do campo da inteligência artificial. É uma forma de

Ferramenta de código aberto para desenvolver e executar modelos

● Amplo suporte a plataformas: CPU ou GPU, aplicativos móveis,

Serviço de machine learning totalmente gerenciado

● Experiência conhecida para o desenvolvedor baseada em

Modelos pré-treinados de machine learning desenvolvidos

● Speech: transmite resultados em tempo real, detecta 80 idiomas

A plataforma de machine learning do Cloud oferece serviços modernos de machine

O TensorFlow é uma biblioteca de software de código aberto ideal para aplicativos

Para dados Para dados não

Classiﬁcação Análise de imagem

A plataforma de machine learning do Cloud é usada para muitas aplicações.

● Analise imagens com uma API REST simples.

A API Cloud Vision permite que os desenvolvedores entendam o conteúdo de uma

● Reconhece 80 idiomas e variantes.

A API Cloud Speech permite que os desenvolvedores convertam áudio em texto.

● Usa modelos de machine learning para

A API Cloud Natural Language oferece aos desenvolvedores uma variedade de

Ela faz reconhecimento de entidades. Ou seja, analisa textos e sinaliza menções a

Ela consegue compreender o sentimento geral expressado em um bloco de texto.

Recursos da API Cloud Natural Language