Escolar Documentos
Profissional Documentos
Cultura Documentos
Fundamentos de Big Data: Boas Vindas E Dinâmica Do Curso Prof. Leandro Lessa
Fundamentos de Big Data: Boas Vindas E Dinâmica Do Curso Prof. Leandro Lessa
❑ Introdução
❑ Big Data é uma área do conhecimento que tem como finalidade estudar maneiras de
tratar, analisar, processar, armazenar e gerar conhecimento através de grandes
volumes de dados de várias fontes, com o objetivo de acelerar a tomada de decisão e
trazer vantagem competitiva.
Armazenamento de dados
E-mails e afins.
Dados gerados por pessoas
Satélites
Dispositivos médicos
Data e hora
Perfil de cliente
Indicadores
Cadastros em geral
Dados gerados por empresas
❑ No mundo do Big Data você verá esse dado ser chamado de "dado
transacional". O que precisamos ter em mente é que nem todo dado gerado é
necessariamente considerado Big Data
❑ Exemplos:
❑ Por isso, muitas organizações têm lutado para tentar entender estes dados
principalmente para usá-los em estratégias e ideias em seus negócios
❑ A IDC prevê que a quantidade de dados que existe no mundo está crescendo de
33 zetabytes em 2018 para 177 zetabytes em 2025.
Volume
❑ Um estudo da IDC diz que os dados digitais produzidos no mundo dobram a cada
2 anos
❑ Hoje no Big Data a maior parte dos dados não estão estruturados, ou seja, não se
encontram agrupados em ordem e separados por assunto
Variedade
❑ Os dados podem ser oriundos de:
Páginas de internet
Arquivos de log
E-mails
Dados de sensores
IoT
Mídias sociais
Fóruns
Áudio e vídeo
Veracidade
❑ Um item que está intimamente ligado à velocidade, já que um dado desatualizado
não pode ser considerado um dado verídico, uma vez que não condiz com o que
está acontecendo naquele momento.
❑ É preciso ter em conta que para colher bons resultados dentro do Big Data é
imprescindível obter dados verdadeiros e relevantes, ou seja, verificados e
ponderados para o propósito da análise em questão.
Veracidade
❑ Veracidade esta ligado a confiabilidade do dado. Esses dados devem possuir as
seguintes características:
Qualidade e consistência
Origem conhecida
❖ Dados internos são mais fáceis de verificar sua veracidade do que dados
externos
Valor
❑ A troca do resultado pelo custo do investimento
❑ Todas essas perguntas, são fundamentais para saber se o dados possui valor para
empresa.
Conclusão
❑ Concorrência
❑ Entendemos o conceito de BI
❑ ETL e OLAP
Fundamentos de Big Data
CAPÍTULO 2. DEFINIÇÃO E CONCEITOS DO BIG DATA
❑ ETL
❑ OLAP
ETL
❑ O ETL (Extract, Transformation and Load) são ferramentas responsáveis pela
extração, transformação e carregamento dos dados no DW
Correção
Compilação
Conversão de tipos
Carregamento
❑ Os dados que foram extraídos e transformados na etapa anterior são
armazenados nos repositórios de dados destino
Banco de dados relacional
❑ ETL e OLAP
Próxima aula
❑ Data Warehouse
❑ Data Mart
❑ Data Lake
Data Warehouse (DW)
❑ O Data Warehouse (DW) é uma tecnologia que foi desenvolvida nos anos 80 com o
objetivo de simplificar as pesquisas através de um banco de dados organizado e
com alta capacidade de armazenamento.
Vantagem competitiva;
Facilidade de uso;
Infraestrutura computacional;
Custo de operação;
Acesso rápido;
Perda de material valioso pela não utilização dos dados não estruturados;
A complexidade do desenvolvimento;
❑ KDD
❑ Data Mining
KDD
❑ KDD (Knowledge Discovery Databases) - processo de descoberta de
conhecimento
Regras de associação
Clusterização
Classificação
Análise e assimilação dos
resultados
❑ O conhecimento gerado deve ser analisado nesta etapa
❑ Verificar se é realmente útil para a tomada de decisão. Caso a resposta não for
satisfatória, então deve-se repetir todo ou parte do processo de KDD
Data Mining
❑ O termo mineração de dados vem do inglês (Data Mining, - DM) que tem o objetivo
principal um processo mais amplo denominado descoberta de conhecimento em
base de dados
❑ A mineração é mais usada com dados mais estruturados e o Big Data dados mais
complexos e não estruturados
Data Mining e Big Data
❑ O DM aponta relatórios com questões específicas já que se refere a uma questão
mais pontual. O Big Data traz análises contínuas e de longo prazo
Conclusão
❑ Cada empresa pode possuir uma padronização que achar mais conveniente para o
seu negócio.
❑ Inteligência Artificial
Inteligência Artificial (IA)
❑ A Inteligência Artificial (IA) é uma parte da ciência da computação onde os sistemas
são planejados para a execução de tarefas que necessitam de inteligência humana
e possui várias técnicas para realização das atividades
Um avaliador humano faz uma série de perguntas baseadas em texto para uma
máquina e um humano, sem ver nenhum deles;
Inteligência Artificial (IA)
O humano e a máquina respondem a pergunta do avaliador;
❑ Com a grande coleta de dados do Big Data, é possível a criação de modelos que
analisam e antecipam comportamentos e dinâmicas de sistemas complexos.
Inteligência Artificial (IA)
❑ O volume desses dados produz uma característica muito importante no processo da IA:
Descobrir quais dados são relevantes para a análise
Utilizar ferramentas que são capazes de manipular e estudar essa quantidade exorbitante de
dados.
Como o AI aprende?
❑ As IAs aprendem sozinhas por meio da análise de grandes conjuntos de
dados que ampliam seu conhecimento e servem de experiência
BIA assistente do Bradesco responde, em média, 300 mil perguntas a cada mês e
taxa de precisão das suas informações chega a 95%.
❑ Sistema inteligente
Volkswagen lançou o modelo Virtus que já vem com sistema de interatividade por
voz, texto ou imagens.
Substitui manual de papel por aplicativo (as respostas sobre dúvidas usando fotos
do painel do carro, interpretadas pelo aplicativo)
Big data e inteligência na prática
❑ O Painel de controle
❑ Chatbots
Muito utilizados em empresas de varejo
❑ Machine Learning
Machine Learning (ML)
❑ O aprendizado de máquina (ML) é um subconjunto de inteligência artificial que
funciona muito bem com dados estruturados. O objetivo por trás do aprendizado de
máquina é que as máquinas aprendam padrões em seus dados sem que você os
programe explicitamente para isso.
Machine Learning (ML)
❑ O que o aprendizado de máquina pode fazer é realizar análises preditivas com
muito mais rapidez do que qualquer ser humano. Como resultado, o aprendizado de
máquina pode ajudar os humanos a trabalhar com mais eficiência.
Aprendizado supervisionado;
❑ Quando uma criança começa a engatinhar, ela tenta se levantar e cai várias vezes, e
após muitas tentativas ela consegue uma forma de se levantar sem cair.
Aprendizado por reforço
❑ Rrecomendações de sites de entretenimento como o youtube
❑ Deep Learning
Fundamentos de Big Data
CAPÍTULO 3. TÉCNICAS PARA TRABALHAR COM BIG DATA
❑ Deep Learning
Deep Learning (DL)
❑ Deep Learning ou Aprendizado profundo (DL) é um subconjunto do aprendizado de
máquina que usa conjuntos de algoritmos modelados para simular
computacionalmente o cérebro humano (também chamados de redes neurais
artificiais).
❑ Esses algoritmos são muito mais complexos do que a maioria dos modelos de
aprendizado de máquina e exigem muito mais tempo e esforço para serem
construídos.
Deep Learning (DL)
❑ Ao contrário do aprendizado de máquina, que se estabiliza após uma certa
quantidade de dados, o aprendizado profundo continua a melhorar conforme o
tamanho dos dados aumenta.
❑ Processamento de Imagem
❑ Veículos autônomos
Aplicações
❑ Aplicações em Medicina
Aplicações de Reconhecimento de Imagens
Doença de Alzheimer
Diagnóstico Cardiovascular
Derrame Cerebral
Conclusão
.
Fundamentos de Big Data
CAPÍTULO 4. ALGORITMOS UTILIZADOS NO BIG DATA
❑ O agente avalia o resultado da sua ação, que pode ser um resultado positivo ou
negativo.
❑ K-means
K-means
❑ K-means é um dos algoritmos mais utilizados para realizar agrupamentos
de dados numéricos em mineração de dados
Definição do centroide
❑ Google colab
Fundamentos de Big Data
CAPÍTULO 4. ALGORITMOS UTILIZADOS NO BIG DATA
❑ Regressão linear
Regressão Linear
❑ A análise de regressão linear é usada para prever o valor de uma variável com base
no valor de outra. A variável que deseja prever é chamada de variável dependente
(Y) e a variável que é usada para prever o valor de outra variável é chamada de
variável independente(X)
❑ A regressão, em geral, tem como objetivo tratar de um valor que não se consegue
estimar inicialmente. Ela permite gerar um modelo matemático através de uma reta
que explique a relação linear entre variáveis
Regressão Linear
❑ A regressão linear é chamada "linear" porque se considera que a relação da
resposta às variáveis é uma função linear de alguns parâmetros
❑ Por exemplo:
Número de quartos e vaga na garagem -> Valor do imóvel
❑ Por exemplo:
Número de quartos e vaga na garagem -> Valor do imóvel
Previsão do
valor da diária
Regressão Linear
Número de
Previsão do
pessoas
valor da diária
Regressão Linear
Constante Número de
Previsão do
pessoas
valor da diária
Regressão Linear
Coeficiente
Constante Número de
Previsão do
pessoas
valor da diária
Regressão Linear
Coeficiente
Coeficiente
Coeficiente
Coeficiente
erro
erro
erro
erro
erro
MAE - mean absolut error
❑ MAE (mean absolut error): calcula o "erro absoluto médio" dos erros
entre valores observados (reais) e predições (hipóteses).
MAE - mean absolut error
❑ Yi valor previsto
MSE - Mean squared error
❑ A o erro quadrático médio ( MSE ) ou desvio quadrático médio ( MSD ) de
um estimador que mede a média dos quadrados dos erros - isto é, o diferença
média quadrática entre os valores estimados e o valor real
❑ Yi valor previsto
MSE - Mean squared error
❑ Yi valor previsto
Calculando o MSE
Calculando o MSE
Calculando o MSE
3.170 / 5 = 634
Calculando o MSE
❑ RMSE (root mean squared error): é a medida que calcula "a raiz
quadrática média" dos erros entre valores observados (reais) e predições
(hipóteses)
RMSE
❑ Regressão Linear
Próxima aula
❑ Processamento em lote
Processamento em lote
❑ O processamento em lote, também conhecido por processamento em batch, são
dados que temos em armazenamento e que processamos de uma vez ou em lote
❑ Devido a isso, as análises dos dados só são realizadas apenas quando todos os
dados são carregados
Processamento em lote
❑ O processamento em lotes é usado em uma variedade de cenários, de
transformações de dados simples a um pipeline ETL (extração, transformação
e carregamento) mais completo
Cartões de crédito
Processamento em lote
❑ Na leitura do consumo de água, a empresa distribuidora não possui de forma
automatizada o consumo gerado após a leitura do quadro de consumo, e sim
somente após o envio dos dados coletados do funcionário onde todos os
dados serão processados
Executa apenas uma vez o programa para processar grandes quantias de dados,
reduzindo a sobrecarga de sistema.
Desvantagens
❑ O usuário não consegue finalizar um processo durante a sua execução, é
necessário aguardar até a finalização do processo
❑ Processamento em streaming
Streaming de dados
❑ É uma sequência de elementos de dados disponibilizados ao
longo do tempo. É um fluxo pode ser considerado como itens em
uma esteira transportadora sendo processados um por vez, em
vez de em grandes lotes
Streaming de dados
❑ Imagine o cenário que formos solicitados a contar os bolas
coloridas que vêm em nossa direção em uma esteira rolante
Streaming de dados
❑ Conforme o bola chega até nós, temos que contar as novas
peças e atualizar constantemente nossa contagem geral das
bolas.
❖ Deezer
❖ Apple Music
❖ YouTube Music
❖ Amazon Music
Exemplos
❑ O processamento em streaming está presente cada vez mais no
nosso dia a dia. Podemos citar alguns exemplos de plataformas
que utilizam
Plataformas de vídeo:
❖ Youtube
❖ Netflix
❖ Vimeo
❖ Twitch
❖ Amazon prime
Exemplos
❑ O processamento em streaming também é utilizado em
operações financeiras, como utilização de cartão de crédito e
débito, operações de créditos de celulares
❑ Processamento contínuo
Desvantagens
❑ Necessidade de ordenamento de dados
❑ Consistência e durabilidade
❑ Hadoop
Fundamentos de Big Data
CAPÍTULO 6. INTRODUÇÃO AOS FRAMEWORKS E FERRAMENTAS DO BIG DATA
MapReduce: o MapReduce
Hadoop Common
Módulos do Hadoop
❑ Hadoop Distributed File System (HDFS): como o principal componente
do ecossistema Hadoop, o HDFS é um sistema de arquivos distribuídos
que fornece acesso de alta capacidade aos dados do aplicativo sem a
necessidade de definir esquemas antecipadamente.
❑ Apache Spark
Fundamentos de Big Data
CAPÍTULO 6. INTRODUÇÃO AOS FRAMEWORKS E FERRAMENTAS DO BIG DATA
❑ Velocidade de processamento
Scala
Python
Suporte a gráficos
Componentes do Apache Spark
Spark SQL
❑ É o módulo Spark para trabalhar com dados estruturados que
oferece suporte a uma maneira comum de acessar uma variedade
de fontes de dados
Regressão
Recomendação
Clustering
Operações
Spark Context
RDD- Resilient Distributed Datasets
❑ Conjuntos de dados distribuídos resilientes é uma coleção de registros de
partição somente leitura, particionados em um conjunto de nodos do cluster
Contagens e persistências
Spark Context
❑ A etapa mais importante de qualquer aplicativo de driver Spark é gerar Spark
Context. Ele permite que seu aplicativo Spark acesse o Spark Cluster
❑ Generalidade
Pode usar diferentes modos de programação em um mesmo ambiente
Engenheiros de dados
Analistas de dados
Cientistas de dados
Administradores de plataforma
❑ oferecem suporte à infraestrutura de Big Data de uma organização além de
fazerem um tipo de gestão para as equipes de desenvolvimento no que se
refere às mudanças, configurações e atualizações para um sistema de Big
Data
❑ Assim que os dados estão organizados, os cientistas utilizam da análise para gerar
soluções para os problemas existentes e futuros
Funções do Cientista de dados
Realizar pesquisas e formular perguntas abertas aos dados
❑ Segurança
❑ Disponibilidade
❑ SQL / NoSQL
❑ Governança de dados
Analista de Dados
❑ Precisam conhecer a linguagem de programação SQL
❑ Banco de dados
❑ Estatística e matemática
❑ Comunicação e curiosidade
❑ SQL
❑ Estatística
❑ Data Visualization
❑ Negociação
Habilidades dos profissionais
❑ Comunicação
❑ Pensamento crítico
❑ Curiosidade
❑ Conhecimento de negócio
Conclusão
❑ Uma empresa que adota essa cultura toma decisões que tem como base
dados sólidos e evidencias. Excluindo suposições e “achismos”
❑ Enquanto antes essa técnica poderia obter qualquer resultado, com o Big Data é
possível cruzar inúmeras informações de variadas fontes, trazendo maior
assertividade no que se procura e também prever as reservas graças a análises
avançadas do Big Data
Shell
❑ É por esses motivos que a Shell obteve grande sucesso adotando a cultura de
Data Driven, pois em um ramo de altos riscos e possibilidades, uma boa análise
de dados e gerenciamento dos mesmos se torna um grande diferencial
competitivo
Ralph Lauren
❑ A empresa Ralph Lauren de moda americana que comercia vestuário, itens de
casa, acessórios e fragrâncias, aderiu ao Data Driven e utilizou do Big Data para
fornecer ao consumidor final um produto que superasse as expectativas quanto
ao vestuário
Ralph Lauren
❑ A verdade é que a tecnologia muda o comportamento do consumidor, dessa
forma, faz-se necessário que o mercado ofereça ao seu cliente aquilo que é
relevante para ele
❑ O aplicativo então usa os insights a partir desta análise para adaptar o treino de
acordo com o usuário
Conclusão