Escolar Documentos
Profissional Documentos
Cultura Documentos
Além desses cinco Vs, alguns especialistas também adicionam outras dimensões, como
"Viabilidade" (Viability), referindo-se à capacidade de obter valor de maneira econômica, e
"Visão" (Vision), que envolve a capacidade de definir estratégias claras para aproveitar o
potencial do Big Data.
As ferramentas de Big Data, como Hadoop e Spark, são frequentemente usadas para processar
e analisar esses dados em tempo real ou em lote
ACID
"ACID" é um acrônimo que representa quatro propriedades fundamentais que garantem a
integridade e a consistência dos dados em um sistema de gerenciamento de banco de dados
(DBMS). Essas propriedades são essenciais para manter a confiabilidade dos dados em
transações e garantir que as operações de um banco de dados ocorram de maneira previsível e
controlada. Aqui está o significado de cada uma das quatro letras do acrônimo "ACID":
Atomicidade (Atomicity): A atomicidade garante que uma transação seja tratada como uma
unidade atômica de trabalho. Isso significa que todas as operações em uma transação devem
ser concluídas com sucesso ou nenhuma delas deve ser aplicada. Se ocorrer um erro durante
qualquer parte da transação, o sistema de banco de dados deve garantir que todas as
alterações feitas até o momento sejam desfeitas, mantendo assim o banco de dados em um
estado consistente.
Consistência (Consistency): A consistência garante que uma transação leve o banco de dados
de um estado consistente para outro. Isso significa que as operações dentro de uma transação
devem respeitar todas as restrições e regras de integridade do banco de dados. Se uma
transação violar essas regras, ela não será concluída e as alterações não serão aplicadas.
Isolamento (Isolation): A isolamento lida com a capacidade de uma transação ser executada
de forma isolada de outras transações concorrentes. Isso significa que uma transação em
execução não deve ser visível para outras transações até que seja concluída. O isolamento
garante que as transações sejam executadas independentemente e que as operações de uma
transação não interfiram nas operações de outras transações.
Durabilidade (Durability): A durabilidade garante que, uma vez que uma transação seja
concluída com sucesso, suas alterações no banco de dados sejam permanentes e não se
percam, mesmo em caso de falha do sistema. Isso é geralmente alcançado por meio de
técnicas de registro de transações e backups regulares.
Um um banco de dados NoSQL, não existe uma estrutura de tabela tradicional como em
bancos de dados relacionais. Em vez disso, os dados são armazenados de maneira mais
flexível, muitas vezes em formatos como documentos, pares de chave-valor, grafos ou famílias
de colunas, dependendo do tipo específico de banco de dados NoSQL que está sendo utilizado.
Vou explicar brevemente como cada um desses tipos de bancos de dados NoSQL poderia ser
organizado:
Nesse tipo de banco de dados NoSQL, os dados são armazenados como pares de chave-valor.
Cada chave está associada a um valor, e os valores podem ser estruturas de dados complexas.
Não há uma estrutura de tabela rígida; você recupera dados especificando a chave
correspondente.
Bancos de dados de grafo NoSQL armazenam dados em forma de grafos, com nós (entidades)
e arestas (relacionamentos) entre eles.
Cada nó e aresta pode ter propriedades ou atributos específicos.
Os dados são modelados em termos de nós e relacionamentos, permitindo consultas
complexas para análise de relacionamentos.
Nesse tipo de banco de dados NoSQL, os dados são organizados em famílias de colunas, em
que cada coluna é armazenada em um conjunto separado.
As famílias de colunas permitem flexibilidade na adição de novas colunas sem a necessidade
de modificar todas as linhas de dados.
É eficaz para casos de uso com leituras intensivas.
Portanto, não existe uma tabela NoSQL padrão como em bancos de dados relacionais. A
estrutura de dados em um banco de dados NoSQL depende do tipo específico de banco de
dados e do modelo de dados escolhido. A flexibilidade é uma das principais características dos
bancos de dados NoSQL, permitindo que os desenvolvedores adaptem a estrutura dos dados
de acordo com as necessidades de seus aplicativos.
O uso de bancos de dados NoSQL (Not Only SQL) em vez de bancos de dados relacionais é mais
indicado em várias situações, dependendo das necessidades específicas de um projeto. Aqui
estão algumas situações em que os bancos de dados NoSQL são mais adequados:
Quando os dados não têm uma estrutura fixa ou são semiestruturados, como documentos
JSON ou XML, os bancos de dados NoSQL, especialmente os bancos de dados de documentos,
como MongoDB ou Couchbase, são mais adequados. Eles podem lidar com esses tipos de
dados de maneira flexível.
Escalabilidade Horizontal:
Se você precisa dimensionar horizontalmente o banco de dados para lidar com um grande
volume de tráfego ou dados, os bancos de dados NoSQL são frequentemente a escolha
preferida. Eles são projetados para escalar facilmente distribuindo dados em vários servidores
ou nós.
Alta Disponibilidade e Tolerância a Falhas:
Muitos bancos de dados NoSQL oferecem suporte integrado para replicação e tolerância a
falhas. Isso os torna adequados para aplicativos que exigem alta disponibilidade e
confiabilidade.
Para aplicativos da web e móveis que precisam escalonar rapidamente e gerenciar uma grande
quantidade de tráfego, os bancos de dados NoSQL são frequentemente escolhidos devido à
sua capacidade de dimensionamento horizontal e flexibilidade de esquema.
Em cenários de big data, onde você está lidando com grandes volumes de dados de diferentes
fontes, bancos de dados NoSQL podem ser mais adequados para ingestão e análise de dados
em tempo real.
Agilidade de Desenvolvimento:
Quando o desenvolvimento ágil é uma prioridade e você precisa iterar rapidamente nas
alterações de esquema e nas funcionalidades, os bancos de dados NoSQL oferecem
flexibilidade nesse aspecto.
Existem casos de uso específicos em que um banco de dados NoSQL é a escolha óbvia, como
sistemas de gerenciamento de sessões de usuário, armazenamento de dados de sensores IoT
ou catálogos de produtos em comércio eletrônico.
É importante notar que a escolha entre um banco de dados relacional e um banco de dados
NoSQL depende dos requisitos e das características do seu projeto. Muitas vezes, uma
combinação de ambos (uma abordagem conhecida como "poliglota") é usada para atender a
diferentes necessidades dentro de um sistema. Portanto, é essencial avaliar cuidadosamente
as necessidades do projeto antes de escolher o tipo de banco de dados a ser usado.
MODELO ENTIDADE RELACIONAMENTO MER
TUPLAS = LINHAS DA TABELA
Sum: soma/total
avg: média
count: contagem
Min: mínimo
Max: Maximo
CHAVE CANDIDATA (CHAVE QUE PODE VIR A SER PRIMÁRIA) => se refere a um conjunto de um
ou mais atributos em uma tabela que é único para cada tupla (linha) na tabela, o que
significa que nenhum par de tuplas na tabela pode ter os mesmos valores para
esses atributos.
Chave Primária: A chave primária é uma das chaves candidatas escolhida como a
principal chave de identificação da tabela
A normalização de dados é geralmente realizada em várias etapas, cada uma representada por
uma forma normal (1NF, 2NF, 3NF, BCNF, 4NF, 5NF, entre outras). Cada forma normal tem
suas próprias regras e requisitos, e as tabelas são refinadas e ajustadas de acordo com essas
regras para atender a um nível específico de normalização.
Requer que os valores em cada coluna de uma tabela sejam atômicos, ou seja, indivisíveis.
Por exemplo, em uma coluna "Nome Completo," você não deve armazenar o nome
completo de uma pessoa, mas dividir em duas colunas separadas, "Nome" e
"Sobrenome." Isso garante que os dados sejam armazenados de maneira granular e
mais fácil de consultar.
SERVIDORES OLAP
Empresas que são conhecidas por suas soluções OLAP e business intelligence
no Brasil:
CATEGORIAS EM OLAP
Dimensões:
Medidas:
As medidas são os valores numéricos que estão sendo analisados, resumidos ou calculados nos
cubos OLAP. Elas representam as métricas de interesse, como vendas, receita, lucro,
quantidade de produtos vendidos, tempo gasto em um site, etc.
As medidas são geralmente agregadas (somadas, média, máximo, mínimo) com base nas
combinações de valores das dimensões para fornecer informações analíticas.
Além disso, é importante notar que algumas dimensões podem ser classificadas como
dimensões de tempo, dimensões geográficas, dimensões de produto, dimensões de cliente,
entre outras, dependendo do contexto da análise.
Dimensões:
Medidas:
SIGNIFICADO DE ETL
Extração (Extract): Nesta etapa, os dados são coletados ou extraídos de várias fontes de
dados, que podem incluir bancos de dados, sistemas legados, arquivos, aplicativos da web,
APIs e outras fontes. A extração envolve a identificação e a recuperação dos dados necessários
para atender às necessidades do projeto.
Carga (Load): Na etapa final, os dados transformados são carregados no destino, que pode ser
um data warehouse, um banco de dados relacional ou qualquer outro sistema de
armazenamento de dados. Os dados são organizados e estruturados de acordo com o
esquema de dados do destino para facilitar a consulta e a análise.
O processo ETL é fundamental em projetos de business intelligence (BI), análise de dados e
data warehousing, pois permite que as organizações coletem, consolidem e disponibilizem
dados de várias fontes para fins de tomada de decisões informadas. Muitas vezes, ferramentas
de ETL são usadas para automatizar e agilizar esse processo complexo, tornando-o mais
eficiente e preciso.
O ETL desempenha um papel essencial na preparação de dados para análise, permitindo que
as empresas obtenham insights significativos a partir de seus dados brutos e, assim, tomem
decisões estratégicas baseadas em informações precisas e confiáveis.
DEEP LEARNING
Aplicações: A aprendizagem profunda tem sido aplicada com sucesso em uma variedade de
tarefas, incluindo visão computacional (reconhecimento de imagem e vídeo), processamento
de linguagem natural (tradução automática, análise de sentimento), jogos (jogos de tabuleiro
e jogos de vídeo) e muito mais.
Escopo do Aprendizado:
Arquitetura de Algoritmos:
Requisitos Computacionais:
REGRESSÃO
1. Regressão:
Exemplo: Previsão de Preços de Imóveis
Descrição: A regressão é comumente usada para prever valores
numéricos com base em dados históricos. No contexto de
previsão de preços de imóveis, um modelo de regressão pode ser
treinado com dados que incluem características dos imóveis
(como área, número de quartos, localização) e os preços de
imóveis correspondentes. O modelo aprende a relação entre essas
características e os preços, permitindo prever o preço de um novo
imóvel com base em suas características.
2. Classificação:
Exemplo: Detecção de Spam em E-mails
Descrição: A classificação é usada para categorizar dados em
diferentes classes ou categorias. No caso da detecção de spam em
e-mails, um modelo de classificação é treinado com um conjunto
de dados que inclui e-mails rotulados como "spam" e "não spam".
Com base nas características dos e-mails (como palavras-chave,
remetentes, formatação), o modelo aprende a distinguir entre e-
mails de spam e e-mails legítimos. Ele é então usado para
classificar novos e-mails como spam ou não spam.
3. Clusterização:
Exemplo: Segmentação de Clientes em um Supermercado
Descrição: A clusterização é usada para agrupar dados
semelhantes em clusters ou grupos. No contexto de um
supermercado, os dados podem incluir informações sobre os
hábitos de compra dos clientes, como produtos comprados,
frequência de compras e valor gasto. Um algoritmo de
clusterização pode ser aplicado para agrupar clientes com hábitos
de compra semelhantes em segmentos distintos. Isso pode ajudar
o supermercado a direcionar campanhas de marketing específicas
para cada segmento.
4. Detecção de Anomalias:
Exemplo: Detecção de Fraudes em Transações de Cartão de
Crédito
Descrição: A detecção de anomalias é usada para identificar
padrões ou instâncias que são significativamente diferentes do
comportamento típico dos dados. No caso da detecção de
fraudes em transações de cartão de crédito, um modelo de
detecção de anomalias é treinado com dados normais de
transações. O modelo aprende o comportamento típico das
transações. Quando uma transação suspeita é feita, o modelo
pode detectá-la como uma anomalia com base nas diferenças em
relação às transações normais.
Aprendizado Supervisionado:
DATA LAKE
Variedade: Ele suporta diversos tipos de dados, desde dados estruturados (como
bancos de dados relacionais) até dados semiestruturados e não estruturados (como
arquivos de texto, imagens e vídeos).
User
data lake é a mesma coisa que um big data?
ChatGPT
Não, um Data Lake e Big Data não são a mesma coisa, embora estejam relacionados e
frequentemente se sobreponham em ambientes de análise de dados. Vamos esclarecer
a diferença entre os dois conceitos:
Data Lake:
Big Data:
Escolha a infraestrutura: Decida se você deseja criar seu Data Lake em uma infraestrutura local
(on-premises), na nuvem ou em uma solução híbrida. A maioria das organizações opta pela
nuvem devido à escalabilidade e flexibilidade.
Escolha a plataforma de nuvem: Se você optar por usar a nuvem, escolha uma plataforma de
nuvem que atenda às suas necessidades. Alguns dos principais provedores de nuvem que
oferecem serviços para Data Lakes incluem:
Amazon Web Services (AWS): Oferece o Amazon S3 (Simple Storage Service) como
armazenamento de Data Lake e serviços como AWS Glue e Amazon Athena para análise.
Microsoft Azure: Oferece o Azure Data Lake Storage e serviços como Azure Data Lake
Analytics e Azure Databricks para análise.
Google Cloud Platform (GCP): Oferece o Google Cloud Storage e serviços como BigQuery e
Dataprep para análise.
Projete a arquitetura: Crie um plano de arquitetura para o seu Data Lake, considerando fatores
como a estrutura de pastas, segurança, gerenciamento de metadados e integração com
ferramentas de análise.
Ingestão de dados: Comece a ingestão de dados em seu Data Lake. Isso pode envolver a
migração de dados existentes, bem como a coleta contínua de dados de fontes em tempo real.
Lembre-se de que a criação de um Data Lake é um projeto complexo que requer conhecimento
técnico e recursos. Além disso, a escolha da plataforma de nuvem deve ser feita com base nas
necessidades específicas da sua organização e nos recursos orçamentários disponíveis. É
recomendável trabalhar com profissionais de dados e consultores especializados em nuvem
para garantir o sucesso do projeto.
Software: O software necessário para criar e gerenciar o Data Lake é instalado nos servidores
locais. Isso inclui sistemas de gerenciamento de armazenamento de dados, sistemas de
gerenciamento de bancos de dados, ferramentas de ETL (Extração, Transformação e Carga), e
outras soluções de análise e processamento de dados.
Rede e Conectividade: A rede local é configurada para permitir a transferência de dados para e
do Data Lake, bem como para garantir a conectividade com outras partes da infraestrutura de
TI da organização.
DADO E INTELIGÊNCIA
> Dado:
Dados são fatos ou observações brutas, geralmente em sua forma mais elementar.
Eles não têm contexto e significado intrínsecos por si mesmos.
Exemplos de dados incluem números, texto, imagens, sons, datas e outros elementos
isolados que podem ser coletados ou registrados.
> Informação:
> Conhecimento:
> Inteligência:
Normalização Numérica:
Discretização:
Tratamento de Outliers:
MapReduce:
Ecossistema Hadoop:
Flexibilidade e Escalabilidade:
O Hadoop é altamente flexível e pode lidar com diferentes tipos de dados, desde texto simples
até dados complexos, como registros de logs e fluxos de cliques.
É altamente escalável, o que significa que você pode adicionar mais servidores ao cluster à
medida que a necessidade de processamento de dados aumenta.
Código Aberto:
O Hadoop é um projeto de código aberto mantido pela Apache Software Foundation. Isso
significa que é gratuito para uso e desenvolvimento, e a comunidade de código aberto
contribui para sua evolução e melhoria contínua.
O Hadoop é amplamente utilizado em empresas de todo o mundo para análise de big data,
processamento de logs, análise de séries temporais, aprendizado de máquina e muito mais.
Sua capacidade de processamento distribuído e escalável o torna uma ferramenta essencial
para lidar com os desafios do processamento de dados em grande escala.
DFD
QLIK
DECLARAÇÃO DE VARIÁVEIS