Escolar Documentos
Profissional Documentos
Cultura Documentos
1.1 MARKETING
É importante compreender o perfil dos clientes, o comportamento de gastos e os
padrões de compra de acordo com diferentes métricas.
- Taxa de conversão: A proporção de visitantes do site que realizam uma ação
desejada,como comprar um produto ou preencher um formulário de contato.
- Taxa de retenção do cliente: A proporção de clientes que compram de uma empresa
novamente.
- Custo por aquisição de cliente (CAC): O custo total de adquirir um novo cliente,
incluindo despesas com publicidade e marketing.
- Retorno sobre investimento (ROI): O lucro ou prejuízo obtido em relação ao
investimento feito em uma campanha de marketing.
- Conscientização da marca: A medida da familiaridade e reconhecimento da marca
entre o público-alvo.
- Engajamento: A medida da interação dos usuários com conteúdo, campanhas e
canais de marketing.
- Net Promoter Score (NPS): Uma medida da lealdade dos clientes, baseada em sua
disposição para recomendar uma empresa ou produto para outras pessoas.
- Tráfego do website: Número de visitas no website.
1.2 COMERCIAL
- Volume de vendas: quantidade de produtos ou serviços vendidos.
- Ticket médio: valor médio das vendas por transação.
- Taxa de conversão: proporção de visitantes do site ou contatos que se tornam
clientes.
- Ciclo de vendas: tempo médio que leva para fechar uma venda, desde o primeiro
contato com o cliente até o fechamento.
- Retenção de clientes: taxa de clientes que compram novamente após a primeira
compra.
- Lucratividade: receita líquida obtida pela venda de produtos ou serviços,
descontados os custos.
- Produtividade da equipe de vendas: quantidade de vendas realizadas por vendedor
por período.
- Satisfação do cliente: medida da satisfação dos clientes com a empresa, produtos e
serviços oferecidos.
1.4 LOGÍSTICA
- Tempo de ciclo: o tempo necessário para atender um pedido, desde o momento em
que é feito até o momento em que é entregue ao cliente.
- Taxa de entrega no prazo: a porcentagem de pedidos entregues dentro do prazo.
- Custo de transporte: o custo médio por unidade ou por pedido para transportar
os produtos.
- Nível de estoque: o número de dias ou semanas de suprimento de estoque disponível.
- Taxa de devolução: a porcentagem de pedidos devolvidos pelos clientes.
- Índice de acurácia de estoque: a precisão do estoque registrado em relação ao
estoque real.
- Taxa de utilização de armazenamento: a porcentagem do espaço de armazenamento
disponível que está sendo utilizado.
- Nível de serviço ao cliente: a satisfação geral do cliente com o serviço de
logística, incluindo tempo de entrega, qualidade do produto e atendimento ao cliente.
- Taxa de ocorrência de avarias: a porcentagem de produtos que sofrem danos
durante o transporte ou armazenamento.
- Índice de retorno sobre investimento (ROI): o retorno financeiro gerado pelos
investimentos em logística, como sistemas de gerenciamento de armazéns ou
software de rastreamento de pedidos.
1.5 FINANCEIRO
- Fluxo de caixa: é uma medida do dinheiro que entra e sai da empresa em um
determinado período de tempo. O fluxo de caixa positivo é um sinal de que a empresa
está gerando receita suficiente para cobrir suas despesas.
- Margem de lucro: é a porcentagem de lucro que a empresa ganha em cada venda.
Ela pode ser calculada dividindo o lucro líquido pela receita total.
- Retorno sobre o investimento (ROI): é uma medida do retorno que a
empresa está obtendo de seus investimentos. O ROI pode ser calculado dividindo o
lucro pelo investimento inicial.
- Endividamento: é a medida da quantidade de dívida que a empresa tem em relação
ao seu patrimônio líquido. Ele pode ser calculado dividindo a dívida total pelo
patrimônio líquido.
- Faturamento: é a receita total que a empresa gera em um determinado
período de tempo.
- Custo de aquisição de clientes (CAC): é a quantidade de dinheiro que a empresa
gasta para adquirir cada novo cliente. Ele pode ser calculado dividindo o custo total
de marketing e vendas pelo número de novos clientes.
- Prazo médio de pagamento (PMP): é o tempo médio que a empresa leva para pagar
seus fornecedores. Ele pode ser calculado dividindo o valor total das compras pelo
valor total pago a fornecedores em um determinado período de tempo.
1.6 CONTÁBIL
Principais relatórios:
Os dados incluem várias colunas, cada uma fornecendo informações específicas sobre o
preço e o volume de negociação das ações negociadas no mercado:
- Coluna "Date" (Data): Esta coluna fornece a data em que a ação foi negociada na
NASDAQ.
- Coluna "Close/Last" (Fechamento/Último Preço): Esta coluna fornece o preço de
fechamento da ação no final do dia de negociação. O preço de fechamento é o último
preço pelo qual a ação foi negociada naquele dia.
- Coluna "Volume": Esta coluna indica o número total de ações negociadas durante o
dia. Isso pode incluir várias transações feitas por um ou mais investidores.
- Coluna "Open" (Preço de Abertura): Esta coluna indica o preço de abertura da ação na
NASDAQ no início do dia de negociação. O preço de abertura é o primeiro preço pelo
qual a ação foi negociada naquele dia.
- Coluna "High" (Preço Máximo) e "Low" (Preço Mínimo): Estas colunas indicam o
preço máximo e mínimo que a ação foi negociada naquele dia. O preço máximo é o
preço mais alto pelo qual a ação foi negociada durante o dia, enquanto o preço
mínimo é o preço mais baixo pelo qual a ação foi negociada.
A cotação de ações é de fato uma série temporal (ou seja, um evento que ocorre ao longo do
tempo) e o Power BI oferece uma funcionalidade para manipular esse tipo de dado, chamado
de Time Intelligence (que é um recurso de manipulação de datas de forma simplificada).
Parâmetro x Estatística
2.1 AMOSTRAGEM
Amostragem Probabilística: cada elemento da população tem uma chance conhecida e não
nula de ser selecionado para a amostra. Essas técnicas geralmente resultam em amostras mais
representativas e permitem o cálculo de medidas de incerteza, como margem de erro e
intervalos de confiança. As principais técnicas de amostragem probabilística incluem:
a. Amostragem aleatória simples: Cada elemento da população têm igual
probabilidade de ser selecionado. É como um sorteio onde todos os elementos têm a
mesma chance de serem escolhidos.
b. Amostragem sistemática: Os elementos da população são selecionados em
intervalos fixos, a partir de um ponto de partida aleatório. Por exemplo, a cada 10
elementos, um é escolhido.
c. Amostragem estratificada: A população é dividida em subgrupos homogêneos,
chamados estratos, e uma amostra aleatória é selecionada de cada estrato. Isso
garante que todos os segmentos da população sejam adequadamente representados na
amostra
d. Amostragem por conglomerados: A população é dividida em grupos heterogêneos,
chamados conglomerados. Alguns conglomerados são selecionados aleatoriamente e
todos os elementos desses conglomerados são incluídos na amostra. Os
conglomerados podem ser selecionados com base em critérios geográficos,
demográficos ou outros.
Amostragem Não Probabilística: a seleção dos elementos da população não é baseada na
probabilidade. Essas técnicas são mais fáceis e rápidas de serem executadas, mas podem
resultar em amostras menos representativas e não permitem o cálculo de medidas de
incerteza. As principais técnicas de amostragem não probabilística incluem:
a. Amostragem por conveniência: A seleção dos elementos é baseada na facilidade de
acesso e na disponibilidade. Essa técnica pode ser enviesada, já que nem todos os
elementos têm a mesma chance de serem selecionados.
b. Amostragem por julgamento: O pesquisador seleciona os elementos da amostra
com base em seu conhecimento e critério. Embora possa ser útil em casos específicos,
essa técnica é suscetível a vieses e erros de julgamento.
c. Amostragem por quotas: Semelhante à amostragem estratificada, a população é
dividida em subgrupos. No entanto, os elementos são selecionados de forma não
aleatória, com base em características específicas, até que uma quota pré-determinada
seja atingida.
Média
É a soma de todos os valores de um conjunto de dados dividida pelo número total de
valores. É uma das medidas de tendência central mais comuns e frequentemente usada para
representar o valor "típico" de um conjunto de dados. A média pode ser afetada por valores
extremos (outliers) e pode não ser a melhor representação do centro dos dados em tais casos.
Mediana
É o valor que separa um conjunto de dados ordenado em duas metades iguais. Se o
número total de valores no conjunto de dados é ímpar, a mediana é o valor do meio. Se o
número total de valores é par, a mediana é a média dos dois valores centrais. A mediana é
menos sensível a valores extremos e pode ser uma medida mais representativa do centro dos
dados quando a distribuição é assimétrica ou contém outliers(valores extremos).
Moda
É o valor que ocorre com maior frequência em um conjunto de dados. Um conjunto
de dados pode ter nenhuma moda, uma moda (unimodal) ou várias modas (multimodal).
A moda pode ser usada para dados numéricos ou categóricos e é uma medida útil da
tendência central, especialmente quando a média e a mediana não são aplicáveis ou não
fornecem uma representação adequada do centro dos dados.
Variância
É uma medida que indica o quanto os valores em um conjunto de dados variam em
torno da média. Uma variância maior indica uma maior dispersão dos valores,
enquanto uma variância menor sugere que os valores estão mais próximos da média. A
variância é calculada como a média dos quadrados das diferenças entre cada valor e a média
do conjunto de dados.
Desvio padrão
É a raiz quadrada da variância e também mede a dispersão dos valores em um
conjunto de dados. Ele é expresso na mesma unidade de medida dos valores originais, o que o
torna mais fácil de interpretar em comparação com a variância.
Percentis
São medidas que dividem um conjunto de dados ordenado em 100 partes iguais. O
percentil de um valor específico indica a porcentagem de valores no conjunto de dados que
são menores ou iguais a esse valor. Por exemplo, um valor no percentil 25 (P25) indica que
25% dos valores no conjunto de dados são menores ou iguais a esse valor. Os percentis são
úteis para comparar a posição relativa de um valor dentro de diferentes conjuntos de dados e
para entender a dispersão dos dados.
Quartis
São medidas semelhantes aos percentis, mas dividem um conjunto de dados ordenado
em quatro partes iguais. Existem três quartis. Q1 corresponde ao percentil 25 (P25), Q2
corresponde à mediana (percentil 50 -P50) e Q3 corresponde ao percentil 75 (P75). Os quartis
ajudam a entender a dispersão dos dados e a identificar a presença de valores extremos ou
outliers.
Z-score
É uma medida que expressa a posição relativa de um valor em relação à média e ao
desvio padrão de um conjunto de dados. Ele indica quantos desvios padrão um valor
específico está acima ou abaixo da média do conjunto de dados. Um z-score positivo indica
que o valor está acima da média, enquanto um z-score negativo indica que o valor está abaixo
da média. Os z-scores são úteis para comparar a posição relativa de valores em diferentes
conjuntos de dados e para identificar valores extremos ou outliers.
Análise Descritiva: envolve a descrição e resumo dos dados por meio de medidas de
tendência central (média, mediana, moda), medidas de dispersão (variância, desvio
padrão, coeficiente de variação), e medidas de posição relativa (percentis, quartis, z-scores).
Essa análise fornece uma visão geral dos dados e ajuda a entender sua distribuição e
características básicas.
Regressão: utilizado para modelar a relação entre uma variável dependente e uma ou mais
variáveis independentes. A regressão linear é a forma mais simples de regressão e descreve a
relação linear entre as variáveis.
Análise de Variância (ANOVA): utilizado para comparar as médias de três ou mais grupos,
determinando se existem diferenças significativas entre eles. Existem vários tipos de
ANOVA, como ANOVA de um fator, ANOVA de dois fatores e ANOVA de medidas
repetidas.
Análise de séries temporais: envolve a análise de dados coletados ao longo do tempo para
identificar padrões, tendências e ciclos. Essa análise pode incluir a decomposição da série
temporal em componentes sazonais e de tendência, a aplicação de modelos autorregressivos e
de médias móveis (ARIMA) e a previsão de valores futuros.
4. MANIPULAÇÃO DE DADOS
Algumas das principais tarefas de limpeza e manipulação de dados incluem:
● Remoção de dados duplicados: Eliminar registros duplicados que podem
distorcer a análise.
● Tratamento de valores ausentes: Substituir, remover ou estimar valores ausentes nos
dados, usando métodos como média, mediana, interpolação ou outros algoritmos.
● Correção de erros de digitação e inconsistências: Identificar e corrigir erros de
digitação, formatação e padronização dos dados.
● Conversão de tipos de dados: Transformar variáveis em tipos de dados apropriados,
como numérico, categórico ou textual.
● Renomeação e reorganização de colunas: Ajustar os nomes das colunas para facilitar a
compreensão e organizá-las de acordo com a necessidade da análise.
● Filtragem e seleção de dados: Extrair subconjuntos específicos de dados com base em
critérios pré-determinados, como faixas de valores ou categorias.
● Discretização e binning: Converter variáveis contínuas em categorias ou agrupar
dados em intervalos específicos para análise.
● Normalização e padronização: Ajustar a escala dos valores numéricos para facilitar a
comparação e melhorar o desempenho de modelos de aprendizado de máquina.
● Transformação de variáveis: Criar novas variáveis a partir de outras existentes ou
aplicar transformações matemáticas para simplificar análises ou melhorar a
interpretação dos dados.
● Detecção e tratamento de outliers: Identificar e tratar valores extremos que podem
afetar a análise ou a modelagem.
● Codificação de variáveis categóricas: Converter variáveis categóricas em formatos
numéricos, como codificação one-hot ou ordinal, para serem utilizadas em modelos
de aprendizado de máquina.
● Antes
● Aplicando o código para substituir o valor ? por 45 na coluna idade. *Lembrar de colocar a
vírgula no último comando de código antes de incluir o novo código.
Removendo colunas com a Linguagem M
Antes Depois
Ajusta nome de coluna com a Linguagem M
//Coluna Adicional
#"Coluna Condicional Adicionada" = Table.AddColumn(#"Coluna Renomeada", "% Desconto
Especial", each if [Tipo de Cliente] = "Bronze" then 5 else if [Tipo de Cliente] = "Prata" then 10 else if
[Tipo de Cliente] = "Ouro" then 15 else if [Tipo de Cliente] = "Diamante" then 20 else 0)
in
#"Coluna Condicional Adicionada"
Transformação logarítmica com a Linguagem M
Antes Depois
Ajustar o tipo da variável com a Linguagem M
Situação: de categórica para numeral
Expressão DAX é usada principalmente para a criação de medidas, colunas calculadas e tabelas
calculadas no modelo de dados do Power BI. DAX é uma linguagem de fórmula que permite
realizar cálculos avançados e análise de dados. A Expressão DAX é adequada para:
● Criar medidas dinâmicas que reagem a seleções e filtros aplicados no relatório (como vendas
totais, médias, taxas de crescimento, etc.).
● Criar colunas calculadas que se baseiam em outras colunas do modelo de dados (como
colunas calculadas que combinam nome e sobrenome, por exemplo).
● Definir tabelas calculadas com base em tabelas existentes ou medidas.
● Realizar análises de tempo (como comparação ano a ano, análise de séries temporais, etc.).
● Aplicar funções de contexto, como funções de filtro, iteração e avaliação, para calcular
valores em diferentes níveis de granularidade.
Use a Linguagem M no Editor de Consultas (Query Editor) para preparar e transformar os dados
antes de carregá-los no modelo de dados, e use a Expressão DAX no modelo de dados para criar
medidas, colunas calculadas e tabelas calculadas para análises avançadas e relatórios
dinâmicos.
Sistemas Gerenciadores de Bancos de Dados (SGBDs) são softwares responsáveis por gerenciar e
administrar bancos de dados. Os SGBDs facilitam a interação entre os usuários e os bancos de
dados, permitindo que eles executem operações como inserção, atualização, exclusão e consulta de
dados. Podem ser classificados em diferentes categorias, dependendo do modelo de banco de dados
que eles suportam, como:
Para carregarmos dados de algum banco de dados no PowerBI, é necessário instalar um conector
que irá fazer o intermédio entre o PowerBi e o SGBD, por exemplo: baixar um banco de dados no
power bi do MySQL, é necessário baixar um conector pra ele. Desse modo, o ODBC (Open
Database Connectivity), é amplamente utilizado para fornecer acesso a uma variedade de bancos de
dados, como Oracle, SQL Server, MySQL, PostgreSQL, entre outros.
ODBC é uma interface de programação de aplicativos (API) padrão que permite que aplicativos se
conectem a sistemas gerenciadores de bancos de dados (SGBDs) de diferentes fornecedores,
independentemente do sistema operacional, linguagem de programação ou modelo de banco de
dados. A principal vantagem do ODBC é que ele permite que os desenvolvedores escrevam
aplicativos que podem se conectar a diferentes SGBDs sem a necessidade de modificar o
código-fonte do aplicativo para cada banco de dados específico. Portanto, para que um aplicativo se
conecte a um determinado banco de dados, é necessário instalar e configurar o driver ODBC
apropriado para esse banco de dados.
SQLite é uma biblioteca em linguagem C que implementa um mecanismo de banco de dados SQL
pequeno , rápido , independente , de alta confiabilidade e completo . SQLite é o mecanismo de banco
de dados mais usado no mundo. O SQLite está integrado em todos os telefones celulares.
cap14
Como instalar o driver ODBC para conexão com o power bi?
Configurando driver ODBC para conexão com o poxer bi?
Conectando o Banco de Dados via ODBC.
**perguntas para eu lembrar de reassistir esses vídeos para quando eu precisar conectar algum banCo de dados no Power BI.
SQL ANALYTICS
Linguagem SQL
SQL Analytics
O SQL Analytics é um termo que se refere à análise de dados usando a linguagem SQL em
conjunção com técnicas de análise de dados e ferramentas de visualização. O objetivo é extrair
insights de grandes volumes de dados armazenados SGBD relacionais e outras fontes de dados
compatíveis com SQL. As principais características do SQL Analytics incluem:
- Análise de dados: Através de consultas SQL é possível realizar análises descritivas,
diagnósticas, preditivas e prescritivas para entender o passado e o presente dos dados e
fazer previsões para o futuro.
- Agregação e transformação de dados: A SQL permite agregar e transformar dados de várias
tabelas e colunas, facilitando a geração de informações úteis e insights a partir dos dados
brutos.
- Integração com ferramentas de BI (Business Intelligence) e visualização: As consultas SQL
podem ser usadas em conjunto com ferramentas de BI e visualização de dados, como
Tableau, Power BI e Looker(Google Data Studio), para criar painéis interativos e relatórios
que ajudam a comunicar os insights de forma eficaz.
- Otimização de desempenho: O SQL Analytics pode aproveitar técnicas avançadas de
otimização de consulta, como indexação, particionamento e materialização, para melhorar o
desempenho das consultas e a eficiência da análise de dados.
- Escalabilidade: Com o advento de soluções de armazenamento e processamento de
dados em larga escala, como Data Warehouses e bancos de dados baseados em nuvem, o
SQL Analytics pode lidar com volumes crescentes de dados e fornecer insights em tempo
real.
SQLiteStudio
SELECT
* = Selecionar tudo
Retorna apenas às colunas que foi no SELECT.
LIMIT
Retorna a quantidade de linhas desejadas com todas as colunas selecionadas pois SELECT *
DISTINCT
Auxilia a descobrir a quantidade de categorias em uma coluna.
Por exemplo, quantas colunas há na coluna segmento? R: 3.
WHERE
Filtra a informação que buscamos.
Por exemplo, quero saber apenas os pedidos do ano de 2014.
OPERADORES DE COMPARAÇÃO
=; >; <; =>; =< Filtra apenas o dado desejado.
Exemplo: Mostrar apenas as vendas com a quantidade maior que 10; para maior ou igual a 2.
OPERADORES LÓGICOS
Consegue concatenar duas condições.
Por exemplo, quero filtrar apenas a quantidade maior ou igual a 2 e as vendas com o valor menor a
900. Logo, uso o AND.
AND = para quando as condições forem verdadeiras.
OR = quando só uma condição é verdadeira.
BETWEEN
Filtra dados entre
Exemplo, quero apenas os valores de venda entre 310 e 320.
LIKE
Filtra texto (string).
Exemplo, filtrar apenas os produtos que contêm a palavra Clock.
O % é porque é uma string e puxa todos os produtos que contêm clock, independente da posição.
IN
Filtra apenas os valores que você deseja na coluna que contém a categoria.
Está em aspa porque são valores.
NOT IN
Filtra todos os valores que você deseja menos Móveis e Tecnologia.
Está em aspa porque são valores.
ORDER BY
Para ordenar por ordem alfabética.
FUNÇÕES
- MIN
- MAX
- AVG: média
- SUM: soma
- COUNT: contagem
Retorna
AS
Para formatar as saídas (nome das colunas):
AS : chame (renomeia).
ROUND
Para arredondar os valores é necessário colocar ROUND em frente e depois o número de casas (2):
JOIN
Une registros que estão em mais de uma tabela.
Exemplo, quero substituir os códigos para o produto pelo nome, porém, o nome está em outra tabela.
Query final:
Foi adicionado mais uma coluna (ANO) que estava na tabela pedidos, e por isso, foi para o group by
INSERT
Insere dados no banco de dados.
Exemplo, quero inserir esses valores no lugar de ID_Clientes, etc.
UPDATE
Atualizar.
Exemplo, quero atualizar a tabela clientes, configurando
1. SET = configurando as colunas recebendo tais valores.
2. Where = quando as colunas tiverem esses valores.
= quando a coluna id cliente tiver o valor 1000.
DELETE
Deleta da tabela apenas o id cliente que for igual a 1000
Segmentação de dados
As empresas podem utilizar técnicas de análise de dados e aprendizado de máquina para segmentar
sua base de clientes de forma mais precisa e sofisticada, identificando padrões e relações complexas
entre diferentes variáveis e comportamentos.
Problema de Negócio:
Considerando dados históricos de clientes que realizaram compras em nossa empresa, faça o
agrupamento (segmentação) dos clientes por similaridade de características em 3 grupos e
envie o relatório para a equipe de Marketing.
2. Para abrir a pasta com o arquivo, digitar: cd COLAR O CAMINHO DA PASTA AO LADO
Importando:
Pandas: pacote conhecido basicamente como Excel da linguagem python, pois é usado para
manipulação estruturada dos dados.
Sklearn = framework da linguagem python. Utlizar o pacote cluster.
KMeans = a função é utilizada para clusterização, ou seja, seus algoritmos é para agrupamentos..
segmentações. é uma função não supervisionada e recebe os dados padronizados, com a mesma
unidade de escala decimal.
Carregando os dados
Análise Exploratória
50% = mediana
No final, após gerar o relatório deve-se publicar o relatório para depois salvar na máquina e abrir no
Power Bi Desktop e editar.
Linguagem R para Machine Learning
Detectação de anomalias
A detecção de anomalias, também conhecida como detecção de outliers, é uma técnica em Machine
Learning e Estatística que visa identificar padrões incomuns, inesperados ou anômalos nos
dados. Esses padrões podem ser diferentes das observações normais de várias maneiras, como
magnitude, frequência ou comportamento. Existem várias abordagens para detectar anomalias em
Machine Learning, algumas das quais incluem:
- Métodos Estatísticos: Esses métodos baseiam-se na análise estatística dos dados, como
testes de hipóteses, distribuições de probabilidade e medidas de dispersão (por exemplo,
desvio padrão e intervalos interquartis). Observações que estão significativamente distantes
da média ou fora dos intervalos esperados são consideradas anômalas.
- Aprendizado Supervisionado: um modelo de Machine Learning é treinado usando um
conjunto de dados rotulados. O modelo aprende a distinguir entre as duas classes e, em
seguida, pode ser usado para classificar novas observações como normais ou
anômalas.
- Aprendizado Não Supervisionado: os algoritmos de Machine Learning são usados para
analisar dados não rotulados e identificar padrões ou agrupamentos naturais neles. As
anomalias são identificadas como pontos de dados que não se encaixam bem em nenhum
desses agrupamentos ou que estão significativamente distantes de outros pontos de dados.
Alguns exemplos de algoritmos de aprendizado não supervisionado usados para detecção de
anomalias incluem clustering (por exemplo, K-means) e técnicas de redução de
dimensionalidade (por exemplo, PCA).
- Aprendizado Semi-Supervisionado: os algoritmos são treinados em um conjunto de dados
parcialmente rotulado, que contém exemplos de observações normais e um pequeno número
de exemplos anômalos. O modelo aprende a distinguir entre as classes e identificar
novas anomalias com base nos padrões aprendidos.
- Métodos Baseados em Densidade: Esses métodos identificam anomalias como pontos de
dados que estão localizados em áreas de baixa densidade do espaço de recursos(atributos).
Um exemplo popular de algoritmo de detecção de anomalias baseado em densidade é o
DBSCAN (Density-Based Spatial Clustering of Applications with Noise).
- Métodos Baseados em Vizinhança: Esses métodos comparam a distância ou similaridade
entre pontos de dados e seus vizinhos para identificar anomalias. Os pontos de dados que
têm vizinhos significativamente diferentes de si mesmos são considerados anômalos.
Exemplos de algoritmos que empregam essa abordagem incluem o k-NN (k-Nearest
Neighbors) e o LOF (Local Outlier Factor).
Linguagem R
Foi criada para realizar análises estatísticas, logo, é uma linguagem de estatística.
Ordem de instalação: o R base versão 4.3.2, RTools e RStudio
Pacotes instalados:
(tidyverse), (dplyr), (readr): para manipular dados
library(solitude): permite usar o algoritmo de machin learnig para detecção de anomalis
library(ggplot2): pacote para visualização.
Depois de criado as previsões é necessário salvar o relatório no disco do computador, para assim,
conseguir abri-lo no Power BI.
No Power Bi
Não há gráfico de box plot de maneira nativa, logo, será necessário trazer o script do gráfico criado
no R para o Power Bi.
Lab08 = Foi realizado o agrupamento de dados históricos de transações financeiras de clientes, pois
os gestores suspeitam que algumas das transações possam ser fraudulentas. O objetivo então, foi
detectar anomalias, caso existam. O resultado deveria ser entregue no formato visual através de
gráficos no Power BI.
Portanto, foi utilizado Machine Learning para agrupar os dados de transações financeiras dos clientes
e então detectar e definir as anomalias (se existirem), a partir da linguagem R. Como não há gráfico
de box plot de maneira nativa no Power Bi, logo, foi necessário trazer o script do gráfico criado no
RStudio.
Inteligência Artificial e Análise de Séries Temporais
Séries Temporais
São um conjunto de pontos de dados coletados em intervalos sequenciais ao longo do tempo. Elas
são usadas para prever futuros pontos de dados com base em dados históricos. Essa análise pode
levar em conta tendências, sazonalidade e ciclos presentes nos dados. Alguns exemplos comuns de
utilização de séries temporais incluem a previsão do tempo, análise econômica, engenharia de
controle de processos e muito mais.
Conceitos importantes
A identificação e o ajuste da estacionaridade, tendência e sazonalidade podem ser essenciais
para a modelagem efetiva de séries temporais e para a realização de previsões precisas,
então:
Lab09 - são apresentados recursos de IA do Power BI para prever a média de unidades produzidas
ao longo do tempo e detecção de anomalias no segmento da Eng. Produção.
Gráfico de linha: nos permite analisar várias agregações ao mesmo tempo, por exemplo: ano,
trimestre,ou, ano, mês.
Inteligência de Dados Temporais
O Power Bi tem a opção “superficial” para a análise de dados temporais, a partir do acesso da
medida rápida.
2. PREVISÃO - habilitar
3. AJUSTES
IA para identificar anomalia
Seguir os mesmos passos realizados na previsão (clicar na lupa…etc). No entanto, você precisa
escolher se vai realizar a previsão ou então identificar a anomalia. E então é necessário ajustar o
nível de confidencialidade para acessar os graus de anomalias para visualizar se algo foge ou não do
padrão.
Modelagem de dados (= blueprint): consiste na definição/criação dos sistemas de coleta e
gerenciamento de informações, garantindo o formato e estrutura. Pode ser usada para:
- Data Warehouse (DW): repositório centralizado de dados de negócios.
- Design de Cubos Multidimensionais: otimiza as análises;
- Modelos Estrela (Star Schema): projeta DWs;
- Integração de dados;
- Governança de Dados
Noções:
● Transformar Dados = Power Query
● Para o carregamento de dados: importar arquivos CSV.
Utilização de gráficos:
- Cartão: uma métrica;
- Pizza: duas métricas e poucas categorias (até 3 ou 4);
- Cascata: até 05 categorias.
- Barra empilhada: três métricas.
- Dispersão: duas variáveis discretas.
- Barras: duas variáveis ( discreta e contínua), + categorias.
- Principais influenciadores: principais segmentos.
Matriz: mostra-se a hierarquia, já a tabela não. Logo, indica-se o uso para quando há
necessidade de mostrar a hierarquia, senão, pode-se usar a tabela.
Na matriz temos a opção drill up e down = pode auxiliar muito na hora de navegar pela
matriz e visualizar os dados de maneira exclusiva.
Aplicar gráficos na matriz: VISUAL - ELEMENTOS DA CÉLULA - BARRA DE DADOS
Filtros no gráfico: Lembrar que é possível usar a filtragem do próprio gráfico para localizar
os dados. *MiniP4
– Para criar ranking: =
PARA: OU:
Criar Pivot: para quando for necessário modificar a estrutura da tabela.
DAX é uma coleção de funções, operadores e constantes que podem ser usados em uma
fórmula ou expressão, para calcular e retornar um ou mais valores. Para falar de forma mais
simples, o DAX ajuda a criar novas informações de dados que já estão em seu modelo.
- ROUND = arredonda o valor
- SUM = é aplicada a uma coluna específica e retorna a soma dos valores nessa
coluna.
- SUMX = realiza uma soma ponderada ou uma soma com base em uma expressão
específica.
*A diferença principal entre as duas funções é que o SUM opera em uma única coluna,
enquanto o SUMX permite a aplicação de uma expressão em várias colunas ou tabelas.
- COUNTROWS = conta as linhas.
- CALCULATE = é possível filtrar os dados para calcular o valor. EX: quantos são
femininos? Ex: TotalFeminino = CALCULATE ([TotalFunc], [DatasetRH[Genero] = “Feminino”)
- DIVIDE = realiza a divisão, coloca-se primeiro o numerador e depois o denominador.
Ex: %Feminino = DIVIDE([TotalFeminino],[TotalFunc],0) *Colocar o zero para evitar que a função “estoure”
- AVERAGE = realiza a média.
- FILTER = possibilita a filtragem na coluna. || (operador lógico ou). Ex: Fiz no MiniP4
- MODA - cap11
Cria-se uma medida e código DAX, ex:
ModaAltura =
VAR TabelaFrequencia =
SUMMARIZE(
dados_pacientes,
dados_pacientes[altura(cm)],
"Frequencia", COUNT(dados_pacientes[altura(cm)])
)
VAR MaiorFrequencia =
MAXX(
TabelaFrequencia,
[Frequencia]
)
RETURN
CONCATENATEX(
FILTER(TabelaFrequencia, [Frequencia] = MaiorFrequencia),
dados_pacientes[altura(cm)],
", "
)