Você está na página 1de 43

Microsoft Power BI Para Business Intelligence e Data Science

1. ÁREAS DE NEGÓCIO: PRINCIPAIS KPIs......................................................................... 2


1.1 MARKETING................................................................................................................ 2
1.2 COMERCIAL................................................................................................................ 2
1.3 RECURSOS HUMANOS..............................................................................................3
1.4 LOGÍSTICA.................................................................................................................. 3
1.5 FINANCEIRO............................................................................................................... 4
Principais despesas da área........................................................................................ 4
Principais fontes de receitas........................................................................................ 5
1.6 CONTÁBIL................................................................................................................... 5
1.7 BOLSA DE VALORES..................................................................................................6
Perguntas de negócio para o dashboard..................................................................... 7
2. ESTATÍSTICA FUNDAMENTAL PARA CIÊNCIA DE DADOS........................................... 7
Parâmetro x Estatística................................................................................................ 8
2.1 AMOSTRAGEM........................................................................................................... 8
2.2 DADOS PRIMÁRIOS E SECUNDÁRIOS.....................................................................9
2.3 OBSERVAÇÕES X VARIÁVEIS................................................................................. 10
2.4 MEDIDAS DE POSIÇÃO............................................................................................10
Média..........................................................................................................................10
Mediana......................................................................................................................10
Moda...........................................................................................................................11
2.5 MEDIDAS DE DISPERSÃO....................................................................................... 11
Variância..................................................................................................................... 11
Desvio padrão.............................................................................................................11
Coeficiente de variação (CV%)...................................................................................11
2.6 MEDIDAS DE POSIÇÃO RELATIVA..........................................................................12
Percentis.................................................................................................................... 12
Quartis........................................................................................................................ 12
Z-score....................................................................................................................... 12
2.7 MÉTODOS ESTATÍSTICOS.......................................................................................12
3. DATA SCIENCE E BIG DATA ANALYTICS...................................................................... 13
4. MANIPULAÇÃO DE DADOS............................................................................................ 14
5. POWER QUERY M-LANGUAGE...................................................................................... 15
Engenharia de Atributos (Feature Engineering)...............................................................15
Como verificar a qualidade dos dados?..................................................................... 16
Como verificar a distribuição dos dados?.................................................................. 16
Limpeza de dados com a Linguagem M para substituir valor.................................... 16
1. ÁREAS DE NEGÓCIO: PRINCIPAIS KPIs

1.1 MARKETING
É importante compreender o perfil dos clientes, o comportamento de gastos e os
padrões de compra de acordo com diferentes métricas.
- Taxa de conversão: A proporção de visitantes do site que realizam uma ação
desejada,como comprar um produto ou preencher um formulário de contato.
- Taxa de retenção do cliente: A proporção de clientes que compram de uma empresa
novamente.
- Custo por aquisição de cliente (CAC): O custo total de adquirir um novo cliente,
incluindo despesas com publicidade e marketing.
- Retorno sobre investimento (ROI): O lucro ou prejuízo obtido em relação ao
investimento feito em uma campanha de marketing.
- Conscientização da marca: A medida da familiaridade e reconhecimento da marca
entre o público-alvo.
- Engajamento: A medida da interação dos usuários com conteúdo, campanhas e
canais de marketing.
- Net Promoter Score (NPS): Uma medida da lealdade dos clientes, baseada em sua
disposição para recomendar uma empresa ou produto para outras pessoas.
- Tráfego do website: Número de visitas no website.

1.2 COMERCIAL
- Volume de vendas: quantidade de produtos ou serviços vendidos.
- Ticket médio: valor médio das vendas por transação.
- Taxa de conversão: proporção de visitantes do site ou contatos que se tornam
clientes.
- Ciclo de vendas: tempo médio que leva para fechar uma venda, desde o primeiro
contato com o cliente até o fechamento.
- Retenção de clientes: taxa de clientes que compram novamente após a primeira
compra.
- Lucratividade: receita líquida obtida pela venda de produtos ou serviços,
descontados os custos.
- Produtividade da equipe de vendas: quantidade de vendas realizadas por vendedor
por período.
- Satisfação do cliente: medida da satisfação dos clientes com a empresa, produtos e
serviços oferecidos.

1.3 RECURSOS HUMANOS


- Taxa de rotatividade: frequência com que os funcionários saem da empresa.
- Satisfação do funcionário: mede o grau de satisfação dos funcionários com relação
ao trabalho, remuneração, ambiente de trabalho e oportunidades de desenvolvimento.
- Tempo médio para preenchimento de vagas: mede o tempo necessário para
preencher uma vaga aberta, o que pode indicar a eficiência do processo de
recrutamento e seleção.
- Custo de contratação por funcionário: mede o custo total de contratar um
novo funcionário, incluindo gastos com anúncios de vagas, entrevistas, testes e
treinamento.
- Participação em treinamentos: mede o número de funcionários que participam
de programas de treinamento e desenvolvimento, o que pode indicar o interesse dos
funcionários em melhorar suas habilidades e desenvolver suas carreiras.
- Avaliação de desempenho: mede a avaliação do funcionário em um ciclo de
trabalho, normalmente 6 meses ou 12 meses.
- Nível de absenteísmo: frequência com que os funcionários faltam ao trabalho, o que
pode indicar problemas com o ambiente de trabalho ou saúde dos funcionários.
- Nível de engajamento: escala que define quão engajados os funcionários estão,
normalmente medida com base no nível de absenteísmo, pontualidade, avaliação
de desempenho,etc.

1.4 LOGÍSTICA
- Tempo de ciclo: o tempo necessário para atender um pedido, desde o momento em
que é feito até o momento em que é entregue ao cliente.
- Taxa de entrega no prazo: a porcentagem de pedidos entregues dentro do prazo.
- Custo de transporte: o custo médio por unidade ou por pedido para transportar
os produtos.
- Nível de estoque: o número de dias ou semanas de suprimento de estoque disponível.
- Taxa de devolução: a porcentagem de pedidos devolvidos pelos clientes.
- Índice de acurácia de estoque: a precisão do estoque registrado em relação ao
estoque real.
- Taxa de utilização de armazenamento: a porcentagem do espaço de armazenamento
disponível que está sendo utilizado.
- Nível de serviço ao cliente: a satisfação geral do cliente com o serviço de
logística, incluindo tempo de entrega, qualidade do produto e atendimento ao cliente.
- Taxa de ocorrência de avarias: a porcentagem de produtos que sofrem danos
durante o transporte ou armazenamento.
- Índice de retorno sobre investimento (ROI): o retorno financeiro gerado pelos
investimentos em logística, como sistemas de gerenciamento de armazéns ou
software de rastreamento de pedidos.

1.5 FINANCEIRO
- Fluxo de caixa: é uma medida do dinheiro que entra e sai da empresa em um
determinado período de tempo. O fluxo de caixa positivo é um sinal de que a empresa
está gerando receita suficiente para cobrir suas despesas.
- Margem de lucro: é a porcentagem de lucro que a empresa ganha em cada venda.
Ela pode ser calculada dividindo o lucro líquido pela receita total.
- Retorno sobre o investimento (ROI): é uma medida do retorno que a
empresa está obtendo de seus investimentos. O ROI pode ser calculado dividindo o
lucro pelo investimento inicial.
- Endividamento: é a medida da quantidade de dívida que a empresa tem em relação
ao seu patrimônio líquido. Ele pode ser calculado dividindo a dívida total pelo
patrimônio líquido.
- Faturamento: é a receita total que a empresa gera em um determinado
período de tempo.
- Custo de aquisição de clientes (CAC): é a quantidade de dinheiro que a empresa
gasta para adquirir cada novo cliente. Ele pode ser calculado dividindo o custo total
de marketing e vendas pelo número de novos clientes.
- Prazo médio de pagamento (PMP): é o tempo médio que a empresa leva para pagar
seus fornecedores. Ele pode ser calculado dividindo o valor total das compras pelo
valor total pago a fornecedores em um determinado período de tempo.

Principais despesas da área


Produção: incluem os custos dos materiais, equipamentos, mão de obra e outros custos
relacionados à produção de bens ou serviços.
Administrativas: incluem os custos relacionados à administração da empresa, como aluguel,
serviços públicos, telefone, internet, material de escritório, salários e benefícios dos
funcionários administrativos, entre outros.
Vendas e marketing: incluem os custos relacionados à venda e promoção de produtos ou
serviços, como publicidade, comissões de vendas, material promocional, eventos de
marketing e outras despesas relacionadas.
Financeiras: incluem os custos relacionados ao financiamento da empresa, como juros
de empréstimos, taxas bancárias, despesas de cartão de crédito, entre outros.
Impostos e taxas: incluem os impostos, taxas e tributos que a empresa deve pagar, como
imposto de renda, ICMS, ISS, contribuições previdenciárias e outras obrigações fiscais.
Despesas com tecnologia: incluem os custos relacionados à tecnologia da informação, como
software, hardware, serviços em nuvem, licenças, manutenção, suporte técnico, etc.
Despesas com pesquisa e desenvolvimento: incluem os custos relacionados à pesquisa e
desenvolvimento de novos produtos ou serviços, incluindo salários e benefícios de
pesquisadores, equipamentos, materiais e outros custos relacionados.

Principais fontes de receitas


Vendas de produtos ou serviços: a maioria das empresas obtém sua receita vendendo
produtos ou serviços para seus clientes. A receita é gerada pelas vendas de produtos ou
serviços, menos os custos associados à produção e vendas.
Investimentos: muitas empresas investem parte do faturamento em investimentos e
ativos financeiros que rendem juros e, portanto, os investimentos se tornam fontes de receita.
Publicidade: empresas de mídia e plataformas de conteúdo podem gerar receita com
publicidade, vendendo espaço publicitário para anunciantes.
Licenciamento: podem gerar receita por meio de acordos de licenciamento, permitindo que
outras empresas usem seus ativos em troca de uma taxa.
Venda de ativos: empresas podem gerar receita vendendo ativos, como propriedades,
equipamentos ou outros recursos que não são mais necessários para suas operações.
Franquias: empresas podem gerar receita com a venda de franquias para empreendedores.
Consultoria e serviços profissionais: gerar receita por meio de taxas de consultoria e
honorários de serviços prestados.

1.6 CONTÁBIL
Principais relatórios:

Balanço Patrimonial (BP): É um relatório que apresenta a posição financeira da empresa em


um determinado momento. Ele mostra os ativos (bens e direitos) e passivos (obrigações) da
empresa, bem como o patrimônio líquido. É dividido em duas partes principais: uma que
apresenta os ativos, e outra que apresenta os passivos e o patrimônio líquido. O objetivo é
mostrar que a soma dos ativos é igual à soma dos passivos mais o patrimônio líquido, ou seja,
que o patrimônio líquido representa a diferença entre os recursos que a empresa possui e as
obrigações que ela tem.

Demonstração de Resultado do Exercício (DRE): É um relatório que apresenta o resultado


das operações da empresa durante um período de tempo. Ele mostra as receitas,
despesas e lucro líquido (ou prejuízo) da empresa.

Demonstração do Fluxo de Caixa (DFC): É um relatório que apresenta o fluxo de caixa da


empresa durante um período de tempo. Ele mostra as entradas e saídas de caixa da empresa e
o saldo de caixa no final do período.

Demonstrativo de Lucros ou Prejuízos Acumulados (DLPA): Este importante relatório


contábil indica as mudanças e aplicações do patrimônio líquido de uma empresa
durante o período considerado, permitindo identificar a origem do recurso e averiguar
sua gestão. Na prática, o DLPA deriva dos resultados obtidos no DRE e no balanço
patrimonial, é obrigatório às sociedades limitadas, evidencia lucros e prejuízos e ajuda a
avaliar se o investimento é adequado e rentável.
Relatório de Análise de Desempenho: É um relatório que apresenta uma análise
detalhada dos resultados financeiros da empresa, comparando com períodos anteriores e com
outras empresas do mesmo setor.

Notas Explicativas: São informações adicionais que acompanham os relatórios financeiros e


fornecem detalhes sobre as políticas contábeis da empresa, suas operações e outras
informações relevantes. Essas notas ajudam a interpretar os relatórios financeiros e a entender
melhor a situação financeira da empresa.
● Os links abaixo fornecem detalhes complementares:
https://www.diretogroup.com/o-que-sao-relatorios-contabeis/#
https://www.guiaempreendedor.com/guia/relatorios-contabeis

1.7 BOLSA DE VALORES


A NASDAQ (National Association of Securities Dealers Automated Quotations) é a
segunda maior bolsa de valores do mundo em termos de capitalização de mercado, atrás
apenas da Bolsa de Valores de Nova York (NYSE). Oferece serviços de listagem de empresas
e serviços de compensação e liquidação de negociações realizadas em sua bolsa, e os dados
podem ser extraídos em: https://www.nasdaq.com/market-activity/stocks Clicar:

MARKET ACTIVITY - STOCKS - DIGITA O NOME DA EMPRESA - Historical Quotes - DOWNLOAD

Os dados incluem várias colunas, cada uma fornecendo informações específicas sobre o
preço e o volume de negociação das ações negociadas no mercado:
- Coluna "Date" (Data): Esta coluna fornece a data em que a ação foi negociada na
NASDAQ.
- Coluna "Close/Last" (Fechamento/Último Preço): Esta coluna fornece o preço de
fechamento da ação no final do dia de negociação. O preço de fechamento é o último
preço pelo qual a ação foi negociada naquele dia.
- Coluna "Volume": Esta coluna indica o número total de ações negociadas durante o
dia. Isso pode incluir várias transações feitas por um ou mais investidores.
- Coluna "Open" (Preço de Abertura): Esta coluna indica o preço de abertura da ação na
NASDAQ no início do dia de negociação. O preço de abertura é o primeiro preço pelo
qual a ação foi negociada naquele dia.
- Coluna "High" (Preço Máximo) e "Low" (Preço Mínimo): Estas colunas indicam o
preço máximo e mínimo que a ação foi negociada naquele dia. O preço máximo é o
preço mais alto pelo qual a ação foi negociada durante o dia, enquanto o preço
mínimo é o preço mais baixo pelo qual a ação foi negociada.

A cotação de ações é de fato uma série temporal (ou seja, um evento que ocorre ao longo do
tempo) e o Power BI oferece uma funcionalidade para manipular esse tipo de dado, chamado
de Time Intelligence (que é um recurso de manipulação de datas de forma simplificada).

Perguntas de negócio para o dashboard


1-Qual o total de volume negociado de ações ao longo do tempo para as 5 empresas que
estão sendo analisadas?
2-Qual o valor médio de abertura (Open), mais alto (High), mais baixo (Low) e de
fechamento (Close) das ações de todas as empresas para todos os meses do período de dados
analisado (1 ano em nosso exemplo)? Mostre no formato de tabela e permita que essa
análise seja feita para uma única empresa ou combinação de empresas.
3-Qual a variação da média do valor de fechamento (close) das ações de todas as
empresas ao longo do tempo, mês a mês? Permita que essa análise seja feita para
uma única empresa ou combinação de empresas.
4-Use a Narrativa Inteligente para explicar as principais características e tendências nos
dados.

- Para descobrir a variação da média de close mês a mês:


MEDIDA RÁPIDA - ALTERAÇÃO DE MÊS A MÊS.
- Também usaremos o recurso de Narrativa Inteligente para que o Power BI ajude a
explicar o comportamento dos dados de forma automática.

2. ESTATÍSTICA FUNDAMENTAL PARA CIÊNCIA DE DADOS

A estatística lida com a coleta, análise, interpretação, apresentação e organização de dados.


Pode ser dividida em duas áreas principais:
- Estatística Descritiva: foca na organização, resumo e apresentação dos dados de
maneira eficiente, utilizando gráficos, tabelas e medidas numéricas como média,
mediana, moda, variância e desvio padrão.
- Estatística Inferencial: utiliza técnicas e métodos para fazer generalizações e
previsões a partir de dados amostrais, permitindo inferências sobre uma população
maior. Algumas das principais técnicas incluem:
A. Estimação pontual e intervalar são usadas para estimar parâmetros
populacionais, como a média ou a proporção, com base em dados amostrais e
um grau de incerteza associado.
B. Testes de hipóteses são usados para testar afirmações ou suposições sobre
parâmetros populacionais, como comparar médias entre dois grupos ou
verificar se uma proporção é significativamente diferente de um valor
esperado.
C. Análise de regressão é usada para modelar a relação entre uma variável
dependente e uma ou mais variáveis independentes, permitindo prever valores
futuros ou identificar variáveis que impactam o resultado de interesse.
D. Análise de variância (ANOVA) é uma técnica usada para comparar as
médias de dois ou mais grupos, verificando se há diferenças significativas
entre eles.
E. Modelos probabilísticos e análise de séries temporais são usados para
analisar e modelar eventos aleatórios e a evolução de variáveis ao longo do
tempo;

Parâmetro x Estatística

● Parâmetro: Um parâmetro é uma medida numérica que descreve uma característica


específica de uma população.
● Estatística é uma medida numérica calculada a partir de uma amostra selecionada da
população.
A diferença entre os dois reside no fato de que os parâmetros são valores fixos e
desconhecidos relacionados à população, enquanto as estatísticas são valores variáveis e
conhecidos obtidos a partir de amostras.

2.1 AMOSTRAGEM

Amostragem Probabilística: cada elemento da população tem uma chance conhecida e não
nula de ser selecionado para a amostra. Essas técnicas geralmente resultam em amostras mais
representativas e permitem o cálculo de medidas de incerteza, como margem de erro e
intervalos de confiança. As principais técnicas de amostragem probabilística incluem:
a. Amostragem aleatória simples: Cada elemento da população têm igual
probabilidade de ser selecionado. É como um sorteio onde todos os elementos têm a
mesma chance de serem escolhidos.
b. Amostragem sistemática: Os elementos da população são selecionados em
intervalos fixos, a partir de um ponto de partida aleatório. Por exemplo, a cada 10
elementos, um é escolhido.
c. Amostragem estratificada: A população é dividida em subgrupos homogêneos,
chamados estratos, e uma amostra aleatória é selecionada de cada estrato. Isso
garante que todos os segmentos da população sejam adequadamente representados na
amostra
d. Amostragem por conglomerados: A população é dividida em grupos heterogêneos,
chamados conglomerados. Alguns conglomerados são selecionados aleatoriamente e
todos os elementos desses conglomerados são incluídos na amostra. Os
conglomerados podem ser selecionados com base em critérios geográficos,
demográficos ou outros.
Amostragem Não Probabilística: a seleção dos elementos da população não é baseada na
probabilidade. Essas técnicas são mais fáceis e rápidas de serem executadas, mas podem
resultar em amostras menos representativas e não permitem o cálculo de medidas de
incerteza. As principais técnicas de amostragem não probabilística incluem:
a. Amostragem por conveniência: A seleção dos elementos é baseada na facilidade de
acesso e na disponibilidade. Essa técnica pode ser enviesada, já que nem todos os
elementos têm a mesma chance de serem selecionados.
b. Amostragem por julgamento: O pesquisador seleciona os elementos da amostra
com base em seu conhecimento e critério. Embora possa ser útil em casos específicos,
essa técnica é suscetível a vieses e erros de julgamento.
c. Amostragem por quotas: Semelhante à amostragem estratificada, a população é
dividida em subgrupos. No entanto, os elementos são selecionados de forma não
aleatória, com base em características específicas, até que uma quota pré-determinada
seja atingida.

2.2 DADOS PRIMÁRIOS E SECUNDÁRIOS

Dados Primários são informações coletadas diretamente pelo pesquisador ou sua


equipe para responder a uma pergunta específica de pesquisa ou atender a um objetivo
específico. As vantagens incluem a relevância direta para a questão de pesquisa, a
possibilidade de personalização das perguntas e a capacidade de controlar a qualidade e a
confiabilidade dos dados. No entanto, a coleta pode ser demorada e custosa.
Dados secundários são informações já coletadas e disponíveis, que foram geradas em
pesquisas anteriores, ou que são coletadas regularmente por organizações ou agências. Esses
dados não são coletados especificamente para a pergunta de pesquisa em questão, mas podem
ser aplicados ou reutilizados para responder a novas perguntas.

2.3 OBSERVAÇÕES X VARIÁVEIS

Observações, também conhecidas como casos ou registros, são as unidades individuais de


informação em um conjunto de dados. Em um conjunto de dados, as observações são
geralmente organizadas em linhas.
Variáveis, por outro lado, são as características ou atributos medidos ou registrados para cada
observação. Em um conjunto de dados, as variáveis são geralmente organizadas em colunas.
- Por exemplo, a altura e o peso seriam variáveis no conjunto de dados dos estudantes.
Cada estudante (observação) teria um valor específico para a altura e outro para o
peso (variáveis).
Tipos de variáveis
● Qualitativas: utilizam termos descritivos para descrever algo de interesse. Ex: cor dos
olhos, estado civil, religião, gênero, grau de escolaridade, classe social, etc.
● Quantitativas: representadas por valores numéricos que podem ser contados ou
medidos. Ex: número de crianças em uma sala de aula, peso do corpo humano, idade,
etc.

2.4 MEDIDAS DE POSIÇÃO


(conhecidas como medidas de tendência central)

Média
É a soma de todos os valores de um conjunto de dados dividida pelo número total de
valores. É uma das medidas de tendência central mais comuns e frequentemente usada para
representar o valor "típico" de um conjunto de dados. A média pode ser afetada por valores
extremos (outliers) e pode não ser a melhor representação do centro dos dados em tais casos.

Mediana
É o valor que separa um conjunto de dados ordenado em duas metades iguais. Se o
número total de valores no conjunto de dados é ímpar, a mediana é o valor do meio. Se o
número total de valores é par, a mediana é a média dos dois valores centrais. A mediana é
menos sensível a valores extremos e pode ser uma medida mais representativa do centro dos
dados quando a distribuição é assimétrica ou contém outliers(valores extremos).

Moda
É o valor que ocorre com maior frequência em um conjunto de dados. Um conjunto
de dados pode ter nenhuma moda, uma moda (unimodal) ou várias modas (multimodal).
A moda pode ser usada para dados numéricos ou categóricos e é uma medida útil da
tendência central, especialmente quando a média e a mediana não são aplicáveis ou não
fornecem uma representação adequada do centro dos dados.

2.5 MEDIDAS DE DISPERSÃO


(quão dispersos estão os valores em torno da medida central)

Variância
É uma medida que indica o quanto os valores em um conjunto de dados variam em
torno da média. Uma variância maior indica uma maior dispersão dos valores,
enquanto uma variância menor sugere que os valores estão mais próximos da média. A
variância é calculada como a média dos quadrados das diferenças entre cada valor e a média
do conjunto de dados.

Desvio padrão
É a raiz quadrada da variância e também mede a dispersão dos valores em um
conjunto de dados. Ele é expresso na mesma unidade de medida dos valores originais, o que o
torna mais fácil de interpretar em comparação com a variância.

Coeficiente de variação (CV%)


É uma medida estatística que expressa a relação entre o desvio padrão e a média de
um conjunto de dados. Ele é usado para comparar a variabilidade entre conjuntos de dados
com médias diferentes e unidades de medida distintas. O coeficiente de variação é
especialmente útil quando se deseja comparar a dispersão de dois ou mais conjuntos de dados
que possuem diferentes escalas ou unidades de medida. Um CV menor indica que os dados
são menos dispersos em relação à média, enquanto um CV maior indica que os dados são
mais dispersos.
2.6 MEDIDAS DE POSIÇÃO RELATIVA

Percentis
São medidas que dividem um conjunto de dados ordenado em 100 partes iguais. O
percentil de um valor específico indica a porcentagem de valores no conjunto de dados que
são menores ou iguais a esse valor. Por exemplo, um valor no percentil 25 (P25) indica que
25% dos valores no conjunto de dados são menores ou iguais a esse valor. Os percentis são
úteis para comparar a posição relativa de um valor dentro de diferentes conjuntos de dados e
para entender a dispersão dos dados.

Quartis
São medidas semelhantes aos percentis, mas dividem um conjunto de dados ordenado
em quatro partes iguais. Existem três quartis. Q1 corresponde ao percentil 25 (P25), Q2
corresponde à mediana (percentil 50 -P50) e Q3 corresponde ao percentil 75 (P75). Os quartis
ajudam a entender a dispersão dos dados e a identificar a presença de valores extremos ou
outliers.

Z-score
É uma medida que expressa a posição relativa de um valor em relação à média e ao
desvio padrão de um conjunto de dados. Ele indica quantos desvios padrão um valor
específico está acima ou abaixo da média do conjunto de dados. Um z-score positivo indica
que o valor está acima da média, enquanto um z-score negativo indica que o valor está abaixo
da média. Os z-scores são úteis para comparar a posição relativa de valores em diferentes
conjuntos de dados e para identificar valores extremos ou outliers.

2.7 MÉTODOS ESTATÍSTICOS


(mais comuns)

Análise Descritiva: envolve a descrição e resumo dos dados por meio de medidas de
tendência central (média, mediana, moda), medidas de dispersão (variância, desvio
padrão, coeficiente de variação), e medidas de posição relativa (percentis, quartis, z-scores).
Essa análise fornece uma visão geral dos dados e ajuda a entender sua distribuição e
características básicas.

Análise Exploratória de Dados (EDA–Exploratory Data Analysis): A EDA é uma


abordagem para analisar conjuntos de dados, geralmente com o objetivo de identificar
padrões, tendências, outliers e relações entre variáveis. Essa análise envolve a criação de
gráficos, como histogramas, gráficos de dispersão, gráficos de caixa e gráficos de barras, para
visualizar os dados e gerar insights.
Testes de hipóteses: são métodos estatísticos que envolvem a formulação de hipóteses nulas
e alternativas sobre os parâmetros de uma população e o uso de dados amostrais para testar a
validade dessas hipóteses. Exemplos de testes de hipóteses incluem o teste t de Student, o
teste qui-quadrado e o teste de Mann-Whitney.

Regressão: utilizado para modelar a relação entre uma variável dependente e uma ou mais
variáveis independentes. A regressão linear é a forma mais simples de regressão e descreve a
relação linear entre as variáveis.

Análise de Variância (ANOVA): utilizado para comparar as médias de três ou mais grupos,
determinando se existem diferenças significativas entre eles. Existem vários tipos de
ANOVA, como ANOVA de um fator, ANOVA de dois fatores e ANOVA de medidas
repetidas.

Análise de séries temporais: envolve a análise de dados coletados ao longo do tempo para
identificar padrões, tendências e ciclos. Essa análise pode incluir a decomposição da série
temporal em componentes sazonais e de tendência, a aplicação de modelos autorregressivos e
de médias móveis (ARIMA) e a previsão de valores futuros.

Análise de Agrupamento (Clusterização): é um método de aprendizado não supervisionado


que agrupa observações com base em suas características e semelhanças. Existem
vários algoritmos de agrupamento, como k-means, agrupamento hierárquico e DBSCAN.

Análise de Componentes Principais (PCA): A PCA é uma técnica de redução de


dimensionalidade que transforma um conjunto de dados com muitas variáveis
correlacionadas em um conjunto de dados com variáveis não correlacionadas chamadas
de componentes principais.

3. DATA SCIENCE E BIG DATA ANALYTICS

Data Science incorpora elementos de diversas áreas, como estatística, ciência da


computação, matemática aplicada, aprendizado de máquina (Machine Learning), visualização
de dados e conhecimento de domínio específico. O objetivo em Data Science é resolver
problemas complexos e tomar decisões informadas com base em análises e interpretações de
grandes volumes de dados.

Big Data Analytics é o processo de analisar e extrair informações valiosas de grandes


conjuntos de dados, para identificar padrões, tendências e correlações. Esses dados são
caracterizados por seu grande volume, variedade e velocidade. Envolve o uso de técnicas
avançadas de análise de dados, como Machine Learning, mineração de dados, processamento
de linguagem natural (PLN) e análise de texto. Algumas aplicações do Big Data Analytics
incluem:
- Análise preditiva: Usando técnicas de aprendizado de máquina e análise estatística
para prever eventos futuros, como demanda do cliente, falhas de equipamentos ou
resultados eleitorais.
- Análise de sentimentos: Analisando o conteúdo de redes sociais, avaliações e
comentários dos clientes para entender o sentimento do público em relação a
produtos, serviços ou eventos.
- Detecção de fraudes: Identificando atividades suspeitas e padrões de comportamento
anormal em transações financeiras, comunicações ou registros de acesso.
- Análise de risco: Avaliando riscos e incertezas em setores como finanças, seguros e
saúde, usando dados históricos e em tempo real para modelar e prever
possíveis resultados.
- Recomendação personalizada: Desenvolvendo sistemas de recomendação que
forneçam conteúdo, produtos ou serviços personalizados com base no comportamento
passado e nas preferências dos usuários.
- Otimização da cadeia de suprimentos: Analisando dados de inventário, logística e
vendas para melhorar a eficiência, reduzir custos e prever necessidades futuras.

4. MANIPULAÇÃO DE DADOS
Algumas das principais tarefas de limpeza e manipulação de dados incluem:
● Remoção de dados duplicados: Eliminar registros duplicados que podem
distorcer a análise.
● Tratamento de valores ausentes: Substituir, remover ou estimar valores ausentes nos
dados, usando métodos como média, mediana, interpolação ou outros algoritmos.
● Correção de erros de digitação e inconsistências: Identificar e corrigir erros de
digitação, formatação e padronização dos dados.
● Conversão de tipos de dados: Transformar variáveis em tipos de dados apropriados,
como numérico, categórico ou textual.
● Renomeação e reorganização de colunas: Ajustar os nomes das colunas para facilitar a
compreensão e organizá-las de acordo com a necessidade da análise.
● Filtragem e seleção de dados: Extrair subconjuntos específicos de dados com base em
critérios pré-determinados, como faixas de valores ou categorias.
● Discretização e binning: Converter variáveis contínuas em categorias ou agrupar
dados em intervalos específicos para análise.
● Normalização e padronização: Ajustar a escala dos valores numéricos para facilitar a
comparação e melhorar o desempenho de modelos de aprendizado de máquina.
● Transformação de variáveis: Criar novas variáveis a partir de outras existentes ou
aplicar transformações matemáticas para simplificar análises ou melhorar a
interpretação dos dados.
● Detecção e tratamento de outliers: Identificar e tratar valores extremos que podem
afetar a análise ou a modelagem.
● Codificação de variáveis categóricas: Converter variáveis categóricas em formatos
numéricos, como codificação one-hot ou ordinal, para serem utilizadas em modelos
de aprendizado de máquina.

Essas etapas podem variar de acordo com o contexto e os objetivos da análise, e as


ferramentas utilizadas para limpeza e manipulação de dados podem incluir linguagens de
programação como Python, R e SQL, bem como software específico para análise de dados,
como Excel, Power BI ou Tableau.

5. POWER QUERY M-LANGUAGE


A linguagem possibilita customizar os comandos e assim manipular os dados, como
por exemplo, remover a linha duplicada. A linguagem M é uma parte essencial do processo
de modelagem de dados no Power BI e Excel, pois permite que você prepare e modele
seus dados antes de criar visualizações e relatórios. Para ETL há linguagens melhores,
mais poderosas e mais fáceis do que a Linguagem M, como por exemplo Linguagem R e
Linguagem Python. A Linguagem M pode ser usada em casos específicos ou para algum tipo
de customização no Power BI.
Power Query = uma ferramenta de ETL (Extração, Transformação e Carga)

Algumas das principais características e funcionalidades da linguagem M incluem:


● Extração de dados: A linguagem M permite extrair dados de várias fontes,como
bancos de dados, arquivos de texto, APIs da web, etc.
● Transformação de dados: Com a linguagem M, você pode realizar várias
operações de transformação de dados, como filtrar, classificar, agrupar, mesclar, unir,
dividir colunas, etc.
● Funções personalizadas: A linguagem M permite que você crie funções
personalizadas para atender às suas necessidades específicas de transformação de
dados.
● Integração com o Power Query: A linguagem M é totalmente integrada ao Power
Query Editor no Power BI, Excel e outras ferramentas da Microsoft, permitindo
uma experiência de usuário simplificada.

Engenharia de Atributos (Feature Engineering)


Técnicas que melhoram a performance dos modelos de aprendizado de máquina, além de
tornar os dados mais informativos e relevantes para a análise, como:
● Seleção de atributos: Identificar e selecionar os atributos mais importantes e
relevantes para o problema em questão. Isso pode envolver a remoção de atributos
com alta correlação, redundantes ou irrelevantes.
● Transformação de atributos: Modificar ou transformar os atributos existentes
para torná-los mais úteis para análise ou criação de modelos de Machine Learning.
Isso pode incluir normalização, padronização, discretização, aplicação de funções
logarítmicas ou exponenciais, entre outras.
● Criação de novos atributos: Criar novos atributos a partir dos existentes,
combinando-os ou aplicando funções matemáticas. Isso pode envolver a criação de
atributos polinomiais, interações entre atributos, atributos derivados de funções
matemáticas, entre outros.
● Tratamento de valores ausentes: Lidar com valores ausentes (missing values) no
conjunto de dados, substituindo-os por medidas estatísticas, como média, mediana ou
moda, ou utilizando técnicas mais avançadas, como a interpolação ou a imputação por
modelos de aprendizado de máquina.
● Codificação de variáveis categóricas: Converter variáveis categóricas em
representações numéricas que possam ser utilizadas pelos modelos de aprendizado de
máquina. Isso pode incluir a aplicação de técnicas como one-hot encoding, ordinal
encoding ou label encoding.

Como verificar a qualidade dos dados?


POWER QUERY - EXIBIÇÃO - QUALIDADE DA COLUNA
Vai aparecer o percentual da qualidade sobre dados faltantes, erros e válidos.

Como verificar a distribuição dos dados?


POWER QUERY - EXIBIÇÃO - DISTRIBUIÇÃO DA COLUNA

Limpeza de dados com a Linguagem M para substituir valor


POWER QUERY - EXIBIÇÃO - EDITOR AVANÇADO = mostra todo o bloco de códigos
com a linguagem M usados até agora. *Lembrar de colocar a vírgula no último comando de
código antes de incluir o novo código.

● Antes

● Aplicando o código para substituir o valor ? por 45 na coluna idade. *Lembrar de colocar a
vírgula no último comando de código antes de incluir o novo código.
Removendo colunas com a Linguagem M

Adicionando novas colunas com a Linguagem M


Situação, inserir uma coluna com o resultado da subtração entre duas colunas ( valor da compra -
desconto). *each = cada linha

Dividindo coluna com a Linguagem M


Situação: para a mesma coluna, há dois tipos de informações, logo, é necessário dividir a coluna.

Antes Depois
Ajusta nome de coluna com a Linguagem M

Coluna condicional com a Linguagem M


Situação: quando é necessário adicionar uma coluna com uma condição, por exemplo, quais desses
clientes merecem promoção (bronze = 5%; prata = 10%; ouro = 15%)

//Coluna Adicional
#"Coluna Condicional Adicionada" = Table.AddColumn(#"Coluna Renomeada", "% Desconto
Especial", each if [Tipo de Cliente] = "Bronze" then 5 else if [Tipo de Cliente] = "Prata" then 10 else if
[Tipo de Cliente] = "Ouro" then 15 else if [Tipo de Cliente] = "Diamante" then 20 else 0)

in
#"Coluna Condicional Adicionada"
Transformação logarítmica com a Linguagem M

Antes Depois
Ajustar o tipo da variável com a Linguagem M
Situação: de categórica para numeral

Linguagem M vs Expressão DAX

A Linguagem M, também conhecida como Power Query Formula Language, é usada


principalmente para a etapa de extração, transformação e carga (ETL) dos dados no Power BI. Ela é
usada para importar e manipular dados no Editor de Consultas (Query Editor) antes de carregá-los
no modelo de dados. A Linguagem M é adequada para:
● Limpar e transformar dados (como remover linhas, colunas ou preencher valores
ausentes).
● Combinar dados de diferentes fontes (como mesclar ou anexar consultas).
● Converter tipos de dados e formatar dados (como converter texto para número ou
data).
● Aplicar transformações condicionais e agregar dados.

Expressão DAX é usada principalmente para a criação de medidas, colunas calculadas e tabelas
calculadas no modelo de dados do Power BI. DAX é uma linguagem de fórmula que permite
realizar cálculos avançados e análise de dados. A Expressão DAX é adequada para:
● Criar medidas dinâmicas que reagem a seleções e filtros aplicados no relatório (como vendas
totais, médias, taxas de crescimento, etc.).
● Criar colunas calculadas que se baseiam em outras colunas do modelo de dados (como
colunas calculadas que combinam nome e sobrenome, por exemplo).
● Definir tabelas calculadas com base em tabelas existentes ou medidas.
● Realizar análises de tempo (como comparação ano a ano, análise de séries temporais, etc.).
● Aplicar funções de contexto, como funções de filtro, iteração e avaliação, para calcular
valores em diferentes níveis de granularidade.

Use a Linguagem M no Editor de Consultas (Query Editor) para preparar e transformar os dados
antes de carregá-los no modelo de dados, e use a Expressão DAX no modelo de dados para criar
medidas, colunas calculadas e tabelas calculadas para análises avançadas e relatórios
dinâmicos.

Sistemas Gerenciadores de Bancos de Dados

Sistemas Gerenciadores de Bancos de Dados (SGBDs) são softwares responsáveis por gerenciar e
administrar bancos de dados. Os SGBDs facilitam a interação entre os usuários e os bancos de
dados, permitindo que eles executem operações como inserção, atualização, exclusão e consulta de
dados. Podem ser classificados em diferentes categorias, dependendo do modelo de banco de dados
que eles suportam, como:

● SGBDs Relacionais: gerenciam bancos de dados relacionais, onde os dados são


organizados em tabelas e as relações entre eles são estabelecidas por meio de chaves
primárias e estrangeiras. Eles utilizam a linguagem SQL (Structured Query Language) como
uma linguagem padrão para realizar consultas e manipular dados. Exemplos incluem
MySQL, PostgreSQL, Oracle e SQL Server.
● SGBDs NoSQL: gerenciam bancos de dados não relacionais que não utilizam o modelo
tabular clássico. Eles são projetados para serem escaláveis e distribuídos, e podem
ser categorizados em diferentes tipos, como bancos de dados de documentos (MongoDB,
Couchbase), bancos de dados de colunas (Cassandra, HBase), bancos de dados de grafos
(Neo4j, OrientDB) e bancos de dados de chave-valor (Redis).

Para carregarmos dados de algum banco de dados no PowerBI, é necessário instalar um conector
que irá fazer o intermédio entre o PowerBi e o SGBD, por exemplo: baixar um banco de dados no
power bi do MySQL, é necessário baixar um conector pra ele. Desse modo, o ODBC (Open
Database Connectivity), é amplamente utilizado para fornecer acesso a uma variedade de bancos de
dados, como Oracle, SQL Server, MySQL, PostgreSQL, entre outros.
ODBC é uma interface de programação de aplicativos (API) padrão que permite que aplicativos se
conectem a sistemas gerenciadores de bancos de dados (SGBDs) de diferentes fornecedores,
independentemente do sistema operacional, linguagem de programação ou modelo de banco de
dados. A principal vantagem do ODBC é que ele permite que os desenvolvedores escrevam
aplicativos que podem se conectar a diferentes SGBDs sem a necessidade de modificar o
código-fonte do aplicativo para cada banco de dados específico. Portanto, para que um aplicativo se
conecte a um determinado banco de dados, é necessário instalar e configurar o driver ODBC
apropriado para esse banco de dados.
SQLite é uma biblioteca em linguagem C que implementa um mecanismo de banco de dados SQL
pequeno , rápido , independente , de alta confiabilidade e completo . SQLite é o mecanismo de banco
de dados mais usado no mundo. O SQLite está integrado em todos os telefones celulares.

cap14
Como instalar o driver ODBC para conexão com o power bi?
Configurando driver ODBC para conexão com o poxer bi?
Conectando o Banco de Dados via ODBC.
**perguntas para eu lembrar de reassistir esses vídeos para quando eu precisar conectar algum banCo de dados no Power BI.

SQL ANALYTICS

Linguagem SQL

A linguagem SQL (Structured Query Language) é uma linguagem de programação de domínio


específico projetada para gerenciar e manipular dados armazenados em Sistemas de
Gerenciamento de Bancos de Dados Relacionais (SGBDs). Ela é baseada no modelo relacional,
que organiza os dados em tabelas compostas por linhas e colunas, e permite analisar os
relacionamentos entre as tabelas.
Os comandos da linguagem SQL estão divididos nos seguintes grupos:
- DDL (Data Definition Language): Permite criar, alterar e excluir estruturas de banco de
dados, como tabelas, índices e restrições. Exemplos de comandos: CREATE, ALTER, DROP.
- DML (Data Manipulation Language): Usado para inserir, modificar, excluir e consultar
dados armazenados nas tabelas. Exemplos de comandos: SELECT, INSERT, UPDATE,
DELETE
- DCL (Data Control Language): Fornece mecanismos para controlar o acesso aos dados e
gerenciar privilégios de usuários.Exemplos de comandos: GRANT, REVOKE.
- TCL (Transaction Control Language): Controla as transações, garantindo a consistência e
a integridade dos dados. Exemplos de comandos: COMMIT, ROLLBACK, SAVEPOINT.
A linguagem SQL é declarativa, o que significa que os usuários especificam o que desejam obter ou
realizar, e o sistema de banco de dados determina a melhor maneira de executar a
solicitação. Essa abordagem simplifica o processo de interação com o banco de dados,
permitindo que os usuários se concentrem na lógica dos dados em vez de detalhes específicos de
implementação.

SQL Analytics

O SQL Analytics é um termo que se refere à análise de dados usando a linguagem SQL em
conjunção com técnicas de análise de dados e ferramentas de visualização. O objetivo é extrair
insights de grandes volumes de dados armazenados SGBD relacionais e outras fontes de dados
compatíveis com SQL. As principais características do SQL Analytics incluem:
- Análise de dados: Através de consultas SQL é possível realizar análises descritivas,
diagnósticas, preditivas e prescritivas para entender o passado e o presente dos dados e
fazer previsões para o futuro.
- Agregação e transformação de dados: A SQL permite agregar e transformar dados de várias
tabelas e colunas, facilitando a geração de informações úteis e insights a partir dos dados
brutos.
- Integração com ferramentas de BI (Business Intelligence) e visualização: As consultas SQL
podem ser usadas em conjunto com ferramentas de BI e visualização de dados, como
Tableau, Power BI e Looker(Google Data Studio), para criar painéis interativos e relatórios
que ajudam a comunicar os insights de forma eficaz.
- Otimização de desempenho: O SQL Analytics pode aproveitar técnicas avançadas de
otimização de consulta, como indexação, particionamento e materialização, para melhorar o
desempenho das consultas e a eficiência da análise de dados.
- Escalabilidade: Com o advento de soluções de armazenamento e processamento de
dados em larga escala, como Data Warehouses e bancos de dados baseados em nuvem, o
SQL Analytics pode lidar com volumes crescentes de dados e fornecer insights em tempo
real.

SQLiteStudio

- Para adicionar o banco de dados

SELECT

* = Selecionar tudo
Retorna apenas às colunas que foi no SELECT.

LIMIT
Retorna a quantidade de linhas desejadas com todas as colunas selecionadas pois SELECT *

DISTINCT
Auxilia a descobrir a quantidade de categorias em uma coluna.
Por exemplo, quantas colunas há na coluna segmento? R: 3.

WHERE
Filtra a informação que buscamos.
Por exemplo, quero saber apenas os pedidos do ano de 2014.

OPERADORES DE COMPARAÇÃO
=; >; <; =>; =< Filtra apenas o dado desejado.
Exemplo: Mostrar apenas as vendas com a quantidade maior que 10; para maior ou igual a 2.

OPERADORES LÓGICOS
Consegue concatenar duas condições.
Por exemplo, quero filtrar apenas a quantidade maior ou igual a 2 e as vendas com o valor menor a
900. Logo, uso o AND.
AND = para quando as condições forem verdadeiras.
OR = quando só uma condição é verdadeira.

BETWEEN
Filtra dados entre
Exemplo, quero apenas os valores de venda entre 310 e 320.
LIKE
Filtra texto (string).
Exemplo, filtrar apenas os produtos que contêm a palavra Clock.
O % é porque é uma string e puxa todos os produtos que contêm clock, independente da posição.

IN
Filtra apenas os valores que você deseja na coluna que contém a categoria.
Está em aspa porque são valores.

NOT IN
Filtra todos os valores que você deseja menos Móveis e Tecnologia.
Está em aspa porque são valores.

ORDER BY
Para ordenar por ordem alfabética.

Por contagem/número descendente (maior para o menor).

FUNÇÕES

- MIN
- MAX
- AVG: média
- SUM: soma
- COUNT: contagem

Retorna o valor geral:


GROUP BY
Retorna apenas ao grupo que você deseja.
Exemplo, quero saber os valores máximos, mínimos, média, soma de todas e a quantidade de
vendas para cada produto.

Retorna

AS
Para formatar as saídas (nome das colunas):
AS : chame (renomeia).

ROUND
Para arredondar os valores é necessário colocar ROUND em frente e depois o número de casas (2):

JOIN
Une registros que estão em mais de uma tabela.
Exemplo, quero substituir os códigos para o produto pelo nome, porém, o nome está em outra tabela.
Query final:
Foi adicionado mais uma coluna (ANO) que estava na tabela pedidos, e por isso, foi para o group by

INSERT
Insere dados no banco de dados.
Exemplo, quero inserir esses valores no lugar de ID_Clientes, etc.

UPDATE
Atualizar.
Exemplo, quero atualizar a tabela clientes, configurando
1. SET = configurando as colunas recebendo tais valores.
2. Where = quando as colunas tiverem esses valores.
= quando a coluna id cliente tiver o valor 1000.
DELETE
Deleta da tabela apenas o id cliente que for igual a 1000

SQL Analytics no Power BI


Aplica a query realizada para subir a tabela, utilizando o ODBC.

Machine Learning cap16


Machine Learning é uma área da Inteligência Artificial (IA) que se concentra no desenvolvimento de
algoritmos e técnicas que permitem que os computadores aprendam a executar tarefas sem serem
explicitamente programados para isso. O objetivo é desenvolver modelos que possam identificar
padrões, fazer previsões e tomar decisões com base nos dados fornecidos. O aprendizado de
máquina pode ser dividido em três categorias principais:

- Aprendizado Supervisionado: O algoritmo é treinado com um conjunto de dados rotulados,


ou seja, com entradas e saídas conhecidas. O algoritmo utiliza esses dados para aprender
a mapear as entradas nas saídas corretas. Exemplos comuns incluem classificação de
imagens e previsão de preços.
- Aprendizado Não Supervisionado: Aqui, o algoritmo é treinado com um conjunto de dados
não rotulados, e seu objetivo é encontrar padrões e estruturas subjacentes nos dados.
Exemplos comuns incluem agrupamento e redução de dimensionalidade.
- Aprendizado Por Reforço: Neste tipo de aprendizado, o algoritmo, chamado de agente,
aprende a tomar decisões com base em recompensas e punições. O agente interage com
um ambiente e ajusta suas ações para maximizar as recompensas a longo prazo. Exemplos
comuns incluem jogos e robótica

Segmentação de dados

A segmentação de clientes é o processo de dividir a base de clientes de uma empresa em grupos


distintos. O objetivo é entender melhor as necessidades e desejos de diferentes grupos de
clientes e, assim, adaptar as estratégias para atender a essas necessidades de maneira mais eficaz
e personalizada. A segmentação pode ser feita com base em diversos critérios, como:
- Demográficos: Idade, sexo, estado civil, renda, ocupação, nível de educação e
tamanho da família.
- Geográficos: Localização, clima, densidade populacional e fronteiras políticas ou
culturais.
- Psicográficos: Estilo de vida, personalidade, valores, atitudes e interesses.
- Comportamentais: Padrões de compra, frequência de uso, lealdade à marca,
preferências e atitudes em relação a produtos e serviços.

A segmentação de clientes pode beneficiar as empresas de várias maneiras, incluindo:


- Compreender melhor as necessidades e expectativas de diferentes grupos de clientes.
- Desenvolver campanhas de marketing e comunicação mais eficazes e personalizadas.
- Identificar oportunidades de mercado e nichos ainda não explorados.
- Melhorar a satisfação e retenção de clientes, oferecendo produtos e serviços mais
adequados às suas necessidades.
- Otimizar a alocação de recursos, concentrando-se nos segmentos de clientes mais lucrativos
ou com maior potencial de crescimento.

As empresas podem utilizar técnicas de análise de dados e aprendizado de máquina para segmentar
sua base de clientes de forma mais precisa e sofisticada, identificando padrões e relações complexas
entre diferentes variáveis e comportamentos.

Problema de Negócio:
Considerando dados históricos de clientes que realizaram compras em nossa empresa, faça o
agrupamento (segmentação) dos clientes por similaridade de características em 3 grupos e
envie o relatório para a equipe de Marketing.

Para usar o Machine Learning, é necessário ter dados históricos.


Jupyter notebook
Para abrir o Prompt de Comando: digitar no painel inicial CMD

1. Para iniciar o python, digitar: python -V ENTER

2. Para abrir a pasta com o arquivo, digitar: cd COLAR O CAMINHO DA PASTA AO LADO

3. Para iniciar o jupyter, digitar: jupyter notebook

Importando:
Pandas: pacote conhecido basicamente como Excel da linguagem python, pois é usado para
manipulação estruturada dos dados.
Sklearn = framework da linguagem python. Utlizar o pacote cluster.
KMeans = a função é utilizada para clusterização, ou seja, seus algoritmos é para agrupamentos..
segmentações. é uma função não supervisionada e recebe os dados padronizados, com a mesma
unidade de escala decimal.
Carregando os dados

Análise Exploratória

50% = mediana

Pré processamento dos dados


KMeans = é uma função não supervisionada e recebe os dados padronizados, com a mesma
unidade de escala decimal, então, se os dados não estiverem padronizados (e não estão) devemos
padronizar. Ele calcula a diferença matemática e assim consegue segmentar.

Construção do Modelo de Machine Learning Para Segmentação de Clientes


clusters = grupos/segmentos
Gerando Relatório dos Segmentos de Clientes com Power BI no Jupyter Notebook
Para publicar online, é necessário ter uma conta no power bi.

1. É preciso instalar o pacote, deve clicar no link.


! na frente pois é uma linguagem do sistema operacional, então a ! indica ao jupyter que
estamos falando com ele, por mais que não seja uma linguagem python.
-q indica que será uma instalação silenciosa

No final, após gerar o relatório deve-se publicar o relatório para depois salvar na máquina e abrir no
Power Bi Desktop e editar.
Linguagem R para Machine Learning
Detectação de anomalias
A detecção de anomalias, também conhecida como detecção de outliers, é uma técnica em Machine
Learning e Estatística que visa identificar padrões incomuns, inesperados ou anômalos nos
dados. Esses padrões podem ser diferentes das observações normais de várias maneiras, como
magnitude, frequência ou comportamento. Existem várias abordagens para detectar anomalias em
Machine Learning, algumas das quais incluem:
- Métodos Estatísticos: Esses métodos baseiam-se na análise estatística dos dados, como
testes de hipóteses, distribuições de probabilidade e medidas de dispersão (por exemplo,
desvio padrão e intervalos interquartis). Observações que estão significativamente distantes
da média ou fora dos intervalos esperados são consideradas anômalas.
- Aprendizado Supervisionado: um modelo de Machine Learning é treinado usando um
conjunto de dados rotulados. O modelo aprende a distinguir entre as duas classes e, em
seguida, pode ser usado para classificar novas observações como normais ou
anômalas.
- Aprendizado Não Supervisionado: os algoritmos de Machine Learning são usados para
analisar dados não rotulados e identificar padrões ou agrupamentos naturais neles. As
anomalias são identificadas como pontos de dados que não se encaixam bem em nenhum
desses agrupamentos ou que estão significativamente distantes de outros pontos de dados.
Alguns exemplos de algoritmos de aprendizado não supervisionado usados para detecção de
anomalias incluem clustering (por exemplo, K-means) e técnicas de redução de
dimensionalidade (por exemplo, PCA).
- Aprendizado Semi-Supervisionado: os algoritmos são treinados em um conjunto de dados
parcialmente rotulado, que contém exemplos de observações normais e um pequeno número
de exemplos anômalos. O modelo aprende a distinguir entre as classes e identificar
novas anomalias com base nos padrões aprendidos.
- Métodos Baseados em Densidade: Esses métodos identificam anomalias como pontos de
dados que estão localizados em áreas de baixa densidade do espaço de recursos(atributos).
Um exemplo popular de algoritmo de detecção de anomalias baseado em densidade é o
DBSCAN (Density-Based Spatial Clustering of Applications with Noise).
- Métodos Baseados em Vizinhança: Esses métodos comparam a distância ou similaridade
entre pontos de dados e seus vizinhos para identificar anomalias. Os pontos de dados que
têm vizinhos significativamente diferentes de si mesmos são considerados anômalos.
Exemplos de algoritmos que empregam essa abordagem incluem o k-NN (k-Nearest
Neighbors) e o LOF (Local Outlier Factor).

Linguagem R
Foi criada para realizar análises estatísticas, logo, é uma linguagem de estatística.
Ordem de instalação: o R base versão 4.3.2, RTools e RStudio

Para selecionar a pasta no RStudio: Tolls - Global Options - General

Pacotes instalados:
(tidyverse), (dplyr), (readr): para manipular dados
library(solitude): permite usar o algoritmo de machin learnig para detecção de anomalis
library(ggplot2): pacote para visualização.

Para acompanhar todos os códigos, acessar o cap17_Lab08_Anomalia_R

Símbolo de atribuição <-


Para consultar a documentação ?nomedoalgoritmo
Comando de concatenação %>%
O que vem antes da vírgula é linha e depois é coluna [$id, ]
Quanto maior o valor, maior é a anomalia (está distante da média/padrão) já que a densidade
(concentração) é maior para o valor até 0.60. No entanto, como classificar o que é uma anomalia?
Primeiro, precisamos escolher uma nota de corte.

Criando o gráfico. O que está em vermelho são as anomalias.

Depois de criado as previsões é necessário salvar o relatório no disco do computador, para assim,
conseguir abri-lo no Power BI.

No Power Bi
Não há gráfico de box plot de maneira nativa, logo, será necessário trazer o script do gráfico criado
no R para o Power Bi.

Lab08 = Foi realizado o agrupamento de dados históricos de transações financeiras de clientes, pois
os gestores suspeitam que algumas das transações possam ser fraudulentas. O objetivo então, foi
detectar anomalias, caso existam. O resultado deveria ser entregue no formato visual através de
gráficos no Power BI.

Portanto, foi utilizado Machine Learning para agrupar os dados de transações financeiras dos clientes
e então detectar e definir as anomalias (se existirem), a partir da linguagem R. Como não há gráfico
de box plot de maneira nativa no Power Bi, logo, foi necessário trazer o script do gráfico criado no
RStudio.
Inteligência Artificial e Análise de Séries Temporais

Séries Temporais
São um conjunto de pontos de dados coletados em intervalos sequenciais ao longo do tempo. Elas
são usadas para prever futuros pontos de dados com base em dados históricos. Essa análise pode
levar em conta tendências, sazonalidade e ciclos presentes nos dados. Alguns exemplos comuns de
utilização de séries temporais incluem a previsão do tempo, análise econômica, engenharia de
controle de processos e muito mais.

Principais Técnicas Para Análise de Séries Temporais


- Análise de Tendências: Esta é uma das técnicas mais simples, onde se procura uma
tendência persistente ao longo do tempo - por exemplo, um aumento constante ou uma
queda nos dados.
- Médias Móveis e Suavização Exponencial: Estas são técnicas para remover o "ruído" de
uma série temporal, fazendo a média de pontos de dados em um determinado
número de períodos de tempo.
- Decomposição: Esta técnica envolve a separação da série temporal em componentes de
tendência, sazonalidade e resíduos (o que resta depois de remover a tendência e a
sazonalidade).
- Modelos Autorregressivos (AR): Em um modelo AR, o valor de uma variável em
um determinado momento é suposto ser uma função linear dos valores anteriores.
- Modelos de Médias Móveis (MA): Em um modelo MA, o valor de uma variável em um
determinado momento é suposto ser uma função linear dos erros de previsão dos pontos
anteriores.
- Modelos ARIMA (Autoregressive Integrated Moving Average): Estes combinam modelos
AR e MA e também incluem um termo de "diferenciação" para tornar a série temporal
estacionária.
- Modelos de Aprendizado de Máquina: Modelos de aprendizado de máquina como redes
neurais, SVMs, florestas aleatórias, gradient boosting, etc., podem ser usados para
modelar séries temporais. Especificamente, redes neurais como LSTMs e GRUs são
particularmente adequadas para séries temporais por causa de sua capacidade de
"lembrar" valores passados.
- Modelos de Aprendizado Profundo (Deep Learning): Redes Neurais Recorrentes (RNNs)
e suas variantes como Long Short Term Memory (LSTM) e Gated Recurrent Units (GRUs)
são amplamente usadas para modelagem de séries temporais.Mais recentemente, modelos
baseados em Transformers estão sendo aplicados à análise de séries temporais.

Conceitos importantes
A identificação e o ajuste da estacionaridade, tendência e sazonalidade podem ser essenciais
para a modelagem efetiva de séries temporais e para a realização de previsões precisas,
então:

Estacionaridade: Uma série temporal é dita estacionária se suas propriedades estatísticas,


como média, variância e autocorrelação, são constantes ao longo do tempo. Isso significa que,
independentemente do ponto específico do tempo que você selecionar, as características
estatísticas da série temporal serão as mesmas. Esta é uma suposição importante em muitos
modelos de séries temporais, porque simplifica as previsões. No entanto, muitas séries temporais do
mundo real não são estacionárias, mas podem ser transformadas em séries estacionárias através de
métodos como a diferenciação.
Tendência: A tendência refere-se a um padrão de longo prazo na série temporal que mostra uma
direção geral. Por exemplo, se as vendas de um produto estão consistentemente aumentando ao
longo do tempo, diz-se que há uma tendência de alta. Por outro lado, se a temperatura de uma
cidade está consistentemente diminuindo ao longo do tempo, há uma tendência de baixa. A
tendência pode ser linear (ou seja, a série aumenta ou diminui a uma taxa constante) ou não linear.

Sazonalidade: A sazonalidade refere-se a padrões que se repetem em intervalos fixos de tempo.


Por exemplo, as vendas de sorvete podem ser mais altas no verão e mais baixas no inverno todos
os anos, o que é um exemplo de sazonalidade anual. Da mesma forma, a quantidade de
tráfego da web pode ser mais alta durante a semana e mais baixa nos fins de semana, o que é um
exemplo de sazonalidade semanal. Ajustar a sazonalidade pode ser importante para fazer
previsões precisas, especialmente para negócios ou fenômenos que são fortemente influenciados
por fatores sazonais.

Lab09 - são apresentados recursos de IA do Power BI para prever a média de unidades produzidas
ao longo do tempo e detecção de anomalias no segmento da Eng. Produção.

Hierarquia de Datas no Power Bi

Gráfico de linha: nos permite analisar várias agregações ao mesmo tempo, por exemplo: ano,
trimestre,ou, ano, mês.
Inteligência de Dados Temporais
O Power Bi tem a opção “superficial” para a análise de dados temporais, a partir do acesso da
medida rápida.

IA para realizar previsão:


(Com gráfico de linha)
1. IR NA LUPA

2. PREVISÃO - habilitar
3. AJUSTES
IA para identificar anomalia
Seguir os mesmos passos realizados na previsão (clicar na lupa…etc). No entanto, você precisa
escolher se vai realizar a previsão ou então identificar a anomalia. E então é necessário ajustar o
nível de confidencialidade para acessar os graus de anomalias para visualizar se algo foge ou não do
padrão.
Modelagem de dados (= blueprint): consiste na definição/criação dos sistemas de coleta e
gerenciamento de informações, garantindo o formato e estrutura. Pode ser usada para:
- Data Warehouse (DW): repositório centralizado de dados de negócios.
- Design de Cubos Multidimensionais: otimiza as análises;
- Modelos Estrela (Star Schema): projeta DWs;
- Integração de dados;
- Governança de Dados

Noções:
● Transformar Dados = Power Query
● Para o carregamento de dados: importar arquivos CSV.

Utilização de gráficos:
- Cartão: uma métrica;
- Pizza: duas métricas e poucas categorias (até 3 ou 4);
- Cascata: até 05 categorias.
- Barra empilhada: três métricas.
- Dispersão: duas variáveis discretas.
- Barras: duas variáveis ( discreta e contínua), + categorias.
- Principais influenciadores: principais segmentos.

Matriz: mostra-se a hierarquia, já a tabela não. Logo, indica-se o uso para quando há
necessidade de mostrar a hierarquia, senão, pode-se usar a tabela.
Na matriz temos a opção drill up e down = pode auxiliar muito na hora de navegar pela
matriz e visualizar os dados de maneira exclusiva.
Aplicar gráficos na matriz: VISUAL - ELEMENTOS DA CÉLULA - BARRA DE DADOS

Ex: Sem hierarquia (matriz) Com hierarquia (Matriz)

Tipo da variável: categórica x numérica - sempre se atentar a isso no momento de


construir os gráficos, pois 0 = não e 1 = sim, logo, se a classificação dos dados está como
numérica, deve-se alterar para categórica.

MANIPULAÇÃO DE DADOS - Outliers: são valores discrepantes da média, que acabam


interferindo no gráfico. Se atentar a eles no momento de criação dos gráficos, maneiras:
aplicar escala logarítmica ou em últimos casos se não for impactar a análise, deve-se
remover a linha com o valor.
Como remover os outliers? MANIPULAÇÃO DE DADOS cap12
Inicie criando uma tabela, para podermos visualizar se há outliers, como por exemplo ali, a máxima
de altura é muito discrepante do mínimo e da média. Alternativas:
- Se não for impactar a análise, deve-se remover a linha com o valor.
- Substituir o outlier com o valor da mediana. (foi oq fizemos)
- Criar medidas DAX, para: mediana, quartil1, quartil 3, intervalo entre quartil, limite inferior e
limite superior (qualquer dado que exceda os limites, é um outliers). Depois crie um gráfico
de dispersão (tira da soma e coloque na opção não resumir) - depois vá na lupa e adicione
as medidas DAX criadas apertando no fx e sombreamento por simetria (oq ta verde e azul):

Como remover linha duplicada? MANIPULAÇÃO DE DADOS


Vá no PowerQuery, selecione o ID e clique em remover linhas duplicadas, depois, compare
na tabela se o valor de contagem de ID está igual ao valor da contagem distinta de ID.

Como remover valores ausentes e/ou nulo? MANIPULAÇÃO DE DADOS


- Remover a linha com o valor nulo ou ausente (não é o indicado)
- Inserir o valor médio no lugar, aplicando um teste estatístico (não é indicado o
PowerBI) com R ou Python;
- Utilizar a Mediana (valor do meio); Foi o que usamos no cap12
Ir no Power Query e na coluna para substituir o valor.

- Machine Learning, para prever o valor que está ausente.

Filtros no gráfico: Lembrar que é possível usar a filtragem do próprio gráfico para localizar
os dados. *MiniP4
– Para criar ranking: =

Relacionamento e cardinalidade: sempre se atentar na modelagem de dados, se há


linhas duplicadas, com espaços (aplicar o cortar = texto aparado), letras maiúsculas, etc.
Para aplicar a relação entre as tabelas: clicar em gerenciamento.
1:* - um produto pode estar associada há muitas vendas; (o campo corresponde a relação
de cardinalidade 1 não pode estar com informação duplicada, mas o campo de relação de
muitos sim)
*:1 - muitas vendas pode estar associada há um produto;
1:1 - um produto pode estar associado há uma categoria (não pode haver duplicidade em
nenhum campo de relacionamento);
*:* - muitas vendas podem estar associadas a muitas cidades. (o indicado é criar uma
tabela intermediária para estabelecer a relação de 1:* para evitar possíveis problemas de
integridade) ex: tabela vendas *:1 tabela de estado 1:* tabela de cidade
Ler o material de cardinalidade *:* do PowerBi, na Microsoft.

Criar menu para índice: fiz no MiniP2


INSERIR - BOTÕES - NAVIGATOR - NAVEGADOR DE PÁGINA
- Clicar no item: como não é a versão paga, devemos apertar CTRL + CLIQUE NO
MOUSE, para ser direcionada a página correspondente ao item do índice.

Para criar linha média:

Criar hierarquia de data: Transformar dados - ir na coluna da data

PARA: OU:
Criar Pivot: para quando for necessário modificar a estrutura da tabela.

TRANSFORMAR DADOS - TRANSFORMAR (2ª aba) - TRANSPOR - EDITAR LINHA DE CÓDIGO

Criar coluna condicional: fiz no MiniP3


Ex: Objetivo: verificar quantas pessoas merecem promoção. Regra: se faz 05 anos ou mais
que o colaborador não recebe promoção, é necessário dar.
TRANSFORMAR DADOS - ADICIONAR COLUNA - COLUNA CONDICIONAL
- Preencher nome da nova coluna (ex: StatusPromo); Se: (selecionar : coluna com os
anos) (operador: é maior que ou igual) (valor: 5) (saída: considerar promoção);
Senão: (selecionar : coluna com os anos) (operador: é menor que) (valor: 5) (saída:
Não considerar promoção);

Transformar dados para %: fiz no MiniP3


EXIBIÇÃO DE MODELO (3ª aba) - SELECIONAR A MEDIDA - FORMATO: %

Como criar uma tabela de medidas DAX: fiz no MiniP3


- Clicar em INSERIR DADOS.
- Ir na tabela MEDIDAS que foi criada e começar a criar as medidas ali.

Como criar classificação de RATING com DAX:Fiz no MiniP4 - Tabela


- Criar nova medida rápida;
- Selecionar o cálculo: classificação por estrelas;
- Preencher de forma coerente com os seus dados;
- Cria-se o modelo DAX e aplica-se.

DAX é uma coleção de funções, operadores e constantes que podem ser usados em uma
fórmula ou expressão, para calcular e retornar um ou mais valores. Para falar de forma mais
simples, o DAX ajuda a criar novas informações de dados que já estão em seu modelo.
- ROUND = arredonda o valor
- SUM = é aplicada a uma coluna específica e retorna a soma dos valores nessa
coluna.
- SUMX = realiza uma soma ponderada ou uma soma com base em uma expressão
específica.
*A diferença principal entre as duas funções é que o SUM opera em uma única coluna,
enquanto o SUMX permite a aplicação de uma expressão em várias colunas ou tabelas.
- COUNTROWS = conta as linhas.
- CALCULATE = é possível filtrar os dados para calcular o valor. EX: quantos são
femininos? Ex: TotalFeminino = CALCULATE ([TotalFunc], [DatasetRH[Genero] = “Feminino”)
- DIVIDE = realiza a divisão, coloca-se primeiro o numerador e depois o denominador.
Ex: %Feminino = DIVIDE([TotalFeminino],[TotalFunc],0) *Colocar o zero para evitar que a função “estoure”
- AVERAGE = realiza a média.
- FILTER = possibilita a filtragem na coluna. || (operador lógico ou). Ex: Fiz no MiniP4

● Ex de SUM + FILTRANDO apenas os valores de receitas:

- STDEV.P = desvio padrão da população.


- STDEV.S = desvio padrão da amostra.
- Coeficiente de variação (CV%) =
NomeDaMedida = DIVIDE(STDEV.P(dados_pacientes[peso(kg)]),
AVERAGE(dados_pacientes[peso(kg)])) * 100

- MODA - cap11
Cria-se uma medida e código DAX, ex:
ModaAltura =
VAR TabelaFrequencia =
SUMMARIZE(
dados_pacientes,
dados_pacientes[altura(cm)],
"Frequencia", COUNT(dados_pacientes[altura(cm)])
)
VAR MaiorFrequencia =
MAXX(
TabelaFrequencia,
[Frequencia]
)
RETURN
CONCATENATEX(
FILTER(TabelaFrequencia, [Frequencia] = MaiorFrequencia),
dados_pacientes[altura(cm)],
", "
)

- MEDIANA : NomeDaMedida = MEDIAN((Cliente[Altura]) cap12


- Quartil : Q1Medida = PERCENTILE.INC(Cliente[Altura], 0.25) cap12
Q3Medida = PERCENTILE.INC(Cliente[Altura], 0.75) cap12
- Intervalo entre Quartil (IQ) : NomeDaMedidaIQ = Q3Medida - Q1Medida cap12
- Limite Superior para quartil: NomeDaMedida = [Q3Medida] + 1.5 *
[NomeDaMedidaIQ]
- Limite Inferior para quartil: NomeDaMedida = [Q3Medida] - 1.5 *
[NomeDaMedidaIQ]
-

Criando o layout no Power Point para o Power Bi


Sites para ideias de dashboards:
galeria pública do tableau, no site da Microsoft e Kaggle.
Sites para selecionar cores:
https://htmlcolorcodes.com/
https://www.color-hex.com/color-palettes/popular.php
Sites para selecionar icones:
https://www.flaticon.com/br/

Como fazer análise exploratória?


Inicie criando uma tabela, para podermos visualizar se há outliers, como por exemplo ali, a máxima
de altura é muito discrepante do mínimo e da média.

- Verificar as categorias: numéricas x categóricas;


- Verificar duplicidade de linhas/dados;
Opções:
● Crie uma tabela para contar o nº de linhas - adicione a mesma variável na opção contagem
distinta (conta apenas valores únicos). Se os valores forem diferentes, há duplicidade.
● Abra o Power Query, vá na coluna de ID, clique o botão direito, vá em agrupar por:

- Verificar números nulos e/ou falta de dados;


Vá na coluna e observa a filtragem dos dados,
- Verificar outliers: afeta muito nas análises, como por exemplo, na média.
Vá nas colunas e observe se há alta variação (discrepância absurda) de valores

Você também pode gostar