Aprenda Python em Uma Semana e Masterize

Machine Translated by Google
CIÊNCIA DE DADOS PYTHON

Aprenda Python em uma semana e domine-o
Curso rápido de 7 dias
Uma introdução prática à análise de big data e mineração de

dados, um guia baseado em projetos com exercícios práticos
Academia de programação de computadores

Copyright © 2020 – Academia de Programação de Computadores
Todos os direitos reservados
O conteúdo contido neste livro não pode ser reproduzido, duplicado ou transmitido sem a permissão direta
por escrito do autor ou do editor.
Sob nenhuma circunstância qualquer culpa ou responsabilidade legal será atribuída ao editor, ou autor, por
quaisquer danos, reparações ou perdas monetárias devido às informações contidas neste livro, direta ou
indiretamente.
Aviso Legal:
Este livro é protegido por direitos autorais. Este livro é apenas para uso pessoal. Você não pode alterar,
distribuir, vender, usar, citar ou parafrasear qualquer parte ou o conteúdo deste livro sem o consentimento
do autor ou editor.
Aviso de isenção
de responsabilidade: observe que as informações contidas neste documento são apenas para fins
educacionais e de entretenimento. Todo esforço foi feito para apresentar informações precisas, atualizadas,
confiáveis e completas. Nenhuma garantia de qualquer tipo é declarada ou implícita. Os leitores reconhecem
que o autor não presta aconselhamento jurídico, financeiro, médico ou profissional. O conteúdo deste livro
foi derivado de várias fontes. Por favor, consulte um profissional licenciado antes de tentar quaisquer técnicas
descritas neste livro. Ao ler este documento, o leitor concorda que, sob nenhuma circunstância, o autor é
responsável por quaisquer perdas, diretas ou indiretas, decorrentes do uso das informações contidas neste
documento, incluindo, entre outros, erros, omissões, ou imprecisões.
Índice
Introdução
Dia 1: introdução à ciência de dados
Importância da ciência de dados

Tipos de dados
Estratégias de ciência de dados
Linguagem de programação
questionário de revisão
Dia 2: ciclo de vida da ciência de dados
Infraestrutura e recursos para projetos de ciência de dados

Estágio I - Entendimento do negócio
Fase II – Aquisição e compreensão dos dados
Estágio III – Modelagem
Estágio IV - Implantação
Estágio V - Aceitação do Cliente
Dia 3: Big Data 101
Importância do big data O

funcionamento do big data Big Data
Analytics Aplicações de
Big Data Analytics Análise de Big Data Vs.
Questionário de revisão de visualização de dados Dia 4:
Noções básicas
de mineração de dados Aplicações de
mineração de dados O processo de

mineração de dados Prós de
mineração de dados
Desafios de mineração de dados
Tendências de mineração
de dados Ferramentas de mineração de dados
Dia 5: estruturas de análise de dados
Aprendizado conjunto
Árvores de decisão
floresta aleatória
Dia 6: Bibliotecas de análise de dados

Scikit-Learn
SciPy (Biblioteca fundamental para computação científica)
SymPy (matemática simbólica)
NumPy (pacote de matriz n-dimensional base)
Matplotlib (Plotagem 2D/3D abrangente)
Pandas (Estruturas e análise de dados)
IPython (console interativo aprimorado)
Caderno Jupyter
Dia 7: Análise preditiva
Importância do Customer Analytics

Análise de funil de marketing e vendas
Marketing de Análise Preditiva
marketing personalizado
conteúdo extra
Programação em Python
Aprendizado de máquina Python
Conclusão
Introdução
Parabéns por adquirir Python Data Science: Uma introdução prática à análise de big
data e mineração de dados, um guia baseado em projeto com exercícios práticos (Livro
3) e obrigado por fazê-lo.
Os capítulos seguintes discutirão os conceitos fundamentais das tecnologias de

ciência de dados que podem ser usadas para analisar dados brutos, gerar previsões e
resolver problemas de negócios. Existem 7 capítulos neste livro, elaborados
especificamente para ajudá-lo a dominar todos os conceitos de análise de dados
necessários para produzir insights significativos a partir de um grande volume de dados
em apenas uma semana (7 capítulos para 7 dias).
O primeiro capítulo do livro ajudará você a entender a importância das tecnologias de

ciência de dados em nossa vida cotidiana, desde a previsão do tempo até os ataques
cibernéticos. Você também aprenderá diferentes tipos de dados e várias estratégias de
implementação de ciência de dados. Uma visão geral detalhada do “Team Data Science
Process”, que é um ciclo de vida da ciência de dados amplamente utilizado para projetos
que exigem a implantação de aplicativos baseados em inteligência artificial e/ou
algoritmos de aprendizado de máquina, foi fornecida no segundo capítulo. Você
aprenderá os objetivos definidos em cada uma das 5 etapas deste ciclo de vida,
juntamente com as entregas criadas no final de cada etapa.
O terceiro capítulo é sobre big data e análise de big data. Você aprenderá os 5 Vs de
big data e as 3 ações importantes necessárias para obter insights de big data. Você
também aprenderá as diferentes etapas envolvidas na análise de big data e algumas de
suas aplicações em saúde, finanças e outros setores industriais. O capítulo intitulado
“Basics of Data Mining” fornecerá uma visão geral explícita do processo de mineração
de dados e suas aplicações. Você também aprenderá as vantagens e os desafios do
processo de mineração de dados na resolução de problemas de dados do mundo real.
Algumas das ferramentas de mineração de dados mais usadas pelos analistas de dados
também são explicadas.
O quinto capítulo trata exclusivamente de algumas das principais estruturas de

análise de dados, incluindo aprendizado conjunto, árvores de decisão e florestas aleatórias.
Estes são os algoritmos de aprendizado de máquina mais populares que são capazes de
processamento de um grande volume de dados não estruturados e desorganizados para

gerar insights e previsões úteis. Você aprenderá as vantagens e desvantagens dessas
estruturas, bem como as etapas necessárias para implementar a regressão de floresta
aleatória em um conjunto de dados da vida real. O capítulo seis, intitulado “Bibliotecas de
análise de dados”, é um mergulho profundo no funcionamento de diferentes bibliotecas de
análise de dados baseadas em Python, incluindo IPython, Jupyter Notebook, Pandas,
Matplotlib, entre outras. Você aprenderá como essas poderosas bibliotecas podem ser
usadas para analisar conjuntos de dados da vida real com um conjunto de dados de
amostra de código aberto selecionado que você pode baixar e obter experiência prática.
O capítulo final deste livro explicará como a análise de dados ajuda a resolver
problemas de negócios usando análises de clientes e/ou preditivas.
A análise do cliente está no centro de todas as atividades de marketing e é um termo
abrangente usado para técnicas como “modelagem preditiva”, “visualização de dados”,
“gerenciamento de informações” e “segmentação”. Você aprenderá o importante conceito
de análise de funil de marketing e vendas, bem como os três principais tipos de modelos
preditivos para analisar o comportamento do cliente. Os conceitos de análise exploratória
de dados de clientes e marketing personalizado foram explicados em detalhes, juntamente
com algumas de suas aplicações industriais. Para fazer o melhor uso deste livro,
recomendamos que você baixe os recursos gratuitos fornecidos neste livro e realize
exercícios práticos para solidificar sua compreensão dos conceitos explicados. O conjunto
de habilidades de análise de dados está sempre em demanda, com muitas oportunidades
de emprego com altos salários. Esperamos que este livro o leve um passo mais perto do
emprego dos seus sonhos!
Dia 1: introdução à ciência de dados
No mundo da tecnologia, Dados são definidos como “informações que são

processadas e armazenadas por um computador”. Nosso mundo digital inundou
nossas realidades com dados. De um clique em um site a nossos smartphones
rastreando e registrando nossa localização a cada segundo do dia, nosso mundo
está se afogando em dados. Da profundidade desses dados enormes, soluções para
nossos problemas que ainda não encontramos podem ser extraídas. Esse mesmo
processo de coleta de insights de um conjunto mensurável de dados usando
equações matemáticas e estatísticas pode ser definido como “ciência de dados”. O
papel dos cientistas de dados tende a ser muito versátil e muitas vezes é confundido
com um cientista da computação e um estatístico. Praticamente qualquer pessoa,
seja uma pessoa ou uma empresa que esteja disposta a se aprofundar em grandes
volumes de dados para coletar informações, pode ser encaminhada a nós,
profissionais de ciência de dados. Por exemplo, empresas como o Walmart
acompanham e registram as compras na loja e online feitas pelos clientes, para
fornecer recomendações personalizadas sobre produtos e serviços. As plataformas
de mídia social como o Facebook, que permitem aos usuários listar sua localização
atual, são capazes de identificar padrões globais de migração, analisando a riqueza de dados que
O uso mais antigo registrado do termo ciência de dados remonta a 1960 e é

creditado a Pete Naur, que supostamente usou o termo ciência de dados como um
substituto para ciência da computação e, eventualmente, introduziu o termo
“datalogia”. Em 1974, Naur publicou um livro intitulado “Concise Survey of Computer
Methods”, com uso liberal do termo ciência de dados em todo o livro. Em 1992, a
definição contemporânea de ciência de dados foi proposta no “Segundo Simpósio de
Estatística Japonês-Francês”, com o reconhecimento do surgimento de uma nova
disciplina focada principalmente em tipos, dimensões e estruturas de dados.
“A ciência de dados continua a evoluir como uma das carreiras mais promissoras
e procuradas por profissionais qualificados. Hoje, profissionais de dados bem-
sucedidos entendem que devem avançar além das habilidades tradicionais de análise
de grandes quantidades de dados, mineração de dados e habilidades de programação.
A fim de descobrir inteligência útil para suas organizações, os cientistas de dados
devem dominar todo o espectro do ciclo de vida da ciência de dados e possuir um
nível de flexibilidade e compreensão para maximizar os retornos em cada fase do processo.
processo".
– Universidade da Califórnia, Berkley
Um interesse crescente por executivos de negócios contribuiu significativamente para

o recente aumento na popularidade do termo ciência de dados. No entanto, um grande
número de jornalistas e especialistas acadêmicos não reconhece a ciência de dados
como uma área de estudo separada do campo da estatística. Um grupo dentro da mesma
comunidade considera que ciência de dados é o termo popular para “mineração de
dados” e “big data”. A própria definição de ciência de dados está em debate na
comunidade de tecnologia. O campo de estudo que requer uma combinação de conjunto
de habilidades, incluindo habilidades de programação de computadores, conhecimento
de domínio e proficiência em estatística e algoritmos matemáticos para poder extrair
informações valiosas de grandes volumes de dados brutos, é chamado de ciência de dados.
Importância da ciência de dados
A ciência de dados é muito usada na análise preditiva. Por exemplo, a previsão do

tempo requer a coleta e análise de dados de várias fontes, incluindo satélites, radares e
aeronaves, para construir modelos de dados capazes de prever a ocorrência de
catástrofes da natureza, como furacões, tornados e inundações repentinas . Outro ramo
da ciência de dados é “big data e análise de big data”, que são usados por organizações
para resolver problemas técnicos complexos, bem como para gerenciamento de recursos.
Você aprenderá mais sobre big data posteriormente neste livro. A capacidade da ciência
de dados de analisar os desafios enfrentados por todo e qualquer setor industrial, como
saúde, viagens, finanças, varejo e comércio eletrônico, contribuiu significativamente para
sua crescente popularidade entre os executivos de negócios.
A ciência de dados possibilitou o uso de algoritmos avançados de aprendizado de

máquina, que têm uma ampla variedade de aplicabilidade em vários domínios industriais.
Por exemplo, o desenvolvimento de carros autônomos capazes de coletar dados em
tempo real usando suas câmeras e sensores avançados para criar um mapa de seus
arredores e tomar decisões relacionadas à velocidade do veículo e outras manobras de
direção. As empresas estão sempre à espreita para entender melhor a necessidade de
seus clientes. Isso agora é possível reunindo os dados de fontes existentes, como
histórico de pedidos do cliente, itens visualizados recentemente, gênero, idade e dados
demográficos e aplicando
ferramentas analíticas avançadas e algoritmos sobre esses dados para obter insights
valiosos. Com o uso de algoritmos de aprendizado de máquina, o sistema pode gerar
recomendações de produtos para clientes individuais com maior precisão. O consumidor
inteligente está sempre procurando a experiência de usuário mais envolvente e
aprimorada, para que as empresas possam usar essas ferramentas analíticas e
algoritmos para obter uma vantagem competitiva e expandir seus negócios.
A capacidade de analisar e examinar de perto tendências e padrões de dados

usando algoritmos de aprendizado de máquina resultou na aplicação significativa da
ciência de dados no espaço de segurança cibernética. Com o uso da ciência de dados,
as empresas não são apenas capazes de identificar os terminais de rede específicos
que iniciaram o ataque cibernético, mas também estão em posição de prever possíveis
ataques futuros em seus sistemas e tomar as medidas necessárias para evitar que os
ataques aconteçam. em primeiro lugar. O uso de “sistemas ativos de detecção de
intrusão” que são capazes de monitorar usuários e dispositivos em qualquer rede de
sua escolha e sinalizar qualquer atividade incomum serve como uma arma poderosa
contra hackers e ciberataques. Enquanto os “sistemas preditivos de detecção de
intrusão” que são capazes de usar algoritmos de aprendizado de máquina em dados
históricos para detectar possíveis ameaças à segurança servem como um poderoso
escudo contra os predadores cibernéticos.
Os ataques cibernéticos podem resultar na perda de dados e informações de valor

inestimável, resultando em danos extremos à organização. Para garantir e proteger o
conjunto de dados, criptografia sofisticada e assinaturas complexas podem ser usadas

para impedir o acesso não autorizado. A ciência de dados pode ajudar no desenvolvimento
desses protocolos e algoritmos impenetráveis. Ao analisar as tendências e padrões de
ataques cibernéticos anteriores em empresas de diferentes setores industriais, a ciência
de dados pode ajudar a detectar o conjunto de dados direcionados com mais frequência
e até prever possíveis ataques cibernéticos futuros. As empresas dependem fortemente
dos dados gerados e autorizados por seus clientes, mas à luz do aumento dos ataques
cibernéticos, os clientes estão extremamente cautelosos com o comprometimento de
suas informações pessoais e procuram levar seus negócios às empresas que podem
garantir seus dados. segurança e privacidade implementando ferramentas e tecnologias
avançadas de segurança de dados. É aqui que a ciência de dados está se tornando a
graça salvadora das empresas, ajudando-as a aprimorar suas medidas de segurança
cibernética.
Ao longo dos últimos 20 anos, as tendências de dados mudaram drasticamente,

sinalizando um aumento contínuo de dados não estruturados. Estima-se que até o ano
de 2020, “mais de 80% dos dados que coletamos serão desestruturados”.
Convencionalmente, os dados que adquirimos eram principalmente estruturados e
podiam ser facilmente analisados usando ferramentas simples de inteligência de
negócios, mas, conforme refletido na imagem abaixo, os dados não estruturados e
semiestruturados estão aumentando. Isso, por sua vez, garantiu o desenvolvimento e
uso de ferramentas analíticas mais poderosas e avançadas do que as ferramentas de
inteligência de negócios existentes, incapazes de processar esse grande volume e
variedade de dados. É evidente na imagem mostrada abaixo que precisamos de
ferramentas e algoritmos analíticos mais sofisticados que sejam capazes de processar
e analisar dados não estruturados e semiestruturados para fornecer informações valiosas.
Tipos de Dados
Vejamos diferentes tipos de dados para que você possa escolher as ferramentas
analíticas e algoritmos mais adequados com base no tipo de dados que precisam ser
processados. Os tipos de dados podem ser divididos em dois em um nível muito alto:
qualitativos e quantitativos.
Dados qualitativos – Quaisquer dados que não podem ser medidos e apenas
observados subjetivamente adicionando um recurso qualitativo ao objeto, são chamados
de "dados qualitativos". A classificação de um objeto usando recursos não mensuráveis
resulta na criação de dados qualitativos. Por exemplo, atributos como cor , cheiro, textura
e sabor. Existem três tipos de dados qualitativos:
“Dados binários ou binomiais” – Valores de dados que

sinalizam eventos mutuamente exclusivos onde apenas uma das duas
categorias ou opções é correta e aplicável. Por exemplo, verdadeiro ou
falso, sim ou não, positivo ou negativo. Considere uma caixa de saquinhos
de chá variados. Você experimenta todos os diferentes sabores e agrupa
os que gosta como "bons" e os que não gosta como "ruins". Nesse caso,
"bom ou ruim" seria categorizado como o tipo de dados binomial.
Esse tipo de dado é amplamente utilizado no desenvolvimento de modelos
estatísticos para análises preditivas.
“Dados nominais ou não ordenados” – As características

dos dados que carecem de um “valor implícito ou natural” podem ser
referidos como dados nominais. Considere uma caixa de M&Ms, você
pode registrar a cor de cada M&M na caixa em uma planilha, e isso
serviria como dados nominais. Esse tipo de dado é amplamente usado
para avaliar diferenças estatísticas no conjunto de dados, usando
técnicas como "análise de qui-quadrado", que pode indicar "diferenças
estatisticamente significativas" na quantidade de cada cor de M&M em uma caixa.
“Dados ordenados ou ordinais” – As características deste
tipo de dados têm certo “valor implícito ou natural” como pequeno,
médio ou grande. Por exemplo, avaliações on-line em sites como "Yelp",
"Amazon" e "Trip Advisor" têm uma escala de classificação de 1 a 5, o
que significa que uma classificação de 5 estrelas é melhor que 4, que é
melhor que 3 e assim por diante.
Dados quantitativos – Quaisquer características dos dados que podem ser

medidos objetivamente são chamadas de "dados quantitativos". Classificação de um
objeto usando recursos mensuráveis e dando a ele um valor numérico resulta e
criação de dados quantitativos. Por exemplo, preços de produtos, temperatura,
dimensões como comprimento, etc. Existem dois tipos de dados quantitativos:
“Dados Contínuos” – Valores de dados que podem ser

definidos em um nível mais baixo, como unidades de medida como
quilômetros, metros, centímetros e assim por diante, são chamados de
tipo de dados contínuos. Por exemplo, você pode comprar um saco de
amêndoas por peso, como 500 g ou 8 onças. Isso explica o tipo de
dados contínuos, que é usado principalmente para testar e verificar
diferentes tipos de hipóteses, como avaliar a precisão do peso impresso
no saco de amêndoas.
“Dados discretos” – valor de dados numéricos que não

podem ser divididos e reduzidos a um maior nível de precisão, como o
número de carros de propriedade de uma pessoa que só pode ser
contabilizado como números indivisíveis (você não pode ter 1,5 ou 2,3
carros), é chamado de tipos de dados discretos. Por exemplo, você
pode comprar outro pacote de barras de sorvete pelo número de barras
de sorvete dentro da embalagem, como quatro ou seis. Isso explica a discreta
tipo de dados, que pode ser usado em combinação com um tipo de dados
contínuo para realizar uma análise de regressão para verificar se o peso total
da caixa de sorvete (dados contínuos) está correlacionado com o número de
barras de sorvete (dados discretos) dentro.
Estratégias de ciência de dados
A ciência de dados é usada principalmente na tomada de decisões, fazendo previsões

precisas com o uso de “análise causal preditiva”, “análise prescritiva” e aprendizado de
máquina.
Análise causal preditiva – “análise causal preditiva” pode ser aplicada para desenvolver
um modelo que pode prever e prever com precisão a probabilidade de um determinado evento
ocorrer no futuro. Por exemplo, as instituições financeiras usam ferramentas baseadas em
análise causal preditiva para avaliar a probabilidade de um cliente inadimplir seus pagamentos
com cartão de crédito, gerando um modelo que pode analisar o histórico de pagamentos do
cliente com todas as suas instituições de empréstimo.
Analítica prescritiva - As “analíticas prescritivas” são amplamente utilizadas no

desenvolvimento de “ferramentas e aplicativos inteligentes” que são capazes de modificar e
aprender com parâmetros dinâmicos e tomar suas próprias “decisões”. A ferramenta não
apenas prevê a ocorrência de um evento futuro, mas também é capaz de fornecer
recomendações sobre uma variedade de ações e seus resultados resultantes. Por exemplo,
os carros autônomos coletam dados relacionados à direção com cada experiência de direção
e os usam para treinar a si mesmos para tomar melhores decisões de direção e manobras.
Aprendizado de máquina para fazer previsões – Para desenvolver modelos que possam
determinar tendências futuras com base nos dados transacionais adquiridos pela empresa,
os algoritmos de aprendizado de máquina são uma necessidade. Isso é considerado como
“aprendizado de máquina supervisionado”, que detalharemos mais adiante neste livro.
Por exemplo, os sistemas de detecção de fraude usam algoritmos de aprendizado de máquina
nos dados históricos pertencentes a compras fraudulentas para detectar se uma transação é
fraudulenta.
Aprendizado de máquina para descoberta de padrões – Ser capaz de desenvolver modelos

que são capazes de identificar padrões de dados ocultos, mas carecem de parâmetros
necessários para fazer previsões futuras, os “algoritmos de aprendizado de máquina não
supervisionados”, como “Clustering”, precisam ser empregados. Por exemplo, as empresas
de telecomunicações costumam usar a tecnologia de “clustering” para expandir sua rede,
identificando locais de torres de rede com força de sinal ideal na região de destino.
Aprendizado de máquina x ciência de dados

A ciência de dados é um termo abrangente que abrange o aprendizado de máquina
algoritmos. Aqui estão algumas distinções básicas entre os dois termos.
Componentes de
dados A ciência de dados pertence ao ciclo de vida completo dos dados e envolve uma
variedade de componentes, incluindo pipeline “ETL” (Extrair, Transformar, Carregar) para
coletar e classificar dados, visualização de dados, computação distribuída, aprendizado de
máquina, inteligência artificial, engenharia de dados, dashboards e introdução e ambiente
de implantação do sistema, entre outros componentes.
Os modelos de aprendizado de máquina recebem dados de entrada e contêm vários
componentes, incluindo: separação de dados, exploração de dados, solução de problemas
e seleção de modelo apropriado, entre outros recursos.
Medidas de desempenho
A ciência de dados não tem padrão para medição de desempenho e é determinada caso
a caso. Normalmente, as medidas de desempenho são uma indicação da qualidade dos
dados, pontualidade dos dados, acessibilidade dos dados, capacidade de visualização de
dados e capacidade de consulta de dados.
Os modelos de aprendizado de máquina têm medidas de desempenho padrão, com
cada algoritmo tendo uma medida para indicar o sucesso do modelo e descrever o conjunto
de dados de treinamento fornecido. Por exemplo, em “análise de regressão linear”, o “erro
quadrático médio (RME) serve como indicação de erro(s) no modelo.
Método de
desenvolvimento As implementações de projetos de ciência de dados são realizadas
em estágios definidos com marcos do projeto que devem ser alcançados para cumprir
metas e objetivos definidos dentro das restrições de tempo e recursos. Os projetos de
aprendizado de máquina são baseados em pesquisa e começam com uma hipótese que se
espera que seja verificada dentro das restrições dos dados disponíveis.
Visualização de dados
Em projetos de ciência de dados, os dados são visualizados com o uso de representação gráfica padrão,
como gráficos de barras e gráficos de pizza. O aprendizado de máquina não apenas usa as ferramentas de
representação gráfica padrão para visualizar os dados, mas também usa modelos matemáticos do conjunto de
dados de treinamento.
Linguagem de programação
As linguagens de programação mais populares usadas em projetos de ciência de dados são “SQL”, “PERL”
e certas linguagens específicas de estrutura de dados, como “Java for Hadoop” e “Scala for Spark”.
As linguagens de programação mais utilizadas em algoritmos de aprendizado de máquina são “Python” e

“R-programação”. Para atividades de exploração de dados, “SQL” pode ser usado com os algoritmos de
aprendizado de máquina.
Dados de entrada
Projetos de ciência de dados usam “dados consumíveis humanos”, que podem ser facilmente
lidas e analisadas por humanos usando ferramentas e tecnologias analíticas.
Os algoritmos de aprendizado de máquina exigem um conjunto de dados de treinamento altamente classificado
e rotulado.
Inteligência de negócios vs. Ciência de dados A ciência

de dados, como você já aprendeu, é uma abordagem interdisciplinar que aplica algoritmos matemáticos e
ferramentas estatísticas para extrair insights valiosos de dados brutos. Por outro lado, Business Intelligence
(BI) refere-se à aplicação de ferramentas analíticas e tecnologias para obter uma compreensão mais profunda
do estado atual da empresa em relação ao desempenho histórico da empresa. Simplificando, o BI fornece
inteligência para a empresa analisando seus dados atuais e históricos, enquanto a ciência de dados é muito
mais poderosa e capaz de analisar o enorme volume de dados brutos para fazer previsões futuras.
Uma avalanche de dados qualitativos e quantitativos fluindo de uma ampla variedade de fontes de entrada
criou uma dependência da ciência de dados para que as empresas entendam esses dados e os usem para
manter e expandir seus negócios. O advento da ciência de dados como a melhor ferramenta de tomada de
decisão mostra a crescente dependência de dados para as empresas. em vários
Tarefas de negócios e inteligência podem potencialmente ser automatizadas com o uso de

ferramentas e tecnologias orientadas à ciência de dados. A capacidade de coletar insights
usando essas ferramentas automatizadas de qualquer lugar do mundo, com o uso da Internet,
apenas impulsionará o uso de “repositórios de dados centralizados” para usuários corporativos
diários.
A inteligência de negócios é tradicionalmente usada para “análise descritiva” e oferece

sabedoria retrospectiva aos negócios. Por outro lado, a ciência de dados é muito mais
futurista e usada para “análises preditivas e prescritivas”. Enquanto a ciência de dados
procura responder a perguntas como “Por que o evento ocorreu e pode acontecer novamente
no futuro?”, Business Intelligence se concentra em perguntas como “O que aconteceu durante
o evento e o que pode ser alterado para corrigi-lo?”. É essa distinção fundamental entre os
“Ws” que são abordados por cada um desses dois campos, que os diferencia.
O nicho de inteligência de negócios já foi dominado por usuários de tecnologia com

experiência em ciência da computação. No entanto, a ciência de dados está renovando o
espaço de inteligência de negócios, permitindo que usuários não técnicos e principais de
negócios executem atividades analíticas e de BI. Uma vez que os dados tenham sido
operacionalizados pelos cientistas de dados, as ferramentas são fáceis de usar para o
corredor comercial principal e podem ser facilmente mantidas por uma equipe de suporte,
sem a necessidade de nenhum conhecimento em ciência de dados. Os especialistas em
inteligência de negócios estão cada vez mais trabalhando lado a lado com o cientista de
dados para desenvolver os melhores modelos de dados e soluções possíveis para os negócios.
Ao contrário da inteligência de negócios, que é usada para criar relatórios de dados,

principalmente indicadores-chave de desempenho e painéis de métricas e fornecer
informações de suporte para a estratégia de gerenciamento de dados, a ciência de dados é
usada para criar previsões e previsões usando ferramentas e estatísticas avançadas e
fornecer informações complementares para governança de dados. Uma diferença fundamental
entre ciência de dados e inteligência de negócios está no alcance e na escala das “bibliotecas
de aprendizado de máquina integradas”, que capacitam os usuários corporativos diários a
realizar atividades de análise de dados parcialmente automatizadas ou automatizadas. Pense
na ciência de dados como inteligência de negócios com esteróides que está pronta para
transformar o mundo da análise de negócios em uma democracia!
Ciência de dados versus análise

de dados Os termos de ciência de dados e análise de dados costumam ser
usados de forma intercambiável. No entanto, esses termos são completamente
diferentes e têm implicações diferentes para negócios diferentes. A ciência de dados
abrange uma variedade de modelos e métodos científicos que podem ser usados
para manipular e analisar dados estruturados, semiestruturados e não estruturados.
Ferramentas e processos que podem ser usados para entender a coleta de insights
de um conjunto de dados altamente complexos, desorganizados e brutos se
enquadram na ciência de dados. Ao contrário da análise de dados que visa verificar
uma hipótese, a ciência de dados se resume a conectar pontos de dados para
identificar novos padrões e insights que podem ser usados no planejamento futuro
dos negócios. A ciência de dados leva os negócios da investigação aos insights,
fornecendo uma nova perspectiva em seus dados estruturados e não estruturados,
identificando padrões que podem permitir que as empresas aumentem a eficiência,
reduzam os custos e reconheçam as novas oportunidades de mercado.
A ciência de dados atua como uma mistura multidisciplinar de tecnologia,

desenvolvimento de algoritmo de aprendizado de máquina, análise estatística e
inferência de dados que fornece às empresas capacidade aprimorada para resolver
seus problemas de negócios mais complexos. A análise de dados cai sob a égide da
ciência de dados e refere-se mais à revisão e análise de dados históricos para colocá-los em prátic
contexto. Ao contrário da ciência de dados, a análise de dados é caracterizada pelo baixo uso
de inteligência artificial, modelagem preditiva e algoritmos de aprendizado de máquina para
coletar insights de dados processados e estruturados usando comandos de consulta SQL
padrão. As diferenças aparentemente sutis entre análise de dados e ciência de dados podem
realmente ter um impacto substancial em uma organização.
Responda às perguntas abaixo para verificar sua compreensão dos conceitos explicados
neste capítulo. A chave de resposta pode ser encontrada no final do questionário.
1. Cite o processo de coleta de insights de um conjunto mensurável de

dados usando equações matemáticas e estatísticas.
2. Que tipo de sistemas são capazes de monitorar usuários e dispositivos

em qualquer rede de sua escolha e sinalizar qualquer atividade incomum,
servindo como uma arma poderosa contra hackers e ciberataques.
3. O tipo de valor de dados numéricos que não pode ser dividido e

reduzido a um nível mais alto de precisão é chamado ___.
4. Quais são os diferentes tipos de dados qualitativos?
5. A ferramenta
___ pode prever as ocorrências de um evento futuro, bem
como fornecer recomendações sobre uma variedade de ações e seus
resultados resultantes.
6. Que tipo de valores de dados podem ser definidos para um nível
mais baixo, como unidades de medida como quilogramas, gramas e assim por
diante? 7.
___ é usado para criar relatórios de dados de nível executivo,
principalmente indicadores-chave de desempenho e painéis de métricas.
8. Qual componente de dados serve como um pipeline para coletar e
classificar
dados?
____ 9. usa as ferramentas de representação gráfica padrão para
visualizar os dados, mas também usa modelos matemáticos do conjunto de
dados de
___
treinamento. refere-se à aplicação de ferramentas analíticas e 10.
tecnologias para obter uma compreensão mais profunda do estado atual de
uma empresa em relação ao seu desempenho histórico.
Palavra chave
1. Data Science
2. Sistemas ativos de detecção de intrusão
3. Tipo de dados
discretos 4. Dados binários ou binomiais, Dados nominais ou não
ordenados, Dados
ordenados ou ordinais 5.
Análise prescritiva 6. Tipo
de dados contínuos 7.
Inteligência de negócios 8. ETL” (Extract , Transformar, Carregar)
9. Aprendizado de
máquina 10. Business Intelligence
Dia 2: ciclo de vida da ciência de dados
O ciclo de vida mais altamente recomendado para projetos estruturados de ciência

de dados, o “Team Data Science Process” (TDSP). Este processo é amplamente
utilizado para projetos que requerem a implantação de aplicações baseadas em
inteligência artificial e/ou algoritmos de aprendizado de máquina. Ele também pode ser
personalizado e usado na execução de projetos de “ciência de dados exploratórios”,
bem como projetos de “analítica ad hoc”. O ciclo de vida do TDSP é projetado como
uma iteração ágil e sequencial de etapas que servem como orientação nas tarefas
necessárias para o uso de modelos preditivos. Esses modelos preditivos precisam ser
implantados no ambiente de produção da empresa, para que possam ser utilizados no
desenvolvimento de aplicativos baseados em inteligência artificial. O objetivo desse
ciclo de vida da ciência de dados é a entrega e a conclusão em alta velocidade de
projetos de ciência de dados em direção a um ponto final de engajamento definido.
A execução perfeita de qualquer projeto de ciência de dados requer uma comunicação
eficaz de tarefas dentro da equipe, bem como para as partes interessadas.
Os componentes fundamentais do “Processo de ciência de dados da equipe”

são: Definição de um ciclo de vida de
ciência de dados em compreensão”, “modelagem”, “implantação” e “aceitação do
cliente”. Continue lendo para obter detalhes sobre isso em breve!
Estrutura de projeto padronizada

Para permitir acesso fácil e contínuo aos documentos do projeto para os membros
da equipe, permitindo a recuperação rápida de informações, o uso de modelos e uma
estrutura de diretório compartilhada, é um longo caminho. Todos os documentos do
projeto e o código do projeto são armazenados em nossa loja e um “sistema de controle
de versão” como “TFS”, “Git” ou “Subversion” para melhorar a colaboração da equipe.
Os requisitos de negócios e as tarefas e funcionalidades associadas são armazenados
em um sistema ágil de rastreamento de projetos como “JIRA”, “Rally” e “Azure DevOps”
para permitir o rastreamento aprimorado de código para cada funcionalidade. Essas
ferramentas também ajudam na estimativa de recursos e custos envolvidos ao longo do
ciclo de vida do projeto. Para garantir a gestão eficaz de cada projeto, a segurança da
informação e a colaboração da equipe, o TDSP confere a criação de storage separado para cada proje
no sistema de controle de versão. A adoção de uma estrutura padronizada para todos os

projetos dentro de uma organização ajuda na criação de uma biblioteca de conhecimento
institucional em toda a organização.
O ciclo de vida do TDSP fornece modelos padrão para todos os documentos

necessários, bem como a estrutura de pastas em um local centralizado. Os arquivos
contendo códigos de programação para a exploração de dados e extração da funcionalidade
podem ser organizados usando a estrutura de pastas fornecida, que também contém
registros pertencentes às iterações do modelo. Esses modelos permitem que os membros
da equipe entendam facilmente o trabalho que foi concluído por outros, bem como uma
adição contínua de novos membros da equipe a um determinado projeto. O formato
markdown oferece facilidade de acessibilidade, além de fazer edições ou atualizações nos
modelos de documento. Para garantir que a meta e os objetivos do projeto estejam bem
definidos e também para garantir a qualidade esperada das entregas, esses modelos
fornecem várias listas de verificação com perguntas importantes para cada projeto. Por
exemplo, um “plano de abertura do projeto” pode ser usado para documentar o escopo do
projeto e o problema de negócios que está sendo resolvido pelo projeto; relatórios de
dados padronizados são usados para documentar a “estrutura e estatísticas” dos dados.
Infraestrutura e recursos para projetos de ciência de dados
Para armazenar efetivamente a infraestrutura e gerenciar análises compartilhadas, o

TDSP recomenda o uso de ferramentas como: “serviço de aprendizado de máquina”,
bancos de dados, “clusters de big data” e sistemas baseados em nuvem para armazenar
conjuntos de dados. A infraestrutura de análise e armazenamento que abriga conjuntos de
dados brutos, bem como processados ou limpos, pode ser baseada em nuvem ou no local.
A análise D e a infraestrutura de armazenamento permitem a reprodutibilidade da análise
e evitam a duplicação e a redundância de dados que podem criar inconsistência e custos
injustificados de infraestrutura. São fornecidas ferramentas para conceder permissões
específicas aos recursos compartilhados e para rastrear sua atividade, o que, por sua vez,
permite acesso seguro aos recursos para cada membro da equipe.
Ferramentas e utilitários para execução de

projetos A introdução de qualquer alteração em um processo existente tende a ser
bastante desafiadora na maioria das organizações. Para incentivar e aumentar a
consistência de adoção dessas mudanças, diversas ferramentas podem ser implementadas que são
fornecidos pelo TDSP. Algumas das tarefas básicas no ciclo de vida da ciência de dados,
incluindo “exploração de dados” e “modelagem de linha de base”, podem ser facilmente
automatizadas com as ferramentas fornecidas pelo TDSP. Para permitir a contribuição livre
de problemas de ferramentas e utilitários compartilhados no “repositório de código
compartilhado” da equipe, o TDSP fornece uma estrutura bem definida. Isso resulta em
economia de custos, permitindo que outras equipes de projeto dentro da organização
reutilizem e redirecionem essas ferramentas e utilitários compartilhados.
O ciclo de vida do TDSP serve como um modelo padronizado com um conjunto bem
definido de artefatos que podem ser usados para obter colaboração e comunicação eficazes
da equipe em todos os níveis. Esse ciclo de vida é composto por uma seleção das melhores
práticas e estruturas da “Microsoft” para facilitar a entrega bem-sucedida de soluções de
análise preditiva e aplicativos inteligentes.
Vejamos os detalhes de cada um dos cinco estágios do ciclo de vida do TDSP, ou seja,
“Entendimento do negócio”, “Aquisição de dados no entendimento”, “modelagem”,
“implantação” e “aceitação do cliente”.
Estágio I - Entendimento do negócio
O objetivo desta etapa é reunir e detalhar as variáveis essenciais que serão usadas
como alvos para o modelo, e as métricas associadas a essas variáveis determinarão
o sucesso geral do projeto.
Outro objetivo significativo desta etapa é a identificação das fontes de dados
necessárias que a empresa já possui ou pode precisar adquirir. Nesta fase, as duas
tarefas principais que devem ser realizadas são: “definir objetos e identificar fontes de
dados”.
Definindo objetivos
Todos os projetos devem sempre começar com a identificação das principais
variáveis de negócios que as ferramentas analíticas devem prever. Essas variáveis
são chamadas de “metas do modelo” e as métricas associadas a essas metas do
modelo, como previsão de vendas e previsão de pedidos fraudulentos, são usadas
como uma medida do sucesso do projeto. Para definir as metas e objetivos do projeto,
é imperativo trabalhar com as partes interessadas e os usuários finais e fazer perguntas
relevantes que podem ser altamente específicas ou mesmo vagas. Para responder a
essas perguntas, a abordagem da ciência de dados emprega nomes e números. Os
cinco tipos de perguntas que são usados principalmente para ciência de dados ou
aprendizado de máquina pertencem a: “regressão (quanto ou quantos?), classificação
(quais categorias?), agrupamento (quais grupos?), detecção de anomalias (isso é
incomum ?), recomendação (qual opção deve ser tomada?)”. É importante determinar
as perguntas certas para o seu projeto e entender como as respostas a essas
perguntas o ajudarão a atingir as metas de negócios ou do projeto.
A especificação e o alinhamento das funções e responsabilidades de cada membro

da equipe do projeto são essenciais para o sucesso do projeto.
Isso pode ser feito com a ajuda de um plano de projeto de alto nível contendo marcos
significativos que podem ser modificados conforme necessário ao longo do projeto.
Outra definição importante que deve ser acordada nesta fase do projeto é que todos
os principais indicadores e métricas de desempenho.
Por exemplo, um projeto de previsão da taxa de rotatividade de clientes que exige a
taxa de precisão de percentual “ABC” na conclusão do projeto pode ajudá-lo a entender
o requisito que deve ser cumprido para atender aos critérios de sucesso do projeto.
Portanto, para atingir a taxa de precisão percentual “ABC”, o
empresa pode executar ofertas de desconto e promoções. O padrão da indústria usado

no desenvolvimento de métricas é chamado de “SMART”, que significa “Specific,
Measurable, Achievable, Relevant, Timebound”.
Identificação das fontes de

dados As fontes de dados que podem conter “exemplos conhecidos” de respostas
aos cinco tipos de questões levantadas durante a fase de definição devem ser
identificadas e contabilizadas. Você deve procurar dados que tenham relevância direta
para as perguntas feitas e avaliar se você tem uma meta mensurável e recursos
relacionados a essas metas. Os dados que servem como uma medida precisa para o
alvo do modelo e suas características são cruciais para a determinação do sucesso do
projeto. Por exemplo, você pode encontrar uma situação em que o sistema existente
não consegue coletar e registrar os tipos de dados necessários para atingir as metas
do projeto. Isso deve informar imediatamente que você precisa começar a procurar
fontes de dados externas ou executar uma atualização do sistema para permitir a
coleta de tipos de dados adicionais pelo sistema existente.
Entregáveis a serem criados nesta etapa
Documento de abertura – É um “documento vivo” que

precisa ser atualizado ao longo do projeto, à luz de novas descobertas
do projeto e mudanças nos requisitos de negócios.
Um modelo padrão é fornecido com a “definição da estrutura do projeto”
TDSP. É importante desenvolver este documento adicionando mais
detalhes ao longo do projeto, mantendo as partes interessadas
prontamente atualizadas sobre todas as alterações feitas.
Fontes de dados – Dentro da “pasta de relatório de dados
do projeto” do TDSP, as fontes de dados podem ser encontradas na
seção “Fontes de dados brutos” do “Relatório de definições de dados”. A
seção “Fontes de dados brutos” também especifica os locais inicial e
final dos dados brutos e fornece detalhes adicionais, como os “scripts de
codificação” para mover os dados para qualquer ambiente desejado.
Dicionários de dados – As descrições das características e
recursos dos dados, como os “esquemas de dados” e os “diagramas de
relacionamento de entidade” disponíveis, fornecidas pelas partes
interessadas, são documentadas nos dicionários de dados.
Fase II – Aquisição e compreensão dos dados
O objetivo deste estágio é a produção de conjunto de dados processados de alta

qualidade com relacionamentos definidos com os alvos do modelo e localização do
conjunto de dados no ambiente de análise necessário. Nesta fase, a “arquitetura da
solução” do pipeline de dados também deve ser desenvolvida, o que permitirá
atualizações regulares e pontuação dos dados. As três tarefas principais que devem ser
concluídas durante este estágio são: “Ingestão de dados, exploração de dados e
configuração do pipeline de dados”.
Ingestão de
dados O processo necessário para transferir os dados do local de origem para o
local de destino deve ser configurado nesta fase. Os locais de destino são determinados
pelos ambientes que permitirão realizar atividades analíticas como treinamento e
previsões.
Exploração de
dados O conjunto de dados deve ser limpo para remover quaisquer discrepâncias e
erros antes de poder ser usado para treinar os modelos de dados. Para verificar a
qualidade dos dados e coletar as informações necessárias para processar os dados
antes da modelagem, ferramentas como resumo e visualização de dados devem ser
usadas. Como esse processo é repetido várias vezes, um utilitário automatizado
chamado “IDEAR”, fornecido pelo TDSP, pode ser usado para visualização de dados e
criação de relatórios de resumo de dados. Com a obtenção de qualidade satisfatória dos
dados processados, os padrões de dados inerentes podem ser observados. Isso, por
sua vez, ajuda na seleção e desenvolvimento de um “modelo preditivo” apropriado para
o alvo. Agora você deve avaliar se possui a quantidade necessária de dados para iniciar
o processo de modelagem, que é de natureza iterativa e pode exigir que você identifique
novas fontes de dados para obter maior relevância e precisão.
Configurar um pipeline
de dados Para complementar o processo iterativo de modelagem de dados, um
processo padrão para pontuar novos dados e atualizar o conjunto de dados existente
deve ser estabelecido configurando um “pipeline de dados ou fluxo de trabalho”. A
arquitetura da solução do pipeline de dados deve ser desenvolvida ao final desta etapa.
Existem três tipos de pipelines que podem ser usados com base nas necessidades de
negócios e nas restrições do sistema existente: “baseado em lote”, “em tempo real ou streaming”,
e “híbrido”.
Relatório de qualidade de dados – Este relatório deve incluir um

relacionamento de “resumo de dados” entre o requisito de negócios e seus
atributos e classificação variável entre outros detalhes. A ferramenta “IDEAR”
fornecida com TDSP é capaz de gerar relatórios de qualidade de dados em uma
tabela relacional, arquivo CSV ou qualquer outro conjunto de dados tabulares.
Arquitetura da solução – Uma descrição ou diagrama do pipeline

de dados que é usado para pontuar novos dados e previsões geradas, após a
construção do modelo, pode ser chamada de “arquitetura da solução”. Esse
diagrama também pode fornecer o pipeline de dados necessário para “treinar
novamente” o modelo com base em novos dados.
Decisão do ponto de verificação – Antes do início do processo
de construção do modelo real, o projeto deve ser reavaliado para determinar se
o valor esperado pode ser alcançado ao prosseguir com o projeto.
Essas também são chamadas de decisões “Go or No-Go”.
Estágio III – Modelagem
O objetivo deste estágio é encontrar “recursos de dados ideais” para o modelo de

aprendizado de máquina, que sejam informativos o suficiente para prever as variáveis de
destino com precisão e possam ser implantados no ambiente de produção. As três tarefas
principais que devem ser realizadas neste estágio são: “engenharia de recursos, treinamento
do modelo e determinação da adequação do modelo para o ambiente de produção”.
Engenharia de recursos
Os recursos de dados devem ser criados a partir das variáveis de dados brutos usando o
processo de “inclusão, agregação e transformação”. Para poder entender o funcionamento do
modelo, deve ser desenvolvido um entendimento claro de como esses recursos de dados se
relacionam entre si, bem como dos algoritmos de aprendizado de máquina que usarão esses
recursos. Os insights coletados na fase de exploração de dados podem ser combinados com o
conhecimento do domínio para permitir a engenharia de recursos criativos. O belo ato de
determinar
e incluir variáveis informativas, certificando-se de que muitas variáveis não relacionadas não sejam
incluídas no conjunto de dados, é chamado de engenharia de recursos. Muitas variáveis não
relacionadas adicionarão ruído ao modelo de dados, portanto, deve-se tentar adicionar o máximo
possível de variáveis informativas para obter melhores resultados. Os recursos também devem ser
gerados para quaisquer novos dados coletados durante a pontuação.
Treinamento de
modelo Uma ampla variedade de algoritmos de modelagem está disponível no mercado atualmente.
O algoritmo que atende aos critérios do seu projeto deve ser selecionado. O processo de
“treinamento do modelo” pode ser dividido em quatro etapas, que são:
1. Criação de um “conjunto de dados de treinamento”, bem como de um “conjunto de

dados de teste”, dividindo adequadamente os dados de entrada.
2. Desenvolvimento do modelo com a utilização do “conjunto de dados de
treinamento”.
3. Avaliação do conjunto de dados de treinamento e teste, empregando
vários algoritmos de aprendizado de máquina, bem como “parâmetros de ajuste”
relacionados, projetados para ajudar a responder aos cinco tipos de perguntas
discutidos anteriormente a partir do conjunto de dados existente.
4. Avalie o melhor ajuste para a solução para resolver o problema de

negócios comparando todos os métodos disponíveis usando métricas e indicadores-
chave de desempenho.
O TDSP fornece uma “ferramenta automatizada de modelagem e relatório” que é capaz de

executar vários algoritmos e “varreduras de parâmetros” para desenvolver um “modelo de linha de
base”, bem como um “relatório de modelagem de linha de base” que pode servir como um resumo
de desempenho para cada “modelo e combinação de parâmetros”.
Conjuntos de recursos – O documento que contém todos os recursos

descritos na “seção de conjuntos de recursos do relatório de definição de dados”. É
muito usado pelos programadores para escrever o código necessário e desenvolver
recursos com base na descrição fornecida pelo documento.
Relatório modelo – Este documento deve conter os detalhes de

cada modelo que foi avaliado com base em um relatório modelo padrão.
Decisões de ponto de verificação – Uma decisão sobre a

implantação do modelo no ambiente de produção deve ser tomada com base no
desempenho de diferentes modelos.
Estágio IV - Implantação
O objetivo deste estágio é liberar os modelos de solução para um ambiente de produção

inferior, como um ambiente de pré-produção e um ambiente de teste de aceitação do usuário
antes de implantar o modelo no ambiente de produção. A principal tarefa a ser realizada nesta
etapa é a “operacionalização do modelo”.
Operacionalizar o modelo
Depois de obter um conjunto de modelos com níveis de desempenho esperados, esses
modelos podem ser operacionalizados para outras aplicações aplicáveis para
usar.
De acordo com os requisitos de negócios, as previsões podem ser feitas em tempo real ou
em lote. Para implantar o modelo, eles devem ser integrados a uma “Interface de programação
de aplicativos” (API) aberta para permitir a interação do modelo com todos os outros aplicativos
e seus componentes, conforme necessário.
Um relatório de painel usando o desempenho chave

indicadores e métricas para acessar a integridade do sistema.
Um documento ou livro de execução com os detalhes do
plano de implantação para o modelo final.
Um documento contendo a arquitetura da solução do modelo final.
Estágio V - Aceitação do Cliente

O objetivo desta etapa é garantir que a solução final do projeto atenda às expectativas
das partes interessadas e atenda aos requisitos de negócios coletados durante a Etapa I
do ciclo de vida da ciência de dados. As duas tarefas principais que devem ser realizadas
nesta etapa são: “validação do sistema e entrega do projeto”.
Validação do sistema – A solução final que será implantada no ambiente de produção

deve ser avaliada em relação aos requisitos de negócios e ao pipeline de dados para
garantir que as necessidades das partes interessadas sejam atendidas. A parte interessada
deve validar se o sistema atende às suas necessidades de negócios e resolve o problema
que iniciou o projeto em primeiro lugar. Toda a documentação deve ser minuciosamente
revisada e finalizada ao final desta etapa.
Hand-off do projeto – Nesta fase, o projeto deve ser transferido da equipe de

desenvolvimento para a equipe de pós-produção e manutenção. Por exemplo, a equipe
de suporte de TI ou alguém do pai da equipe da parte interessada fornecerá suporte diário
para a solução no ambiente de produção.
Entregas a serem criadas nesta etapa O

documento mais importante criado durante esta etapa é para as partes interessadas e
chamado de “relatório de saída”. O documento contém todos os detalhes disponíveis do
projeto que são significativos para fornecer uma compreensão das operações do sistema.
O TDSP fornece um modelo padronizado para o “relatório de saída”, que pode ser
facilmente personalizado para atender às necessidades específicas das partes interessadas.
Responda às perguntas abaixo para verificar sua compreensão dos conceitos

explicados neste capítulo. A chave de resposta pode ser encontrada no final do questionário.
1. Quais são os 5 estágios diferentes do ciclo de vida de uma ciência

de dados.
2. Cite 2 entregas que precisam ser criadas no final do primeiro
estágio do ciclo de vida.
3. A ingestão e exploração de dados são realizadas em qual estágio do

ciclo de vida?
4. Conjuntos de recursos, relatórios de modelo e decisões de ponto de
verificação são criados como produtos no final do estágio ___ do ciclo de vida da
ciência de dados.
5. Para implantar o modelo, eles devem ser integrados com um ___ aberto
para permitir a interação do modelo com todos os outros aplicativos e seus
componentes.
Palavra chave
1. Compreensão do negócio, aquisição de dados e

compreensão, modelagem, implantação, aceitação do cliente 2. documento
de abertura, fontes de dados, dicionários de dados 3. aquisição e
compreensão de dados 4. modelagem 5.
interface de
programação de aplicativos ou API
Dia 3: Big Data 101

Big Data
Em 2001, o Gartner definiu Big data como "Dados que contêm maior variedade
chegando em volumes crescentes e com velocidade cada vez maior". Isso levou à
formulação dos "três V's". Big data refere-se a uma avalanche de dados estruturados e
não estruturados que inundam infinitamente e de uma variedade de fontes de dados
infinitas. Esses conjuntos de dados são muito grandes para serem analisados com
ferramentas e tecnologias analíticas tradicionais, mas possuem uma infinidade de
informações valiosas ocultas.
Os “Vs” do volume de
big data – para ser classificado como big data, o volume do conjunto de dados
fornecido deve ser substancialmente maior do que os conjuntos de dados tradicionais.
Esses conjuntos de dados são compostos principalmente de dados não estruturados
com dados estruturados e semiestruturados limitados. Os dados não estruturados ou os
dados com valor desconhecido podem ser coletados de fontes de entrada, como páginas
da Web, histórico de pesquisa, aplicativos móveis e plataformas de mídia social. O
tamanho e a base de clientes da empresa geralmente são proporcionais ao volume de
dados adquiridos pela empresa.
Velocidade – A velocidade na qual os dados podem ser coletados e acionados de
acordo com a velocidade do big data. As empresas estão usando cada vez mais uma
combinação de servidores locais e baseados em nuvem para aumentar a velocidade de
sua coleta de dados. Os "Produtos e Dispositivos Inteligentes" modernos exigem acesso
em tempo real aos dados do consumidor, a fim de fornecer a eles uma experiência de
usuário mais envolvente e aprimorada.
Variedade – Tradicionalmente, um conjunto de dados conteria a maioria dos dados
estruturados com baixo volume de dados não estruturados e semiestruturados, mas o
advento do big data deu origem a novos tipos de dados não estruturados, como vídeo,
texto, áudio, que exigem ferramentas e tecnologias sofisticadas para limpar e processar
esses tipos de dados para extrair insights significativos deles.
Veracidade – Outro “V” que deve ser considerado para análise de big data é a
veracidade. Isso se refere à "confiabilidade ou qualidade" dos dados. Por exemplo,
plataformas de mídia social como "Facebook" e "Twitter" com blogs e postagens contendo
uma hashtag, acrônimos e todos os tipos de erros de digitação podem reduzir
significativamente a confiabilidade e a precisão dos conjuntos de dados.
Valor – Os dados evoluíram como uma moeda própria com valor intrínseco.
Assim como as moedas monetárias tradicionais, o valor final do big data é diretamente
proporcional ao insight obtido a partir dele.
História do Big Data A

origem de grandes volumes de dados remonta às décadas de 1960 e 1970, quando a
Terceira Revolução Industrial havia começado e o desenvolvimento de bancos de dados
relacionais começou junto com a construção de data centers. Mas o conceito de big data
recentemente ocupou o centro do palco principalmente desde a disponibilidade de mecanismos
de busca gratuitos como Google e Yahoo, serviços de entretenimento online gratuitos como o
YouTube e plataformas de mídia social como o Facebook. Em 2005, as empresas começaram
a reconhecer a incrível quantidade de dados de usuários gerados por meio dessas plataformas
e serviços e, no mesmo ano, uma estrutura de código aberto chamada "Hadoop" foi
desenvolvida para coletar e analisar esses grandes despejos de dados disponíveis para as
empresas. No mesmo período, um banco de dados não relacional ou distribuído chamado
"NoSQL" começou a ganhar popularidade devido à sua capacidade de armazenar e extrair
dados não estruturados. "Hadoop" possibilitou que as empresas trabalhassem com big data
com grande facilidade e um custo relativamente baixo.
Hoje, com o surgimento da tecnologia de ponta, não apenas os humanos, mas também as
máquinas que geram dados. As tecnologias de dispositivos inteligentes como “Internet das coisas”
(IoT) e “Internet dos sistemas” (IoS) dispararam o volume de big data. Nossos objetos
domésticos diários e dispositivos inteligentes estão conectados à Internet e são capazes de
rastrear e registrar nossos padrões de uso, bem como nossas interações com esses produtos
e alimentar todos esses dados diretamente no big data. O advento da tecnologia de
aprendizado de máquina aumentou ainda mais o volume de dados gerados diariamente.
Estima-se que até 2020, “1,7 MB de dados serão gerados por segundo por pessoa”. Como o
big data continuará crescendo, sua usabilidade ainda tem muitos horizontes a cruzar.
Importância do grande volume de dados
Para obter informações confiáveis e confiáveis de um conjunto de dados, é muito importante

ter um conjunto de dados completo que tenha sido possível com o uso da tecnologia de big
data. Quanto mais dados tivermos, mais informações e detalhes poderão ser extraídos deles.
Para obter uma visão 360 de um problema e sua
soluções subjacentes, o futuro do big data é muito promissor. Aqui estão alguns
exemplos do uso de big data:
Desenvolvimento de produtos – Grandes e pequenas empresas de comércio
eletrônico dependem cada vez mais de big data para entender as demandas e
expectativas dos clientes. As empresas podem desenvolver modelos preditivos para
lançar novos produtos e serviços usando características primárias de seus produtos e
serviços anteriores e existentes e gerando um modelo que descreva a relação dessas
características com o sucesso comercial desses produtos e serviços. Por exemplo, uma
empresa líder em bens comerciais de fabricação rápida, "Procter & Gamble", usa
extensivamente big data coletada de sites de mídia social, mercados de teste e grupos
focais na preparação para o lançamento de seu novo produto.
Manutenção preditiva – Para além de deixar de projeto possíveis falhas mecânicas

e de equipamentos, um grande volume de dados não estruturados como mensagens
de erro, entradas de log e temperatura normal da máquina devem ser analisados
juntamente com dados estruturados disponíveis como marca e modelo do equipamento
e ano de fabricação. Ao analisar esse grande conjunto de dados usando as ferramentas
analíticas necessárias, as empresas podem prolongar a vida útil de seus equipamentos,
preparando-se para a manutenção programada com antecedência e prevendo futuras
ocorrências de possíveis falhas mecânicas.
Experiência do cliente – O cliente inteligente está ciente de todos os avanços
tecnológicos e é leal apenas à experiência de usuário mais envolvente e aprimorada
disponível. Isso desencadeou uma corrida entre as empresas para fornecer experiências
únicas aos clientes, analisando os dados coletados das interações dos clientes com os
produtos e serviços da empresa. Fornecer recomendações e ofertas personalizadas
para reduzir a taxa de rotatividade de clientes e palavras gentis de forma eficaz para
que potenciais clientes paguem
clientes.
Fraude e conformidade – Big data ajuda a identificar os padrões de dados e avaliar
as tendências históricas de transações fraudulentas anteriores para detectar e prevenir
com eficácia transações potencialmente fraudulentas. Bancos, instituições financeiras
e serviços de pagamento online como “PayPal” estão constantemente monitorando e
coletando dados de transações de clientes em um esforço para evitar fraudes.
Eficiência operacional – Com a ajuda da análise preditiva de big data. as empresas

podem aprender e antecipar a demanda futura e as tendências do produto analisando
a capacidade de produção, o feedback do cliente e os dados pertencentes aos principais
venda de itens e retornos de produtos para melhorar a tomada de decisão e produzir

produtos que estejam alinhados com as tendências atuais do mercado.
Aprendizado de máquina – Para que uma máquina seja capaz de aprender e treinar
por conta própria, ela requer um volume enorme de dados, ou seja, big data. Um sólido
conjunto de treinamento contendo dados estruturados, semiestruturados e não estruturados
ajudará a máquina a desenvolver uma visão multidimensional do mundo real e do problema
que foi projetada para resolver.
Impulsionar a inovação – Ao estudar e entender as relações entre os seres humanos
e seus dispositivos eletrônicos, bem como os fabricantes desses dispositivos, as empresas
podem desenvolver produtos aprimorados e inovadores, examinando as tendências atuais
dos produtos e atendendo às expectativas dos clientes.
“A importância do big data não gira em torno de quantos dados você tem, mas o que
você faz com eles. Você pode pegar dados de qualquer fonte e analisá-los para encontrar
respostas que permitem 1) reduções de custo, 2) reduções de tempo, 3) desenvolvimento
de novos produtos e ofertas otimizadas e 4) tomada de decisão inteligente”.
-SAS
O funcionamento dos grandes dados
Existem três ações importantes necessárias para obter insights de big data:
Integração – Os métodos tradicionais de integração de dados, como ETL (Extrair,
Transformar, Carregar), são incapazes de agrupar dados de uma ampla variedade de fontes
e aplicativos não relacionados que são você no coração de grandes dados. Ferramentas e
tecnologias avançadas são necessárias para analisar grandes conjuntos de dados que são
exponencialmente maiores do que os conjuntos de dados tradicionais. Ao integrar big data
dessas fontes díspares, as empresas podem analisar e extrair informações valiosas para
expandir e manter seus negócios.
Gerenciamento – o gerenciamento de big data pode ser definido como “a organização,
administração e governança de grandes volumes de dados estruturados e não estruturados”.
Big data requer armazenamento eficiente e barato, que pode ser obtido usando servidores
locais, baseados em nuvem ou uma combinação de ambos. As empresas podem acessar
facilmente os dados necessários de qualquer lugar do mundo e, em seguida, processar
esses dados usando os mecanismos de processamento necessários conforme a
necessidade. O objetivo é garantir que a qualidade dos dados seja de alto nível e possa ser
acessada facilmente pelos usuários necessários.
ferramentas e aplicativos. Big data coletados de todos os tipos de fontes da Dale, incluindo
plataformas de mídia social, histórico do mecanismo de pesquisa e registros de chamadas.
Os grandes dados geralmente contêm grandes conjuntos de dados não estruturados e os
dados semiestruturados que são armazenados em vários formatos. Para poder processar
e armazenar esses dados complicados, as empresas precisam de um software de
gerenciamento de dados mais poderoso e avançado além dos bancos de dados relacionais
tradicionais e plataformas de armazenamento de dados. Novas plataformas estão
disponíveis no mercado capazes de combinar big data com os sistemas tradicionais de
data warehouse em uma "arquitetura lógica de armazenamento de dados". Como parte
desse esforço, as empresas são obrigadas a tomar decisões sobre quais dados devem ser
protegidos para fins regulatórios e conformidade, quais dados devem ser mantidos para
fins analíticos futuros e quais dados não têm uso futuro e podem ser descartados. Esse
processo é chamado de "classificação de dados", que permite uma análise rápida e
eficiente de um subconjunto de dados a ser incluído em o processo decisório imediato da
empresa.
Análise – Uma vez que o big data foi coletado e está facilmente acessível, ele pode
ser analisado usando ferramentas e tecnologias analíticas avançadas. Essa análise
fornecerá insights valiosos e informações acionáveis. Big data pode ser explorado para
fazer descobertas e desenvolver modelos de dados usando inteligência artificial e
algoritmos de aprendizado de máquina.
Análise de Big Data
Os termos big data e big data analytics são frequentemente usados de forma
intercambiável devido ao fato de que o propósito inerente do big data é ser analisado. "Big
data analytics" pode ser definido como um conjunto de métodos qualitativos e quantitativos
que podem ser empregados para examinar uma grande quantidade de dados não
estruturados, estruturados e semiestruturados para descobrir padrões de dados e valiosos
insights ocultos. A análise de big data é a ciência de analisar big data para coletar métricas,
principais indicadores de desempenho e tendências de dados que podem ser facilmente
perdidos na enxurrada de dados brutos, comprados usando algoritmos de aprendizado de
máquina e técnicas analíticas automatizadas. As diferentes etapas envolvidas na "análise de big data" sã
Requisitos de coleta de dados – É importante entender quais informações ou dados

precisam ser coletados para atender aos objetivos e metas de negócios. A organização de
dados também é muito crítica para uma análise de dados eficiente e precisa. Algumas das
categorias nas quais os dados podem ser organizados são
gênero, idade, dados demográficos, localização, etnia e renda. Também deve ser tomada
uma decisão sobre os tipos de dados necessários (qualitativos e quantitativos) e os valores
dos dados (podem ser numéricos ou alfanuméricos) a serem usados para a análise.
Coleta de dados – Os dados brutos podem ser coletados de fontes diferentes, como
plataformas de mídia social, computadores, câmeras, outros aplicativos de software, sites
de empresas e até provedores de dados terceirizados. A análise de big data requer
inerentemente grandes volumes de dados, a maioria dos quais não estruturados com uma
quantidade limitada de dados estruturados e semiestruturados.
Organização e categorização dos dados – Dependendo da infraestrutura da empresa
A organização dos dados pode ser feita em uma simples planilha do Excel ou utilizando
ferramentas e aplicativos de mão-de-obra capazes de processar dados estatísticos. Os
dados devem ser organizados e categorizados com base nos requisitos de dados coletados
na primeira etapa do processo de análise de big data.
Limpeza dos dados – para realizar a análise de big data de forma suficiente e rápida, é
muito importante garantir que o conjunto de dados esteja isento de qualquer redundância e
erros. Somente um conjunto de dados completo que atenda aos requisitos de dados deve
ter prosseguido para a etapa de análise final. O pré-processamento de dados é necessário
para garantir que apenas dados de alta qualidade sejam analisados e que os recursos da
empresa sejam bem utilizados.
“Big data são ativos de informações de alto volume e alta velocidade e/ ou alta variedade
que exigem formas inovadoras e econômicas de processamento de informações que
permitem uma visão aprimorada, tomada de decisão e automação de processos”.
- Gartner
Analisando os dados – Dependendo do insight que se espera obter com a conclusão

da análise, qualquer um dos quatro tipos diferentes de abordagem de análise de big data a
seguir pode ser adotado:
Análise preditiva – Este tipo de análise é feito para gerar

previsões e previsões para os planos futuros da empresa. Com a conclusão
da análise preditiva do big data da empresa, o estado futuro da empresa
pode ser previsto com mais precisão e derivado do estado atual da empresa.
Os executivos de negócios estão profundamente interessados neste
análise para garantir que as operações do dia-a-dia da empresa

estejam alinhadas com a visão de futuro da empresa. Por exemplo,
para implantar ferramentas e aplicativos analíticos avançados na
divisão de vendas de uma empresa, o primeiro passo é analisar a
principal fonte de dados. Uma vez que a análise da fonte foi concluída,
o tipo e o número de canais de comunicação para a equipe de vendas
devem ser analisados. Isso é seguido pelo uso de algoritmos de
aprendizado de máquina nos dados do cliente para obter informações
sobre como a base de clientes existente está interagindo com os
produtos ou serviços da empresa. Essa análise preditiva será
concluída com a implantação de ferramentas baseadas em inteligência
artificial para disparar as vendas da empresa.
Análise prescritiva – Análise realizada com foco
principalmente nas regras de negócios e recomendações para gerar
um caminho analítico seletivo conforme prescrito pelos padrões do
setor para impulsionar o desempenho da empresa. O objetivo desta
análise é entender os meandros de vários departamentos da
organização e quais medidas devem ser tomadas pela empresa para
poder obter insights de seus dados de clientes usando um caminho
analítico prescrito. Isso permite que a empresa adote especificidade
e concisão de domínio, fornecendo um foco nítido em seu processo
de análise de big data existente e futuro.
Análise descritiva – Todos os dados recebidos e
armazenados pela empresa podem ser analisados para produzir
descrições perspicazes com base nos resultados obtidos. O objetivo
dessa análise é identificar padrões de dados e tendências atuais do
mercado que podem ser adotados pela empresa para expandir seus
negócios. Por exemplo, as empresas de cartão de crédito geralmente
exigem resultados de avaliação de risco em todos os clientes em
potencial para poder fazer previsões sobre a probabilidade de o
cliente não efetuar seus pagamentos de crédito e tomar uma decisão
se o cliente deve ser aprovado para o crédito ou não. Essa avaliação
de risco é baseada principalmente no histórico de crédito do cliente,
mas também leva em consideração outros fatores de influência,
incluindo comentários de outras instituições financeiras que o cliente
abordou para obter crédito, receita do cliente e desempenho financeiro,
bem como sua pegada digital e perfil de mídia social.
Análise diagnóstica – Como o nome sugere, esse tipo de análise é feito

para “diagnosticar” ou entender por que um determinado evento se desenrolou e como esse
evento pode ser evitado no futuro ou replicado, se necessário. Por exemplo, estratégias e
campanhas de marketing na web geralmente empregam plataformas de mídia social para
obter publicidade e aumentar sua boa vontade. Nem todas as campanhas são tão bem-
sucedidas quanto o esperado; portanto, aprender com as campanhas fracassadas é tão ou
mais importante. As empresas podem executar análises de diagnóstico em suas campanhas
coletando dados referentes às "menções de mídia social" da campanha, número de
visualizações de página da campanha, tempo médio gasto na página da campanha por um
indivíduo, número de fãs e seguidores de mídia social da campanha, avaliações on-line e
outras métricas relacionadas para entender por que a campanha falhou e como campanhas
futuras podem ser mais eficazes.
A análise de big data pode ser realizada usando uma ou mais das ferramentas listadas abaixo:
Hadoop – Estrutura de dados de código aberto.

Python – Linguagem de programação amplamente utilizada para
aprendizado de máquina.
SAS – ferramenta analítica avançada usada principalmente para análise de
big data.
Tableau – Ferramenta baseada em inteligência artificial usada principalmente
para visualização de dados.
SQL – a linguagem de programação usada para extrair dados
de bancos de dados relacionais.
Splunk – ferramenta analítica usada para categorizar dados gerados por

máquina
R-programação - a linguagem de programação usada
principalmente para computação estatística.
Aplicações de Big Data Analytics
A análise de big data está envolvida em todos os negócios centralizados em decisões rápidas e ágeis para
se manter competitivo. Alguns dos vários tipos de
organizações que podem usar análise de big data são:
Setor educacional Big

data permitiu a personalização de programas de aprendizagem de acordo com as
necessidades individuais do aluno e capacidades de aprendizagem para acelerar seu
crescimento acadêmico. O monitoramento e a análise em tempo real das interações dos
alunos em sala de aula podem ser usados para aprimorar o material do curso de estudo.
Com a ajuda da análise de big data, os testes padronizados foram atualizados para levar em
conta as curvas de aprendizado dos alunos.
Saúde A
quantidade de dados gerados na área da saúde está disparando. Registros digitais de
pacientes, informações do provedor de seguro de saúde, vários planos de saúde oferecidos
pelos empregadores e outras informações pertinentes constituem big data e podem ser muito
tediosos de gerenciar. Com o advento da análise de big data, os profissionais de saúde
podem descobrir informações valiosas desses dados e usar essas informações para
desenvolver ferramentas de diagnóstico e opções de tratamento que salvam vidas e um
período muito mais curto em comparação com o seguimento de um protocolo padrão.
O equipamento hospitalar, a entrada e saída do paciente, o curso do tratamento administrado
e outras atividades relacionadas podem ser efetivamente rastreados em tempo real e
otimizados para fornecer um melhor atendimento ao paciente. Estima-se que cerca de US$
63 bilhões possam ser economizados em custos globais de saúde simplesmente tornando o
sistema de saúde apenas 1% mais eficiente, usando análise de big data.
As plataformas de
mídia social do setor de viagens geralmente servem como um diário de nossas vidas
digitais com dados facilmente acessíveis gerados pelos usuários que podem ser analisados
pela empresa para descobrir tendências de dados ocultos e extrair informações valiosas
sobre as expectativas e preferências do cliente. A indústria de viagens, incluindo hotéis e
companhias aéreas, usa análise de big data para entender como os clientes estão interagindo
com os produtos e serviços da empresa. Essas empresas estão sempre procurando maneiras
de aumentar seus resultados financeiros, aumentando a taxa de conversão de um cliente
em potencial em um consumidor pagante. Ao entender os clientes individuais, as empresas
podem prever seus planos de viagem futuros e tentar convencê-los a permanecer na
empresa, oferecendo descontos e pacotes de viagem personalizados.
Finança
É muito importante que as instituições financeiras e os bancos sejam muito ágeis e
ágil com seu processo de tomada de decisão à medida que se ajustam à economia
flutuante. Com a ajuda de poderosas ferramentas analíticas de big data, as empresas
podem extrair informações valiosas dos dados em um ritmo rápido, de modo a serem
incluídas no processo de tomada de decisão imediato. Ao eliminar ferramentas e sistemas
sobrepostos e redundantes, as empresas podem economizar muito dinheiro em custos
indiretos e aumentar sua eficiência operacional. Ter as informações necessárias
disponíveis imediatamente permite que bancos e instituições financeiras forneçam um
excelente atendimento ao cliente.
Manufatura Os
fabricantes de produtos frequentemente se deparam com problemas complexos de
gerenciamento da cadeia de suprimentos, bem como quebra de equipamentos e
problemas de falha. Na indústria de manufatura, as empresas são capazes de prever a
falha potencial do equipamento em um futuro próximo e planejar a manutenção do
equipamento com antecedência para aproveitar ao máximo a vida útil e a eficiência do
equipamento. Ao coletar e analisar todos os dados da cadeia de suprimentos pertencentes
à linha de produtos da empresa, usando ferramentas e algoritmos analíticos avançados,
as empresas podem identificar o caminho logístico ideal para seus produtos, bem como
fornecedores terceirizados que podem resultar em economia de custos. As empresas
também podem obter informações sobre novas oportunidades de redução de custos e
áreas de expansão que poderiam ter sido facilmente perdidas em um grande volume de dados.
Varejo
O cliente inteligente de hoje tem grandes expectativas dos varejistas para entender
com precisão a demanda do cliente e fornecer produtos e serviços que estejam de acordo
com essas expectativas. As empresas são obrigadas a ter uma compreensão sólida do
que o cliente deseja, como o produto deve ser comercializado e o melhor momento para
lançar um produto ditado pelas tendências atuais do mercado. Os insights do cliente
necessários para atingir esse objetivo só podem ser coletados usando a análise de big
data em todos os dados disponíveis do consumidor coletados de uma ampla variedade
de fontes, como persona do consumidor, histórico de compras, programas de fidelidade
do cliente, atividades de mídia social, interação do cliente com a empresa sites e outras
fontes de dados relacionadas. Cada empresa possui seu próprio banco de dados de
clientes e, dependendo das ferramentas analíticas e algoritmos aplicados ao seu big data
e das informações procuradas, elas podem facilmente liderar a concorrência aumentando
a fidelidade do cliente e alcançando uma alta taxa de conversão de clientes em potencial
em consumidores pagantes.
Para empresas como Amazon, Facebook e Google, a análise de big data

ferramentas compõem as armas mais importantes em seu arsenal. Essas primeiras empresas
digitais não podem sobreviver. A Amazon é líder em serviços altamente customizados e
personalizados oferecidos aos consumidores. A Amazon implantou amplamente a análise de
big data para usar todos os dados disponíveis para criar e fornecer perfis de clientes e oferecer
recomendações de produtos com base em seu histórico de pedidos, entre outros fatores
contribuintes. A enorme quantidade de dados disponíveis para o Google é inimaginável. Graças
a bilhões de pesquisas realizadas no mecanismo de pesquisa do Google; a empresa evoluiu
como uma das empresas mais intensivas em dados do mundo. Essa carga de dados requer
ferramentas analíticas de big data para fornecer informações valiosas ao Google que, por sua
vez, podem aprimorar e melhorar ainda mais nossas vidas digitais. O Facebook está
considerando o uso de análise de big data para obter informações sobre o que seus usuários
estão falando, a fim de entender em quais produtos e serviços eles estariam interessados. A
plataforma gratuita do Facebook ganha dinheiro com os milhões de anúncios patrocinados por
grandes e pequenas empresas portanto, é fundamental para a empresa entender o pulso de
seus usuários e garantir que os anúncios exibidos no site sejam atuais e personalizados para
atender às expectativas de cada usuário.
Ciências da vida - O campo da pesquisa clínica é um processo altamente intensivo em

capital e extremamente lento, com julgamentos por vários motivos. A inteligência artificial e a
tecnologia da Internet das coisas médicas abriram novos horizontes para melhorar a velocidade
e a eficiência em todas as etapas da pesquisa clínica, fornecendo soluções mais inteligentes e
automatizadas.
Análise de Big Data Vs. Visualização de dados
Na comunidade de dados mais ampla, a análise de dados e a visualização de dados estão

sendo cada vez mais usadas como sinônimos. Espera-se que os analistas de dados profissionais
sejam capazes de representar dados com habilidade usando ferramentas e formatos visuais.
Por outro lado, novos cargos profissionais chamados de "especialista em visualização de
dados" e "artista de dados" chegaram ao mercado. Mas as empresas precisam de profissionais
para analisar seus dados e extrair informações valiosas deles. Como você já aprendeu, a
análise de dados ou análise de big data é um "processo exploratório" com objetivos definidos e
perguntas específicas que precisam ser respondidas a partir de um determinado conjunto de
big data. A visualização de dados refere-se à representação visual dos dados, usando
ferramentas simples como uma planilha do Excel ou avançadas como painéis criados com o
Tableau. Executivos de negócios são
sempre com pouco tempo e precisam capturar muitos detalhes. Portanto, o analista de
dados é obrigado a usar visualizações eficazes que podem reduzir significativamente a
quantidade de tempo necessária para entender os dados apresentados e coletar
insights valiosos dos dados. Ao desenvolver uma variedade de apresentações visuais
a partir dos dados, um analista pode visualizar os dados de diferentes perspectivas e
identificar possíveis tendências de dados, discrepâncias, lacunas e qualquer coisa que
se destaque e justifique uma análise mais aprofundada. Esse processo é conhecido
como "analítica visual". Algumas das representações visuais amplamente usadas dos
dados são "relatórios de painel", "infográficos" e "história de dados". Essas
representações visuais são consideradas a entrega final do processo de análise de big
data, mas, na realidade, elas frequentemente servem como ponto de partida para
futuras atividades políticas. As duas atividades completamente diferentes de visualização
de dados e análise de big data são inerentemente relacionadas e se entrelaçam,
servindo como ponto de partida e também como ponto final da outra atividade.
Responda às perguntas abaixo para verificar sua compreensão dos conceitos

explicados neste capítulo. A chave de resposta pode ser encontrada no final do questionário.
1. Cite os Vs do Big Data.

2. Defina Big Data Analytics.
3. Quais são as duas tecnologias inteligentes que contribuem
significativamente para o aumento do volume de dados?
4. A partir de 2020, quantos dados serão produzidos por humanos
atividade digital?
5. Quais são as três ações importantes necessárias para obter
insights de big data?
6. Que tipo de análise é usada para entender por que um
determinado evento se desenrolou e como esse evento pode ser evitado
no futuro ou replicado?
7. Qual é a diferença entre análise de dados e visualização de
dados?
Palavra chave
1. Volume, Velocidade, Variedade, Veracidade, Valor

2. Um conjunto de métodos qualitativos e quantitativos que podem ser
empregados para examinar uma grande quantidade de dados não
estruturados, estruturados e semiestruturados para descobrir padrões de
dados e valiosos insights ocultos.
3. Internet das coisas, Internet dos sistemas 4.
1,7 MB por pessoa por segundo 5.
Integração, gerenciamento e análise 6. Análise
diagnóstica 7. A análise
de dados ou análise de big data é um processo exploratório com
objetivos definidos e questões específicas que precisam ser ser respondidas
a partir de um determinado conjunto de big data. A visualização de dados
refere-se à representação visual de dados, usando ferramentas tão simples
quanto uma planilha do Excel ou tão avançadas quanto painéis.
Dia 4: Noções básicas de mineração de dados
A mineração de dados pode ser definida como “o processo de explorar e analisar

grandes volumes de dados para reunir padrões e regras significativos”. A mineração de
dados cai sob a égide da ciência de dados e é muito usada para construir modelos de
aprendizado de máquina baseados em inteligência artificial, por exemplo, algoritmos de
mecanismos de pesquisa. Embora o processo de “cavar dados” para descobrir padrões
ocultos e prever eventos futuros já exista há muito tempo e seja referido como “descoberta
de conhecimento em bancos de dados”, o termo “mineração de dados” foi cunhado
recentemente, na década de 1990. A mineração de dados consiste em três disciplinas
fundamentais e altamente interligadas da ciência, a saber, “estatística” (o estudo
matemático das relações de dados), “algoritmos de aprendizado de máquina” (algoritmos
que podem ser treinados com uma capacidade inerente de aprender) e “inteligência
artificial” (máquinas que podem exibir inteligência semelhante à humana). Com o advento
do big data, a tecnologia de mineração de dados evoluiu para acompanhar o “potencial
ilimitado do big data” e o poder de computação acessível. As atividades antes
consideradas tediosas, trabalhosas e demoradas foram automatizadas usando a
velocidade de processamento avançada e o poder dos sistemas de computação modernos.
“A mineração de dados é o processo de encontrar anomalias, padrões e correlações

em grandes conjuntos de dados para prever resultados. Usando uma ampla gama de
técnicas, você pode usar essas informações para aumentar as receitas, cortar custos,
melhorar o relacionamento com os clientes, reduzir riscos e muito mais”.
– SAS
De acordo com o SAS, “os dados não estruturados sozinhos representam 90% do
universo digital”. Essa avalanche de big data não garante necessariamente mais
conhecimento. A aplicação da tecnologia de mineração de dados permite filtrar todo o
ruído de dados redundante e desnecessário para obter o entendimento de informações
relevantes que podem ser usadas no processo de tomada de decisão imediata.
Aplicações de mineração de dados
As aplicações da tecnologia de mineração de dados são amplas, desde preços de

varejo e promoções até avaliação de risco de crédito por instituições financeiras.
instituições e bancos. Todo setor industrial está se beneficiando das aplicações da

tecnologia de mineração de dados.
Aqui estão alguns dos exemplos de aplicações industriais e tecnologia de mente de

dados:
Bioinformática em saúde Para
prever a probabilidade de o paciente sofrer de uma ou mais condições de saúde devido
aos fatores de risco, modelos estatísticos são usados por profissionais de saúde. As
doenças transmitidas geneticamente podem ser prevenidas ou mediadas desde o início
da deterioração das condições de saúde, modelando os dados genéticos, familiares e
demográficos do paciente. Nos países em desenvolvimento, há escassez de profissionais
de saúde. Portanto, diagnósticos assistidos e priorização de pacientes são muito críticos.
Modelos baseados em mineração de dados foram recentemente implantados nesses
países para ajudar na priorização de pacientes antes que os profissionais de saúde
possam chegar a esses países e administrar o tratamento.
Gerenciamento de risco de
crédito Instituições financeiras e bancos implementam ferramentas de modelos de
mineração de dados para prever a probabilidade de um possível cliente de cartão de
crédito não efetuar seus pagamentos de crédito no prazo, bem como para determinar o
limite de crédito apropriado ao qual o cliente pode se qualificar. Esses modelos de
mineração de dados coletam e extraem informações de uma variedade de fontes de
entrada, incluindo informações pessoais, histórico financeiro do cliente e dados demográficos, entre outra
O modelo então fornece a taxa de juros da instituição ou banco a ser cobrada do cliente
com base no risco avaliado. Por exemplo, os modelos de mineração de dados levam em
consideração a pontuação de crédito do requerente e os indivíduos com uma pontuação
de crédito baixa recebem altas taxas de juros.
Filtragem de
spam Muitos clientes de e-mail, como “Google mail” e “Yahoo mail”, dependem das
ferramentas de mineração de dados para detectar e sinalizar spam e malware de e-mail.
Ao analisar centenas e milhares de características compartilhadas de spams e malware, a
ferramenta de mineração de dados fornece informações que podem ser usadas no
desenvolvimento de medidas e ferramentas de segurança aprimoradas. Esses aplicativos
não são apenas capazes de detectar spam, mas também são muito eficientes em
categorizar os e-mails de spam e armazená-los em uma pasta separada, para que nunca
entrem na caixa de entrada do usuário.
Marketing
As empresas de varejo têm uma necessidade incessante de entender as demandas e
expectativas de seus clientes. Com o uso de ferramentas de mineração de dados, as
empresas podem analisar os dados relacionados ao cliente, como histórico de compras,
dados demográficos, sexo e idade, para coletar insights valiosos do cliente e segmentá-los
em grupos com base em atributos de compras compartilhados. As empresas, então,
elaboram estratégias e campanhas de marketing exclusivas para atingir grupos específicos,
como ofertas de desconto e promoções.
Análise de sentimentos
Com o uso de uma técnica chamada “mineração de texto”, as empresas podem analisar
seus dados de todas as suas plataformas de mídia social para entender o “sentimento” de
sua base de clientes.
Esse processo de entender os sentimentos de um grande grupo de pessoas em relação

a um determinado tópico é chamado de “análise de sentimento” e pode ser realizado
usando ferramentas de mineração de dados. Com o uso da tecnologia de reconhecimento
de padrões, dados de entrada de plataformas de mídia social e outros sites de conteúdo
público relacionados são coletados usando a tecnologia de “mineração de texto” e
identificam padrões de dados que alimentam uma compreensão geral do tópico. Para
mergulhar ainda mais nesses dados, a técnica de “processamento de linguagem natural”
pode ser usada para entender a linguagem humana em um contexto específico.
Mineração de dados
qualitativos A técnica de “mineração de texto” também pode ser usada para realizar
pesquisas quantitativas e obter insights de grandes volumes de dados não estruturados.
Recentemente, uma pesquisa realizada pela Universidade de Berkeley revelou o uso de
modelos de mineração de dados e estudos de programas de bem-estar infantil.
Sistemas de recomendação de produtos

Os “sistemas de recomendações” avançados são como o pão com manteiga para os
varejistas online. O uso da análise preditiva do comportamento do cliente está aumentando
entre as pequenas e grandes empresas online para obter uma vantagem competitiva no
mercado. Algumas das maiores empresas de comércio eletrônico, incluindo "Amazon",
Macy's" e" Nordstrom", investiram milhões de dólares no desenvolvimento de seus próprios
modelos de mineração de dados proprietários para prever tendências de mercado e tudo
para uma experiência de usuário mais envolvente. aos seus clientes. O gigante do
entretenimento sob demanda
“Netflix” comprou um algoritmo no valor de mais de um milhão de dólares para melhorar a precisão de
seu sistema de recomendação de vídeo, o que supostamente aumentou a precisão de recomendação para
“Netflix” em mais de 8%.
O processo de mineração de dados
Os processos de mineração de dados mais amplamente usados podem ser divididos em seis etapas,
conforme listado abaixo:
1. Entendimento do negócio É muito

importante entender os objetivos do projeto e o que você está tentando alcançar por meio do processo
de mineração de dados. As empresas sempre começam com o estabelecimento de uma meta definida e um
plano de projeto que inclui detalhes como funções e responsabilidades individuais dos membros da equipe,
marcos do projeto, cronogramas do projeto e principais indicadores e métricas de desempenho.
2. Compreensão dos dados

Os dados estão disponíveis a partir de uma ampla variedade de fontes de entrada e em diferentes
formatos. Com o uso de ferramentas de visualização de dados, as propriedades e os recursos dos dados
podem ser avaliados para garantir que o conjunto de dados existente seja capaz de atender aos requisitos
de negócios estabelecidos e aos objetivos do projeto.
3. Preparação dos dados O

pré-processamento dos dados coletados em vários formatos é muito importante.
O conjunto de dados deve ser limpo para remover redundâncias de dados e identificar lacunas antes de ser
considerado apropriado para mineração. Considerando a quantidade de dados a serem analisados, as
etapas de pré-processamento e processamento dos dados podem levar muito tempo. Para aumentar a
velocidade do processo de mineração de dados, em vez de usar um único sistema, as empresas preferem
usar sistemas distribuídos como parte de seus “sistemas de gerenciamento de banco de dados”. Os sistemas
distribuídos também fornecem medidas de segurança aprimoradas, segregando os dados em vários
dispositivos, em vez de um único data warehouse. Nesta fase, também é muito importante levar em conta as
opções de backup e medidas de segurança em caso de perda de dados durante a fase de manipulação de
dados.
4. Modelagem de dados
Modelos matemáticos aplicáveis e ferramentas analíticas são aplicadas ao
conjunto de dados para identificar padrões.
5. Avaliação Os
resultados da modelagem e os padrões de dados são avaliados em relação à meta e aos
objetivos do projeto para determinar se as descobertas dos dados podem ser liberadas para
uso em toda a organização.
6. Implantação
Uma vez que os insights coletados dos dados tenham sido avaliados como aplicáveis ao
funcionamento e operações da organização, esses insights podem ser compartilhados em
toda a empresa para serem incluídos em suas operações diárias. Com o uso de uma
ferramenta de Business Intelligence, as descobertas de dados podem ser armazenadas em
um local centralizado e acessadas usando a ferramenta de BI conforme necessário.
Prós da mineração de dados
Tomada de decisão automatizada

Com o uso da tecnologia de mineração de dados, as empresas podem automatizar tarefas
manuais tediosas e analisar grandes volumes de dados para obter insights para o processo
de tomada de decisão crítico e rotineiro. Por exemplo, instituições financeiras de empréstimo,
bancos e serviços de pagamento online usam tecnologia de mineração de dados para detectar
transações potencialmente fraudulentas, verificar a identidade do usuário e garantir a
privacidade dos dados para proteger seus clientes contra roubo de identidade. Quando os
algoritmos operacionais de uma empresa estão trabalhando em coordenação com os modelos
de mineração de dados, uma empresa pode coletar, analisar e tomar ações de forma
independente sobre os dados para melhorar e agilizar seu processo de tomada de decisão
operacional.
Previsão e previsão precisas O planejamento
de projetos é fundamental para o sucesso de qualquer empresa. Gerentes e executivos
podem aproveitar a tecnologia de mineração de dados para coletar previsões e previsões
confiáveis sobre as tendências futuras do mercado e incluí-las em seu processo de
planejamento futuro. Por exemplo, uma das principais empresas de varejo “Macy's”
implementou modelos de previsão de demanda para gerar previsões de demanda confiáveis
para categorias de roupas de Mary em lojas individuais, a fim de aumentar a eficiência de sua
cadeia de suprimentos, direcionando o estoque previsto para cada loja e atender às
necessidades do mercado com mais eficiência.
Redução de
custos Com a ajuda de tecnologias de mineração de dados, as empresas podem
maximizar o uso de seus recursos, alocando-os de maneira inteligente em todo o modelo de negócios.
O uso da tecnologia de mineração de dados no planejamento, bem como um processo
automatizado de tomada de decisão, resulta em previsões precisas que levam a reduções
significativas de custos. Por exemplo, uma grande companhia aérea “Delta” implementou
chips RFID dentro de suas bagagens despachadas de passageiros e coletou dados de
manuseio de bagagens que foram analisados usando tecnologia de mineração de dados
para identificar oportunidades de melhoria em seu processo e minimizar o número de
bagagens extraviadas. Isso não só resultou em economia de custos no processo de busca
e reencaminhamento da bagagem perdida, mas também se traduziu em maior satisfação
do cliente.
Percepções do
cliente Empresas de diferentes setores industriais implantaram modelos de mineração
de dados para coletar informações valiosas dos dados existentes do cliente, que podem
ser usados para segmentar e direcionar clientes com atributos de compra semelhantes
usando campanhas e estratégias de marketing semelhantes. As personas dos clientes
podem ser criadas usando a tecnologia de mineração de dados para fornecer uma
experiência de usuário mais envolvente e personalizada ao cliente. Por exemplo, a “Disney”
investiu recentemente mais de bilhões de dólares no desenvolvimento e implantação de
“bandas mágicas”, oferecendo conveniência e experiência aprimorada nos resorts Disney.
Ao mesmo tempo, essas bandas podem ser usadas para coletar dados sobre as atividades
e interações dos clientes com diferentes produtos e serviços “Disney” no parque para
aprimorar ainda mais a “experiência Disney”.
“Quando [a mineração de dados e] a análise preditiva são feitas corretamente, as
análises não são um meio para um fim preditivo; em vez disso, as previsões desejadas
tornam-se um meio de percepção e descoberta analítica. Fazemos um trabalho melhor
analisando o que realmente precisamos analisar e prevendo o que realmente queremos
prever”.
– Relatório do Harvard Business Review Insight Center
Desafios da mineração de dados
1. Big data
Nossa vida digital inundou empresas com grandes volumes de dados, estimados em
1,7 MB por segundo por pessoa até 2020. Isso
O aumento exponencial no volume e na complexidade do big data tem apresentado desafios

para a tecnologia de mineração de dados. As empresas estão procurando agilizar seu
processo de tomada de decisão, extraindo e analisando dados de maneira rápida e eficiente
para obter insights valiosos de seu tesouro de dados.
O objetivo final da tecnologia de mineração de dados é superar esses desafios e liberar o
verdadeiro potencial do valor dos dados. Os “4Vs” de big data, ou seja, velocidade, variedade,
volume e veracidade, representam os quatro principais desafios enfrentados pela tecnologia
de mineração de dados.
A “velocidade” disparada ou velocidade na qual novos dados estão sendo gerados representa
um desafio de aumentar os requisitos de armazenamento. A “variedade” ou diferentes tipos
de dados coletados e armazenados requerem recursos avançados de mineração de dados
para poder processar simultaneamente uma infinidade de formatos de dados.
As ferramentas de mineração de dados que não estão equipadas para processar big data
altamente variáveis fornecem baixo valor, devido à sua ineficiência e à análise conjunta de
dados não estruturados e estruturados.
O grande volume de big data não é apenas desafiador para armazenamento, mas é ainda
mais desafiador para identificar dados corretos em tempo hábil, devido a uma redução maciça
na velocidade das ferramentas e algoritmos de mineração de dados. Para aumentar esse
desafio, a “veracidade” dos dados denota que todos os dados coletados não são precisos e
podem ser incompletos ou até tendenciosos. As ferramentas de mineração de dados estão
lutando para fornecer resultados de alta qualidade em tempo hábil, analisando grandes
quantidades ou big data.
2. Modelos de sobrecarga
Os modelos de dados que descrevem os erros naturais do conjunto de dados, em vez
dos padrões subjacentes, costumam ser “superajustados” ou sobrecarregados. Esses
modelos tendem a ser altamente complexos e o coro, um grande número de mídias
independentes, joga para prever com precisão um evento futuro. O volume e a variedade de
dados aumentam ainda mais o risco de sobrecarga. Um grande número de variáveis tende a
restringir o modelo de dados dentro dos limites dos dados de amostra conhecidos. Por outro
lado, um número insuficiente de variáveis pode comprometer a relevância do modelo. Obter
o número necessário de variáveis para os modelos de mineração de dados, para conseguir
um equilíbrio entre a precisão dos resultados e as capacidades de previsão é um dos maiores
desafios enfrentados pela tecnologia de mineração de dados hoje.
3. Privacidade e segurança dos

dados Para atender ao grande volume de big data gerado diariamente, as empresas estão
investindo em servidores de armazenamento baseados em nuvem junto com seus servidores
locais. A tecnologia de computação em nuvem é relativamente nova no mercado e a natureza
inerente desse serviço apresenta várias preocupações de segurança e privacidade. A
privacidade e a segurança dos dados são uma das maiores preocupações dos consumidores
inteligentes que desejam levar seus negócios. A empresa que pode prometer a eles a
segurança de suas informações e dados pessoais.
Isso exige que as organizações avaliem seus relacionamentos com os clientes e priorizem a
privacidade do cliente em vez do desenvolvimento de políticas que possam comprometer a
segurança dos dados do cliente.
4. Dimensionamento
de custos Com o aumento da velocidade de geração de dados levando a um alto volume
de dados complexos, as organizações precisam expandir seus modelos de mineração de
dados e implantá-los em toda a organização. Para liberar todo o potencial das ferramentas de
mineração de dados, as empresas precisam investir pesadamente em infraestrutura de
computação e poder de processamento para executar com eficiência os modelos de mineração de dados.
A compra de itens de grande valor, incluindo servidores de dados, software e computadores
avançados, deve ser feita para dimensionar os recursos analíticos da organização.
Tendências de mineração de dados
Maior velocidade de computação

Com o aumento do volume e da complexidade do big data, as ferramentas de mineração
de dados precisam de computadores mais poderosos e rápidos para analisar os dados com
eficiência. As técnicas estatísticas existentes, como equipamentos de arte de “agrupamento”
para processar apenas milhares de dados de entrada com um número limitado de variáveis.
No entanto, as empresas estão reunindo milhões de novas observações de dados com
centenas de variáveis, tornando a análise muito complicada para o sistema de computação
processar.
O big data continuará a explodir, exigindo supercomputadores poderosos o suficiente para

analisar rápida e eficientemente o crescente big data.
Padronização de linguagem A
comunidade de ciência de dados está procurando ativamente padronizar uma linguagem para o
processo de mineração de dados. Esse esforço contínuo permitirá que o analista trabalhe
convenientemente com uma variedade de plataformas de mineração de dados, dominando uma
linguagem padrão de mineração de dados.
Mineração científica
O sucesso da tecnologia de mineração de dados no mundo industrial chamou a atenção da
comunidade de pesquisa científica e acadêmica. Por exemplo, psicólogos estão usando “análise de
associação” para capturá-la e identificar padrões de comportamento humano para fins de pesquisa.
Os economistas estão usando algoritmos de análise de proteção para prever as tendências futuras
do mercado, analisando as variáveis atuais do mercado.
Mineração da
Web A mineração da Web pode ser definida como “o processo de descoberta de padrões e cadeias
de dados ocultos usando técnicas similares de mineração de dados e aplicando-as diretamente na
Internet”. Os três principais tipos de mineração na web são: “mineração de conteúdo”, “mineração
de uso” e “mineração de estrutura”. Por exemplo, a “Amazon” usa mineração na web para obter uma
compreensão das interações do cliente com seu site e aplicativo móvel, para fornecer uma
experiência de usuário mais envolvente e aprimorada para seus clientes.
Ferramentas de mineração de dados
Algumas das ferramentas de mineração de dados mais amplamente utilizadas são:
Orange
Orange é um “software baseado em componentes de código aberto escrito em Python”.
Ele é usado com mais frequência para análise básica de mineração de dados e oferece recursos
de pré-processamento de dados de primeira linha.
RapidMiner
RapidMiner é um “software baseado em componentes de código aberto escrito em Java”. É
usado com mais frequência para “análise preditiva” e oferece ambientes integrados para “aprendizado
de máquina”, “aprendizagem profunda” e “mineração de texto”.
Mahout
Mahout é uma plataforma de código aberto usada principalmente para o processo de
aprendizado não supervisionado” e desenvolvida pela “Apache”. É usado com mais
frequência para desenvolver “algoritmos de aprendizado de máquina para agrupamento,
classificação e filtragem colaborativa”. Este software requer conhecimento e experiência
avançados para poder aproveitar todos os recursos da plataforma.
MicroStrategy O
MicroStrategy é um “software de business intelligence e análise de dados que pode
complementar todos os modelos de mineração de dados”. Essa plataforma oferece uma
variedade de drivers e gateways para conectar-se perfeitamente a qualquer recurso
corporativo e analisar big data complexos, transformando-os em visualizações acessíveis
que podem ser facilmente compartilhadas em toda a organização.
Dia 5: estruturas de análise de dados
Aprendizado conjunto
É o método de combinar previsões geradas por vários algoritmos de aprendizado

de máquina para criar previsões de maior precisão do que qualquer um dos algoritmos
contribuintes. Simplificando, um modelo de conjunto consiste em vários modelos ou
algoritmos de contribuição para processar os dados subjacentes por reforço ou
empacotamento.
Quando um conjunto de algoritmos de aprendizado usando médias ponderadas

para transformar modelos fracos em aprendizes fortes é chamado de boosting. O
modelo anterior ditará os recursos que serão focados e executados pelo modelo
subsequente. O aprendizado de máquina é aprimorado com execuções repetidas. Por
outro lado, bagging ou agregação bootstrap refere-se a selecionar aleatoriamente as
amostras de dados e, em seguida, substituir os dados para obter previsões mais
precisas. Com essa técnica, a variância e o viés do conjunto de dados podem ser
facilmente compreendidos. Isso é útil quando você está lidando com algoritmos com
alta variância, como árvores de decisão, e precisa diminuir a variância do modelo.
Cada modelo processará o conjunto de dados de forma independente
e agregar o resultado final sem preferência por nenhum modelo específico.
Árvores de decisão
Se você está pensando se esta árvore de decisão tem alguma relação com as árvores
da vida real, então você está correto. Uma árvore tem poucas partes fundamentais,
principalmente galhos, folhas, tronco e raízes. Da mesma forma, uma árvore de decisão
possui vários elementos para ajudar no processo de tomada de decisão. Uma “árvore de
decisão” da ciência de dados pode ser definida como uma representação gráfica
semelhante a uma árvore do processo de tomada de decisão, levando em consideração
todas as condições ou fatores que podem influenciar a decisão e as consequências
dessas decisões. As árvores de decisão são consideradas um dos “algoritmos de
aprendizado de máquina supervisionado” mais simples e possuem três elementos
principais: “nós de ramificação” representando condições, “bordas” representando o
processo de decisão em andamento e “nós de folha” representando o final da decisão.
Existem dois tipos de árvores de decisão: “Árvore de classificação” que é utilizada

para classificar Dados para informações com base nos dados existentes disponíveis no
sistema; “Árvore de regressão”, que é usada para fazer uma previsão de previsões de
eventos futuros com base nos dados existentes no sistema. Ambas as árvores são muito
usadas em algoritmos de aprendizado de máquina. Uma terminologia amplamente
utilizada para árvores de decisão é “Árvores de classificação e regressão” ou “CART”.
Vejamos como você pode construir uma árvore de decisão simples com base em um exemplo da vida re
Etapa 1: Identificar qual decisão precisa ser tomada, que servirá como um "nó raiz"
para a árvore de decisão. Para este exemplo, a decisão precisa ser tomada em "O que
você gostaria de fazer no fim de semana?". Ao contrário árvores reais, a árvore de decisão
tem suas raízes no topo ao invés da base.
Passo 2: Identifique condições ou fatores influenciadores para sua decisão, que
servirão como “nós de ramificação” para a árvore de decisão. Para este exemplo, as
condições podem incluir “você gostaria de passar o fim de semana sozinho ou com seus
amigos?” e “como vai estar o tempo?”.
Etapa 3: Ao responder às perguntas condicionais, você pode se deparar com condições
adicionais que pode ter ignorado. Agora você continuará com sua decisão final
processando todas as perguntas condicionais individualmente; essas bifurcações servirão
como “arestas” de sua árvore de decisão.
Etapa 4: Depois de processar todas as permutações e combinações e, eventualmente,
tomar sua decisão final, essa decisão final servirá como o
“nó folha” da sua árvore de decisão. Ao contrário dos “nós de ramificação”, não há mais
bifurcações possíveis a partir de um “nó de folha”.
Aqui está a representação gráfica de sua decisão para o exemplo acima:
Como seria de esperar de uma árvore de decisão, você obteve um “modelo que
representa um conjunto de decisões sequenciais e hierárquicas que, por fim, levam a
alguma decisão final”. Este exemplo está em um nível muito alto para ajudá-lo a desenvolver
uma compreensão do conceito de árvores de decisão. As árvores de decisão de ciência de
dados e aprendizado de máquina são muito mais complicadas e maiores, com centenas e
milhares de nós de ramificação e arestas. A melhor ferramenta do mercado para visualizar
e entender as árvores de decisão é o “Scikit Learn”. Os modelos de árvore de decisões de
aprendizado de máquina podem ser desenvolvidos usando duas etapas: “Indução” e “Poda”.
Indução
Nesta etapa, as árvores de decisão são realmente desenvolvidas selecionando e
modelando todos os limites de decisão sequenciais e hierárquicos com base no conjunto de
dados existente. Para sua facilidade de compreensão, aqui estão 4 etapas de alto nível
necessárias para desenvolver a árvore:
1. Reúna, classifique e rotule o conjunto de dados de treinamento com

“variáveis de características” e “saída de classificação ou regressão”.
2. Identifique o melhor e mais econômico recurso dentro do conjunto de

dados de treinamento que será usado como ponto para bifurcar os dados.
3. Com base nos valores possíveis da “melhor característica”

selecionada, crie subconjuntos de dados bifurcando o conjunto de dados.
Essas bifurcações definirão os “nós de ramificação” da árvore de decisão, em
que cada nó serve como um ponto de bifurcação com base em recursos
específicos do conjunto de dados.
4. Desenvolver iterativamente novos nós de árvore com o uso de
subconjuntos de dados coletados na etapa 3. Essas bifurcações continuarão
até que um ponto ideal seja alcançado, onde a precisão máxima é alcançada
enquanto minimiza o número de bifurcações ou nós.
Poda O
propósito inerente das árvores de decisão é dar suporte ao treinamento e autoaprendizagem
do sistema, o que muitas vezes requer a sobrecarga de todas as condições possíveis e fatores
influenciadores que podem afetar o resultado final. Para superar o desafio de definir a saída
correta para o menor número de instâncias por nó, os desenvolvedores fazem uma “aposta
segura” ao se contentar com esse “menor número” como bastante pequeno. Isso resulta em
um alto número de bifurcações necessárias, tornando a árvore de decisão muito complexa e
grande. É aqui que entra a “poda de árvores”. O verbo “prune” significa literalmente “reduzir
especialmente pela eliminação de matéria supérflua”. Este é o mesmo tipo de conceito retirado
da poda de árvore da vida real e aplicado ao processo de poda de árvore de decisão de
ciência de dados e aprendizado de máquina. O processo de poda reduz efetivamente a
complexidade geral da árvore de decisão “transformando e comprimindo limites de decisão
estritos e rígidos em limites generalizados e suaves”. O número de bifurcações nas árvores
de decisão determina a complexidade geral da árvore. O método de poda mais fácil e
amplamente utilizado é revisar os nós de ramificação individuais e avaliar o efeito de sua
remoção na função de custo da árvore de decisão. Se a função de custo tiver pouco ou
nenhum efeito da remoção, o nó da ramificação em revisão pode ser facilmente removido ou
“podado”.
Vantagens das Árvores de Decisão
As árvores de decisão oferecem alta transparência e podem ser

facilmente compreendidas e interpretadas.
Avalie facilmente a influência dos valores dos recursos na saída

gerada.
Reúna uma compreensão completa da precisão dos dados e das
fontes de erro.
Ao contrário da maioria dos modelos de aprendizado de máquina,
as árvores de decisão requerem a menor quantidade de pré-processamento dos
dados e podem ser usadas imediatamente com poucos ajustes feitos nos
parâmetros seletivos.
O número de pontos de dados usados para treinar a árvore é
inversamente proporcional ao custo de coleta de inferências da árvore.
Desvantagens das árvores de decisão
Considerando a natureza inerente das árvores de treinamento,

sobrecarga pode ocorrer facilmente.
As árvores de decisão podem se tornar tendenciosas para os
recursos com a maioria dos pontos de dados no conjunto de dados.
As árvores de decisão podem não ser confiáveis. Mesmo uma
pequena variação errada feita nos dados pode resultar no desenvolvimento de
uma árvore completamente diferente da necessária. Isso também é chamado de
“variação” e pode ser gerenciado usando métodos como “bagging” e “boosting”.
“Algoritmos gananciosos” não podem garantir o retorno da árvore

de decisão “globalmente ótima”. Para atenuar esse problema, várias árvores
devem ser criadas e treinadas selecionando aleatoriamente os recursos de
dados e amostras do conjunto de dados de treinamento.
floresta aleatória
Este é outro tipo de algoritmo de aprendizado supervisionado que utiliza a técnica de

aprendizado conjunto para regressões e classificação. Várias árvores de decisão serão
executadas simultaneamente em uma floresta aleatória sem interações.
Portanto, a técnica de bagging é empregada no conjunto de dados. Este algoritmo irá construir
um número de árvores de decisão durante a fase de treinamento e produzir a classe que pode
ser a média de todas as predições geradas por cada árvore (regressão) ou o modo das classes
criadas (classificação). Em 1995, estanho
Kam Ho usou a técnica de subespaço aleatório para desenvolver o 1º algoritmo de floresta

aleatória em uma tentativa de implementar a abordagem de discriminação estocástica.
Esse algoritmo foi aprimorado ainda mais por Adele Cutler e Leo Breiman, que acabaram
registrando “Random Forests” como marca. Esse aprimoramento combinou a técnica de
ensacamento proposta por Breiman com recursos preditivos de seleção aleatória, conforme
proposto por Ho. De acordo com Ho, as florestas aleatórias que se dividem com hiperplanos
oblíquos são capazes de ganhar precisão ao longo do desenvolvimento sem qualquer
necessidade de treinamento adicional se o algoritmo for aleatoriamente restrito para responder
apenas a dimensões de recursos selecionados. Com a técnica de seleção de subespaço
aleatório, uma floresta aleatória de árvores é cultivada e qualquer variação entre as árvores
será introduzida com projeções de dados de treinamento em um subespaço aleatório. Depois
disso, toda árvore de decisão ou nó da floresta passará por um ajuste. Como a floresta aleatória
é capaz de combinar resultados de várias previsões, ela é considerada um meta-estimador
que pode agregar várias árvores de decisão. Com certas modificações necessárias listadas
abaixo, as árvores podem ser impedidas de alta correlação.
1. Pode ser definido um hiperparâmetro que determina o número de

recursos que podem ser divididos em cada nó como uma porcentagem
predefinida do total de recursos. Isso garantirá que o modelo de conjunto não
seja muito dependente de um único recurso preditivo e considere todos os
recursos sem preferência.
2. Cada árvore extrairá uma amostra do conjunto de dados aleatoriamente
enquanto cria as divisões e incorpora ainda mais o elemento de aleatoriedade
que impediria o superajuste do modelo.
Os preditores florestais aleatórios são inerentemente inclinados à dissimilaridade nas

observações a partir de sua fase de desenvolvimento. O conjunto inicial de dados brutos que
não foi organizado e rotulado forma os dados observados; por outro lado, os dados sintéticos
podem ser extraídos de uma distribuição de referência.
Uma “medida de dissimilaridade de floresta aleatória” pode ser definida para dados não
rotulados, permitindo a construção de um preditor de floresta aleatório que pode diferenciar os
dados observados de uma distribuição de referência. Essa medida de dissimilaridade equipa a
floresta para processar tipos de variáveis mistas com alta eficiência, ao mesmo tempo em que
contabiliza os valores discrepantes da observação e as entradas variantes baixas. Também pode lidar
com um grande volume de variável semicontínua devido à sua seleção de variável

interna. Por exemplo, a imagem abaixo contém 9 classificadores de árvore de decisão
que produzirão um modelo de floresta aleatório combinando entradas de todos os 9
classificadores.
Agora imagine, que o eixo horizontal dessas saídas são as características P1 e o

eixo vertical como P2. A saída foi classificada como cores selecionadas, como
“azul” (1), “verde” (2), “vermelho” (3) e muito mais. Essas saídas podem ser
combinadas pela média dos votos do modelo em um modelo de conjunto que relatará
um desempenho mais alto do que qualquer árvore única. O resultado combinado de
todas as 9 árvores é mostrado na figura abaixo:
Vantagens da Random Forest
A precisão do modelo resultante é muito maior do que a

maioria dos outros algoritmos. Também é capaz de produzir um
classificador de conjunto de dados com alta precisão.
Pode ser executado em um grande banco de dados com alta
eficiência.
É capaz de lidar com um grande volume de entrada
variáveis sem variáveis excluídas.
É capaz de estimar variáveis significativas na classificação.
Ele será capaz de gerar uma estimativa interna do erro de

generalização sem viés enquanto o modelo está sendo construído.
É uma técnica altamente eficaz para estimar valores de

dados ausentes e manter uma precisão razoável, mesmo quando a maior
parte dos dados está ausente.
Desvantagens da Random Forest
O algoritmo de floresta aleatória pode supostamente causar

overfitting para determinados conjuntos de dados que constituem tarefas de
regressão ou classificação com ruído de fundo significativo.
Ao trabalhar com dados contendo variáveis categóricas com vários
níveis, as florestas aleatórias serão tendenciosas em favor de atributos com
maior número de níveis. Como resultado, a pontuação de importância variável
que será gerada não é confiável para tal conjunto de dados.
Agora, vamos ver as etapas necessárias para implementar a floresta aleatória

regressão em um conjunto de dados da vida real.
1. Primeiro, você precisa importar as bibliotecas Python

necessárias e o conjunto de dados para um quadro de dados usando o código abaixo.
“importar pandas como

pd importar numpy
como np importar matplotlib.pyplot como plt”
“df = pd.read_csv ('Position_Salary.csv')”
2. Nesta etapa, o conjunto de dados será dividido em subconjuntos

de treinamento e teste na biblioteca Scikit-Learn, usando o código abaixo.
“from sklearn.model_selection import train_test_split X_train,

X_test, Y_train, Y_test = train_test_split (X, Y, test_size =
0.2, random_state = 0)”
3. Agora, você pode criar um modelo de regressão de floresta

aleatória e ajustá-lo ao subconjunto de dados de treinamento. Você pode selecionar
o número desejado de árvores declarando o estimador. Para este modelo, usaremos
11 árvores declarando n_estimator = 11, usando o código abaixo.
“from sklearn.ensemble import RandomForestRegressor regressor =

RandomForestRegressor (n_estimators = 11,
random_state = 0)
regressor.fit (X.reshape (-1, 1), y.reshape (-1, 1))”
4. Esta etapa final produzirá a saída da regressão,

conforme mostrado na figura abaixo.
“X_grid = np.arrange (min (X), max (X), 0,01)

X_grid = X_grid.reshape ((len (X_grid), 1))
plt.scatter (X, Y, color = 'red')
plt.plot (X_grid, regressor.predict (X_grid), color = 'blue') plt.
title ('Verdade ou Bluff (Regressão de Floresta Aleatória)')
plt.xlabel ('Nível de Posição')
plt.ylabel ('Salário')
plt.show ( )”
Dia 6: Bibliotecas de análise de dados
As bibliotecas de análise de dados são rotinas e funções confidenciais escritas em

qualquer idioma. Os desenvolvedores de software exigem um conjunto robusto de
bibliotecas para executar tarefas complexas sem precisar reescrever várias linhas de código.
O aprendizado de máquina é amplamente baseado em otimização matemática,
probabilidade e estatística.
Python é a linguagem de escolha no campo de análise de dados e aprendizado de

máquina devido ao tempo de desenvolvimento e flexibilidade consistentes. É adequado
para desenvolver modelos sofisticados e mecanismos de produção que podem ser
conectados diretamente aos sistemas de produção. Um de seus maiores ativos é um
extenso conjunto de bibliotecas que podem ajudar os pesquisadores menos equipados
com o conhecimento do desenvolvedor a executar facilmente a análise de dados e o aprendizado de máq
Scikit-Learn
O “Scikit-Learn” evoluiu como o padrão ouro para aprendizado de máquina usando

Python, oferecendo uma ampla variedade de “algoritmos de aprendizado de máquina
supervisionados e não supervisionados”. É considerada uma das bibliotecas de aprendizado
de máquina mais fáceis de usar e mais limpas até hoje. Por exemplo, árvores de decisão,
agrupamento, regressões lineares e logísticas e K-means. O Scikit-learn usa algumas
bibliotecas Python básicas: NumPy e SciPy e adiciona um conjunto de algoritmos para
tarefas de mineração de dados, incluindo classificação, regressão e agrupamento. Ele
também é capaz de implementar tarefas como seleção de recursos, transformação de
dados e métodos de conjunto em apenas algumas linhas.
Em 2007, David Cournapeau desenvolveu o código fundamental do "Scikit Learn"

como parte de um projeto "Summer of Code" para o "Google". . Mas foi somente em 2010
que o Scikit-Learn foi lançado para uso público. O Scikit-Learn é “uma ferramenta de
mineração e análise de dados de código aberto e licenciada BSD usada para desenvolver
algoritmos de aprendizado de máquina supervisionados e não supervisionados”
desenvolvidos em Python ". O Scikit-learn oferece vários "algoritmos de aprendizado de
máquina", como "classificação", "regressão", "redução de dimensionalidade" e "clustering".
módulos para extração de recursos, processamento de dados e avaliação de modelo.
Pré-requisitos para aplicação da biblioteca Scikit-

Learn A biblioteca “Scikit-Learn” é baseada no “SciPy (Scientific Python)”,
que precisa ser instalado antes de usar o “SciKit-Learn.
SciPy (Biblioteca fundamental para computação científica)
O SciPy é uma “coleção de algoritmos matemáticos e funções de

conveniência construídas na extensão NumPy do Python”, capaz de adicionar
mais impacto às sessões interativas do Python, oferecendo comandos e
cursos de manipulação e visualização de dados de alto nível para o usuário.
Uma sessão Python interativa com SciPy torna-se um ambiente que rivaliza
com tecnologias de processamento de dados e prototipagem de sistemas,
incluindo “MATLAB, IDL, Octave, R-Lab e SciLab”.
Outra vantagem de desenvolver "SciPy" em Python, é a acessibilidade de uma

linguagem de programação forte no desenvolvimento de programas avançados e
aplicativos específicos. Aplicativos científicos que usam SciPy se beneficiam de
desenvolvedores em todo o mundo, desenvolvendo módulos extras em inúmeros nichos de cenário de
Tudo o que é produzido é acessível ao programador Python, desde sub-
rotinas e classes de banco de dados até "programação paralela à web".
Essas poderosas ferramentas são fornecidas junto com as bibliotecas
matemáticas "SciPy".
SymPy (matemática simbólica)
Desenvolvido por Ondÿej ÿertík e Aaron Meurer, o SymPy é "uma

biblioteca Python de código aberto para computação simbólica". com “SymPy
Live” ou “SymPy Gamma”.
“SymPy” é fácil de instalar e testar, devido ao fato de ser totalmente

desenvolvido em Python com dependências limitadas.
SymPy envolve características que vão desde cálculo, álgebra, matemática

discreta e física quântica até aritmética simbólica fundamental. O resultado
dos cálculos pode ser formatado como o código "LaTeX". Em
combinação com uma base de código simples e expansível em uma linguagem de

programação difundida, a facilidade de acesso fornecida pelo SymPy o torna um sistema de
álgebra computacional com uma barreira de entrada comparativamente baixa.
NumPy (pacote de matriz n-dimensional base)
“NumPy” é o pacote básico com Python para realizar cálculos científicos. Ele inclui, entre
outras coisas: “um poderoso objeto de matriz N-dimensional; funções sofisticadas
(transmissão); ferramentas para integração de código C/C++ e Fortran; álgebra linear útil,
transformada de Fourier e recursos de números aleatórios”. O predecessor do NumPy
chamado "Numeric" foi inicialmente desenvolvido por Jim Hugunin. Em 2005, Travis Oliphant
desenvolveu o "NumPy" integrando as funcionalidades do "Numarray" no "Numeric" e fazendo
melhorias adicionais nele. O NumPy é amplamente reconhecido como um contêiner
multidimensional eficaz de dados genéricos, além de seus aparentes usos científicos. É
possível definir tipos de dados arbitrários. Isso permite que o NumPy se integre a uma ampla
variedade de bancos de dados de maneira perfeita e rápida. O NumPy auxilia a "implementação
de referência CPython" do Python, que é um "interpretador de bytecode não otimizador".
reescrevendo o código pertencente aos loops internos usando NumPy.
As ligações Python da biblioteca de visão computacional comumente usada do "OpenCV"

usam "arrays NumPy" para armazenamento e operação de dados. Como as imagens com
vários canais são meramente representadas como matrizes 3D, a indexação, fatiamento ou
mascaramento com outras matrizes são métodos altamente eficazes para acessar os pixels
relevantes da imagem. O "array NumPy" como uma estrutura de dados universal em
"OpenCV" para imagens, pontos de funcionalidade extraídos, kernels de filtro e vários outros
para simplificar o "fluxo de trabalho de programação e depuração". O objetivo principal do
NumPy é a homogeneidade do array multidimensional. consiste em uma tabela de elementos
(geralmente números), todos do mesmo tipo e indicados por tuplas de inteiros não negativos.
As dimensões do NumPy são chamadas de “eixos” e a classe da matriz é chamada de

“ndarray”. Essas matrizes são consideradas “visões detalhadas na memória”. Ao contrário da
estrutura de dados de lista interna do Python (também uma matriz dinâmica), as "matrizes
NumPy" podem ser digitadas uniformemente, o que significa que "todos os elementos de um único
array deve ser do mesmo tipo”. Tais arrays também podem ser "visualizações de buffers de
memória atribuídos ao interpretador CPython por extensões C/C++, Cython e Fortran sem a
necessidade de copiar dados", tornando-os compatíveis com as bibliotecas numéricas atuais. O
"pacote SciPy" que incorpora um Muitas dessas bibliotecas (particularmente "BLAS" e "LAPACK")
utilizam esse recurso. O NumPy também oferece suporte integrado para "ndarrays mapeados
em memória".
Para desenvolver “matriz NumPy” a partir de “listas Python” ao acessar elementos,

use o código abaixo:
"importar numpy como np
a = np.array([1, 2, 3])
print(type(a))
print(a.shape)
print(a[0], a[1], a[2]) a[0] =
5 imprimir(a)
b = np.array([[1,2,3],[4,5,6]])
print(b.shape)
print(b[0, 0], b[0, 1], b[1, 0])"
Agora, se você quiser indexar os “arrays NumPy”, comece dividindo o “array” multidimensional
em uma dimensão com o código abaixo:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]]) b = a[:2, 1:3]

imprimir (a[0, 1])
b[0, 0] = 77
print(a[0, 1]) "
Isso resultará em uma “sub-matriz” da “matriz NumPy” original, mas se você quiser gerar
uma “matriz arbitrária”, poderá fazê-lo utilizando a “indexação de matriz inteira” que permite a
geração de matrizes arbitrárias com
os dados de outro array, conforme o código abaixo:
a = np.array([[1,2], [3, 4], [5, 6]]) print(a[[0,

1, 2], [0, 1, 0]]) print(np .array([a[0,
0], a[1, 1], a[2, 0]])) print(a[[0, 0], [1, 1]])
print(np.array( [a[0, 1], a[0,
1]]))"
Operações matemáticas básicas podem ser aplicadas a arrays, conforme mostrado no

código abaixo e podem ser encontradas em “NumPy” como “funções” e “sobrecargas de
operador”.
x = np.array([[1,2],[3,4]], dtype=np.float64) y =
np.array([[5,6],[7,8]], dtype=np. float64)
imprimir(x + y)
imprimir(np.add(x, y))
print(x - y)
print(np.subtract(x, y))
print(x * y)
print(np.multiply(x, y))
print(x / y)
print(np.divide(x, y))
print(np.sqrt(x))"
Matplotlib (Plotagem 2D/3D abrangente)
"Matplotlib" é uma biblioteca de geração de gráficos bidimensionais de Python que produz

números de alta qualidade em uma variedade de formatos impressos e ambientes interativos. O
"script Python", o "Python", "shells IPython", o "notebook Jupyter" , os servidores de aplicativos
da web e selecione a interface do usuário
kits de ferramentas podem ser usados com matplotlib. O Matplotlib tenta simplificar ainda mais as
tarefas fáceis e tornar as tarefas difíceis viáveis. Com apenas algumas linhas de código, você pode
produzir trilhas, histogramas, gráficos de dispersão, gráficos de barras, gráficos de erros, etc.
Uma interface semelhante ao MATLAB é fornecida para facilitar a plotagem do módulo Pyplot,
especialmente quando acoplado ao IPython. Como um usuário avançado, você pode regular todos
os estilos de linha, propriedades de fontes e propriedades de eixo por meio de uma interface
orientada a objetos ou uma coleção de recursos semelhantes aos fornecidos aos usuários do
MATLAB.
Seaborn (visualização de dados)

Seaborn é derivado da Biblioteca Matplotlib e uma biblioteca de visualização extremamente
popular. É uma biblioteca de alto nível que pode gerar tipos específicos de gráficos, incluindo
mapas de calor, séries temporais e gráficos de violino.
Pandas (Estruturas e análise de dados)
Os Pandas fornecem estruturas de dados de alto nível altamente intuitivas e fáceis de usar.
"Pandas" alcançou popularidade na comunidade de desenvolvedores de algoritmos de aprendizado
de máquina, com técnicas integradas para agregação, agrupamento e filtragem de dados, bem
como resultados de análises de séries temporais.
A biblioteca Pandas tem duas estruturas primárias: "Séries" unidimensionais e "Quadros de Dados"
bidimensionais.
Alguns dos principais recursos fornecidos por “Pandas” estão listados abaixo:
Um "objeto Data Frame" rápido e eficaz com

indexação embutida para ser usada em atividades de manipulação de dados.
Ferramentas para ler e gravar dados entre estruturas de dados da
memória interna e vários formatos de arquivo, como "CSV" e texto, "Microsoft
Excel", "bancos de dados SQL" e "formato HDF5" rápido.
Alinhamento de dados inteligente e gerenciamento integrado de dados
incompletos, alcançando alinhamento computacional orientado a rótulos automático
e manipulando prontamente dados desorganizados de maneira ordenada.
Reconstrução e dinamização flexíveis de conjuntos de dados.

Fatiamento inteligente baseado em rótulos e indexação de big data
conjuntos, bem como a criação de subconjuntos de dados.

As colunas podem ser adicionadas e removidas dos dados
estruturas para atingir o tamanho desejado do banco de dados.
Agregação ou transformação de dados usando um sofisticado sistema

"Group By" que permite a execução da técnica "split-apply-combine" nos dados.
Funções de mesclagem e junção altamente eficientes dos dados

definir.
A "indexação de eixo hierárquico" oferece uma maneira simples de

trabalhar em uma estrutura de dados de baixa dimensão, mesmo com dados de alta
dimensão.
Funcionalidades de séries temporais, incluindo "geração de intervalo de

datas e conversão de frequência, estatísticas de janela móvel, regressões lineares de
janela móvel, mudança de data e atraso".
Também a criação de "deslocamentos de tempo específicos do domínio" e a capacidade
de ingressar em séries temporais sem perda de dados.
Tendo a maior parte do código subjacente em "Cython" ou "C", o Pandas
possui alto desempenho e eficiência.
O Python, em combinação com o Pandas, está sendo usado em uma
ampla gama de setores acadêmicos e industriais, incluindo serviços financeiros,
estatística, neurobiologia, economia, marketing e publicidade, análise de dados online,
entre outros.
Os dois tipos de estruturas de dados oferecidos pelo Pandas são: “Pandas

DataFrame” e “Série Pandas”.
Pandas DataFrame É
definido como uma “estrutura de dados rotulada em 2-D com colunas de um tipo potencialmente
diferente”. Ele tem uma grande semelhança com a planilha do Excel, conforme mostrado na figura abaixo,
com vários recursos semelhantes para análise, modificação e extração de informações valiosas dos
dados. Você pode criar um “Pandas DataFrame” inserindo conjuntos de dados de “Excel”, “CSV” e “banco
de dados MySQL” entre outros.
Por exemplo, na figura acima assuma que “Chaves” são representadas pelo
nome das colunas e “Valores” são representados pela lista de itens naquela coluna,
um “dicionário Python” pode ser usado para representar isso conforme mostrado
no código abaixo:
"my_dict =
{ 'nome': ["a", "b", "c", "d", "e"“,f", "g"], 'idade':
[20,27, 35, 55 , 18, 21, 35],
'designação': ["VP", "CEO", "CFO", "VP", "VP", "CEO", "MD"]
}"
O “Pandas DataFrame” pode ser criado a partir deste dicionário usando o código
abaixo:
"importar Pandas como

PD df = pd.DataFrame(my_dict)"
O “DataFrame” resultante é mostrado na figura abaixo, que se assemelha à

planilha do Excel:
Se você quiser definir valores de índice para as linhas, terá que adicionar
o parâmetro “index” na cláusula “DataFrame ( )” conforme mostrado abaixo:
"df = pd.DataFrame(my_dict, index=[1,2,3,4,5,6,7])"
Para obter índices “string” para os dados em vez de numéricos, use o código abaixo:
"df = pd.DataFrame( my_dict,
index=["Primeiro", "Segundo", "Terceiro", "Quarto", "Quinto", "Sexto", "Sétimo"])"
Agora, como esses valores de índice são uniformes, você pode executar o código abaixo
para utilizar os “arrays NumPy” como valores de índice:
"np_arr = np.array([10,20,30,40,50,60,70]) df =
pd.DataFrame(my_dict, index=np_arr)"
Semelhante a “NumPy”, as colunas de “DataFrame” também são homogêneas.

Você pode usar a sintaxe do dicionário ou adicionar o nome da coluna com “DataFrame”,
para visualizar o tipo de dados da coluna, conforme mostrado no código abaixo:
"df['age'].dtype # Dict Like Syntax df.age.dtype

# DataFrame.ColumnName df.name.dtype #
DataFrame.ColumnName"
Você pode usar o código abaixo para visualizar seletivamente o registro ou as linhas
disponíveis no “Pandas DataFrame”, usando a função “head ( )” para as cinco primeiras linhas
e a função “tail ( )” para as últimas cinco linhas. Por exemplo, use o código abaixo para visualizar
as 3 primeiras linhas dos dados:
"df.head(3) # Exibe as 3 primeiras linhas"
Pandas Series
Pode ser definido como um "array rotulado unidimensional capaz de conter dados de
qualquer tipo (inteiro, string, flutuante, objetos python)”. Simplificando, é como uma coluna em
uma planilha do Excel. Para gerar um “ Pandas Series” de um array, um módulo “NumPy” deve
ser importado e utilizado com a função “array()”, conforme o código abaixo:
"# importar pandas como pd

importar pandas como pd"
"# import numpy as np

import numpy as np"
"# simple array

data = np.array (['m','a','c','h','I','n','e'])"
"ser = pd.Series(data)
print(ser)"
IPython (console interativo aprimorado)
“IPython (Interactive Python)” é uma interface ou shell de comando para computação

interativa usando uma variedade de linguagens de programação. “IPython” foi inicialmente
criado exclusivamente para Python, que suporta introspecção, rich media, sintaxe de shell,
conclusão de tabulação e histórico. Alguns dos
as funcionalidades fornecidas pelo IPython incluem: “shells interativos (terminal e

baseado em Qt); interface de notebook baseada em navegador com suporte a código,
texto, matemática, plotagens em linha e outras mídias; suporte para visualização
interativa de dados e uso de kits de ferramentas GUI; intérpretes flexíveis que podem
ser incorporados para carregar em seus próprios projetos; ferramentas para computação
paralela”. A arquitetura do "IPython" oferece "computação paralela e distribuída". O
IPython" permite o desenvolvimento, execução, depuração e monitoramento interativo
de aplicativos paralelos, portanto, o "I (Interativo) no IPython". A arquitetura subjacente
pode facilmente separar o paralelismo, permitindo "IPython" para auxiliar com vários
estilos de paralelismo, incluindo: "Programa único, várias informações (SPMD)
paralelismo", "Múltiplos programas, vários dados (MIMD) paralelismo", "Passagem de
mensagens usando MPI", "Paralelismo de tarefas", "Paralelismo de dados ”,
combinações desses métodos e até mesmo estratégias personalizadas definidas pelo usuário.
A funcionalidade de computação paralela tornou-se opcional sob o

"pacote ipyparallel python", com a implementação do "IPython 4.0".
“IPython” geralmente deriva de “bibliotecas de pilha SciPy”, como “NumPy” e

“SciPy”, frequentemente instaladas em combinação com uma das várias “distribuições
do Python científico”. IPython" também pode ser integrado com "bibliotecas de pilha
SciPy" selecionadas, principalmente "matplotlib", que produz gráficos embutidos
quando usados com o "notebook Jupyter". Para personalização da exibição de objetos
avançados, as bibliotecas Python podem ser implementadas com "ganchos específicos do IPython".
Por exemplo, se usado no contexto de "IPython", "SymPy" pode implementar
"renderização de expressões matemáticas como LaTeX renderizado".
Caderno Jupyter
O Jupyter Notebook (JN) é amplamente considerado como um dos aplicativos mais

poderosos que permitem o desenvolvimento e a apresentação de projetos de ciência
de dados de maneira altamente interativa. O “notebook” no nome refere-se ao seu
recurso avançado que permite a integração do código e das saídas em um documento
abrangente, combinando recursos visuais, textos narrados, equações matemáticas e
outras mídias avançadas. Como resultado desse fluxo de trabalho intuitivo, você pode
executar o desenvolvimento sequencial em um curto período de tempo. Em 2010, o
protótipo do IPython Notebook foi publicado e eventualmente substituído pelo Jupyter
Notebook.
Para poder usar o JN, você pode simplesmente instalar o pacote de ciência de
dados “Anaconda”, que contém algumas das mais poderosas bibliotecas e
ferramentas baseadas em Python, incluindo Matplotlib, Pandas e NumPy. Você
pode baixar a versão mais recente desta ferramenta no site oficial “Anaconda
Cloud” e seguir o guia passo a passo para obter instruções de instalação. Se você
já possui o Python instalado em seu sistema operacional, pode executar o arquivo
pip abaixo para operar o JN:
“pip3 instalar jupyter”
Agora, se você estiver operando o sistema Windows, poderá acessar o Jupyter

clicando no botão de atalho para “Anaconda” que seria adicionado ao menu Iniciar.
Uma nova guia contendo o painel do Jupyter Notebook será aberta no navegador
padrão do seu computador, conforme mostrado na figura abaixo. Você poderá
criar e gerenciar todos os seus JN a partir deste painel e editá-los conforme
necessário. O painel JN e todos os notebooks são aplicativos baseados na Web
que serão acessíveis por meio de seu navegador usando um servidor Python
local. Esse recurso torna o JN independente da própria plataforma e permite um
fácil compartilhamento online.
Clique no ícone “Novo” e um menu suspenso será exibido. Basta

selecionar sua versão do Python ou “Python 3” e, assim, você criou seu
primeiro Jupyter Notebook. O notebook será exibido em uma nova guia e
o painel agora terá um novo arquivo chamado “untitled.ipynb”. Cada
arquivo de texto “.ipynb” descreverá o conteúdo do notebook no formato
“JSON”. Você poderá visualizar todas as imagens anexadas, células e
conteúdo subjacente que foi convertido em formato de texto junto com os
metadados disponíveis.
Você não poderá alterar o nome do notebook diretamente do aplicativo JN.

Você pode usar o navegador de arquivos ou aproveitar o painel para dar o
nome desejado ao seu bloco de anotações. A primeira etapa é fechar o
notebook em execução clicando em “Arquivo” e selecionando “Fechar e parar”
na barra de menu. Como alternativa, você pode encerrar a execução
selecionando o notebook no painel e selecionando “Desligar”. Lembre-se de
que você não poderá encerrar a execução simplesmente fechando a guia do
navegador que executa o notebook. O kernel continuará a ser executado em
segundo plano. Agora que seu notebook não está mais em execução,
selecione “Renomear” no painel e insira o nome desejado para o notebook.
A interface JN contendo seu bloco de anotações recém-criado será

semelhante à figura abaixo. Muitas opções na interface são semelhantes a um
processador de texto padrão. Os dois recursos exclusivos são "Célula" e "Kernel".
“Kernel” é o mecanismo que executa todos os cálculos e códigos que foram
escritos no notebook. Por outro lado, “Cell” refere-se ao código que será
executado no kernel e serve como um container para as strings que serão
exibidas no notebook.
Células de Notebook Jupyter

Existem 2 tipos de células que você deve se lembrar:
Célula de código – contém o código que está pronto para execução

dentro de um kernel e exibirá a saída resultante.
Célula Markdown – Retém todos os textos que foram editados
usando o recurso Markdown e, em seguida, exibe a saída resultante na execução.
A célula na primeira posição de qualquer notebook é padronizada para ser uma célula de código.
Vejamos o código abaixo para exibir o texto desejado digitando-o na primeira célula e clicando
no botão “Executar” na barra de ferramentas.
print('Feliz Ano Novo!')
Saída – Feliz Ano Novo!
À medida que o código é executado, o rótulo à esquerda será modificado de “In [ ]” para “In
[1]” e a saída será adicionada ao notebook. O “In” do rótulo pertence à entrada e o valor
numérico do rótulo indica a posição na qual a célula passou pela execução no kernel. Isso
denota a principal diferença entre as células de código (sem rótulo) e as células de marcação
(contêm um rótulo à esquerda). Se o código for executado novamente, o rótulo mudará para “In
[2]”.
As células que estão sendo executadas terão uma borda azul ao seu redor; por outro lado,
as células ativas que estão sendo editadas terão uma borda verde em volta delas. Para a
criação de qualquer nova célula de código, você pode clicar em “Inserir” na barra de menu,
depois clicar em “Inserir célula abaixo” e escrever qualquer código que você gostaria de
executar. Por exemplo, se você executar o
código abaixo nenhuma saída será produzida, mas o rótulo da célula será alterado para “In [*]”
indicando que a célula está atualmente em execução (leva 4 segundos conforme especificado).
importar tempo
time.sleep (4)
Markdown é uma linguagem de marcação que permite formatar texto simples usando uma
sintaxe semelhante às tags HTML (Hypertext Markup Language). O código de amostra abaixo no
Jupyter Notebook foi escrito em células de marcação.
# Title Text 1 ##
Subtitle Text 2 Você
pode digitar o texto simples desejado que será exibido como um parágrafo.
Você pode formatar o texto a ser exibido como itálico ou negrito.
Cada conjunto de código dividido por uma linha vazia formará um parágrafo separado.
Você poderá incluir listas.
Recue a lista usando *.
Use números para gerar listas ordenadas.
1. Esta pode ser a lista 1.
2. Esta pode ser a lista 2.
Você também pode incluir hiperlinks escrevendo-os como [hyperlink] (web url)
Códigos embutidos terão aspas simples.
O bloco de códigos será escrito entre aspas triplas.
Imagens podem ser adicionadas, por exemplo! [Texto da imagem] (url da web da imagem)
Depois que esse código for executado, o parágrafo acima será a saída resultante. Você
também pode adicionar a imagem ao notebook usando um URL local da imagem ou como um
anexo clicando no botão “Editar” e selecionando “Inserir imagem” para converter a imagem em
texto de marcação que será salvo no “.ipynb " arquivo.
Kernels do Jupyter Notebook

Conforme mencionado anteriormente, o kernel permite a execução do código e, em seguida,
retorna a saída para a célula para exibição. O estado do kernel permanece o mesmo entre
diferentes células e períodos de tempo, pois os kernels são conectados ao notebook como uma
entidade e não as células. Por exemplo, quando bibliotecas são importadas ou variáveis são
declaradas em uma célula, elas também podem ser acessadas por outras células. Um JN funciona
como um arquivo rico em multimídia. Vamos ver o código abaixo para entender melhor:
“importar numpy como np

def quadrado (x):
retornar x * x”
O código acima irá importar o pacote NumPy, e uma função será definida. Uma vez que este
código foi executado, você pode referenciar as funções “np” e “square” através de qualquer célula
do notebook usando o código abaixo:
“x = np.random.randint (1, 10) y =

quadrado (x)
imprimir ('%d ao quadrado é %d' % (x, y))”
O código acima seria executado independentemente da ordem das células no notebook.

Convencionalmente, o código em um Jupyter Notebook será executado em um fluxo de cima para
baixo, mas pode ser alterado para executar quaisquer modificações.
As células serão executadas a partir da esquerda e qualquer saída obsoleta também será
indicada. Algumas das opções de menu que podem ser utilizadas no Kernels estão listadas abaixo:
1. Reiniciar – Isso permitirá que você reinicie o kernel para que você
ser capaz de limpar todas as variáveis predefinidas e outras entradas.
2. Reiniciar e limpar a saída – Isso executará todas as funções de
reinicialização, bem como a saída mostrada abaixo das células de código.
3. Reiniciar e executar tudo – Isso executará todas as funções de

reinicialização e limpeza de saída mencionadas anteriormente. Você também
poderá executar todas as células começando com a primeira célula até a última.
4. Interromper – Isso permitirá que você termine a execução de qualquer
kernel se encontrar algum erro.
Um grande número de kernels está disponível para várias versões do Python e várias
linguagens de programação, como C, Java e muitas outras. Cada kernel terá seu próprio conjunto
de diretrizes de instalação que você pode seguir facilmente e executar os comandos necessários
com sucesso.
Dia 7: Análise preditiva
De acordo com a SAS, a análise do cliente pode ser definida como “processos e
tecnologias ruins dão às organizações a visão do cliente necessária para entregar
ofertas antecipadas, relevantes e oportunas”. A análise do cliente está no centro de
todas as atividades de marketing e é um termo abrangente usado para técnicas como
“modelagem preditiva”, “visualização de dados”, “gerenciamento de informações” e
“segmentação”. A jornada de ponta a ponta de um cliente em potencial, desde o
momento em que ele conhece ou toma conhecimento do produto da empresa até o
eventual gasto de dinheiro para fazer uma compra, é chamada de “marketing e funil de
vendas”. É uma representação visual de várias rotas percorridas e etapas percorridas
pelo cliente para ser convertido em um comprador do produto. Ao avaliar
cuidadosamente seu funil de marketing e vendas, as empresas podem aumentar suas
vendas, aumentar o reconhecimento de sua marca e conquistar clientes mais fiéis.
O conceito de um funil de marketing foi derivado de um modelo clássico de “hierarquia

de efeitos” chamado “AIDA”, que foi introduzido no final do século 20 por Elias St. Elmo
º acordo com esse modelo de negócios e relacionamento com o cliente, todo
Lewis. De
novo cliente passa por quatro etapas antes de fazer uma compra real. Os fundamentos
do funil de marketing evoluíram a partir desse modelo e permanecem basicamente os
mesmos. A beleza do funil de marketing é que ele pode ser facilmente personalizado
para diferentes empresas em diferentes setores industriais para melhor atender à visão
da empresa e às demandas do mercado. Não existe um único modelo de funil de
marketing padrão que seja universalmente aceito por todas as empresas. As empresas
escolhem e personalizam seu próprio modelo de marketing, dependendo da
complexidade e do conhecimento geral de seus produtos e serviços. Um funil de
marketing relativamente simples é chamado de modelo “TOFU-MOFU-BOFU”, que
significa “topo do funil, meio do funil e fundo do funil”, representando os 3 estágios
diferentes do funil de marketing adotado pela empresa .
Com o aumento da tecnologia de ponta, o consumidor comum tornou-se mais inteligente

e espera mais valor pelo seu dinheiro. A lealdade do cliente inteligente de hoje está
dentro dos limites da conveniência de usuário mais envolvente e aprimorada, suportada
por medidas de segurança e privacidade de dados de alto nível.
As pessoas não têm medo de experimentar os novos produtos e acabar com
as escolhas normais de produtos que eles podem ter usado por anos. Isso resultou em
uma modificação no funil de marketing com gurus de marketing propondo estágios
adicionais para o final, ou seja, “Lealdade” e “Defesa” para melhorar sua estratégia geral
de marketing. Estima-se que “as empresas percam até US$ 1,6 trilhão por ano quando
seus clientes existentes as abandonam”.
Importância do Customer Analytics
A análise do cliente evoluiu como a espinha dorsal do setor de marketing.

Este é um resultado direto do advento do “consumidor inteligente” que está mais consciente
e conectado uns aos outros do que nunca e disposto a levar seus negócios para outro
lugar a qualquer momento. O cliente inteligente tem acesso contínuo a uma variedade de
informações, incluindo os melhores produtos e serviços disponíveis no mercado e onde
encontrar as melhores ofertas para aproveitar ao máximo seu dinheiro. Portanto, exige-se
que as empresas sejam proativas e sejam capazes de prever o comportamento do
consumidor ao interagir com seus produtos, de modo a estarem em condições de tomar
as medidas necessárias para converter o cliente potencial em cliente pagante. Para gerar
previsões e previsões mais precisas do comportamento do cliente, as empresas devem
ter uma compreensão sólida dos hábitos de compra e estilo de vida de seus clientes.
Essas previsões quase precisas darão à empresa uma vantagem sobre a concorrência e
ajudarão a obter taxas de conversão mais altas em seu funil de vendas e marketing. Uma
das melhores soluções de análise de clientes no mercado hoje é o “SAS Customer
Intelligence”, que afirma ter as seguintes aplicações:
Obtenha taxas mais altas de fidelidade e resposta do cliente.

Gere ofertas e mensagens personalizadas para o cliente para
alcançar o cliente certo no momento certo.
Identifique clientes em potencial com atributos semelhantes e
alta probabilidade de conversão para que a empresa possa reduzir custos
em suas estratégias e campanhas de marketing direcionadas.
Reduza o desgaste do cliente gerando previsões precisas sobre
clientes com maior probabilidade de levar seus negócios para outro lugar e
desenvolvendo campanhas de marketing proativas para retê-los.
“As percepções derivadas de nossos novos recursos analíticos estão nos permitindo
para encontrar os pontos ideais que continuarão a impulsionar a fidelidade, a lucratividade e o

crescimento sustentável”.
- Carrie Gray, Diretora Executiva de Marketing para Empresas de Médio Porte, Verizon
Análise de funil de marketing e vendas
As empresas estão sempre procurando crescer e otimizar seu processo de vendas, levando
em consideração todos os fatores que influenciam, como o desempenho de sua equipe de
vendas e marketing, seu pipeline de vendas e, mais importante, seu funil de vendas e marketing.
O processo de análise da taxa de conversão entre os diferentes estágios do funil de vendas e
marketing é chamado de “análise do funil de vendas”. As empresas iniciam sua análise
principalmente no topo do funil e descem enquanto calculam as taxas de conversão entre os
estágios subsequentes. Algumas das ferramentas de análise de funil de vendas mais usadas são:
“Google Analytics” – Como seria de esperar, a plataforma “Google Analytics” é top de linha
com recursos integrados de análise de funil de vendas. Ele permite que as empresas entendam
as interações e o envolvimento dos clientes com seu conteúdo online e aplicativos móveis,
visualizando painéis e relatórios robustos. Os recursos de aprendizado de máquina dessa
plataforma podem ser usados para prever qual cliente tem mais probabilidade de converter em
um comprador pagante e qual cliente tem potencial para gerar maior
receita.
“O Google Analytics nos ajudou a otimizar nosso mercado de arte, resultando

em 400% de crescimento de receita ano a ano para o nosso negócio de arte”.
- Mariam Naficy, Fundadora e CEO, Minted
“Hotjar” – Os funis “Hotjar” são usados principalmente para gerar mapas de calor para o
tráfego do site, mas também fornecem métricas de funil integradas. É altamente personalizável
e capaz de atualizar automaticamente os dados do funil a cada hora.
“Depois de analisar muitas gravações, mapas de calor e obter feedback das pesquisas,
tivemos uma boa ideia do que nossos usuários queriam e passamos de cerca de 80 mil
membros para mais de 150 mil. Hotjar era um grande pedaço de
esse redesenho”.
- Inbound.org
“GetResponse Autofunnel” – Recentemente, a empresa “GetResponse” lançou sua

nova ferramenta “Autofunnel” integrada que pode criar facilmente um funil de vendas
personalizado e automatizado para atender a requisitos comerciais específicos. Com esta
ferramenta as empresas podem automatizar seus e-mails de comunicação com o cliente,
desenvolver páginas de destino de sites, recuperar pedidos abandonados e aumentar a
taxa de conversão de clientes.
“Com o Autofunnel, você pode promover, vender e entregar seus produtos online com
funis de vendas simples e eficazes. Venda qualquer coisa – um produto físico, ebook, um
curso online – qualquer coisa. Envie tráfego diretamente para sua página de vendas com
o funil de vendas rápido ou alimente novos contatos com e-mails automatizados antes de
apresentar sua oferta com o funil de vendas completo”.
- Obter resposta
Marketing de Análise Preditiva
De acordo com o SAS, a análise preditiva é “o uso de dados, algoritmos estatísticos e

técnicas de aprendizado de máquina para identificar a probabilidade de resultados futuros
com base em dados históricos. O objetivo é ir além de saber o que aconteceu para
fornecer uma melhor avaliação do que acontecerá no futuro”. Hoje as empresas estão
vasculhando seu passado de olho no futuro, e é aí que entra a inteligência artificial para
marketing, com a aplicação da tecnologia de análise preditiva. O sucesso da análise
preditiva é diretamente proporcional à qualidade do big data coletado pela empresa. Aqui
estão alguns dos aplicativos de análise preditiva amplamente usados para marketing:
Análise preditiva para o comportamento do

cliente Para gigantes industriais como “Amazon”, “Apple” e “Netflix”, analisar as
atividades e o comportamento do cliente é fundamental para suas operações diárias. As
empresas menores estão cada vez mais seguindo seus passos para implementar a
análise preditiva em seu modelo de negócios. O desenvolvimento de um conjunto
personalizado de modelos preditivos para uma empresa não é apenas intensivo em
capital, mas também requer muita mão de obra e tempo. Marketing
empresas como a “AgilOne” oferecem tipos de modelos preditivos relativamente simples

com ampla aplicabilidade em domínios industriais. Eles identificaram três tipos principais
de modelos preditivos para analisar o comportamento do cliente, que são:
“Modelos de propensão” – Esses modelos são usados para gerar previsões
“verdadeiras ou precisas” para o comportamento do cliente. Alguns dos modelos de
propensão mais comuns incluem: “valor preditivo da vida útil”, “propensão a comprar”,
“propensão a mudar”, “propensão a converter”, “probabilidade de engajamento” e
“propensão a cancelar a assinatura”.
“Modelos de cluster” – Esses modelos são usados para separar e agrupar clientes
com base em atributos compartilhados, como sexo, idade, histórico de compras e
dados demográficos. Alguns dos modelos de cluster mais comuns incluem: “agrupamento
baseado em produto ou categoria”, “agrupamento de costumes comportamentais” e
“agrupamento baseado em marca”.
“Filtragem colaborativa” – Esses modelos são usados para gerar produtos e
serviços e recomendações, bem como para anúncios recomendados com base em
atividades e comportamentos anteriores do cliente. Alguns dos modelos de filtragem
colaborativa mais comuns incluem: recomendações de “up sell”, “cross sell” e “next
sell”. A ferramenta mais significativa utilizada pelas empresas para executar análises
preditivas sobre o comportamento do cliente é a “análise de regressão”, que permite à
empresa estabelecer correlações entre a venda de um determinado produto e os
atributos específicos exibidos pelo cliente comprador. Isto é conseguido através do
emprego de “coeficientes de regressão”, que são valores numéricos que representam o
grau em que o comportamento do cliente é afetado por diferentes variáveis, e
desenvolvendo uma “pontuação de probabilidade” para a venda futura do produto.
Qualificação e priorização de leads Existem

três categorias principais empregadas no marketing de análise preditiva B2B ou
business to business para qualificar e priorizar clientes em potencial ou “leads”. Essas
categorias são: “Pontuação preditiva” , que é
usada para priorizar clientes em potencial com base em sua probabilidade de fazer
uma compra real “Modelos de identificação” que são
usados para identificar e adquirir novos clientes em potencial com base em atributos
que são compartilhados com o clientes existentes da empresa.
“Segmentação automatizada” , que é usada para separar e classificar clientes em

potencial com base em atributos compartilhados a serem segmentados com o
mesmas estratégias e campanhas de marketing personalizadas. A tecnologia de análise

preditiva precisa de um grande volume de dados de vendas que sirva como bloco de
construção e material de treinamento para aumentar a precisão e a eficiência dos
modelos preditivos. Pequenas empresas físicas não podem se dar ao luxo de expandir
seus recursos de computação. Portanto, não conseguem coletar com eficiência os dados
comportamentais dos clientes de suas vendas na loja. Isso se traduz em uma vantagem
competitiva para empresas maiores com um sistema de computação mais avançado, o
que agrava o crescimento supérfluo das empresas maiores em comparação com as
pequenas empresas.
Identificação da tendência atual do mercado

As empresas podem empregar ferramentas de “visualização de dados” que permitem
que executivos e gerentes de negócios obtenham insights sobre o estado atual da
empresa, simplesmente visualizando os dados comportamentais de seus clientes
existentes em um “relatório ou painel”. Esses relatórios de painel tendem a inspirar e
gerar ações orientadas ao comportamento do cliente. Por exemplo, com o uso de
ferramentas de visualização de dados, uma empresa pode identificar a tendência
subjacente das demandas dos clientes em bairros específicos e, consequentemente,
planejar o estoque de seu estoque para lojas individuais. As mesmas informações podem
trazer à tona os melhores produtos e serviços para a empresa a ser lançada com base
nas tendências atuais do mercado que possam atender às demandas dos clientes. Os
insights de tendências de mercado também podem ser aplicados para aumentar a
eficiência do modelo de gerenciamento da cadeia de suprimentos de uma empresa.
Segmentação e direcionamento de clientes

Uma das maneiras mais simples e altamente eficazes de otimizar uma oferta de
produto para obter uma rápida recuperação do retorno sobre o investimento da empresa
é a capacidade de atingir os “clientes certos” com ofertas de produtos apropriados no
“momento certo”. Essa também é a aplicação de análise preditiva mais comum e
amplamente utilizada no mundo do marketing. De acordo com uma pesquisa realizada
pelo “Aberdeen Group”, as empresas que usam análise preditiva em suas estratégias de
marketing têm duas vezes mais chances de identificar com sucesso “clientes de alto
valor”.
É aqui que a qualidade do conjunto de dados existente da empresa tem precedência.

A prática altamente recomendada é usar dados históricos de comportamento do
consumidor de todos os clientes existentes e analisá-los para segmentar e direcionar
clientes com atributos de compra semelhantes com personalização
recomendações e campanhas de marketing.
Alguns dos modelos de análise preditiva mais comuns usados e esta aplicação
são “análise de afinidade”, “análise de rotatividade” e “modelagem de resposta”.
Usando esses aplicativos, as empresas podem obter informações como “se combinar
assinaturas digitais e impressas de suas ofertas de produtos ou catálogos é uma
boa ideia” ou “se seu produto ou serviço terá mais sucesso se oferecido como um
modelo de assinatura mensal ou compra única taxa". Uma das principais empresas
de plataforma de vendas e marketing é a “Salesforce”, que oferece uma plataforma
baseada em nuvem que pode ser usada por empresas para gerar perfis de clientes
como um produto dos dados coletados de fontes independentes, incluindo aplicativos
de gerenciamento de relacionamento com clientes (CRM) e outras aplicações da
empresa. Ao adicionar dados inseridos de forma seletiva e consciente a esta
plataforma, as empresas podem rastrear perfeitamente o comportamento de seus
clientes para desenvolver um modelo comportamental de cliente ao longo do tempo
que pode alimentar o processo de tomada de decisão da empresa em tempo real e a longo prazo.
Desenvolvimento de estratégias de
marketing Outra aplicação de análise preditiva e marketing é fornecer acesso a
uma variedade de dados relacionados ao cliente, como dados coletados de
plataformas de mídia social e dados estruturados internos da própria empresa. O
modelo comportamental do cliente pode então ser gerado reunindo todos os dados
disponíveis e aplicando “pontuação comportamental” nele.
Todas as empresas em diferentes setores industriais são obrigadas a se adaptar

à mudança ou evolução do comportamento do cliente por meio da proliferação de
mídias ou canais de marketing. Por exemplo, as empresas podem usar qualquer um
dos modelos de análise preditiva descritos acima para prever com precisão se sua
campanha de marketing planejada teria mais sucesso nas plataformas de mídia
social ou em seus aplicativos móveis. As empresas podem empregar um modelo de
análise preditiva para obter uma compreensão de como seus clientes estão
interagindo com seus produtos ou serviços, com base em seus sentimentos ou
emoções compartilhadas nas plataformas de mídia social em relação a um
determinado tópico. Este processo é referido como “análise de sentimento” ou “análise de texto”.
Análise exploratória de dados de clientes

“Análise de dados exploratórios” ou EDA fornece uma visão abrangente dos
dados existentes do cliente gerados por fontes de dados pertinentes, como
preços de produtos, pesquisas de clientes atuais e históricas, uso de produtos, histórico de

compras e dados demográficos. Considera-se como uma abordagem olhar para os dados
sem o uso de qualquer modelo estatístico e as inferências de dados.
O termo “Análise Exploratória de Dados” foi cunhado por John Tukey, em seu livro lançado
em 1977. Algumas das principais razões para usar a análise exploratória de dados são:
Seleção preliminar do “preditivo” aplicável

modelos”.
Verificação dos pressupostos subjacentes.
Certifique-se de que a empresa está fazendo as perguntas certas
para expandir sua base de clientes.
Detecte possíveis anomalias de dados, redundâncias e
erros.
Determinação da relação entre as “variáveis explicativas”.
Avaliação da direção e dimensão da relação entre “variáveis

explicativas” e “variáveis de resultado”.
Os dados do cliente coletados no banco de dados formam uma matriz retangular com
colunas individuais para “identificador de assunto”, “variável de resultado” e “variável
explicativa”. É bastante desafiador olhar para uma planilha preenchida com valores numéricos
e determinar informações importantes dos dados e é aqui que as técnicas de análise
exploratória de dados são usadas para exibir seletivamente os caracteres importantes dos
dados. Existem quatro tipos de técnicas de análise exploratória de dados:
1. “Não gráfico univariado” - Esta técnica examina uma única

variável ou coluna de dados por vez e exibe os resultados como um resumo
estatístico.
2. “Multivariate non-graphic” - Esta técnica analisa duas ou mais
variáveis ou colunas de dados ao mesmo tempo e exibe os resultados como
um resumo estatístico.
3. “Gráfico univariado” - Esta técnica analisa uma única variável ou
coluna de dados por vez e exibe os resultados de forma esquemática ou
usando gráficos pictóricos.
4. “Gráfico multivariado” - Esta técnica analisa duas ou mais

variáveis ou colunas de dados de cada vez e exibe os resultados de forma
esquemática ou usando gráficos pictóricos.
A EDA ajuda na determinação do melhor modelo preditivo para resolver o problema de

negócios, gerando um relatório abrangente de baixo risco e baixo custo das descobertas
de dados e recomendações de soluções para modelos de dados de clientes mais
adequados. A análise exploratória aprofundada do comportamento do cliente fornece
exposição a padrões de dados ocultos e tendências de mercado que seriam facilmente
perdidos na massa de informações. Algumas das conclusões que podem ser obtidas
usando EDA em dados comportamentais do cliente são:
Identificação dos clientes com maior número de compras e valor

máximo gasto.
Encontrando o número de pedidos gerados diariamente,
semanais e mensais.
Identificação da distribuição do preço unitário de todos os
produtos da empresa.
Identifique os padrões de transação de compra com base na
demografia e na localização dos clientes.
marketing personalizado
Em um estudo de pesquisa patrocinado pela “Researchscape International”, cerca de

75% das agências de marketing afirmaram que o marketing personalizado manteve
imensamente suas empresas e clientes no avanço do relacionamento com os clientes e
impressionantes 97% afirmaram que continuarão a investir em esforços de marketing
personalizado. Isso é impulsionado principalmente pelo fato de que as empresas são
capazes de se comunicar de forma eficaz com seus mercados-alvo, reunindo informações
valiosas de dados comportamentais do cliente usando análise preditiva e algoritmos de
aprendizado de máquina. Normalmente, a personalização começa com um cliente
individual, mas pode potencialmente ser aplicada a um segmento de clientes com atributos
compartilhados e alcançar a “personalização em escala”.
Ferramentas e aplicativos baseados em inteligência artificial podem realizar

reconhecimento de imagem e análise de voz em combinação com análise de comportamento
do cliente para fornecer às empresas uma compreensão mais profunda das demandas dos clientes
e necessidades que podem ser atendidas por meio de recomendações precisas de produtos.
Aqui estão algumas aplicações industriais de marketing personalizado:
Direcionamento
de anúncios As empresas podem direcionar anúncios para um usuário específico ou um
segmento de clientes com base em seus atributos de compras, como visualizações recentes
de um determinado produto ou categoria e histórico de compras. Alguns dos aplicativos de
segmentação de anúncios disponíveis no
mercado são: “ReFUEL4” – O “Ad Analyzer”, desenvolvido pela empresa de marketing
“ReFUEL4”, utiliza recursos visuais do computador para prever o desempenho do anúncio.
Se o desempenho do anúncio existente da empresa começar a diminuir, o analisador de
anúncios poderá ajudar a empresa a desenvolver um anúncio novo e melhor. A queda no
desempenho do anúncio normalmente indica fadiga do público, quando as pessoas param
de prestar atenção ao anúncio porque ele se tornou muito familiar e desinteressante.
“Match2one” – Este aplicativo de publicidade pode ser integrado ao site de comércio

eletrônico da empresa e usado para rastrear clientes em potencial e reter clientes existentes.
O aplicativo “Match2One” usa algoritmos de aprendizado de máquina para atingir clientes
em potencial com maior probabilidade de pagar. A empresa afirma que seu “mecanismo é
treinado para gerar leads e encontrar novos clientes usando uma combinação de
comportamento do visitante do site e dados históricos”. Ao analisar os dados do visitante do
site, o aplicativo pode exibir anúncios direcionados aos clientes que mantêm o interesse
exibido e em determinado produto.
Mensagens personalizadas
O aspecto mais importante das mensagens personalizadas é o marketing contextual.
Para garantir que mensagens relevantes sejam enviadas ao público-alvo, as empresas
coletam dados dos clientes, incluindo seu comportamento, histórico de visualizações de
páginas da web, conteúdo preferido, postagens em mídias sociais e dados demográficos,
entre outras variáveis. Alguns dos aplicativos de mensagens personalizadas disponíveis no
mercado são:
“Rendimento dinâmico” – A solução de e-mail fornecida pela empresa usa dados
comportamentais do cliente, como histórico de pedidos, cliques em e-mail, atividade de mídia
social, entre outros recursos, para gerar conteúdo de e-mail personalizado para clientes
individuais. A solução de e-mail fornece modelos de e-mail dinâmicos que podem ser
facilmente personalizados para refletir mensagens relevantes. Este aplicativo é usado em
vários domínios industriais, incluindo viagens, comércio eletrônico,
indústria de jogos e mídias sociais.

“Yoochoose” – Esta empresa oferece serviços de comércio eletrônico para
varejistas online que permitem à empresa criar uma “experiência de compra
personalizada” para seus consumidores, usando e-mails personalizados ou
notificações direcionadas com newsletters e recomendações de produtos que são
acionadas automaticamente pelo comportamento do cliente. O aplicativo é capaz
de identificar clientes que estão há algum tempo sem realizar uma compra e
disparar uma notificação para lembrá-los de efetuar a compra. Ele também pode
identificar clientes que fizeram uma compra recentemente e acionar um e-mail de
“pós-venda, obrigado”. A empresa oferece a funcionalidade de “notificações de
destino” junto com um mecanismo de recomendação de produto e uma “pesquisa
personalizada”, todos empacotados em um “conjunto de personalização”.
Recomendações de
produtos A leitura mais fácil e inteligente para qualquer empresa expandir
seus negócios é fornecer recomendações precisas de produtos que sejam
relevantes para as necessidades e demandas do cliente. As empresas também
podem reduzir o volume e a frequência das devoluções de produtos, ao mesmo
tempo em que aumentam sua receita por meio de novos produtos, compras
repetidas e redirecionamento para atrair novos clientes em potencial e aumentar
a fidelidade do cliente. Alguns dos
aplicativos de recomendações de produtos disponíveis no mercado são:
“Recombee” – Este aplicativo é baseado em algoritmos avançados de
aprendizado de máquina que são capazes de gerar recomendações em “200
milissegundos da atividade do cliente”. A empresa afirma que seu aplicativo pode
gerar mais de 500 recomendações por segundo, empregando uma combinação
de “algoritmos de filtragem colaborativos” desenvolvidos para análise
comportamental do cliente e “algoritmos baseados em conteúdo” para analisar
títulos e descrições de produtos. A cada interação humana, os algoritmos de
aprendizado se aprimoram e continuam a refinar as recomendações com uso
iterativo pelo cliente. Esta aplicação é amplamente utilizada na indústria imobiliária,
quadros de empregos, anúncios classificados, indústria de jogos, indústria de viagens e indústr
“Sentient Aware” – O mecanismo de recomendação de produtos oferecido
pela “Sentient Aware” analisa a atividade visual e as interações comportamentais
do consumidor para ativar os “algoritmos de aprendizado profundo” no site da
empresa. Este aplicativo utiliza “algoritmos orientados por intenção e curadoria”
para identificar produtos similares e o catálogo da empresa para gerar previsões sobre
preferências dos clientes e fazer recomendações de produtos alinhadas com

essas preferências. A empresa afirma que seu aplicativo é igualmente eficiente
na recomendação de produtos para usuários iniciantes devido à sua capacidade
de gerar recomendações sem usar dados históricos.
Sites dinâmicos
Um site que pode atender às preferências individuais de cada cliente em
tempo real, alterando dinamicamente seu conteúdo, que é conduzido por scripts
subjacentes, é chamado de “site dinâmico”. As tarefas repetitivas, incluindo
marcação de fotos e renderização de fotos, são realizadas usando tecnologias
de inteligência artificial, como “reconhecimento de imagem” e “aprendizado de
máquina”. Alguns dos aplicativos de sites dinâmicos disponíveis no mercado
hoje são:
“Bookmark” – A empresa “Bookmark” aplicou com sucesso a tecnologia de
aprendizado de máquina ao design da web. A empresa afirma que seu “AI
Design Assistant” ou (AIDA) pode criar sites personalizados pertencentes a
vários elementos, seções e imagens do site, bem como o design geral da web
que deve aparecer no site com base nas informações específicas do setor da
empresa. O “AIDA” é capaz de pesquisar na Internet para obter mais informações
sobre a empresa cliente, realizando uma pesquisa sobre a localização do nome
da empresa e o tipo de negócio. Este aplicativo coleta informações sobre o
comportamento e a atividade do cliente nas mídias sociais e analisa essas
informações para determinar os melhores elementos e design do site para a
plataforma de comércio eletrônico da empresa.
“LiftIgniter” – O sistema dinâmico de recomendação de sites desenvolvido
pela “LiftIgniter”, pode ser diretamente integrado às plataformas de comércio
eletrônico do cliente on-line e em aplicativos móveis e é conduzido pelo
algoritmo de aprendizado de máquina chamado “infraestrutura de algoritmos
multivariados paralelos verdadeiros”. Esse sistema integrado aprende com as
interações do cliente com as plataformas de e-commerce e analisa todo o
conteúdo online da empresa para exibir produtos recomendados em 150
milissegundos, nos quais o cliente possa estar interessado, com base em sua
atividade em tempo real na plataforma.
conteúdo extra
Python Data Science: Uma introdução prática à análise de big data e mineração de
dados, um guia baseado em projeto com exercícios práticos (Livro 3) foi estruturado
como um curso de 7 dias com sete capítulos (um por dia), para orientar o leitor em uma
jornada pelo imenso mundo do Python.
A jornada é pensada e estruturada pela Computer Programming Academy como um

curso de um mês. Então é apenas começou!
Este livro faz parte de uma série com outros dois:
Programação Python: Uma introdução prática à programação de

computadores e algoritmos, um guia baseado em projetos com exercícios
práticos (Livro 1)
Python Machine Learning: Uma introdução prática à codificação de
inteligência artificial, um guia baseado em projetos com exercícios práticos
(Livro 2)
Aqui abaixo uma prévia gratuita do Livro 1 Programação em Python e do Livro 2

Python Machine Learning, divirta-se!
Programação Python: Uma introdução prática à

programação de computadores e algoritmos, um guia
baseado em projetos com exercícios práticos (Livro 1)
Este livro discutirá vários conceitos fundamentais da linguagem de programação

Python. Existem 7 capítulos neste livro, elaborados especificamente para ajudá-lo a
dominar os conceitos básicos e avançados de programação Python necessários para
desenvolver programas e aplicativos baseados na Web em apenas uma semana.
O primeiro capítulo deste livro começa com uma introdução à programação de

computadores e algumas das linguagens de programação mais usadas.
Você também aprenderá os elementos fundamentais da linguagem de programação de
computadores, como operadores básicos, funções, tomada de decisão, entre outros.
A importância de conceitos matemáticos como álgebra e estatística na programação de
computadores também foi explicada. O Capítulo 2 fornecerá uma visão geral detalhada do
Python e seu desenvolvimento histórico. Instruções passo a passo para instalar o Python
em seus sistemas operacionais também foram incluídas. O conceito de comentários
Python, variáveis e tipos de dados que servem como pré-requisito para o aprendizado da
programação Python foram explicados em detalhes.
O Capítulo 3 é uma visão geral detalhada dos conceitos básicos da programação

Python com foco em vários elementos de programação, como booleanos, tuplas, conjuntos,
dicionários e muito mais. As nuances de como escrever códigos Python eficientes e
eficazes foram explicadas em detalhes, juntamente com muitos exemplos e exemplos de
exercícios para ajudá-lo a solidificar sua compreensão desses conceitos. O Capítulo 4
refere-se aos conceitos avançados de programação Python que são relativamente mais
complicados e requerem uma compreensão sólida dos conceitos básicos. Você aprenderá
como usar conceitos OOPS, diferentes loops e instruções condicionais para gerar
comandos sofisticados. Este capítulo também inclui muitos exemplos e exemplos de
exercícios para que você possa verificar o que aprendeu.
Como a maioria das linguagens de programação, o Python possui várias funções

integradas para facilitar sua vida ao codificar um programa de software. O Capítulo 5
contém uma lista de todas essas funções, métodos e palavras-chave integrados que
podem ser usados para desenvolver e executar facilmente códigos avançados. O Capítulo 6 fornecerá um
Visão geral detalhada do Django, que é uma estrutura da Web popularmente usada no
desenvolvimento de programas e aplicativos baseados na Web. Você aprenderá como
instalar o Django em seu computador e seguir as instruções de codificação passo a passo
para desenvolver seu próprio programa baseado na Web e aplicativo de anotações.
O capítulo final, “Aplicações Python”, fornecerá detalhes sobre como a programação

Python está sendo usada no desenvolvimento e teste de programas de software, algoritmos
de aprendizado de máquina e tecnologias de Inteligência Artificial para resolver problemas
do mundo real. Essas tecnologias de ponta resultaram em ferramentas e programas que
estão sendo utilizados em todo o espectro industrial para resolver problemas do mundo
real e se tornar mais futuristas.
Este capítulo também inclui várias dicas e truques de programação Python que o ajudarão
a levar suas habilidades de codificação para o próximo nível.
Dia 1: Programação de computadores 101 Os humanos

desenvolveram seu meio de comunicação ao longo dos séculos, resultando em uma
grande variedade de idiomas falados em todo o mundo. No entanto, todas as línguas
artificiais têm um conjunto compartilhado de recursos que são notavelmente padronizados
em todos os aspectos. Cada idioma tem um script contendo diferentes partes de uma frase
estruturada, como substantivos, verbos, adjetivos e outros elementos.
É aqui que podemos traçar uma ponte para as linguagens de programação de

computadores, que também são compostas por uma variedade de elementos fundamentais.
Veremos cada um desses elementos em detalhes mais adiante neste capítulo.
No entanto, as linguagens de computador permitem que os humanos interajam e guiem as
máquinas de computação para realizar as operações desejadas. Ele permite o
desenvolvimento e implementação de tecnologias avançadas de computação. Essas
linguagens de programação também permitem que os computadores interajam uns com os outros.
Aqui está uma rápida visão geral de alguns dos computadores mais populares
linguagens de programação.
C
A linguagem C pode ser definida como uma linguagem de programação de nível médio,
orientada a estrutura (as funções são armazenadas como uma unidade independente),
amplamente utilizada no desenvolvimento de aplicativos de “baixo nível” (relativo a hardware
componentes do computador). Em 1972, a Bell Laboratories desenvolveu a linguagem

C para implementação no sistema UNIX. Várias linguagens de programação sofisticadas
e avançadas, como Java, JavaScript, C++, C# e Perl, são derivadas da linguagem C
“avó”. Até a introdução do Java, a linguagem C era a linguagem de alto nível mais
dominante da indústria. Alguns dos únicos sistemas operacionais como o IBM System/
370 também foram desenvolvidos usando a linguagem C. A linguagem C é classificada
como baixa na escala de dificuldade de aprendizagem principalmente devido ao
número limitado de palavras-chave,32, que precisam ser treinadas e, portanto, muitas
vezes serve como uma linguagem fundamental para iniciantes em codificação. É
frequentemente usado para o desenvolvimento de aplicativos de software que requerem
integração com um sistema operacional como UNIX, Linux e Windows. Alguns dos
aplicativos baseados em linguagem C mais populares são: processadores de texto,
desenvolvimento de sistema operacional, sistemas de banco de dados, drivers e
interpretadores de rede, compiladores e montadores, planilhas e pacotes gráficos.
Os sistemas TAO do Facebook são desenvolvidos em linguagem C.
C++
Desenvolvido em 1983 como uma extensão da linguagem C, o C++ pode ser
definido como uma linguagem de programação orientada a objetos (agrupamento de
funções e conjuntos de dados associados em um objeto), de “nível médio” (interagindo
com a camada de programação do computador) que pode ser usado para o
desenvolvimento de software de uso geral. Ele permite codificar em sintaxe semelhante
à da linguagem C, tornando o C++ um exemplo perfeito de uma “linguagem híbrida”. A
linguagem C++ com uma biblioteca padrão robusta e mecanismo de processamento e
compilação rápidos (STL), é usada para desenvolver vários conjuntos de aplicativos
como “Microsoft Office”, ferramentas de edição gráfica, editores de vídeo, pacotes de
jogos e até sistemas operacionais inteiros. O sistema operacional “BlackBerry” e o
mais recente pacote Microsoft Office são desenvolvidos inteiramente na linguagem C++.
A linguagem C++ é amplamente percebida como a versão aprimorada da linguagem

C com abordagem orientada a objetos que pode ser usada para gerar código eficiente
e enxuto. Ele também fornece um alto nível de abstração para permitir o gerenciamento
aprimorado de grandes projetos de desenvolvimento. A linguagem C++ tende a ser a
primeira linguagem de programação ensinada no nível universitário. Algumas das
principais empresas e organizações que usam C++ são Amazon, Google, software
Adobe, Mozilla, Winamp e Lockheed Martin. A linguagem C++ é especificamente
utilizada no desenvolvimento de Embedded Firmware, Client Server
Aplicativos, Drivers e programas do sistema.
C#
Em 2000, a Microsoft lançou o C# (pronuncia-se C-sharp) como parte de sua
estrutura .Net, que foi desenvolvida usando outras linguagens como C, C++ e Java
como base fundamental. Em 2003, o C# tornou-se uma linguagem de programação
multiparadigma certificada pela ISO com recursos poderosos, incluindo alta
funcionalidade, orientação a objetos, imperatividade, atributos declarativos e orientação
a componentes. Os desenvolvedores usam muito o C# para escrever códigos para os
aplicativos XML de serviços da Web, bem como aplicativos conectados ao Microsoft .Net
para o sistema operacional Windows. A linguagem C# é a linguagem de programação
para aplicativos da Microsoft e a linguagem de escolha para o Windows Presentation
Foundation (WPF). Com a introdução do .Net Standard e do .Net Core, o
ecossistema .Net evoluiu para estruturas e padrões multiplataforma, capazes de rodar
em Windows, Linux e Mac.
A linguagem C# é ideal para iniciantes e possui recursos semelhantes aos do Java. É
uma linguagem de programação de alto nível com alta similaridade com a leitura da
língua inglesa, tornando-a fácil de aprender e usar. Ainda não é tão de alto nível e fácil
de aprender para iniciantes quanto o Python. O desenvolvimento de jogos é outro
aplicativo populacional para a linguagem C#, considerada a linguagem de escolha para
desenvolver e aprimorar jogos no “Unity Game Engine”. Os desenvolvedores podem
escrever aplicativos Android e iOS em C# usando a estrutura Microsoft Xamarin.
Java
Java, agora propriedade da Oracle, foi introduzido em 1991 pela Sun Microsystems
como uma linguagem gerenciada de memória de alto nível chamada “Oak” para
adicionar recursos à linguagem C++. É a principal linguagem e estrutura de
desenvolvimento com recursos como uso geral e orientação a objetos, tornando-a ideal
para o desenvolvimento de aplicativos baseados na web. O Java é executado com
base no princípio WORA (Write Once Run Anywhere) e possui capacidade de
plataforma cruzada, tornando-o ideal para o desenvolvimento de aplicativos móveis e
de jogos no nível corporativo.
O Java Server Pages (JSP) é usado para desenvolver aplicativos baseados na web.
Java permite que os aplicativos sejam acessados por meio de um navegador e
facilmente baixados. O código de byte Java é compilado a partir da linguagem Java e
executado na Java Virtual Machine (JVM).
Essas JVMs estão disponíveis para a maioria dos sistemas operacionais, como Windows e Mac.
Alguns programas desenvolvidos em Java são Eclipse, Lotus Notes, Minecraft, Adobe Creative Suite
e open office.
O sistema operacional Android do Google e o desenvolvimento de aplicativos são impulsionados
principalmente pelo Java. É uma linguagem robusta e interpretada com alta portabilidade de aplicativos,
extensa biblioteca de rede e gerenciamento automático de memória.
JavaScript
Devido à semelhança no nome, as pessoas geralmente assumem que existe uma conexão
subjacente com o Java, mas isso está longe de ser verdade. O JavaScript foi desenvolvido em 1995
pela empresa Netscape e chamado de “LiveScript”.
O JavaScript processa comandos no computador em vez de em um servidor e é executado dentro de
um navegador cliente. É usado principalmente no desenvolvimento da Web para tornar as páginas da
Web mais dinâmicas e manipular vários elementos, como: criar uma funcionalidade de calendário,
imprimir hora e data, adicionar recursos de rolagem da página da Web e outros recursos que não
podem ser desenvolvidos usando HTML simples.
O servidor da Web chamado NodeJS é executado inteiramente em JavaScript no lado do servidor.
O JavaScript é frequentemente usado por desenvolvedores front-end da Web e desenvolvedores de
jogos em vários domínios, como marketing, tecnologia da informação, engenharia, saúde e finanças.
Uma agência britânica chamada Cyber-Duck foi desenvolvida com JavaScript e usa APIs públicas
para acessar dados relacionados ao crime e permitir que as autoridades revisem e protejam áreas
locais. Pete Smart e Robert Hawkes criaram o “Tweetmap”, que serve como uma representação do
mapa-múndi proporcional ao número de “tweets” gerados por cada país. Os recursos fundamentais
do JavaScript são considerados relativamente fáceis de entender e dominar. Uma biblioteca JavaScript
abrangente chamada “JQuery” contendo vários frameworks é amplamente utilizada pelos
desenvolvedores como referência.
Python O
Python foi introduzido pela primeira vez em 1989 e é considerado uma linguagem de programação
extremamente amigável e fácil de aprender para amadores e codificadores iniciantes.
É considerado perfeito para pessoas que recentemente se interessaram por programação ou
codificação e precisam entender os fundamentos da programação. Isso emana do fato de que o
Python lê quase como o idioma inglês. Portanto, requer menos tempo para entender como o idioma
funciona e o foco pode ser direcionado no aprendizado do básico de
programação.
Aqui estão alguns dos elementos fundamentais da linguagem de programação de
computadores:
Tipo de dados – Este conceito é aplicável a todas as linguagens

de programação já projetadas. O tipo de dado é simplesmente uma
representação do tipo de dado que precisa ser processado pelo computador.
Alguns dos tipos de dados mais comuns são string, numérico, alfanumérico,
decimais, entre outros. Cada linguagem de programação tem sua própria
definição dos tipos de dados e palavras-chave usadas para escrever o
código. Por exemplo, a palavra-chave “char” é usada para definir o tipo de
dados string em C e Java.
Variável – Os valores de dados podem ser armazenados em um

computador especificando o rótulo ou nome desejado para selecionar os
locais de memória do computador. Esses rótulos são referidos como
variáveis. Por exemplo, você pode armazenar valores como “Christmas is
on” e “12/25” usando variáveis como “A” e “B” e, posteriormente, executar
o programa científico para recuperar a saída desejada. Cada linguagem de
programação terá palavras-chave e sintaxe exclusivas para criar e usar as
variáveis necessárias.
Palavras-chave – Cada linguagem de programação tem uma

sintaxe básica com certas palavras reservadas para indicar um significado
específico e não podem ser usadas para criar nomes de variáveis. Por
exemplo, a linguagem de programação C usava palavras como “int” e
“float” para indicar tipos de dados; portanto, você não poderá criar variáveis
com o nome “int” ou “float”.
Operadores básicos – Operadores de linguagem de

programação referem-se a símbolos que informam o compilador do
programa para executar a operação matemática, lógica ou relacional
indicada e produzir a saída desejada. Por exemplo, o operador aritmético
“+” na linguagem de programação C executará o comando de adição nos
valores indicados. Da mesma forma, o operador relacional “>”
permitirá que você compare valores de dados e gere resultados verdadeiros ou

falsos.
Tomada de decisão – Este elemento refere-se à seleção de uma

das opções fornecidas com base nas condições fornecidas. Por exemplo, se
uma observação precisa ser impressa, o código de programação precisa incluir
uma ou mais declarações condicionais necessárias que serão processadas por
meio do fluxo de trabalho do programa. As declarações condicionais “If” e “If
else” são algumas das declarações de tomada de decisão usadas em C e Python.
Funções – Um conjunto de código reutilizável e organizado que pode

ser utilizado para executar uma ação relacionada é chamado de função.
Eles oferecem modularidade aprimorada para o aplicativo e maior capacidade
de reutilização do código. Por exemplo, funções internas como “main ()” ou
“printf ()” podem ser escritas e usadas na linguagem de programação C.
Linguagens diferentes referem-se a funções usando terminologias diferentes,
como sub-rotina, método ou procedimento.
E/S de arquivo – Os valores de dados podem ser armazenados em

vários formatos, como imagens, textos simples, mídia avançada e outros, usando
arquivos de computador. Você pode organizar esses arquivos em diretórios
,
distintos. Resumindo, os arquivos armazenam dados e os diretórios armazenam
arquivos. Por exemplo, a extensão “.c” será adicionada ao final dos arquivos de
programação C e a extensão “.java” a todos os arquivos Java. Os arquivos de
entrada podem ser criados em ferramentas de edição de texto como MS Word
ou Notepad e os arquivos de saída permitem a leitura dos dados do arquivo. Os
arquivos de saída são usados para mostrar os resultados na tela executando a
entrada para o programa a partir do prompt de comando.
Importância da Matemática na Programação de Computadores A

disciplina de matemática é de extrema importância para aprender e entender os conceitos
fundamentais da programação de computadores. Vários conceitos de “Matemática Discreta”,
como probabilidade, álgebra, teoria dos conjuntos, notação lógica, entre outros, são partes
intrincadas da programação de computadores.
A álgebra é freqüentemente usada em linguagens de programação. Por exemplo,

“Álgebra Booleana” pode ser utilizada em operações lógicas e “Álgebra Relacional”
pode ser utilizada em bancos de dados. Outro exemplo é o uso da “Teoria dos
Números” no desenvolvimento da criptomoeda.
Algoritmos de ciência da computação, incluindo algoritmos de aprendizado de

máquina, consistem em um conjunto de instruções necessárias na implementação de
um aplicativo ou programa. Um algoritmo básico é tão simples quanto uma declaração
matemática escrita usando o operador lógico “+” (5+7 = 12) para codificar a adição de
valores de dados. Todo o conceito de análise de dados e solução de problemas
depende das equações matemáticas que são analisadas para entender o cerne de um
erro. Ao abordar esses problemas diretamente usando a matemática do programa, as
correções podem ser facilmente feitas no aplicativo.
A estatística também é amplamente usada na mineração e compactação de dados,

bem como em software de reconhecimento de fala e análise de imagem. O campo da
Inteligência Artificial e do Aprendizado de Máquina compartilham muitos conceitos centrais
do campo da estatística. “Aprendizado estatístico” é uma estrutura de aprendizado baseada
em estatísticas descritivas que pode ser categorizada como supervisionada ou não supervisionada.
“Aprendizado estatístico supervisionado” inclui a construção de um modelo estatístico
para prever ou estimar a saída com base em entradas únicas ou múltiplas, por outro
lado, “aprendizado estatístico não supervisionado” envolve entradas, mas nenhuma
saída de supervisão, mas ajuda no aprendizado de relacionamentos e estrutura de
dados. Uma forma de entender o aprendizado estatístico é identificar a conexão entre
o “preditor” (variáveis autônomas, atributos) e a “resposta” (variável autônoma), a fim
de produzir um modelo específico capaz de prever a “variável resposta (Y )” com base
em “fatores preditores (X)”.
“X = f(X) + ÿ onde X = (X1,X2, . . .,Xp)”, onde “f” é uma “função

“ ”
desconhecida” eÿ é “erro aleatório (redutível e irredutível)”.
Se houver um número de entradas "X" facilmente acessíveis, mas a produção de

saída "B" for desconhecida, "f" é frequentemente tratado como uma caixa preta, desde
que gere previsões precisas para "Y". Isso é chamado de "previsão ”. Há circunstâncias
em que precisamos entender como "Y" é influenciado quando "X" muda. Queremos
estimar "f" neste cenário, mas nosso objetivo não é simplesmente gerar previsões para
"Y". Nesta situação, queremos estabelecer
e entender melhor a conexão entre "Y" e "X". Agora, "f" não é considerado uma caixa
preta, pois temos que entender o processo subjacente do sistema. Isso é chamado de
"inferência". Na vida cotidiana, várias questões podem ser categorizadas na configuração
de "previsões", na configuração de "inferências" ou em um "híbrido" dos dois.
A “técnica paramétrica” pode ser definida como uma avaliação de “f” calculando os
parâmetros definidos (resumo finito dos dados) enquanto estabelece uma suposição
sobre a forma funcional de “f”. A equação matemática desta técnica é “f(X) = ÿ0 + ÿ1X1
+ ÿ2X2 + + ÿpXp”. Os "modelos paramétricos" tendem. a. .ter um número finito de
parâmetros que independe do tamanho do conjunto de dados. Isso também é conhecido
como "aprendizado baseado em modelo". Por exemplo, "modelos k-Gaussianos" são
conduzidos por técnicas paramétricas.
Por outro lado, a "técnica não paramétrica" gera uma estimativa de "f" com base em
sua proximidade com os pontos de dados, sem fazer nenhuma suposição sobre a forma
funcional de "f". Os "modelos não paramétricos" tendem a ter um número variável de
parâmetros, que cresce proporcionalmente com o tamanho do conjunto de dados. Isso
também é conhecido como “aprendizado baseado em memória”. Por exemplo, “modelos
de densidade de kernel” são conduzidos por uma técnica não paramétrica.
Python Machine Learning: Uma introdução prática à

codificação de inteligência artificial, um guia baseado
em projetos com exercícios práticos (Livro 2)
Este livro discutirá os conceitos fundamentais de modelos de aprendizado de

máquina que podem ser gerados e avançados utilizando bibliotecas baseadas em
Python.
O primeiro capítulo apresentará os principais conceitos de aprendizado de máquina,

bem como várias terminologias frequentemente usadas nesse campo.
Ele também fornecerá uma compreensão completa da importância do aprendizado de
máquina em nossas vidas diárias. Alguns dos modelos de aprendizado mais utilizados,
como Redes Neurais Artificiais (ANN) e Algoritmos Genéticos (AG), são explicados em
detalhes no segundo capítulo.
O Capítulo 3 apresentará a você os quatro fundamentos do aprendizado de máquina

algoritmos com detalhes explícitos sobre os algoritmos de aprendizado de máquina

supervisionados. O capítulo subsequente incluirá detalhes sobre vários algoritmos de
aprendizado de máquina não supervisionados, como agrupamento e redução de
dimensionalidade, entre outros. Você também aprenderá como os dados brutos podem ser
processados para gerar um conjunto de dados de treinamento de alta qualidade para a
produção de um modelo de aprendizado de máquina bem-sucedido. O sexto capítulo deste
livro se aprofundará no funcionamento da biblioteca de ML chamada Scikit-Learn, juntamente
com orientações sobre como resolver problemas não lineares com k-vizinhos mais próximos
e algoritmos de truques do kernel. O capítulo final explicará as nuances do desenvolvimento
de uma rede neural para gerar previsões e construir o modelo de aprendizado de máquina
desejado utilizando a biblioteca Tensorflow Python. Também fornecemos exercícios de
revisão para ajudá-lo a testar sua compreensão durante esse processo.
Cada capítulo deste livro tem exemplos da vida real e aplicações incluídas para solidificar
sua compreensão de cada conceito.
Dia 1: Introdução ao Machine Learning O conceito moderno de

tecnologia de Inteligência Artificial é derivado da ideia de que as máquinas são capazes
de inteligência semelhante à humana e potencialmente imitam o processamento do
pensamento humano e as capacidades de aprendizagem para se adaptar a novas entradas
e executar tarefas sem assistência humana. O aprendizado de máquina é parte integrante
do conceito de inteligência artificial. Machine Learning pode ser definido como um conceito
de tecnologia de Inteligência Artificial que se concentra principalmente na capacidade
projetada de máquinas para aprender explicitamente e se autotreinar, identificando padrões
de dados para melhorar o algoritmo subjacente e tomar decisões independentes sem
intervenção humana. Em 1959, o pioneiro em jogos de computador e especialista em
inteligência artificial, Arthur Samuel, cunhou o termo “aprendizado de máquina” durante seu
mandato na IBM.
O aprendizado de máquina decorre da hipótese de que os computadores modernos têm

a capacidade de serem treinados utilizando conjuntos de dados de treinamento direcionados,
que podem ser facilmente personalizados para desenvolver as funcionalidades desejadas.
O aprendizado de máquina é impulsionado pela técnica de reconhecimento de padrões em
que a máquina registra e revisita interações e resultados passados que são considerados
alinhados com sua situação atual. Dado o fato de que as máquinas precisam processar
quantidades infinitas de dados, com novos dados sempre chegando, elas devem ser
equipadas para se adaptar aos novos dados sem a necessidade de serem programadas por
um humano, o que fala do aspecto iterativo do aprendizado de máquina.
Agora, o tema do aprendizado de máquina é tão “quente” que o mundo da academia,

dos negócios e da comunidade científica tem sua própria opinião sobre sua definição. Aqui
estão algumas das definições amplamente aceitas de fontes selecionadas de alta reputação:
“O aprendizado de máquina é a ciência de fazer os

computadores agirem sem serem explicitamente programados”. –
Universidade
de Stanford “O campo de aprendizado de máquina procura
responder à pergunta: “Como podemos construir sistemas de computador
que melhoram automaticamente com a experiência e quais são as leis
fundamentais que regem todos os processos de aprendizado?” - Universidade
Carnegie Mellon
“Algoritmos de aprendizado de máquina podem descobrir como
executar tarefas importantes generalizando a partir de exemplos”. -
Universidade de Washington
“O aprendizado de máquina, em sua forma mais básica, é a
prática de usar algoritmos para analisar dados, aprender com eles e, em
seguida, fazer uma determinação ou previsão sobre algo no mundo”. - Nvidia
“O aprendizado de máquina é baseado em algoritmos que

podem aprender com dados sem depender de programação baseada em
regras”. – McKinsey & Co.
Conceitos básicos de aprendizado de máquina

A maior atração dessa tecnologia é a capacidade inerente do sistema de aprender
programas automaticamente a partir dos dados brutos, em vez de projetar manualmente
o programa para a máquina. Nos últimos 10 anos, a aplicação de algoritmos de ML se
expandiu dos laboratórios de ciência da computação para o mundo industrial. Os algoritmos
de aprendizado de máquina são capazes de generalizar tarefas para que possam ser
executadas iterativamente. O processo de desenvolvimento de programas específicos
para tarefas específicas é extremamente desgastante em termos de tempo e dinheiro,
mas, ocasionalmente, é simplesmente impossível de alcançar. Por outro lado, a
programação de aprendizado de máquina geralmente é viável e tende a ser muito mais
econômica. O uso do aprendizado de máquina para abordar questões ambiciosas de
importância generalizada, como o aquecimento global e o esgotamento dos níveis de água
subterrânea, é promissor com a coleta massiva de dados relevantes.
“Um avanço no aprendizado de máquina valeria dez Microsofts”.

-Bill Gates
Existem vários tipos diferentes de modelos de ML hoje, mas o conceito de ML

basicamente se resume a três componentes principais “representação”, “avaliação” e
“otimização”. Aqui estão alguns dos conceitos padrão que são aplicáveis a todos eles:
Representação
Os modelos de aprendizado de máquina são incapazes de ouvir, ver ou sentir
exemplos de entrada diretamente. Portanto, a representação de dados é necessária para
fornecer ao modelo um ponto de vista útil sobre as principais qualidades dos dados. Para
poder treinar com sucesso um modelo de aprendizado de máquina, a seleção dos
principais recursos que melhor representam os dados é muito importante. “Representação”
refere-se simplesmente ao ato de representar pontos de dados para o sistema de
computação em uma linguagem que ele entenda com o uso de um conjunto de
classificadores. Um classificador pode ser definido como “um sistema que insere um
vetor de valores de recursos discretos e/ou contínuos e gera um único valor discreto
chamado classe”. Para que um modelo aprenda com os dados representados, o conjunto
de dados de treinamento ou o “espaço de hipóteses” deve conter o classificador desejado
no qual você deseja que os modelos sejam treinados. Quaisquer classificadores externos
ao espaço de hipóteses não podem ser aprendidos pelo modelo. Os recursos de dados
usados para representar a entrada são extremamente cruciais para o processo de
aprendizado de máquina. Os recursos de dados são tão críticos para o desenvolvimento
do modelo de aprendizado de máquina desejado que podem facilmente ser a principal
distinção entre um projeto de aprendizado de máquina bem-sucedido e um com falha.
Um conjunto de dados de treinamento que consiste em vários conjuntos de recursos
independentes bem correlacionados com a classe pode tornar o aprendizado de máquina
muito mais suave. Por outro lado, a classe que consiste em recursos complexos pode
não ser fácil de aprender para a máquina. Isso geralmente requer que os dados brutos
sejam processados para permitir a construção dos recursos desejados a partir deles, que
podem ser utilizados para o desenvolvimento do modelo de ML. O processo de derivação
de recursos de dados brutos tende a ser a parte mais demorada e trabalhosa dos projetos
de ML. Também é considerada a parte mais criativa e emocionante do projeto, onde a
intuição e a tentativa e erro desempenham um papel tão importante quanto os requisitos
técnicos. O processo de ML não é um processo único de desenvolver um conjunto de
dados de treinamento e executá-lo; em vez disso, é um processo iterativo que requer a
análise dos resultados pós-execução, seguida pela modificação do conjunto de dados de treinamento e
mais uma vez. Outro fator que contribui para o longo tempo e esforço necessários na engenharia
do conjunto de dados de treinamento é a especificidade do domínio.
O conjunto de dados de treinamento para uma plataforma de comércio eletrônico para gerar
previsões com base na análise do comportamento do consumidor será muito diferente do conjunto
de dados de treinamento necessário para desenvolver um carro autônomo. No entanto, o processo
real de aprendizado de máquina é amplamente válido em todo o espectro industrial. Não é de
admirar, muitas pesquisas estão sendo feitas para automatizar o processo de engenharia de recursos.
Avaliação
Essencialmente, o processo de julgar várias hipóteses ou modelos para escolher um modelo
em detrimento de outro é chamado de avaliação. Para ser capaz de diferenciar entre bons
classificadores dos não tão bons, uma “função de avaliação” deve ser usada. A função de
avaliação também é chamada de função “objetiva”, “utilitária” ou “pontuação”. O algoritmo de
aprendizado de máquina possui sua própria função de avaliação interna, que tende a ser diferente
da função de avaliação externa usada pelos pesquisadores para otimizar o classificador.
Normalmente a função de avaliação será definida antes da seleção da ferramenta de representação

de dados e tende a ser a primeira etapa do projeto. Por exemplo, o modelo de aprendizado de
máquina para carros autônomos possui um recurso que permite a identificação de pedestres nas
proximidades do carro com quase zero falsos negativos e falsos positivos baixos, que são as
funções de avaliação e a condição pré-existente que precisa ser “representado” usando recursos
de dados aplicáveis.
Otimização O
processo de busca no espaço dos modelos apresentados para obter melhores avaliações ou
classificador com maior pontuação é chamado de “otimização”. Para algoritmos com múltiplos
classificadores ótimos, a seleção da técnica de otimização é muito importante na determinação do
classificador produzido, bem como para alcançar um modelo de aprendizado mais eficiente. Uma
variedade de otimizadores disponíveis no mercado está disponível no mercado para ajudá-lo a
iniciar um novo modelo de aprendizado de máquina antes de substituí-los por otimizadores
personalizados.
Terminologias básicas de aprendizado de máquina

Agente – No contexto do aprendizado por reforço, um agente se refere a uma entidade que
utiliza uma política para maximizar o retorno esperado alcançado com a transição de diferentes
estados do ambiente.
Boosting – Boosting pode ser definido como uma técnica de ML que combinaria sequencialmente
um conjunto de classificadores simples e de baixa precisão (conhecidos como classificadores
"fracos") em um classificador altamente preciso (conhecido como classificador "forte") aumentando
o peso do amostras que estão sendo classificadas erroneamente pelo modelo.
Geração de candidatos – A fase de seleção do conjunto inicial de sugestões fornecidas por

um sistema de recomendação é chamada de geração de candidatos. Por exemplo, uma livraria
pode oferecer 60.000 livros diferentes.
Através desta fase, um subconjunto de alguns 100 títulos que atendem às necessidades de um
determinado usuário será produzido e pode ser refinado ainda mais para um conjunto ainda menor,
conforme necessário.
Dados categóricos – Os recursos de dados com um conjunto distinto de valores potenciais

são chamados de dados categóricos. Por exemplo, um recurso categórico chamado modelo de TV
pode ter um conjunto discreto de vários valores possíveis, incluindo Smart, Roku, Fire.
Checkpoint – Checkpoint pode ser definido como um ponto de dados que irá capturar o estado
das variáveis em um momento específico no tempo do modelo ML. Com o uso de pontos de
verificação, o treinamento pode ser realizado em várias sessões e os pesos ou pontuações do
modelo podem ser exportados.
Classe – A classe pode ser definida como “um de um conjunto de valores de destino listados
para um determinado rótulo”. Por exemplo, um modelo projetado para detectar lixo eletrônico pode
ter 2 classes diferentes, a saber, “spam” e “não spam”.
Modelo de classificação – O tipo de modelo de aprendizado de máquina usado para diferenciar

entre várias classes distintas dos dados é chamado de modelo de classificação. Por exemplo, um
modelo de classificação para identificação de raças de cães poderia avaliar se a imagem do
cachorro usada como entrada é Labrador, Schnauzer, Pastor Alemão, Beagle e assim por diante.
Filtragem colaborativa – O processo de geração de previsões para um determinado usuário

com base nos interesses compartilhados de um grupo de usuários semelhantes é chamado de
filtragem colaborativa.
Feição Contínua – É definida como uma “feição de ponto flutuante com um

gama infinita de valores possíveis”.
Recurso discreto - É definido como um recurso que pode receber apenas um conjunto finito de valores
potenciais e não tem flexibilidade.
Discriminador – Um sistema usado para determinar se as amostras de entrada são realistas ou não é
chamado de discriminador.
Down-sampling – O processo de Down-sampling refere-se ao processo usado para reduzir a quantidade

de informações contidas em um recurso ou usar um percentual extremamente baixo de classes que são
abundantemente representadas para treinar o modelo de ML com maior eficiência.
Modelo dinâmico - Um modelo de aprendizagem que está continuamente recebendo entrada

dados a serem treinados de forma contínua é chamado de modelo dinâmico.
Conjunto – Um conjunto de previsões criado pela combinação de previsões de mais de um modelo é

chamado de conjunto.
Ambiente – O termo ambiente utilizado no contexto de aprendizado de máquina por reforço constitui “o
mundo que contém o agente e permite que o agente observe o estado desse mundo”.
Episódio – O termo episódio usado no contexto de aprendizado de máquina por reforço constitui cada
tentativa sequencial realizada pelo modelo para aprender com seu ambiente.
Recurso – qualquer uma das variáveis de dados que podem ser usadas como entrada para gerar
previsões é chamada de recurso.
Engenharia de recursos – A engenharia de recursos pode ser definida como “o processo de determinar
quais recursos podem ser úteis no treinamento de um modelo e, em seguida, converter dados brutos de
arquivos de log e outras fontes nos referidos recursos”.
Extração de recursos – A extração de recursos pode ser definida como “o processo de recuperação
de representações intermediárias de recursos calculadas por um modelo não supervisionado ou pré-treinado
para uso em outro modelo como entrada”.
Aprendizagem de poucos tiros - O aprendizado de poucos tiros pode ser definido como “uma
abordagem de aprendizado de máquina, frequentemente usada para classificação de objetos, projetada
para aprender classificadores eficazes a partir de apenas um pequeno número de exemplos de treinamento”.
Ajuste fino – O processo de “executar uma otimização secundária para ajustar os

parâmetros de um modelo já treinado para se adequar a um novo problema” é chamado de
ajuste fino. É amplamente utilizado para reajustar o(s) peso(s) de um “modelo não
supervisionado treinado” para um “modelo supervisionado”.
Generalização – a capacidade de um modelo de aprendizado de máquina de produzir

previsões precisas a partir de dados de entrada novos e desconhecidos, em vez do conjunto
de dados utilizado durante a fase de treinamento do modelo, é chamada de generalização.
Inferência – No contexto do ML, a inferência refere-se ao processo de geração de

previsões e insights com a aplicação de um modelo já treinado a uma amostra de dados não
organizada.
Rótulo – No contexto do aprendizado de máquina (supervisionado), a parte "resposta" ou

"resultado" de um exemplo é chamada de rótulo. Cada título em um conjunto de dados rotulado
consistirá em recursos únicos ou múltiplos junto com um rótulo. Por exemplo, em um conjunto
de dados de uma casa, as feições podem conter o ano de construção, número de cômodos e
banheiros, enquanto o rótulo pode ser o “preço da casa”.
Modelo linear – O modelo linear é definido como um modelo que pode atribuir um peso
singular a cada recurso para gerar previsões.
Perda – No contexto de ML, a perda refere-se à medida em que as previsões produzidas

pelo modelo não estão alinhadas com seus rótulos de treinamento.
Matplotlib – É uma “biblioteca de plotagem Python 2-D de código aberto” que pode ser
utilizada para visualizar vários elementos de ML.
Modelo – No contexto de ML, um modelo refere-se a uma representação do aprendizado
e treinamento que foi adquirido pelo sistema a partir do conjunto de dados de treinamento.
NumPy – É uma biblioteca de dados de código aberto que pode fornecer operações
eficazes para serem usadas em arrays Python.
One-shot learning – No contexto do aprendizado de máquina, o one-shot learning pode

ser definido como a abordagem de aprendizado de máquina que permite o aprendizado de
classificadores eficazes a partir de amostras de treinamento exclusivas e é uma classificação
de objetos frequentemente utilizada.
Overfitting - No contexto do aprendizado de máquina, o overfitting é referido como a produção de um

modelo que pode corresponder ao conjunto de dados de treinamento de forma extremamente próxima e
torna o modelo ineficiente em fazer previsões precisas em novas entradas.
Parâmetro – Qualquer variável do modelo ML, que permitiria a

sistema de aprendizado de máquina para auto-aprender de forma independente é chamado de parâmetro.
Pipeline – No contexto do ML, o pipeline pertence à infraestrutura que envolve um algoritmo de

aprendizado e compreende uma coleção de dados, quaisquer adições de dados feitas aos arquivos de
dados de treinamento, treinamento de modelos únicos ou múltiplos e liberação dos modelos no ambiente
ao vivo.
Floresta aleatória – No contexto do aprendizado de máquina, o conceito de floresta aleatória refere-se

a uma técnica de conjunto para encontrar uma árvore de decisão que se ajuste com mais precisão ao
conjunto de dados de treinamento, criando duas ou mais árvores de decisão com uma seleção aleatória de
recursos.
Dimensionamento - No contexto do aprendizado de máquina, o dimensionamento refere-se a “uma

prática comum de engenharia de recursos para domar o intervalo de valores de um recurso para
corresponder ao intervalo de outros recursos no conjunto de dados”.
Modelo de sequência - Um modelo de sequência simplesmente se refere a um modelo com

dependência sequencial de entradas de dados para gerar uma previsão futura.
Se você gostou desta prévia, não deixe de conferir os livros completos em

Amazon. com. Complete a jornada e torne-se um mestre Python!
Conclusão
Obrigado por chegar ao final do Python Data Science: Uma introdução prática
à análise de big data e mineração de dados, um guia baseado em projeto com
exercícios práticos (Livro 3), esperamos que tenha sido informativo e capaz de
fornecer a você com todas as ferramentas que você precisa para atingir seus
objetivos, sejam eles quais forem.
O próximo passo é fazer o melhor uso de sua sabedoria recém-descoberta nas

tecnologias de ciência de dados de ponta, como "Big Data Analytics" e mineração
de dados em todo o espectro industrial. Os clientes inteligentes e experientes de
hoje podem ser facilmente influenciados por empresas modernas com uma
vantagem caprichosa, oferecendo aos consumidores uma experiência única, rica
e envolvente. Está ficando cada vez mais desafiador para as empresas tradicionais
reter seus clientes sem adotar a tecnologia de análise de big data explicada neste
livro. Agora você está pronto para criar seu próprio modelo de análise preditiva
aproveitando todas as bibliotecas de dados gratuitas e de código aberto descritas
neste livro. Agora você tem uma visão geral da aplicação da tecnologia de IA no
espaço de marketing com ferramentas baseadas em IA, como “GetResponse
Autofunnel”, que automatizou o processo tradicional de criação de funis de
marketing específicos do setor e da empresa para atrair novos clientes ou leads
em potencial e convertê-los em clientes pagantes. Como líder de negócios, você
deve manter-se atualizado sobre as ferramentas e tecnologias que podem ajudá-lo
a crescer e expandir seus negócios e, como aprenderá com a ajuda deste livro, o
futuro está nas tecnologias de ponta, como IA, aprendizado de máquina e grandes
análise de dados. Por isso, fornecemos uma explicação detalhada sobre o que é
big data e como as ferramentas e tecnologias analíticas modernas podem ser
aplicadas a esse tesouro de dados para obter insights inestimáveis e levar seus
negócios ao próximo nível. Quando terminar de ler este livro, você estará
familiarizado com algumas das linguagens de programação de computador e
bibliotecas de aprendizado de máquina mais populares que você pode incorporar
seletivamente nas plataformas de software de sua empresa para melhorar suas
vendas e obter mais lucro. Para fazer o melhor uso deste livro, recomendo que
você baixe esses recursos gratuitos e faça exercícios práticos para solidificar sua
compreensão dos conceitos explicados. O conjunto de habilidades de análise de
dados está sempre em demanda, com muitas oportunidades de emprego com altos salários. Es
mais perto do emprego dos seus sonhos!

Aprenda Python em Uma Semana e Masterize

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aprenda Python em Uma Semana e Masterize

Enviado por

Direitos autorais:

Formatos disponíveis

Machine Translated by Google

Machine Translated by Google

CIÊNCIA DE DADOS PYTHON

Curso rápido de 7 dias

Uma introdução prática à análise de big data e mineração de

Academia de programação de computadores

Copyright © 2020 – Academia de Programação de Computadores

Todos os direitos reservados

Importância da ciência de dados

Dia 2: ciclo de vida da ciência de dados

Infraestrutura e recursos para projetos de ciência de dados

Dia 3: Big Data 101

Importância do big data O

de mineração de dados Aplicações de

mineração de dados O processo de

Dia 5: estruturas de análise de dados

Dia 6: Bibliotecas de análise de dados

Dia 7: Análise preditiva

Importância do Customer Analytics

Os capítulos seguintes discutirão os conceitos fundamentais das tecnologias de

O primeiro capítulo do livro ajudará você a entender a importância das tecnologias de

O quinto capítulo trata exclusivamente de algumas das principais estruturas de

processamento de um grande volume de dados não estruturados e desorganizados para

Dia 1: introdução à ciência de dados

No mundo da tecnologia, Dados são definidos como “informações que são

O uso mais antigo registrado do termo ciência de dados remonta a 1960 e é

Um interesse crescente por executivos de negócios contribuiu significativamente para

Importância da ciência de dados

A ciência de dados é muito usada na análise preditiva. Por exemplo, a previsão do

A ciência de dados possibilitou o uso de algoritmos avançados de aprendizado de

A capacidade de analisar e examinar de perto tendências e padrões de dados

Os ataques cibernéticos podem resultar na perda de dados e informações de valor

conjunto de dados, criptografia sofisticada e assinaturas complexas podem ser usadas

Ao longo dos últimos 20 anos, as tendências de dados mudaram drasticamente,

“Dados binários ou binomiais” – Valores de dados que

“Dados nominais ou não ordenados” – As características

Dados quantitativos – Quaisquer características dos dados que podem ser

“Dados Contínuos” – Valores de dados que podem ser

“Dados discretos” – valor de dados numéricos que não

Estratégias de ciência de dados

A ciência de dados é usada principalmente na tomada de decisões, fazendo previsões

Analítica prescritiva - As “analíticas prescritivas” são amplamente utilizadas no

Aprendizado de máquina para descoberta de padrões – Ser capaz de desenvolver modelos

Aprendizado de máquina x ciência de dados

As linguagens de programação mais utilizadas em algoritmos de aprendizado de máquina são “Python” e

Inteligência de negócios vs. Ciência de dados A ciência

Tarefas de negócios e inteligência podem potencialmente ser automatizadas com o uso de

A inteligência de negócios é tradicionalmente usada para “análise descritiva” e oferece

O nicho de inteligência de negócios já foi dominado por usuários de tecnologia com

Ao contrário da inteligência de negócios, que é usada para criar relatórios de dados,

Ciência de dados versus análise

A ciência de dados atua como uma mistura multidisciplinar de tecnologia,

1. Cite o processo de coleta de insights de um conjunto mensurável de

2. Que tipo de sistemas são capazes de monitorar usuários e dispositivos

3. O tipo de valor de dados numéricos que não pode ser dividido e

Dia 2: ciclo de vida da ciência de dados

O ciclo de vida mais altamente recomendado para projetos estruturados de ciência

Os componentes fundamentais do “Processo de ciência de dados da equipe”

Estrutura de projeto padronizada

no sistema de controle de versão. A adoção de uma estrutura padronizada para todos os

O ciclo de vida do TDSP fornece modelos padrão para todos os documentos

Infraestrutura e recursos para projetos de ciência de dados

Para armazenar efetivamente a infraestrutura e gerenciar análises compartilhadas, o