Escolar Documentos
Profissional Documentos
Cultura Documentos
O conteúdo contido neste livro não pode ser reproduzido, duplicado ou transmitido sem a permissão direta
por escrito do autor ou do editor.
Sob nenhuma circunstância qualquer culpa ou responsabilidade legal será atribuída ao editor, ou autor, por
quaisquer danos, reparações ou perdas monetárias devido às informações contidas neste livro, direta ou
indiretamente.
Aviso Legal:
Este livro é protegido por direitos autorais. Este livro é apenas para uso pessoal. Você não pode alterar,
distribuir, vender, usar, citar ou parafrasear qualquer parte ou o conteúdo deste livro sem o consentimento
do autor ou editor.
Aviso de isenção
de responsabilidade: observe que as informações contidas neste documento são apenas para fins
educacionais e de entretenimento. Todo esforço foi feito para apresentar informações precisas, atualizadas,
confiáveis e completas. Nenhuma garantia de qualquer tipo é declarada ou implícita. Os leitores reconhecem
que o autor não presta aconselhamento jurídico, financeiro, médico ou profissional. O conteúdo deste livro
foi derivado de várias fontes. Por favor, consulte um profissional licenciado antes de tentar quaisquer técnicas
descritas neste livro. Ao ler este documento, o leitor concorda que, sob nenhuma circunstância, o autor é
responsável por quaisquer perdas, diretas ou indiretas, decorrentes do uso das informações contidas neste
documento, incluindo, entre outros, erros, omissões, ou imprecisões.
Machine Translated by Google
Índice
Introdução
Dia 1: introdução à ciência de dados
Aprendizado conjunto
Árvores de decisão
Machine Translated by Google
floresta aleatória
Programação em Python
Aprendizado de máquina Python
Conclusão
Machine Translated by Google
Introdução
Parabéns por adquirir Python Data Science: Uma introdução prática à análise de big
data e mineração de dados, um guia baseado em projeto com exercícios práticos (Livro
3) e obrigado por fazê-lo.
O terceiro capítulo é sobre big data e análise de big data. Você aprenderá os 5 Vs de
big data e as 3 ações importantes necessárias para obter insights de big data. Você
também aprenderá as diferentes etapas envolvidas na análise de big data e algumas de
suas aplicações em saúde, finanças e outros setores industriais. O capítulo intitulado
“Basics of Data Mining” fornecerá uma visão geral explícita do processo de mineração
de dados e suas aplicações. Você também aprenderá as vantagens e os desafios do
processo de mineração de dados na resolução de problemas de dados do mundo real.
Algumas das ferramentas de mineração de dados mais usadas pelos analistas de dados
também são explicadas.
O capítulo final deste livro explicará como a análise de dados ajuda a resolver
problemas de negócios usando análises de clientes e/ou preditivas.
A análise do cliente está no centro de todas as atividades de marketing e é um termo
abrangente usado para técnicas como “modelagem preditiva”, “visualização de dados”,
“gerenciamento de informações” e “segmentação”. Você aprenderá o importante conceito
de análise de funil de marketing e vendas, bem como os três principais tipos de modelos
preditivos para analisar o comportamento do cliente. Os conceitos de análise exploratória
de dados de clientes e marketing personalizado foram explicados em detalhes, juntamente
com algumas de suas aplicações industriais. Para fazer o melhor uso deste livro,
recomendamos que você baixe os recursos gratuitos fornecidos neste livro e realize
exercícios práticos para solidificar sua compreensão dos conceitos explicados. O conjunto
de habilidades de análise de dados está sempre em demanda, com muitas oportunidades
de emprego com altos salários. Esperamos que este livro o leve um passo mais perto do
emprego dos seus sonhos!
Machine Translated by Google
“A ciência de dados continua a evoluir como uma das carreiras mais promissoras
e procuradas por profissionais qualificados. Hoje, profissionais de dados bem-
sucedidos entendem que devem avançar além das habilidades tradicionais de análise
de grandes quantidades de dados, mineração de dados e habilidades de programação.
A fim de descobrir inteligência útil para suas organizações, os cientistas de dados
devem dominar todo o espectro do ciclo de vida da ciência de dados e possuir um
nível de flexibilidade e compreensão para maximizar os retornos em cada fase do processo.
Machine Translated by Google
processo".
– Universidade da Califórnia, Berkley
ferramentas analíticas avançadas e algoritmos sobre esses dados para obter insights
valiosos. Com o uso de algoritmos de aprendizado de máquina, o sistema pode gerar
recomendações de produtos para clientes individuais com maior precisão. O consumidor
inteligente está sempre procurando a experiência de usuário mais envolvente e
aprimorada, para que as empresas possam usar essas ferramentas analíticas e
algoritmos para obter uma vantagem competitiva e expandir seus negócios.
Tipos de Dados
Vejamos diferentes tipos de dados para que você possa escolher as ferramentas
analíticas e algoritmos mais adequados com base no tipo de dados que precisam ser
processados. Os tipos de dados podem ser divididos em dois em um nível muito alto:
qualitativos e quantitativos.
Dados qualitativos – Quaisquer dados que não podem ser medidos e apenas
observados subjetivamente adicionando um recurso qualitativo ao objeto, são chamados
de "dados qualitativos". A classificação de um objeto usando recursos não mensuráveis
resulta na criação de dados qualitativos. Por exemplo, atributos como cor , cheiro, textura
e sabor. Existem três tipos de dados qualitativos:
tipo de dados, que pode ser usado em combinação com um tipo de dados
contínuo para realizar uma análise de regressão para verificar se o peso total
da caixa de sorvete (dados contínuos) está correlacionado com o número de
barras de sorvete (dados discretos) dentro.
Análise causal preditiva – “análise causal preditiva” pode ser aplicada para desenvolver
um modelo que pode prever e prever com precisão a probabilidade de um determinado evento
ocorrer no futuro. Por exemplo, as instituições financeiras usam ferramentas baseadas em
análise causal preditiva para avaliar a probabilidade de um cliente inadimplir seus pagamentos
com cartão de crédito, gerando um modelo que pode analisar o histórico de pagamentos do
cliente com todas as suas instituições de empréstimo.
Aprendizado de máquina para fazer previsões – Para desenvolver modelos que possam
determinar tendências futuras com base nos dados transacionais adquiridos pela empresa,
os algoritmos de aprendizado de máquina são uma necessidade. Isso é considerado como
“aprendizado de máquina supervisionado”, que detalharemos mais adiante neste livro.
Por exemplo, os sistemas de detecção de fraude usam algoritmos de aprendizado de máquina
nos dados históricos pertencentes a compras fraudulentas para detectar se uma transação é
fraudulenta.
que são capazes de identificar padrões de dados ocultos, mas carecem de parâmetros
necessários para fazer previsões futuras, os “algoritmos de aprendizado de máquina não
supervisionados”, como “Clustering”, precisam ser empregados. Por exemplo, as empresas
de telecomunicações costumam usar a tecnologia de “clustering” para expandir sua rede,
identificando locais de torres de rede com força de sinal ideal na região de destino.
Componentes de
dados A ciência de dados pertence ao ciclo de vida completo dos dados e envolve uma
variedade de componentes, incluindo pipeline “ETL” (Extrair, Transformar, Carregar) para
coletar e classificar dados, visualização de dados, computação distribuída, aprendizado de
máquina, inteligência artificial, engenharia de dados, dashboards e introdução e ambiente
de implantação do sistema, entre outros componentes.
Os modelos de aprendizado de máquina recebem dados de entrada e contêm vários
componentes, incluindo: separação de dados, exploração de dados, solução de problemas
e seleção de modelo apropriado, entre outros recursos.
Medidas de desempenho
A ciência de dados não tem padrão para medição de desempenho e é determinada caso
a caso. Normalmente, as medidas de desempenho são uma indicação da qualidade dos
dados, pontualidade dos dados, acessibilidade dos dados, capacidade de visualização de
dados e capacidade de consulta de dados.
Os modelos de aprendizado de máquina têm medidas de desempenho padrão, com
cada algoritmo tendo uma medida para indicar o sucesso do modelo e descrever o conjunto
de dados de treinamento fornecido. Por exemplo, em “análise de regressão linear”, o “erro
quadrático médio (RME) serve como indicação de erro(s) no modelo.
Método de
desenvolvimento As implementações de projetos de ciência de dados são realizadas
em estágios definidos com marcos do projeto que devem ser alcançados para cumprir
metas e objetivos definidos dentro das restrições de tempo e recursos. Os projetos de
aprendizado de máquina são baseados em pesquisa e começam com uma hipótese que se
espera que seja verificada dentro das restrições dos dados disponíveis.
Machine Translated by Google
Visualização de dados
Em projetos de ciência de dados, os dados são visualizados com o uso de representação gráfica padrão,
como gráficos de barras e gráficos de pizza. O aprendizado de máquina não apenas usa as ferramentas de
representação gráfica padrão para visualizar os dados, mas também usa modelos matemáticos do conjunto de
dados de treinamento.
Linguagem de programação
As linguagens de programação mais populares usadas em projetos de ciência de dados são “SQL”, “PERL”
e certas linguagens específicas de estrutura de dados, como “Java for Hadoop” e “Scala for Spark”.
Projetos de ciência de dados usam “dados consumíveis humanos”, que podem ser facilmente
lidas e analisadas por humanos usando ferramentas e tecnologias analíticas.
Os algoritmos de aprendizado de máquina exigem um conjunto de dados de treinamento altamente classificado
e rotulado.
Uma avalanche de dados qualitativos e quantitativos fluindo de uma ampla variedade de fontes de entrada
criou uma dependência da ciência de dados para que as empresas entendam esses dados e os usem para
manter e expandir seus negócios. O advento da ciência de dados como a melhor ferramenta de tomada de
decisão mostra a crescente dependência de dados para as empresas. em vários
Machine Translated by Google
contexto. Ao contrário da ciência de dados, a análise de dados é caracterizada pelo baixo uso
de inteligência artificial, modelagem preditiva e algoritmos de aprendizado de máquina para
coletar insights de dados processados e estruturados usando comandos de consulta SQL
padrão. As diferenças aparentemente sutis entre análise de dados e ciência de dados podem
realmente ter um impacto substancial em uma organização.
questionário de revisão
Responda às perguntas abaixo para verificar sua compreensão dos conceitos explicados
neste capítulo. A chave de resposta pode ser encontrada no final do questionário.
Palavra chave
1. Data Science
2. Sistemas ativos de detecção de intrusão
3. Tipo de dados
discretos 4. Dados binários ou binomiais, Dados nominais ou não
ordenados, Dados
ordenados ou ordinais 5.
Análise prescritiva 6. Tipo
de dados contínuos 7.
Inteligência de negócios 8. ETL” (Extract , Transformar, Carregar)
9. Aprendizado de
máquina 10. Business Intelligence
Machine Translated by Google
fornecidos pelo TDSP. Algumas das tarefas básicas no ciclo de vida da ciência de dados,
incluindo “exploração de dados” e “modelagem de linha de base”, podem ser facilmente
automatizadas com as ferramentas fornecidas pelo TDSP. Para permitir a contribuição livre
de problemas de ferramentas e utilitários compartilhados no “repositório de código
compartilhado” da equipe, o TDSP fornece uma estrutura bem definida. Isso resulta em
economia de custos, permitindo que outras equipes de projeto dentro da organização
reutilizem e redirecionem essas ferramentas e utilitários compartilhados.
O ciclo de vida do TDSP serve como um modelo padronizado com um conjunto bem
definido de artefatos que podem ser usados para obter colaboração e comunicação eficazes
da equipe em todos os níveis. Esse ciclo de vida é composto por uma seleção das melhores
práticas e estruturas da “Microsoft” para facilitar a entrega bem-sucedida de soluções de
análise preditiva e aplicativos inteligentes.
Vejamos os detalhes de cada um dos cinco estágios do ciclo de vida do TDSP, ou seja,
“Entendimento do negócio”, “Aquisição de dados no entendimento”, “modelagem”,
“implantação” e “aceitação do cliente”.
Machine Translated by Google
O objetivo desta etapa é reunir e detalhar as variáveis essenciais que serão usadas
como alvos para o modelo, e as métricas associadas a essas variáveis determinarão
o sucesso geral do projeto.
Outro objetivo significativo desta etapa é a identificação das fontes de dados
necessárias que a empresa já possui ou pode precisar adquirir. Nesta fase, as duas
tarefas principais que devem ser realizadas são: “definir objetos e identificar fontes de
dados”.
Definindo objetivos
Todos os projetos devem sempre começar com a identificação das principais
variáveis de negócios que as ferramentas analíticas devem prever. Essas variáveis
são chamadas de “metas do modelo” e as métricas associadas a essas metas do
modelo, como previsão de vendas e previsão de pedidos fraudulentos, são usadas
como uma medida do sucesso do projeto. Para definir as metas e objetivos do projeto,
é imperativo trabalhar com as partes interessadas e os usuários finais e fazer perguntas
relevantes que podem ser altamente específicas ou mesmo vagas. Para responder a
essas perguntas, a abordagem da ciência de dados emprega nomes e números. Os
cinco tipos de perguntas que são usados principalmente para ciência de dados ou
aprendizado de máquina pertencem a: “regressão (quanto ou quantos?), classificação
(quais categorias?), agrupamento (quais grupos?), detecção de anomalias (isso é
incomum ?), recomendação (qual opção deve ser tomada?)”. É importante determinar
as perguntas certas para o seu projeto e entender como as respostas a essas
perguntas o ajudarão a atingir as metas de negócios ou do projeto.
Ingestão de
dados O processo necessário para transferir os dados do local de origem para o
local de destino deve ser configurado nesta fase. Os locais de destino são determinados
pelos ambientes que permitirão realizar atividades analíticas como treinamento e
previsões.
Exploração de
dados O conjunto de dados deve ser limpo para remover quaisquer discrepâncias e
erros antes de poder ser usado para treinar os modelos de dados. Para verificar a
qualidade dos dados e coletar as informações necessárias para processar os dados
antes da modelagem, ferramentas como resumo e visualização de dados devem ser
usadas. Como esse processo é repetido várias vezes, um utilitário automatizado
chamado “IDEAR”, fornecido pelo TDSP, pode ser usado para visualização de dados e
criação de relatórios de resumo de dados. Com a obtenção de qualidade satisfatória dos
dados processados, os padrões de dados inerentes podem ser observados. Isso, por
sua vez, ajuda na seleção e desenvolvimento de um “modelo preditivo” apropriado para
o alvo. Agora você deve avaliar se possui a quantidade necessária de dados para iniciar
o processo de modelagem, que é de natureza iterativa e pode exigir que você identifique
novas fontes de dados para obter maior relevância e precisão.
Configurar um pipeline
de dados Para complementar o processo iterativo de modelagem de dados, um
processo padrão para pontuar novos dados e atualizar o conjunto de dados existente
deve ser estabelecido configurando um “pipeline de dados ou fluxo de trabalho”. A
arquitetura da solução do pipeline de dados deve ser desenvolvida ao final desta etapa.
Existem três tipos de pipelines que podem ser usados com base nas necessidades de
negócios e nas restrições do sistema existente: “baseado em lote”, “em tempo real ou streaming”,
Machine Translated by Google
e “híbrido”.
Engenharia de recursos
Os recursos de dados devem ser criados a partir das variáveis de dados brutos usando o
processo de “inclusão, agregação e transformação”. Para poder entender o funcionamento do
modelo, deve ser desenvolvido um entendimento claro de como esses recursos de dados se
relacionam entre si, bem como dos algoritmos de aprendizado de máquina que usarão esses
recursos. Os insights coletados na fase de exploração de dados podem ser combinados com o
conhecimento do domínio para permitir a engenharia de recursos criativos. O belo ato de
determinar
Machine Translated by Google
e incluir variáveis informativas, certificando-se de que muitas variáveis não relacionadas não sejam
incluídas no conjunto de dados, é chamado de engenharia de recursos. Muitas variáveis não
relacionadas adicionarão ruído ao modelo de dados, portanto, deve-se tentar adicionar o máximo
possível de variáveis informativas para obter melhores resultados. Os recursos também devem ser
gerados para quaisquer novos dados coletados durante a pontuação.
Treinamento de
modelo Uma ampla variedade de algoritmos de modelagem está disponível no mercado atualmente.
O algoritmo que atende aos critérios do seu projeto deve ser selecionado. O processo de
“treinamento do modelo” pode ser dividido em quatro etapas, que são:
Estágio IV - Implantação
Operacionalizar o modelo
Depois de obter um conjunto de modelos com níveis de desempenho esperados, esses
modelos podem ser operacionalizados para outras aplicações aplicáveis para
usar.
De acordo com os requisitos de negócios, as previsões podem ser feitas em tempo real ou
em lote. Para implantar o modelo, eles devem ser integrados a uma “Interface de programação
de aplicativos” (API) aberta para permitir a interação do modelo com todos os outros aplicativos
e seus componentes, conforme necessário.
O objetivo desta etapa é garantir que a solução final do projeto atenda às expectativas
das partes interessadas e atenda aos requisitos de negócios coletados durante a Etapa I
do ciclo de vida da ciência de dados. As duas tarefas principais que devem ser realizadas
nesta etapa são: “validação do sistema e entrega do projeto”.
questionário de revisão
Palavra chave
Os “Vs” do volume de
big data – para ser classificado como big data, o volume do conjunto de dados
fornecido deve ser substancialmente maior do que os conjuntos de dados tradicionais.
Esses conjuntos de dados são compostos principalmente de dados não estruturados
com dados estruturados e semiestruturados limitados. Os dados não estruturados ou os
dados com valor desconhecido podem ser coletados de fontes de entrada, como páginas
da Web, histórico de pesquisa, aplicativos móveis e plataformas de mídia social. O
tamanho e a base de clientes da empresa geralmente são proporcionais ao volume de
dados adquiridos pela empresa.
Velocidade – A velocidade na qual os dados podem ser coletados e acionados de
acordo com a velocidade do big data. As empresas estão usando cada vez mais uma
combinação de servidores locais e baseados em nuvem para aumentar a velocidade de
sua coleta de dados. Os "Produtos e Dispositivos Inteligentes" modernos exigem acesso
em tempo real aos dados do consumidor, a fim de fornecer a eles uma experiência de
usuário mais envolvente e aprimorada.
Variedade – Tradicionalmente, um conjunto de dados conteria a maioria dos dados
estruturados com baixo volume de dados não estruturados e semiestruturados, mas o
advento do big data deu origem a novos tipos de dados não estruturados, como vídeo,
texto, áudio, que exigem ferramentas e tecnologias sofisticadas para limpar e processar
esses tipos de dados para extrair insights significativos deles.
Veracidade – Outro “V” que deve ser considerado para análise de big data é a
veracidade. Isso se refere à "confiabilidade ou qualidade" dos dados. Por exemplo,
plataformas de mídia social como "Facebook" e "Twitter" com blogs e postagens contendo
uma hashtag, acrônimos e todos os tipos de erros de digitação podem reduzir
significativamente a confiabilidade e a precisão dos conjuntos de dados.
Machine Translated by Google
Valor – Os dados evoluíram como uma moeda própria com valor intrínseco.
Assim como as moedas monetárias tradicionais, o valor final do big data é diretamente
proporcional ao insight obtido a partir dele.
Hoje, com o surgimento da tecnologia de ponta, não apenas os humanos, mas também as
máquinas que geram dados. As tecnologias de dispositivos inteligentes como “Internet das coisas”
(IoT) e “Internet dos sistemas” (IoS) dispararam o volume de big data. Nossos objetos
domésticos diários e dispositivos inteligentes estão conectados à Internet e são capazes de
rastrear e registrar nossos padrões de uso, bem como nossas interações com esses produtos
e alimentar todos esses dados diretamente no big data. O advento da tecnologia de
aprendizado de máquina aumentou ainda mais o volume de dados gerados diariamente.
Estima-se que até 2020, “1,7 MB de dados serão gerados por segundo por pessoa”. Como o
big data continuará crescendo, sua usabilidade ainda tem muitos horizontes a cruzar.
soluções subjacentes, o futuro do big data é muito promissor. Aqui estão alguns
exemplos do uso de big data:
Desenvolvimento de produtos – Grandes e pequenas empresas de comércio
eletrônico dependem cada vez mais de big data para entender as demandas e
expectativas dos clientes. As empresas podem desenvolver modelos preditivos para
lançar novos produtos e serviços usando características primárias de seus produtos e
serviços anteriores e existentes e gerando um modelo que descreva a relação dessas
características com o sucesso comercial desses produtos e serviços. Por exemplo, uma
empresa líder em bens comerciais de fabricação rápida, "Procter & Gamble", usa
extensivamente big data coletada de sites de mídia social, mercados de teste e grupos
focais na preparação para o lançamento de seu novo produto.
“A importância do big data não gira em torno de quantos dados você tem, mas o que
você faz com eles. Você pode pegar dados de qualquer fonte e analisá-los para encontrar
respostas que permitem 1) reduções de custo, 2) reduções de tempo, 3) desenvolvimento
de novos produtos e ofertas otimizadas e 4) tomada de decisão inteligente”.
-SAS
Existem três ações importantes necessárias para obter insights de big data:
Integração – Os métodos tradicionais de integração de dados, como ETL (Extrair,
Transformar, Carregar), são incapazes de agrupar dados de uma ampla variedade de fontes
e aplicativos não relacionados que são você no coração de grandes dados. Ferramentas e
tecnologias avançadas são necessárias para analisar grandes conjuntos de dados que são
exponencialmente maiores do que os conjuntos de dados tradicionais. Ao integrar big data
dessas fontes díspares, as empresas podem analisar e extrair informações valiosas para
expandir e manter seus negócios.
Gerenciamento – o gerenciamento de big data pode ser definido como “a organização,
administração e governança de grandes volumes de dados estruturados e não estruturados”.
Big data requer armazenamento eficiente e barato, que pode ser obtido usando servidores
locais, baseados em nuvem ou uma combinação de ambos. As empresas podem acessar
facilmente os dados necessários de qualquer lugar do mundo e, em seguida, processar
esses dados usando os mecanismos de processamento necessários conforme a
necessidade. O objetivo é garantir que a qualidade dos dados seja de alto nível e possa ser
acessada facilmente pelos usuários necessários.
Machine Translated by Google
ferramentas e aplicativos. Big data coletados de todos os tipos de fontes da Dale, incluindo
plataformas de mídia social, histórico do mecanismo de pesquisa e registros de chamadas.
Os grandes dados geralmente contêm grandes conjuntos de dados não estruturados e os
dados semiestruturados que são armazenados em vários formatos. Para poder processar
e armazenar esses dados complicados, as empresas precisam de um software de
gerenciamento de dados mais poderoso e avançado além dos bancos de dados relacionais
tradicionais e plataformas de armazenamento de dados. Novas plataformas estão
disponíveis no mercado capazes de combinar big data com os sistemas tradicionais de
data warehouse em uma "arquitetura lógica de armazenamento de dados". Como parte
desse esforço, as empresas são obrigadas a tomar decisões sobre quais dados devem ser
protegidos para fins regulatórios e conformidade, quais dados devem ser mantidos para
fins analíticos futuros e quais dados não têm uso futuro e podem ser descartados. Esse
processo é chamado de "classificação de dados", que permite uma análise rápida e
eficiente de um subconjunto de dados a ser incluído em o processo decisório imediato da
empresa.
Análise – Uma vez que o big data foi coletado e está facilmente acessível, ele pode
ser analisado usando ferramentas e tecnologias analíticas avançadas. Essa análise
fornecerá insights valiosos e informações acionáveis. Big data pode ser explorado para
fazer descobertas e desenvolver modelos de dados usando inteligência artificial e
algoritmos de aprendizado de máquina.
Os termos big data e big data analytics são frequentemente usados de forma
intercambiável devido ao fato de que o propósito inerente do big data é ser analisado. "Big
data analytics" pode ser definido como um conjunto de métodos qualitativos e quantitativos
que podem ser empregados para examinar uma grande quantidade de dados não
estruturados, estruturados e semiestruturados para descobrir padrões de dados e valiosos
insights ocultos. A análise de big data é a ciência de analisar big data para coletar métricas,
principais indicadores de desempenho e tendências de dados que podem ser facilmente
perdidos na enxurrada de dados brutos, comprados usando algoritmos de aprendizado de
máquina e técnicas analíticas automatizadas. As diferentes etapas envolvidas na "análise de big data" sã
gênero, idade, dados demográficos, localização, etnia e renda. Também deve ser tomada
uma decisão sobre os tipos de dados necessários (qualitativos e quantitativos) e os valores
dos dados (podem ser numéricos ou alfanuméricos) a serem usados para a análise.
Coleta de dados – Os dados brutos podem ser coletados de fontes diferentes, como
plataformas de mídia social, computadores, câmeras, outros aplicativos de software, sites
de empresas e até provedores de dados terceirizados. A análise de big data requer
inerentemente grandes volumes de dados, a maioria dos quais não estruturados com uma
quantidade limitada de dados estruturados e semiestruturados.
Organização e categorização dos dados – Dependendo da infraestrutura da empresa
A organização dos dados pode ser feita em uma simples planilha do Excel ou utilizando
ferramentas e aplicativos de mão-de-obra capazes de processar dados estatísticos. Os
dados devem ser organizados e categorizados com base nos requisitos de dados coletados
na primeira etapa do processo de análise de big data.
Limpeza dos dados – para realizar a análise de big data de forma suficiente e rápida, é
muito importante garantir que o conjunto de dados esteja isento de qualquer redundância e
erros. Somente um conjunto de dados completo que atenda aos requisitos de dados deve
ter prosseguido para a etapa de análise final. O pré-processamento de dados é necessário
para garantir que apenas dados de alta qualidade sejam analisados e que os recursos da
empresa sejam bem utilizados.
“Big data são ativos de informações de alto volume e alta velocidade e/ ou alta variedade
que exigem formas inovadoras e econômicas de processamento de informações que
permitem uma visão aprimorada, tomada de decisão e automação de processos”.
- Gartner
A análise de big data pode ser realizada usando uma ou mais das ferramentas listadas abaixo:
A análise de big data está envolvida em todos os negócios centralizados em decisões rápidas e ágeis para
se manter competitivo. Alguns dos vários tipos de
Machine Translated by Google
Saúde A
quantidade de dados gerados na área da saúde está disparando. Registros digitais de
pacientes, informações do provedor de seguro de saúde, vários planos de saúde oferecidos
pelos empregadores e outras informações pertinentes constituem big data e podem ser muito
tediosos de gerenciar. Com o advento da análise de big data, os profissionais de saúde
podem descobrir informações valiosas desses dados e usar essas informações para
desenvolver ferramentas de diagnóstico e opções de tratamento que salvam vidas e um
período muito mais curto em comparação com o seguimento de um protocolo padrão.
O equipamento hospitalar, a entrada e saída do paciente, o curso do tratamento administrado
e outras atividades relacionadas podem ser efetivamente rastreados em tempo real e
otimizados para fornecer um melhor atendimento ao paciente. Estima-se que cerca de US$
63 bilhões possam ser economizados em custos globais de saúde simplesmente tornando o
sistema de saúde apenas 1% mais eficiente, usando análise de big data.
As plataformas de
mídia social do setor de viagens geralmente servem como um diário de nossas vidas
digitais com dados facilmente acessíveis gerados pelos usuários que podem ser analisados
pela empresa para descobrir tendências de dados ocultos e extrair informações valiosas
sobre as expectativas e preferências do cliente. A indústria de viagens, incluindo hotéis e
companhias aéreas, usa análise de big data para entender como os clientes estão interagindo
com os produtos e serviços da empresa. Essas empresas estão sempre procurando maneiras
de aumentar seus resultados financeiros, aumentando a taxa de conversão de um cliente
em potencial em um consumidor pagante. Ao entender os clientes individuais, as empresas
podem prever seus planos de viagem futuros e tentar convencê-los a permanecer na
empresa, oferecendo descontos e pacotes de viagem personalizados.
Finança
É muito importante que as instituições financeiras e os bancos sejam muito ágeis e
Machine Translated by Google
ágil com seu processo de tomada de decisão à medida que se ajustam à economia
flutuante. Com a ajuda de poderosas ferramentas analíticas de big data, as empresas
podem extrair informações valiosas dos dados em um ritmo rápido, de modo a serem
incluídas no processo de tomada de decisão imediato. Ao eliminar ferramentas e sistemas
sobrepostos e redundantes, as empresas podem economizar muito dinheiro em custos
indiretos e aumentar sua eficiência operacional. Ter as informações necessárias
disponíveis imediatamente permite que bancos e instituições financeiras forneçam um
excelente atendimento ao cliente.
Manufatura Os
fabricantes de produtos frequentemente se deparam com problemas complexos de
gerenciamento da cadeia de suprimentos, bem como quebra de equipamentos e
problemas de falha. Na indústria de manufatura, as empresas são capazes de prever a
falha potencial do equipamento em um futuro próximo e planejar a manutenção do
equipamento com antecedência para aproveitar ao máximo a vida útil e a eficiência do
equipamento. Ao coletar e analisar todos os dados da cadeia de suprimentos pertencentes
à linha de produtos da empresa, usando ferramentas e algoritmos analíticos avançados,
as empresas podem identificar o caminho logístico ideal para seus produtos, bem como
fornecedores terceirizados que podem resultar em economia de custos. As empresas
também podem obter informações sobre novas oportunidades de redução de custos e
áreas de expansão que poderiam ter sido facilmente perdidas em um grande volume de dados.
Varejo
O cliente inteligente de hoje tem grandes expectativas dos varejistas para entender
com precisão a demanda do cliente e fornecer produtos e serviços que estejam de acordo
com essas expectativas. As empresas são obrigadas a ter uma compreensão sólida do
que o cliente deseja, como o produto deve ser comercializado e o melhor momento para
lançar um produto ditado pelas tendências atuais do mercado. Os insights do cliente
necessários para atingir esse objetivo só podem ser coletados usando a análise de big
data em todos os dados disponíveis do consumidor coletados de uma ampla variedade
de fontes, como persona do consumidor, histórico de compras, programas de fidelidade
do cliente, atividades de mídia social, interação do cliente com a empresa sites e outras
fontes de dados relacionadas. Cada empresa possui seu próprio banco de dados de
clientes e, dependendo das ferramentas analíticas e algoritmos aplicados ao seu big data
e das informações procuradas, elas podem facilmente liderar a concorrência aumentando
a fidelidade do cliente e alcançando uma alta taxa de conversão de clientes em potencial
em consumidores pagantes.
ferramentas compõem as armas mais importantes em seu arsenal. Essas primeiras empresas
digitais não podem sobreviver. A Amazon é líder em serviços altamente customizados e
personalizados oferecidos aos consumidores. A Amazon implantou amplamente a análise de
big data para usar todos os dados disponíveis para criar e fornecer perfis de clientes e oferecer
recomendações de produtos com base em seu histórico de pedidos, entre outros fatores
contribuintes. A enorme quantidade de dados disponíveis para o Google é inimaginável. Graças
a bilhões de pesquisas realizadas no mecanismo de pesquisa do Google; a empresa evoluiu
como uma das empresas mais intensivas em dados do mundo. Essa carga de dados requer
ferramentas analíticas de big data para fornecer informações valiosas ao Google que, por sua
vez, podem aprimorar e melhorar ainda mais nossas vidas digitais. O Facebook está
considerando o uso de análise de big data para obter informações sobre o que seus usuários
estão falando, a fim de entender em quais produtos e serviços eles estariam interessados. A
plataforma gratuita do Facebook ganha dinheiro com os milhões de anúncios patrocinados por
grandes e pequenas empresas portanto, é fundamental para a empresa entender o pulso de
seus usuários e garantir que os anúncios exibidos no site sejam atuais e personalizados para
atender às expectativas de cada usuário.
sempre com pouco tempo e precisam capturar muitos detalhes. Portanto, o analista de
dados é obrigado a usar visualizações eficazes que podem reduzir significativamente a
quantidade de tempo necessária para entender os dados apresentados e coletar
insights valiosos dos dados. Ao desenvolver uma variedade de apresentações visuais
a partir dos dados, um analista pode visualizar os dados de diferentes perspectivas e
identificar possíveis tendências de dados, discrepâncias, lacunas e qualquer coisa que
se destaque e justifique uma análise mais aprofundada. Esse processo é conhecido
como "analítica visual". Algumas das representações visuais amplamente usadas dos
dados são "relatórios de painel", "infográficos" e "história de dados". Essas
representações visuais são consideradas a entrega final do processo de análise de big
data, mas, na realidade, elas frequentemente servem como ponto de partida para
futuras atividades políticas. As duas atividades completamente diferentes de visualização
de dados e análise de big data são inerentemente relacionadas e se entrelaçam,
servindo como ponto de partida e também como ponto final da outra atividade.
questionário de revisão
Palavra chave
Machine Translated by Google
De acordo com o SAS, “os dados não estruturados sozinhos representam 90% do
universo digital”. Essa avalanche de big data não garante necessariamente mais
conhecimento. A aplicação da tecnologia de mineração de dados permite filtrar todo o
ruído de dados redundante e desnecessário para obter o entendimento de informações
relevantes que podem ser usadas no processo de tomada de decisão imediata.
Gerenciamento de risco de
crédito Instituições financeiras e bancos implementam ferramentas de modelos de
mineração de dados para prever a probabilidade de um possível cliente de cartão de
crédito não efetuar seus pagamentos de crédito no prazo, bem como para determinar o
limite de crédito apropriado ao qual o cliente pode se qualificar. Esses modelos de
mineração de dados coletam e extraem informações de uma variedade de fontes de
entrada, incluindo informações pessoais, histórico financeiro do cliente e dados demográficos, entre outra
O modelo então fornece a taxa de juros da instituição ou banco a ser cobrada do cliente
com base no risco avaliado. Por exemplo, os modelos de mineração de dados levam em
consideração a pontuação de crédito do requerente e os indivíduos com uma pontuação
de crédito baixa recebem altas taxas de juros.
Filtragem de
spam Muitos clientes de e-mail, como “Google mail” e “Yahoo mail”, dependem das
ferramentas de mineração de dados para detectar e sinalizar spam e malware de e-mail.
Ao analisar centenas e milhares de características compartilhadas de spams e malware, a
ferramenta de mineração de dados fornece informações que podem ser usadas no
desenvolvimento de medidas e ferramentas de segurança aprimoradas. Esses aplicativos
não são apenas capazes de detectar spam, mas também são muito eficientes em
categorizar os e-mails de spam e armazená-los em uma pasta separada, para que nunca
entrem na caixa de entrada do usuário.
Machine Translated by Google
Marketing
As empresas de varejo têm uma necessidade incessante de entender as demandas e
expectativas de seus clientes. Com o uso de ferramentas de mineração de dados, as
empresas podem analisar os dados relacionados ao cliente, como histórico de compras,
dados demográficos, sexo e idade, para coletar insights valiosos do cliente e segmentá-los
em grupos com base em atributos de compras compartilhados. As empresas, então,
elaboram estratégias e campanhas de marketing exclusivas para atingir grupos específicos,
como ofertas de desconto e promoções.
Análise de sentimentos
Com o uso de uma técnica chamada “mineração de texto”, as empresas podem analisar
seus dados de todas as suas plataformas de mídia social para entender o “sentimento” de
sua base de clientes.
“Netflix” comprou um algoritmo no valor de mais de um milhão de dólares para melhorar a precisão de
seu sistema de recomendação de vídeo, o que supostamente aumentou a precisão de recomendação para
“Netflix” em mais de 8%.
Os processos de mineração de dados mais amplamente usados podem ser divididos em seis etapas,
conforme listado abaixo:
4. Modelagem de dados
Modelos matemáticos aplicáveis e ferramentas analíticas são aplicadas ao
Machine Translated by Google
5. Avaliação Os
resultados da modelagem e os padrões de dados são avaliados em relação à meta e aos
objetivos do projeto para determinar se as descobertas dos dados podem ser liberadas para
uso em toda a organização.
6. Implantação
Uma vez que os insights coletados dos dados tenham sido avaliados como aplicáveis ao
funcionamento e operações da organização, esses insights podem ser compartilhados em
toda a empresa para serem incluídos em suas operações diárias. Com o uso de uma
ferramenta de Business Intelligence, as descobertas de dados podem ser armazenadas em
um local centralizado e acessadas usando a ferramenta de BI conforme necessário.
Redução de
custos Com a ajuda de tecnologias de mineração de dados, as empresas podem
maximizar o uso de seus recursos, alocando-os de maneira inteligente em todo o modelo de negócios.
O uso da tecnologia de mineração de dados no planejamento, bem como um processo
automatizado de tomada de decisão, resulta em previsões precisas que levam a reduções
significativas de custos. Por exemplo, uma grande companhia aérea “Delta” implementou
chips RFID dentro de suas bagagens despachadas de passageiros e coletou dados de
manuseio de bagagens que foram analisados usando tecnologia de mineração de dados
para identificar oportunidades de melhoria em seu processo e minimizar o número de
bagagens extraviadas. Isso não só resultou em economia de custos no processo de busca
e reencaminhamento da bagagem perdida, mas também se traduziu em maior satisfação
do cliente.
Percepções do
cliente Empresas de diferentes setores industriais implantaram modelos de mineração
de dados para coletar informações valiosas dos dados existentes do cliente, que podem
ser usados para segmentar e direcionar clientes com atributos de compra semelhantes
usando campanhas e estratégias de marketing semelhantes. As personas dos clientes
podem ser criadas usando a tecnologia de mineração de dados para fornecer uma
experiência de usuário mais envolvente e personalizada ao cliente. Por exemplo, a “Disney”
investiu recentemente mais de bilhões de dólares no desenvolvimento e implantação de
“bandas mágicas”, oferecendo conveniência e experiência aprimorada nos resorts Disney.
Ao mesmo tempo, essas bandas podem ser usadas para coletar dados sobre as atividades
e interações dos clientes com diferentes produtos e serviços “Disney” no parque para
aprimorar ainda mais a “experiência Disney”.
“Quando [a mineração de dados e] a análise preditiva são feitas corretamente, as
análises não são um meio para um fim preditivo; em vez disso, as previsões desejadas
tornam-se um meio de percepção e descoberta analítica. Fazemos um trabalho melhor
analisando o que realmente precisamos analisar e prevendo o que realmente queremos
prever”.
– Relatório do Harvard Business Review Insight Center
1. Big data
Nossa vida digital inundou empresas com grandes volumes de dados, estimados em
1,7 MB por segundo por pessoa até 2020. Isso
Machine Translated by Google
A “velocidade” disparada ou velocidade na qual novos dados estão sendo gerados representa
um desafio de aumentar os requisitos de armazenamento. A “variedade” ou diferentes tipos
de dados coletados e armazenados requerem recursos avançados de mineração de dados
para poder processar simultaneamente uma infinidade de formatos de dados.
As ferramentas de mineração de dados que não estão equipadas para processar big data
altamente variáveis fornecem baixo valor, devido à sua ineficiência e à análise conjunta de
dados não estruturados e estruturados.
O grande volume de big data não é apenas desafiador para armazenamento, mas é ainda
mais desafiador para identificar dados corretos em tempo hábil, devido a uma redução maciça
na velocidade das ferramentas e algoritmos de mineração de dados. Para aumentar esse
desafio, a “veracidade” dos dados denota que todos os dados coletados não são precisos e
podem ser incompletos ou até tendenciosos. As ferramentas de mineração de dados estão
lutando para fornecer resultados de alta qualidade em tempo hábil, analisando grandes
quantidades ou big data.
2. Modelos de sobrecarga
Os modelos de dados que descrevem os erros naturais do conjunto de dados, em vez
dos padrões subjacentes, costumam ser “superajustados” ou sobrecarregados. Esses
modelos tendem a ser altamente complexos e o coro, um grande número de mídias
independentes, joga para prever com precisão um evento futuro. O volume e a variedade de
dados aumentam ainda mais o risco de sobrecarga. Um grande número de variáveis tende a
restringir o modelo de dados dentro dos limites dos dados de amostra conhecidos. Por outro
lado, um número insuficiente de variáveis pode comprometer a relevância do modelo. Obter
o número necessário de variáveis para os modelos de mineração de dados, para conseguir
um equilíbrio entre a precisão dos resultados e as capacidades de previsão é um dos maiores
desafios enfrentados pela tecnologia de mineração de dados hoje.
Machine Translated by Google
Padronização de linguagem A
comunidade de ciência de dados está procurando ativamente padronizar uma linguagem para o
processo de mineração de dados. Esse esforço contínuo permitirá que o analista trabalhe
convenientemente com uma variedade de plataformas de mineração de dados, dominando uma
linguagem padrão de mineração de dados.
Mineração científica
O sucesso da tecnologia de mineração de dados no mundo industrial chamou a atenção da
comunidade de pesquisa científica e acadêmica. Por exemplo, psicólogos estão usando “análise de
associação” para capturá-la e identificar padrões de comportamento humano para fins de pesquisa.
Os economistas estão usando algoritmos de análise de proteção para prever as tendências futuras
do mercado, analisando as variáveis atuais do mercado.
Mineração da
Web A mineração da Web pode ser definida como “o processo de descoberta de padrões e cadeias
de dados ocultos usando técnicas similares de mineração de dados e aplicando-as diretamente na
Internet”. Os três principais tipos de mineração na web são: “mineração de conteúdo”, “mineração
de uso” e “mineração de estrutura”. Por exemplo, a “Amazon” usa mineração na web para obter uma
compreensão das interações do cliente com seu site e aplicativo móvel, para fornecer uma
experiência de usuário mais envolvente e aprimorada para seus clientes.
Orange
Orange é um “software baseado em componentes de código aberto escrito em Python”.
Ele é usado com mais frequência para análise básica de mineração de dados e oferece recursos
de pré-processamento de dados de primeira linha.
RapidMiner
RapidMiner é um “software baseado em componentes de código aberto escrito em Java”. É
usado com mais frequência para “análise preditiva” e oferece ambientes integrados para “aprendizado
de máquina”, “aprendizagem profunda” e “mineração de texto”.
Machine Translated by Google
Mahout
Mahout é uma plataforma de código aberto usada principalmente para o processo de
aprendizado não supervisionado” e desenvolvida pela “Apache”. É usado com mais
frequência para desenvolver “algoritmos de aprendizado de máquina para agrupamento,
classificação e filtragem colaborativa”. Este software requer conhecimento e experiência
avançados para poder aproveitar todos os recursos da plataforma.
MicroStrategy O
MicroStrategy é um “software de business intelligence e análise de dados que pode
complementar todos os modelos de mineração de dados”. Essa plataforma oferece uma
variedade de drivers e gateways para conectar-se perfeitamente a qualquer recurso
corporativo e analisar big data complexos, transformando-os em visualizações acessíveis
que podem ser facilmente compartilhadas em toda a organização.
Machine Translated by Google
Aprendizado conjunto
Árvores de decisão
Se você está pensando se esta árvore de decisão tem alguma relação com as árvores
da vida real, então você está correto. Uma árvore tem poucas partes fundamentais,
principalmente galhos, folhas, tronco e raízes. Da mesma forma, uma árvore de decisão
possui vários elementos para ajudar no processo de tomada de decisão. Uma “árvore de
decisão” da ciência de dados pode ser definida como uma representação gráfica
semelhante a uma árvore do processo de tomada de decisão, levando em consideração
todas as condições ou fatores que podem influenciar a decisão e as consequências
dessas decisões. As árvores de decisão são consideradas um dos “algoritmos de
aprendizado de máquina supervisionado” mais simples e possuem três elementos
principais: “nós de ramificação” representando condições, “bordas” representando o
processo de decisão em andamento e “nós de folha” representando o final da decisão.
“nó folha” da sua árvore de decisão. Ao contrário dos “nós de ramificação”, não há mais
bifurcações possíveis a partir de um “nó de folha”.
Como seria de esperar de uma árvore de decisão, você obteve um “modelo que
representa um conjunto de decisões sequenciais e hierárquicas que, por fim, levam a
alguma decisão final”. Este exemplo está em um nível muito alto para ajudá-lo a desenvolver
uma compreensão do conceito de árvores de decisão. As árvores de decisão de ciência de
dados e aprendizado de máquina são muito mais complicadas e maiores, com centenas e
milhares de nós de ramificação e arestas. A melhor ferramenta do mercado para visualizar
e entender as árvores de decisão é o “Scikit Learn”. Os modelos de árvore de decisões de
aprendizado de máquina podem ser desenvolvidos usando duas etapas: “Indução” e “Poda”.
Indução
Nesta etapa, as árvores de decisão são realmente desenvolvidas selecionando e
modelando todos os limites de decisão sequenciais e hierárquicos com base no conjunto de
dados existente. Para sua facilidade de compreensão, aqui estão 4 etapas de alto nível
necessárias para desenvolver a árvore:
Poda O
propósito inerente das árvores de decisão é dar suporte ao treinamento e autoaprendizagem
do sistema, o que muitas vezes requer a sobrecarga de todas as condições possíveis e fatores
influenciadores que podem afetar o resultado final. Para superar o desafio de definir a saída
correta para o menor número de instâncias por nó, os desenvolvedores fazem uma “aposta
segura” ao se contentar com esse “menor número” como bastante pequeno. Isso resulta em
um alto número de bifurcações necessárias, tornando a árvore de decisão muito complexa e
grande. É aqui que entra a “poda de árvores”. O verbo “prune” significa literalmente “reduzir
especialmente pela eliminação de matéria supérflua”. Este é o mesmo tipo de conceito retirado
da poda de árvore da vida real e aplicado ao processo de poda de árvore de decisão de
ciência de dados e aprendizado de máquina. O processo de poda reduz efetivamente a
complexidade geral da árvore de decisão “transformando e comprimindo limites de decisão
estritos e rígidos em limites generalizados e suaves”. O número de bifurcações nas árvores
de decisão determina a complexidade geral da árvore. O método de poda mais fácil e
amplamente utilizado é revisar os nós de ramificação individuais e avaliar o efeito de sua
remoção na função de custo da árvore de decisão. Se a função de custo tiver pouco ou
nenhum efeito da remoção, o nó da ramificação em revisão pode ser facilmente removido ou
“podado”.
floresta aleatória
random_state = 0)
regressor.fit (X.reshape (-1, 1), y.reshape (-1, 1))”
Scikit-Learn
“NumPy” é o pacote básico com Python para realizar cálculos científicos. Ele inclui, entre
outras coisas: “um poderoso objeto de matriz N-dimensional; funções sofisticadas
(transmissão); ferramentas para integração de código C/C++ e Fortran; álgebra linear útil,
transformada de Fourier e recursos de números aleatórios”. O predecessor do NumPy
chamado "Numeric" foi inicialmente desenvolvido por Jim Hugunin. Em 2005, Travis Oliphant
desenvolveu o "NumPy" integrando as funcionalidades do "Numarray" no "Numeric" e fazendo
melhorias adicionais nele. O NumPy é amplamente reconhecido como um contêiner
multidimensional eficaz de dados genéricos, além de seus aparentes usos científicos. É
possível definir tipos de dados arbitrários. Isso permite que o NumPy se integre a uma ampla
variedade de bancos de dados de maneira perfeita e rápida. O NumPy auxilia a "implementação
de referência CPython" do Python, que é um "interpretador de bytecode não otimizador".
reescrevendo o código pertencente aos loops internos usando NumPy.
array deve ser do mesmo tipo”. Tais arrays também podem ser "visualizações de buffers de
memória atribuídos ao interpretador CPython por extensões C/C++, Cython e Fortran sem a
necessidade de copiar dados", tornando-os compatíveis com as bibliotecas numéricas atuais. O
"pacote SciPy" que incorpora um Muitas dessas bibliotecas (particularmente "BLAS" e "LAPACK")
utilizam esse recurso. O NumPy também oferece suporte integrado para "ndarrays mapeados
em memória".
a = np.array([1, 2, 3])
print(type(a))
print(a.shape)
print(a[0], a[1], a[2]) a[0] =
5 imprimir(a)
b = np.array([[1,2,3],[4,5,6]])
print(b.shape)
print(b[0, 0], b[0, 1], b[1, 0])"
Agora, se você quiser indexar os “arrays NumPy”, comece dividindo o “array” multidimensional
em uma dimensão com o código abaixo:
Isso resultará em uma “sub-matriz” da “matriz NumPy” original, mas se você quiser gerar
uma “matriz arbitrária”, poderá fazê-lo utilizando a “indexação de matriz inteira” que permite a
geração de matrizes arbitrárias com
Machine Translated by Google
x = np.array([[1,2],[3,4]], dtype=np.float64) y =
np.array([[5,6],[7,8]], dtype=np. float64)
imprimir(x + y)
imprimir(np.add(x, y))
print(x - y)
print(np.subtract(x, y))
print(x * y)
print(np.multiply(x, y))
print(x / y)
print(np.divide(x, y))
print(np.sqrt(x))"
kits de ferramentas podem ser usados com matplotlib. O Matplotlib tenta simplificar ainda mais as
tarefas fáceis e tornar as tarefas difíceis viáveis. Com apenas algumas linhas de código, você pode
produzir trilhas, histogramas, gráficos de dispersão, gráficos de barras, gráficos de erros, etc.
Uma interface semelhante ao MATLAB é fornecida para facilitar a plotagem do módulo Pyplot,
especialmente quando acoplado ao IPython. Como um usuário avançado, você pode regular todos
os estilos de linha, propriedades de fontes e propriedades de eixo por meio de uma interface
orientada a objetos ou uma coleção de recursos semelhantes aos fornecidos aos usuários do
MATLAB.
Os Pandas fornecem estruturas de dados de alto nível altamente intuitivas e fáceis de usar.
"Pandas" alcançou popularidade na comunidade de desenvolvedores de algoritmos de aprendizado
de máquina, com técnicas integradas para agregação, agrupamento e filtragem de dados, bem
como resultados de análises de séries temporais.
A biblioteca Pandas tem duas estruturas primárias: "Séries" unidimensionais e "Quadros de Dados"
bidimensionais.
Alguns dos principais recursos fornecidos por “Pandas” estão listados abaixo:
Pandas DataFrame É
definido como uma “estrutura de dados rotulada em 2-D com colunas de um tipo potencialmente
diferente”. Ele tem uma grande semelhança com a planilha do Excel, conforme mostrado na figura abaixo,
com vários recursos semelhantes para análise, modificação e extração de informações valiosas dos
dados. Você pode criar um “Pandas DataFrame” inserindo conjuntos de dados de “Excel”, “CSV” e “banco
de dados MySQL” entre outros.
Machine Translated by Google
Por exemplo, na figura acima assuma que “Chaves” são representadas pelo
nome das colunas e “Valores” são representados pela lista de itens naquela coluna,
um “dicionário Python” pode ser usado para representar isso conforme mostrado
no código abaixo:
"my_dict =
{ 'nome': ["a", "b", "c", "d", "e"“,f", "g"], 'idade':
[20,27, 35, 55 , 18, 21, 35],
'designação': ["VP", "CEO", "CFO", "VP", "VP", "CEO", "MD"]
}"
O “Pandas DataFrame” pode ser criado a partir deste dicionário usando o código
abaixo:
Se você quiser definir valores de índice para as linhas, terá que adicionar
o parâmetro “index” na cláusula “DataFrame ( )” conforme mostrado abaixo:
Para obter índices “string” para os dados em vez de numéricos, use o código abaixo:
Agora, como esses valores de índice são uniformes, você pode executar o código abaixo
para utilizar os “arrays NumPy” como valores de índice:
"np_arr = np.array([10,20,30,40,50,60,70]) df =
pd.DataFrame(my_dict, index=np_arr)"
Você pode usar o código abaixo para visualizar seletivamente o registro ou as linhas
disponíveis no “Pandas DataFrame”, usando a função “head ( )” para as cinco primeiras linhas
e a função “tail ( )” para as últimas cinco linhas. Por exemplo, use o código abaixo para visualizar
as 3 primeiras linhas dos dados:
Pandas Series
Pode ser definido como um "array rotulado unidimensional capaz de conter dados de
qualquer tipo (inteiro, string, flutuante, objetos python)”. Simplificando, é como uma coluna em
uma planilha do Excel. Para gerar um “ Pandas Series” de um array, um módulo “NumPy” deve
ser importado e utilizado com a função “array()”, conforme o código abaixo:
"ser = pd.Series(data)
print(ser)"
Caderno Jupyter
Para poder usar o JN, você pode simplesmente instalar o pacote de ciência de
dados “Anaconda”, que contém algumas das mais poderosas bibliotecas e
ferramentas baseadas em Python, incluindo Matplotlib, Pandas e NumPy. Você
pode baixar a versão mais recente desta ferramenta no site oficial “Anaconda
Cloud” e seguir o guia passo a passo para obter instruções de instalação. Se você
já possui o Python instalado em seu sistema operacional, pode executar o arquivo
pip abaixo para operar o JN:
A célula na primeira posição de qualquer notebook é padronizada para ser uma célula de código.
Vejamos o código abaixo para exibir o texto desejado digitando-o na primeira célula e clicando
no botão “Executar” na barra de ferramentas.
À medida que o código é executado, o rótulo à esquerda será modificado de “In [ ]” para “In
[1]” e a saída será adicionada ao notebook. O “In” do rótulo pertence à entrada e o valor
numérico do rótulo indica a posição na qual a célula passou pela execução no kernel. Isso
denota a principal diferença entre as células de código (sem rótulo) e as células de marcação
(contêm um rótulo à esquerda). Se o código for executado novamente, o rótulo mudará para “In
[2]”.
As células que estão sendo executadas terão uma borda azul ao seu redor; por outro lado,
as células ativas que estão sendo editadas terão uma borda verde em volta delas. Para a
criação de qualquer nova célula de código, você pode clicar em “Inserir” na barra de menu,
depois clicar em “Inserir célula abaixo” e escrever qualquer código que você gostaria de
executar. Por exemplo, se você executar o
Machine Translated by Google
código abaixo nenhuma saída será produzida, mas o rótulo da célula será alterado para “In [*]”
indicando que a célula está atualmente em execução (leva 4 segundos conforme especificado).
importar tempo
time.sleep (4)
Markdown é uma linguagem de marcação que permite formatar texto simples usando uma
sintaxe semelhante às tags HTML (Hypertext Markup Language). O código de amostra abaixo no
Jupyter Notebook foi escrito em células de marcação.
# Title Text 1 ##
Subtitle Text 2 Você
pode digitar o texto simples desejado que será exibido como um parágrafo.
Você pode formatar o texto a ser exibido como itálico ou negrito.
Cada conjunto de código dividido por uma linha vazia formará um parágrafo separado.
Você poderá incluir listas.
Recue a lista usando *.
Use números para gerar listas ordenadas.
1. Esta pode ser a lista 1.
2. Esta pode ser a lista 2.
Você também pode incluir hiperlinks escrevendo-os como [hyperlink] (web url)
Códigos embutidos terão aspas simples.
O bloco de códigos será escrito entre aspas triplas.
Imagens podem ser adicionadas, por exemplo! [Texto da imagem] (url da web da imagem)
Depois que esse código for executado, o parágrafo acima será a saída resultante. Você
também pode adicionar a imagem ao notebook usando um URL local da imagem ou como um
anexo clicando no botão “Editar” e selecionando “Inserir imagem” para converter a imagem em
texto de marcação que será salvo no “.ipynb " arquivo.
O código acima irá importar o pacote NumPy, e uma função será definida. Uma vez que este
código foi executado, você pode referenciar as funções “np” e “square” através de qualquer célula
do notebook usando o código abaixo:
1. Reiniciar – Isso permitirá que você reinicie o kernel para que você
ser capaz de limpar todas as variáveis predefinidas e outras entradas.
2. Reiniciar e limpar a saída – Isso executará todas as funções de
reinicialização, bem como a saída mostrada abaixo das células de código.
Um grande número de kernels está disponível para várias versões do Python e várias
linguagens de programação, como C, Java e muitas outras. Cada kernel terá seu próprio conjunto
de diretrizes de instalação que você pode seguir facilmente e executar os comandos necessários
com sucesso.
Machine Translated by Google
De acordo com a SAS, a análise do cliente pode ser definida como “processos e
tecnologias ruins dão às organizações a visão do cliente necessária para entregar
ofertas antecipadas, relevantes e oportunas”. A análise do cliente está no centro de
todas as atividades de marketing e é um termo abrangente usado para técnicas como
“modelagem preditiva”, “visualização de dados”, “gerenciamento de informações” e
“segmentação”. A jornada de ponta a ponta de um cliente em potencial, desde o
momento em que ele conhece ou toma conhecimento do produto da empresa até o
eventual gasto de dinheiro para fazer uma compra, é chamada de “marketing e funil de
vendas”. É uma representação visual de várias rotas percorridas e etapas percorridas
pelo cliente para ser convertido em um comprador do produto. Ao avaliar
cuidadosamente seu funil de marketing e vendas, as empresas podem aumentar suas
vendas, aumentar o reconhecimento de sua marca e conquistar clientes mais fiéis.
as escolhas normais de produtos que eles podem ter usado por anos. Isso resultou em
uma modificação no funil de marketing com gurus de marketing propondo estágios
adicionais para o final, ou seja, “Lealdade” e “Defesa” para melhorar sua estratégia geral
de marketing. Estima-se que “as empresas percam até US$ 1,6 trilhão por ano quando
seus clientes existentes as abandonam”.
“As percepções derivadas de nossos novos recursos analíticos estão nos permitindo
Machine Translated by Google
As empresas estão sempre procurando crescer e otimizar seu processo de vendas, levando
em consideração todos os fatores que influenciam, como o desempenho de sua equipe de
vendas e marketing, seu pipeline de vendas e, mais importante, seu funil de vendas e marketing.
O processo de análise da taxa de conversão entre os diferentes estágios do funil de vendas e
marketing é chamado de “análise do funil de vendas”. As empresas iniciam sua análise
principalmente no topo do funil e descem enquanto calculam as taxas de conversão entre os
estágios subsequentes. Algumas das ferramentas de análise de funil de vendas mais usadas são:
“Google Analytics” – Como seria de esperar, a plataforma “Google Analytics” é top de linha
com recursos integrados de análise de funil de vendas. Ele permite que as empresas entendam
as interações e o envolvimento dos clientes com seu conteúdo online e aplicativos móveis,
visualizando painéis e relatórios robustos. Os recursos de aprendizado de máquina dessa
plataforma podem ser usados para prever qual cliente tem mais probabilidade de converter em
um comprador pagante e qual cliente tem potencial para gerar maior
receita.
“Hotjar” – Os funis “Hotjar” são usados principalmente para gerar mapas de calor para o
tráfego do site, mas também fornecem métricas de funil integradas. É altamente personalizável
e capaz de atualizar automaticamente os dados do funil a cada hora.
“Depois de analisar muitas gravações, mapas de calor e obter feedback das pesquisas,
tivemos uma boa ideia do que nossos usuários queriam e passamos de cerca de 80 mil
membros para mais de 150 mil. Hotjar era um grande pedaço de
Machine Translated by Google
esse redesenho”.
- Inbound.org
“Com o Autofunnel, você pode promover, vender e entregar seus produtos online com
funis de vendas simples e eficazes. Venda qualquer coisa – um produto físico, ebook, um
curso online – qualquer coisa. Envie tráfego diretamente para sua página de vendas com
o funil de vendas rápido ou alimente novos contatos com e-mails automatizados antes de
apresentar sua oferta com o funil de vendas completo”.
- Obter resposta
Alguns dos modelos de análise preditiva mais comuns usados e esta aplicação
são “análise de afinidade”, “análise de rotatividade” e “modelagem de resposta”.
Usando esses aplicativos, as empresas podem obter informações como “se combinar
assinaturas digitais e impressas de suas ofertas de produtos ou catálogos é uma
boa ideia” ou “se seu produto ou serviço terá mais sucesso se oferecido como um
modelo de assinatura mensal ou compra única taxa". Uma das principais empresas
de plataforma de vendas e marketing é a “Salesforce”, que oferece uma plataforma
baseada em nuvem que pode ser usada por empresas para gerar perfis de clientes
como um produto dos dados coletados de fontes independentes, incluindo aplicativos
de gerenciamento de relacionamento com clientes (CRM) e outras aplicações da
empresa. Ao adicionar dados inseridos de forma seletiva e consciente a esta
plataforma, as empresas podem rastrear perfeitamente o comportamento de seus
clientes para desenvolver um modelo comportamental de cliente ao longo do tempo
que pode alimentar o processo de tomada de decisão da empresa em tempo real e a longo prazo.
Desenvolvimento de estratégias de
marketing Outra aplicação de análise preditiva e marketing é fornecer acesso a
uma variedade de dados relacionados ao cliente, como dados coletados de
plataformas de mídia social e dados estruturados internos da própria empresa. O
modelo comportamental do cliente pode então ser gerado reunindo todos os dados
disponíveis e aplicando “pontuação comportamental” nele.
Os dados do cliente coletados no banco de dados formam uma matriz retangular com
colunas individuais para “identificador de assunto”, “variável de resultado” e “variável
explicativa”. É bastante desafiador olhar para uma planilha preenchida com valores numéricos
e determinar informações importantes dos dados e é aqui que as técnicas de análise
exploratória de dados são usadas para exibir seletivamente os caracteres importantes dos
dados. Existem quatro tipos de técnicas de análise exploratória de dados:
marketing personalizado
e necessidades que podem ser atendidas por meio de recomendações precisas de produtos.
Aqui estão algumas aplicações industriais de marketing personalizado:
Direcionamento
de anúncios As empresas podem direcionar anúncios para um usuário específico ou um
segmento de clientes com base em seus atributos de compras, como visualizações recentes
de um determinado produto ou categoria e histórico de compras. Alguns dos aplicativos de
segmentação de anúncios disponíveis no
mercado são: “ReFUEL4” – O “Ad Analyzer”, desenvolvido pela empresa de marketing
“ReFUEL4”, utiliza recursos visuais do computador para prever o desempenho do anúncio.
Se o desempenho do anúncio existente da empresa começar a diminuir, o analisador de
anúncios poderá ajudar a empresa a desenvolver um anúncio novo e melhor. A queda no
desempenho do anúncio normalmente indica fadiga do público, quando as pessoas param
de prestar atenção ao anúncio porque ele se tornou muito familiar e desinteressante.
Mensagens personalizadas
O aspecto mais importante das mensagens personalizadas é o marketing contextual.
Para garantir que mensagens relevantes sejam enviadas ao público-alvo, as empresas
coletam dados dos clientes, incluindo seu comportamento, histórico de visualizações de
páginas da web, conteúdo preferido, postagens em mídias sociais e dados demográficos,
entre outras variáveis. Alguns dos aplicativos de mensagens personalizadas disponíveis no
mercado são:
“Rendimento dinâmico” – A solução de e-mail fornecida pela empresa usa dados
comportamentais do cliente, como histórico de pedidos, cliques em e-mail, atividade de mídia
social, entre outros recursos, para gerar conteúdo de e-mail personalizado para clientes
individuais. A solução de e-mail fornece modelos de e-mail dinâmicos que podem ser
facilmente personalizados para refletir mensagens relevantes. Este aplicativo é usado em
vários domínios industriais, incluindo viagens, comércio eletrônico,
Machine Translated by Google
Recomendações de
produtos A leitura mais fácil e inteligente para qualquer empresa expandir
seus negócios é fornecer recomendações precisas de produtos que sejam
relevantes para as necessidades e demandas do cliente. As empresas também
podem reduzir o volume e a frequência das devoluções de produtos, ao mesmo
tempo em que aumentam sua receita por meio de novos produtos, compras
repetidas e redirecionamento para atrair novos clientes em potencial e aumentar
a fidelidade do cliente. Alguns dos
aplicativos de recomendações de produtos disponíveis no mercado são:
“Recombee” – Este aplicativo é baseado em algoritmos avançados de
aprendizado de máquina que são capazes de gerar recomendações em “200
milissegundos da atividade do cliente”. A empresa afirma que seu aplicativo pode
gerar mais de 500 recomendações por segundo, empregando uma combinação
de “algoritmos de filtragem colaborativos” desenvolvidos para análise
comportamental do cliente e “algoritmos baseados em conteúdo” para analisar
títulos e descrições de produtos. A cada interação humana, os algoritmos de
aprendizado se aprimoram e continuam a refinar as recomendações com uso
iterativo pelo cliente. Esta aplicação é amplamente utilizada na indústria imobiliária,
quadros de empregos, anúncios classificados, indústria de jogos, indústria de viagens e indústr
“Sentient Aware” – O mecanismo de recomendação de produtos oferecido
pela “Sentient Aware” analisa a atividade visual e as interações comportamentais
do consumidor para ativar os “algoritmos de aprendizado profundo” no site da
empresa. Este aplicativo utiliza “algoritmos orientados por intenção e curadoria”
para identificar produtos similares e o catálogo da empresa para gerar previsões sobre
Machine Translated by Google
Sites dinâmicos
Um site que pode atender às preferências individuais de cada cliente em
tempo real, alterando dinamicamente seu conteúdo, que é conduzido por scripts
subjacentes, é chamado de “site dinâmico”. As tarefas repetitivas, incluindo
marcação de fotos e renderização de fotos, são realizadas usando tecnologias
de inteligência artificial, como “reconhecimento de imagem” e “aprendizado de
máquina”. Alguns dos aplicativos de sites dinâmicos disponíveis no mercado
hoje são:
“Bookmark” – A empresa “Bookmark” aplicou com sucesso a tecnologia de
aprendizado de máquina ao design da web. A empresa afirma que seu “AI
Design Assistant” ou (AIDA) pode criar sites personalizados pertencentes a
vários elementos, seções e imagens do site, bem como o design geral da web
que deve aparecer no site com base nas informações específicas do setor da
empresa. O “AIDA” é capaz de pesquisar na Internet para obter mais informações
sobre a empresa cliente, realizando uma pesquisa sobre a localização do nome
da empresa e o tipo de negócio. Este aplicativo coleta informações sobre o
comportamento e a atividade do cliente nas mídias sociais e analisa essas
informações para determinar os melhores elementos e design do site para a
plataforma de comércio eletrônico da empresa.
“LiftIgniter” – O sistema dinâmico de recomendação de sites desenvolvido
pela “LiftIgniter”, pode ser diretamente integrado às plataformas de comércio
eletrônico do cliente on-line e em aplicativos móveis e é conduzido pelo
algoritmo de aprendizado de máquina chamado “infraestrutura de algoritmos
multivariados paralelos verdadeiros”. Esse sistema integrado aprende com as
interações do cliente com as plataformas de e-commerce e analisa todo o
conteúdo online da empresa para exibir produtos recomendados em 150
milissegundos, nos quais o cliente possa estar interessado, com base em sua
atividade em tempo real na plataforma.
Machine Translated by Google
conteúdo extra
Python Data Science: Uma introdução prática à análise de big data e mineração de
dados, um guia baseado em projeto com exercícios práticos (Livro 3) foi estruturado
como um curso de 7 dias com sete capítulos (um por dia), para orientar o leitor em uma
jornada pelo imenso mundo do Python.
Visão geral detalhada do Django, que é uma estrutura da Web popularmente usada no
desenvolvimento de programas e aplicativos baseados na Web. Você aprenderá como
instalar o Django em seu computador e seguir as instruções de codificação passo a passo
para desenvolver seu próprio programa baseado na Web e aplicativo de anotações.
Aqui está uma rápida visão geral de alguns dos computadores mais populares
linguagens de programação.
C
A linguagem C pode ser definida como uma linguagem de programação de nível médio,
orientada a estrutura (as funções são armazenadas como uma unidade independente),
amplamente utilizada no desenvolvimento de aplicativos de “baixo nível” (relativo a hardware
Machine Translated by Google
C++
Desenvolvido em 1983 como uma extensão da linguagem C, o C++ pode ser
definido como uma linguagem de programação orientada a objetos (agrupamento de
funções e conjuntos de dados associados em um objeto), de “nível médio” (interagindo
com a camada de programação do computador) que pode ser usado para o
desenvolvimento de software de uso geral. Ele permite codificar em sintaxe semelhante
à da linguagem C, tornando o C++ um exemplo perfeito de uma “linguagem híbrida”. A
linguagem C++ com uma biblioteca padrão robusta e mecanismo de processamento e
compilação rápidos (STL), é usada para desenvolver vários conjuntos de aplicativos
como “Microsoft Office”, ferramentas de edição gráfica, editores de vídeo, pacotes de
jogos e até sistemas operacionais inteiros. O sistema operacional “BlackBerry” e o
mais recente pacote Microsoft Office são desenvolvidos inteiramente na linguagem C++.
C#
Em 2000, a Microsoft lançou o C# (pronuncia-se C-sharp) como parte de sua
estrutura .Net, que foi desenvolvida usando outras linguagens como C, C++ e Java
como base fundamental. Em 2003, o C# tornou-se uma linguagem de programação
multiparadigma certificada pela ISO com recursos poderosos, incluindo alta
funcionalidade, orientação a objetos, imperatividade, atributos declarativos e orientação
a componentes. Os desenvolvedores usam muito o C# para escrever códigos para os
aplicativos XML de serviços da Web, bem como aplicativos conectados ao Microsoft .Net
para o sistema operacional Windows. A linguagem C# é a linguagem de programação
para aplicativos da Microsoft e a linguagem de escolha para o Windows Presentation
Foundation (WPF). Com a introdução do .Net Standard e do .Net Core, o
ecossistema .Net evoluiu para estruturas e padrões multiplataforma, capazes de rodar
em Windows, Linux e Mac.
A linguagem C# é ideal para iniciantes e possui recursos semelhantes aos do Java. É
uma linguagem de programação de alto nível com alta similaridade com a leitura da
língua inglesa, tornando-a fácil de aprender e usar. Ainda não é tão de alto nível e fácil
de aprender para iniciantes quanto o Python. O desenvolvimento de jogos é outro
aplicativo populacional para a linguagem C#, considerada a linguagem de escolha para
desenvolver e aprimorar jogos no “Unity Game Engine”. Os desenvolvedores podem
escrever aplicativos Android e iOS em C# usando a estrutura Microsoft Xamarin.
Java
Java, agora propriedade da Oracle, foi introduzido em 1991 pela Sun Microsystems
como uma linguagem gerenciada de memória de alto nível chamada “Oak” para
adicionar recursos à linguagem C++. É a principal linguagem e estrutura de
desenvolvimento com recursos como uso geral e orientação a objetos, tornando-a ideal
para o desenvolvimento de aplicativos baseados na web. O Java é executado com
base no princípio WORA (Write Once Run Anywhere) e possui capacidade de
plataforma cruzada, tornando-o ideal para o desenvolvimento de aplicativos móveis e
de jogos no nível corporativo.
O Java Server Pages (JSP) é usado para desenvolver aplicativos baseados na web.
Java permite que os aplicativos sejam acessados por meio de um navegador e
facilmente baixados. O código de byte Java é compilado a partir da linguagem Java e
executado na Java Virtual Machine (JVM).
Machine Translated by Google
Essas JVMs estão disponíveis para a maioria dos sistemas operacionais, como Windows e Mac.
Alguns programas desenvolvidos em Java são Eclipse, Lotus Notes, Minecraft, Adobe Creative Suite
e open office.
O sistema operacional Android do Google e o desenvolvimento de aplicativos são impulsionados
principalmente pelo Java. É uma linguagem robusta e interpretada com alta portabilidade de aplicativos,
extensa biblioteca de rede e gerenciamento automático de memória.
JavaScript
Devido à semelhança no nome, as pessoas geralmente assumem que existe uma conexão
subjacente com o Java, mas isso está longe de ser verdade. O JavaScript foi desenvolvido em 1995
pela empresa Netscape e chamado de “LiveScript”.
O JavaScript processa comandos no computador em vez de em um servidor e é executado dentro de
um navegador cliente. É usado principalmente no desenvolvimento da Web para tornar as páginas da
Web mais dinâmicas e manipular vários elementos, como: criar uma funcionalidade de calendário,
imprimir hora e data, adicionar recursos de rolagem da página da Web e outros recursos que não
podem ser desenvolvidos usando HTML simples.
O servidor da Web chamado NodeJS é executado inteiramente em JavaScript no lado do servidor.
O JavaScript é frequentemente usado por desenvolvedores front-end da Web e desenvolvedores de
jogos em vários domínios, como marketing, tecnologia da informação, engenharia, saúde e finanças.
Uma agência britânica chamada Cyber-Duck foi desenvolvida com JavaScript e usa APIs públicas
para acessar dados relacionados ao crime e permitir que as autoridades revisem e protejam áreas
locais. Pete Smart e Robert Hawkes criaram o “Tweetmap”, que serve como uma representação do
mapa-múndi proporcional ao número de “tweets” gerados por cada país. Os recursos fundamentais
do JavaScript são considerados relativamente fáceis de entender e dominar. Uma biblioteca JavaScript
abrangente chamada “JQuery” contendo vários frameworks é amplamente utilizada pelos
desenvolvedores como referência.
Python O
Python foi introduzido pela primeira vez em 1989 e é considerado uma linguagem de programação
extremamente amigável e fácil de aprender para amadores e codificadores iniciantes.
É considerado perfeito para pessoas que recentemente se interessaram por programação ou
codificação e precisam entender os fundamentos da programação. Isso emana do fato de que o
Python lê quase como o idioma inglês. Portanto, requer menos tempo para entender como o idioma
funciona e o foco pode ser direcionado no aprendizado do básico de
Machine Translated by Google
programação.
Aqui estão alguns dos elementos fundamentais da linguagem de programação de
computadores:
e entender melhor a conexão entre "Y" e "X". Agora, "f" não é considerado uma caixa
preta, pois temos que entender o processo subjacente do sistema. Isso é chamado de
"inferência". Na vida cotidiana, várias questões podem ser categorizadas na configuração
de "previsões", na configuração de "inferências" ou em um "híbrido" dos dois.
A “técnica paramétrica” pode ser definida como uma avaliação de “f” calculando os
parâmetros definidos (resumo finito dos dados) enquanto estabelece uma suposição
sobre a forma funcional de “f”. A equação matemática desta técnica é “f(X) = ÿ0 + ÿ1X1
+ ÿ2X2 + + ÿpXp”. Os "modelos paramétricos" tendem. a. .ter um número finito de
parâmetros que independe do tamanho do conjunto de dados. Isso também é conhecido
como "aprendizado baseado em modelo". Por exemplo, "modelos k-Gaussianos" são
conduzidos por técnicas paramétricas.
Por outro lado, a "técnica não paramétrica" gera uma estimativa de "f" com base em
sua proximidade com os pontos de dados, sem fazer nenhuma suposição sobre a forma
funcional de "f". Os "modelos não paramétricos" tendem a ter um número variável de
parâmetros, que cresce proporcionalmente com o tamanho do conjunto de dados. Isso
também é conhecido como “aprendizado baseado em memória”. Por exemplo, “modelos
de densidade de kernel” são conduzidos por uma técnica não paramétrica.
Representação
Os modelos de aprendizado de máquina são incapazes de ouvir, ver ou sentir
exemplos de entrada diretamente. Portanto, a representação de dados é necessária para
fornecer ao modelo um ponto de vista útil sobre as principais qualidades dos dados. Para
poder treinar com sucesso um modelo de aprendizado de máquina, a seleção dos
principais recursos que melhor representam os dados é muito importante. “Representação”
refere-se simplesmente ao ato de representar pontos de dados para o sistema de
computação em uma linguagem que ele entenda com o uso de um conjunto de
classificadores. Um classificador pode ser definido como “um sistema que insere um
vetor de valores de recursos discretos e/ou contínuos e gera um único valor discreto
chamado classe”. Para que um modelo aprenda com os dados representados, o conjunto
de dados de treinamento ou o “espaço de hipóteses” deve conter o classificador desejado
no qual você deseja que os modelos sejam treinados. Quaisquer classificadores externos
ao espaço de hipóteses não podem ser aprendidos pelo modelo. Os recursos de dados
usados para representar a entrada são extremamente cruciais para o processo de
aprendizado de máquina. Os recursos de dados são tão críticos para o desenvolvimento
do modelo de aprendizado de máquina desejado que podem facilmente ser a principal
distinção entre um projeto de aprendizado de máquina bem-sucedido e um com falha.
Um conjunto de dados de treinamento que consiste em vários conjuntos de recursos
independentes bem correlacionados com a classe pode tornar o aprendizado de máquina
muito mais suave. Por outro lado, a classe que consiste em recursos complexos pode
não ser fácil de aprender para a máquina. Isso geralmente requer que os dados brutos
sejam processados para permitir a construção dos recursos desejados a partir deles, que
podem ser utilizados para o desenvolvimento do modelo de ML. O processo de derivação
de recursos de dados brutos tende a ser a parte mais demorada e trabalhosa dos projetos
de ML. Também é considerada a parte mais criativa e emocionante do projeto, onde a
intuição e a tentativa e erro desempenham um papel tão importante quanto os requisitos
técnicos. O processo de ML não é um processo único de desenvolver um conjunto de
dados de treinamento e executá-lo; em vez disso, é um processo iterativo que requer a
análise dos resultados pós-execução, seguida pela modificação do conjunto de dados de treinamento e
Machine Translated by Google
mais uma vez. Outro fator que contribui para o longo tempo e esforço necessários na engenharia
do conjunto de dados de treinamento é a especificidade do domínio.
O conjunto de dados de treinamento para uma plataforma de comércio eletrônico para gerar
previsões com base na análise do comportamento do consumidor será muito diferente do conjunto
de dados de treinamento necessário para desenvolver um carro autônomo. No entanto, o processo
real de aprendizado de máquina é amplamente válido em todo o espectro industrial. Não é de
admirar, muitas pesquisas estão sendo feitas para automatizar o processo de engenharia de recursos.
Avaliação
Essencialmente, o processo de julgar várias hipóteses ou modelos para escolher um modelo
em detrimento de outro é chamado de avaliação. Para ser capaz de diferenciar entre bons
classificadores dos não tão bons, uma “função de avaliação” deve ser usada. A função de
avaliação também é chamada de função “objetiva”, “utilitária” ou “pontuação”. O algoritmo de
aprendizado de máquina possui sua própria função de avaliação interna, que tende a ser diferente
da função de avaliação externa usada pelos pesquisadores para otimizar o classificador.
Otimização O
processo de busca no espaço dos modelos apresentados para obter melhores avaliações ou
classificador com maior pontuação é chamado de “otimização”. Para algoritmos com múltiplos
classificadores ótimos, a seleção da técnica de otimização é muito importante na determinação do
classificador produzido, bem como para alcançar um modelo de aprendizado mais eficiente. Uma
variedade de otimizadores disponíveis no mercado está disponível no mercado para ajudá-lo a
iniciar um novo modelo de aprendizado de máquina antes de substituí-los por otimizadores
personalizados.
Boosting – Boosting pode ser definido como uma técnica de ML que combinaria sequencialmente
um conjunto de classificadores simples e de baixa precisão (conhecidos como classificadores
"fracos") em um classificador altamente preciso (conhecido como classificador "forte") aumentando
o peso do amostras que estão sendo classificadas erroneamente pelo modelo.
Checkpoint – Checkpoint pode ser definido como um ponto de dados que irá capturar o estado
das variáveis em um momento específico no tempo do modelo ML. Com o uso de pontos de
verificação, o treinamento pode ser realizado em várias sessões e os pesos ou pontuações do
modelo podem ser exportados.
Classe – A classe pode ser definida como “um de um conjunto de valores de destino listados
para um determinado rótulo”. Por exemplo, um modelo projetado para detectar lixo eletrônico pode
ter 2 classes diferentes, a saber, “spam” e “não spam”.
Recurso discreto - É definido como um recurso que pode receber apenas um conjunto finito de valores
potenciais e não tem flexibilidade.
Discriminador – Um sistema usado para determinar se as amostras de entrada são realistas ou não é
chamado de discriminador.
Ambiente – O termo ambiente utilizado no contexto de aprendizado de máquina por reforço constitui “o
mundo que contém o agente e permite que o agente observe o estado desse mundo”.
Episódio – O termo episódio usado no contexto de aprendizado de máquina por reforço constitui cada
tentativa sequencial realizada pelo modelo para aprender com seu ambiente.
Recurso – qualquer uma das variáveis de dados que podem ser usadas como entrada para gerar
previsões é chamada de recurso.
Engenharia de recursos – A engenharia de recursos pode ser definida como “o processo de determinar
quais recursos podem ser úteis no treinamento de um modelo e, em seguida, converter dados brutos de
arquivos de log e outras fontes nos referidos recursos”.
Extração de recursos – A extração de recursos pode ser definida como “o processo de recuperação
de representações intermediárias de recursos calculadas por um modelo não supervisionado ou pré-treinado
para uso em outro modelo como entrada”.
Aprendizagem de poucos tiros - O aprendizado de poucos tiros pode ser definido como “uma
abordagem de aprendizado de máquina, frequentemente usada para classificação de objetos, projetada
para aprender classificadores eficazes a partir de apenas um pequeno número de exemplos de treinamento”.
Machine Translated by Google
Modelo linear – O modelo linear é definido como um modelo que pode atribuir um peso
singular a cada recurso para gerar previsões.
Matplotlib – É uma “biblioteca de plotagem Python 2-D de código aberto” que pode ser
utilizada para visualizar vários elementos de ML.
Modelo – No contexto de ML, um modelo refere-se a uma representação do aprendizado
e treinamento que foi adquirido pelo sistema a partir do conjunto de dados de treinamento.
NumPy – É uma biblioteca de dados de código aberto que pode fornecer operações
eficazes para serem usadas em arrays Python.
Conclusão
Obrigado por chegar ao final do Python Data Science: Uma introdução prática
à análise de big data e mineração de dados, um guia baseado em projeto com
exercícios práticos (Livro 3), esperamos que tenha sido informativo e capaz de
fornecer a você com todas as ferramentas que você precisa para atingir seus
objetivos, sejam eles quais forem.