Data Science Material de Apoio.

Prof.
Otair Pelisson
Data Science Estatística

Data Science É Um Termo Novo E Que Muitas Vezes É Confundido Com Ferramentas, Técnicas
Ou Áreas Específicas Do Trabalho. Sendo Que, Na Verdade, Ele É Um Conjunto De Métodos E
Práticas Que Possibilita O Trabalho Com Os Dados.
Histórico
Desde a década de 90 do século passado, passamos por uma verdadeira revolução em relação
à capacidade de criação e armazenamento de dados. Em poucos anos, passamos de um
disquete, com capacidade para 1,4 megabytes de informação, para sistemas na nuvem com
capacidade de 4500 terabytes (3,6 e+10 megabytes ).
O conceito de data Science

Data Science é a maneira como as empresas geram conhecimento para seus negócios, fazendo
ciência a partir dos dados. Daí sua estreita relação com a estatística, área do conhecimento
cujos métodos permitem descrever, explorar, inferir e predizer a partir dos dados.
“Em um nível mais elevado, data science é um conjunto de princípios fundamentais que
norteiam a extração de conhecimento a partir de dados. O objetivo primordial é o
aprimoramento da tomada de decisão, uma vez que isso geralmente é de interesse direto para
os negócios.”
(FAWCET e PROVOST, p. 34 e 38)
O fluxo de trabalho na ciência de dados

Para extrair conhecimentos valiosos de uma análise de dados é importante lembrar que essa
área é multidisciplinar. Resultado da interseção de estatística, ciência da computação e
conhecimento de negócio. Uma parte, sem as outras, não consegue entregar todo o valor de
uma análise de dados. E nem usar os insights extraídos para mudar a realidade da empresa.
As áreas envolvidas em data Science

Como dissemos, data science pode ser definido como a interseção entre ciência da
computação, estatística e conhecimento de negócios. Cada área fica responsável por uma
parte do trabalho e todas são igualmente importantes:.
Negócios – Líderes e Gestores

• É importante extrair as informações que são relevantes para o contexto em que aquela
companhia está inserida. E só quem vai poder guiar essa decisão é alguém que
entende profundamente do negócio.
Prof. Otair Pelisson
Ciência da computação – Equipe de TI

Com a computação na nuvem, a tendência é que todas as informações de uma empresa
fiquem armazenadas e disponíveis online. Por isso, o conhecimento na área é essencial para
garantir a infraestrutura e disponibilizar os dados para análise com toda segurança. Eles
precisam estar organizados e acessíveis para todos que precisam, além de serem confiáveis e
estarem sempre atualizados.
Estatística – Equipe Analítica

Bons gestores e um bom time de tecnologia da informação ainda não são suficientes para
trazer os resultados. Se o objetivo primordial da ciência de dados é o aprimoramento da
tomada de decisão, ele só é possível devido à estatística. É por meio dela que são
desenvolvidos modelos estatísticos e matemáticos que utilizam os dados para responder
perguntas de negócios. Assim aumenta-se a confiabilidade na tomada de decisão levando a
resultados melhores e mais previsíveis.
Os assuntos mais comentados em data Science

• Machine learning
• Inteligência artificial
• Big data
• Business Intelligence
Machine learning, ou aprendizado de máquina, é uma das técnicas usadas em data science. Ele
permite que computadores usem dados e algoritmos para tomarem decisões. Isso acontece
porque os algoritmos reconhecem padrões e se valem disso para prever o que pode acontecer
em seguida.
inteligência artificial é um subcampo do machine learning e envolve várias tecnologias

diferentes. Entre elas estão redes neurais artificiais e sistemas de aprendizado que simulam
capacidades humanas como raciocínio, percepção e análise para tomada de decisão.
Big data “Essencialmente, o termo big data significa conjuntos de dados que são grandes demais
para os sistemas tradicionais de processamento. Portanto, exigem novas tecnologias para
processá-los”. Essa é uma das definições mais aceitas sobre esse termo que já se popularizou
muito
Business Intelligence: Outro assunto muito comentado quando se fala sobre data science é o
business intelligence (BI). Apesar de trabalharem para um mesmo objetivo – gerar insights de
negócios – os dois se diferem pelas abordagens, metodologias e tecnologias utilizadas para
chegar nesse objetivo.
Pensamento Analítico:
O que é pensamento analítico e como desenvolver?

A transformação digital impôs muitas mudanças aos profissionais e as habilidades exigidas de
quem quer se inserir no mercado não são mais as mesmas. Muito além de conhecimentos
técnicos, agora chama atenção quem consegue desenvolver certas habilidades sociais e
comportamentais, como o pensamento analítico.
O que é pensamento analítico?

Quando falamos em perfil analítico, muita gente pensa imediatamente em números. Mas não
se trata apenas disso. O pensamento analítico é uma habilidade cognitiva que envolve a
capacidade de reunir informações de diferentes fontes, visualizar o todo e solucionar
problemas.
Onde eu aplico pensamento analítico

É fundamental para você analisar a situação competitiva e formular estratégias para ganhar a
competição, , tomar decisões lidar com questões complicadas e analisar informações que você
reuniu e organizou previamente.
Busca detectar padrões em conjuntos de dados, gerar informações, identificar relações, fazer
previsões e “bolar” soluções criativas.
Busca explicar as coisas e situações, classificar, categorizar ou organizar, decompor em partes
mais simples, mais facilmente explicadas e solucionadas.
É a capacidade de lidar com questões complicadas analisar informações reunidas e organizadas
previamente.
Busca detectar padrões em conjuntos de dados, gerar informações, identificar relações,
fazer previsões e “bolar” soluções criativas
Por que o pensamento analítico é tão importante?

Quase todas as nossas ações ao longo do dia viram dados: os dispositivos conectados à internet
estão por todos os lados e produzem uma quantidade imensa de informação, que é aproveitada
pelas empresas. Além disso, a concorrência no mercado está ainda mais acirrada e demanda
decisões mais estratégicas, baseadas em fatos e não apenas achismo.
Como desenvolver o pensamento analítico?

A boa notícia é que essa não é uma habilidade inata. Algumas pessoas têm mais facilidade para
se tornarem fluentes em dados, é verdade. Mas você também pode desenvolver o pensamento
analítico.
Desenvolva processos.
Quando estamos desenvolvendo uma nova habilidade, alguns passos que parecem automáticos
devem ser esquematizados. Assim você sabe o que fazer em seguida e vai treinando. Até que se
torne natural.
É como aprender uma coreografia ou resolver um problema matemático
Treine seu olhar.

Outro exercício importante para quem quer desenvolver o pensamento analítico é treinar o
olhar. Faça pequenas análises de situações do dia a dia, não necessariamente relacionadas ao
trabalho. Consumir notícias, por exemplo, pode ser uma forma de fazer isso no cotidiano.
Também faça o exercício de procurar padrões naquilo que acontece ao redor.
Aprenda com seus erros.

Desenvolver o pensamento analítico, como toda habilidade, leva um tempo. Por isso, não tenha
medo de errar: as falhas são extremamente valiosas nesse processo. As experiências vão
alimentar o seu repertório, essencial para um profissional capaz de tomar decisões rápidas e
qualificadas.
Exercite a curiosidade.
Preste atenção no que acontece ao seu redor e busque entender como foi o processo de tomada
de decisão dos outros. Mas não fique apenas observando. Faça perguntas e busque entender
como as coisas funcionam.
Quando alguém trouxer conclusões, pergunte como a pessoa chegou àquele resultado.
Aprenda uma coisa nova todos os dias.

Crie o hábito de aprender algo novo diariamente. Muitos de nós, uma vez terminados os estudos
no colégio ou faculdade, ficam muito mais passivos em relação ao aprendizado.
Seja voluntário para novos projetos

Se você está interessado em desenvolver sua habilidade analítica, por que não se oferecer para
um projeto que envolva essa habilidade? Às vezes, tudo o que precisamos é de um pequeno
empurrão para nos aprofundarmos em algo novo.
Onipresença das Oportunidades de Dados.

Com grandes quantidades de dados disponíveis, as empresas em quase todos os setores estão
focadas em explorá-los para obter vantagem competitiva. No passado, as empresas poderiam
contratar equipes de estatísticos, modeladores e analistas par explorar manualmente os
conjuntos de dados, mas seu volume e variedade superaram muito a capacidade da análise
manual.
Hoje os computadores se tornaram muito mais poderosos, a comunicação em rede é
onipresente, e foram desenvolvidos algoritmos que podem conectar conjuntos de dados para
permitir análise muitos ampla e profundas do que antes
A convergência desses fenômenos deu origem à aplicação, cada vez, mais difundida , de
princípios de data science e de técnicas de mineração de dados nos negócios
Provavelmente a maior aplicação de técnicas de mineração de dados está no marketing para
tarefas como marketing direcionados , publicidades online e recomendações para a venda
cruzadas. A mineração de dados é usada para gestão de relacionamento com o cliente para
analisar seu comportamento a fim de gerenciar o desgaste e maximizar o valor esperado do
cliente.
“ É importante compreender data science, mesmo que você nunca vá aplica-los. O
pensamento analítico de dados permite avaliar propostas para projetos de mineração de
dados”
Exemplos
O Furacão Francês:
O furacão Francês estava a caminho , avançando pelo Caribe, ameaçando atingir a costa
atlântica da Flórida. Os residentes se mudaram para terrenos mais elevados, porém distantes,
em Bentonville, Arkansas;
Executivos das lojas Walmart decidiram que a situação oferecia uma grande oportunidade para
uma de suas mais recentes armas orientada em dados: a tecnologia preditiva.
Uma semana antes de a tempestade atingir a costa, Linda M. Dillman, diretora executiva de
informações, pressionou sua equipe para trabalhar em previsões baseadas no que havia
acontecido quando o furacão Charley apareceu, várias semanas antes.
Com o apoio de trilhões de bytes de históricos de compras contido no banco de dados do

Walmarts, ela sentiu que a empresa poderia “começar a prever o que aconteceria, em vez de
esperar que acontecesse” (Hays, 2002)
Porque previsões orientadas em dados podem ser úteis?

Podem prever que as pessoas na trilha do furacão comprariam mais garrafas de água, assim é
possível projetar o aumento nas vendas, garantindo que o Walmarts esteja abastecido.
; entre os itens o aumento da vendas de lanternas e curiosamente ou tipo de cerveja chamada
Pop-tarts de morango , que foi setes vezes acima do normal antes do furacão.
Prevendo a Rotatividade de Cliente.

Como exemplo podemos citar o caso da MegaTelCo, uma das maiores empresas de
Telecomunicação nos Estados Unidos. Eles estão tendo um grande problemas com a retenção
de clientes no negócio de produtos e serviços sem fio. Na região do Médio Atlântico, 20% dos
clientes de telefonia celular abandonaram o serviços quando o contrato vencem, e está ficando
cada vez mais difícil adquirir novos clientes.
Como o mercado dos telefones está saturado, enorme crescimento do mercado sem fio
diminuiu. Agora, as empresas de comunicação estão engajadas em batalhas para atrair os
clientes da concorrência, ao mesmo tempo que mantém seus próprios.
A transferência de clientes de uma empresa para outra é chamada rotatividade, e é algo
dispendioso em todos os sentidos: uma empresa precisa gastar em incentivos para atrair um
cliente enquanto outra empresa perde rendimento quando o cliente vai embora.
Atrair novos clientes é muito caro do que manter os que já existem, por isso uma boa verba de
marketing é alocada para evitar a rotatividade. O marketing já projetou uma oferta especial
de retenção.
Na verdade, a retenção de clientes em sido uma das grandes utilizações para tecnologia de
mineração de Dados – especialmente nos setores de telecomunicações e finanças. Esses de
forma mais geral, foram alguns dos primeiros e mais amplos adotantes das tecnologias de
mineração
Tarefa.
Sua tarefa é elaborar um plano preciso, passo a passo para saber como a equipe de data science
deve usar os vastos recursos de dados da Mega TelCo para decidir quais clientes devem receber
uma oferta especial de retenção antes do término de seus contrato.
Problemas de negócios e solução de Data Science

Problemas de Negócios e Soluções de Data Science.
Um princípio importante de data science é que a mineração de dados é um processo
com estágios muito bem definidos; Alguns envolvem a aplicação de tecnologia da
informação, como a descoberta automatizada e a avaliação de padrões a partir de dados
, enquanto outros, na maioria das vezes, exigem criatividade, conhecimento de negócios
e bom senso por parte do analista.
De problemas de Negócios a Tarefa de mineração de Dados.

Nos negócios, cada problema de tomada de decisões orientada em dados é exclusivo,
composto por sua própria combinação de metas, desejos, limitações e até mesmo
personalidades. Contudo, como acontece com boa parte da engenharia , há conjuntos
de tarefas comuns que permeiam os problemas de negócios.
“Uma habilidade crucial em data science é a capacidade de decompor um problema
analítico de dados, de forma que cada parte corresponda a uma tarefa conhecida para
qual ferramentas estão disponíveis.
Reconhecer problemas familiares e suas soluções evita desperdício de tempo e de
recursos reinventando a roda.
Também permite que as pessoas concentrem sua atenção em partes mais interessantes
do processo que requerem envolvimento humano – partes que não foram
automatizadas de modo que a criatividade e a inteligência humana devem entrar em
jogo”.
Método Supervisionados Versus Não Supervisionado.

Considere das perguntas semelhantes que podemos fazer sobre uma população de
clientes. A primeira é “Nossos clientes naturalmente se encaixam em grupos
diferentes?” . Aqui, nenhuma proposta, ou alvo, em particular foi especificada para o
argumento. Quando não existe tal alvo, o problema de mineração de dados é chamado
de não supervisionado.
Compare isso com uma pergunta ligeiramente diferente: “ Podemos encontrar grupo
de clientes que tenham probabilidade particularmente elevadas de cancelar seus
serviços ao logo após o vencimento de seus contratos”.
Aqui há um alvo específico definido: será que um cliente abandonará o serviço quando
seu contrato vencer? Neste caso, a segmentação está sendo feita por um motivo
específico: tomar medidas com base na probabilidade de rotatividade.
Isso é chamado de problema supervisionado de mineração de dados.
Mineração de Dados e seus Resultados.

Há outra distinção importante referente à mineração de dados: a diferença entre
(1) mineração de dados para encontrar e construir modelos e
(2) utilizar os resultados de mineração de dados para encontrar padrões de dados.

A utilização dos resultados de mineração de dados deve influenciar e informar o
processo em si, mas os dois devem ser mantidos.
O processo de Mineração de Dados.

A mineração de dados é uma arte; Ela envolve a aplicação de uma quantidade
substancial de ciência e tecnologia, mas a aplicação adequada ainda envolve arte
também. Mas, como acontece com muitas artes maduras, existe um processo bem
compreendido que coloca uma estrutura no problema , permitindo consistência,
repetitividade e objetividade razoáveis.
Compreensão do Negócio.
Inicialmente, é vital compreender o problema a ser resolvido, isso pode parecer óbvio,
mas projetos de negociação raramente vêm pré-molados como problemas claros e
inequívocos de mineração de dados. Muitas vezes, reformular o problema e projetar
uma solução é um processo repetitivo de descoberta.
Compreensão de Dados.
Se a solução do problema de negócios é o objetivo, os dados compreendem a matéria-
prima disponível a partir da qual a solução será construída. É importante entender os
pontos fortes e as limitações dos dados porque raramente há uma correspondência
exata com o problema.
Preparação dos Dados.

As tecnologias analíticas que podemos utilizar são poderosas, mas impõem
determinados requisitos sobre os dados que usam. Com frequência, elas exigem que os
dados estejam em uma forma diferentes de como são fornecidos naturalmente, e
alguma conversões será necessárias. Portanto muitas vezes, uma fase de preparação
de dados procede juntamente com a compreensão dos mesmo, em que os dados são
manipulados e convertidos em formar que rendam melhores resultados.
Avaliação.
Avaliar os resultados de mineração de dados inclui avaliação quantitativas e qualitativas,
vários investidores se preocupam com o processo de tomada de decisão nos negócios
que será realizada ou apoiada pelos modelos resultantes
Implantação;
Na implantação, os resultados da mineração de dados, e cada vez mais nas próprias
técnicas de mineração de dados, são colocados em uso real, a fim de constatar algum
retorno sobre o investimento. O casos mais claros de implantação envolvem a
implementação de um modelo preditivo em alguns sistema de informação ou processo
de negócios.
Modelagem Preditiva
O que é modelagem preditiva
A modelagem preditiva é um método baseado em modelos matemáticos aplicados que
sinalizam o custo previsto para um período ou a probabilidade de um evento ou
resultado ocorrer no futuro. Para chegar a essa conclusão no que se refere a uma
população específica, são usados dados passados e características comuns.
A análise é baseada em uma pergunta que se pretende responder. Mas é importante
fazer apenas um questionamento de cada vez, a fim de ter uma avaliação mais precisa.
Vamos a um exemplo prático na saúde.

Suponhamos que você precise saber o que acontecerá em 2020 que vai gerar um custo
elevado para a operadora de saúde. Nesse caso, a melhor pergunta a fazer é: “quem
tem alto risco para gerar um custo elevado com saúde nos próximos 12 meses?”.
Como esse método funciona?

O propósito da modelagem preditiva é otimizar os recursos usados na gestão no caso da
saúde e bem estar. Para isso, toda a população do plano de saúde é mapeada, a fim de
identificar quais pacientes têm mais chances de terem um evento futuro, a partir dos
dados e padrões históricos.
Com os algoritmos e ferramentas avançadas, o sistema cruza informações da
população e detecta quem está mais propenso a desenvolver problemas de saúde de
alto custo e grandes riscos, como hipertensão, câncer, diabetes, doenças de coluna etc.
Esse resultado, claro, só pode ser efetivado a partir do Big Data.
Com essa tecnologia, os dados são explorados para aperfeiçoar a análise e o processo
decisório da operadora. Afinal, as previsões feitas permitem antecipar comportamentos
e resultados, assim como identificar oportunidades e riscos.
Quais são os benefícios da modelagem preditiva?

método preditivo traz benefícios claros ao aliar a saúde digital (high tech) à
humanizada (high touch). No entanto, ainda há vantagens para a gestão de custos da
operadora de saúde.
Diminuição da sinistralidade , O modelo de eventos de alto custo e alto risco precisa ser
identificado para ter seus efeitos reduzidos. Com o data analytics permitido pelo
método preditivo, você tem mais precisão na avaliação e detecta possíveis dispersões.
Por exemplo, você pode descobrir qual grupo populacional tem mais condições de ter
diabetes ou qualquer outra doença crônica e, inclusive, prever a possibilidade de realizar
uma cirurgia de coluna, que tem alto valor de sinistro.
Redução de custos
O resultado é uma redução dos custos com essa taxa. Isso porque um dos fatores de
avaliação são os dados baseados em sinistros, que são aliados aos demográficos e aos
indicadores de doenças.
Aumento do poder de análise.

Os dados apresentados pelo método preditivo permitem segmentar a população com
o objetivo de responder a uma pergunta. Com a modelagem, há melhor classificação
dos membros, conforme a probabilidade relativa para um resultado determinado.
Assim, você escolhe as pessoas certas para participar do programa.
Por meio do Big Data e do machine learning, você ainda automatiza esse trabalho pela
identificação de características comuns e padrões, que vão determinar conjuntos de
validação. Dessa forma, a performance é melhorada e são selecionados os melhores
modelos.
Agilidade na identificação de riscos;

A modelagem preditiva ajuda a identificar os riscos com mais agilidade e precisão. Mais
que detectá-los, contribui para decidir de que maneira pode ser feita uma intervenção.
A partir disso, é possível encaminhar o paciente para programas específicos, a fim de
gerenciar doenças crônicas, oferecer suporte à saúde emocional etc.
Ao mesmo tempo, são identificados gargalos de saúde e possibilidades de redução de
custo, a fim de direcionar as ações. Com isso, novos programas podem ser criados pelo
perfil dos beneficiários e ações traçadas para aumentar o ROI (Retorno sobre
investimento) Por esse motivo, a eficácia do modelo depende de analisar um
subconjunto da população, não um nível individual.
Introdução a Modelagem Preditiva: Da correlação à Segmentação

Supervisionada.
1 - Probabilidade:
Probabilidade de um evento em espaço amostral finito:

𝑛(𝐴)
𝑃(𝐴) =
𝑛(𝑈)
Onde :
P(A) = probabilidade do evento A acontecer
n(A) = é número de elementos do evento A
n(U) = é o número de elementos do espaço amostral.
Exemplo.
1) No lançamento de um dado, determinar a probabilidade de se obter :

a) O número 2
b) Um número par
c) Um número múltiplo de 3
Resolução:
Evento a) número 2 só existe um número 2 nos dados portanto
1
P(a) = = 0,166 ≅ 16,7%
6
b) Um número par : existe 3 números pares ( 2, 4 e 6) portanto:

3
P(a) = = 0,5 𝑜𝑢 50%
6
c)Um numero múltiplo de 3 : existe um número que o 6.

1
P(a) = = 0,166 ≅ 16,7%
6
2) Num baralho de 52 cartas, a probabilidade de tirar um ás de espadas ou rainha de ouros ou

rei de copas em uma só tentativa é determinada da seguinte forma:
Resolução
a)identificação do experimento aleatório : sorteio de uma carta em um baralho de 52;
b) identificação do evento a ser estudado (A: a carta é um ás de espada; B a carta é uma rainha
de ouros; C a carta é um rei de copas)
Assim
𝑃 (𝐴 ∪ 𝐵 ∪ 𝐶) = 𝑃(𝐴) + 𝑃(𝐵) + 𝑃(𝐶)
1 1 1 3
𝑃 (𝐴 ∪ 𝐵 ∪ 𝐶) = + + = = 0,06
52 52 52 52
2 - Correção e Regressão linear Simples:
Em muitas situações, praticamente de qualquer área do conhecimento, observamos que duas

ou mais variáveis estão de alguma forma relacionada. Por exemplo:
• A variação na cotação de uma moeda afeta a outra a procura por produtos oriundos
do país que utiliza essa moeda?
• O preço cobrado por um pacote de viagem esta relacionado com o número de
passagem vendidas?
• O grau de umidade na matéria prima está relacionado com o grau de umidade no
produto.
Observe-se que um estudo estatístico não permite estabelecer relações de causa e

efeito, mas penas aponta a correlação entre variáveis.
2.1 – Coeficiente de correlação linear:
Para explicar a correlação linear entre duas variáveis, é comum identificar, por meio de um
gráfico chamado Diagrama de dispersão, indícios de que a relação existe e se é conveniente
prosseguir.
A nuvem de pontos pode tomar diferentes formas, se desejarmos saber o grau de correlação
entres as variáveis (pontos) estudados, pode-se utilizar o coeficiente de correlação de
Pearson, dada pela expressão:
𝑛 ∑ 𝑥𝑖 𝑦𝑖 − ∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑟=
√𝑛 ∑ 𝑥𝑖 − ∑(𝑥𝑖 )2 ∙ 𝑛 ∑ 𝑦𝑖 − ∑(𝑦𝑖 )2
2
Onde :
X é a variável independente
Y é a variável dependente
N é o número de observações
R é o coeficiente de correlação linear que pertence ao intervalo [-1 ; + 1]
Se r = + 1 => a correlação entre as duas variáveis é forte e positiva
Se r = - 1 => a correlação entre as varáveis é forte e negativa
Se r = 0 => não há correlação entre as varáveis ou a existência não é linear.
Para ajustar o coeficiente de correlação teremos que encontrar a equação da reta y = a +bx
Onde B= coeficiente angular, A = interceptor
Para encontrar os valores de B e A de forma simplificada podemos usar as fórmulas:

∑ 𝑦 −𝐵 ∑ 𝑥
𝐴=
𝑛
𝑛 ∑ 𝑥𝑖 𝑦𝑖 −∑ 𝑥𝑖 ∙∑ 𝑦𝑖
𝐵=
𝑛 ∑ 𝑥𝑖 2 −(∑ 𝑥𝑖 )2
Os valores de x e y são coordenadas extraídas nuvens de pontos, entre os eixos das

ordenadas e abcissa.
Exemplo 1: Para ilustrar vamos atribuir valores de coordenadas e colocar em uma tabela para
mostrar a aplicação de fórmula.
X Y X 2 Y2 xy
3 7 9 49 21 Extraindo os valores da tabela

2 5 4 25 10 N= nº de observações (4) linhas
-1 -1 1 1 1 ∑ 𝑥𝑦 = 68
4 9 16 81 36 ∑ 𝑥𝑖 = 8
8 20 30 156 68 ∑ 𝑦𝑖 = 20
Soma ∑ 𝑥𝑖 2 = 30
(∑ 𝑥𝑖 )2 = 8
Encontrando B
𝑛 ∑ 𝑥𝑖 𝑦𝑖 −∑ 𝑥𝑖 ∙∑ 𝑦𝑖 4 .68−8 . 20 272−160 112

𝐵= => 𝐵 = => 𝐵= => 𝐵= =2
𝑛 ∑ 𝑥𝑖 2 −(∑ 𝑥𝑖 )2 4 . 30− (8)2 120−64 56
Encontrando A
∑ 𝑦 −𝐵 ∑ 𝑥 20 − 2 . 8 20 −16
𝐴= => 𝐴 = => 𝐴 = => 𝐴 = 1
𝑛 4 4
Portanto a equação da reta y = a + Bx vai será Y = 1 + 2x
2.2 – Regressão linear é usada quando queremos retornar aos pontos de origem para achar os
valores; Resumidamente quando observamos os pontos dispersos em uma tabela usamos a
equação da reta para fazer ajustes de valores a fim de minimizar erros.
Exemplo 2 Previsão de demanda com regressão linear
Mês Vendas Marketing As vendas é o valor dependente

1 264 2,5 (a) e marketing e o valor
2 116 1,3 independe, que é proporcional a
3 165 1,4 verba , então podemos montar a
4 101 1,0 equação da reta como:
5 209 2,0 V = a + bx
Esboçando um gráfico com as informações da tabela teríamos:

Vendas
265
300 -
209
250 -
200 -
116
150 - 101 165
100 -
050 -
000 marketing
1,0 1,2 1,4 1,8 2,0 2,2 2,4 2,6
Ao observar os pontos percebemos que não formam uma reta linear, sendo assim os valores
(pontos) que estiverem fora de reta, acima ou abaixo são considerados erros.
Para minimizar os erros fazermos soma de todos os erros pela formula.
S = ∑𝑛𝑖=1 𝑒𝑛 = ∑𝑛𝑖=1(𝑦𝑖 − 𝑎 − 𝑏𝑥)2
Desta forma podemos ajustar a reta e minimizar os erros

Ainda utilizando os valores encontrados na tabela vamos encontrar o coeficiente de relação:
𝑛 ∑ 𝑥𝑖 𝑦𝑖 −∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑟=
√𝑛 ∑ 𝑥𝑖 −(∑ 𝑥1 )2 .√𝑛 ∑ 𝑦𝑖 2 −(∑ 𝑦1 )2
2
Substituindo os valores na formula temos:
4∙1560,8−855∙8,2
𝑟=
√4∙164.179−731.025∙√4∙14,91−67,24
𝑟 = −0,0001 ; portanto podemos concluir que não existe um correlação entre os valores na
tabela pois com tendência a zero.
Modelos , Indução e Previsão;

Em geral , um modelo é uma representação simplificada da realidade criada para servir um
propósito. Ele é simplificado com base em alguns pressupostos sobre o que é e o que
importante para finalidade específica ou , às vezes, com base nas limitações de informações ou
tratabilidade. Por exemplo, um mapa é um modelo do mundo físico. Ele abstrai uma enorme
quantidade de informações que o cartógrafo considera irrelevantes para a sua finalidade; Ele
preserva e às vezes simplifica ainda mais, as informações relevantes;
Várias profissões tem tipo de modelos conhecidos: uma planta arquitetônica, um protótipo de
engenharia, o modelo Black-Scholes de opções de preços;
Cada um abstrai detalhes que não são relevantes para a sua finalidade principal e mantém
aquelas que são;
Segmentação supervisionada.
Lembrando que um modelo preditivo se concentra na estimativa do valor de uma variável alvo
interesse. Uma forma intuitiva de pensar sobre a extração de padrões de dados de forma
supervisionada é tentar
Segmentar a população em subgrupos que possuem diferentes valores para a variável alvo (e
dentro subgrupo os exemplos possuem valores semelhantes para a variável alvo).
Se a segmentação é feita usando valores das variáveis que serão conhecidas quando o alvo
não for , então, esses segmentos podem ser utilizados para prever o valor da variável alvo.
Muitas vezes, estamos interessados em aplicar a mineração de dados quando temos muitos
atributos e não emos certeza do que os segmentos devem ser.
Em nosso problemas de previsão de rotatividade, quem é capaz de dizer quais são os melhores
segmentos para se prever a propensão à rotatividade ?
Se existe segmentos de dados com valores (médios) significativamente diferentes para a variável
alvo, gostaríamos ter certeza de extraí-los automaticamente.
Considere apenas a seleção do único atributo mais informativo. A resolução deste problema
introduzirá nossa primeira técnica concreta de mineração de dados - simples, porém muito útil.
No nosso exemplo, que variável nos dá mais informações sobre a futura taxa de rotatividade da
população ? Ser um profissional ? Idade ? Local de residência ? Renda? Quantidade de
reclamações no atendimento ao cliente? Quantidade de cobranças adicionais?
Seleção de Atributos Informativos
Sim não sim sim sim não sim não não sim não sim
Dado um grande conjunto de exemplos, como selecionamos uma atributo para dividi-los de
maneira informativa? Vamos considerar um problemas de classificação binário (duas classes),
e pensar sobre o que gostaríamos de obter dele. Na figura acima um simples problema de
segmentação: doze pessoas representadas como figuras de palito. Existem dois tipos de
cabeça: quadrada e circular; e dois tipos de corpos: retangular e oval e duas das pessoas tem
corpos cinzas, enquanto o resto são brancos.
Esses são atributos que usaremos para descrever as pessoas. Acima de cada pessoa esta um
rótulo de alvo binário, sim ou não, indicando (por exemplo) se a pessoa cancela
empréstimos.
Poderíamos descrever sobre essas pessoas como:
• Atributos:
- formato de cabeça: quadrada ou circular
- formato do corpo: retangular , oval
- cor do corpo: cinza ou branco
• Variável alvo: - cancelamento de credito : sim ou não
Então, vamos nos perguntar: qual dos atributos seria melhor para segmentar essas pessoas
em grupos, de forma a diferenciar quais serão cancelamentos de créditos e quais não?
Tecnicamente falando, gostaríamos que os grupos resultantes fossem os mais puros possíveis.
Por puro queremos dizer homogêneo em relação à variável alvo.
Se cada membro de um grupo tem o mesmo valor para o alvo, então o grupo é puro. Se
houver pelo menos um membro do grupo com um valor diferente para a variável alvo, em
relação ao restante de grupo, então o grupo é impuro.
Técnicas, existem várias complicações.

1 – atributos raramente dividem um grupo perfeitamente, mesmo com um subgrupo seja
puro, o outro pode não ser.
2 – No exemplo anterior, a condição de corpo = cinza só divide um único ponto de dados para
o subconjunto puro. Será isso melhor do que outra divisão que não produz nenhum
subconjunto puro, mas reduz a impureza de forma mais ampla.
3 – Nem todos atributos são binários; muitos tem três ou mais valores distintos. Devemos
levar em conta que um atributo pode ser dividir em dois grupos, enquanto outro pode se
dividir em três ou sete.
4 – Alguns atributos assumem valores numéricos (contínuos ou inteiros). Faz sentido fazer um
segmento para cada valor numérico?
Felizmente, para problemas de classificação , podemos abordar todas as questões por meio da
criação de uma fórmula de avaliação quão bem cada atributo divide um conjunto de
exemplos em segmentos, com relação a uma variável alvo escolhida. Tal formula é baseada em
uma medida de pureza.
O critério de divisão mais comum é chamando de ganho de informação, e se baseia em ma
medida de pureza chamada entropia.
A entropia é uma medida de descordem que pode ser aplicada a um conjunto, como um dos
nossos segmentos individuais. Considere que temos um conjunto de propriedades de
membros de conjunto, e cada membro tem uma e apenas uma das propriedades. Na
segmentação supervisionada, as propriedades dos membros corresponderão aos valores da
variável alvo.
Desordem corresponde a quão misto (impuro) o segmento é com relação a essas
propriedades de interesse.
Equação da entropia
𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑎 (𝑆) = −𝑝1 log(𝑝1 ) − 𝑝2 log(𝑝2 ) … ….
Exemplo:
1) Supondo um conjunto (S) de 10 pessoas, sendo que sete pertence a classe de pessoas
que não fazem cancelamento de crédito , e três da classe com cancelamento de crédito
7
𝑝 (𝑠𝑒𝑚 𝑐𝑎𝑛𝑐𝑒𝑙𝑎𝑚𝑒𝑛𝑡𝑜 ) = = 0,7
10
3
𝑝 (𝑐𝑜𝑚 𝑐𝑎𝑛𝑐𝑒𝑙𝑎𝑚𝑒𝑛𝑡𝑜 ) = = 0,3
10
𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑎 (𝑆) = −[0,7. log 2 0,7 + 0,3. log 2 0,3]
𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑎 (𝑆) = −[0,7. −51 + 0,3. −1,74]
𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑎 (𝑆) = 0,88
A entropia é apenas parte da história, para medir quão informativo é um atributo cm relação
ao nosso alvo : quanto ganho de informação isso nos dá sobre o valor da variável alvo. Um
atributo segmenta um conjunto de exemplos em vários subconjuntos. A entropia apenas nos
diz o quanto um subconjunto individual e impuro.
Como a entropia é usada pera medir a desordem conjunto e podemos definir o ganho de
informação (GI) para medir quanto um atributo melhora (diminui) a entropia ao longo de
toda a segmentação que ele cria.
Segmentação supervisionada com Modelos com Estrutura de Árvore de Decisão:

Agora , introduzimos uma das ideias fundamentais de mineração de dados: encontrar
atributos informativos a partir de dados. Continuaremos com o assunto da criação de uma
segmentação supervisionada porque, mais importante que seja, a seleção de atributo, por si
só, parece não ser suficiente. Se selecionarmos a única variável que dá o maior atributo, por
si só, parece não ser suficiente. Se selecionarmos a única variável que dá o maior ganho de
informação, criamos uma segmentação muito simples. Se selecionarmos vários atributos, cada
um dando algum ganho de informação, não está claro como coloca-los juntos .
Considere uma segmentação dos dados formando uma “árvore”, como mostrada na figura
abaixo.
Nó raiz
Empregado
Sim não
Classe: Saldo Nó interior

Sem baixa
de credito <50 mil ≥ 50 mil
Classe:
Sem baixa Idade
de credito
<45 ≥ 45
Classe: Classe:
Sem baixa Baixa de
de credito credito
Na figura, a árvore está de cabeça para baixo com a raiz no topo: A árvore é composta de nós,
internos e terminais e ramos provenientes dos nós internos.
Cada nó interno na árvore de decisão contém um teste de atributo, com dada ramo um do nó
representado um valor diferente do atributo. Acompanhando os ramos do nós raiz para baixo (
no sentido das setas), cada caminho m consequentemente, termina em um nó terminal ou
folha. A árvore de decisão cria uma segmentação de dados: cada ponto de dados
corresponderá a um , e apenas um caminho na árvore e, por conseguinte, uma única folha.
Em outras palavras, cada folha corresponde a um segmento, e os atributos e valores ao logo
do caminho dão as características dele. Por isso, o caminho mais à direita na árvore de
decisão na figura corresponde ao segmento “pessoas mais velhas, desempregadas com saldo
elevados”.
A árvore é uma segmentação supervisionada, porque cada folha contém um valor para a
variável alvo, tal árvore é chamada de árvore de classificação ou, mais livremente, árvore de
decisão.

Data Science Material de Apoio.

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Data Science Material de Apoio.

Enviado por

Direitos autorais:

Formatos disponíveis

Prof.

Data Science Estatística

O conceito de data Science

O fluxo de trabalho na ciência de dados

As áreas envolvidas em data Science

Negócios – Líderes e Gestores

Ciência da computação – Equipe de TI

Estatística – Equipe Analítica

Os assuntos mais comentados em data Science

inteligência artificial é um subcampo do machine learning e envolve várias tecnologias

O que é pensamento analítico e como desenvolver?

O que é pensamento analítico?

Onde eu aplico pensamento analítico

Por que o pensamento analítico é tão importante?

Como desenvolver o pensamento analítico?

Treine seu olhar.

Também faça o exercício de procurar padrões naquilo que acontece ao redor.

Aprenda com seus erros.

Aprenda uma coisa nova todos os dias.

Seja voluntário para novos projetos

Onipresença das Oportunidades de Dados.

Com o apoio de trilhões de bytes de históricos de compras contido no banco de dados do

Porque previsões orientadas em dados podem ser úteis?

Prevendo a Rotatividade de Cliente.

Problemas de negócios e solução de Data Science

De problemas de Negócios a Tarefa de mineração de Dados.

Método Supervisionados Versus Não Supervisionado.

Mineração de Dados e seus Resultados.

(2) utilizar os resultados de mineração de dados para encontrar padrões de dados.

O processo de Mineração de Dados.

Preparação dos Dados.

Vamos a um exemplo prático na saúde.

Como esse método funciona?

Quais são os benefícios da modelagem preditiva?

Aumento do poder de análise.

Agilidade na identificação de riscos;

Introdução a Modelagem Preditiva: Da correlação à Segmentação

Probabilidade de um evento em espaço amostral finito:

1) No lançamento de um dado, determinar a probabilidade de se obter :

b) Um número par : existe 3 números pares ( 2, 4 e 6) portanto:

c)Um numero múltiplo de 3 : existe um número que o 6.

2) Num baralho de 52 cartas, a probabilidade de tirar um ás de espadas ou rainha de ouros ou

𝑃 (𝐴 ∪ 𝐵 ∪ 𝐶) = 𝑃(𝐴) + 𝑃(𝐵) + 𝑃(𝐶)

2 - Correção e Regressão linear Simples:

Em muitas situações, praticamente de qualquer área do conhecimento, observamos que duas

Observe-se que um estudo estatístico não permite estabelecer relações de causa e

2.1 – Coeficiente de correlação linear:

Para encontrar os valores de B e A de forma simplificada podemos usar as fórmulas:

Os valores de x e y são coordenadas extraídas nuvens de pontos, entre os eixos das

3 7 9 49 21 Extraindo os valores da tabela

𝑛 ∑ 𝑥𝑖 𝑦𝑖 −∑ 𝑥𝑖 ∙∑ 𝑦𝑖 4 .68−8 . 20 272−160 112

Portanto a equação da reta y = a + Bx vai será Y = 1 + 2x

Mês Vendas Marketing As vendas é o valor dependente

Esboçando um gráfico com as informações da tabela teríamos:

S = ∑𝑛𝑖=1 𝑒𝑛 = ∑𝑛𝑖=1(𝑦𝑖 − 𝑎 − 𝑏𝑥)2

Desta forma podemos ajustar a reta e minimizar os erros

Ainda utilizando os valores encontrados na tabela vamos encontrar o coeficiente de relação:

Substituindo os valores na formula temos:

Modelos , Indução e Previsão;

Seleção de Atributos Informativos

• Variável alvo: - cancelamento de credito : sim ou não

Técnicas, existem várias complicações.

𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑎 (𝑆) = −𝑝1 log(𝑝1 ) − 𝑝2 log(𝑝2 ) … ….