Escolar Documentos
Profissional Documentos
Cultura Documentos
Ciência de Dados
Material Teórico
Estudo de Caso com Análise de Dados
• Introdução;
• Modelagem do Estudo de Caso;
• Elaboração das Novas Estratégias.
OBJETIVOS DE APRENDIZADO
• Introduzir o estudo de caso real de utilização de algoritmos de análise de dados e minera-
ção em uma organização real;
• Exibir o processo de implementação e execução do algoritmo apriori em stored procedure
em SQL Server e, posteriormente, analisar os resultados obtidos na organização
em questão.
Orientações de estudo
Para que o conteúdo desta Disciplina seja bem
aproveitado e haja maior aplicabilidade na sua
formação acadêmica e atuação profissional, siga
algumas recomendações básicas:
Conserve seu
material e local de
estudos sempre
organizados.
Aproveite as
Procure manter indicações
contato com seus de Material
colegas e tutores Complementar.
para trocar ideias!
Determine um Isso amplia a
horário fixo aprendizagem.
para estudar.
Mantenha o foco!
Evite se distrair com
as redes sociais.
Seja original!
Nunca plagie
trabalhos.
Não se esqueça
de se alimentar
Assim: e de se manter
Organize seus estudos de maneira que passem a fazer parte hidratado.
da sua rotina. Por exemplo, você poderá determinar um dia e
horário fixos como seu “momento do estudo”;
No material de cada Unidade, há leituras indicadas e, entre elas, artigos científicos, livros, vídeos
e sites para aprofundar os conhecimentos adquiridos ao longo da Unidade. Além disso, você tam-
bém encontrará sugestões de conteúdo extra no item Material Complementar, que ampliarão sua
interpretação e auxiliarão no pleno entendimento dos temas abordados;
Após o contato com o conteúdo proposto, participe dos debates mediados em fóruns de discus-
são, pois irão auxiliar a verificar o quanto você absorveu de conhecimento, além de propiciar o
contato com seus colegas e tutores, o que se apresenta como rico espaço de troca de ideias e
de aprendizagem.
UNIDADE Estudo de Caso com Análise de Dados
Introdução
Considerando uma empresa especializada em recuperação de crédito, que pos-
sui bases de dados com históricos de informações sobre os clientes.
O banco ou uma financeira envia os dados dos clientes a serem cobrados e eles
são inseridos no sistema de cobrança, após a inserção os dados vão para uma fila
de entrada para serem agrupados. Na prática, após importar os dados em uma
tabela, é colocado um campo indicando a situação da conta e esse campo é deno-
minado “fila”.
O Discador é um software que faz as ligações para os devedores, com base nas
informações presentes nas bases de dados. As ligações são feitas através de uma
ordem pré-definida pelos gestores. Os gestores são pessoas responsáveis pela de-
finição da estratégia adotada e para as prioridades nas ligações. Diariamente são
emitidos relatórios que mostram os resultados do trabalho realizado no dia.
8
do princípio de que o indivíduo que tem dívidas vencidas em até 15 dias tem
maior probabilidade de pagamento do que outro que está devendo a mais de
1500 dias;
• Depois se prioriza pela faixa de valor, dos valores maiores para os menores.
Essa estratégia garante a rentabilidade, pois quando é fechado um acordo de
valor mais alto se consegue maior lucro do que quando são fechados acordos
com valores baixos. Desta maneira o custo e benefício da tentativa de se nego-
ciar com esses indivíduos são melhores.
Para isso, será usada uma base de dados de acordos gerados no passado para
três clientes, com comportamentos diversificados.
Para esse estudo de caso optou-se por usar o algoritmo Apriori com as bases de
dados, com o intuito de se gerar regras de associação com ordens de importância
diferentes, tendo em vista que na revisão de literatura foi observado que largamente
as empresas utilizam a tecnologia de Redes neurais artificiais para isto e não foram
encontrados testes e experimentos mostrando a eficiência do algoritmo Apriori
para este fim.
A partir das novas regras serão criadas novas estratégias e em seguida será medi-
do se, com a aplicação das novas estratégias foram obtidos benefícios ou prejuízos.
9
9
UNIDADE Estudo de Caso com Análise de Dados
• Caso 2: Este cliente é uma loja de roupas para homens e mulheres. No ato da
compra é feito um cartão de crédito e com esse cartão o cliente ganha crédito
para efetuar a suas compras naquele momento. O que é cobrado deste cliente
são os cartões emitidos na loja. A principal diferença deste cliente é faixa de
atraso que está sendo cobrada, que é a partir de 1500 dias de atraso. A partir
daqui este cliente será chamado apenas de CLIENTE B;
• Caso 3: Este cliente é uma financeira que atua na cidade de São Paulo, onde
fornece empréstimos mediante a emissão de boletos para pagamento. Para
este cliente serão cobrados os boletos que não foram pagos. A partir daqui este
cliente será apenas de CLIENTE C.
10
• Agrupamento dos valores;
• Agrupamento dos atrasos;
• Correção das Regiões;
• Agrupamento de faixa de idade;
• Estado Civil;
• Desprezo de alguns registros sem o Sexo;
• Armazenamento dos dados em tabelas temporárias.
• Depois do pré-tratamento foram selecionados os seguintes atributos:
• UF;
• Faixa de atraso;
• Faixa de valor;
• Quantidade de Contatos Efetuados;
• Sexo;
• Idade;
• Ocupação;
• Estado civil;
• Quantidade de Boletos Enviados;
• Quantidade de SMS enviados.
11
11
UNIDADE Estudo de Caso com Análise de Dados
12
13
13
UNIDADE Estudo de Caso com Análise de Dados
Não foi possível se fazer uma comparação gráfica de desempenho entre a stored
procedure criada e a execução do WEKA tendo em vista que ele não consegue
trabalhar com milhões de registro.
Para o cliente C existiam muitos atributos iguais, então foram geradas regras
estranhas, como visto nas regras 1 e 3, “Pessoas do sexo masculino não fazem
acordo e pessoas do sexo feminino também não fazem acordo”.
Fazendo uma análise mais apurada das bases e seguindo boas práticas de análi-
se, tendo em vista que o foco era o perfil de clientes que fechariam acordos, foram
separados todos os dados que possuíam o atributo de “acordos=sim” e apenas estes
casos passaram a ser analisados, o que faz sentindo, pois o que se busca com esta
análise é traçar o perfil de clientes que fechem acordos, ou seja, os outros clientes
não são relevantes para esta análise.
14
Devido aos resultados anteriores e uma análise mais apurada da base de dados
percebeu-se que as seguintes variáveis eram irrelevantes:
• “faixa de valor”,
• “faixa de atraso”
• “faixa de idade”.
Uma exceção foi o cliente A, onde pode ser trabalhado o atributo “UF”.
Neste ponto pode-se perceber que o processo de tratamento dos dados para
análise é uma iteração conforme se observa no processo de KDD como um
todo. Com a nova análise dos dados as regras geradas pela stored procedure
foram as seguintes:
15
15
UNIDADE Estudo de Caso com Análise de Dados
16
• Depois débitos acima de 120 dias;
• Depois faixa etária entre 26 a 35 anos; e
• Depois o restante total da base.
17
17
UNIDADE Estudo de Caso com Análise de Dados
18
Com a nova estratégia foram obtidos os seguintes resultados, comparados com
a média da Taxa de Acerto anterior, já mencionada:
Tabela 4 – Resultados
Cliente Taxa de Acerto Média da Taxa de Acerto Anterior
Cliente A 84,66% 77,92%
Cliente B 77,22% 43,27%
Cliente C 31,22% 16,81%
Pelo pouco tempo que se pode observar as novas estratégias tiveram melhor de-
sempenho do que as anteriores, porém seria interessante aplicá-las com uma quan-
tidade maior de operadores e em um período maior de tempo, embora os gráficos
obtidos mostraram melhor desempenho, mesmo com operadores que não tinham
bom rendimento com os clientes analisados. A próxima etapa seria de refinamentos
nas estratégias definidas.
19
19
UNIDADE Estudo de Caso com Análise de Dados
Referências
AGRAWAL, R.; SRIKANT, R. Fast Algorithms for Mining Association Rules;
IBM Almaden Research Center; California, USA, 1994.
20