Você está na página 1de 5

O RA N G E: Ferramenta de Mineração de Dados em P Y T H O N

Journal of Machine Learning Research 14 (2013) 2349-2353 Submitted 3/13; Published 8/13

Orange: Simulação e Predição de


Empréstimos em Python

Humberto Félix humbertofelix@hotmail.com


Universidade do Estado do Amazonas
Escola Superior de Tecnologia
Av. Darci Vargas, 1200, Parque 10 de Novembro – 69.065.020 – Manaus – AM – Brasil
Abstract
This article intents to present the preliminary project Loans simulations and predictions using Orange.
Orange is a machine learning and data mining suite for data analysis through Python scripting and
visual programming. Here we report on the scripting part, which features interactive data analysis
and component-based assembly of data mining procedures. In the selection and design of components,
we focus on the flexibility of their reuse: our principal intention is to let the user write simple and clear
scripts in Python, which build upon C++ implementations of computationally- intensive tasks.
Orange is intended both for experienced users and programmers, as well as for students of data
mining.
Keywords: Python, data mining, machine learning, toolbox, scripting

Resumo
Este artigo tem como objetivo apresentar o anteprojeto de simulações de empréstimos e previsões
usando Orange. A Orange é uma suíte de aprendizado de máquina e mineração de dados para análise
de dados por meio de script Python e programação visual. Aqui nós relatamos sobre a parte de scripting,
que caracteriza a análise interativa dos dados e o conjunto componente-baseado de procedimentos da
mineração de dados. Na seleção e design de componentes, nós nos concentramos na flexibilidade de
sua reutilização: nossa principal intenção é permitir que o usuário escreva scripts simples e claros em
Python, que são baseados em implementações C++ de tarefas computacionalmente intensivas. Orange
destina-se tanto para usuários experientes e programadores, bem como para os alunos de mineração de
dados.

Palavras-chave: Python, mineração de dados, Machine Learning, Toolbox, Scripting

1. Introdução

Orange é um programa que possibilita a mineração de dados de uma forma frutífera e divertida através
de seu [software] de código aberto, <https://github.com/biolab/orange3>, que trabalha com
aprendizado de máquina (machine learning) e visualização de dados (data visualization). Pode ser
utilizado tanto por usuários iniciantes quanto especialistas. Seus fluxos de trabalho são baseados em
análise de dados interativos atrelados a uma grande opção de ferramentas, incluindo uma variedade
de técnicas de visualização, exploração, pré-processamento e modelagem de dados. Pode ser usado
através de uma interface de usuário agradável e intuitiva ou, para usuários mais avançados, como um
módulo para a linguagem de programação Python. Considerando que através da mineração de dados
busca-se, entre outras relações, identificar padrões de similiridade ou de não conformidade nos
O RA N G E: Ferramenta de Mineração de Dados em P Y T H O N

conjuntos de dados, o Orange oferece diversos recursos de base estatística para o processamento dos
dados.
O software é desenvolvido pelo [Laboratório de Bioinformática] dentro da Faculdade de Informação
e Computação na Universidade de Ljubljana localizada na Eslovênia, e por ser de código aberto conta
com a colaboração desta comunidade. Em 2018, a ferramenta completa seu vigésimo primeiro ano de
história e este longo tempo é motivo de destaque, pois atesta a maturidade, segundo seus criadores,
desta iniciativa dentro de um ambiente efêmero como o de desenvolvimento e lançamento de
softwares.

2. Visão Geral da Ferramenta

Com recursos disponíveis para o uso do software, a interface do Orange se assemelha a de outros
programas comumente utilizados. As Funções e Ferramentas agrupam recursos a partir das
possibilidades de uso.
Como se pode ver na imagem abaixo, através dos grupos de Funções é possível acessar recursos
como:

[File] criar novos arquivos; abrir arquivos; abrir e os congelar; recarregar o último fluxo de trabalho;
ver o arquivo mais recente aberto; abrir relatório; salvar ou salvar como; ver informações sobre
fluxos de trabalho; e sair do programa;

[Edit] desfazer ou refazer uma ação; refazer uma ação adicionando anotação; duplicar seleções; ou
mesmo selecionar tudo;

[View] expandir a “caixa” de ferramentas; visualizar o registro e o relatório; aumentar, diminuir ou


restabelecer o zoom; assim como mostrar as margens do fluxo de trabalho;

[Widget] abrir; renomear; remover; e visualizar a ajuda sobre as ferramentas;

[Options] ver as configurações; restabelecer as definições das ferramentas; e adicionar


complementos (outras ferramentas) ao programa;

[Help] obter informações sobre o programa; informações de boas-vindas; tutoriais; e exemplos.

Já os grupos de Ferramentas do Orange apresentam diferentes perfis de recursos para análise de


dados. Como se pode ver na imagem abaixo, os principais grupos de Ferramentas são:

[Data]: manipulação de dados;

[Visualize]: visualização de dados;

[Model]: predições;

[Evaluate]: classificação avaliativa e desempenho de regressão; e


O RA N G E: Ferramenta de Mineração de Dados em P Y T H O N

[Unsupervisad]: processamentos mais customizados.

Contudo, para trabalhar com dados textuais é preciso adicionar (na barra superior, Options, Add-
ons) os grupos de Ferramentas Textable e Text Mining, apresentados na imagem abaixo, que
oferecem recursos para:

[Textable]: análise de textos; e

[Text Mining]: mineração de textos.

Cada grupo de Ferramentas oferece um conjunto de recursos. São muitas aplicações como dados,
modelos e visualização entre outras.
O RA N G E: Ferramenta de Mineração de Dados em P Y T H O N

3. Objetivo

Impl e ment ar u m pr obl ema pr át i co de pr edi ção de empr ést i mos.


Pr a f aci li t ar t emos a var i ável r esposta( empr ést i mo concedi do: S ou N) , por t ant o
est amos l i dando com um pr obl ema de cl assi f i cação bi nári a, l ogo, t er emos que
usar os al gor i t mos que se enquadr am na cat egor i a de apr endi zado
super vi si onado.

3.1. Obj eti vos Especí fi cos

 Mostrar a predição mais acertada usando conhecimento adquirido


 Comparar métodos de modelagem oferecidos pela ferramenta
 Exibir gráficos para melhor compreensão do projeto
 Exemplo pequeno descrito na tabela abaixo do conjunto de dados:

Variável Descrição
ID do empréstimo ID única do empréstimo
Gênero M/F
Dependentes Número de dependentes
Status do empréstimo Empréstimo aprovado(S/N)

4. Metodologia

A justificativa do projeto é a obtenção de nota na disciplina lógica de programação 2, O conjunto


de dados que será utilizado, simula as características de clientes que pediram empréstimo para um
banco e tiveram ou não a solicitação aprovada. Nossa missão é criar um modelo preditivo que
determine quando um empréstimo deve ser concedido ou não.
O desenvolvimento desse projeto já está em fase final, o projeto é simples e não precisou de nada
tão complexo, foi usado o Orange, linguagem Python e todas as bibliotecas necessárias.
O desenvolvimento se deu em um Windows 10 com as seguintes configurações:

1. Processor Intel(R) Core(TM) i7-2600 CPU @ 3.40GHz, 3401 Mhz, 4 Core(s), 8


Logical Processor(s)
2. Installed Physical Memory (RAM) 8.00 GB
3. Graphic Card AMD Radeon R9 200 Series
4. Storage HDD 2TB
O RA N G E: Ferramenta de Mineração de Dados em P Y T H O N

5. Referências
Janez Demšar; Tomaž Curk; Aleš Erjavec; Črt Gorup; Tomaž Hočevar; Mitar Milutinovič;
Martin Možina; Matija Polajnar; Marko Toplak; Anže Starič; Miha Stajdohar; Lan Umek; Lan
Žagar; Jure Žbontar; Marinka Žitnik; Blaž Zupan (2013). "Orange: data mining toolbox in
Python" (PDF). JMLR. 14 (1): 2349–2353. Acesso em 25/06/2018. Disponível em
<http://jmlr.org/papers/volume14/demsar13a/demsar13a.pdf>
Orange. Acesso em 28/06/2018. Disponível em <https://orange.biolab.si/>
Orange Change Log. Acesso em 25/06/2018. Disponível em
<https://github.com/biolab/orange3/blob/master/CHANGELOG.md>
Orange Download. Acesso em 25/06/2018. Disponível em
<https://orange.biolab.si/download/windows/>
Orange Toolbox. Acesso em 28/06/2018. Disponível em <https://orange.biolab.si/toolbox/>

Você também pode gostar