Você está na página 1de 1

Introdução ao Uso de Ferramentas

Livres em Ciência de Dados:


Demonstração de Algoritmos de
Aprendizado de Máquina com Python

João Paulo dos Santos Mendes, Irineu Antunes Júnior


{joao.mendes@ufabc.edu.br, irineu.antunes@ufabc.edu.br }

INTRODUÇÃO
Neste artigo, aborda-se a área de Ciência de
Dados (Data Science, DS) por meio exemplos
computacionais que realizam Aprendizado de
Máquina (Machine Learning, ML).

Um iniciante na área pode ter dificuldade no


uso prático dessas técnicas pois se trata de
uma área extensa e multidisciplinar (Figura Figura 1: Áreas de DS Figura 2: Aprendizado de Máquina
1), com muitas aplicações. Em particular, a
grande variedade de pacotes e a vasta
documentação das inúmeras bibliotecas da
plataforma Phyton podem representar uma
dificuldade para novos utilizadores.

O objetivo deste artigo é de auxiliar o leitor


interessado a superar essas dificuldades.

Para isto, inicialmente, é oferecido um breve


resumo dos conceitos básicos de DS. Em
seguida, são apresentados exemplos de
algoritmos de ML.
Figura 3: Árvore de Decisão VS Distribuição real da amostra
Nos exemplo, são empregadas apenas
ferramentas livres: o pacote Scikit-Learn
desenvolvido em Python como forma de
verificar o uso prático desta técnica de DS.

CONCEITOS BÁSICOS
Data Science

É a arte e a ciência de adquirir conhecimento


através dos dados (OZDEMIR 2016).
DS exige competências em três áreas
distintas e sobrepostas:

• Habilidades de um estatístico; Figura 4: KNN vs. Regressão Linear

• Habilidades de um cientista da EXPERIMENTOS EM DS


computação; Foram considerados exemplos de ML utilizando os algoritmos: Árvore de Decisão, Regressão Linear,
K Nearest Neighbors (KNN) e Kmeans. Na Figura 3, exemplifica-se uma Árvore de Decisão com
• Conhecimento especializado.
apenas 3 nós e a distribuição real das amostras do conjunto de dados da base de dados Íris.
Representada pela Figura 1 uma versão
Na figura 4, pode-se observar a diferença de acurácia da predição entre os algoritmos KNN (K=9) e
traduzida o Diagrama de Drew Conway
Regressão Linear dado um mesmo conjunto de dados.
(CONWAY 2010 apud VANDERPLAS 2016).
DISCUSSÃO E CONCLUSÃO
Aprendizado de Máquina Os exemplos detalhados no artigo servem de ponto de partida para o iniciante em DS

A rigor é um ramo da inteligência artificial, compreender e aplicar em DS por meio de ferramentas de ML e de análise de base dados

mas em DS é considerada como um meio livre. Espera-se que o material ser utilizado seja útil como guia para início rápido nesta área
para identificar os parâmetros de um modelo que vêm ganhando importância com crescente volume de dados na atualidade.
de dados (VANDERPLAS, 2016). REFERÊNCIAS
OZDEMIR, S. Principles of Data Science. Packt Publishing Ltd, 2016.
Normalmente, um método de ML pode ser
VANDERPLAS, J. Python data science handbook: Essential tools for working with data. O'Reilly
dividido de acordo a Figura 2. Media, 2016.

ENCONTRO Especialização em Tecnologias Apoio:

DE AVALIAÇÃO DO TCC
e Sistemas de Informação

Você também pode gostar