Você está na página 1de 18

CENTRO UNIVERSITÁRIO DE MARINGÁ - UNICESUMAR

PROPOSTA DE MONOGRAFIA DE GRADUAÇÃO


EM ENGENHARIA DE SOFTWARE

PROPOSTA DE CRITÉRIOS PARA CLASSIFICAÇÃO DE


MORFOLOGIAS EM GALÁXIAS DISTANTES EM NOSSO
UNIVERSO

YAN GUILHERME GIMENES AMORIM

Maringá
Agosto de 2016
1
YAN GUILHERME GIMENES AMORIM

PROPOSTA DE CRITÉRIOS PARA CLASSIFICAÇÃO DE MORFOLOGIAS EM


GALÁXIAS DISTANTES EM NOSSO UNIVERSO

Proposta de monografia apresentada ao


Curso de Engenharia de Software do
Centro Universitário de Maringá –
UNICESUMAR como parte dos requisitos
para a obtenção do Grau de Engenheiro
de Software

Orientador: Prof. Maurilio Campano Junior


Coorientador: Prof. Dr. Flávio Bortolozzi

Maringá
Agosto de 2016

2
RESUMO

Com o passar dos dias telescópios em torno da Terra capturam mais e mais
imagens de galáxias distantes, sendo assim, o interesse pela classificação de
forma automatizada é crescente devido ao grande número de dados que são
coletados, configurando assim um cenário rico no qual são criadas
oportunidades para a criação de algoritmos de classificação e ordenação
dessas imagens. Na investigação dessas oportunidades de pesquisa, será
utilizado como base o projeto online de ciência cidadã em astronomia Galaxy
Zoo, que consiste em convidar pessoas para classificarem morfologias de um
grande número de galáxias. Técnicas de aprendizado de máquina podem ser
empregadas de forma alternativa e complementar aos algoritmos de
processamento de imagens, possibilitando a extração e a avaliação de padrões
dessas imagens. Entretanto, tanto na análise de algoritmos de processamento
de imagens quanto na utilização de técnicas de aprendizado de máquina, a
literatura reporta trabalhos que complementam a compreensão desse
problema. Nesse cenário, a plataforma Kaggle de crowdsourcing levantou uma
competição junto com o Galaxy Zoo e Winton Capital para produzir o Galaxy
Challenge, onde participantes ajudarão a classificar galáxias em categorias.
Nesta monografia, apresentará todas as etapas do processo de
desenvolvimento de um algoritmo de processamento de imagens e
aprendizado de máquina para classificar e ordenar tipos de galáxias, e de fato,
apresentar os métodos e técnicas que resolvem a competição Galaxy
Challenge. Por fim, serão reportados resultados da aplicação das técnicas em
uma tabela comparativa com os primeiros colocados da competição.

Palavras chave: Aprendizado de Máquina Profundo, Redes Neurais,


Processamento de Imagens, Kaggle, Galaxy Zoo, Competição.

3
ABSTRACT

Over the days telescopes around the Earth capture more and more images of
distant galaxies, thus the interest in automated classification is growing because
of the number of data that are collected, thus creating a rich setting in which
they are created opportunities for creating classification algorithms and sort
these images. In the investigation of these research opportunities, it will be used
as a basis the project online crowd-science in astronomy Galaxy Zoo, which is
to invite people to rate morphologies of a large number of galaxies. machine
learning techniques can be employed in alternative and complementary to the
image processing algorithms form, enabling the extraction and evaluation
standards of these images. However, both the analysis of image processing
algorithms as the use of machine learning techniques, literature reports works
that complement the understanding of this problem. In this scenario, the
crowdsourcing platform Kaggle up a competition with the Galaxy Zoo and
Winton Capital to produce the Galaxy Challenge, where participants will help
classify galaxies into categories in the competition are asked to analyze galaxy
images in order to find metrics automation that reproduce the likelihood of
deliberate distribution by human classifications. In this monograph will present
all stages of the development process of an image processing algorithm and
machine learning to classify and sort types of galaxies, and in fact, present the
methods and techniques that solve the Galaxy Challenge competition. Finally,
they will be reported to the application of techniques results in a comparative
table with the top finishers in the competition.

Keywords: Deep Learning, Neural Networks, Image Processing, Kaggle,


Galaxy Zoo, Competition.

4
LISTA DE FIGURAS

Figura 1. A árvore de decisão de Galaxy Zoo, coletado de Willett et al. 2013.

5
LISTA DE ABREVIATURAS

SDSS Levantamento Digital do Céu Sloan (Sloan Digital Sky Surveys)

6
SUMÁRIO

1. INTRODUÇÃO........................................................................................................8

2. JUSTIFICATIVA....................................................................................................10

3. FATORES CRÍTICOS NA ELABORAÇÃO DO PROJETO...................................11

4. OBJETIVOS A SEREM ALCANÇADOS...............................................................11

4.1 Objetivo Geral...................................................................................................11

4.2 Objetivos Específicos........................................................................................11

5 METODOLOGIA...................................................................................................12

6 REFERENCIAL BIBLIOGRÁFICO........................................................................13

6.1 Introdução.............................................................................................................. 13

6.2 Aprendizado de Máquina..................................................................................14

7. CRONOGRAMA DE ATIVIDADES.......................................................................15

8. RESULTADOS ESPERADOS..............................................................................16

9. REFERÊNCIAS....................................................................................................17

1. INTRODUÇÃO

7
A necessidade pela compreensão de como e por que estamos aqui é uma das
questões fundamentais para a humanidade. Parte da resposta consiste nas
origens das galáxias, como por exemplo a nossa Via Láctea. No entanto, ainda
existem dúvidas sobre como a Via Láctea ou qualquer outra galáxia de nosso
universo foi formado e evoluiu. Nesse caso, compreender a distribuição,
localização, forma, tamanho e cor são peças fundamentais para resolver esse
enigma [Willett et al. 2013].

“Ciência Cidadã” é uma prática científica pública onde voluntários auxiliam


cientistas a conduzirem suas pesquisas. Cientistas cidadãos trabalharam com
profissionais cientistas para coletaram dados durante séculos
[Silvertown 2009, Bracey 2010]. Atualmente, com a massiva proliferação de
dados científicos online e a facilidade com que a internet promove, trazem
novas oportunidades para cientistas cidadãos trabalharem em projetos de
Ciência Cidadã em astronomia, detalhados em Mendez [2008].

Iniciado em julho de 2007, o projeto de Ciência Cidadã Galaxy Zoo possui o


maior número de publicações baseados em Ciência Cidadã, com uma base de
dados com milhões de galáxias providas pelo Sloan Digital Sky Survey (SDSS
DR6), um dos primeiros e maiores mapas digitais do Universo.

A classificação e ordenação dessas galáxias dependem de um enorme número


de amostras de possíveis galáxias classificadas. Os levantamentos modernos
providenciam imagens suficientes, várias centenas de milhares delas, mas
ainda existe a necessidade de que as pessoas as classifiquem. Nesse caso, a
classificação de galáxias é feita manualmente na plataforma de Ciência Cidadã
Galaxy Zoo.

Esse novo método de Ciência Cidadã mostrou ser um grande avanço para a
área de pesquisa científica. A fim de melhorar e compreender como as
diferentes formas (ou morfologias) de galáxias se relacionam com a física que
os criaram, através de suas classificações, foi criada uma competição na
plataforma de crowdsourcing Kaggle em parceria com Galaxy Zoo e Winton
Capital para produzir o desafio Galaxy, nessa competição pede-se aos
participantes classificarem as imagens de galáxias em categorias a fim de

8
encontrar métricas de automatização que reproduzem a probabilidade de
distribuição deliberada pelas classificações humanas.

A proposta desta pesquisa é explorar a habilidade das redes neurais artificiais


em classificar objetos astronômicos do SDSS em tipos de morfologias [Way, M.
J., 2011]. Portanto, propõe-se a criação e a utilização de mais um artefato que
deverá ser baseado nos resultados do primeiro colocado do desafio Galaxy
(2015), uma vez que serão utilizados os mesmos algoritmos e técnicas de
processamento com a finalidade de identificar informações mais profundas que
outras técnicas mais convencionais não conseguem explorar. No entanto, não
apenas com o foco na exploração das habilidades das redes neurais artificiais
e análise dos resultados do primeiro colocado propriamente dito, mas também
na aplicação de outros métodos e algoritmos que indiretamente levam ao
resultado, de modo que este possa de fato revelar todo seu potencial como
uma alternativa para a classificação de morfologias em galáxias e assim
apresentar quais foram as etapas e as técnicas utilizadas no processo de
desenvolvimento de um algoritmo de processamento de imagens.

9
2. JUSTIFICATIVA

Atualmente, um dos maiores desafios para os astrónomos está na classificação


e seleção de imagens de galáxias. Pensando no objetivo desta pesquisa e no
público alvo, surgiu a necessidade de levantar os critérios necessários para o
desenvolvimento de um algoritmo de aprendizado de máquina que terá a
capacidade de separar as imagens de galáxias distantes de nosso universo.
Para obtenção destes requisitos, a pesquisa visa criar artefatos que permitam
descobrir e explorar as habilidades das redes neurais artificiais para classificar
as imagens de galáxias, identificar informações mais profundas que outras
técnicas mais convencionais não conseguem explorar e assim apresentar quais
foram as etapas e as técnicas utilizadas no processo de desenvolvimento de
um algoritmo de processamento de imagens.

10
3. FATORES CRÍTICOS NA ELABORAÇÃO DO PROJETO

Sabemos que existem alguns fatores críticos para a execução desse projeto:

 o aprendizado de máquina, que visa identificar padrões que podem ser


compreendidos pelo sistema;
 o processamento computacional das imagens.

4. OBJETIVOS A SEREM ALCANÇADOS

4.1 Objetivo Geral

Apresentar todas as etapas do processo de desenvolvimento de um algoritmo


para classificar galáxias utilizando métodos e técnicas de processamento de
imagens e aprendizado de máquina, baseados na cultura e valores da
comunidade dos usuários do sistema, astrónomos pesquisadores, do Galaxy
Zoo.

4.2 Objetivos Específicos

1. Investigar a literatura existente acerca dos temas relacionados.


2. Pesquisar a cultura e valores da comunidade usuário do sistema, que
são astrónomos pesquisadores do Galaxy Zoo.
3. Construir uma base teórica sobre os conceitos e pressupostos sobre o
tema pesquisado.
4. Elencar os principais conceitos e premissas dos algoritmos de
reconhecimento de padrões em imagens.
5. Apresentar um processo de desenvolvimento de um algoritmo de
aprendizado de máquina para processar e categorizar as imagens do
Sloan Digital Sky Survey (SDSS), abordando e comentando passo a
passo todas as etapas desse processo.

11
5 METODOLOGIA

O objetivo geral deste trabalho é apresentar todas as etapas do processo de


desenvolvimento de um algoritmo para classificar galáxias utilizando métodos e
técnicas de reconhecimento de padrões, baseados na cultura e valores da
comunidade usuário do sistema Galaxy Zoo.

Para atingir este objetivo, foram elaboradas as seguintes perguntas de


pesquisa:

1. O que é Aprendizado de Máquina e processamento de imagens?


2. Como são classificadas as imagens de processamento de imagens?
3. Quais algoritmos e técnicas podem ser aplicadas para resolver o
problema de classificação de galáxias?
4. Como propor os artefatos e obter requisitos para as etapas do processo
de desenvolvimento de um algoritmo para processamento de imagens,
levando em consideração a cultura e valores dos usuários do sistema
Galaxy Zoo.
5. Existem dúvidas sobre como a Via Láctea ou qualquer galáxia de nosso
universo foi formado e evoluiu.
6. O que é necessário para compreender a distribuição, localização, forma,
tamanho e cor para resolver esse problema?

12
6 REFERENCIAL BIBLIOGRÁFICO

6.1 Introdução

Na plataforma de crowdsourcing Galaxy Zoo, os usuários são convidados a


descrever a morfologia das galáxias com base em imagens. Eles são
convidados a perguntar como “O quão arredondado é a nossa galáxia" e "Será
que ela tem uma convexidade central?", e as respostas dos usuários
determinarão qual será inquirido em seguida. As perguntas formam uma árvore
de decisão, que é mostrada na figura abaixo, feita a partir de Willett et al. 2013.

Figura 1. A árvore de decisão de Galaxy Zoo, coletado de Willett et al. 2013.

Quando muitos usuários classificaram a mesma imagem, suas respostas


podem ser agregadas em um conjunto de probabilidades para cada resposta.

13
Muitas vezes, nem todos os usuários vão concordar em todas as suas
respostas, por isso é útil quantificar essa incerteza.

O objetivo do desafio Galaxy Zoo é de prever estas probabilidades das


imagens de galáxias que são mostrados para os usuários. Em outras palavras,
construir um modelo de como "a multidão" percebe e classificam estas
imagens.

Isso significa que é um problema de regressão, e não um problema de


classificação: não temos que determinar quais as classes que as galáxias
pertencem, mas sim a fração de pessoas que classificam as como tal.

6.2 Aprendizado de Máquina

Atualmente podemos dizer que a inteligência artificial tornou-se um meio que


facilita a interação entre os usuários. As pessoas utilizam serviços e aplicações
em vários tipos de situações: para fins profissionais ou pessoais, no trabalho,
em casa ou enquanto se locomovem; para trabalhar; aprender; jogar; relaxar,
entre outras atividades.
O Aprendizado de Máquina cresceu através de um trabalho da inteligência
artificial, fazendo com que os computadores tivessem novas capacidades
inteligentes. Sendo assim, podemos citar alguns exemplos: mineração de
dados, onde é realizado o levantamento de grande números de informações da
web; aplicações que não podem ser programadas manualmente, tais como:
helicóptero autônomo, reconhecimento de escrita, computação visual e
processamento de linguagem natural, entre outros; compreensão do
aprendizado humano.

Podemos definir Aprendizado de Máquina como um campo de estudo onde


computadores possuem a capacidade de aprender sem ser explícitamente
programado, [Arthur Samuel, 1959]. No entando, a forma com que os
algoritmos aprendem a processar imagens de galáxias é através de algoritmos
de regressão, pois não precisamos determinar quais classes elas pertencem,

14
porém precisamos determinar apenas a fração de pessoas que determinaram e
classificaram a galáxias em determinados tipos.

7. CRONOGRAMA DE ATIVIDADES

Março - Maio - Julho - Setembro - Novembro


Abril Junho Agosto Outubro -
Dezembro
Primeira X
fase
Segunda X
fase
Terceira X
fase
Quarta X
fase
Quinta fase X
Sexta fase X
Sétima X
fase
Oitava fase X

 Primeira fase: pesquisa, análise, compreensão teórica.


 Segunda fase: elaboração da proposta.
 Terceira fase: acompanhamento e análise da comunidade de
astrónomos pesquisadores do Galaxy zoo.
 Quarta fase: apresentação da proposta
 Sexta fase: estudos, análises sobre aprendizado de máquina e
algoritmos de reconhecimento de padrões.
 Sétima fase: apresentação do andamento da pesquisa.
 Oitava fase: apresentação dos resultados.

15
8. RESULTADOS ESPERADOS

Apresentar todas as etapas do processo de desenvolvimento de um algoritmo


que seja capaz de classificar as imagens do SDSS e oferecer uma alternativa
melhorada para o processo de reconhecimento de padrões que poderá ser
utilizada por especialistas da área de processamento de imagens.

16
9. REFERÊNCIAS

V. Le, Quoc; Ngiam, Jiquan, Coates, Adam, Lahiri, Abhik, P., Bobby; Y. Ng.,
Andrew. Optimization methods for deep learning. In Proceedings of the Twenty-
Eighth International Conference on Machine Learning, 2011. Disponível em: <
http://ai.stanford.edu/~ang/papers/icml11-OptimizationForDeepLearning.pdf >.
Acesso em: 28 ago. 2016.

Lee, Honglak, Grosse, Roger, Ranganath, Rajesh, Y. Ng, Andrew.


Convolutional deep belief networks for scalable unsupervised learning of
hierarchical representations. In Proceedings of the Twenty-Sixth International
Conference on Machine Learning, 2009. Disponívem em <
http://ai.stanford.edu/~ang/papers/icml09-ConvolutionalDeepBeliefNetworks.pdf
>. Acesso em: 28 ago. 2016.

Nagi, Jawad, A. Di Caro, Gianni, Giusti, Alessando, Nagi, Farrukh, M.


Gambardella, Luca. Convolutional Neural Support Vector Machines: Hybrid
Visual Pattern Classifiers for Multi-robot Systems. In 11th International
Conference on Machine Learning and Applications, 2012. Disponível em <
http://people.idsia.ch/~nagi/conferences/idsia/icmla2012.pdf>. Acesso em: 28
ago. 2016.

Tang, Yichuan. Deep Learning using Linear Support Vector Machines.


Disponível em: <http://deeplearning.net/wp-
content/uploads/2013/03/dlsvm.pdf>. Acesso em: 28 ago. 2016.

Krizhevsky, Alex. Learning Multiple Layers of Features from Tiny Images.


Disponível em: < https://www.cs.toronto.edu/~kriz/learning-features-2009-
TR.pdf>. Acesso em: 28 ago. 2016.

17
Dean, Jeffrey; S. Corrado, Greg; Monga, Rajat; Chen, Kai; Devin, Matthieu; V.
Le, Quoc; Mao Z., Mark; Ranzato, Marc’Aurelio; Senior, Andrew; Tucker, Paul;
Yang, Ke; Y. Ng, Andrew. Large Scale Distributed Deep Networks. Disponível
em: < http://static.googleusercontent.com/media/research.google.com/pt-
BR//archive/large_deep_networks_nips2012.pdf>. Acesso em: 28 ago. 2016.

Bengio, Yoshua. Learning Deep Architectures for AI, 2009. Disponível em: <
http://www.iro.umontreal.ca/~bengioy/papers/ftml_book.pdf>. Acesso em: 28
ago. 2016.

Kyle W. Willett (Minnesota U.) et al.. Aug 15, 2013. 30 pp. Galaxy Zoo 2:
detailed morphological classifications for 304,122 galaxies from the Sloan
Digital Sky Survey. Disponível em: < http://arxiv.org/pdf/1308.3496v2.pdf>.
Acesso em: 28 ago. 2016.

Way, M. J. et al. Galaxy Zoo Morphology and Photometric Redshifts in the


Sloan Digital Sky Survey. Disponível em:
<http://iopscience.iop.org/article/10.1088/2041-8205/734/1/L9>. Acesso em: 28
ago. 2016.

Banerji, Manda et al. Galaxy Zoo: reproducing galaxy morphologies via


machine learning. Disponível em: <
http://mnras.oxfordjournals.org/content/406/1/342.full.pdf>. Acesso em: 28 ago.
2016.

Hubel, D. and Wiesel, T. (1968). Receptive fields and functional architecture of


monkey striate cortex. Journal of Physiology (London), 195, 215–243.

18

Você também pode gostar