Você está na página 1de 17

Inferindo as propriedades do halo escuro da galáxia a partir da matéria

visível com aprendizado de máquina

1 INTRODUÇÃO Pesquisas de imagem nos fornecerão fotometria


total precisa que pode ser usada para inferir as
O aprendizado de máquina (ML) é um ramo da
massas estelares (Maraston et al. 2013; Wright et
inteligência artificial que permite classificar ou
al. 2019) e restringir outros parâmetros da
ajustar dados. Os algoritmos de ML aprendem e
população estelar (como idade e metalicidade, ver,
melhoram automaticamente seu desempenho com
por exemplo, La Barbera et al. 2010). Para as
base na experiência, sem serem explicitamente
galáxias mais brilhantes com relações sinal-ruído
programados. Em particular, as ferramentas de
mais altas, seremos capazes de coletar fotometria
ML são aplicadas a sistemas complexos onde uma
de superfície detalhada para medir parâmetros
solução analítica é difícil ou inviável de encontrar.
estruturais (ou seja, o raio efetivo, luminosidade
Por esta razão, o ML tem sido amplamente
total, elipticidade, índice Sérsic e B/D, ver, por
utilizado para aplicações astrofísicas. Estes
exemplo, Grogin et al. 2011, Baldry et al. 2012;
incluem a classificação fotométrica de supernovas
Lange et al. 2016, Roy et al. 2018) para bilhões de
(Lochner et al. 2016, Charnock & Moss 2017), a
galáxias até o desvio para o vermelho ~1,5 (ver,
classificação estrela/galáxia (Baqui et al. 2021), as
por exemplo, Robertson et al. 2017).
análises de dados de ondas gravitacionais (Biswas
et al. 2013, Carrillo et al. 2015), a estimativa do Pesquisas espectroscópicas fornecerão redshifts e
redshift fotométrico (Bilicki et al. 2018, Amaro et medições de dispersão de velocidade central para
al. 2019), a busca de quasares (Nakoneczny et al. milhões de galáxias (de Jong et al. 2019), que
2019), a morfologia da galáxia (Gauci et al. 2010, podem ser usadas para relações de escala de
Ball et al. 2004, Banerji et al. 2010), a busca de galáxias (por exemplo, Bernardi et al. 2005,
eventos de lentes fortes (Petrillo et al. 2017, Nigoche-Netro et al. 2010, Aquino-Ortíz et al.
2019a,b, Schaefer et al. 2017, Lanusse et al. 2017, 2018, Napolitano et al. 2020) ou para restringir a
Hartley et al. 2017, Pourrahmani & Nayyeri 2017, formação estelar de galáxias (Bernardi et al. 2006,
Li et al. . 2019, 2020), a previsão de parâmetros Catalán-Torrecilla et al. 2015).
cosmológicos (Auld et al. 2008, Auld et al. 2007,
No geral, a riqueza de dados esperados das futuras
Shimabukuro & Semelin 2017, Zarrouk &
imagens e estudos espectroscópicos
Bennaceur 2010) e a busca independente do
oferecer-nos-á uma oportunidade única de ter uma
modelo por desvios do modelo ΛCDM (von
compreensão abrangente do conteúdo de matéria
Marttens e outros 2019, 2021). Em particular, as
escura das galáxias. Neste contexto, tem havido
ferramentas de ML são particularmente adequadas
algumas tentativas de usar medições
para aplicação em levantamentos de grandes
observacionais simples, como parâmetros
galáxias, onde a grande quantidade de dados é
estruturais da galáxia e dispersão da velocidade
difícil de lidar com ferramentas de análise padrão
central a partir de pesquisas extensas, para obter
(Kelleher et al. 2020).
informações sobre as frações centrais da matéria
A este respeito, as técnicas de ML escura da galáxia (por exemplo, Hyde & Bernardi
desempenharam um papel importante na 2009b; Tortora et al. 2009, 2013, 2012, 2014,
exploração de conjuntos de dados provenientes de 2018; Napolitano e outros 2010; Beifiori e outros
futuros levantamentos fotométricos do céu, como 2014; Nigoche-Netro e outros 2016, 2019). A
Vera Rubin/LSST (Ivezić et al. 2019), missão maioria desses estudos tem sido até agora baseada
Euclid (Laureijs et al. 2011), o Telescópio da em análises padrão de Jeans, que requerem fortes
Estação Espacial Chinesa (CSST, Zhan 2018) e suposições sobre a dinâmica (por exemplo, o
pesquisas espectroscópicas, como 4MOST (de equilíbrio geral das galáxias e a anisotropia
Jong et al. 2019), WEAVE (Rogers et al. 2014) e interna) e as populações estelares (por exemplo, a
DESI (Edelstein et al. 2018). função de massa inicial, definindo o total da
galáxia massas estelares). Além disso, é bem
conhecido que os perfis de densidade de DM quantidades DM relevantes, como a massa escura
podem ser modificados pelos efeitos total e a massa escura dentro do raio de meia
gravitacionais do colapso (por exemplo, contração massa.
adiabática, Gnedin et al. 2004) ou expansão (por
Este primeiro estudo de “viabilidade” pretende
exemplo, expansão adiabática, ver, por exemplo,
preparar o terreno para análises futuras, onde
Di Cintio et al. 2014) bárions, mudança geral sua
planejamos treinar as ferramentas de ML em
encosta central. Estes efeitos implicam fortes
diferentes simulações (EAGLE: Schaye et al.
degenerescências entre os parâmetros nos
2015, DIANOGA: Bassini et al. 2020,
modelos de galáxias (ver, por exemplo,
Magneticum: Hirschmann et al. 2014) e aplicar as
Napolitano et al. 2010). Além disso, a integração
ferramentas de ML treinadas a dados reais para
das equações de Jeans é muitas vezes um processo
fazer previsões específicas sobre as frações de
tedioso que necessita de aproximações
matéria escura das galáxias a serem comparadas
computacionais para convergir rapidamente. Por
com análises da literatura (por exemplo,
esta razão, estas técnicas têm sido ultimamente
Cappellari et al. 2013; Alabi et al. 2017; Tortora et
aplicadas a amostras relativamente pequenas (por
al. 2018).
exemplo, Cappellari et al. 2006, 2013).
A longo prazo, pretendemos aplicar técnicas de
A este respeito, as técnicas de ML podem fornecer
ML a grandes observações de levantamento do
um paradigma totalmente novo para o estudo da
céu para impor restrições à formação de matéria
matéria escura (DM, daqui em diante) em
bariônica e escura nas galáxias, num cenário
diferentes escalas. Por exemplo, Ntampaka et al.
“universal” único. Na verdade, espera-se que
(2018) usaram Redes Neurais Convolucionais
diferentes cosmologias, combinadas com
(CNNs) para estimar a massa de aglomerados de
diferentes receitas de formação de galáxias,
galáxias a partir de um catálogo simulado de raios
forneçam diferentes previsões observacionais (ver,
X construído a partir da simulação TNG100
por exemplo, Villaescusa-Navarro et al. 2021) que
(Nelson et al. 2019a). Da mesma forma, Yan et al.
podem ser testadas contra dados reais para
(2020) obtiveram previsões para as massas dos
finalmente restringir o melhor cenário
aglomerados usando imagens de simulações
cosmológico + evolutivo. Neste caso, as
hidrodinâmicas de BAHAMAS. Estas análises
ferramentas de ML podem ser usadas para
forneceram novas e interessantes abordagens para
resolver eficazmente este problema de regressão,
a obtenção de estimativas do teor de MS de
que envolve um espaço de parâmetros
sistemas gravitacionais quentes, baseadas no
multidimensional que inclui parâmetros
conhecimento prévio de seu componente
cosmológicos padrão (por exemplo, o parâmetro
bariônico.
de densidade de massa crítica, Ω𝑚, e a dispersão
Neste artigo, testamos a capacidade dos da escala do 8 Mpc flutuações, 𝜎8), além de
algoritmos de ML de fazer previsões sobre as diferentes parâmetros que regulam a formação
propriedades do halo DM das galáxias, a partir de estelar, ventos estelares e potência AGN (ver
quantidades observadas derivadas da matéria Villaescusa-Navarro et al. 2021 para uma
luminosa, em particular imagens ópticas e discussão), possivelmente em diferentes sabores
infravermelhas próximas e espectroscopia. DM (por exemplo, ΛCDM: Komatsu et al. 2011;
Planck Collaboration et al. 2016, Matéria Escura
Fazemos uso de catálogos de galáxias simuladas
Quente: Kang et al. 2013, ou Matéria Escura Auto
do lançamento de dados públicos de simulações
Interagida: Spergel & Steinhardt 2000). Ao treinar
Illustris (Nelson et al. 2019b). De posse desses
ferramentas de ML “supervisionadas” em
dados, treinamos e testamos diversas ferramentas
diferentes simulações, onde um determinado
de ML e as otimizamos para obter a melhor
conjunto de parâmetros observacionais é definido
precisão nas propriedades DM das mesmas
como aqueles medidos nas grandes pesquisas do
galáxias simuladas. Em particular, testaremos qual
céu acima mencionadas, podemos esperar derivar
é o conjunto mínimo de parâmetros necessários
o melhor “universo” interpretando todos os dados.
para produzir uma precisão razoável em algumas
Este trabalho está organizado da seguinte forma: um comprimento de amolecimento de 0,74 kpc
no §2 apresentamos os dados de simulação do para matéria escura e partículas estelares e 1,85
IllustrisTNG-100 utilizados neste trabalho, e as kpc para células de gás. A resolução de massa das
principais grandezas físicas das galáxias partículas de matéria escura é 7, 5×10 𝑀,
6

simuladas que utilizaremos ao longo do artigo. Na enquanto a resolução de massa média das
§3 descrevemos a abordagem adotada para obter o 6
partículas bárions é 1, 4 × 10 𝑀. A parte
melhor pipeline para prever os parâmetros do DM
hidrodinâmica da simulação inclui receitas
da galáxia e as métricas de desempenho usadas
atualizadas para formação e evolução estelar,
para avaliar a precisão dessas previsões. No §4
enriquecimento químico, resfriamento e feedbacks
discutimos os resultados obtidos em nossas
(Weinberger et al. 2017; Pillepich et al. 2018b;
análises. Em particular, avaliamos a exatidão e
Nelson et al. 2018). Também é responsável pelo
precisão das quantidades previstas e realizamos
feedback AGN (Weinberger et al. 2017) e pelo
uma análise de importância do recurso.
modelo de ventos galácticos (Pillepich et al.
Finalmente, no §5 tiramos as conclusões e
2018b), imitando o feedback de supernovas.
discutimos as perspectivas futuras.
A simulação evolui a partir das condições iniciais,
começando no redshift 𝑧 = 127, até 𝑧 = 0 e 136
2 DADOS SINTÉTICOS instantâneos de saída estarem disponíveis. Para
Conforme mencionado no §1, neste trabalho este trabalho, usamos apenas o instantâneo 𝑧 = 0,
usamos dados sintéticos da simulação onde o catálogo de objetos inclui 1.048.574
IllustrisTNG-100 (TNG100, doravante) para os subestruturas. Entre estes, para nossa análise
quais tanto as quantidades bariônicas (ver também selecionamos todas as subestruturas
§2.3) quanto às propriedades dos halos de matéria correspondentes a SubHalos selecionados por
escura (ver também §2.2) são fornecidos. amigos de amigos (FoF), tendo “galáxias” com
massa DM e tamanhos DM maiores que zero e
Na nossa abordagem, as quantidades bariônicas 8
10 𝑀⊙
são as “características”, ou seja, as entradas de massas estelares 𝑀* (𝑧 = 0) > ℎ
. O
entrada das ferramentas de ML, enquanto as número de SubHalos selecionados em nosso
propriedades do halo escuro são os “alvos”, ou catálogo é 43.379, correspondendo ao mesmo
seja, as quantidades que as ferramentas de ML número de SubHalos, no TNG. Doravante nos
precisam prever para cada galáxia correspondente referiremos a esses objetos como “galáxias”1.
a uma determinada entrada.
Abaixo apresentamos detalhes da simulação e o
catálogo de ‘features’ e ‘targets’ de galáxias 2.2 Metas
extraídas do TNG100. Começamos definindo os alvos, ou seja, as
quantidades que queremos prever e que
representam a saída do algoritmo de ML.
2.1 Simulação e catálogo de galáxias Conforme esclarecido anteriormente, neste
A simulação TNG100 é uma simulação trabalho estamos interessados nas propriedades
cosmológica magneto-hidrodinâmica usando um DM das galáxias. A saída do TNG100 fornece
volume móvel de 106, 5 𝑀𝑝𝑐 lado a lado. Os informações separadamente sobre diferentes
parâmetros cosmológicos são definidos de acordo espécies de matéria. No catálogo completo, essas
com Planck 2015 (Ade et al. 2016), ou seja, diferentes espécies de matéria são divididas em
ΩΛ = 0, 6911, Ω𝑚 = 0, 3089, Ω𝑏 = 0, 0486 𝑒 𝐻 grupos denotados por Tipo i, onde i=0, ..., 5
correspondem respectivamente a: gás, MS,
.
traçadores, estrelas + partículas de vento e
3
A simulação contém 1. 820 partículas de
3
matéria escura, 1. 820 células hidrodinâmicas e
1
3 Further details on the TNG100 data can be found on
1. 820 partículas traçadoras de Monte Carlo, com https://www.tngproject.org/data/docs/specifications
buracos negros2. O catálogo TNG100 nos fornece • P4: Banda 𝐾 de Johnson-Bessel (𝜆 = 2,22 𝜇𝑚);
as seguintes quantidades de DM (Tipo_1):
• P5: banda SDSS 𝑔 (𝜆 = 0,469 𝜇𝑚);
• T1: Matéria DM total. No catálogo TNG100
• P6: banda SDSS 𝑟 (𝜆 = 0,617 𝜇𝑚);
este é o parâmetro SubhaloMass. Denotamos este
alvo como 𝑀DM e é dado em unidades de • P7: banda SDSS 𝑖 (𝜆 = 0,748 𝜇𝑚);
10
(10 𝑀⊙)/ℎ; • P8: banda SDSS 𝑧 (𝜆 = 0,893 𝜇𝑚);

• T2: Raio de movimento contendo metade da


massa do MS. Isso corresponde ao parâmetro Esses recursos são todos coletados sob o
SubhaloHalfmassRad. Este alvo é denotado como parâmetro SubhaloStellarPhotometrics_i, onde
𝑅𝐷𝑀/2 e é dado em unidades de 𝑐𝑘𝑝𝑐/ℎ; i=1,..., 8, conforme lista acima. Mantivemos todos
• T3: massa DM dentro do raio da meia massa os filtros, apesar de existir alguma redundância
estelar (ou seja, o raio que contém metade da entre os diferentes sistemas fotométricos porque o
massa estelar total, 𝑅*/2, ver também §2.3). Isso ML irá considerá-los todos de forma
independente. Como um dos objetivos desta
corresponde ao parâmetro análise é estabelecer a importância das
SubhaloMassInHalfRad. Este alvo é denotado características na realização de previsões para
como 𝑀_𝐷𝑀 (𝑅*/2) e é dado em unidades de qualquer alvo, isso nos permitirá considerar a
importância de cada uma das bandas
(10 10
𝑀⊙ /ℎ; ) observacionais acima de uma só vez, sem sistema
• T4: Massa DM dentro do dobro do raio da meia de filtro preferencial Enfatizamos também que o
massa estelar. Isso corresponde ao parâmetro NIR é apenas marginalmente coberto por dois
SubhaloMassInRad. Este alvo é denotado como filtros “extremos”, SDSS 𝑧 e Johnson-Bessel 𝐾.

𝑀𝐷𝑀 ( ) e é dado em unidades de (10 𝑀 )/ℎ;


𝑅*
2
10

Estrutural: Essas características estão
relacionadas a alguns parâmetros estruturais da
massa de matéria visível nos halos. Observe que
essas características são as mesmas quantidades
2.3 Recursos
dos alvos, introduzidas em §2.2, mas definidas
Recursos são as quantidades que os algoritmos de aqui para a massa estelar, que corresponde à
ML utilizam para prever os alvos mencionados partícula Tipo_4.
acima. Como estamos interessados em investigar
• S1: Matéria estelar total. Isso corresponde ao
o poder preditivo dos dados coletados por
parâmetro SubhaloMass. Esta característica é
imagens e levantamentos espectroscópicos em
denotada como 𝑀∗ e é dada em unidades de
óptico e infravermelho próximo, neste trabalho
consideramos um total de 15 características 10¹⁰𝑀 /ℎ;
relacionadas à matéria visível dentro dos halos • S2: Raio comovente contendo metade da massa
fornecidos no catálogo TNG100. Dividimos esses estelar. Esse corresponde ao parâmetro
recursos em três grupos: Fotométricos, Estruturais SubhaloHalfmassRad_4. Esta característica é
e Cinemáticos. Os recursos de cada grupo são os denotada como 𝑅∗/2 e é dada em unidades de
seguintes: 𝑐kpc/ℎ;
Fotométrico: Estas são as magnitudes absolutas • S3: Massa estelar dentro do raio da meia massa
do quadro de repouso nas oito bandas estelar. Isso corresponde ao parâmetro
fotométricas seguintes: SubhaloMassInHalfRadType_4. Esse
• P1: banda Johnson-Bessel 𝑈 (𝜆 = 0,360 𝜇𝑚); o recurso é denotado como 𝑀∗ (𝑅∗/2) e é dado em
10
• P2: Banda 𝐵 de Johnson-Bessel (𝜆 = 0,435 𝜇𝑚); unidades de (10 𝑀⊙)/ℎ;
• P3: Banda 𝑉 de Johnson-Bessel (𝜆 = 0,550 𝜇𝑚); • S4: Massa estelar dentro do dobro do raio da
2 meia massa estelar. Isso corresponde ao parâmetro
A espécie de matéria Tipo_2 não é usada.
SubhaloMassInRadType_4. Esta característica é dessas análises, ainda existem problemas não
denotada como 𝑀∗ (2𝑅∗/2) e é dada em unidades resolvidos na correspondência entre observações e
10
de (10 𝑀⊙)/ℎ; simulações: (𝑖) as simulações ainda são limitadas
em resolução para volumes cosmológicos
suficientemente grandes (Schaye et al. 2015); e
(𝑖𝑖) quantidades observacionais realistas de
Cinemática: Recursos relacionados à distribuição
simulações ainda são insatisfatórias (ver, por
de velocidade na linha de visão:
exemplo, Guidi et al. 2015; van de Sande et al.
• K1: Dispersão unidimensional da velocidade de 2019). Contudo, são problemas que possivelmente
todas as partículas/células membros. Isto serão superados num futuro próximo3. Aqui,
corresponde ao parâmetro SubhaloVelDisp. Esta precisamos observar que a presente análise não se
característica é denotada por 𝜎𝑉 e é dada em destina a fazer previsões de DM em galáxias reais,
unidades de kms−1; portanto o “realismo observacional” das
• K2: Valor máximo da curva de rotação média quantidades usadas como características não é um
esférica. Isto corresponde ao parâmetro problema. Treinar ferramentas de ML em
SubhaloVmax. Esta característica é denotada por simulações mais realistas será assunto para
−1 análises futuras. Neste artigo, queremos abordar
h𝑉i𝑚𝑎𝑥 e é dada em unidades de 𝑘𝑚𝑠 ;
as seguintes questões:
Para os grupos Estrutural e Cinemático, tomamos
o logaritmo (com base 10, “Log” daqui em diante)
de todos os recursos. Isto é particularmente 𝑖) É possível fazer previsões da componente
conveniente em nossa análise porque as relações escura de
de escala típicas envolvendo correlações entre galáxias, a partir de simples parâmetros
parâmetros estruturais e cinemática com observacionais?
fotometria são leis de potência.
Consequentemente, as quantidades logarítmicas 𝑖𝑖) Em caso afirmativo, quais são os melhores
produzem correlações geralmente lineares entre os parâmetros DM que podemos inferir com estes
recursos e os alvos, o que melhora o desempenho dados?
das previsões de ML. A distribuição de todas as
Para fazer isso, estamos motivados a usar
características é mostrada no Apêndice A.
parâmetros observacionais fornecidos por
Observamos aqui que as magnitudes são, por
simulações hidrodinâmicas que carregam as
definição, quantidades Log e, portanto, não
informações físicas contidas em observações
precisam ser transformadas.
reais, mesmo que não sejam totalmente
compatíveis com a observação. Em particular, as
2.3.1 Considerações sobre a correspondência de características fotométricas descritas acima são
características e observações semelhantes aos parâmetros básicos fornecidos
por levantamentos de imagem (por exemplo,
Ao definir as características acima, não SDSS: York et al. 2000; KiDS: de Jong et al.
discutimos a precisão destes parâmetros derivados 2015) e serão uma parte fundamental dos
nas simulações do Illustris em comparação com parâmetros da galáxia fornecidos por futuros
aqueles medidos em galáxias reais. Existem outras grandes levantamentos do céu (por exemplo,
análises dedicadas a estes aspectos específicos, Rubin/LSST: Ivezić et al. 2019; CSST: Zhan
onde simulam propriedades de galáxias como 2018; Euclid: Laureijs et al. 2011).
perfis de luz de galáxias, perfil de cores (ver, por
exemplo, Pulsoni et al. 2020), taxas de formação As características cinemáticas, como a dispersão
de estrelas (por exemplo, Pillepich et al. (2018a)), da velocidade central das galáxias, são parâmetros
e até mesmo a cinemática (ver, por exemplo, van padrão fornecidos pelo atual (por exemplo, SDSS:
de Sande et al. 2019) foi comparada com Nigoche-Netro et al. 2012; LAMOST: Napolitano
observações. Conforme discutido em algumas
3
See e.g. the FIRE project: https://fire.northwestern.edu/
et al. 2020) e futuro (por exemplo, WEAVE: usadas para fazer estimativas de DM usando as
Costantin et al. 2019; 4MOST: de Jong 2011; ferramentas de ML que queremos testar nas
DESI: DESI Collaboration et al. 2016) pesquisas seções seguintes.
espectroscópicas. A este respeito, a dispersão da
velocidade 1D fornecida pelo TNG100 é uma
aproximação justa, pois contém informações 2.4 Matriz de Correlação
sobre os movimentos aleatórios das galáxias, Quando nos deparamos com um problema de
apesar de não estar limitada a alguma abertura aprendizagem estatística, seja de interpolação ou
central4. classificação, é antes de tudo apropriado ver o
Argumentos semelhantes podem ser usados para compartilhamento de informações dentro dos
〈𝑉〉𝑚𝑎𝑥, que também é uma aproximação grosseira recursos que serão utilizados durante a previsão,
bem como entre os recursos e os alvos da
da rotação da galáxia observada, embora, como
previsão, quando o aprendizado é supervisionado.
para 𝜎𝑉, eles mostrem correlações com
Para medir a dependência linear entre dois
parâmetros de fotometria que refletem as relações
conjuntos de dados, utilizou-se o coeficiente de
de escala observadas (ver §2.4).
correlação de Pearson, definido como a razão
Características estruturais, como o raio de meia entre a covariância dos dois conjuntos de dados e
massa, também são derivadas de levantamentos o produto dos seus desvios padrão. Construído
fotométricos (por exemplo, SDSS: Shen et al. desta forma, este coeficiente aparece sempre com
2003; Baldry et al. 2012. ?; KiDS: Roy et al. valor entre -1 e 1, apontando para o máximo da
2018) e serão fornecidas em futuros correlação linear quando 𝜌 = 1 ou 𝜌 = −1, e para a
levantamentos de imagem , enquanto as massas ausência de correlação linear quando 𝜌 = 0.
estelares são obtidas por fotometria multibanda Observe que, como o coeficiente de Person
(por exemplo, Maraston et al. 2013; Wright et al. calcula a correlação linear, funciona apenas como
2019) ou por espectroscopia (por exemplo, um primeiro indicador e não substitui a análise
Kauffmann et al. 2003; Thomas et al. 2011). A completa.
este respeito, as massas estelares fornecidas pelo
Na Figura 1, começamos analisando a matriz de
TNG100, como para os parâmetros de fotometria
correlação para os alvos e os recursos que
acima, fornecem uma representação justa das
utilizamos. Aqui, os alvos são rotulados com um
quantidades derivadas das observações.
índice T*, as características do tipo fotométrico
Com a nossa abordagem de ML, podemos testar são rotuladas como P*, as características do tipo
se o uso de uma combinação de todos esses dados estrutural são rotuladas como S* e as
pode fornecer algumas previsões precisas do características cinemáticas são rotuladas como
conteúdo de matéria escura das galáxias. No K*, conforme definido em §2.2 e §2.3. Os
entanto, isto também dará a oportunidade de testar elementos da matriz de correlação são o
se existe um conjunto mínimo de parâmetros (por coeficiente de correlação de Pearson calculado
exemplo, apenas fotometria ou apenas para todas as combinações de alvo e
espectroscopia ou uma combinação destes características tomadas em pares. A matriz de
parâmetros com parâmetros estruturais), o que correlação também é codificada por cores de
também pode fornecer previsões suficientemente acordo com o valor do coeficiente de Pearson.
precisas. Este será um passo crucial para otimizar Nesta figura, cinco grupos de correlação são
o número de parâmetros observáveis a serem claramente distinguíveis (em roxo), são eles
coletados para as amostras preditivas, ou seja, T1-T2, T3-T4, P1-P2-P3-P4-P5-P6-P7-P8, S2,
galáxias reais de pesquisas específicas, a serem S1-S3-S4- K1-K2.

4
No domínio alvo, T1 está fortemente
Note-se que no cenário plausível de perfis de dispersão de
velocidade quase constante, a abertura tem um efeito mínimo correlacionado com T2, enquanto T3 está
na estimativa global 1D, em relação a outros efeitos como o fortemente correlacionado com T4, mas esses dois
amolecimento gravitacional que pode impactar fortemente as grupos estão levemente correlacionados entre
órbitas estelares em torno dos centros das galáxias (De Rijcke
et al. 2019). eles. Isto é bastante surpreendente, pois é
esperado, que a matéria MS total (T1) deva estar inicial dos do tipo tardio na análise atual, a
correlacionada com a massa dentro de alguns correlação geral pode ser enfraquecida (de forma
raios dados (por exemplo, massa MS dentro do semelhante ao que foi comentado para os raios
raio de meia massa estelar, T3), pois quanto maior escuros e luminosos). Finalmente, as
for a massa total, quanto maior deve ser a massa características cinemáticas estão fortemente
em todos os raios. Por outro lado, as simulações correlacionadas entre elas e estão fortemente
parecem mostrar que existe uma correlação mais correlacionadas positivamente com as massas (S1,
estreita entre o MS total e o meio raio do DM, S3 e S4) e a fotometria. Isso significa que as
denotando a presença de uma relação de escala simulações podem reproduzir outras relações
tamanho-massa para o componente MS. Notamos clássicas de escala para galáxias, correlacionando
também que, uma vez que existe uma correlação luminosidade (e massas) com a velocidade de
fraca entre este último com o raio comovente rotação de galáxias do tipo tardio (a chamada
contendo metade da massa estelar (S1), podemos relação Tully-Fisher, ver, por exemplo, ref;
interpretar a correlação mais fraca entre T1 e também em sua forma bariônica, ver por exemplo,
ambos T3 e T4, como consequência da fraca McGaugh 2012; McGaugh & Schombert 2015) ou
correlação entre os raios de meia massa escuro luminosidade e dispersão de velocidade (a
(T2) e estelar (S2). Este último é interessante chamada relação Faber-Jackson, ver, por exemplo,
porque pode refletir a variação devido à Faber & Jackson 1976; Hyde & Bernardi 2009a).
combinação de diferentes populações de galáxias, Ressaltamos aqui que não estamos interessados
por ex. galáxias de tipo inicial e tardio (ver, por em verificar se as simulações estão reproduzindo
exemplo, Huang et al. 2017; Zanisi et al. 2020), corretamente as relações observadas, pois isso
que não tentamos separar neste trabalho, mas implicaria ter um conjunto completo de
investigaremos no próximo artigo (Wu et al., em observações simuladas realistas das propriedades
preparação). da galáxia, que serão abordadas em análises
futuras. Aqui queremos verificar se, dados alguns
O grupo de feições fotométricas apresenta forte
observáveis definidos nas simulações e
correlação positiva entre elas, o que é óbvio, pois
reproduzindo corretamente a existência de
todas estão conectadas via distribuição de energia
correlações em galáxias reais, é possível fazer
espectral de galáxias (SED), definindo suas
previsões corretas das propriedades DM
populações estelares (ver, por exemplo, Bruzual &
desconhecidas das galáxias, de forma consistente.
Charlot 2003; Vazdekis et al. 2012). Pela mesma
razão, vemos uma forte anti-correlação entre as Concluímos esta primeira inspeção visual das
características fotométricas e as massas estelares5 correlações entre características e alvos, notando
S3 e S4, que codifica as razões massa-luz estelar que nenhuma característica apresenta uma
das populações estelares. Por outro lado, a correlação muito estreita com os alvos. Se
correlação entre a fotometria e o raio da meia existisse uma correlação tão estreita, então seria
massa estelar é mais fraca (∼ −0,3), mas possível usar essa correlação única para fazer
semelhante em magnitude àquela entre as massas previsões diretas do DM nas galáxias. Por outro
estelares e o mesmo S2 (∼0,4). Isto significa que lado, esperamos que combinando as informações
as conhecidas relações tamanho-luminosidade e de diferentes características, um algoritmo de ML
tamanho-massa (ver, por exemplo, Baldry et al. possa “interpolar” essas correlações e obter
2012, Roy et al. 2018) são reproduzidas pelas valores precisos para os diferentes alvos.
simulações, mas as suas correlações são menos Para avaliar a relevância de cada grupo na
significativas do que outras. Uma razão para uma predição das características do DM, realizaremos
correlação tamanho-massa mais pobre é que estas quatro análises. Primeiro, analisamos como cada
têm inclinações diferentes em diferentes tipos de grupo individualmente pode ser usado para prever
galáxias. Como não separamos os sistemas do tipo características do DM e, finalmente, combinamos
5
Observe que o sinal da correlação entre massas e magnitude todos os grupos em uma análise conjunta.
é sempre invertido porque galáxias mais massivas também
são mais luminosas, o que significa que têm magnitudes mais
negativas, por definição.
3 MÉTODO com 𝑋 ∈ R𝑐 e 𝑌 ∈ R𝑑. Para tarefas de regressão,
os elementos de y𝑖 pertencem a reais. Para
Neste trabalho, utilizamos a abordagem de
aprendizagem supervisionada, um ramo comum problemas de classificação, os elementos de y𝑖 são
do ML (Goodfellow et al. 2016). Nesta categoria inteiros, mas não é o nosso caso.
de aprendizagem, pretendemos construir uma Neste trabalho, 𝑋 é representado por todas as
função numérica que nos permita associar objetos características do setor claro, e 𝑌 é representado
no domínio 𝑋 (características) a objetos no pelo alvo do setor escuro, e juntos formam nosso
domínio 𝑌 (alvos) 𝑓 : 𝑋 → 𝑌, o que pode ser visto conjunto de dados, que dividimos aleatoriamente
como uma aproximação para um possível em 80% para a amostra de treinamento e 20%
~ para a amostra de treinamento. amostra de teste.
subjacente à solução exata 𝑓 . Por outras palavras,
procuramos explicar 𝑌 com 𝑋, mapeando entradas
em saídas.
3.2 Pipeline
Há uma infinidade de métodos de ML que podem
3.1 Amostras de treinamento e teste ser usados para resolver problemas de regressão
Para construir esta função aproximada, usamos (Hastie et al. 2009), então: 𝑖) como encontrar, se
apenas uma parte da amostra de dados chamada houver, o melhor método de ML para um
conjunto de treinamento. A melhor aproximação determinado problema? 𝑖𝑖) quais são as melhores
para 𝑓 é alcançada através da minimização de uma operações de engenharia de atributos a serem
função de custo. A amostra restante, chamada de aplicadas antes da análise de ML?
conjunto de testes, é usada para medir o Aqui, a fim de explorar e avaliar todo o espaço de
desempenho, comparando os valores verdadeiros possibilidades, decidimos usar uma ferramenta
(simulados no nosso caso) com os previstos. O automatizada de aprendizado de máquina python
objetivo final é otimizar o modelo que funciona chamada Tree-based Pipeline Optimization Tool
igualmente bem nas amostras de treinamento e de (Olson et al. 2016, TPOT em resumo). Vale
teste (ou seja, um modelo que generaliza bem). ressaltar que, mais do que um único método de
Para evitar viés devido à escolha do conjunto de regressão, o TPOT retorna o “melhor” pipeline,
treinamento e do conjunto de teste, é realizado um que pode ser feito de um único método ou de uma
procedimento de reamostragem de validação combinação de diferentes algoritmos. Uma
cruzada para avaliar o modelo. Espera-se que tal descrição mais detalhada da análise TPOT
modelo faça previsões sobre outros dados que realizada neste artigo é encontrada no Apêndice B
devem ser bem representados pelo conjunto de e os melhores pipelines relatados na Tab. B1.
teste.
A generalização é a propriedade que diferencia
3.3 Métricas de desempenho
uma abordagem de ML de uma solução de
otimização convencional, normalmente usando
todo o conjunto de dados de forma indistinguível.
O conjunto de treinamento, denotado aqui por 𝐴,
consiste em um n-upla (𝑥𝑖 , 𝑦𝑖) (entrada, saída)
como vetor x𝑖 e y𝑖 pertencente ao espaço vetorial
𝑋 e 𝑌 respectivamente:
𝐴 = ((𝑥1, 𝑦1), (𝑥2, 𝑦2), ( ))
..., 𝑥𝑛, 𝑦𝑛 .
com 𝑋 ∈ 𝑅𝑐 e 𝑌 ∈ 𝑅𝑑. Para tarefas de
regressão, os elementos de y𝑖 pertencem a reais.
Para problemas de classificação, os elementos de
y𝑖 são inteiros, mas não é o nosso caso.
Conforme previsto, neste trabalho, focamos na métricas estatísticas bem estabelecidas. Essas
precisão que as ferramentas de ML podem métricas também são usadas para evitar
alcançar na previsão de algumas propriedades underfitting/overfitting nas análises.
específicas de DM das galáxias. Como usaremos
A primeira métrica estatística que utilizamos é o
as mesmas galáxias simuladas como caso de teste,
coeficiente de determinação 𝑅2, que é definido
este experimento é bastante ideal, e a precisão que
por,
encontramos deve ser considerada um limite
^ 2
superior para aplicações futuras em galáxias reais. 2
𝑅 =1−
( )
∑ 𝑦𝑖−𝑦𝑖
,
Em particular, este teste pode fornecer fortes ^ 2
∑(𝑦 −𝑦)
indicações sobre o potencial do conjunto 𝑖
^
completo de dados, composto por fotometria, onde 𝑦𝑖 denota os pontos de dados, 𝑦 denota os
espectroscopia e parâmetros estruturais, ou
pontos previstos e 𝑦 é o valor médio do conjunto
mesmo um subconjunto desses dados. Conforme
de dados. Observe que a Eq. 2 pode ser
descrito no §2, estes fornecem uma aproximação
interpretado como uma versão padronizada da
de ordem 0 do conjunto de dados típico esperado
soma do erro quadrático médio (MSE). Quanto
de inquéritos futuros. 2
mais próximo 𝑅 estiver de 1, melhor será o
Para quantificar a precisão dos valores previstos, 2
pipeline. Para o caso perfeito, onde 𝑅 = 1, o
emitidos pelos pipelines apresentados na Tab. B1,
modelo ajusta-se perfeitamente aos dados, o que
são comparados com os valores “verdadeiros” da
corresponde a MAE = MSE = 0. Além disso, na
amostra de teste, fazemos uso de algumas
avaliação da análise de regressão, 𝑅 mostrou-se
2 dados observacionais da sua matéria luminosa.
mais informativo e confiável do que outras Para cada um dos quatro alvos, realizamos
métricas Chicco et al. (2021). previsões com quatro dados de entrada distintos,
como segue:
O segundo estimador estatístico é o coeficiente de
correlação de Pearson, previamente introduzido e 𝑖) Considerando apenas as feições fotométricas;
utilizado para a matriz de correlação (ver S 2.4), 𝑖𝑖) Considerando apenas recursos estruturais;
que, para efeitos de avaliar a precisão da previsão,
𝑖𝑖𝑖) Considerando apenas recursos cinemáticos;
é definido de forma semelhante como
^ 𝑖𝑣) Combinando todos os recursos em uma análise
ρ= ( ),
𝑐𝑜𝑣 𝑦,𝑦
σ ^σ𝑦 conjunta.
𝑦

Aqui, estamos interessados em medir a correlação Isto perfaz um total de 16 resultados, quatro
entre os dados de teste y𝑖 e os valores relativos previsões para os quatro alvos. As previsões da
^
previstos 𝑦 associados a um mesmo alvo. última das análises listadas (iv) representam o
resultado principal do artigo, mas as análises i), ii)
Os resultados para as métricas estatísticas acima e iii) são úteis para compreender a capacidade
mencionadas são apresentados e discutidos no § preditiva dos diferentes tipos de observações
4.1. Além disso, para fins de completude, separadamente.
apresentamos também o Erro Médio Absoluto
(MAE) e o MSE, que são definidos Para as análises conjuntas, apresentamos também
respectivamente por, a importância dos subgrupos de características nas
regressões para todos os alvos.
^
∑|||𝑦𝑖 − 𝑦𝑖 |||
𝑀𝐴𝐸 = 𝑁
,
2 4.1 Resultados
( ^
∑ 𝑦𝑖 − 𝑦𝑖 )
𝑀𝑆𝐸 = 𝑁
, Conforme discutido na Seção 3.1, durante o
onde 𝑁 é o número total de pontos de dados. O processo TPOT, o conjunto de dados é dividido
MAE fornece uma medida do desvio dos valores em duas amostras: amostras de treinamento e
previstos em relação aos verdadeiros e, portanto, amostras de teste. Enquanto a amostra de
espera-se que seja relativamente pequeno para treinamento, que consiste em 80% da amostra
previsões precisas. O MSE é uma medida da total, são os dados utilizados pelo TPOT para
dispersão da previsão em torno dos valores determinar o melhor pipeline, a amostra de teste
verdadeiros e, portanto, é menor para previsões representa os dados que utilizamos para fazer as
mais precisas. previsões e avaliar a precisão do pipeline
encontrado. Esta última tarefa é feita aplicando as
2
Em geral, se por um lado 𝑅 e 𝜌 medem a métricas de desempenho, discutidas no § 3.3, à
correlação estrita entre os valores previstos e amostra de teste: quanto melhores forem as
verdadeiros, o MAE e o MSE medem a presença métricas, melhor será o modelo. Também é
ou não de deslocamento sistemático e as importante avaliar as métricas de desempenho do
incertezas gerais dos valores previstos. conjunto de treinamento porque elas podem ser
usadas para avaliar o overfitting. O overfitting
ocorre quando as métricas calculadas com a
4 ANÁLISES amostra de teste são significativamente piores do
Nesta seção, mostramos os resultados sobre as que as obtidas com a amostra de treinamento.
previsões dos pipelines de ML selecionados pelo Neste caso, mesmo que o modelo seja capaz de
TPOT (ver §3.2 e Apêndice B) que retornaram ajustar parte do total de dados, ele é considerado
para os quatro alvos e discutimos sua precisão e irrealista porque o pipeline ajustado não consegue
dispersão. Isto permite-nos tirar conclusões sobre prever adequadamente os dados que não foram
a viabilidade dos métodos ML para derivar as utilizados no processo de aprendizagem. Para um
propriedades DM das galáxias, a partir apenas dos modelo com significado físico, espera-se que as
métricas de desempenho calculadas com o fornecem uma dispersão menor e um resultado
conjunto de teste não difiram significativamente mais consistente para todos os valores de T1. Isto
dos valores obtidos com o conjunto de também é quantificado pelo menor MAE (0,131)
treinamento. e MSE (0,043), mostrando uma precisão bastante
boa.
Todos os resultados para as métricas de
2
desempenho discutidas em § 3.3 (ou seja, 𝑅 , 𝜌, Para T2 (raio móvel contendo metade da massa
MAE e MSE), calculados tanto para a amostra de DM), nenhum grupo de características separado
2
treinamento quanto para a amostra de teste, são por si só é capaz de fornecer previsões com 𝑅 >
apresentados na Tab. 1. Em geral, consideramos 0,8, no entanto, quando combinados na análise
que nenhuma das análises sofre overfitting, pois conjunta, todas as características juntas
todos os resultados obtidos com amostra de 2
treinamento e amostra de teste são compatíveis retornar uma previsão satisfatória (𝑅 = 0,865,
entre si. para a amostra de teste). Como é mostrado nos
painéis superior esquerdo, superior direito e
Na Figura 2 mostramos os resultados referentes ao inferior esquerdo da Fig. 3, pode-se ver que todas
T1 (matéria MS total). Pode-se ver que os as análises de grupo único (fotométricas,
recursos fotométricos e cinemáticos por si só estruturais e cinemáticas) mostram uma dispersão
geralmente podem fornecer melhores previsões sensível, particularmente na faixa
em comparação com os recursos estruturais. Em 0 ≲𝐿𝑜𝑔𝑅 𝐷𝑀 ≲ 1 , onde também observamos uma
particular, os recursos fotométricos fornecem os 2

2 “cauda horizontal” em todos os casos. Os valores


melhores resultados (𝑅 = 0,855, para a amostra 2
de teste), enquanto os recursos cinemáticos de 𝑅 calculados para a amostra de treinamento
2 para as análises fotométrica, estrutural e
apresentam um desempenho um pouco pior (𝑅 =
cinemática são 0,748, 0,421 e 0,535,
0,794, para a mesma amostra). Esses resultados
respectivamente. Apenas o caso fotométrico
são ilustrados nos painéis superior esquerdo e
apresenta exatidão (MAE = 0,159 – amostra de
inferior esquerdo da Fig. 2, onde comparamos os
teste) e precisão (MSE = 0,049 – amostra de teste)
valores reais dos alvos, obtidos na simulação do
razoáveis, ainda melhores que as mostradas para
TNG100, com suas respectivas previsões,
T1. Para a análise de características unidas, esses
indicadas por um chapéu. Olhando para as feições
parâmetros (MAE = 0,111 e MSE = 0,026 –
fotométricas e cinemáticas, pode-se ver que,
amostra de teste) são ligeiramente melhores do
embora pareçam ter dispersão semelhante, as
que a análise de características unidas de T1
feições cinemáticas apresentam uma dispersão
(0,131 e 0,043 respectivamente).
maior para galáxias com DM maior. Pode-se
também ver no painel superior direito da Fig. 2 Quanto ao T3 (massa DM dentro do raio de meia
que as características estruturais realmente massa estelar), este
2
fornecem um ajuste pior para T1 (𝑅 = 0,646 e 𝜌 parece ser uma quantidade bem prevista a partir
= 0,660, para a amostra de teste), com uma grande de características da matéria visível. No que diz
dispersão. Isto é refletido por um grande MAE respeito aos grupos individuais, a análise com as
(0,758) e um grande MSE (0,965), que de fato características estruturais é particularmente digna
mostram a presença de sistemática e grande 2
de nota (𝑅 = 0,937, para o conjunto de teste).
dispersão nas previsões. Como esperado, a Este excelente desempenho é ilustrado no painel
precisão das previsões aumenta superior direito da Fig. 4. Do ponto de vista físico,
consideravelmente quando todos os recursos são uma forte correlação entre a massa central do DM
2
combinados (𝑅 = 0,917, para a amostra de e o raio efetivo foi apontada primeiro nas
treinamento na Tabela 1). O resultado da análise observações (por exemplo, Napolitano et al. 2010;
conjunta é mostrado no painel inferior direito da Tortora et al. 2012; Alabi et al. 2016), depois em
Fig. 2. Em comparação com as análises de grupo simulações hidrodinâmicas em escala de galáxia
único, vemos que as previsões da análise conjunta com zoom de alta resolução (por exemplo, Wu et
al. 2014; Remus et al. 2017). Curiosamente, esta
correlação parece codificada também em
simulações hidrodinâmicas de baixa resolução,
como o TNG100 aqui adotado, como
demonstrado pela matriz de correlação na Fig. 1,
onde há uma correlação justa entre T3 e as
características S* (∼ 0,8). Isso é importante na
perspectiva de fazer previsões de DM para da Fig. 4. O gráfico de dispersão estreito e estreito
galáxias reais, usando algoritmos de ML treinados entre os valores previstos e verdadeiros é
em simulações hidrodinâmicas em grande escala. quantificado pelo MAE e MSE, 0,037 e 0,004
respectivamente, que fornecem a medida da boa
Além disso, as previsões dos recursos
exatidão e precisão, muito superior aos resultados
fotométricos e cinemáticos também fornecem
apresentados por T1 e T2.
métricas de alto desempenho. Em particular, as
características fotométricas mostram 𝑅2 (0,883) e Finalmente, para T4 (massa DM dentro do dobro
𝜌 (0,940) ligeiramente melhores para a amostra de do raio da meia massa estelar) temos um resultado
teste do que os resultados das características muito semelhante ao T3, o que é esperado dada a
cinemáticas (𝑅2 = 0,765 e 𝜌 = 0,875, para o sua estreita correlação (ver Fig. 1). Além disso,
conjunto de teste). Seus resultados são estas duas quantidades são fisicamente
apresentados nos painéis superior esquerdo semelhantes, uma vez que são calculadas dentro
de um raio que é duas vezes para T4 em relação a
e inferior esquerdo da Fig. 4. Além dos bons T36. No entanto, apesar da estreita ligação entre os
desempenhos nas análises individuais, o mais dois, as correlações de T3 e T4 com as
notável deste caso é que, quando combinados, a funcionalidades não são idênticas, o que implica
complementaridade de características leva a uma
2
excelente previsão (𝑅 = 0,981 e 𝜌 = 0,990, para a
amostra de treinamento). Vale ressaltar que, na
2
análise conjunta, o 𝑅 calculado com a amostra de
teste é virtualmente idêntico ao valor obtido com
2
o conjunto de treinamento (𝑅 = 0,986), o que
corrobora a conclusão de que este é um resultado 6
Observe que as escalas típicas de DM são muito maiores
fisicamente consistente. O resultado da análise que as escalas típicas de matéria luminosa.
Consequentemente, temos uma pequena variação da massa
conjunta é apresentado no painel inferior direito DM indo para o raio de meia massa estelar de T3 até duas
vezes o raio de meia massa estelar.
um poder preditivo diferente das funcionalidades inferior esquerdo da Fig. 5. Aqui também vemos
e até um pipeline diferente para otimizar os uma complementaridade entre os grupos de
resultados. Isto é mostrado na Tab. B1, onde todos características, pois a análise conjunta atinge um

os melhores pipelines para a análise nível de desempenho quase perfeito (𝑅2 = 0,987,
correspondente para T3 e T4 são diferentes. para o treinamento conjunto e 𝑅2 = 0,993, para o

Apesar destas diferenças, de um modo geral, as conjunto de teste). O resultado conjunto é


métricas de desempenho do T4 são ligeiramente mostrado no painel inferior direito da Fig. 5.
melhores que as encontradas para o T3. O grupo Visualmente, isso parece tão preciso quanto o
de características Estruturais é aquele que gráfico T3, que também é demonstrado pelo
apresenta o melhor desempenho se usado sozinho MAE=0,033 e MES=0,003 (para a amostra de
para prever T4 (𝑅2 = 0,915, para a amostra de teste), que são quase idênticos. para os mesmos
teste), que é um pouco menor que o resultado valores de T3 (0,037 e 0,004 respectivamente).
deste grupo para T3. Por outro lado, os recursos
Para concluir esta seção, podemos afirmar que um
fotométricos (𝑅2 = 0,899, para a amostra de teste)
resultado significativo desta análise é o poder
e cinemático (𝑅2 = 0,821, para a amostra de teste) preditivo das ferramentas de Aprendizado de
fornecem uma ligeira melhoria nas previsões para Máquina (ML) na restrição das propriedades da
T4. Os gráficos de dispersão são apresentados nos Matéria Escura (DM) nas galáxias. Considerando
painéis superior esquerdo, superior direito e o parâmetro observacional de entrada simples
derivado principalmente do componente estelar, Este procedimento avalia o quanto o desempenho
observamos que as previsões mais precisas estão do modelo cai quando uma das características é
limitadas às regiões centrais da galáxia, misturada. Na verdade, cada vez que uma
especialmente em relação à massa de DM a um e característica é corrompida com um
dois raios de meia massa. Este é, sem dúvida, um embaralhamento, a relação dessa característica
dos resultados mais importantes deste artigo, mas específica com o alvo é quebrada, e a perda no
não surpreendente, dado que todas essas desempenho denota o quão importante é a
quantidades estão fisicamente conectadas e não característica. Podemos escolher o número de
requerem extrapolação. Isso também sugere que, vezes que um recurso é embaralhado
para estender as previsões para outras aleatoriamente com o hiperparâmetro n_repeats.
propriedades DM mais "globais", como a massa Para nossos experimentos, tomamos n_repeats =
total ou as escalas características dos halos de 100, depois de termos explorado o intervalo de 20
DM, pode ser necessário considerar observações a 100 sem encontrar diferenças apreciáveis. Na
em uma escala maior. Por exemplo, podemos Fig. 6 mostramos os resultados que obtivemos
mencionar a cinemática de raios maiores, como as com esta configuração. Em particular, mostramos
curvas de rotação de hidrogênio neutro (HI) para os resultados apenas para a análise conjunta, onde
galáxias espirais (Lelli et al. 2016), nebulosas podemos mostrar cumulativamente os valores de
planetárias e aglomerados globulares (Napolitano importância dos recursos para cada grupo de
et al. 2014, Pota et al. 2015), bem como raios X recursos adequadamente normalizados para a
para galáxias elípticas (Lyskova et al. 2014). unidade. Isto é bastante útil por dois motivos
principais:
Na próxima seção, quantificaremos a importância
de cada grupo de características (ou seja, 𝑖) Ajuda a entender a física por trás da adequação
fotométrico, estrutural e cinemático) para as da abordagem ML, que é de alguma forma
análises conjuntas. Isso nos permitirá criptografada nas relações de escala entre os
compreender se é razoável esperar uma conexão diferentes grupos de recursos discutidos em §1
direta entre a análise de ML com um único grupo (por exemplo, tamanho-massa, relações
de características apresentado aqui e a TullyFisher e Faber-Jackson, Plano Fundamental,
importância das características correspondentes. etc. .);
Pretendemos investigar se um desempenho
𝑖𝑖) Também ajuda traçar estratégias para aquisição
melhor do ML em um determinado grupo de
e análise de dados, principalmente se for
características implicaria em uma análise conjunta
demorado, (que tipo de dados? fotometria ou
mais crucial.
espectroscopia? que tipo de parâmetro extrair
desses dados? precisamos de parâmetros
4.2 Importância do recurso estruturais para todas as galáxias?) ;

A análise da “importância do recurso” é uma Para este primeiro artigo, não entramos em
prática comum em aplicações de ML. Isso é usado detalhes sobre a importância relativa das
para descobrir qual dos recursos desempenha o características em cada grupo (por exemplo,
papel mais decisivo nos algoritmos de ML para bandas ópticas vs. NIR em fotometria, massa
prever os alvos. Isso não tem nada a ver com estelar vs. massa gasosa em estrutural, etc.)
precisão, pois a importância do recurso não porque isso pode ser parcialmente função de os
seleciona os recursos que retornam a melhor tipos de galáxias, que também não distinguimos
precisão, mas apenas o seu impacto nas previsões nesta análise. Estes aspectos farão parte da
finais. próxima etapa do projeto (Wu et al., em
preparação), portanto, a seguir discutiremos
Para nossa análise de importância de atributos, apenas a importância relativa dos diferentes
utilizamos o método permutation_importance grupos.
(Breiman 2001), fornecido pelo software
scikit-learn (Pedregosa et al. 2011). Seguindo a ordem dos alvos na Fig. 6, podemos
ver que as características fotométricas são as que
impulsionam mais as previsões da matéria DM A importância do raio de meia-luz pode sugerir
total (T1), raio comovente de meia massa DM que os parâmetros estruturais podem contar mais
(T2) e massa DM dentro de duas vezes a meia no T2 (raio de meia massa do DM). Isto seria
massa estelar. raio (T4), enquanto para a massa verdade se houvesse uma forte correlação entre os
DM dentro do raio de meia massa estelar (T3), as raios de meia massa do DM e a matéria estelar.
características mais importantes são as Conforme já mencionado em §2.4, de acordo com
características estruturais (raio de meia massa a matriz de correlação da Figura 1, não há
estelar e massas estelares totais dentro de um e correlação forte entre T2 e S2 (0,3). Portanto, a
dois raios de meia massa estelar, em particular). forte dependência de T2 nos parâmetros de
fotometria é razoável, já que estes últimos
A cinemática é a segunda característica
(combinados com a massa estelar dentro dos
importante para T1 e T3, embora
parâmetros estruturais) fornecem as maiores
surpreendentemente seja a menos importante para
restrições na massa escura e o raio de meia massa
T4, que, de acordo com a discussão na seção
do DM é determinado por sua correlação com o
anterior, não deve ser diferente de T3, dada a
DM. massa.
definição próxima das duas grandezas.
No geral, da Figura 6 podemos concluir que não
Para compreender o comportamento do T4 e, em
há nenhum grupo específico de observáveis que
geral, passar para a interpretação física destes
possamos descartar ao fazer previsões de matéria
resultados de “importância da característica”,
escura em galáxias. A fotometria é imperdível,
precisamos primeiro enfatizar o que acontece
pois fornece informações sobre a luminosidade e
quando duas ou mais características estão
as massas estelares das galáxias. Mas isto é
altamente correlacionadas. Nesse caso, a
bastante óbvio e os levantamentos de imagens são
permutação de um recurso terá um impacto
sempre o primeiro passo para catalogar galáxias.
pequeno nas previsões de ML porque o modelo
Os parâmetros cinemáticos são menos óbvios.
pode obter as mesmas informações de um recurso
Apesar da cinemática interna ser reconhecida
correlacionado que não foi permutado. A Figura 1
como uma informação importante sobre as
mostra algumas correlações fortes entre
galáxias, elas são difíceis de medir, por isso são
características de diferentes grupos. Por exemplo,
frequentemente deixadas de lado em grandes
a fotometria e a massa estelar apresentam índices
levantamentos espectroscópicos onde os objetivos
de correlação > 0,9, devido à sua estreita ligação
principais continuam sendo as medições do desvio
física. Na verdade, a massa dentro do raio da
para o vermelho das galáxias (mas veja SDSS:
meia-luz (𝑅ℎ), 𝑀𝑠𝑡𝑎𝑟(𝑅ℎ) = 𝑀/𝐿𝑥 ×𝐿𝑥/2, onde
Thomas et al. 2013; LAMOST: Napolitano e
𝑀/𝐿𝑥 e 𝐿𝑥 são a razão massa-luz e a luminosidade outros 2020). Pesquisas futuras são projetadas
total na banda 𝑥, respectivamente. para listar esses parâmetros (ver WEAVE:
Com esta premissa necessária, podemos tentar Costantin et al. 2019; WAVES: Driver et al.
interpretar a diferença entre a importância dos 2019). Portanto, estes serão cruciais para as
recursos T3 e T4. A fotometria, por conter análises de ML que propomos aqui.
também informações sobre a massa estelar, é uma Antecipamos que o resultado mais importante
característica importante para prever a massa deste artigo é que os observáveis luminosos
escura, uma vez que a massa estelar e a massa podem fornecer previsões precisas do DM dentro
escura estão fortemente correlacionadas (ver, por do raio de meia-luz. Para estas análises, os
exemplo, Moster et al. 2010). Portanto, a parâmetros estruturais da galáxia são medidas
fotometria é importante tanto para T3 quanto para cruciais a recolher, apesar de serem bastante
T4. No entanto, T3 é a massa estritamente dentro difíceis e exigentes em termos computacionais
do raio da meia-luz, portanto este parâmetro (ver, por exemplo, Yoon et al. 2011, Baldry et al.
estrutural (S1) conta tanto quanto a massa estelar. 2012). No entanto, ferramentas de ML estão
Então, para T3, em geral, os parâmetros sendo desenvolvidas recentemente para realizar
estruturais (raios e massas estelares) assumem a também esse tipo de análise e torná-las possíveis
fotometria.
para futuras grandes pesquisas do céu (Tuccillo et dentro do raio de meia massa, T3), todas as
al. 2018, Li et al. 2020). características são quase igualmente importantes.
Para concluir esta seção, queremos enfatizar as
diferenças entre a “importância do recurso” e as
5. CONCLUSÕES
métricas estatísticas da análise separada dos
grupos Fotométrico, Estrutural e Cinemático Usamos as simulações Illustris-TNG para
relatados na Tabela 1. Embora estes tenham uma investigar se as ferramentas de aprendizado de
conexão importante (como mencionado acima), máquina podem fazer previsões sólidas sobre o
eles não carregam as mesmas informações, mas conteúdo de DM em galáxias em uma
representam conjuntos de dados complementares. determinada cosmologia, com uma determinada
Em particular, ao comparar a “importância do receita de formação de galáxias, a partir de
recurso” e os resultados das métricas estatísticas, parâmetros observacionais simples. Os principais
podemos ver como o desempenho dos diferentes objetivos deste trabalho ainda são exploratórios,
grupos muda quando permitimos a interação entre pois estamos utilizando, para este projeto, um
eles. Por exemplo, para T1, a ordem de conjunto de dados ideal onde tanto a amostra de
contribuição na análise de importância do recurso treinamento quanto a amostra de teste são
é a mesma que a ordem de desempenho das extraídas de simulações. Em outras palavras, o
2 “observacional
métricas estatísticas como escala 𝑅 ou 𝜌 com a
mesma classificação da Fig. 6. Pelo contrário, quantidades” usadas como catálogos simulados
para T2 e T3, embora o grupo de características ainda carecem de realismo observacional para nos
mais importante permaneça o mesmo, os outros permitir uma avaliação completa das precisões
dois permutam a sua ordem de importância. Isto que se pode esperar empregando essas técnicas.
significa que na análise de junção para T3 os No entanto, como primeiro passo, queremos
parâmetros cinemáticos contam mais do que os demonstrar que esta é uma direção viável a
parâmetros estruturais para melhorar a precisão, explorar para futuras análises de grandes amostras
mesmo que, individualmente, a cinemática por si de galáxias, como aquela que se espera que seja
2
só tenha um 𝑅 e 𝜌 pior que a fotometria, e observada em futuros levantamentos fotométricos
também MAE e MSE piores. e espectroscópicos. Esta é a primeira tentativa de
aplicar a técnica de ML a galáxias, que segue
Para T4, o grupo de feições Fotométricas assume tentativas anteriores feitas para fazer previsões de
o papel principal na análise conjunta sobre o matéria escura em aglomerados de galáxias (por
grupo de feições Estruturais, pelos motivos exemplo, Yan et al. 2020).
discutidos acima. Isso nos leva a concluir que a
importância do recurso não é uma métrica Aproveitando os catálogos públicos do
quantitativa para um determinado conjunto de Illustris-TNG, identificamos uma série de
dados, pois não é derivada deterministicamente. parâmetros observacionais, representando os
Na verdade, o seu resultado depende dos pipelines recursos que queremos usar para fazer previsões
específicos em uso (ver Apêndice B), que de DM. Estes foram agrupados em três conjuntos
privilegiaram uma característica de um grupo de principais: parâmetros de fotometria (ou seja, as
recursos em detrimento de outro, mas isso não magnitudes em 8 bandas diferentes), parâmetros
significa que outro pipeline possa dar preferência estruturais (ou seja, o raio de meia massa estelar e
aos recursos de uma maneira diferente. três massas bariônicas diferentes), parâmetros
cinemáticos (ou seja, dispersão de velocidade 1D
No entanto, a importância desta análise continua a de todos partículas e a velocidade máxima de
ser a de saber se existem grupos de variáveis que rotação). Também usamos os parâmetros do halo
podem ser excluídas da análise em virtude de da matéria escura (massa DM total, raio de
darem pouca ou nenhuma contribuição às movimento de meia massa DM, massa DM dentro
previsões alvo. Em particular, demonstramos que do raio de meia massa estelar e os raios de meia
para o melhor alvo que podemos prever (o DM massa) como uma série de “alvos” para o ML
prever. Devido à multiplicidade de algoritmos de
aprendizagem ML existentes no mercado, todos os alvos (incluindo este raio também) um
apresentando vantagens e desvantagens em resultado excelente (0,87 . 𝑅2 . 0,98).
alcançar a melhor precisão nas previsões alvo,
adotamos uma aprendizagem supervisionada onde
exploramos um amplo conjunto de modelos com a
ajuda do TPOT. Esta é uma ferramenta
automatizada para transformações de dados e
algoritmos de aprendizado de máquina que usa
um procedimento de pesquisa genética para
descobrir com eficiência um pipeline de modelo
com melhor desempenho para um determinado
conjunto de dados. Apresentamos nossos
resultados graficamente nas Figuras 2, 3, 4 e 5, e
numericamente na Tabela 1. Os melhores
pipelines, fundados pela ferramenta automatizada
de ML, fornecem diferentes níveis de precisão das
previsões dependendo do alvo do DM.
Resumimos os principais resultados aqui abaixo:
𝑖) As ferramentas de ML são uma solução
promissora para fazer previsões do conteúdo de
DM em galáxias a partir de uma série de medições
fotométricas, espectroscópicas e estruturais
simples. Os resultados obtidos neste trabalho, no
entanto, baseiam-se em “observáveis luminosos”
idealizados e as precisões alcançadas neste
primeiro experimento são possivelmente muito
otimistas. Isto não afeta a conclusão sobre a
aplicabilidade destas técnicas, mas encoraja-nos a
avançar no desenvolvimento destas ferramentas
utilizando maior realismo nos conjuntos de dados
simulados. Estes últimos serão usados para treinar
ferramentas de ML para fazer previsões sobre o
conteúdo de DM de galáxias reais em
levantamentos fotométricos e espectroscópicos de
próxima geração;
𝑖𝑖) As características estruturais e fotométricas são
particularmente eficazes para a previsão de DM
do raio de meia massa estelar (0,88 .𝑅2 . 0,94) e a
previsão de DM dentro do dobro da proporção de
meia massa estelar (0,90 . 𝑅2 . 0,92). Além disso,
características fotométricas se destacam para
prever a matéria MS total (𝑅2 , 0,86).
𝑖𝑖𝑖) O raio comovente contendo metade da massa
DM é o alvo mais difícil de ser determinado e
nenhum grupo de observações sozinho consegue
fazer isso (𝑅2 . 0,75), mas a análise conjunta
melhorou visivelmente as previsões dadas a todos

Você também pode gostar