Bioinformática Aplicada PDF

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
INSTITUTO METROPOLE DIGITAL

PROGRAMA DE POS-GRADUAÇÃO EM BIOINFORMÁTICA
ANDRÉ LUÍS FONSECA FAUSTINO
Bioinformática aplicada ao desenvolvimento de estratégias de prognóstico e tratamento

do câncer: Estudos na prospecção de alvos terapêuticos, antígenos tumorais e na
dinâmica de resposta a drogas.
NATAL-RN,
2018
Universidade Federal do Rio Grande do Norte - UFRN
Sistema de Bibliotecas - SISBI
Catalogação de Publicação na Fonte. UFRN - Biblioteca Central Zila Mamede
Faustino, Andre Luis Fonseca.

Bioinformática aplicada ao desenvolvimento de estratégias de
prognóstico e tratamento do câncer: Estudos na prospecção de
alvos terapêuticos, antígenos tumorais e na dinâmica de resposta
a drogas. / Andre Luis Fonseca Faustino. - Natal, 2018.
81 f.: il.
Tese (doutorado) - Universidade Federal do Rio Grande do

Norte, Instituto Metrópole Digital, Programa de Pós-Graduação em
Bioinformática. Natal, RN, 2018.
Orientador: Prof. Dr. Sandro José de Souza.
Coorientador: Prof. Dr. Junior Barrera.
1. Bioinformática - Tese. 2. Proteínas de superfície - Tese.

3. Imunoterapia - Tese. 4. Antígenos tumorais - Tese. 5.
Resistência a droga - Tese. I. Souza, Sandro José de. II.
Barrera, Junior. III. Título.
RN/UF/BCZM CDU 004:577
Elaborado por FERNANDA DE MEDEIROS FERREIRA AQUINO - CRB-15/301

ANDRÉ LUÍS FONSECA FAUSTINO
Bioinformática aplicada ao desenvolvimento de estratégias de prognóstico e tratamento

do câncer: Estudos na prospecção de alvos terapêuticos, antígenos tumorais e na
dinâmica de resposta a drogas.
Defesa de Doutorado apresentada ao

Programa de Pós-Graduação em
Bioinformática da Universidade Federal
do Rio Grande do Norte.
Área de concentração: Bioinformática

Linha de Pesquisa: Biologia de
Sistemas
Orientador: Prof. Dr. Sandro José de
Souza
Co-orientador: Prof. Dr. Junior Barrera
NATAL-RN,
2018
DEDICATÓRIA
Aos que enxergam o mundo com olhos de criança,

Aos que se apaixonam pelo novo,
Aos que pensam fora da caixa e que se lançam aos desafios,
Aos que se permitem aprender e errar.
AGRADECIMENTOS
A todos os mentores que tive, pelas lições e ensinamentos que me transmitiram e,

sobretudo pelos desafios que levaram além do que eu imaginava.
Ao professor Sandro José de Souza, pela confiança deposita e oportunidade de tê-lo

como orientador e exemplo de pesquisador.
A instituição de fomento, CAPES, que através da rede de Biologia Sistêmica do Câncer,

me concedeu suporte financeiro para concluir o doutorado. Agradeço por todo o investimento em
nossa pesquisa e sobretudo por melhorarem a qualidade da ciência no Brasil.
Aos colegas e profissionais do BioME, por sempre dedicarem tempo e cuidados para
tornar o instituto um lar.
Aos amigos e irmãos que a vida me deu, obrigado pelo apoio emocional e pelas boas
gargalhadas que carrego na memória. Sinto-me grato terem compartilhado esses momentos
comigo. E, que nossa amizade seja igual a “zueira” - never ends!
As mulheres da minha vida, mãe (Maria Goretti da Costa Fonseca), tia (Delfina Cássia
da Costa Fonseca) e irmã (Ana Luísa Fonseca Faustino), que sempre foram um exemplo de
força e dedicação. O amor de vocês me fez o homem que eu sou. Obrigado, sem vocês essa
caminhada teria sido impossível.
A todos vocês, obrigado.

RESUMO
Essencialmente, a pesquisa do câncer é um campo que envolve vários ramos,

abrangendo a compreensão da biologia do câncer, design de drogas e desenvolvimento
terapêutico. De maneira geral, a pesquisa contra o câncer está concentrada no diagnóstico,
prognóstico, tratamento e, finalmente, na cura do paciente. Nesse contexto, a bioinformática do
câncer surge como um poderoso recurso, integrando dados públicos e, consequentemente,
permitindo o avanço de aplicações clínicas. Têm-se como exemplo, o desenvolvimento de
abordagens para tratamento, a descoberta de novas drogas e também, recentemente, de
estratégias imunoterapêuticas. Neste trabalho, apresenta-se abordagens distintas para
compreender a biologia do câncer com foco no seu tratamento e, principalmente, na predição do
prognóstico. Cada capítulo mostra diferentes aplicações clínicas como, a previsão de resultados
de sobrevida, oportunidades para novos tratamentos imunológicos e resistência a drogas. Nos
capítulos iniciais são apresentados catálogos extensivos de genes associados a: i) marcadores
de superfície de celular e ii) antígenos de câncer/testículo (CTAs). Em particular, foi demonstrado
o efeito de assinaturas gênicas compostas por essas categorias, na predição do status de
prognóstico em pacientes com câncer. Em um segundo momento, foi discutido o
desenvolvimento de novas estratégias de imunoterapia baseadas em vacinas, combinando
múltiplos CTAs. Particularmente, discute-se como as assinaturas de CTAs compostas por
HEATR9, INSL3, GTSF1L e HSF5 melhoram o status de prognóstico em pacientes com
melanoma. Por último, apresentamos uma metodologia com foco na regulação pós-
transcricional, a qual integra informação genotípica, dados de expressão e concentração de
drogas para avaliar a resistência/sensibilidade do tratamento, utilizando dados de linhagem
celular e de pacientes. Como conclusão, foram apresentadas três abordagens independentes
para melhorar o tratamento do câncer, que podem ser usadas combinando ou não, os
marcadores de prognóstico da superfície celular, o preditor de resposta a drogas e as vacinas
contra o câncer. Ainda, como outros produtos importantes, são mencionados dois artigos
publicados em períodos internacionais, bem como, uma patente em andamento.
Palavras-chave: Proteínas de superfície, imunoterapia, antígenos tumorais e resistência a

droga
ABSTRACT
Essentially, cancer research is a field that covers several branches, which expanding from
basic to translational research, including cancer characterization, as well as, clinical trials and
therapeutic development. Regardless, the cancer research has been focusing on cancer
diagnosis, prognosis, treatment and, ultimately into the patient cure. In this context, the cancer
bioinformatics can be defined as a powerful resource by integrating public data and,
consequently, allowing the advancement of clinical applications. For instance, into the
development of approaches to treat cancer, such as drug discovery and, recently into the
immunotherapeutic strategies. In this work, we present distinct approaches to understand the
cancer biology focusing on cancer treatment and, mainly, into prognosis prediction. Furthermore,
all chapters cover different aspects into clinical applications, such as survival outcome prediction,
opportunities for new immunological treatment, and drug resistance. The first chapters’ present
extensive gene catalogs associated with i) cell surface markers, and ii) cancer/testis antigens
(CTAs). Furthermore, we discuss the effect of gene signatures into prognosis status. As result,
we present three-gene signatures associated with poor prognosis in breast cancer patients. On
another hand, also have been shown a discussion about the development of new immunotherapy
strategies based on multiple-CTAs vaccines. Particularly, we have shown how the CTAs
signatures composed by HEATR9, INSL3, GTSF1L, and HSF5 are associated with good
prognosis status in patients with melanoma. Finally, we present a methodology focusing on post-
transcriptional regulation that integrates genotype information, expression data, and drug
concentration to evaluate the treatment resistance/sensitivity using cell-line/patient data. In
conclusion, were presented three independent approaches to improving cancer treatment, that
can be used by combining or not the cell surface prognosis markers, drug response predictor and
cancer vaccines. Also, as other important products were produced two international articles and,
currently, an in-progress patent.
Keywords: Cell surface proteins, immunotherapy, tumor antigens and drug resistance
LISTA DE FIGURAS
Figura 1. Exemplificação de um gráfico de sobrevivência, Kaplan-Meier 21
Figura 2. Comparação dos genes associados ao prognóstico em diferentes tumores 39
Figura 3. Distribuição de genes associados ao prognóstico e infiltração de CD8+ 40
Figura 4. Análises associadas a distribuição de “Proportional score” no conjunto “CD8+ 43
Rank 1”
Figura 5. Curvas de sobrevivência dos genes associados ao bom prognóstico no conjunto 45
“CD8+ Rank 1”
Figura 6. Curvas de sobrevivência das assinaturas de pares de CTAs 46
Figura 7. Representa o fluxograma completo das análises, o qual compreende a 53
recuperação dos dados, correlação de Pearson e análise de sobrevivência
Figura 8. Comparativo entre os resultados significativos por categoria gênica em cada 56
droga
Figura 9. Boxplot demonstrando a categorização dos resultados para drogas associadas 58
a dano ao DNA
Figura 10. Boxplot ilustrando casos extremos de RBPs com correlações positivas e 59
negativas por genótipo de TP53
Figura 11. Enriquecimento de genes associados à transcrição gênica por genótipo de 61
TP53.
Figura 12. Heatmap com RBPs extremos para o genótipo TP53 Wildtype 62
Figura 13. Heatmap com RBPs extremos para o genótipo TP53 Mutated 63
Figura 14. Análise de sobrevivência para RBPs em amostras do TCGA 65
LISTA DE TABELAS
Tabela 1. Quantidade de genes nas intersecções entre os postos de genes associados a 41

prognóstico e infiltração de células T CD8+
Tabela 2. Contagem de casos significativos por categoria de gene associado à 54
transcrição
LISTA DE ABREVIAÇÕES
Abreviação Definição
BRCA Carcinoma invasivo de mama
BLCA Carcinoma uretral de bexiga
KIRC Carcinoma de rim do tipo células claras
COADREAD Adenocarcinoma de cólon e reto
GBM Glioblastoma
OV Cistadenocarcinoma seroso ovariano
SKCM Melanoma cutâneo
PRAD Adenocarcinoma de próstata
HNSC Carcinoma de células escamosas de cabeça e pescoço
LUAD Adenocarcinoma de pulmão
LGG Glioma de grau baixo
HBM Projeto Human Body Map
RNA-Seq Sequenciamento de RNA, do inglês, RNA Sequencing
CTAs Antígenos câncer/testículo, do inglês, cancer-testis antigens
RBPs Proteínas ligadas a RNA, do inglês, RNA-Binding Proteins
HPA Projeto Human Protein Atlas
GTex Projeto Genotype-Tissue Expression
TCGA The Cancer Genome Atlas
1000GDSC Genome Drug Sensitivity Cancer
SUMÁRIO
1. INTRODUÇÃO 11
1.1. Um breve histórico sobre a pesquisa contra o câncer 11
1.2. Câncer: uma doença complexa 12
1.3. Era genômica e o câncer 14
1.4. Bioinformática aplicada à oncologia 15
1.5. Produtos terapêuticos e a Bioinformática 16
1.6. Métodos de avaliação de prognóstico 20
1.7. Sobre os desafios no tratamento do câncer 22
2. OBJETIVOS 24
2.1. Objetivo Geral 24
2.2. Objetivos Específicos 24
3. CAPÍTULO 1 – SURFACEOMA E IDENTIFICAÇÃO DE ALVOS TERAPÊUTICOS 26
4. CAPÍTULO 2 – IDENTIFICAÇÃO DE ANTÍGENOS TUMORAIS 34
1. Introdução 34
2. Metodologia 37
3. Resultados 39
3.1. Analise em escala genômica entre tumores do TCGA 39
3.2. Avaliação de antígenos tumorais em melanoma 40
3.3. Antígenos tumorais associados com bom prognóstico 41
3.4. Classificação dos possíveis antígenos tumorais 43
3.5. Assinaturas de CTAs e análises de sobrevivência 44
4. Discussão 48
5. CAPITULO 3 – RNA-BINDING PROTEINS E RESPOSTA A DROGAS 50
1. Introdução 50
2. Metodologia 52
3. Resultados 53
3.1. Genotipagem das linhas celulares 53
3.2. Perfil dos genes associados à transcrição 55
3.3. Classificação dos resultados conforme a resposta às drogas 56
3.4. Enriquecimento de genes associados à transcrição 59
3.5. Mecanismo de resistência à droga mediados por RBPs 61
3.6. Análise de sobrevida dos RBPs 63
4. Discussão 65
6. CONCLUSÃO 68
7. REFERÊNCIAS 70
11
1. INTRODUÇÃO
1.1. Um breve histórico sobre a pesquisa contra o câncer
A pesquisa contra o câncer tem como principal objetivo desenvolver métodos capazes de
prevenir, detectar, diagnosticar, tratar e, em última instância, curar as diversas patologias
conhecidas como câncer. Ela abrange diversos níveis, desde a pesquisa básica até aplicações
clínicas (GOLDBLATT; LEE, 2010). De maneira geral, as aplicações produzidas pela pesquisa
contra o câncer, têm impacto na compreensão da doença e no desenvolvimento de abordagens
terapêuticas (ARRUEBO et al., 2011). Além disso, a pesquisa contra o câncer está posicionada
como uma das únicas áreas registradas durante da história da humanidade (FAGUET, 2015).
Historicamente, o estudo sobre o câncer remonta de períodos anteriores à Era Comum,
com as hipóteses de Hipócrates, até o período contemporâneo. Na verdade, a pesquisa contra
o câncer apresenta diversas transições históricas, contemplando da Antiguidade (Egito e Roma),
à Idade Média, até a Segunda Guerra Mundial (FAGUET, 2015). Nesse cenário, alguns eventos
têm maior destaque, sobretudo aqueles relacionados à compreensão da origem e progressão do
conjunto de patologias conhecidas como câncer (AKULAPALLI, 2009). Em adição, a história da
pesquisa do câncer é fundamentada em eventos políticos ou avanços tecnológicos – a exemplo
da “Guerra contra o Câncer” e o desenvolvimento de sequenciadores de segunda geração,
respectivamente.
Resumidamente, a “Guerra contra o Câncer”, corresponde a um ato nacional norte-
americano sancionado pelo presidente Richard Nixon em 1971, o qual estabelecia o incentivo à
pesquisa contra o câncer através do National Cancer Institute (NCA – NIH). Em particular, esse
período foi marcado pelo desenvolvimento de centros e programas de pesquisa, bem como,
estabelecimento de parcerias com instituições internacionais e a construção de bancos de dados
genéticos (REHEMTULLA, 2009). Nos anos posteriores, diversos avanços foram obtidos,
incluindo investimento na pesquisa em biologia molecular, padronização de sistemas de cultivo
celular, produção de medicamentos (Imatinib) e, principalmente, aprovação comercial de
anticorpos monoclonais (trastuzumab, em 1998) (DEVITA; CHU, 2008; MARDIS; WILSON,
2009). Subsequentemente, a pesquisa contra o câncer passou por uma segunda revolução,
fundamentada pelo mapeamento do genoma humano e pela interação com métodos
computacionais capazes de caracterizar a heterogeneidade de tumores (DEVITA; CHU, 2008).
12
Atualmente, a pesquisa contra o câncer está em sua “Era Moderna”, intimamente

relacionada com o avanço tecnológico e computacional, principalmente devido à disponibilidade
de plataformas de sequenciamento de nova geração (KOBOLDT et al., 2013). Esse período foi
marcado pelo aumento exponencial na produção de dados e, consequentemente, na
dependência de recursos computacionais para interpretação e armazenamento (SINGER et al.,
2017; STRATTON; CAMPBELL; FUTREAL, 2010). A quantidade de dados pelos sequenciadores
permitiu, pela primeira vez, compreender de fato a complexidade de câncer, bem como investigá-
lo de maneira efetiva (FERTÉ et al., 2013). Como resultado, foram desenvolvidas uma variedade
de soluções para diagnóstico e tratamento do câncer. Particularmente, tecnologias genômicas
têm sido aplicadas para caracterização do tumor, prospecção de mutações acionáveis e predição
de prognóstico (DEVITA; CHU, 2008; KOBOLDT et al., 2013).
Hoje existem diversos protocolos ou testes clínicos capazes de prever a resposta a
drogas e o risco de metástase (KITTANEH; MONTERO, 2013). De forma paralela, em relação
ao tratamento nível de tratamento é possível evidenciar, o desenvolvimento de estratégias
baseadas em drogas adjuvantes e quimioterápicos até, mais recentemente, a utilização de
imunoterapias (AKULAPALLI, 2009). Dessa forma, pode-se afirmar que a pesquisa contra câncer
tem sido constantemente afetada pelo desenvolvimento técnico-cientifico.
Finalmente, o presente trabalho contempla um conjunto de descobertas que visam
incrementar o conhecimento na pesquisa contra o câncer, principalmente, na área de produção
de tecnologias para prognostico e imunoterapia. Sendo assim, os itens subsequentes foram
organizados, de modo a contextualizar aspectos importantes sobre o câncer, pontuando alguns
avanços fundamentais no diagnóstico e tratamento dessa doença, bem como, exemplificando os
avanços mediados pela Bioinformática.
1.2. Câncer: uma doença complexa
Câncer é fundamentalmente uma doença complexa, que tem início a partir do acúmulo
de mutações somáticas em múltiplos genes, associadas à regulação da divisão celular e
proliferação (VOGELSTEIN; KINZLER, 2004). Em síntese, o desenvolvimento da patologia está
relacionado a uma sequência de eventos que envolvem desde o surgimento de alterações
genéticas (mutações), interações com o ambiente e a desregulação de mecanismos moleculares
(reparo de DNA, apoptose e funções imunológicas). Além disso, a doença está fortemente
associada a fatores epigenéticos, que em última instância afetam aspectos fisiopatológicos
como: predição do prognóstico, resposta a drogas e estadiamento tumoral (SARAH, 2010).
13
Conceitualmente, o termo "câncer" compreende um conjunto de aproximadamente 280

doenças, as quais podem ser distinguidas a nível histológico ou de estadiamento, bem como a
nível molecular, em relação a mutações e vias metabólicas desreguladas em cada patologia
(HASSANPOUR; DEHGHANI, 2017). Em adição, um ponto importante sobre a patologia está
vinculado à benignidade ou à malignidade do tumor, sendo o termo câncer apenas designado
para tumores ou neoplasias malignas. Basicamente, neoplasias malignas apresentam alta taxa
de proliferação celular, capacidade de infiltração em tecidos adjacentes e disseminação pelo
corpo do paciente (metástase) (BERTRAM, 2011).
O surgimento do câncer ou carcinogênese, é mediado por diversos fatores desde
extrínsecos (tabagismo, álcool ou radiação solar) até mesmo intrínsecos do indivíduo (idade,
imunossupressão, obesidade e inflamações crônicas) (BLACKADAR, 2016). Algumas hipóteses
discutem que eventos são necessários para conduzir a carcinogênese, por exemplo, i) a
quantidade de eventos mutacionais necessários iniciar o câncer, hipótese de Knudson
(KNUDSON, 2001); ou ii) a origem do câncer dependente de células com características
pluripotentes, câncer a partir de células-tronco (YOO; HATFIELD, 2008). Além disso, alguns
cânceres têm sua origem associada à infecção viral, a exemplo do vírus do grupo HPV e o câncer
de colo de útero (BANSAL; SINGH; RAI, 2016).
Independentemente, a progressão do câncer segue uma dinâmica semelhante à
evolução Darwiniana, ocorrendo processo de seleção das populações de células no
microambiente tumoral. Em termos simples, o desenvolvimento da doença ocorre por dois
processos básicos: a aquisição, o acúmulo e herança de mutações somáticas e, em seguida, a
seleção de populações celulares que apresentam as mutações mais favoráveis (STRATTON;
CAMPBELL; FUTREAL, 2010). Dessa forma, as células cancerígenas seguem um processo que
resulta na redução da diversidade genética, privilegiando subpopulações com maior
adaptabilidade, i.e., de células que têm maior eficiência no escape dos mecanismos de controle
e na proliferação celular. Como resultado, cada patologia é heterogênea, apresentando uma
assinatura molecular específica por indivíduo, o que afeta diretamente a conduta terapêutica,
escolha medicamentosa e o prognóstico dos pacientes (FISHER; PUSZTAI; SWANTON, 2014).
Em adição, os eventos que induzem a formação de tumores podem ser categorizados de
acordo com a natureza das mutações e pelo efeito na função gênica. Primeiramente, as
mutações são classificadas em duas categorias, drivers e passengers, dependendo do impacto
da mutação no fitness do tumor, ou seja, na capacidade proliferativa, adaptativa e/ou resistência
à apoptose. As mutações "driver" têm impacto funcional no fitness das células cancerosas,
modulando alguns mecanismos genéticos, que por consequência dão vantagem ao tumor. Em
14
contrapartida, as mutações "passengers" têm impacto neutro ou inexpressivo no fitness do tumor.

Em parênteses, no caso das mutações "driver", são normalmente observadas em genes da
classe oncogenes ou supressores tumorais (BAILEY et al., 2018; PON; MARRA, 2015).
Em suma, o efeito na função gênica está vinculado ao ganho de função (oncogenes) ou
à inativação do produto gênico (supressores tumorais). Tradicionalmente, oncogenes e
supressores foram classificados como componentes que afetam de forma positiva ou negativa a
proliferação celular. Por exemplo, i) genes vinculados ao crescimento epitelial (EGFR e ERBB2)
e ; ii) regulação a apoptose e sobrevivência celular (TP53 e PTEN), respectivamente
(VOGELSTEIN et al., 2013). Por outro lado, a definição de oncogenes e supressores tumorais
pode variar dependendo do perfil mutacional da patologia (SHEN; SHI; WANG, 2018). Além
disso, alguns trabalhos têm apontado funções contrastantes em TP53, tipicamente um supressor
tumoral, sendo vinculado a características oncogênicas em cânceres (SIGAL; ROTTER, 2000).
1.3. Era genômica e o câncer
Atualmente, o estudo do câncer tem priorizado aspectos clínicos vinculados às alterações

genéticas como, por exemplo, o impacto na agressividade e sobrevivência dos pacientes (OW et
al., 2013). Tal realidade apenas se tornou concreta devido ao avanço das novas tecnologias de
sequenciamento genético, o que tem permitido a investigação de forma exaustiva de uma
enorme parcela das alterações genéticas por paciente (STRATTON; CAMPBELL; FUTREAL,
2010).
A Era Genômica (2003), como foi denominada, teve seu início com a conclusão do
genoma de humano e a concomitante disponibilidade de tecnologias de sequenciamento de
DNA. Entre os avanços guiados pelas tecnologias de sequenciamento, podem ser destacados
vários achados vinculados à pesquisa contra o câncer. A exemplo disso, foram produzidos
diversos repositórios públicos descriminando centenas de mutações em genes associadas ao
surgimento e a progressão do câncer, o que permitiu romper com a amarra clássica da pesquisa
pontual ou gene-a-gene (WERNER; MILLS; RAM, 2014). Como consequência, o avanço no
conhecimento foi substancial, permitindo a compreensão de diversos aspectos na tumorigênese
e dando um vislumbre a questões mais profundas envolvendo a biologia do câncer. Além disso,
deu-se início a implementação de métodos baseado em sequenciamento para diagnóstico do
câncer como, por exemplo, sequenciamento dos genes BRCA1/2 em pacientes com câncer de
ovário (S FRANK et al., 1998). Em paralelo, a demanda de soluções de bioinformática teve um
15
aumento significativo, principalmente, devido a análise de sequencias e crescimento dos

repositórios públicos (YANG et al., 2015).
Embora as realizações do período tenham sido notáveis, ainda existia uma limitação
quanto à relação entre a cobertura, o tempo e o rendimento das tecnologias de sequenciamento.
Tal aspecto foi drasticamente reduzido pelo surgimento das plataformas de sequenciamento de
alto rendimento (KOBOLDT et al., 2013).
O surgimento das novas plataformas de sequenciamento (do inglês, next-generation
sequencing ou NGS), teve como consequência a popularização de várias plataformas, em
destaque as máquinas das companhias lllumina e Roche (MARDIS; WILSON, 2009).
Subsequentemente, o arsenal de recursos na pesquisa teve um segundo avanço: o
sequenciamento do genoma completo de tecidos saudáveis e tumorais em um mesmo paciente.
Além disso, novas aplicações foram desenvolvidas, sobretudo capazes de medir a agressividade
do tumor, a distinguir subtipos tumorais, bem como facilitar o desenvolvimento de novas drogas
anticâncer (LU DY, LU TR, CHEN XL, CHEN EH, DING J, 2015; WOOLLER et al., 2017).
Nos anos seguintes, em busca de otimizar o processo de sequenciamento e reduzir ainda
mais os custos de sequenciamento, diversas iniciativas independentes passaram a desenvolver
estratégias e/ou novas tecnologias de sequenciamento (STRATTON; CAMPBELL; FUTREAL,
2010). Em 2007, Vogelstein e colaboradores desenvolveram uma nova metodologia, atualmente
denominada exoma (WES). Basicamente, o método consiste no sequenciamento de uma fração
do genoma, apenas as regiões de éxons, reduzindo o custo por sequenciamento e visando às
mutações de maior impacto funcional (PETERSEN et al., 2017). As vantagens propiciadas pela
nova metodologia a tornaram bastante popular, além de possibilitar a análise de mutações em
várias ordens de grandeza, mutação pontual até amplificações cromossômicas, com maior
confiabilidade (HORAK; FRÖHLING; GLIMM, 2016). Somado a isso, novas aplicações para o
sequenciamento foram propostas como, por exemplo, o RNA-Seq e CHIP-Seq. Em particular, o
RNA-Seq tem sequenciamento dos transcritos que fornece não apenas níveis de expressão
gênica, mas também splicing aberrante, transcrições de fusão gênica característica de células
cancerosas e mutações somáticas expressas (ESWARAN et al., 2013).
1.4. Bioinformática aplicada à oncologia
Diversas iniciativas têm surgido, em sua maioria com objetivo de catalogar

sistematicamente as alterações genéticas de uma variedade cânceres (THE INTERNATIONAL
GENOME CANCER, 2010). Nesse contexto, o paradigma da pesquisa contra o câncer tem
16
transitado de um nível pontual, vinculada a poucos indivíduos, para estudos populacionais de

escala global. A disponibilidade de dados em escala populacional ou, de coortes amostrais, têm
favorecido de forma dramática a triagem, avaliação e busca de novos recursos terapêuticos
(SPIGEL, 2010). Como consequência, uma quantidade exorbitante de dados genômicos tem sido
produzida, o que traz consigo uma demanda crescente de ferramentas computacionais e de
profissionais capazes de interpretar essa nova fonte de informação.
A respeito das iniciativas, é possível destacar algumas como, por exemplo, o TCGA (Atlas
do Genoma do Câncer), o Consórcio Internacional do Genoma do Câncer (ICGC) e Pesquisa
Aplicada Terapeuticamente para Gerar Tratamentos Eficazes (TARGET) (FUENTES et al., 2016;
TOMCZAK; CZERWIŃSKA; WIZNEROWICZ, 2015; ZHANG et al., 2011). Particularmente, o
consórcio TCGA é o principal repositório de dados em oncologia, compreendendo
aproximadamente 11.000 pacientes distribuídos em 32 tipos tumorais. Além disso, o TCGA
disponibiliza uma diversidade de dados que contemplam desde o perfil de mutações somáticas,
rearranjos estruturais, abundância de transcritos e proteínas (TOMCZAK; CZERWIŃSKA;
WIZNEROWICZ, 2015). A existência de tal volume de dados expande diversas possibilidades,
principalmente relacionadas à medicina de precisão e desenvolvimento de novas drogas e/ou
condutas clínicas.
De forma geral, as aplicações produzidas a partir de dados oncológicos podem variar em
amplo espectro, incluindo desde i) o nível de diagnostico como, por exemplo, na prospecção de
marcadores tumorais; ii) na avaliação de prognostico, no que consta, a predição de risco e
classificação subtipagem ou estadiamento da patologia; iii) bem como, no desenvolvimento de
fármacos, vacinas anticâncer ou tratamento celulares (DA-YONG LU, TING-REN LU, 2014;
KARAGIANNIS; FITTALL; KARAGIANNIS, 2014; MADHAVAN et al., 2013; WU; RICE; WANG,
2012).
1.5. Produtos terapêuticos e a Bioinformática
Estratégias computacionais na pesquisa oncológica têm sido utilizadas em situações

variadas, incluindo desde a busca por aspectos preditivos (aprendizagem de máquina),
estratificação de amostras (métodos de clusterização) até abordagens estatísticas para predição
de resposta a tratamento e sobrevida dos pacientes (análises de sobrevivência) (HANAUER et
al., 2007). Cada abordagem tem permitido o desenvolvimento de inúmeros produtos, sendo
particularmente, testes genômicos uma das tecnologias mais favorecidas. Em síntese, testes
17
genômicos tem aplicações variadas, contemplando o diagnóstico, caracterização de subtipos

tumorais e a predição de risco metástase (SIMON, 2005; SINGER et al., 2017).
Nesse contexto, um dos painéis de maior popularidade é o de subtipagem para câncer
de mama (Prosigna - PAM50). Em suma, o painel foi produzido a partir de metodologias de
aprendizagem de máquina, a qual priorizou uma assinatura de cinquenta (50) genes vinculados
a diferentes aspectos da fisiopatologia do câncer de mama. Na clínica, o PAM50 é um dos
principais painéis adotados, sendo capaz de auxiliar o oncologista na definição de condutas
terapêuticas, e.g., na escolha da terapia hormonal combinada ou não a quimioterapia em
pacientes com câncer de mama. Ademais, o painel também fornece informações sobre o risco
de metástase (KITTANEH; MONTERO, 2013).
Existem outras opções comerciais de painéis genômicos, os quais variam conforme o
tumor, fonte de acesso ou informação genética caracterizada. Como, por exemplo tem-se:
Oncotype DX (perfil de transcricional, aplicado a câncer de mama) e MSK-IMPACT (perfil de
mutações somáticas, vários cânceres) (CHENG et al., 2017; MCVEIGH et al., 2014). Como
conclusão, painéis genômicos têm fornecido informações preciosas sobre prognóstico e
tratamento dos pacientes, particularmente, alguns estudos têm apontado o uso de painéis como
ferramenta para auxiliar na decisão medicamentosa durante o tratamento (LIU et al., 2016a).
Por outro lado, o desenvolvimento de tecnológicas de diagnóstico molecular depende
diretamente da capacidade de prospecção de marcadores – tumorais ou de prognóstico (NAIR;
SANDHU; SHARMA, 2018). Conceitualmente, marcadores tumorais são substâncias,
normalmente oriundas de proteínas, produzidas pelo organismo em resposta ao crescimento de
cânceres, ou pelo próprio tecido cancerígeno, as quais podem ser detectadas em sangue, urina
ou amostras de tecido (biópsia).
De maneira geral, marcadores tumorais podem ser utilizados na triagem, no diagnóstico,
na definição de estadiamento do tumor ou prognóstico, bem como, na orientação e
monitoramento do tratamento. Entre as moléculas elegíveis para produção de marcadores
tumorais podem ser citadas: i) proteínas citoplasmáticas, contemplam marcadores derivados de
antígenos da membrana epitelial ou vinculadas ao revestimento do epitélio (queratinas); ii)
enzimas e hormônios, antígenos de receptores hormonais femininos (progesterona e estrógeno),
e enzimas utilizadas no diagnóstico de câncer de próstata (PSA); iii) proteínas de membrana
celular, englobam alguns dos exemplos supracitados, bem como, antígenos de diferenciação e
oncofetais (CEA) (BABU et al., 2012). Na verdade, proteínas de superfície celular apresentam
um enorme potencial biotecnológico, podendo ser empregadas para o desenvolvimento de
drogas, bem como, de marcadores associados ao prognóstico. Atualmente, dezenas de
18
proteínas de superfície estão em processo de teste clínico para desenvolvimento de estratégias

terapêuticas e de drogas adjuvantes (DIAMANTIS; BANERJI, 2016; GOLDENBERG et al., 2015;
POLAKIS, 2016).
Nesse contexto, a categorização coletiva das proteínas de superfície em células tumorais
é uma etapa fundamental na prospecção de novos produtos para tratamento. Em síntese, o
surfaceoma é o termo que abrange o conjunto de proteínas de superfície celular, o qual pode
variar em composição dependendo da célula ou condição fisiopatológica. Dessa forma, sendo
responsável por características fenotípicas do tumor, agressividade e resposta à terapia (HONG
et al., 2018). Recentemente, vários trabalhos têm proposto a predição e a anotação desse
conjunto gênico, em particular, o presente trabalho apresenta metodologias para prospecção do
surfaceoma e sua aplicação como marcadores de prognóstico em pacientes com câncer (DA
CUNHA et al., 2009, 2013). Há também estudos defendendo que outras categorias gênicas
podem ser aplicadas como marcadores, por exemplo, genes específicos de células imune têm
sido utilizados com marcadores de prognóstico (WHITESIDE, 2013).
A Bioinformática também está inserida em aspectos preditivos e de avaliação de
estratégias terapêuticas, sobretudo no entendimento de aspectos sistêmicos que afetam o
tratamento (WU; RICE; WANG, 2012). A resistência a drogas é um fenômeno conhecido em
várias patologias, o qual pode ser modulado por uma variedade de fatores, incluindo desde
variações genotípicas, ajustes na regulação transcricional até modificações epigenéticas
(HOUSMAN et al., 2014; MANSOORI et al., 2017). Além disso, a dinâmica de resposta à droga,
sobretudo à resistência, pode ser vinculada à função de proteínas, RNA não-codificadores ou
até de complexos enzimáticos - complexo de resistência a múltiplas drogas (MANSOORI et al.,
2017). Nesse cenário, as abordagens computacionais têm facilitado o entendimento de quais
alterações genéticas causam impacto na resposta a drogas, permitindo o desenvolvimento de
abordagens personalizadas ou melhor tomada de decisão na escolha medicamentosa.
Por último, a imunoterapia é outra área favorecida pela Bioinformática, sobretudo devido
ao avanço na compreensão da imunologia de tumores mediado pela análise de dados
genômicos. Recentemente, diversas metodologias em Bioinformática têm sido desenvolvidas
para análise de aspectos únicos da imunoterapia, tais como: a genotipagem de HLAs, predição
de neoantígenos, prospecção de inibidores da resposta imune, bem como caracterização da
abundância de células imunológicas na amostra tumoral (TAPPEINER et al., 2017).
Efetivamente, cada aspecto está vinculado a propriedades distintas da imunoterapia, em que
alguns são comumente empregados na conduta clínica - a exemplo, inibidores de checkpoint
imunológico (CTLA-4, PD1 e PDL1) (BARROS et al., 2018).
19
Em contrapartida, outras metodologias ainda permanecem em processo de investigação,

triagem e aprovação clínica. A terapia baseada em inibidores de checkpoint remove os
mecanismos de inibição da resposta imunológica, permitindo que células do sistema imune
reconheçam e, efetivamente, destruam as células tumorais. Resumidamente, a presença de
inibidores de resposta imune é um processo fisiológico comum que, em condições normais, deve
regular o reconhecimento de componentes do hospedeiro pelo sistema imunológico, i.e., inibir a
resposta autoimune (WEI; DUFFY; ALLISON, 2018).
Durante o desenvolvimento do câncer, as células tumorais passam a ser selecionadas a
partir da capacidade de evitar a resposta imune, evento denominado como escape (MITTAL et
al., 2015). Consequentemente, as subpopulações de células tumorais que são capazes de
escapar a resposta imune aumentam em abundância. Tal fenômeno torna ineficiente a ação das
células imunológicas responsáveis pela apresentação e eliminação das células tumorais,
mecanismo mediado por células dendríticas ou macrófagos e linfócitos T CD8+, respectivamente
(MITTAL et al., 2015). Como resultado, foram desenvolvidos anticorpos para bloquear a função
dos inibidores de checkpoint, permitindo que o sistema imune desempenhe a sua função
biológica. Atualmente, esse procedimento tem sido aplicado com sucesso em alguns tumores
(melanoma, câncer de pulmão e de bexiga), sendo disponibilizados em várias opções comerciais,
incluindo: Ipilimumab, Pembrolizumab e Nivolumab (PENNOCK; CHOW, 2015a).
Por outro lado, outras abordagens imunoterapêuticas têm ganhado destaque, tais como:
a produção de vacinas anticâncer, transferência de células imunes e a produção de receptores
de superfície engenheirados (GROISBERG; MAYMANI; SUBBIAH, 2018). A terapia baseada em
transferência de células tem como fundamento o isolamento e a expansão de células
imunológicas (linfócitos) do paciente. Basicamente, a metodologia é constituída por três etapas
fundamentais, i) o isolamento, a remoção de linfócitos T CD8+ ativadas de regiões tumorais do
paciente; ii) a expansão, a população de células do paciente é expandida in vitro através da
adição de moléculas pró-inflamatórias (citocinas, IL7 e IL15); por fim, iii) a administração, as
células são readministradas no paciente (ROSENBERG et al., 2008).
É possível gerar modificações pontuais nos receptores das células isoladas, aumentando
a eficácia no reconhecimento e eliminação do tumor, técnica denominada CAR T Cell
(ANDROULLA; LEFKOTHEA, 2018). Além disso, o engenheiramento de receptores para “CAR
T Cell” depende, diretamente, de abordagens de computacionais, as quais permitam avaliar
quais modificações têm maior impacto no reconhecimento das células tumorais (LIM; JUNE,
2018). Em parênteses, a etapa de engenheiramento de células representa uma interface sólida
com a biologia sintética que, por sua vez tem um componente computacional obrigatório. Como
20
alternativa, a produção de vacinas anticâncer tem sido discutida como uma opção interessante
para a imunoterapia (EFREMOVA et al., 2017).
As vacinas anticâncer podem ser classificadas em diversas categorias: vacinas baseadas
nas células tumorais, em células apresentadora de antígenos (dendríticas) e as vacinas
peptídicas oriundas de antígenos associados ao tumor (TAAs, do inglês tumor-associated
antigens) (JÖNSSON; WILKING, 2012). De maneira geral, as vacinas anticâncer visam tratar a
doença em estágio avançado, utilizando o próprio sistema imunológico do paciente. Em
particular, as vacinas baseadas em peptídeos têm sido extensivamente exploradas,
principalmente, devido ao avanço das ferramentas de predição de antigenicidade e
disponibilidade de dados genômicos - exoma e transcriptoma (TERBUCH; LOPEZ, 2018; ZHANG
et al., 2017). Além disso, entre as vacinas de TAAs é possível destacar as vacinas derivadas de
antígenos mutados (neoantígenos), antígenos vinculados a diferenciação celular e de processos
germinativos (antígenos câncer/testículo). As duas últimas categorias têm sido especialmente
investigadas em melanoma (ILYAS; YANG, 2015). Em detalhe, a prospecção de antígenos
câncer/testicular será assunto constituinte desta tese de doutoramento.
Portanto, o desenvolvimento de estratégias imunoterapêuticas representa um potencial
indispensável para o tratamento do câncer, sobretudo quando combinadas a abordagens
tradicionais (EMENS et al., 2017). Entretanto, ainda existem alguns desafios que precisam ser
transpostos, particularmente, em relação às metodologias de prospecção de novos antígenos
tumorais, à redução de custos no cultivo de células imunes e na síntese das vacinas, à seleção
de estratégias de alta especificidade e que inibam os mecanismos de resistência imunológica
(VENTOLA, 2017).
1.6. Métodos de avaliação de prognóstico
Na última década, algumas análises de Bioinformática têm propiciado a descoberta de

marcadores preditivos ou de prognóstico, assim como, de alvos terapêuticos em câncer. Em
particular, as análises de sobrevivência têm um papel de destaque, principalmente, devido à
integração de dados genômicos na busca por alterações genéticas que tenham impacto
determinante no prognóstico dos pacientes (CHEN; SUN; HOSHIDA, 2014).
Dentre as metodologias desenvolvidas para análise de sobrevivência, alguns métodos
não-paramétricos têm maior popularidade como, por exemplo, "Cox Regression" e "Log-Rank
Test". Basicamente, ambas as metodologias são empregadas para comparar a taxa de
sobrevivência em função do tempo para dois ou mais grupos de indivíduos, os quais são
21
categorizados em relação a um determinado evento ou variável (IN; LEE, 2018). Por exemplo,
podem ser comparados agrupamentos de macho vs. fêmeas, tratamento vs. controle ou, mais
especificamente, indivíduos que apresentam determinada alteração genética (mutantes) vs.
indivíduos com ausência daquela alteração (selvagens). Além disso, análises de sobrevivência
possuem uma representação gráfica, denominada Kaplan-Meier, ver exemplo na Figura 1. Em
síntese, o Kaplan-Meier apresenta a significância entre a diferença das curvas do grupo ERBB2
(High) e ERBB2 (Low), sendo as amostras estratificadas de acordo com o nível de expressão
gênica do gene ERBB2 (Erb-B2 receptor de tirosina quinase 2). Na Figura 1 tem-se o nível de
expressão elevado de ERBB2 está vinculado a melhor prognóstico dos pacientes.
Possivelmente, tal tendência é reflexo de ERBB2 ser alvo em várias condutas terapêuticas.
Figura 1. Exemplificação de um gráfico de sobrevivência, Kaplan-Meier. A diferença entre as curvas é calculada

através do método de Log-Rank. A estatística compara as estimativas de sobrevivência ou risco no dado, considerando
a hipótese nula de que não existe diferença entre os agrupamentos (curvas). Em seguida, são considerados o número
de eventos observados e esperados, sendo calculada a significância, semelhante ao teste de Chi-Quadrado. Por
último, a diferença entre as curvas e o valor de significância (p-value) está representada didaticamente na figura.
22
Finalmente, existem variados exemplos da utilização de Kaplan-Meier, incluindo

prospecção de alvos terapêuticos e marcadores tumorais – estudos com resposta
medicamentosa, estadiamento e subtipagem tumoral (CRESPO et al., 2016; GATZA et al., 2014;
PENNOCK; CHOW, 2015b; ZHUANG et al., 2014). Além disso, vários achados discutidos nesta
tese têm como fundamento análises de sobrevivência em escala genômica.
1.7. Sobre os desafios no tratamento do câncer
Como discorrido, o tratamento do câncer está distribuído em vários níveis,

compreendendo desde estratégias quimioterápicas, radioterápicas, terapias baseada em
hormônios ou com drogas adjuvantes até imunoterapias (AKULAPALLI, 2009). Essencialmente,
a disponibilidade de diversas abordagens terapêuticas pode sugerir que a doença é uma
problemática está próxima de ser solucionada. No entanto, quando observados os índices de
mortalidade é notório, que a despeito dos esforços, a guerra contra câncer ainda está longe de
ser vencida (ALLEMANI et al., 2018).
Em relação a outras doenças prioritárias, as terapias desenvolvidas contra câncer têm a
menor taxa de sucesso em testes clínicos (CAGAN; MEYER, 2017). Tal aspecto tem alertado a
comunidade, sobretudo para mudança de paradigmas na pesquisa clínica do câncer (CAGAN;
MEYER, 2017; TOLOUDI et al., 2014).
Nesse contexto, alguns estudos têm apontado que abordagens devem ser investigadas
para desenvolvimento de novas terapias. Em particular, é possível destacar as estratégias
derivadas da imunoterapia – anticorpos monoclonais, vacinas anticâncer, inibidores de
checkpoint, drogas conjugadas a anticorpos, bem como, o engenheiramento de células imunes
(ANDROULLA; LEFKOTHEA, 2018; TOLOUDI et al., 2014). Além disso, a pesquisa em vírus
oncolíticos também tem sido apontada como um promissor recurso no tratamento do câncer
(FUKUHARA; INO; TODO, 2016; OISETH; AZIZ, 2017).
Por outro lado, alguns autores defendem a combinação de abordagens terapêuticas como
método para obtenção de melhores respostas clínicas (MARABELLE; CAUX, 2012; MOKHTARI;
HOMAYOUNI; BALUCH, 2017). Na prática, tem sido observado o aumento da sobrevida através
da combinação de abordagens durante o tratamento (LIANG; LIU; WANG, 2018). Em particular,
alguns exemplos podem ser evidenciados em tumores com prognóstico agressivo como em
pacientes com câncer de mama triplo-negativo (CHALAKUR-RAMIREDDY; PAKALA, 2018).
Além disso, a combinação de abordagens tem potencial para solucionar outro aspecto
23
problemático no tratamento do câncer, a resistência a drogas (DOROSHOW; SIMON, 2017;

GRUNEWALD et al., 2018). Curiosamente, várias estratégias de tratamento combinado são
compostas por abordagens tradicionais unidas às abordagens imunoterapêuticas.
Independentemente, a investigação de abordagens que possam aumentar a eficácia de
sucesso terapêutico é de forma inquestionável, um aspecto fundamental na pesquisa contra o
câncer. Nesse sentido, o desenvolvimento de abordagens capazes de predizer eficácia de um
tratamento como, por exemplo análises de sobrevivência, permitem priorizar alvos terapêuticos
com maior potencial clínico (PENNOCK; CHOW, 2015b). Em adição, o entendimento de
mecanismos de resistência ao câncer, podem auxiliar na seleção de abordagens a serem ou não
combinadas durante o tratamento.
Finalmente, a presente tese terá como substrato a discussão de aspectos ligados à
pesquisa contra o câncer, sobretudo voltada para estratégias de prognóstico e tratamento. Além
disso, será contextualizado quais avanços foram responsáveis pelo desenvolvimento da
pesquisa em oncologia e quais as implicações sobre o tratamento dos pacientes. Da mesma
forma, serão apresentados achados com potencial biotecnológico vinculados à imunoterapia.
24
2. OBJETIVOS
2.1. Objetivo Geral
Desenvolver metodologias para associar dados de sequenciamento de nova geração

com prognóstico de pacientes com câncer, sobretudo visando a prospecção de marcadores
tumorais a partir de proteínas de superfície celular, bem como, propor assinaturas de antígenos
câncer/testículo para desenvolvimento de estratégias imunoterapêuticas. Além disso, padronizar
métodos comparativos capazes de para compreender a dinâmica de resistência a drogas, com
ênfase no impacto processos pós-transcricionais em linhagens celulares e em dados em
pacientes com câncer.
2.2. Objetivos Específicos
2.2.1. Construir um acervo de proteínas associadas de superfície celular através de estratégias

de bioinformática;
2.2.2. Analisar o impacto de múltiplas das proteínas superfície na sobrevida de pacientes com
câncer de mama nas amostras do TCGA;
2.2.3. Identificar genes com potencial de possíveis antígenos tumorais em diferentes canceres
utilizando o dado do consórcio TCGA;
2.2.4. Padronizar o método de avaliação da associação entre infiltração de células T CD8+ e o
prognóstico de pacientes em melanoma;
2.2.5. Comparar a distribuição de antígenos câncer/testículo em relação a outros genes
codificadores de proteína em melanoma;
2.2.6. Caracterizar genes correlacionados com a resposta imune em melanoma, quanto ao
padrão de expressão em tecido saudável;
2.2.7. Avaliar a contribuição da co-expressão de CTAs para resposta imunológica e sobrevida
de pacientes em melanoma;
2.2.8. Propor assinaturas de CTAs para o desenvolvimento de novas vacinas tumorais em
melanoma;
2.2.9. Desenvolver métodos capazes de associar a expressão gênica, genótipo e resposta a
drogas em linhagens celulares utilizando dados públicos do projeto 1000GDSC;
25
2.2.10. Avaliar a importância dos RBPs, RNA-binding proteins, para a resposta à droga em
células com genótipo TP53 selvagem e mutado;
2.2.11. Desenvolver um método para filtragem / priorização de casos significativos nos
agrupamentos TP53 selvagem e mutado;
2.2.12. Comparar as distintas categorias de genes relacionados à transcrição quanto ao impacto
na resposta à droga;
2.2.13. Categorizar os mecanismos de resposta à droga mediada por RBPs em resistência ou
sensibilidade com base no genótipo das células;
2.2.14. Avaliar o impacto da alteração na expressão de RBPs em amostras derivadas do
consórcio TCGA.
26
3. CAPÍTULO 1 – SURFACEOMA E IDENTIFICAÇÃO DE ALVOS TERAPÊUTICOS

Artigo: Bioinformatics Analysis of the Human Surfaceome Reveals New Targets for a
Variety of Tumor Types
Autores: André L. Fonseca, Vandeclécio L. da Silva, Marbella M. da Fonsêca, Isabella T. J. Meira,
Thayná E. da Silva, José E. Kroll, André M. Ribeiro-dos-Santos, Cléber R. Freitas, Raimundo
Furtado, Jorge E. de Souza,5 Beatriz Stransky e Sandro J. de Souza.
Artigo publicado na revista “International Journal of Genomics” – Fator de Impacto: 1.904
Nota: O artigo apresentado abaixo corresponde aos Objetivos Específicos 2.2.1 e 2.2.2.
Hindawi Publishing Corporation
International Journal of Genomics
Volume 2016, Article ID 8346198, 7 pages
http://dx.doi.org/10.1155/2016/8346198
Research Article
Bioinformatics Analysis of the Human Surfaceome Reveals
New Targets for a Variety of Tumor Types
André L. Fonseca,1,2 Vandeclécio L. da Silva,1,2 Marbella M. da Fonsêca,1

Isabella T. J. Meira,1 Thayná E. da Silva,1 José E. Kroll,1,3 André M. Ribeiro-dos-Santos,4
Cléber R. Freitas,1 Raimundo Furtado,1 Jorge E. de Souza,5 Beatriz Stransky,6
and Sandro J. de Souza1
1
Brain Institute, Federal University of Rio Grande do Norte, 59064-560 Natal, RN, Brazil
2
Ph.D. Program in Bioinformatics, Federal University of Rio Grande do Norte, Natal, RN, Brazil
3
Institute of Bioinformatics and Biotechnology, Natal, RN, Brazil
4
Ph.D. Program in Genetics, Federal University of Para, Belém, PA, Brazil
5
Digital Metropolis Institute, Federal University of Rio Grande do Norte, Natal, RN, Brazil
6
Biomedical Engineering Department, Center of Technology, Federal University of Rio Grande do Norte, Natal, RN, Brazil
Correspondence should be addressed to Sandro J. de Souza; sandro@neuro.ufrn.br
Received 31 May 2016; Revised 7 September 2016; Accepted 18 October 2016
Academic Editor: Brian Wigdahl
Copyright © 2016 André L. Fonseca et al. This is an open access article distributed under the Creative Commons Attribution
License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly
cited.
It is estimated that 10 to 20% of all genes in the human genome encode cell surface proteins and due to their subcellular
localization these proteins represent excellent targets for cancer diagnosis and therapeutics. Therefore, a precise characterization
of the surfaceome set in different types of tumor is needed. Using TCGA data from 15 different tumor types and a new method
to identify cancer genes, the 𝑆-score, we identified several potential therapeutic targets within the surfaceome set. This allowed
us to expand a previous analysis from us and provided a clear characterization of the human surfaceome in the tumor landscape.
Moreover, we present evidence that a three-gene set—WNT5A, CNGA2, and IGSF9B—can be used as a signature associated with
shorter survival in breast cancer patients. The data made available here will help the community to develop more efficient diagnostic
and therapeutic tools for a variety of tumor types.
In memoriam of Raimundo Furtado
1. Introduction from other initiatives. In that way, data from these initiatives
can push a more focused and deeper analysis either in a
Cancer genomics has gone through a dramatic period of specific gene set or in a specific cohort of patients/samples.
progress due to the availability of genome-wide technologies. The human surfaceome, the collection of cell surface
Large-scale projects, such as “The Cancer Genome Atlas” proteins in human cells, has been defined and studied
(TCGA, https://cancergenome.nih.gov/) and the “Interna- by us previously. By using bioinformatics pipeline and an
tional Cancer Genome Consortium” (ICGC, http://icgc.org/), experimental approach based either on real-time PCR or on
involve thousands of patients and have generated petabytes of other gene expression technologies, we were able to identify
data. One of the major assets of such projects is the public potential new biomarkers for few tumor types and have
availability of the data allowing their integration with data characterized new cell surface putative cancer-testis (CT)
2 International Journal of Genomics
antigens [1, 2]. Relevant roles of surface proteins include sequences were also filtered based on the identification
nutrient and ion transport, adhesion to substrates, signal- of signal peptide cleavage sites by SignalP, release 4.1
ing, and intercellular interaction. Due to these roles and (http://www.cbs.dtu.dk/services/SignalP/) [11].
their subcellular localization, easily accessible to therapeutic Since TM domains are not exclusive to cell surface
agents, surface proteins are important targets for cancer proteins, the sequences were grouped according to subcel-
intervention. Since our original publication few reports have lular localization as defined by gene ontology. We excluded
further explored the human surfaceome [2–6], mostly in the sequences that were exclusively located at the following
context of a mass-spectrometry-based characterization of the cellular compartments: lysosome, endoplasmic reticulum,
cell surface of tumor cells. mitochondria, cytoskeleton, endosome, liposome, nucleolus,
Data from TCGA/ICGC allow the development of new nucleus, and ribosome. This step was conducted using in-
metrics that evaluate the frequency of gene alterations in house Perl scripts.
different cancer types. Recently, we developed a new scoring
system for the identification and prioritization of cancer 2.3. Classification of Surfaceome in GPCR, SLC, and CD.
genes [7]. The 𝑆-score method integrates information derived To validate the obtained list of surfaceome genes, we clas-
from different “omics” technologies to generate a gene- sified these genes as belonging to the following classes:
specific score that indicates whether that specific gene is a G-protein-coupled receptors (GPCRs), solute carrier (SLC)
tumor suppressor (negative 𝑆-score) or an oncogene (positive proteins, and cluster of differentiation (CD) antigens. This
𝑆-score). The numerical value indicates the frequency in was done using in-house Perl scripts. The GPCR genes were
which that gene is altered in the cohort of samples used obtained from GPCRDB (http://gpcrdb.org), while CD and
in the calculation. We have used the 𝑆-score metric to SLC genes were collected from HGNC (http://www.genen-
identify cancer genes in a set of human homologs of yeast ames.org/genefamilies/a-z#R).
genes characterized as suppressors of genome instability in
yeast [8]. The availability of the 𝑆-score system provides a 2.4. S-Score Calculation for the Human Surfaceome. 𝑆-scores
quantitative way to identify and prioritize cancer genes in a were calculated for the human surfaceome and for the 15
particular set of samples. tumor types as previously defined [7]. The distribution of 𝑆-
Here, we capitalize on the availability of data from the scores was used to calculate 𝑧-scores for all genes using R
TCGA project to further and deeper investigate the status statistical package.
of the human surfaceome in 15 tumor types, including GBM
and colorectal and breast tumors, all analyzed in our previous
publications [1, 2]. This generated a pan-cancer landscape of 2.5. GO Enrichment Analyses. The GO enrichment analyses
the human surfaceome with the identification of shared and of the surfaceome gene cluster were conducted using clus-
tumor-specific markers. Furthermore, the use of the 𝑆-score terProfiler [12], implemented in R, with 𝑝 values < 0.01 as a
system allowed us to identify gene signatures associated with cutoff.
overall survival in breast cancer patients. These signatures
can be ultimately used in the development of new and more 2.6. Survival. Genes with extreme 𝑆-score (𝑆-score <−2 and
efficient diagnostic and therapeutic protocols. >2 for breast tumors) were selected to test any putative asso-
ciation with overall survival in breast cancer samples derived
from TCGA (without subtype distinction). Each gene was
2. Material and Methods used to classify the samples into two sets, named “normal”
and “altered.” The “altered” set comprised samples within
2.1. Public Data. The protein-coding sequences of all human which the respective genes were differentially expressed (𝑧-
genes were obtained from the NCBI RefSeq (release 64) score > 2 or 𝑧-score <−2, as reported by TCGA), amplified
[9]. Gene ontology was retrieved from gene ontology or deleted, or presenting deleterious mutations (nonsense,
initiative web site (http://geneontology.org/). The Illumina frameshift, and splice-site). After that, for each gene, the
Human BodyMap 2.0 dataset was obtained from EMBL- survival analysis was performed using the Kaplan-Meier
EBI Expression Atlas (https://www.ebi.ac.uk/gxa/experi- method [13] and the difference in survival curves was tested
ments/E-MTAB-513). TCGA data was retrieved from both, for statistical significance using the log rank test 𝑝 value. We
the TCGA web site (https://cancergenome.nih.gov/) and the then selected a nonredundant set of 20 genes with the lowest
cBio Cancer Genomics Portal (http://www.cbioportal.org/). 𝑝 value (cutoff of 0.05) and tested all possible groups of three
genes.
2.2. Identification of Transmembrane (TM) Domains in
Protein-Coding Genes. To predict plasma membrane sub- 3. Results and Discussion
cellular localization, the NCBI Reference Sequence dataset
was submitted to TMHMM [10] version 2.0 (http:// 3.1. A New Gene Catalog for the Human Surfaceome. First of
www.cbs.dtu.dk/services/TMHMM/). All sequences con- all, we decided to reannotate the set of human genes coding
taining at least one TM domain were selected. To avoid false for putative cell surface proteins. This was required due to
positives, sequences containing only one TM domain in (i) an improvement in the annotation of gene and protein
the first 50 residues, which could be a signal peptide, were databases regarding a protein’s subcellular localization and
excluded and classified as secreted protein. Furthermore, (ii) the inclusion of new human genes in the Reference
International Journal of Genomics 3
20.246
protein-coding
genes (RefSeq)
TMHMM
TCGA
cancer data 3.758
surfaceome genes
5.153 (15 tumor types)
transmembrane sets
605
secreted
proteins
787 genes with other S-score

subcellular localization
Putative
3.758 cancer
surfaceome genes targets
(a) (b)
Figure 1: Methodology workflow. (a) The NCBI RefSeq dataset was submitted to TMHMM and selected for the presence of a transmembrane
domain. Proteins containing only a signal peptide (classified as secreted) or belonging exclusively to other membranes were excluded, giving
a final set of 3.758 genes coding for cell surface proteins. (b) TCGA data as used to calculate the 𝑆-score for the surfaceome set allowing the
identification of putative surfaceome cancer genes.
Sequence collection. The same approach used by da Cunha et our dataset to the dataset from Bausch-Fluck et al. [3]. For
al. (2009) [1] generated now a set of 3,758 human genes, com- that purpose, we have only used the proteins classified as
posing the human surfaceome (Figure 1). The complete list of “highly confident” in [3]. Although this type of compari-
human genes coding for cell surface proteins is provided as son is problematic for different reasons, including (i) the
Supplementary Table S1, in Supplementary Material available nonexhaustive nature of the wet-based approach (due to
online at http://dx.doi.org/10.1155/2016/8346198. As expected, the method itself and the samples screened) and (ii) the
the great majority (85%) of surfaceome genes present in our different premises of both methods (the requirement of at
dataset in 2009 remained classified as such in 2016. New least one TM domain per protein in our pipeline and the
genes were added (585), mostly due to their inclusion in lack of such requirement in [3] which allowed the authors to
the Reference Sequence collection and some other genes characterize GPI-anchored proteins, e.g.), the analysis may
(529) were excluded due mainly to new functional annotation be illuminating in the sense that it can highlight important
that classified their protein products as belonging to other differences in both methodologies. We found that 66.6% (664
subcellular compartments. out of 996) of the proteins classified by Bausch-Fluck et al.
To assess the robustness of our approach, we performed [3] were present in our dataset while only 17.6% (664 out
the same analysis reported by us in our original 2009 paper of 3758) of our proteins were present in their dataset. This
[1] checking the representation of three known families of was expected due to the issues raised above. To illustrate the
cell surface proteins (G-protein-coupled receptors (GPCRs), complex nature of this comparison, 23.8% of all cell surface
solute carrier (SLC) proteins and cluster of differentiation proteins found in [3] have no TM domain, as identified by
(CD) antigens). Since these are large and well-studied families TMHMM.
of cell surface proteins, we envisaged that they would be
appropriate for a benchmark analysis. For GPCRs, 98% of 3.2. Identification of Potential Therapeutic Targets in the
their known members were represented in our dataset. For Human Surfaceome. Next, the 𝑆-score method was used to
SLC proteins and CD antigens we found 77% and 88% identify cancer genes within the surfaceome set. 𝑆-score
represented in the surfaceome set, respectively. Overall, 90% threshold was defined for each tumor type as the 𝑆-score
of members of these three families were represented in our representing the average 𝑆-score plus/minus three standard
present surfaceome set, compared to 83% in our previous deviations (𝑧-score ≥ 3 or ≤−3) [7]. The list of all cancer
analysis [1]. This improvement is expected due to a better genes coding for cell surface proteins in all 15 tumors types
annotation of the sequences in public databases. is shown in Supplementary Table S1. Using the above 𝑧-score
Capitalizing on the availability of surfaceome sets derived threshold, we found 248 surfaceome genes classified as a
from mass-spectrometry analysis, we decided to compare cancer gene in at least one tumor type.
In the heatmap representation of the surfaceome cancer this specific analysis a more relaxed threshold (𝑧-score <−2
genes (Figure 2(a)) we can clearly identify three distinct or >2) was used to classify a gene as a cancer gene in breast
clusters based on the 𝑆-score values for all 15 tumor types. tumor to increase the number of genes under test without
Although all three groups have a variety of oncogenes and compromising the quality of the classification (a heatmap,
suppressors, some features deserve further comments. For similar to Figure 2(a) and generated using the dataset with
example, the first group is mainly composed of suppressors, a more relaxed threshold, is presented in Supplementary
especially in melanoma and colorectal and lung adenocarci- Figure 1). For each surfaceome gene classified as oncogene
noma and uterine corpus endometrial carcinoma. Genes in or suppressor in breast tumor, we split the breast cancer
this group include several members of the cadherin super- samples into two groups: altered (genes with differential
family (PCDHGB3, PCDHA2, PCDHA7, PCDH15, PCD- expression, genes amplified/deleted, or genes mutated) and
HGB5, PCDH11X, PCDHAC1, FAT1, FAT2, and FAT4). There unaltered. For each gene, the two groups were then compared
is a set of oncogenes in group 2 shared by almost all tumors by a Kaplan-Meier analysis to evaluate whether they had
and involving 30 genes, including EPHB1 and EPHB3. There significantly different overall survival. Twenty-three genes,
is no clear pattern in group 3 and oncogenes and suppressors seven oncogenes and 16 suppressors, were significantly (𝑝-
seem to be distributed evenly across all tumors. value < 0.05) associated with differences in overall survival
To better understand the pattern presented in Figure 2(a), in breast cancer patients (Supplementary Table 2). These
we performed a gene ontology (GO) enrichment analysis genes are involved in cell adhesion and ion transport, two of
(using the “biological process” ontology) for the three dif- the main categories enriched in our gene ontology analysis.
ferent clusters. As expected, all three groups shared GO Next, all possible combinations of these genes were similarly
categories associated with the cell surface such as transmem- tested for differences in overall survival. Although we found
brane transport and cell surface receptor signaling pathway. several combinations with statistically significant differences
More interestingly, however, is the fact that specific GO in overall survival, we have focused on WNT5A, CNGA2, and
categories were enriched in individual groups (Figure 2(b)). IGSF9B due to statistical significance (it is the most signif-
GO categories exclusively found in group 1 were clearly icant three-gene set in Supplementary Table 2) and novelty.
associated with nervous system including “neuromuscular Patients in which one of the three genes was altered had a
process”; “memory”; and “neuronal action potential.” The significantly shorter survival (𝑝 value = 1.82e−7 )compared to
same pattern was observed for group 2 although the GO patients where these three genes were unaltered (Figure 3).
categories represented different aspects of nervous system The WNT5A, CNGA2, and IGSF9B genes have neg-
including the following: “sensory perception of pain” and ative 𝑆-scores in breast cancer (−2.59, −3.39, and −2.56,
other categories related to axonogenesis. Regarding group 3, resp.), demonstrating a tumor suppressor profile. WNT5A
GO analysis lent further support for the current concept of belongs to the large WNT family of cysteine-rich secreted
ion transport associated with cancer [14], including “man- glycoproteins. The role of WNT5 in cancer is controversial.
ganese ion transport.” Additionally, this group presented In breast cancer, the loss of WNT5A has been associated
genes related to antigen processing and presentation, high- with poor prognosis [20], in agreement with the suppres-
lighting that the interplay between immune and tumor cells sor status defined by the respective 𝑆-score. On the other
is complex. hand, WNT5A was recently reported to promote cancer
Several of the identified surfaceome cancer genes are cell lines invasion and proliferation [21], a feature typical
known for their involvement in different aspects of cancer of oncogenes. WNT5A is present in pathways where Wnt
biology, especially the ones classified in group 2. ABCC5, signaling is involved through interaction with Frizzleds
a cell surface transporter, was involved in resistance to (FZD10, e.g.) and Dishevelled. WNT5A tumor suppressor
anticancer drugs [15] and overexpression of ATP11B has been profile change Wnt signaling characteristic leading to cancer
linked to drug resistance in ovarian cancer [16]. Both genes [22]. CNGA2, a homotetrameric channel in olfactory sensory
were regarded as oncogenic by our work especially in lung neurons [23], has not been reported in association with
squamous cell carcinoma and ovarian cancer. On the other cancer. However, CNGA2 represents the alpha subunit of a
hand, EPHB3 has already been suggested as a candidate target cyclic nucleotide-gated olfactory channel possessing a role in
gene for both lung small cell carcinoma [17] and colorectal calcium signaling pathway acting through calmodulin-like 6
cancer [18]. Finally, a transferrin receptor (TFRC) has shown and calcium/calmodulin-dependent protein kinase IV [24]
an increased expression in many malignant tumors [19] and directly involved with protein kinase A (PKA), a biological
was also found to be highly oncogenic in this work. target in cancer therapy. IGSF9B was only recently identified
as an inhibitory synaptic adhesion molecule [25] and no link
3.3. A Three-Gene Signature as Potential Predictor of Survival with cancer was found in the literature.
in Breast Cancer. As previously discussed by us, the 𝑆-score
method allows the prioritization of cancer genes based on 4. Conclusion
clinical parameters [7]. For example, we have identified
genes associated with both short- and long-term survival in We have updated the set of human genes coding for cell sur-
ovarian cancer [7]. To test whether we could identify genes face proteins, the human surfaceome. Using TCGA data for 15
in the surfaceome set associated with clinical parameters, we tumor types and a new method of cancer genes classification
decided to look at overall survival in breast tumors, since this that integrates information from different “omics” tech-
type of tumor is the one with the largest cohort in TCGA. For nologies and allows a ranking based on clinical parameters
SI
Enrichment GO biological process

Cell-cell adhesion via plasma membrane adhesion molecules
Homophilic cell adhesion via plasma membrane adhesion molecules
Glutamate receptor signaling pathway
Regulation of synapse assembly
Ionotropic glutamate receptor signaling pathway
Synapse assembly
Regulation of synapse organization
Membrane depolarization during action potential
Membrane depolarization
Regulation of membrane potential
Positive regulation of synapse assembly
Synapse organization
Regulation of synapse structure or activity
Action potential
Sodium ion transmembrane transport
G-protein-coupled glutamate receptor signaling pathway
Photoreceptor cell maintenance
Excitatory postsynaptic potential
Neuromuscular process
Organic anion transport
Multicellular organismal signaling
Startle response
Regulation of postsynaptic membrane potential
Transmission of nerve impulse
Sodium ion transport
Retina homeostasis
Neuronal action potential
Sensory perception of light stimulus
Sensory perception of sound
Adult behavior
Divalent metal ion transport
Divalent inorganic cation transport
Chemical synaptic transmission, postsynaptic
Single-organism behavior Gene ratio
Sensory perception of mechanical stimulus 0.05
Cerebellar granular layer morphogenesis 0.10
Calcium ion transmembrane transport 0.15
Categories
Memory
Prepulse inhibition 0.20
Eye photoreceptor cell differentiation
Heterophilic cell-cell adhesion via plasma membrane cell adhesion molecules
Inner ear development
Cerebellar granular layer development
Phospholipid efflux
Calcium ion transport p adjusted
Sensory perception of pain
Dendritic spine morphogenesis 0.04
Dendritic spine organization 0.03
Dendritic spine development
Detection of temperature stimulus involved in sensory perception 0.02
Detection of temperature stimulus involved in sensory perception of pain 0.01
Negative regulation of catecholamine secretion
Chloride transmembrane transport
Regulation of norepinephrine secretion
Detection of temperature stimulus
Norepinephrine secretion
Retinal ganglion cell axon guidance
Positive regulation of nervous system development
Sensory perception of temperature stimulus
Chloride transport
Norepinephrine transport
Central nervous system projection neuron axonogenesis
Inorganic anion transmembrane transport
Negative regulation of amine transport
Dendrite morphogenesis
Regulation of receptor activity
Central nervous system neuron axonogenesis
BRCA
BLCA
Classification
SKCM
COADREAD
LUAD
UCEC
LGG
LAML
SARC
OV
PRAD
GBM
KIRC
LUSC
HNSC
Regulation of anion transmembrane transport

Inorganic anion transport
Regulation of blood vessel size
Regulation of tube size
Regulation of catecholamine secretion
Vascular process in circulatory system
Catecholamine secretion
Positive regulation of cellular component biogenesis
−6
−4
−2
0
2
4
Dendrite development
Catecholamine transport
Anion transmembrane transport
S-score Manganese ion transport
Antigen processing and presentation of endogenous peptide antigen via MHC class I
Antigen processing and presentation of endogenous peptide antigen
Classification
Group 1 G1 G2 G3
Group 2 (79) (25) (119)
Group 3 Groups
(a) (b)
Figure 2: Surfaceome cancer genes identified by the 𝑆-score method. (a) Heatmap representation of all 248 surfaceome cancer genes for all
15 tumor types. The 𝑆-score distribution is represented as a range of colors (red as negative 𝑆-score, blue as positive 𝑆-scores). Tumor types are
SKCM (Skin Cutaneous Melanoma), COADREAD (Colorectal Adenocarcinoma), LUAD (Lung Adenocarcinoma), UCEC (Uterine Corpus
Endometrial Carcinoma), LGG (Low Grade Glioma), LAML (Acute Mieloid Leukemia), SARC (Sarcoma), OV (Ovarian Serous Carcinoma),
PRAD (Prostate Adenocarcinoma), GBM (Glioblastoma), KIRC (Kidney Renal Clear Cell Carcinoma), BRCA (Breast Invasive Carcinoma),
LUSC (Lung Squamous Cell Carcinoma), BLCA (Bladder Adenocarcinoma), and HSNC (Head-Neck Squamous Cell Carcinoma). (b) GO
enrichment analysis for the three groups of genes as identified in (Figure 2(a)). The adjusted 𝑝 values are sorted from least (blue) to most
(red) significant. Furthermore, the dot size is based on gene ratio, which is the observed number of genes in the experimental set within the
respective gene ontology category.
1.00 Proceedings of the National Academy of Sciences of the United

WNT5A, CNGA2, IGSF9B
Log rank p value 1.8237e − 07
States of America, vol. 106, no. 39, pp. 16752–16757, 2009.
[2] J. P. C. Da Cunha, P. A. F. Galante, J. E. S. De Souza et al.,
0.75 “The human cell surfaceome of breast tumors,” BioMed Research
International, vol. 2013, Article ID 976816, 11 pages, 2013.
[3] D. Bausch-Fluck, A. Hofmann, T. Bock et al., “A mass
Surviving
0.50 spectrometric-derived cell surface protein atlas,” PLoS ONE, vol.

10, no. 4, Article ID e0121314, 2015.
[4] J. Town, H. Pais, S. Harrison et al., “Exploring the surfaceome of
0.25 Ewing sarcoma identifies a new and unique therapeutic target,”
Proceedings of the National Academy of Sciences of the United
States of America, vol. 113, no. 13, pp. 3603–3608, 2016.
0.00 [5] A. Hofmann, T. Thiesler, B. Gerrits et al., “Surfaceome of
classical Hodgkin and non-Hodgkin lymphoma,” Proteomics—
0 50 100 150 200
Clinical Applications, vol. 9, no. 7-8, pp. 661–670, 2015.
Months survival
[6] J. E. S. de Souza, P. A. F. Galante, R. V. B. de Almeida et
Altered al., “SurfaceomeDB: a cancer-orientated database for genes
Normal encoding cell surface proteins,” Cancer Immunity, vol. 12, article
15, 2012.
Figure 3: Kaplan-Meier overall survival curves in breast cancer
patients. Samples were classified as having the three-gene signature [7] J. E. S. de Souza, A. F. Fonseca, R. Valieris et al., “S-score:
(WNT5A, CNGA2, and IGSF9B) altered (red) or not (blue). a scoring system for the identification and prioritization of
predicted cancer genes,” PLoS ONE, vol. 9, no. 4, Article ID
e94147, 2014.
[8] C. D. Putnam, A. Srivatsan, R. V. Nene et al., “A genetic network
(𝑆-score), we identified several potential therapeutic targets that suppresses genome rearrangements in Saccharomyces cere-
within the surfaceome set. Furthermore, we present evidence visiae and contains defects in cancers,” Nature Communications,
that a three-gene set—WNT5A, CNGA2 and IGSF9B—was vol. 7, article 11256, 2016.
associated with shorter survival in breast cancer patients. Our [9] K. D. Pruitt, T. Tatusova, G. R. Brown, and D. R. Maglott, “NCBI
results clearly show the importance of large-scale genomics Reference Sequences (RefSeq): current status, new features and
datasets from cancer patient cohorts, like the one provided genome annotation policy,” Nucleic Acids Research, vol. 40, no.
by TCGA. We envisage that the data we provide here will be 1, pp. D130–D135, 2012.
extremely useful to researchers who aim to characterize cell [10] A. Krogh, B. Larsson, G. Von Heijne, and E. L. L. Sonnhammer,
surface targets for a variety of tumor types. “Predicting transmembrane protein topology with a hidden
Markov model: application to complete genomes,” Journal of
Molecular Biology, vol. 305, no. 3, pp. 567–580, 2001.
Competing Interests [11] T. N. Petersen, S. Brunak, G. von Heijne, and H. Nielsen, “Sig-
nalP 4.0: discriminating signal peptides from transmembrane
The authors declare that there is no conflict of interests. regions,” Nature Methods, vol. 8, no. 10, pp. 785–786, 2011.
[12] G. Yu, L.-G. Wang, Y. Han, and Q.-Y. He, “clusterProfiler: an R
Authors’ Contributions package for comparing biological themes among gene clusters,”
OMICS, vol. 16, no. 5, pp. 284–287, 2012.
André L. Fonseca, Vandeclécio L. da Silva, and Marbella M. [13] E. L. Kaplan and P. Meier, “Nonparametric estimation from
da Fonsêca contributed equally to this work. incomplete observations,” Journal of the American Statistical
Association, vol. 53, pp. 457–481, 1958.
[14] R. Beroukhim, G. Getz, L. Nghiemphu et al., “Assessing the sig-
Acknowledgments nificance of chromosomal aberrations in cancer: methodology
and application to glioma,” Proceedings of the National Academy
This work was supported by a CAPES grant (23038.004629/
of Sciences of the United States of America, vol. 104, no. 50, pp.
2014-19) to Sandro J. de Souza, by the Ludwig Institute 20007–20012, 2007.
for Cancer Research for Sandro J. de Souza, and by the
[15] P. Borst, R. Evers, M. Kool, and J. Wijnholds, “A family of
Institute of Bioinformatics and Biotechnology for Sandro J. de
drug transporters: the multidrug resistance-associated pro-
Souza. André L. Fonseca, Vandeclécio L. da Silva, and André teins,” Journal of the National Cancer Institute, vol. 92, no. 16,
M. Ribeiro-dos-Santos are recipients of Ph.D. fellowships pp. 1295–1302, 2000.
from CAPES. Marbella M. da Fonsêca was a recipient of a
[16] M. Moreno-Smith, J. B. Halder, P. S. Meltzer et al., “ATP11B
postdoctoral fellowship from CAPES. mediates platinum resistance in ovarian cancer,” The Journal of
Clinical Investigation, vol. 123, no. 5, pp. 2119–2130, 2013.
References [17] J. U. Kang, S. H. Koo, K. C. Kwon, J. W. Park, and J. M.
Kim, “Identification of novel candidate target genes, including
[1] J. P. C. da Cunha, P. A. F. Galante, J. E. de Souza et al., EPHB3, MASP1 and SST at 3q26.2-q29 in squamous cell
“Bioinformatics construction of the human cell surfaceome,” carcinoma of the lung,” BMC Cancer, vol. 9, article 237, 2009.
[18] C. Cortina, S. Palomo-Ponce, M. Iglesias et al., “EphB-ephrin-

B interactions suppress colorectal cancer progression by com-
partmentalizing tumor cells,” Nature Genetics, vol. 39, no. 11, pp.
1376–1383, 2007.
[19] E. Ryschich, G. Huszty, H. P. Knaebel, M. Hartel, M. W. Büchler,
and J. Schmidt, “Transferrin receptor is a marker of malignant
phenotype in human pancreatic cancer and in neuroendocrine
carcinoma of the pancreas,” European Journal of Cancer, vol. 40,
no. 9, pp. 1418–1422, 2004.
[20] J. Dejmek, A. Dejmek, A. Säfholm, A. Sjölander, and T. Ander-
sson, “Wnt-5a protein expression in primary Dukes B colon
cancers identifies a subgroup of patients with good prognosis,”
Cancer Research, vol. 65, no. 20, pp. 9142–9146, 2005.
[21] K. Shojima, A. Sato, H. Hanaki et al., “Wnt5a promotes
cancer cell invasion and proliferation by receptor-mediated
endocytosis-dependent and -independent mechanisms, respec-
tively,” Scientific Reports, vol. 5, article 8042, 2015.
[22] A. Klaus and W. Birchmeier, “Wnt signalling and its impact on
development and cancer,” Nature Reviews Cancer, vol. 8, no. 5,
pp. 387–398, 2008.
[23] V. Nache, T. Eick, E. Schulz, R. Schmauder, and K. Benndorf,
“Hysteresis of ligand binding in CNGA2 ion channels,” Nature
Communications, vol. 4, article 2864, 2013.
[24] M. C. Trudeau and W. N. Zagotta, “Calcium/calmodulin
modulation of olfactory and rod cyclic nucleotide-gated ion
channels,” Journal of Biological Chemistry, vol. 278, no. 21, pp.
18705–18708, 2003.
[25] J. Woo, S.-K. Kwon, J. Nam et al., “The adhesion protein IgSF9b
is coupled to neuroligin 2 via S-SCAM to promote inhibitory
synapse development,” Journal of Cell Biology, vol. 201, no. 6,
pp. 929–944, 2013.
34
4. CAPÍTULO 2 – IDENTIFICAÇÃO DE ANTÍGENOS TUMORAIS
1. Introdução
O sistema imunológico é uma rede complexa de órgãos, tecidos e células, que tem a
função de identificar e combater antígenos no corpo, tais como: bactérias, vírus ou outros
patógenos, além de células anormais (HOU; XU; WANG, 2011). Nas últimas décadas, pesquisas
têm mostrado a associação da resposta imunológica com o prognóstico de pacientes com câncer
(BAILEY et al., 2016; PERICA et al., 2015; TOMITA; NISHIMURA; CD, 2013). Além disso, alguns
trabalhos têm mostrado que o emprego de mecanismos imunológicos contribui de forma decisiva
no tratamento do câncer (EMENS et al., 2017).
A imunoterapia, como é intitulada, compreende o conjunto de protocolos que utilizam de
células imunes (e/ou seus produtos) para tratamento de pacientes com câncer. Basicamente, tal
conduta pode ser dividida em diversas categorias baseadas em: anticorpos monoclonais,
imunoterapia não-especifica (interferons e interleucinas), vacinas anti-câncer, terapia com
células T e vírus oncolíticos (OISETH; AZIZ, 2017).
Entre as categorias listadas, a terapia baseada em células imunes tem se mostrado
bastante promissora, dada vista a capacidade de apresentação e eliminação de antígenos. Em
particular, células T CD8+ tem sido estudada pela sua habilidade de matar especificamente
células cancerosas (SCHUMACHER; SCHREIBER, 2015). A resposta específica das T CD8+ é
dada pela sua capacidade de reconhecer pequenos peptídeos (antígenos), os quais em geral
variam de composição quando comparados entre células normais e tumorais. De forma geral, a
apresentação dos antígenos é mediada por complexos de histocompatibilidade (MHC) de classe
I, o qual expõe os antígenos na superfície das células (PERICA et al., 2015).
Por outro lado, outras evidências apontam que o reconhecimento de antígenos tumorais
também pode ser mediado por células CD4, no caso de antígenos formados a partir de fusão
gênica ou mutações somáticas, neoantígenos (PASCHEN, 2009). Além disso, a apresentação
de antígenos mediados por células B tem sido discutida como fator importante em alguns
tumores (BRUNO et al., 2015). Todavia, neste capítulo serão discutidos antígenos tumorais
associados a célula T citotóxico (CTLs).
Conceitualmente, antígenos tumorais são aqueles apresentados por MHC de classe I ou
II. Em síntese, antígenos tumorais podem ser classificados de acordo com o padrão de
expressão, por exemplo: antígenos específicos do tumor (TSAs), são parcialmente ou
exclusivamente restritos às células cancerosas, sendo tipicamente resultado de processos
35
mutacionais ou da expressão de proteínas de células germinativas (cancer-testis e placenta

antigens). Por outro lado, antígenos associados ao tumor (TAAs), são antígenos que apresentam
expressão alterada no tumor, porém não são restritos a células cancerosas. Por exemplo,
antígenos derivados de genes com expressão exacerbada (MUC1, PRAME e survivin); ou
antígenos derivados de genes que atuam em processos de diferenciação celular (TRP1, gp100,
MART-1) (SRINIVASAN; WOLCHOK, 2004). Em parênteses, a classificação dos antígenos
tumorais, varia conforme os autores, alguns defendem que TSAs são subgrupo de TAAs
(PASCHEN, 2009).
Em suma, antígenos tumorais têm particularidades dependendo da sua função biológica
e padrão de expressão, sendo ambas as características consideradas na aplicação clínica
dessas biomoléculas. Na literatura, tem sido discutido que antígenos tumorais de menor
especificidade podem ser aplicados para diagnóstico, porém são desvantajosos no tratamento.
Tal aspecto está associado ao risco de resposta autoimune, uma vez que as proteínas
codificadas também estão presente em células normais (PASCHEN, 2009). Além disso, um dos
principais aspectos considerados na investigação de antígenos tumorais está associado à sua
especificidade pelo tumor, ou seja, a sua capacidade de gerar uma resposta imunológica apenas
no tumor e não em tecido saudável (LIU, 2014).
Atualmente, antígenos derivados de tecidos germinativos como, por exemplo, testículo e
placenta, têm sido elencados como mais promissores na imunoterapia (SRINIVASAN;
WOLCHOK, 2004). Em particular, cancer-testis antigens (CTA) são uma das principais
alternativas para imunoterapia, em principal, devido à alta especificidade e capacidade de elicitar
resposta imune, bem como, a vasta distribuição entre diferentes tumores (DA SILVA et al., 2017;
WANG et al., 2016; YAO et al., 2014)
Como o nome sugere, CTA são genes expressos de forma exclusiva ou predominante
em testículo e em uma variedade de amostras tumorais. Originalmente, MAGE-1 (antígeno
associado a melanoma 1) foi o primeiro CTA investigado, o qual teve sua importância elucidada
por meio de métodos imunológicos em pacientes de melanoma (PASCHEN, 2009).
Subsequentemente, com o avanço de metodologias sorológicas como, por exemplo, SEREX,
foram identificados diversos outros CTAs (SYED et al., 2012). Hoje em dia, os métodos de
identificação de CTAs se baseiam em tecnologias de expressão gênica, tais como:
sequenciamento de RNA mensageiro e microarranjos. Como resultado, vários esforços em
bioinformática têm se direcionado na identificação de CTA em escala sistêmica (DA SILVA et al.,
2017; WANG et al., 2016).
36
Em adição, diversos testes clínicos têm sido executados com CTA, em particular, para os
genes MAGE-A e NY-ESO-1 (JIAN-YING ZHANG, KOK SUN LOOI, 2009; SYED et al., 2012).
Tal aspecto reforça o potencial dessa classe de antígenos tumorais. Além disso, Ditzel et al.,
(2015) tem proposto que CTAs podem ser aplicados de duas maneiras em imunoterapias,
incluindo a: produção de vacinas anticâncer e transferência de células T engenheirada
(GJERSTORFF; ANDERSEN; DITZEL, 2015).
Nesse contexto, o nosso grupo publicou um artigo com análise em escala genômica e de
abrangência intertumoral, considerando onze (11) cortes amostrais distintas do TCGA. O artigo
foi publicado na revista Oncotarget em novembro de 2017, ver o Anexo A. Dentre os principais
achados é possível citar: i) a construção do maior catálogo de CTA; ii) a avaliação do impacto
CTA no processo tumorigênico; iii) análise em larga escala da associação dos CTAs com
prognóstico dos pacientes; por fim, iv) a correlação entre infiltração de células CD8+ e a
expressão de CTAs. Além disso, durante a execução do trabalho foram desenvolvidos métodos
para prospecção de genes exclusivos ou predominantemente expressos em tecidos saudáveis.
Neste capítulo serão discutidos os resultados envolvendo a prospecção de novos
antígenos tumorais, bem como, análises de correlação entre a expressão de genes tecido-
específico com escores de infiltração de células imunológicas. Além disso, serão explorados
outros achados posteriores ao artigo, como a combinação de CTAs para desenvolvimento de
vacinas.
37
2. Metodologia
Recuperação dos dados de transcriptômica
Os dados de RNA-Seq foram obtidos de cinco projetos distintos, dos quais quatro incluem
dados de amostras normais, Genotype-tissue expression (GTEx), Human Protein Atlas (HPA) e
Human Body Map (HBM). Os dados obtidos do HBM foram processados in-house. Além disso,
foram recuperados dados de expressão TCGA, contemplando quinze tumores distintos,
incluindo: BRCA, BLCA, COADREAD, GBM, OV, SKCM, PRAD, HNSC, LUAD, LGG, KIRC. Para
melhor entendimento, verificar a lista de abreviações.
Análise de padrão de expressão
Para avaliar o padrão de expressão dos antígenos tumorais foi utilizado o método
“Proportional score” (Silva et a., 2017). Basicamente, a contribuição de expressão de um gene é
calculada por tecido (𝑇𝑖 ), sendo obtida pela razão de sua expressão em um determinado tecido
dividida pela somatória da expressão (∑𝑛𝑖=1 𝑇𝑖) em os tecidos ou órgãos no estudo, ver a formula
descrita abaixo. Dessa forma, o escore proporcional reflete a magnitude da contribuição daquele
tecido na distribuição de expressão do gene, sendo assim, valores elevados indicam
exclusividade. Além disso, o “Proportional score” pode ser utilizado para categorizar antígenos
tumorais quanto a associação/relação ou ausência em tecidos saudáveis.
𝑇𝑖
𝑃𝑟𝑜𝑝𝑜𝑟𝑡𝑖𝑜𝑛𝑎𝑙 𝑆𝑐𝑜𝑟𝑒 𝑗 = ∑𝑛
, para j = 1 até N
𝑖=1 𝑇𝑖
Em que 𝑃𝑟𝑜𝑝𝑜𝑟𝑡𝑖𝑜𝑛𝑎𝑙 𝑆𝑐𝑜𝑟𝑒 resultará em um vetor ou conjunto de tamanho 𝑛, com os valores

normalizados de expressão para cada gene (𝑗), em cada tecido 𝑇𝑖 . Tal o processo será repetido 𝑁 vezes,
sendo relacionado ao número de genes contidos no estudo de transcriptômica.
Análise de sobrevivência
A análise de sobrevivência foi executada utilizando funções do pacote survSign

[desenvolvido como produto secundário dessa tese], idealizado para buscar assinaturas de
sobrevivência em amostras do TCGA. Para cada gene testado foram estratificadas as amostras
38
baseadas no nível de expressão, considerando três grupos, amostras com: alto nível de
expressão (high), com nível intermediário (low) e com expressão baixa (normal). Em seguida, a
associação de sobrevivência foi calculada através do teste Log-Rank e a distribuição de p-values
obtidas foi corrigida pelo método do q-value [disponível em:
https://bioconductor.org/qvalue].
Correlação com infiltração de CD8+
Finalmente, foi avaliada a correlação da expressão gênica com a infiltração de CD8+ nas
amostras. O dado da infiltração de células CD8+ foi recuperado de Şenbabaoğlu e colaboradores
(ŞENBABAOĞLU et al., 2016). A correlação foi executada utilizando a função “cor” ajustada para
o método de Pearson na plataforma R. Em seguida, as correlações foram filtradas para remoção
de casos em que a expressão gênica esteja vinculada a assinaturas de células imunes.
Finalmente, a distribuição de p-values e a correlações foram ranqueadas para facilitar a análise
dos dados.
39
3. Resultados
3.1. Analise em escala genômica entre tumores do TCGA
A análise de sobrevivência resultou em 3764 genes não-redundante associados a

prognóstico, dos quais 2700 e 3368 correspondem a casos com indicativo de bom e mau
prognóstico, respectivamente.
Figura 2. Comparação dos genes associados ao prognóstico em diferentes tumores. A) O gráfico foi produzido
utilizando o pacote de R, upsetR (versão 1.3.3). As barras representam à quantidade de genes que são compartilhados
ou exclusivos por tipo tumoral; as cores simbolizam o status do prognóstico, bom (verde) e mau (cinza) prognóstico.
As linhas conectando cada ponto representam o compartilhamento de genes por aqueles conjuntos de dados, apenas
as primeiras quarenta (40) intersecções são representadas. Além disso, é mostrada a quantidade de genes por tumor,
ver barras “Set size”.
Individualmente, o tumor renal (KIRC) apresentou mais casos significativos (p-value <
0.05), no total de 1434 casos, divididos em 200 (14%) e 1234 (86%) associados a bom e mau
prognóstico, respectivamente. Particularmente, KIRC apresentou mais casos associados a mau
prognóstico que qualquer outro tumor, seguido por COADREAD (Colorretal) e GBM
(Glioblastoma) associados a mau prognóstico, com 85% e 77%, respectivamente. Em
contrapartida, o tumor de mama (BRCA) apresenta a maior quantidade de genes relacionadas a
bom prognóstico, 83% de 556 casos significativos. Além disso, para melhor interpretação, foram
comparadas as distribuições de genes entre os diferentes tipos tumorais, ver Figura 1. Em
40
síntese, a Figura 2 apresenta o compartilhamento de genes entre os diferentes tumores, no qual

também é considerando o status do prognóstico (observar cores no gráfico de barra). De forma
geral, os tumores compartilham dezenas de genes associados significativamente a
sobrevivência, dentre os quais os tumores de KIRC e BLCA (carcinoma urotelial de bexiga) tem
a maior intersecção, a qual abrange 67 genes.
3.2. Avaliação de antígenos tumorais em melanoma
Considerando a importância de melanoma (SKCM) no estudo de antígenos tumorais,

decidimos explorar verticalmente os dados obtidos, primeiramente, observando a distribuição de
genes associados a prognóstico e, posteriormente, expandindo a análise original para
combinações CTAs. Os resultados descritos nessa seção correspondem ao Objetivo Específico
2.2.4.
A análise de correlação com infiltração de células T citotóxicas foi dividida em cinco
categorias, variando conforme os valores de Pearson (R²), o procedimento análogo foi executado
na distribuição de p-value. Individualmente, a Figura 3 apresenta os valores contidos em cada
ranqueamento. Como esperado, cada posto contém número de genes semelhante, devido a
divisão em cinco percentis.
Figura 3. Distribuição de genes associados a prognóstico e infiltração de CD8+. As categorias de genes são
representadas pelas cores vermelho e azul, para CTAs e outros genes codificadores de proteínas (non-testis antigens).
A) Gráfico de barra com a quantidade de genes por postos baseados nas diferentes distribuições, “Log-rank P-value”
41
e “CD8+ Pearson Correlation”. O grau de significância é reduzido a medida que o valor dos postos/rankings aumenta.
B) Diagrama de Venn, demonstrando o número de genes na intersecção entre o primeiro intervalo dos postos.
Em seguida, os postos foram combinados para avaliar a proporção de genes nas

intersecções. A Tabela 1 apresenta proporção de genes por intersecção por categoria no
ranqueamento, estratégia está exemplificada na Figura 3B.
Tabela 1. Quantidade de genes nas intersecções entre os postos de genes associados a

prognóstico e infiltração de células T CD8+ **
P-VALUE RANKING
1 2 3 4 5
CORRELAÇÃO CD8+
1 60 (2/0) 45 (4/0) 28(0/0) 23(1/1) 23(0/1)

RANKING
2 25 (0/1) 28(1/0) 47(2/0) 46(5/2) 34(1/4)

3 21 (2/0) 31(2/0) 36(0/0) 44(2/1) 44(5/1)*
4 23 (1/2) 34(1/1) 41(2/0) 34(2/0) 45(4/0)
5 51 (1/0) 41(1/0) 27(1/0) 27(6/0)* 32(4/0)
** Legenda: O valor dos postos (rankings) é ordenado conforme a R² das correlações e significância da associação
com prognóstico. Os postos menores apresentam casos com maior significância, em contraste postos maiores têm p-
values próximos aos limiares significância. Foram filtrados apenas casos em que a associação com prognóstico é
significativa, p-value ≤ 0.05. A quantidade de CTAs é mostrada entre parênteses em cada célula, além disso, está
dividida entre bom e mau prognóstico, respectivamente. Finalmente, os asteriscos realçam as intersecções cujo existe
enriquecimento de CTAs associados a bom prognóstico. Nenhum enriquecimento foi observado para genes
associados ao pior prognóstico.
No total, 25 intersecções de rankings/postos foram geradas, as quais contemplam 894

genes, 64 CTAs e 830 outros genes codificadores de proteína (denominados como, non-testis
antigens), respectivamente. Além disso, é possível categorizar as intersecções quanto a
presença de genes associados com bom ou mau prognósticos, por exemplo, 54 dos 64 CTAs
são associados a bom prognóstico. De forma análoga, apenas dez (10) casos são associados a
mau prognóstico.
3.3. Antígenos tumorais associados com bom prognóstico

42
A produção de vacinas em imunoterapia depende da capacidade do antígeno elicitar

resposta imune. Nesse contexto, a expressão de genes fortemente associados com
recrutamento de células citotóxicas representa uma valiosa fonte para investigação de novos
candidatos. Os itens subsequentes correspondem aos Objetivos Específicos 2.2.5 e 2.2.6.
De forma geral, interseções estão depletadas para a presença de CTAs. Em particular,
apenas duas intersecções são enriquecidas por CTAs, quando considerados casos vinculados a
bom prognóstico, ver Tabela 1. Em destaque, as intersecções 5:4 e 3:5 são compostas quase
que exclusivamente por CTAs associados a bom prognóstico. As interseções descritas acima
correspondem as coordenadas de linhas e colunas, i.e., “CD8+ Rank 5” e “P-value Rank 4”.
Finalmente, nenhum enriquecimento foi observado para genes associados a mau prognóstico.
Em adição, considerando unicamente os postos relacionados à infiltração de células T
citotóxicas, pouquíssimos casos de CTAs são identificados nos postos superiores (CD8+ Rank
1), contabilizando 9 casos, dos quais 7 e 2 foram associados a bom e mau prognóstico,
respectivamente.
Por outro lado, entre os casos que não correspondem aos CTAs (non-testis antigens),
alguns genes no “CD8+ Rank 1” apresentam padrão de exclusividade em outros tecidos como,
por exemplo, MYBPC3 e SLC12A3, em coração e rim, respectivamente. Além disso, é possível
observar também alguns genes com expressão enviesada para testículo, mas que não foram
considerados devido aos critérios da análise de amplitude de expressão, i.e., “Proportional score”
superior a 0.9. Na Figura 4A, é ilustrado um caso em que o gene tem expressão enviesada para
testículo e reduzida em outros tecidos. Além disso, o gene DNAJC5B representa um caso
interessante, em que um gene está expresso em mais de um tecido, mas tem expressão ausente
em pele.
43
Figura 4. Análises associadas a distribuição de “Proportional score” no conjunto “CD8+ Rank 1”. O escore
proporcional representa a contribuição de um determinado tecido em toda distribuição de expressão de um gene em
vários tecidos. Por exemplo, valores superiores ou iguais a 0.9 indicam a expressão exclusiva ou predominante um
gene em determinado tecido. Em caso de valores baixos ou inferiores a 0.1, podem ser associados à ausência ou rara
expressão. A) Alguns casos com a distribuição de “Proportional score” entre tecidos do projeto “Human Protein Atlas”,
apenas para genes para não exclusivos de testículo. B) Gráfico de pizza categorizado com base em intervalos do
escore proporcional.
3.4. Classificação dos possíveis antígenos tumorais
Particularmente, o posto “CD8+ Rank 1” é composto por 170 genes, não exclusivos de
testículo, dos quais 163 estão associados a bom prognóstico. Como apresentado na Figura 4A,
cada uma desses apresenta padrões peculiares de expressão, seja de exclusividade ou
predominância em tecidos ou até ausência em pele. Dessa forma, cada um desses genes foi
classificado conforme o padrão de expressão entre os tecidos saudáveis, utilizando a estratégia
do “Proportional score”. Em síntese, os valores “Proportional score” representam o quanto um
dado gene está preferencialmente expresso em um tecido em comparação a outros tecidos ou
órgãos.
Como resultado, quatro categorias foram construídas: i) tissue-specific, genes não
exclusivos de testículo com ≥ 0.9; ii) tissue-related, genes que apresentam score ≥ 0.5 e < 0.9;
iii) skin-abscent; iv) cancer-testis, genes exclusivos ou predominante expressos em testículo,
conforme o catalogo proposto por Silva et. al., 2017 v) unclassified, quaisquer genes que não
44
estão contidos nas categorias anteriores. A Figura 4C, apresenta as percentagens das categorias
supracitadas, no qual foi considerado apenas o conjunto de genes no “CD8+ Rank 1”. Além disso,
as categorias seguem uma hierarquia dependente dos valores de "proportional score". As
categorias como "skin-absent" e "unclassified" têm menor precedência em relação "tissue-
related" e "tissue-specific". Em detalhe, o gene AMPD1 não tem expressão em pele, porém é
classificado como "tissue-related" devido ao "proportional score" superior a cinquenta em
músculo esquelético.
3.5. Assinaturas de CTAs e análises de sobrevivência
Como esperado, as curvas de sobrevivência dos CTAs presentes no “CD8+ Rank 1”

mostram uma associação significativa entre a sobrevida dos pacientes e os níveis de expressão
dos CTAs. Entre os genes apresentados na Figura 5, quatro já foram discutidos no artigo de Silva
et. al. 2017. Em destaque, a estratégia dos postos privilegiou genes melhor associados com a
taxa de infiltração linfocitários como, por exemplo, INSL3, SIRPD, GPR31 e FAM209A. Além
disso, a maioria dos CTAs, com exceção de FAM209A, tem seu efeito protetor aumentado de
acordo com o nível de expressão, por exemplo, quando segregadas as amostras em altamente
expressas, de expressão intermediária e sem expressão [dado não apresentado]. Finalmente,
os resultados descritos nesse item correspondem ao Objetivo Especifico 2.2.7.
45
46
Figura 5. Curvas de sobrevivências dos genes associados ao bom prognóstico no conjunto “CD8+ Rank 1”.
As curvas representam níveis de expressão individual de cada CTAs, a curva vermelha representa as amostras no
qual o CTA está expresso; a curva azul (normal) representa as amostras em que a expressão gênica é inferior a 1
FPKM. O p-value foi obtido através do teste de Log-Rank.
Com base nos genes selecionados no “CD8+ Rank 1” foram produzidas 21 combinações
de pares, as quais foram ordenadas conforme a melhor associação com prognóstico e a
quantidade de amostras.
Figura 6. Curvas de sobrevivência das assinaturas de pares de CTAs. As curvas representam o conjunto de
amostras em que ambos os CTAs do par estão expressos e a amostras em nenhum deles está expresso, em azul e
roxo, respectivamente.
Na Figura 6 são ilustrados casos de pares selecionados conforme os critérios de

abrangência amostral e manutenção dos valores de significância (p-value). Entre as
combinações apresentadas, o par “HSF5” e “INSL3” está co-expresso em 186 amostras, as quais
47
representam aproximadamente 48% do total de amostras em melanoma. Em contrapartida,

pares com maior significância como, por exemplo, “GTSF1L” e “HEATR9” abrangem apenas 24%
dos pacientes no estudo. De forma geral, a média de amostras cobertas pelos pares
selecionados é de 35% dos pacientes (ver Figura 6), considerando todos os pares possíveis (n
= 21), tal valor é reduzido para algo em torno de 27% do total de amostras em melanoma.
48
4. Discussão
A diversidade de antígenos tumorais tem sido relacionada às alterações genômicas no

câncer como mutações, expressão e variações estruturais. Além disso, aspectos como
heterogeneidade entre as patologias e até mesmo microambiente tumoral podem interferir na
resposta imunológica (CHURCH; GALON, 2015).
Nesse contexto, a análise em escala genômica permitiu avaliar a diversidade de possíveis
antígenos tumorais entre 15 tumores distintos, além de categorizá-los conforme a associação
com prognóstico e a infiltração de células imune. O ranqueamento produzido permitiu avaliar, de
maneira sistêmica, as relações entre infiltração células imunológicas e a sobrevida dos pacientes.
Além disso, a solução se mostrou sensível para priorizar casos interessantes (ver Figura 4),
incluindo os casos curados manualmente na publicação original (DA SILVA et al., 2017).
Finalmente, o método também permitiu a avaliação da contribuição dos CTAs para resposta
imunológica, de modo a ordená-los e compará-los com todos outros possíveis antígenos
tumorais.
Por outro lado, como resultado secundário, os casos com maior associação com
infiltração de linfócitos T CD8+ puderam ser separados e categorizados conforme o padrão de
expressão. No total, foram geradas cinco categorias, além da “cancer-testis antigens”. As
categorias propostas através do método do escore proporcional para os “non-testis antigens”,
incluem: “tissue-specific” (7), “skin-abscent” (26), “tissue-related” (25) e “unclassified” (72).
Finalmente, a distribuição das categorias de escore proporcional sugere que genes expressos
ectopicamente em melanoma podem estar associados à elicitação da resposta imunológica. Na
Figura 4B são apresentados 26 casos (skin-abscent), vinculados à infiltração de células T
citotóxica, os quais apresentam escore proporcional em pele igual a zero. À primeira vista, a
ausência de expressão em pele sugere que o antígeno tumoral pode está vinculado a outro tecido
de forma exclusiva, contudo genes como AMPD1 e XCL2 tem amplitudes de expressão distintas,
porém são fortemente (Pearson R² > 0.5) associados a infiltração de células imunes, Figura 4A.
Finalmente, a evidência de elicitação imunológica por outros genes, não associados a
testículo, pode indicar uma importante fonte para prospecção de novos candidatos na
imunoterapia. No entanto, ainda assim algumas características precisam ser consideradas como,
por exemplo, a especificidade do antígeno e o risco de resposta autoimune (PASCHEN, 2009).
Além disso, a elicitação imune baseada em genes silenciados no tecido saudável pode ser uma
característica exclusiva de melanoma. Em estudos recentes, tem sido apontado a preferência
por mecanismos distintos na resposta imunológica entre tumores, o que pode refletir em
49
diferenças a nível sensibilidade ou preferência a antígenos (THORSSON et al., 2018). Dessa

forma, análises complementares que abranjam outros tumores precisam ser realizadas a fim de
avaliar plenamente a hipótese.
Por outro lado, considerando a classe CTAs, vários dos riscos supracitados reduzem, em
principal, devido à especificidade por tumores. Além disso, a produção de vacinas ou
imunoterapias baseada em CTAs tem sido bastante discutida na literatura (GJERSTORFF;
ANDERSEN; DITZEL, 2015). Em particular, a produção de vacinas tem como principal desafio a
abrangência e eficácia em maior número de casos possíveis (BUONAGURO et al., 2011).
Dessa forma, considerando a cobertura amostral, o nível de significância e o possível
custo de produção, os pares de CTAs podem ser um potencial imprescindível para a
imunoterapia, ver Figura 5. Além disso, embora estatisticamente exista redução no nível de
significância, em termos de abrangência de amostras por número de CTAs, as assinaturas com
pares CTAs são bastante promissoras. Em síntese, as assinaturas têm abrangência média de
aproximadamente 27% das amostras na coorte em melanoma (n = 479). Em particular, tal
característica constitui um interessante aspecto biotecnológico a ser desenvolvido.
Finalmente, a combinação de CTAs configura uma oportunidade para desenvolvimento
de um produto patenteável. Em conclusão, a prospecção de novos antígenos tumorais fornece
também uma fonte para busca de marcadores preditivos e, consequentemente, estratégias de
diagnóstico.
50
5. CAPITULO 3 – RNA-BINDING PROTEINS E RESPOSTA A DROGAS
1. Introdução
A regulação da expressão gênica é um processo com várias camadas, que incluem desde
a manifestação, edição e estabilização da informação genética (RNA), até aspectos associados
a produção de unidades funcionais (proteínas). Em suma, os mecanismos que controlam esse
processo biológico têm funções extremamente especializadas como, por exemplo, a nível pós-
transcricionais e pós-traducionais (LEE; YOUNG, 2013).
Em particular, os eventos pós-transcricionais apresentam um papel fundamental na
regulação da expressão gênica, contemplando desde moléculas de RNA que são capazes de
desempenhar função no silenciamento da expressão gênica, até mesmo proteínas que interagem
para biogênese e modificação de RNAs. Além disso, alguns estudos têm apresentado a
importância de mecanismos pós-transcricionais no desenvolvimento, diferenciação e na
progressão de doenças (HENTZE et al., 2018; HONG, 2017).
Nesse contexto, as RBPs, do inglês, RNA Binding Proteins, são um dos principais
protagonistas a nível pós-transcricional, sendo compostas por proteínas que têm a capacidade
de interagir com moléculas de RNA (GERSTBERGER; HAFNER; TUSCHL, 2014). Brevemente,
RBPs apresentam função regulatória, atuando sobre os processos de edição, poliadenilação e
transporte do RNA. Além disso, outros processos biológicos e complexos ribonucleoprotéicos
são mediados por essas biomoléculas como, por exemplo, Spliceossomo e a biogênese de RNA
pequenos (microRNA e Piwi RNA). Em adição, novas evidências têm apontado a relação de
RBPs com processos fisiológicos como: aspectos homeostáticos da célula e até mesmo com
algumas doenças. Em destaque, alguns estudos têm apontado a associação de RBPs expressos
de maneira aberrante com o prognóstico de pacientes com câncer (KECHAVARZI; JANGA, 2014;
NISHTALA; NEELAMRAJU; JANGA, 2016). Além disso, outros mecanismos regulados por RBPs
têm sido identificados em câncer, incluindo processos responsáveis por perturbações a nível
genômico, transcriptional e pós-traducional.
Em nível sistêmico, alguns processos clássicos em câncer têm sido associados com a
desregulação de RBPs como, por exemplo, a resistência a apoptose. Por exemplo, o RBP de
antígeno de célula T 1 ou TIA1, quando inativado modula negativamente agentes promotores de
apoptose (BAX e PUMA), promovendo a resistência apoptose. Além disso, estudos in vitro
demonstraram que a superexpressão de HuR está relacionada à promoção da sobrevivência
celular, angiogênese e evasão do reconhecimento imunológico. A ação pró-tumoral de HuR
51
(ELAVL1) está vinculada à sua capacidade de estabilizar o RNA mensageiro dos genes MAPK
e JNK, ambos conhecidos por estarem associados a resistência à droga (HONG, 2017). No
entanto, pouquíssimos estudos têm investigado a influência desses genes no prognóstico e na
eficácia do tratamento.
Recentemente, estudos têm sido desenvolvidos com intuito de compreender aspectos
clínicos e biológicos do câncer, principalmente, com ênfase na dinâmica entre heterogeneidade
do tumor e a resposta medicamentosa. Em particular, o projeto 1000GDSC contempla o ensaio
funcional de diversos compostos com função anticâncer em milhares de linhagens celulares
(IORIO et al., 2016). Tal estudo produziu uma vasta quantidade, incluindo dados de mutação,
expressão gênica e IC50 (Inhibitor Concentration). Como principais achados, o trabalho
demonstrou a preferência de drogas para distintos genótipos como, por exemplo, a droga Nutlin-
3a (-) para o genótipo TP53 selvagem. Em síntese, o projeto vinculou a resposta de
aproximadamente 250 drogas a distintos genótipos em 1000 linhagens celulares. Dessa forma,
fornecendo um extenso catálogo para investigação de aspectos importantes na resposta
medicamentosa.
Por outro lado, o projeto 1000GDSC deixou algumas questões fundamentais em aberto,
dentre as quais a investigação dos mecanismos moleculares envolvidos como, por exemplo, a
regulação da expressão e evento pós-transcricionais podem afetar na resistência ou
sensibilidade a drogas. De forma geral, diversos outros aspectos influenciam a resposta às
drogas, incluindo variações genotípicas, fatores epigenéticos e regulação da expressão gênica
(HOUSMAN et al., 2014). Em células cancerosas, um dos fatores determinísticos está associado
à heterogeneidade genotípica do tumor, sendo a principal causa de resistência a drogas e
recidiva. Tradicionalmente, o genótipo de TP53 tem sido associado com a resposta a drogas
anticâncer, sobretudo a drogas relacionadas com apoptose e dano ao DNA (KIM et al., 2012;
OHNSTAD et al., 2013). Dessa forma, o desenvolvimento de métodos capazes de integrar tais
informações é imprescindível para a investigação da dinâmica da resposta a drogas.
Nesse capitulo, são apresentados métodos para priorização de genes vinculados à
resposta à droga, sobretudo a genes que atuam na regulação da transcrição e em processos
pós-transcricionais. Nesse contexto, foram desenvolvidas abordagens em bioinformática para
filtrar casos espúrios e comparar as categorias gênicas quanto a sua importância na resposta à
droga. Além disso, como caso de estudo as linhagens celulares foram estratificadas pelo
genótipo de TP53, a fim de testar o impacto do genótipo para o tratamento. Finalmente, esse
projeto constitui parte fundamental na colaboração com a professora Dra. Jean YJ Wang da
Universidade da Califórnia - San Diego (UCSD).
52
2. Metodologia
Recuperação dos dados genômicos
Para o desenvolvimento do trabalho, dois bancos de dados genômicos foram utilizados,

compreendendo dados de amostras tumorais e linhagens celulares, TCGA e 1000GDSC,
respectivamente. Foram recuperados dos dados de mutação somática, CNV e expressão gênica
derivados das linhagens celulares e amostras tumorais. Em parênteses, dados de resposta à
droga, mensurados em IC50, foram recuperados exclusivamente do banco 1000GDSC. Além
disso, o dado clínico das amostras do TCGA foi recuperado para a análise de sobrevivência.
RBPs e outros genes associados à transcrição
A classificação dos genes foi recuperada através de bancos de dados especializados. A

lista dos RBPs preditos foi obtida através da ferramenta SONAR (BRANNAN et al., 2016). Por
outro lado, os fatores de transcrição foram recuperados da ferramenta DorotheA (GARCIA-
ALONSO et al., 2018) e Enrichr (KULESHOV et al., 2016), o último corresponde à união de
diversas fontes, tais como: ENCODE, TRANSFAC, ChEA. As demais categorias gênicas (miRNA
e lncRNA) foram recuperadas da anotação do HUGO database (EYRE, 2006).
Análises estatísticas: correlação e sobrevivência
Para análises estatísticas foram desenvolvidos scripts em R, a correlação de Pearson e

demais análises descritivas foram conduzidas com as funções base do R, versão 3.4.2. Em
seguida, a distribuição das correlações por droga foi corrigida usando o método de q-value
[disponível em: https://bioconductor.org/qvalue]. Em paralelo, a análise de enriquecimento de
categorias gênicas foi executada usando a função hipergeométrica nativa do R: stats.
Finalmente, a análise de sobrevivência usando os dados do TCGA foi conduzida com um
conjunto de funções desenvolvidas in-house, as quais compreendem a ferramenta survSign.
53
3. Resultados
3.1. Genotipagem das linhas celulares
Como resultado foi desenvolvido um framework de análise, o qual associa a expressão

de genes, à resposta a droga e ao genótipo do paciente. A Figura 6 resume as etapas da
abordagem desenvolvida. Entre as linhagens celulares, 681 apresentam pelo menos uma
mutação somática em TP53, distribuídas em: missense (532), frameshift (86), splice (66), inframe
(15), nonsense (85). Além disso, apenas cinco linhagens celulares têm deleção em TP53. Como
resultado, 686 e 315 linhagens celulares pertencem ao grupo “TP53 Mutated” (mutação somática
pontual e CNV) e “TP53 Wildtype”, respectivamente. Finalmente, esse conjunto de dados foi
selecionado baseado nos critérios de Iorio et. al. 2016, no qual é defendido que essas mutações
apresentam potencial para induzir a perda de função gênica.
54
Figura 7. Representa o fluxograma completo das análises, o qual compreende a recuperação dos dados,
correlação de Pearson e análise de sobrevivência. a) As etapas em formato de diamante representam a
genotipagem das amostras e linhagens celulares. Tal estratificação é realizada através do dado de mutação e CNV
recuperados do TCGA e 1000 GDCC. As amostras do TCGA genotipadas com TP53 selvagem e mutadas são
classificadas de acordo com o nível de expressão dos RBPs, “Expression Grouping”. As correlações de Pearson são
executadas a em escala genômica, as correlações são obtidas através do dado IC50 e expressão do 1000GDSC.
Subsequentemente, apenas os RBPs significativos são considerados para análise de sobrevivência dos pacientes. b)
O boxplot demonstrando como é realizada a categorização dos resultados do Pearson, apenas os casos extremos
são considerados para análise de sobrevivência.
Em seguida, os conjuntos de dados foram submetidos à análise de correlação, em que

foi considerada a expressão de aproximadamente 18 mil genes suportados pelo microarranjo
disponível pelo projeto 1000GDSC. A distribuição de expressão de cada gene foi correlacionada
com os valores de IC50 de 250 drogas anticâncer, ver Figura 7. Em suma, a medida de IC50
refere-se à concentração necessária para inibir metade de um determinado processo fisiológico
como, por exemplo, viabilidade ou proliferação celular.
No total, para cada genótipo foram obtidas 4.434.250 correlações, o que compreende
todas as correlações possíveis em escala genômica por genótipo de TP53. Tal valor foi reduzido
através de correções estatísticas. Além disso, na Tabela 2 são apresentados a quantidade de
casos significativos para cada classe de genes entre todas as drogas.
Tabela 2. Contagem de casos significativos por categoria de gene associado à transcrição

Gene category TP53 Mutated (N/P) TP53 Wildtype (N/P)
RBPs 75875/16523 59625/10012
TFs 14238/6531 10641/3770
lncRNA 4323/2256 3890/1297
RBP/TF 1795/ 262 1512/ 114
microRNA NA NA
* Legenda: A natureza das associações é dívida entre positivas (P) e negativas (N), são considerados apenas os casos
com q-value inferior à 0.05. Nenhum dado foi encontrado para transcritos de microRNA. Gene category = categoria
gênica;
55
3.2. Perfil dos genes associados à transcrição
Como resultado, os RBPs apresentam a vasta maioria dos casos significativos,

principalmente, devido a quantidade genes incluídos na categoria, a qual compreende 1437
genes. Em paralelo, as outras categorias de genes associados à transcrição totalizam: TFs (357),
miRNA (0) e lncRNA (207). Apenas são contabilizados os casos em que os genes apresentem
valores de expressão no microarranjo do projeto 1000GDSC. Além disso, uma quarta categoria
foi construída considerando apenas os genes com função biológica de RBP e TF, denominada
“RBP/TF”, com o total 30 genes – supracitado na Tabela 2.
Em seguida, a quantidade de casos foi normalizada considerando o número de genes em
cada categoria. Tal procedimento foi executado por droga, tendo como finalidade relativizar a
quantidade de resultados por categoria gênica e medir a possível contribuição de cada grupo na
resposta à droga. Como resultado, é observado maior proporção de resultados relacionados à
RBPs em comparação com outros genes associados à transcrição gênica, com exceção dos
RBP/TF. Em síntese, RBPs aparecem com maior proporção de resultados significativos em 64 e
61 drogas para os genótipos TP53 Mutated e TP53 Wildtype, respectivamente.
Figura 8. Comparativo entre os resultados significativos por categoria gênica em cada droga. Foram filtrados
os valores baseados em q-value, (Q-value < 0.05), são apresentadas apenas algumas drogas. A) Resultados para o
genótipo TP53 Wildtype; B) Resultados para o genótipo TP53 Mutated. A categoria “RBP” apresenta maior proporção
em várias drogas, quando não comparada à categoria mista “RBP/TF”.
56
A normalização executada na Figura 8 permite observar a quantidade de casos por

categoria gênica, porém está não apresenta nenhum critério qualitativo na seleção de casos,
bem como, não é capaz de reduzir resultados espúrios. Dessa forma, foi desenvolvida uma
abordagem para filtragem e priorização de dados vinculados à resposta a drogas. Em parêntese,
os dados obtidos no item seguinte, são utilizados como base para todas as análises
subsequentes.
3.3. Classificação dos resultados conforme a resposta às drogas
Em vista a quantidade de dados produzidos foi desenvolvida uma abordagem para

classificar os dados obtidos em agrupamentos de maior para menor relevância. A abordagem
descrita nesse item corresponde ao Objetivo Especifico 2.2.9.
Em síntese, as correlações foram classificadas conforme o nível de significância, em três
faixas distintas: casos superiores ao quarto quartil (Q4), casos superiores a outliers regulares
(Q3 + 1.5 x IQR) e, por fim, casos superiores a outliers extremos (Q3 + 3 x IQR), ver Figura 9.
Tal procedimento tem duas finalidades, i) categorizar os dados em faixas de qualidade; ii)
priorizar casos que, possivelmente, tem maior impacto na resposta à droga. A classificação foi
executada independentemente da categoria gênica, em que é considerada toda a distribuição de
correlações por droga, incluindo genes codificadores de proteínas não associados à transcrição.
Como resultado, 84% e 80% dos casos são classificados como “Q4”, 14 / 16% para outliers
regulares e apenas 2 / 3.5% para outliers extremos para os genótipos TP53 Wildtype e Mutated,
respectivamente. Finalmente, considerando o impacto funcional, apenas outliers extremos foram
utilizados nas análises subsequentes, tal medida reduziu drasticamente o universo investigado,
além de priorizar os casos que podem está diretamente associado a modulação da resposta à
droga.
57
Figura 9. Boxplot demonstrando a categorização dos resultados para drogas associadas a dano ao DNA. São
apresentados apenas os casos categorizados com outliers extremos e regulares, ver legenda de tamanho. As cores
dos pontos representam categorias gênicas, além disso, os genótipos são identificados pelas cores cinza (Mutated) e
branca (Wildtype).
Em adição, as correlações foram subdivididas em positivas e negativas, uma vez que

contemplam aspectos distintos na dinâmica de resposta à droga como, por exemplo, o aumento
a resistência ou sensibilidade. No total, foram contabilizadas 2156 e 5433 correlações positivas,
bem como, 706 e 1553 negativas para os grupos TP53 Wildtype e TP53 Mutated,
respectivamente. Na Figura 10 são ilustrados casos relevantes cada grupo genotípico, os quais
serão abordados na sessão de Discussão.
58
Figura 10. Boxplot ilustrando casos extremos de RBPs com correlações positivas e negativas por genótipo de
TP53. Os casos foram selecionados dada distribuição R² do Pearson e a diferença entre o primeiro e o quarto ranque
de IC50. Em cada boxplot é apresentado o RBP, seguido pelo genótipo de TP53 e o p-value da diferença dos ranques.
As correlações positivas indicam que o aumento da expressão do RBP equivale a aumento na dosagem do
medicamento, o inverso ocorre para as correlações negativas.
59
3.4. Enriquecimento de genes associados à transcrição
Em seguida, as categorias gênicas foram testadas quanto a sua representatividade em

cada droga, i.e., para medir se a resposta a uma determinada droga está fortemente vinculada a
RBPs, TF, lncRNA ou qualquer outro codificador de proteína. Na Figura 10, são apresentados
alguns dos enriquecimentos obtidos através de um teste hipergeométrico. No total, foram
contabilizadas 198/141 drogas enriquecidas para codificadores de proteína, 23/14 para RBPs,
6/3 para TF, 5/3 para RBP/TF, sendo apenas uma enriquecida para lncRNAs. As contagens
anteriormente citadas correspondem aos genótipos TP53 Mutated e TP53 Wildtype,
respectivamente. Além disso, a categoria lincRNAs foi enriquecida apenas para a droga
AZD8055 no genótipo TP53 Wildtype.
Por outro lado, a Figura 11 apresenta um padrão de mutualidade exclusiva entre as
categorias gênicas, por exemplo, as drogas como Etoposide e Linsitinib são enriquecidas apenas
por correlações extremas de RBPs em TP53 Wildtype e TP53 Mutated, respectivamente. Os
resultados descritos nesse item correspondem ao Objetivo Especifico 2.2.12.
60
Figura 11. Enriquecimento de genes associados à transcrição gênica por genótipo de TP53. A escala de cores
representa o logaritmo do q-value, tons claros de azul correspondem a valores mais significativos. O tamanho do ciclo
61
é dado pela quantidade de genes em cada categoria. São apresentados apenas os 15 melhores resultados
ranqueados por categoria gênica e genótipo.
3.5. Mecanismo de resistência à droga mediados por RBPs
Em geral, o padrão das correlações apresenta aspectos específicos por entre os

genótipos, ver Figuras 12-13, que indica preferência de distintos processos biológicos na
resposta a drogas nos agrupamentos de linhagens células. Em detalhe, quando comparada à
composição de RBPs entre os genótipos apenas 18% candidatos está sobreposta entre os dois
conjuntos de dados.
62
Figura 12. Heatmap com RBPs extremos para o genótipo TP53 Wildtype. As drogas apresentadas foram
selecionadas de acordo com as correlações extremas, cada droga apresenta pelo menos um RBPs fortemente
correlacionado. As cores no heatmap representam o R² da correlação de Pearson.
De forma geral, cada genótipo apresenta casos significativos para centenas de drogas
sendo, especificamente, 104 para TP53 Wildtype e 154 para TP53 Mutated. Além disso, algumas
drogas são exclusivas por genótipo, por exemplo, Cisplatin e Gemcitabine para o grupo Mutated
e Wildtype, respectivamente.
63
Figura 13. Heatmap com RBPs extremos para o genótipo TP53 Mutated. As drogas apresentadas foram
selecionadas de acordo com as correlações extremas, cada droga retrata pelo menos um RBPs fortemente
correlacionado. As cores no heatmap representam o R² da correlação de Pearson.
3.6. Análise de sobrevida dos RBPs
Subsequentemente, os RBPs elencados como extremos foram testados contra as

amostras do TCGA. Dessa forma, é possível avaliar qual o impacto do nível de expressão das
RBPs no prognóstico dos pacientes, sendo pelo aumento a resistência ao tratamento (mau
prognóstico) ou por algum aspecto de proteção metabólico (bom prognóstico). Além disso, um
importante ponto foi traçado nessa análise, o cálculo de sobrevivência foi executado de duas
formas, i) utilizando as amostras combinadas de todos os tumores, com a finalidade de igualar a
análise “pan-cancer” das linhagens celulares com as tumorais do TCGA; ii) em seguida, foi
avaliada a contribuição individual de cada tumor em relação a sobrevivência e ao status do
prognóstico.
A Figura 14 apresenta alguns casos de RBPs associados a bom prognóstico nas
amostras dos tumores BRCA, COADREAD, BLCA, LUAD, HNSC, GBM, SKCM e LGG. A
distribuição de expressão foi fragmenta em quatro partes idênticas (quartis) contemplando
agrupamentos com expressão basal até superexpresso. Em detalhe, são ilustrados alguns casos
para exemplificar a natureza exploratória da análise.
64
Figura 14. Análise de sobrevivência para RBPs em amostras do TCGA. Foram selecionados casos em que o
status do prognóstico estivesse em acordo com o aumento da sensibilidade ou resistência à droga. A) A análise de
sobrevivência de THOC1 e ANXA2 por tumor. B) Kaplan-meier derivados da estratégia “pan-cancer” para associação
com sobrevivência, foram combinadas amostras dos tumores BRCA, COADREAD, BLCA, LUAD, HNSC, GBM, SKCM,
LGG. Q1 = primeiro quartil de expressão, contemplando amostras com valores baixos de expressão, até 25% da
distribuição; Q4 = quarto quartil de expressão, amostras em que a expressão do RBP está acima 75% da distribuição.
65
4. Discussão
A regulação da transcrição gênica é um mecanismo sofisticado que comanda desde a

abundância dos transcritos até a composição da informação expressa. Além disso, recentes
estudos têm discutido que a modulação da expressão gênica está envolvida na resposta a drogas
em pacientes com câncer (KLIJN et al., 2015). Nesse contexto, os RBPs são apresentados entre
as categorias gênicas capazes de influenciar essa dinâmica. No presente trabalho, foram
desenvolvidas abordagens para análise de genes associados à transcrição e sua influência na
resposta à droga.
Metodologicamente, a estratégia proposta reduziu a dimensão dos candidatos em
dezenas de vezes, totalizando menos de 10% das correlações calculadas. Em adição, o método
tem um caráter simples, sendo baseado na distribuição de correlações por genótipo e droga.
Além disso, em comparação a outros métodos de priorização, a estratégia de outliers permite
elencar diversos resultados (coletivamente), não um único caso por droga, como evidenciado na
Figura 9. Tal aspecto, é valioso na discussão de múltiplos fatores conferindo resistência ou
sensibilidade ao medicamento. Finalmente, a classificação em outliers permitiu não somente
identificar os melhores candidatos por droga, mas também compará-los entre genótipos de TP53.
No nível da comparação funcional, é possível observar a distribuição de casos extremos
de RBPs vinculados à resposta em diversas drogas. Em evidência, a droga anticâncer
Refametinib, apresenta o maior número de casos em ambos os genótipos, 17 e 14 em TP53
Mutated e TP53 Wildtype, respectivamente. Curiosamente, alguns medicamentos parecem ter
características preferenciais por genótipo como, por exemplo, “Bryostatin 1” com 24 casos
identificados apenas para o grupo TP53 Mutated. Em paralelo, quando avaliado globalmente o
padrão das correlações, pode-se observar preferências entre os genótipos de TP53, ver Figuras
12-13. No total, 154 e 104 RBPs são apresentados por genótipo de TP53 Mutated e TP53
Wildtype, respectivamente. Entre os RBPs apresentados apenas 18% dos candidatos são
compartilhados entre os genótipos de TP53.
Em adição, são listadas no total de 73 e 23 drogas são particulares para os genótipos de
TP53 mutado e selvagem, respectivamente. Em contrapartida, a distribuição de classes de
drogas parece não estar enviesada por genótipo, observar legenda nas Figuras 12-13.
De forma absoluta, a quantidade de resultados envolvendo RBPs sugere uma forte
influência desses genes em processos fisiológicos da célula e na resposta à droga. Em particular,
quando comparados a outros genes vinculados à transcrição, o número de casos extremos de
RBPs excede em dezenas de vezes categorias como, por exemplo, lncRNA. Além disso, com
66
exceção a categoria “protein coding”, RBPs são classe com maior número de casos enriquecidos
por drogas, como é possível ver na Figura 11. O volume de casos vinculados aos RBPs pode
estar associado às características funcionais desempenhadas por essa categoria gênica. Em
detalhe, quando comparado a fatores de transcrição (TFs), os RBPs apresentam um espectro
maior de funções, incluindo desde o nível transcricional (splicing e poliadenilação) até
modificações pós-traducionais (PEREIRA; BILLAUD; ALMEIDA, 2017). Além disso, no que
consta a comparação com protein coding, possivelmente, uma parcela significativa deve está
vinculada a vias de metabólicas associadas aos alvos das drogas – explicando a maior
quantidade de resultados para essa categoria gênica.
Por outro lado, outro aspecto interessante está relacionado ao padrão de mutualidade
exclusiva entre os enriquecimentos, a maior das drogas está enriquecida para apenas uma
categoria vinculada à transcrição. A droga Etoposide, por exemplo, está enriquecida apenas por
RBPs extremos independentemente do genótipo de TP53. Em adição, outros casos exclusivos
de RBPs são observados para as drogas IPA-3, Linsitinib, BAY-61-3606. Além disso, existem
outros casos em que RBPs ou TFs são enriquecidos em conjunto a protein coding, o surgimento
de tal fenômeno pode indicar a relação de “regulador-alvo” entre os candidatos na droga.
Em adição, outro aspecto interessante está vinculado à presença de único RBP em várias
drogas. O gene NQO1 está posicionado como outlier extremo em 45 das 250 drogas (número
não redundante), sendo dividido em 44 e 13 para cada genótipo TP53 Mutated e TP53 Wildtype,
respectivamente. Em destaque, tem sido discutida a função de NQO1 como fator de proteção a
drogas em câncer de mama (OH; PARK, 2015; YANG et al., 2014). Tal aspecto está consistente
com os resultados identificados, sendo 55 casos que relacionam o aumento de expressão de
NQO1 ao aumento dos valores de IC50 (resistência). Particularmente, a associação de NQO1
com várias drogas parece está sendo refletida nas curvas de sobrevivência da análise “pan-
cancer”, considerando ambos os genótipos de TP53, ver Figura 14B.
Aliado a isso, RBPs como, por exemplo, ANXA2 tem sido associado a evasão da
apoptose e resistência a várias drogas em neuroblastoma (WANG et al., 2017). Em adição,
estudos tem vinculado ANXA2 a resistência medicamentosa em câncer de bexiga, tal aspecto é
evidenciado na Figura 14. Além disso, ANXA2 está negativamente correlacionado com a droga
Tubastatin A, a qual tem sido discutida como potencial terapêutico em câncer de bexiga (ROSIK
et al., 2014; WAN et al., 2014). Dessa forma, a presença NQO1 e ANXA2 correlacionadas de
forma negativa (resistência) em dezenas drogas, pode indicar um interessante aspecto para
discussão de resistência a múltiplas drogas (do inglês, multidrug resistance – MDR).
67
Por outro lado, RBPs vinculados ao aumento de sensibilidade podem caracterizar outra
vertente interessante, principalmente, durante a escolha medicamentosa e na definição da
concentração da droga. Entre os casos classificados, o gene THOC1 pode ser realçado dada
sua capacidade inibidor de vias proliferativas e de crescimento celular em alguns tumores. Em
síntese, a superexpressão de THOC1 induz a parada do ciclo celular em tumores de pulmão,
estacionando as células em G2/M, em seguida, promovendo apoptose (WAN et al., 2014).
Curiosamente, a assinatura de sobrevivência THOC1 foi encontrada apenas para
amostras de câncer de mama, ver Figura 14A. Tal aspecto parece conflitante, uma vez que a
droga associada a THOC1 é uma inibidora de ALK, denominada Alectinib, comumente
administrada em pacientes com câncer pulmão (FAN et al., 2018). Por outro lado, algumas
evidências têm sugerido um enorme potencial na utilização de ALK como alvo terapêutico em
câncer de mama, bem como, a administração de drogas similares Alectinib (crizotinib) em
subtipos tumorais de câncer de mama (GRANDE; BOLOS; ARRIOLA, 2011; PARSONS et al.,
2017). Ademais, tem sido discutida a importância do genótipo de selvagem de TP53 para
resposta a drogas quinases vinculadas ao receptor ALK em câncer (WANG et al., 2018). Tal
aspecto corrobora com o achado de THOC1 associado à Alectinib apenas no grupo TP53
Wildtype. Em adição, a curva de sobrevivência apresentada na Figura 14A demonstra a relação
da superexpressão (curva azul) de THOC1 com o bom prognóstico em amostras de câncer
mama. Dessa forma, embora preliminar tal achado pode servir para guiar ensaios funcionais em
linhagens celulares de câncer de mama, a fim de compreender o possível mecanismo de
interação de THOC1 com drogas inibidoras de ALK.
Finalmente, embora a análise de sobrevivência permita avaliar a eficácia das predições
sobre resposta à droga, a interpretação de tais resultados ainda precisa ser avaliada
cuidadosamente, sobretudo considerando a relação de especificidade das drogas por câncer.
Além disso, em geral, algumas discordâncias entre o status da resposta à droga e ao prognóstico
sugerido pela análise de sobrevivência [dado não apresentado].
Em conclusão, aqui foi apresentado uma abordagem para análise e prospecção de genes
associados com a resposta a drogas. Além disso, foram discutidos aspectos funcionais das
categorias gênicas, com ênfase nos RBPs, além de características globais como, por exemplo,
a comparação do genótipo de TP53 com a dosagem das drogas em linhagens celulares.
Finalmente, foi evidenciado o impacto da regulação dos RBPs na sobrevivência de pacientes nas
amostras do TCGA.
68
6. CONCLUSÃO
Na pesquisa contra o câncer, a prospecção de alvos terapêuticos é imprescindível,

principalmente, para desenvolvimento de novas estratégias associadas a prognóstico e
tratamento do câncer. Na verdade, a busca por estratégias vinculadas ao tratamento e cura do
câncer tem sido um alicerce para o desenvolvimento tecnológico das ciências da vida. Entretanto,
embora seja uma questão fundamental, a compreensão de quais fatores são envolvidos com
sucesso no tratamento ou mortalidade dos pacientes permaneceu por muito tempo
desconhecido. Nesse contexto, a Bioinformática tem facilitado a avaliação de quais abordagens
contribuem para o melhor prognóstico e a aumento da sobrevivência dos pacientes.
Em particular, a busca por antígenos e/ou marcadores tumorais são fatores importantes
para aumentar a taxa de sucesso terapêutico, sendo principalmente empregados na construção
de ferramentas de prognóstico, como subtipagem tumoral ou no entendimento de aspectos
fenotípicos do câncer. Nesse contexto, o conjunto de proteínas de superfícies, o surfaceoma,
tem papel fundamental no desenvolvimento de marcadores tumorais, bem como, na prospecção
de novas drogas anticâncer (KUHLMANN et al., 2018). Por outro lado, o desenvolvimento de
abordagens baseadas em imunoterapia tem sido discutido com outro potencial recurso no
tratamento, principalmente, devido aos avanços obtidos na compreensão da imunologia do
câncer. Recentemente, diversos trabalhos têm apontado a importância entre a associação de
marcadores do resposta imunológica e a melhor significativa no prognóstico de pacientes com
câncer (BARROS et al., 2018; PITCOVSKI et al., 2017). Além disso, alguns testes clínicos têm
sido produzidos em busca de tratamentos que baseado em produtos do sistema imune como,
por exemplo, as vacinas anticâncer derivadas de antígenos tumorais.
Por último, a dinâmica de resposta a drogas está inserida na discussão de medicina
personalizada, sendo essa associada implicação direta na ineficácia do tratamento, mal
prognóstico e recidiva tumoral (BORAN; IYENGAR, 2010). Nesse contexto, RNA-binding
Proteins, tem um papel de destaque na resposta ao tratamento, uma vez que sua desregulação
pode influenciar diversos aspectos da fisiologia celular (GLISOVIC et al., 2008). Além disso,
estudos tem mostrado a associação de resposta ao tratamento com mecanismos pós-
transcricionais e o genótipo de pacientes em câncer (LIU et al., 2016b; PELTZ et al., 2009).
Dessa forma, a pesquisa sobre mecanismos de resposta à droga configura um aspecto adicional
para aumentar a eficácia durante a escolha terapêutica.
Em conclusão, os achados apresentados nesse trabalho contribuem, de forma a
complementar o avanço na compreensão de quais mecanismos são vinculados ao prognóstico
69
e a taxa de sobrevida dos pacientes. Além disso, os dados apresentados fornecem um substrato
valioso para desenvolvimento de produtos biotecnológicos para o tratamento do câncer, bem
como, para o avanço da medicina personalizada. Em parênteses, as assinaturas de antígenos
tumorais em melanoma são um aspecto inovador para pesquisa clínica, as quais foram
priorizadas e submetidas a processo de patenteamento. Finalmente, as abordagens
desenvolvidas tem como resultado a produção de um acervo de informações, o qual correlaciona
facetas da pesquisa contra o câncer em busca de novas estratégias para tratamento.
70
7. REFERÊNCIAS
1. AKULAPALLI, S. History of Cancer, Ancient and Modern Treatment Methods. J Cancer

Sci Ther., v. 1, n. 2, p. 1–4, 2009.
2. ALLEMANI, C. et al. Global surveillance of trends in cancer survival 2000–14
(CONCORD-3): analysis of individual records for 37 513 025 patients diagnosed with one
of 18 cancers from 322 population-based registries in 71 countries. The Lancet, v. 391,
n. 10125, p. 1023–1075, 2018.
3. ANDROULLA, M. N.; LEFKOTHEA, P. C. CAR T-cell Therapy: A New Era in Cancer
Immunotherapy. Current Pharmaceutical Biotechnology. p. 5–18, 2018.
4. ARRUEBO, M. et al. Assessment of the evolution of cancer treatment therapies. Cancers,
v. 3, n. 3, p. 3279–3330, 2011.
5. BABU, G. S. et al. Tumor markers : An overview. Journal of Orofacial Sciences. p. 87-
95 v. 4, n. 2, 2012.
6. BAILEY, M. H. et al. Comprehensive Characterization of Cancer Driver Genes and
Mutations Article Comprehensive Characterization of Cancer Driver Genes and Mutations.
Cell. p. 371–385, 2018.
7. BAILEY, P. et al. Exploiting the neoantigen landscape for immunotherapy of pancreatic
ductal adenocarcinoma. Scientific Reports, v. 6, n. October, p. 1–8, 2016.
8. BANSAL, A.; SINGH, M. P.; RAI, B. Human papillomavirus ‑ associated cancers : A
growing global problem Biology of Human Papilloma. p. 84–89, 2016.
9. BARROS, L. et al. Immunological-based approaches for cancer therapy. Clinics (Sao
Paulo, Brazil), v. 73, n. suppl 1, p. e429s, 2018.
10. BERTRAM, J. S. The molecular biology of cancer. Molecular Aspects of Medicine, v.
30, n. 2009, p. 29–41, 2011.
11. BLACKADAR, C. B. Historical review of the causes of cancer. World Journal of Clinical
Oncology, v. 7, n. 1, p. 54, 2016.
12. BORAN, A. D. W.; IYENGAR, R. Systems approaches to polypharmacology and drug
discovery. Current opinion in drug discovery & development, v. 13, n. 3, p. 297–309,
2010.
13. BRANNAN, K. W. et al. SONAR Discovers RNA-Binding Proteins from Analysis of Large-
Scale Protein-Protein Interactomes. Molecular Cell, v. 64, n. 2, p. 282–293, 2016.
14. BRUNO, T. et al. Antigen presentation by tumor infiltrating B cells influences CD4 T cell
phenotype and function in primary lung cancer patient tumors. Cancer Immunology
71
Research. v. 3, n. Suppl 2, p. 2–4, 2015.

15. BUONAGURO, L. et al. Translating tumor antigens into cancer vaccines. Clinical and
Vaccine Immunology, v. 18, n. 1, p. 23–34, 2011.
16. CAGAN, R.; MEYER, P. Rethinking cancer: current challenges and opportunities in cancer
research. Disease Models & Mechanisms, v. 10, n. 4, p. 349–352, 2017.
17. CHALAKUR-RAMIREDDY, N. K. R.; PAKALA, S. B. Combined drug therapeutic strategies
for the effective treatment of Triple Negative Breast Cancer. Bioscience Reports, v. 38,
n. 1, p. BSR20171357, 2018.
18. CHEN, X.; SUN, X.; HOSHIDA, Y. Survival analysis tools in genomics research. Human
Genomics, v. 8, p. 1–5, 2014.
19. CHENG, D. T. et al. Comprehensive detection of germline variants by MSK-IMPACT, a
clinical diagnostic platform for solid tumor molecular oncology and concurrent cancer
predisposition testing. BMC Medical Genomics, v. 10, n. 1, p. 1–9, 2017.
20. CHURCH, S. E.; GALON, J. Tumor Microenvironment and Immunotherapy: The Whole
Picture Is Better Than a Glimpse. Immunity, v. 43, n. 4, p. 631–633, 2015.
21. CRESPO, I. et al. Identifying biological mechanisms for favorable cancer prognosis using
non-hypothesis-driven iterative survival analysis. Systems Biology and Applications, v.
2, n. November, p. 1–11, 2016.
22. DA-YONG LU, TING-REN LU, H.-Y. W. Personalized Cancer Therapy: A Perspective.
Clinical & Experimental Pharmacology, v. 04, n. 02, 2014.
23. DA CUNHA, J. P. C. et al. Bioinformatics construction of the human cell surfaceome.
Proceedings of the National Academy of Sciences, v. 106, n. 39, p. 16752–16757,
2009.
24. DA CUNHA, J. P. C. et al. The human cell surfaceome of breast tumors. BioMed
Research International, v. 2013, 2013.
25. DA SILVA, V. L. et al. Genome-wide identification of cancer/testis genes and their
association with prognosis in a pan-cancer analysis. Oncotarget, v. 8, n. 54, p. 92966–
92977, 2017.
26. DEVITA, V. T.; CHU, E. A history of cancer chemotherapy. Cancer Research, v. 68, n.
21, p. 8643–8653, 2008.
27. DIAMANTIS, N.; BANERJI, U. Antibody-drug conjugates — an emerging class of cancer
treatment. British Journal of Cancer. v. 114, n. 4, p. 362–367, 2016.
28. DOROSHOW, J. H.; SIMON, R. M. On the Design of Combination Cancer Therapy. Cell,
v. 171, n. 7, p. 1476–1478, 2017.
72
29. EFREMOVA, M. et al. Neoantigens generated by individual mutations and their role in
cancer immunity and immunotherapy. Frontiers in Immunology, v. 8, n. November, p.
1–8, 2017.
30. EMENS, L. A. et al. Cancer immunotherapy: Opportunities and challenges in the rapidly
evolving clinical landscape. European Journal of Cancer, v. 81, p. 116–129, 2017.
31. ESWARAN, J. et al. RNA sequencing of cancer reveals novel splicing alterations.
Scientific Reports, v. 3, 2013.
32. EYRE, T. A. The HUGO Gene Nomenclature Database, 2006 updates. Nucleic Acids
Research, v. 34, n. 90001, p. D319–D321, 2006.
33. FAGUET, G. B. A brief history of cancer: Age-old milestones underlying our current
knowledge database. International Journal of Cancer, v. 136, n. 9, p. 2022–2036, 2015.
34. FAN, J. et al. The efficacy and safety of alectinib in the treatment of ALK+ NSCLC: A
systematic review and meta-analysis. OncoTargets and Therapy, v. 11, p. 1105–1115,
2018.
35. FERTÉ, C. et al. Impact of bioinformatic procedures in the development and translation of
high-throughput molecular classifiers in oncology. Clinical Cancer Research, v. 19, n.
16, p. 4315–4325, 2013.
36. FISHER, R.; PUSZTAI, L.; SWANTON, C. Cancer heterogeneity: Implications for targeted
therapeutics. Nature, v. 509, n. 7502 SUPPL., p. 479–485, 2014.
37. FUENTES, L. et al. HHS Public Access. v. 93, n. 4, p. 292–297, 2016.
38. FUKUHARA, H.; INO, Y.; TODO, T. Oncolytic virus therapy: A new era of cancer treatment
at dawn. Cancer Science, v. 107, n. 10, p. 1373–1379, 2016.
39. GARCIA-ALONSO, L. et al. Transcription factor activities enhance markers of drug
sensitivity in cancer. Cancer Research, v. 78, n. 3, p. 769–780, 2018.
40. GATZA, M. L. et al. An integrated genomics approach identifies drivers of proliferation in
luminal-subtype human breast cancer. Nature Genetics, v. 46, n. 10, p. 1051–1059,
2014.
41. GERSTBERGER, S.; HAFNER, M.; TUSCHL, T. A census of human RNA-binding
proteins. Nature Reviews Genetics, v. 15, n. 12, p. 829–845, 2014.
42. GJERSTORFF, M. F.; ANDERSEN, M. H.; DITZEL, H. J. Oncogenic cancer/testis
antigens: prime candidates for immunotherapy. Oncotarget, v. 6, n. 18, p. 15772–15787,
2015.
43. GLISOVIC, T. et al. RNA-binding proteins and post-transcriptional gene regulation. FEBS
Letters, v. 582, n. 14, p. 1977–1986, 2008.
73
44. GOLDBLATT, E. M.; LEE, W. H. From bench to bedside: The growing use of translational
research in cancer medicine. American Journal of Translational Research, v. 2, n. 1,
p. 1–18, 2010.
45. GOLDENBERG, D. M. et al. Trop-2 is a novel target for solid cancer therapy with
sacituzumab govitecan ( IMMU-132 ), an antibody-drug conjugate ( ADC )*. v. 6, n. 26,
2015.
46. GRANDE, E.; BOLOS, M.-V.; ARRIOLA, E. Targeting Oncogenic ALK: A Promising
Strategy for Cancer Treatment. Molecular Cancer Therapeutics, v. 10, n. 4, p. 569–579,
2011.
47. GROISBERG, R.; MAYMANI, H.; SUBBIAH, V. Immunotherapy and next-generation
sequencing guided therapy for precision oncology: what have we learnt and what does
the future hold? Expert Review of Precision Medicine and Drug Development, v. 3, n.
3, p. 205–213, 2018.
48. GRUNEWALD, C. M. et al. Tumor immunotherapy-the potential of epigenetic drugs to
overcome resistance. Translational Cancer Research, v. 7, n. 4, p. 1151–1160, 2018.
49. HANAUER, D. et al. Bioinformatics Approaches in the Study of Cancer. Current
Molecular Medicine, v. 7, n. 1, p. 133–141, 2007.
50. HASSANPOUR, S. H.; DEHGHANI, M. Review of cancer from perspective of molecular.
Journal of Cancer Research and Practice, v. 4, n. 4, p. 127–129, 2017.
51. HENTZE, M. W. et al. A brave new world of RNA-binding proteins. Nature Reviews
Molecular Cell Biology, v. 19, n. 5, p. 327–341, 2018.
52. HONG, S. RNA Binding Protein as an Emerging Therapeutic Target for Cancer Prevention
and Treatment. Journal of cancer prevention, v. 22, n. 4, p. 203–210, 2017.
53. HONG, Y. et al. QSurface: fast identification of surface expression markers in cancers.
BMC systems biology, v. 12, n. Suppl 2, p. 17, 2018.
54. HORAK, P.; FRÖHLING, S.; GLIMM, H. Integrating next-generation sequencing into
clinical oncology: Strategies, promises and pitfalls. ESMO Open, v. 1, n. 5, 2016.
55. HOU, W.; XU, G.; WANG, H. Basic immunology and immune system disorders. Treating
Autoimmune Disease with Chinese Medicine, n. 1, p. 1–12, 2011.
56. HOUSMAN, G. et al. Drug resistance in cancer: An overview. Cancers, v. 6, n. 3, p. 1769–
1792, 2014.
57. ILYAS, S.; YANG, J. C. Landscape of Tumor Antigens in T Cell Immunotherapy. The
Journal of Immunology, v. 195, n. 11, p. 5117–5122, 2015.
58. IN, J.; LEE, D. K. Survival analysis: Part I — analysis of time-to-event. Korean Journal
74
of Anesthesiology, v. 71, n. 3, p. 182–191, 2018.

59. IORIO, F. et al. A Landscape of Pharmacogenomic Interactions in Cancer. Cell, v. 166, n.
3, p. 740–754, 2016.
60. JIAN-YING ZHANG, KOK SUN LOOI, AND E. M. T. Identification of tumor-associated
antigens (TAAs) as diagnostic and predictive biomarkers in cancer. v. 520, p. 1–9, 2009.
61. JÖNSSON, B.; WILKING, N. Cancer vaccines and immunotherapeutics: Challenges for
pricing, reimbursement and market access. Human Vaccines and
Immunotherapeutics, v. 8, n. 9, p. 1360–1363, 2012.
62. KARAGIANNIS, P.; FITTALL, M.; KARAGIANNIS, S. N. Evaluating biomarkers in
melanoma. Frontiers in Oncology, v. 4, n. January, p. 1–11, 2014.
63. KECHAVARZI, B.; JANGA, S. C. Dissecting the expression landscape of RNA-binding
proteins in human cancers. Genome Biology, v. 15, n. 1, p. 1–16, 2014.
64. KIM, N. et al. Systemic analysis of genotype-specific drug responses in cancer.
International Journal of Cancer, v. 131, n. 10, p. 2456–2464, 2012.
65. KITTANEH, M.; MONTERO, A. J. Molecular Profiling for Breast Cancer : A
Comprehensive Review. Biomarkers in Cancer, v. 5, p. 61–70, 2013.
66. KLIJN, C. et al. A comprehensive transcriptional portrait of human cancer cell lines.
Nature Biotechnology, v. 33, n. 3, p. 306–312, 2015.
67. KNUDSON, A. G. Two genetic hits (more or less) to cancer. Nature Reviews Cancer, v.
1, p. 157, 1 nov. 2001.
68. KOBOLDT, D. C. et al. The Next-Generation Sequencing Revolution and Its Impact on
Genomics. Cell, v. 155, n. 1, p. 27–38, 2013.
69. KUHLMANN, L. et al. Cell-surface proteomics for the identification of novel therapeutic
targets in cancer. Expert Review of Proteomics, v. 15, n. 3, p. 259–275, 2018.
70. KULESHOV, M. V. et al. Enrichr: a comprehensive gene set enrichment analysis web
server 2016 update. Nucleic acids research, v. 44, n. W1, p. W90–W97, 2016.
71. LEE, T. I.; YOUNG, R. A. Transcriptional regulation and its misregulation in disease. Cell,
v. 152, n. 6, p. 1237–1251, 2013.
72. LIANG, H.; LIU, X.; WANG, M. Immunotherapy combined with epidermal growth factor
receptor-tyrosine kinase inhibitors in non-small-cell lung cancer treatment. OncoTargets
and Therapy, v. Volume 11, p. 6189–6196, 2018.
73. LIM, W. A.; JUNE, C. H. The Principles of Engineering Immune Cells to Treat Cancer. v.
168, n. 4, p. 724–740, 2018.
74. LIU, J. K. H. Anti-cancer vaccines — a one-hit wonder? Yale Journal of Biology and
75
Medicine, v. 87, n. 4, p. 481–489, 2014.

75. LIU, M. C. et al. PAM50 gene signatures and breast cancer prognosis with adjuvant
anthracycline- and taxane-based chemotherapy : correlative analysis of C9741 ( Alliance
). Nature Publishing Group, n. October 2015, 2016a.
76. LIU, X. et al. A systematic study on drug-response associated genes using baseline gene
expressions of the Cancer Cell Line Encyclopedia. Scientific Reports, v. 6, n. March, p.
1–12, 2016b.
77. LU DY, LU TR, CHEN XL, CHEN EH, DING J, X. B. Cancer Bioinformatics, its Impacts on
Cancer Therapy. Journal of Postgenomics Drug & Biomarker Development, v. 05, n.
02, 2015.
78. MADHAVAN, D. et al. Cancer diagnosis and prognosis decoded by blood-based
circulating micro RNA signatures. Frontiers in Genetics, v. 4, n. JUN, p. 1–13, 2013.
79. MANSOORI, B. et al. The Different Mechanisms of Cancer Drug Resistance : A Brief
Review. Tabriz University of Medical Sciences, v. 7, n. 3, p. 339–348, 2017.
80. MARABELLE, A.; CAUX, C. Combined targeted and immunotherapy: The future of
personalized medicine. Blood, v. 120, n. 23, p. 4454–4455, 2012.
81. MARDIS, E. R.; WILSON, R. K. Cancer genome sequencing: A review. Human Molecular
Genetics, v. 18, n. R2, p. 163–168, 2009.
82. MCVEIGH, T. P. et al. The impact of Oncotype DX testing on breast cancer management
and chemotherapy prescribing patterns in a tertiary referral centre. European Journal of
Cancer, v. 50, n. 16, p. 2763–2770, 2014.
83. MITTAL, D. et al. New insights into cancer immunoediting and its three component phases
— elimination, equilibrium and escape. p. 16–25, 2015.
84. MOKHTARI, R. B.; HOMAYOUNI, T. S.; BALUCH, N. Combination therapy in combating
cancer. v. 8, n. 23, p. 38022–38043, 2017.
85. NAIR, M.; SANDHU, S. S.; SHARMA, A. K. Cancer molecular markers: A guide to cancer
detection and management. Seminars in Cancer Biology, v. 52, n. November 2017, p.
39–55, 2018.
86. NISHTALA, S.; NEELAMRAJU, Y.; JANGA, S. C. Dissecting the expression relationships
between RNA-binding proteins and their cognate targets in eukaryotic post-transcriptional
regulatory networks. Scientific Reports, v. 6, n. February, p. 1–14, 2016.
87. OH, E. T.; PARK, H. J. Implications of NQO1 in cancer therapy. BMB Reports, v. 48, n.
11, p. 609–617, 2015.
88. OHNSTAD, H. O. et al. Correlation of TP53 and MDM2 Genotypes With Response to
76
Therapy in Sarcoma. Cancer. p. 1013–1022, 2013.

89. OISETH, S. J.; AZIZ, M. S. Cancer immunotherapy: a brief review of the history,
possibilities, and challenges ahead. Journal of Cancer Metastasis and Treatment, v. 3,
n. 10, p. 250, 2017.
90. OW, T. J. et al. Integration of cancer genomics with treatment selection. Cancer, v. 119,
n. 22, p. 3914–3928, 2013.
91. PARSONS, B. M. et al. Exceptional Response to Crizotinib in an MET-Amplified Triple-
Negative Breast Tumor. JCO Precision Oncology, n. 1, p. 1–6, 2017.
92. PASCHEN, A. Tumor‐Associated Antigens: Identification, Characterization, and Clinical
Applications - Part One - Tumor-associated Antigens (TAAs): Subclasses of TAAs. p. 1–
22, 2009.
93. PELTZ, S. W. et al. Targeting post-transcriptional control for drug discovery. RNA
Biology, v. 6, n. 3, p. 329–334, 2009.
94. PENNOCK, G. K.; CHOW, L. Q. M. New Drug Development and Clinical Pharmacology
The Evolving Role of Immune Checkpoint Inhibitors in Cancer Treatment. The
Oncologist, v. 20, p. 812–822, 2015a.
95. PENNOCK, G. K.; CHOW, L. Q. M. The Evolving Role of Immune Checkpoint Inhibitors
in Cancer Treatment. p. 812–822, 2015b.
96. PEREIRA, B.; BILLAUD, M.; ALMEIDA, R. RNA-Binding Proteins in Cancer: Old Players
and New Actors. Trends in Cancer, v. 3, n. 7, p. 506–528, 2017.
97. PERICA, K. et al. Adoptive T Cell Immunotherapy For Cancer. Rambam Maimonides
Medical Journal, v. 6, n. 1, p. e0004, 2015.
98. PETERSEN, B. S. et al. Opportunities and challenges of whole-genome and -exome
sequencing. BMC Genetics, v. 18, n. 1, p. 1–13, 2017.
99. PITCOVSKI, J. et al. Melanoma antigens and related immunological markers. Critical
Reviews in Oncology/Hematology, v. 115, n. May, p. 36–49, 2017.
100. POLAKIS, P. Antibody Drug Conjugates for Cancer Therapy. n. January, p. 3–19, 2016.
101. PON, J. R.; MARRA, M. A. Driver and Passenger Mutations in Cancer. Annual Review
of Pathology: Mechanisms of Disease, v. 10, n. 1, p. 25–50, 2015.
102. REHEMTULLA, A. The War on Cancer Rages On. Neoplasia, v. 11, n. 12, p. 1252–1263,
2009.
103. ROSENBERG, S. A. et al. Adoptive cell transfer: a clinical path to effective cancer
immunotherapy. Cancer, v. 8, n. 4, p. 299–308, 2008.
104. ROSIK, L. et al. Limited efficacy of specific HDAC6 inhibition in urothelial cancer cells.
77
Cancer Biology and Therapy, v. 15, n. 6, p. 742–757, 2014.

105. S FRANK, T. et al. Sequence analysis of BRCA1 and BRCA2: Correlation of mutations
with family history and ovarian cancer risk. Journal Clinical Oncology, v. 16, p. 2417-
2425
106. SARAH, K. From’omics’ to complex disease: a systems biology approach to gene-
environment interactions in cancer. Cancer Cell International, v. 10, p. 1–13, 2010.
107. SCHUMACHER, T. N.; SCHREIBER, R. D. Realising the Promise: Neoantigens in cancer
immunotherapy. Science (New York, N.Y.), v. 348, n. 6230, p. 69–74, 2015.
108. ŞENBABAOĞLU, Y. et al. Tumor immune microenvironment characterization in clear cell
renal cell carcinoma identifies prognostic and immunotherapeutically relevant messenger
RNA signatures. Genome biology, v. 17, n. 1, p. 231, 2016.
109. SHEN, L.; SHI, Q.; WANG, W. Double agents : genes with both oncogenic and tumor-
suppressor functions. Oncogenesis, 2018.
110. SIGAL, A.; ROTTER, V. Oncogenic Mutations of the p53 Tumor Suppressor : The Demons
of the Guardian of the Genome. Cancer Research. v. 53, n. 27, p. 6788–6793, 2000.
111. SIMON, R. Bioinformatics in cancer therapeutics - Hype or hope? Nature Clinical
Practice Oncology, v. 2, n. 5, p. 223, 2005.
112. SINGER, J. et al. Bioinformatics for precision oncology. Briefings in Bioinformatics, n.
June, p. 1–11, 2017.
113. SPIGEL, D. R. The value of observational cohort studies for cancer drugs. Biotechnology
healthcare, v. 7, n. 2, p. 18–24, 2010.
114. SRINIVASAN, R.; WOLCHOK, J. D. Tumor antigens for cancer immunotherapy :
therapeutic potential of xenogeneic DNA vaccines. Journal of Translational Medicine.
v. 12, p. 1–12, 2004.
115. STRATTON, M. R.; CAMPBELL, P. J.; FUTREAL, P. A. The cancer genome. Nature. v.
458, n. 7239, p. 719–724, 2010.
116. SYED, O. N. et al. Cancer-testis and melanocyte-differentiation antigen expression in
malignant glioma and meningioma. Journal of Clinical Neuroscience, v. 19, n. 7, p.
1016–1021, 2012.
117. TAPPEINER, E. et al. TIminer: NGS data mining pipeline for cancer immunology and
immunotherapy. Bioinformatics, v. 33, n. 19, p. 3140–3141, 2017.
118. TERBUCH, A.; LOPEZ, J. Next Generation Cancer Vaccines — Make It Personal !
Journal of National Comprehensive Cancer Network, v. 4, p. 1–17, 2018.
119. THE INTERNATIONAL GENOME CANCER. International network of cancer genome
78
projects. v. 464, n. 7291, p. 993–998, 2010.

120. THORSSON, V. et al. The Immune Landscape of Cancer. Immunity, v. 48, n. 4, p. 812–
830.e14, 2018.
121. TOLOUDI, M. et al. Recent Developments in Cancer Treatment: A Review.
Pharmaceutical Regulatory Affairs: Open Access, p. 1–4, 2014.
122. TOMCZAK, K.; CZERWIŃSKA, P.; WIZNEROWICZ, M. The Cancer Genome Atlas
(TCGA): An immeasurable source of knowledge. Wspolczesna Onkologia, v. 1A, p.
A68–A77, 2015.
123. TOMITA, Y.; NISHIMURA, Y.; CD, T. Long peptide-based cancer immunotherapy
targeting tumor antigen-specific. OncoImmunology, v.1, p. 2-9. 2013.
124. VENTOLA, C. L. Cancer Immunotherapy, Part 3: Challenges and Future Trends. P & T,
v. 42, n. 8, p. 514–521, 2017.
125. VOGELSTEIN, B. et al. Cancer Genome Lanscapes. Science, v. 339, n. 6127, p. 1546–
1558, 2013.
126. VOGELSTEIN, B.; KINZLER, K. W. Cancer genes and the pathways they control. Nature
Medicine, v. 10, n. 8, p. 789–799, 2004.
127. WAN, J. et al. Thoc1 inhibits cell growth via induction of cell cycle arrest and apoptosis in
lung cancer cells. Molecular Medicine Reports, v. 9, n. 6, p. 2321–2327, 2014.
128. WANG, C. et al. Systematic identification of genes with a cancer-testis expression pattern
in 19 cancer types. Nature Communications, v. 7, p. 10499, 2016.
129. WANG, W.-X. et al. TP53 mutations predict for poor survival in ALK rearrangement lung
adenocarcinoma patients treated with crizotinib. Journal of Thoracic Disease, v. 10, n.
5, p. 2991–2998, 2018.
130. WANG, Y. et al. Annexin A2 could enhance multidrug resistance by regulating NF-κB
signaling pathway in pediatric neuroblastoma. Journal of Experimental and Clinical
Cancer Research, v. 36, n. 1, p. 1–16, 2017.
131. WEI, S. C.; DUFFY, C. R.; ALLISON, J. P. Fundamental mechanisms of immune
checkpoint blockade therapy. Cancer Discovery, v. 8, n. 9, p. 1069–1086, 2018.
132. WERNER, H. M. J.; MILLS, G. B.; RAM, P. T. Cancer systems biology: A peek into the
future of patient care? Nature Reviews Clinical Oncology, v. 11, n. 3, p. 167–176, 2014.
133. WHITESIDE, T. L. Immune responses to cancer : are they potential biomarkers of
prognosis ? v. 3, n. May, p. 1–8, 2013.
134. WOOLLER, S. K. et al. Bioinformatics in translational drug discovery. Bioscience
Reports, v. 37, n. 4, p. BSR20160180, 2017.
79
135. WU, D.; RICE, C. M.; WANG, X. Cancer bioinformatics: A new approach to systems
clinical medicine. BMC Bioinformatics, v. 13, n. 1, p. 71, 2012.
136. YANG, Y. et al. Clinical implications of high NQO1 expression in breast cancers. Journal
of Experimental & Clinical Cancer Research, v. 33, n. 1, p. 14, 2014.
137. YANG, Y. et al. Databases and web tools for cancer genomics study. Genomics,
Proteomics and Bioinformatics, v. 13, n. 1, p. 46–50, 2015.
138. YAO, J. et al. Tumor subtype-specific cancer-testis antigens as potential biomarkers and
immunotherapeutic targets for cancers. Cancer Immunol Research, v. 2, n. 4, p. 371–
379, 2014.
139. YOO, M.-H.; HATFIELD, D. L. The cancer stem cell theory: Is it correct? Molecular Cells,
v. 26, n. 5, p. 514–516, 2008.
140. ZHANG, J. et al. International cancer genome consortium data portal-a one-stop shop for
cancer genomics data. Database, v. 2011, p. 1–10, 2011.
141. ZHANG, X. et al. Personalized cancer vaccines: Targeting the cancer mutanome.
Vaccine, v. 35, n. 7, p. 1094–1100, 2017.
142. ZHUANG, L. et al. A network biology approach to discover the molecular biomarker
associated with hepatocellular carcinoma. BioMed Research International, v. 2014,
2014.
80
ANEXO A – ARTIGO “Genome-wide identification of cancer/testis genes and their

association with prognosis in a pan-cancer analysis.”
www.impactjournals.com/oncotarget/ Oncotarget, 2017, Vol. 8, (No. 54), pp: 92966-92977
Research Paper
Genome-wide identification of cancer/testis genes and their
association with prognosis in a pan-cancer analysis
Vandeclecio Lira da Silva1,2,3,*, André Faustino Fonseca1,2,3,*, Marbella Fonseca1,
Thayna Emilia da Silva1, Ana Carolina Coelho1,3, José Eduardo Kroll1,3,4, Jorge
Estefano Santana de Souza3,5, Beatriz Stransky3,6 Gustavo Antonio de Souza1,3 and
Sandro José de Souza1,3
1
Instituto do Cérebro, UFRN, Natal, Brazil
2
Ph.D. Program in Bioinformatics, UFRN, Natal, Brazil
3
Bioinformatics Multidisciplinary Environment (BioME), Digital Metropolis Institute, UFRN, Natal, Brazil
4
Instituto de Bioinformática e Biotecnologia, Natal, Brazil
5
Instituto Metrópole Digital, UFRN, Natal, Brazil
6
Departmento de Engenharia Biomédica, UFRN, Natal, Brazil
*
These authors have contributed equally to this work
Correspondence to: Sandro José de Souza, email: sandro@neuro.ufrn.br
Keywords: cancer/testis, cancer antigens, biomarkers, prognosis
Received: June 03, 2017 Accepted: August 17, 2017 Published: October 10, 2017
Copyright: Silva et al. This is an open-access article distributed under the terms of the Creative Commons Attribution License 3.0
(CC BY 3.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source
are credited.
ABSTRACT
Cancer/testis (CT) genes are excellent candidates for cancer immunotherapies

because of their restrict expression in normal tissues and the capacity to elicit an
immune response when expressed in tumor cells. In this study, we provide a genome-
wide screen for CT genes with the identification of 745 putative CT genes. Comparison
with a set of known CT genes shows that 201 new CT genes were identified. Integration
of gene expression and clinical data led us to identify dozens of CT genes associated
with either good or poor prognosis. For the CT genes related to good prognosis, we
show that there is a direct relationship between CT gene expression and a signal for
CD8+ cells infiltration for some tumor types, especially melanoma.
INTRODUCTION Cellular and humoral immune responses have been

observed for many CT antigens in patients bearing a
Genes with a restricted pattern of expression in variety of tumor types [5-7], making them good candidate
normal tissues and expression in tumors cells are excellent targets for cancer immunotherapy, like cancer vaccination,
candidates for biomarkers and therapeutic targets. Among adoptive T-cell transfer with chimeric T-cell receptors or in
these genes, cancer/testis (CT) genes are the most combination with conventional cytotoxic therapies [8-12].
promising with several clinical trials under way [1]. These Although there is a lack of consensual classification
CT genes are exclusive or predominantly expressed in of CT genes, authors have divided them into two distinct
testis among normal tissues but are also expressed in a groups [13]. The first one is organized in multigene families
variety of tumor types [2]. Few authors have suggested generally located on the X chromosome, where they comprise
that these genes may be considered as cancer-germline approximately 10% of the genes on that chromosome (CT-X
(CG) genes, as they can also present regular expression genes) and show heterogeneous expression in cancer tissues
in ovary and placenta [3, 4]. When protein products of that increase during tumor evolution and can elicit immune
CT genes elicit an immune response, they are called CT responses in cancer patients. The other group comprises
antigens [3]. Methodologies, like SEREX and protein the non-X CT genes since they are located on autosomal
arrays, have identified several CT genes as CT antigens. chromosomes. This last class does not appear to exist as
www.impactjournals.com/oncotarget 92966 Oncotarget

Bioinformática Aplicada PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Bioinformática Aplicada PDF

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE

INSTITUTO METROPOLE DIGITAL

ANDRÉ LUÍS FONSECA FAUSTINO

Bioinformática aplicada ao desenvolvimento de estratégias de prognóstico e tratamento

Faustino, Andre Luis Fonseca.

Tese (doutorado) - Universidade Federal do Rio Grande do

1. Bioinformática - Tese. 2. Proteínas de superfície - Tese.

RN/UF/BCZM CDU 004:577

Elaborado por FERNANDA DE MEDEIROS FERREIRA AQUINO - CRB-15/301

Bioinformática aplicada ao desenvolvimento de estratégias de prognóstico e tratamento

Defesa de Doutorado apresentada ao

Área de concentração: Bioinformática

Aos que enxergam o mundo com olhos de criança,

A todos os mentores que tive, pelas lições e ensinamentos que me transmitiram e,

Ao professor Sandro José de Souza, pela confiança deposita e oportunidade de tê-lo

A instituição de fomento, CAPES, que através da rede de Biologia Sistêmica do Câncer,

A todos vocês, obrigado.

Essencialmente, a pesquisa do câncer é um campo que envolve vários ramos,

Palavras-chave: Proteínas de superfície, imunoterapia, antígenos tumorais e resistência a

Tabela 1. Quantidade de genes nas intersecções entre os postos de genes associados a 41

1.1. Um breve histórico sobre a pesquisa contra o câncer

Atualmente, a pesquisa contra o câncer está em sua “Era Moderna”, intimamente

1.2. Câncer: uma doença complexa

Conceitualmente, o termo "câncer" compreende um conjunto de aproximadamente 280

contrapartida, as mutações "passengers" têm impacto neutro ou inexpressivo no fitness do tumor.

1.3. Era genômica e o câncer

Atualmente, o estudo do câncer tem priorizado aspectos clínicos vinculados às alterações

aumento significativo, principalmente, devido a análise de sequencias e crescimento dos

1.4. Bioinformática aplicada à oncologia

Diversas iniciativas têm surgido, em sua maioria com objetivo de catalogar

transitado de um nível pontual, vinculada a poucos indivíduos, para estudos populacionais de

1.5. Produtos terapêuticos e a Bioinformática

Estratégias computacionais na pesquisa oncológica têm sido utilizadas em situações

genômicos tem aplicações variadas, contemplando o diagnóstico, caracterização de subtipos

proteínas de superfície estão em processo de teste clínico para desenvolvimento de estratégias

Em contrapartida, outras metodologias ainda permanecem em processo de investigação,

1.6. Métodos de avaliação de prognóstico

Na última década, algumas análises de Bioinformática têm propiciado a descoberta de

Figura 1. Exemplificação de um gráfico de sobrevivência, Kaplan-Meier. A diferença entre as curvas é calculada

Finalmente, existem variados exemplos da utilização de Kaplan-Meier, incluindo

1.7. Sobre os desafios no tratamento do câncer

Como discorrido, o tratamento do câncer está distribuído em vários níveis,

problemático no tratamento do câncer, a resistência a drogas (DOROSHOW; SIMON, 2017;

2.1. Objetivo Geral

Desenvolver metodologias para associar dados de sequenciamento de nova geração

2.2. Objetivos Específicos

2.2.1. Construir um acervo de proteínas associadas de superfície celular através de estratégias

3. CAPÍTULO 1 – SURFACEOMA E IDENTIFICAÇÃO DE ALVOS TERAPÊUTICOS

André L. Fonseca,1,2 Vandeclécio L. da Silva,1,2 Marbella M. da Fonsêca,1

Correspondence should be addressed to Sandro J. de Souza; sandro@neuro.ufrn.br

Received 31 May 2016; Revised 7 September 2016; Accepted 18 October 2016

Academic Editor: Brian Wigdahl

In memoriam of Raimundo Furtado

787 genes with other S-score

Enrichment GO biological process

Regulation of anion transmembrane transport

1.00 Proceedings of the National Academy of Sciences of the United

0.50 spectrometric-derived cell surface protein atlas,” PLoS ONE, vol.

[18] C. Cortina, S. Palomo-Ponce, M. Iglesias et al., “EphB-ephrin-

4. CAPÍTULO 2 – IDENTIFICAÇÃO DE ANTÍGENOS TUMORAIS

mutacionais ou da expressão de proteínas de células germinativas (cancer-testis e placenta

Recuperação dos dados de transcriptômica

Análise de padrão de expressão