Escolar Documentos
Profissional Documentos
Cultura Documentos
1
vez que diferentes critérios foram usados para construir essas bases de dados, a
sobreposição é baixa entre eles. A comparação dos resultados dos diferentes bases de
dados dá uma visão mais ampla da interações proteína-proteína para uma determinada
proteína. No “Projeto de PBD” pretendemos analisar a interações proteína-proteína nas
proteínas ATXN1, 2 e 3, utilizando a informação disponível BioGRID [1] e MINT [2].
Material e métodos
A nossa base de dados foi obtida de todas as proteínas reportadas como interatoras das
proteínas ATXN1, 2 e 3, usando as informações disponíveis na BioGRID [1] e MINT [2],
para as espécies Homo sapiens e Mus musculus, em novembro de 2022. O MySQL 8
command Line Client Unicode e Python foram as ferramentas para concretização do
projeto bio_mint. Optamos por inserir um número de observações mais alargado para
melhor entendimento das consultas, no âmbito tema escolhido, atualizamos o base de
dados no mysql workbench, e enviamos esse código, em vez do inicial para criar as
tabelas ‘reduzidos’ no MySql command Line Client.
REQUISITOS PARA A BASE DE DADOS
Consideremos o universo de BioMint em que temos as seguintes entidades-tipo,
respetivos atributos e relacionamentos (Tabela 1):
GENE(InteractionID, GeneA, GeneB, SymbolA, SymbolB, SWISSPROTA,
SWISSPROTB)
Cada GENE é composto por uma sequência específica (a que vamos denominar sempre
de A e B, como GeneA e GeneB, dupla hélice) que contém um código (instruções) para
codificar proteínas com uma determinada função. Nenhum atributo contém propriedades
do tipo NULL. As proteínas A (SWISSPROTA) interatuam com as proteínas B
(SWISSPROTB), e podem ser iguais ou diferentes, embora no nosso projeto damos mais
importância a outros relacionamentos (consideramos a A, a escolhida para as consultas),
descritos mais à frente.
PROTEINA(InteractionID, GeneA, SWISSPROTA). Nesta entidade, SWISSPROTA
tem valor único, como forma de sabermos que PROTEINA tem cada espécie (no nosso
projecto, humanos e/ou ratos de laboratório). Todas as proteínas podem ser comparadas
para as espécies estudadas, representadas pela relação à entidade seguinte. Nenhum
atributo contém propriedades do tipo NULL.
ESPECIE(InteractionID, OrganismIDA, OrganismIDB, OrganismNameA,
OrganismNameB, SWISSPROTA, SWISSPROTB). Esta entidade tem os organismos
que fazem parte das investigações em laboratório. Além do valor único InteractionID,
temos o código OrganismIDA e B e o Nome da espécie A e B (por se tratar de dados de
representação genética – dupla hélice e por isso escolhemos manter essa caraterística,
conforme já referido em GENE). Nenhum atributo contém propriedades do tipo NULL.
TECNICA(InteractionID, {ExperimentalSystem}, {ExperimentalType}, Score?,
SWISSPROTA, SWISSPROTB}). Esta entidade representa o conjunto de dados ligado
às experiências em laboratório. Existem vários sistemas experimentais e vários tipos de
experiências que validam por exemplo os resultados, Score, atributo opcional. Os
atributos ExperimentalSystem e ExperimentalType são multivalor (uma proteína pode ser
2
exposta à vários sistemas de experimentação e a várias experiências), com bastantes
opções experimentais e por esse motivo apenas escrevemos os campos.
REPETE_TECNICA(InteractionID, Experimental). Esta entidade é tida como um
exemplo de relacionamentos muitos para muitos, uma TECNICA pode ter vários sistemas
experimentais e ao mesmo tempo uma ESPÉCIE pode ser sujeita a vários sistemas
experimentais. Nenhum atributo contém propriedades do tipo NULL.
FONTE(InteractionID, Author, Source, PubId, SourceDatabase, SWISSPROTA,
SWISSPROTB). Esta entidade contém o conjunto de dados sobre as fontes bibliográficas
que validam os resultados e as publicações científicas das descobertas em laboratório.
Tem um campo, Author que pode ser NULL.
AUTOR(InteractionID, Author, Year, Age, PubID). O atributo, Age, é derivado do Year.
O atributo PubId, é único para representar as publicações e ao mesmo tempo, pode não
representar todo o universo da base de dados biomint, daí, estarmos perante uma entidade
do tipo fraca.
Tabela 1 – Relacionamentos apresentados em BioMint.
Relação Cardinalidade Participação
TEM(GENE, PROTEINA) 1:N - Cada GENE tem uma Todos os genes interatuam com as
ou mais proteínas. proteínas e todas as proteínas
integram genes. Participação total.
PERTENCE(PROTEINA, 1:N – Todas as proteínas são Total para ambos os lados, todas as
ESPECIE) parte da constituição das proteínas fazem parte das espécies e
espécies, pelo menos uma todas as espécies têm proteínas.
delas pertence a uma
determinada espécie.
REFERE(ESPECIE, TECNICA) 1:1 – Todas as espécies Parcial, uma ESPECIE, pode
estão identificadas através experimentar uma ou mais técnicas,
de uma técnica. sem obrigatoriedade que
experimente todas as técnicas.
EXPERIMENTA(ESPECIE, M:N – Uma ESPECIE Parcial para ambos os lados, nem
REPRESENTA_TECNICA) experimenta a repetição de todas as espécies repetem técnicas e
uma ou mais técnicas. vice-versa.
PODE_TER(TECNICA, M:N – A TECNICA pode Parcial para ambos os lados porque
REPETE_TECNICA, ser repetida através de um nem todas as técnicas se repetem.
ExperimentalSystem) sistema de experimentação.
RETRATA(ESPECIE, FONTE) 1:N – Uma ESPECIE pode Parcial para a ESPECIE, podendo
ser publicada em mais que existir alguma das espécies
uma FONTE. investigadas que não mereceu ser
publicada e total do lado da FONTE
por todas as publicações
representarem sempre pelo menos
ESPECIE.
REPRESENTA(FONTE, 1:1 – Qualquer FONTE Total para ambos os lados, toda a
AUTOR) representa sempre um FONTE tem uma identificação e
AUTOR, mesmo que por todo o AUTOR representa uma
alguma eventualidade o FONTE.
nome esteja sem preencher.
Nota: Poderíamos ter representado uma participação recursiva, mas acabamos por optar por a representar.
3
TRADUÇÃO DOS REQUISITOS PARA O MODELO ER
GENE: Id (Chave Primária e não nulo), GeneA (Atributo único do Gene da hélice A),
GeneB (Atributo único do Gene da hélice B), SymbolA (tradução das proteínas),
SymbolB (tradução das proteínas em dupla hélice), SWISSPROTA (atributo único),
SWISSPROTB (atributo que poder ser igual ou não ao SWISSPROTA e pode não ser
único).
AUTOR: PubId (Chave Primária fraca, atributo único), Author, Year, Age (Derivado –
sem obrigatoriedade de colocar porque dá para calcular), Id (código identificador único).
TEM – Um GENE tem sempre uma ou várias proteínas no seu código genético, sendo
identificados pelo SWISSPROTA, o código que identifica as várias proteínas (é único
para cada uma e serve para as podermos comparar), então esta será uma relação de 1:N.
PERTENCE – As PROTEINAS fazem parte das ESPECIES (animais), identificadas
entre elas pelo SWISSPROTA, então esta será uma relação de 1:N.
REFERE – Para que sejam identificadas os genes e respetivas proteínas em uma
ESPECIE, a informação é obtida por TECNICA, que são várias, identificadas entre elas
pelo InteractionID, então esta será uma relação de 1:N.
PODE_TER – Resulta das experiências em uma TECNICA e pode optar
REPETE_TECNICA igual ou diferente para validação, então esta será uma relação N:M;
e ainda, relacionadas pela Experimentação; e identificadas pelo InteractionId numa
relação 1:1
EXPERIMENTA – Os resultados obtidos em REPETE_TECNICA, por sistema de
experimentação em cada ESPECIE, identificadas entre elas pelo InteractionID, então esta
será uma relação de M:N. REPETE_TECNICA é a entidade que nos dá a cardinalidade
muitos-para-muitos.
4
REPRESENTA – A FONTE é representada pelo AUTOR, que se identifica por uma
PubId, com uma relação 1:1.
RETRATA – A FONTE liga à entidade FONTE_GENE, através do Id, numa relação
1:N.
Referências
[1] - DOI: 10.1093/nar/gkj109; [2] - DOI: 10.1093/nar/gkl950; [3] -
DOI: 10.1186/s12920-019-0594-4; [4] - DOI: 10.1007/s12539-019-00317-y; [3] -
DOI: 10.1007/s12687-022-00602-2; [5] - ISBN: 0-9716775-0-6; [6] - ISBN:
9780805317534 pbk.