Você está na página 1de 5

Projeto de Base de Dados em SQL - Relatório

Nome da Base de Dados: bio_mint


Integrantes do grupo: Glória Gonçalves (up200305541@fc.up.pt) e Sara Rocha
(up199400856@fc.up.pt)
Baseado no Universo da: interação de proteínas, que tem sido estudado pela comunidade
científica devido a sua ação fundamental nos processos biológicos dos organismos. O
conjunto de dados foi dimensionado a partir de duas bases de dados BIOGRID [1] e
MINT [2] disponíveis online. No projeto estão incluídos os ficheiros pedidos para o
Projeto de PBD referidos para Realização e entrega, pontos 3 a 6. Os documentos do
projeto são:
− O diagrama relacional criado com o software DIA.
− Modelo relacional criado com também com o software DIA.
− O esquema e os dados, BioMint.sql, desenvolvido em SQL (command line
cliente).
− Relatório .pdf.
− O diagrama relacional criado com o software DIA.
− Modelo relacional criado com também com o software DIA.
− Ficheiro com exemplo de consultas (queries) à base de dados em .sql.
− Ficheiro com código Python de acesso e consulta à BioMint.
Introdução
O projeto interação de proteínas apresenta um conjunto de dados que têm sido aplicados
no estudo de nove doenças de poliglutamina (polyQ), neurodegenerativas originadas pela
expansão nos genes de repetições de trinucleotídeos CAG que codificam proteínas com
caudas de polyQ anormalmente longas e que originam alterações fisiológicas [3]. Estas
doenças são causadas por proteínas não relacionadas, mas que compartilham
semelhanças, como mecanismo mutacional, neurodegeneração progressiva em
populações neuronais específicas [3]. Três dessas doenças são: ataxia espinocerebelar
tipo 1 (SCA1), ataxia espinocerebelar tipo 2 (SCA2) e ataxia espinocerebelar tipo 3
(SCA3), que são causadas por uma expansão anormal nas Ataxinas-1, -2 e -3 humanas
(ATXN1, 2 e 3), respetivamente [3,4,5]. Como curiosidade, a SCA3, também conhecida
como doença de Machado-Joseph (MJD), é a ataxia mais frequente a nível mundial e tem
uma prevalência em Portugal de 3,1:100.000, com os clusters de maior taxa mundial nas
ilhas dos Açores, Flores e São Miguel [5]. Em humanos, as proteínas que desencadeiam
estas doenças tendem a ter mais interações proteína-proteína do que as restantes proteínas
[3]. As interações proteína-proteína anormais do mutante ATXN1, 2 e 3 também são uma
caraterística das doenças SCA1, SCA2 eSCA3, respetivamente [4].
A deteção de interações proteína-proteína pode ser feita com técnicas experimentais de
alto rendimento, como sistema de duplo híbrido, Proximity Label-MS ou experiências de
baixo rendimento [4]. Todas estas técnicas têm inconvenientes conhecidos que
contribuem, por um lado, para a identificação de falsos positivos, mas, por outro lado,
para a rede incompleta de interações, uma vez que nestas metodologias apenas são
identificadas interações binárias. Esses resultados estão disponíveis nos principais bancos
de dados públicos do interações proteína-proteína, como BioGRID [1] e MINT [2], uma

1
vez que diferentes critérios foram usados para construir essas bases de dados, a
sobreposição é baixa entre eles. A comparação dos resultados dos diferentes bases de
dados dá uma visão mais ampla da interações proteína-proteína para uma determinada
proteína. No “Projeto de PBD” pretendemos analisar a interações proteína-proteína nas
proteínas ATXN1, 2 e 3, utilizando a informação disponível BioGRID [1] e MINT [2].
Material e métodos
A nossa base de dados foi obtida de todas as proteínas reportadas como interatoras das
proteínas ATXN1, 2 e 3, usando as informações disponíveis na BioGRID [1] e MINT [2],
para as espécies Homo sapiens e Mus musculus, em novembro de 2022. O MySQL 8
command Line Client Unicode e Python foram as ferramentas para concretização do
projeto bio_mint. Optamos por inserir um número de observações mais alargado para
melhor entendimento das consultas, no âmbito tema escolhido, atualizamos o base de
dados no mysql workbench, e enviamos esse código, em vez do inicial para criar as
tabelas ‘reduzidos’ no MySql command Line Client.
REQUISITOS PARA A BASE DE DADOS
Consideremos o universo de BioMint em que temos as seguintes entidades-tipo,
respetivos atributos e relacionamentos (Tabela 1):
GENE(InteractionID, GeneA, GeneB, SymbolA, SymbolB, SWISSPROTA,
SWISSPROTB)
Cada GENE é composto por uma sequência específica (a que vamos denominar sempre
de A e B, como GeneA e GeneB, dupla hélice) que contém um código (instruções) para
codificar proteínas com uma determinada função. Nenhum atributo contém propriedades
do tipo NULL. As proteínas A (SWISSPROTA) interatuam com as proteínas B
(SWISSPROTB), e podem ser iguais ou diferentes, embora no nosso projeto damos mais
importância a outros relacionamentos (consideramos a A, a escolhida para as consultas),
descritos mais à frente.
PROTEINA(InteractionID, GeneA, SWISSPROTA). Nesta entidade, SWISSPROTA
tem valor único, como forma de sabermos que PROTEINA tem cada espécie (no nosso
projecto, humanos e/ou ratos de laboratório). Todas as proteínas podem ser comparadas
para as espécies estudadas, representadas pela relação à entidade seguinte. Nenhum
atributo contém propriedades do tipo NULL.
ESPECIE(InteractionID, OrganismIDA, OrganismIDB, OrganismNameA,
OrganismNameB, SWISSPROTA, SWISSPROTB). Esta entidade tem os organismos
que fazem parte das investigações em laboratório. Além do valor único InteractionID,
temos o código OrganismIDA e B e o Nome da espécie A e B (por se tratar de dados de
representação genética – dupla hélice e por isso escolhemos manter essa caraterística,
conforme já referido em GENE). Nenhum atributo contém propriedades do tipo NULL.
TECNICA(InteractionID, {ExperimentalSystem}, {ExperimentalType}, Score?,
SWISSPROTA, SWISSPROTB}). Esta entidade representa o conjunto de dados ligado
às experiências em laboratório. Existem vários sistemas experimentais e vários tipos de
experiências que validam por exemplo os resultados, Score, atributo opcional. Os
atributos ExperimentalSystem e ExperimentalType são multivalor (uma proteína pode ser

2
exposta à vários sistemas de experimentação e a várias experiências), com bastantes
opções experimentais e por esse motivo apenas escrevemos os campos.
REPETE_TECNICA(InteractionID, Experimental). Esta entidade é tida como um
exemplo de relacionamentos muitos para muitos, uma TECNICA pode ter vários sistemas
experimentais e ao mesmo tempo uma ESPÉCIE pode ser sujeita a vários sistemas
experimentais. Nenhum atributo contém propriedades do tipo NULL.
FONTE(InteractionID, Author, Source, PubId, SourceDatabase, SWISSPROTA,
SWISSPROTB). Esta entidade contém o conjunto de dados sobre as fontes bibliográficas
que validam os resultados e as publicações científicas das descobertas em laboratório.
Tem um campo, Author que pode ser NULL.
AUTOR(InteractionID, Author, Year, Age, PubID). O atributo, Age, é derivado do Year.
O atributo PubId, é único para representar as publicações e ao mesmo tempo, pode não
representar todo o universo da base de dados biomint, daí, estarmos perante uma entidade
do tipo fraca.
Tabela 1 – Relacionamentos apresentados em BioMint.
Relação Cardinalidade Participação
TEM(GENE, PROTEINA) 1:N - Cada GENE tem uma Todos os genes interatuam com as
ou mais proteínas. proteínas e todas as proteínas
integram genes. Participação total.
PERTENCE(PROTEINA, 1:N – Todas as proteínas são Total para ambos os lados, todas as
ESPECIE) parte da constituição das proteínas fazem parte das espécies e
espécies, pelo menos uma todas as espécies têm proteínas.
delas pertence a uma
determinada espécie.
REFERE(ESPECIE, TECNICA) 1:1 – Todas as espécies Parcial, uma ESPECIE, pode
estão identificadas através experimentar uma ou mais técnicas,
de uma técnica. sem obrigatoriedade que
experimente todas as técnicas.
EXPERIMENTA(ESPECIE, M:N – Uma ESPECIE Parcial para ambos os lados, nem
REPRESENTA_TECNICA) experimenta a repetição de todas as espécies repetem técnicas e
uma ou mais técnicas. vice-versa.
PODE_TER(TECNICA, M:N – A TECNICA pode Parcial para ambos os lados porque
REPETE_TECNICA, ser repetida através de um nem todas as técnicas se repetem.
ExperimentalSystem) sistema de experimentação.
RETRATA(ESPECIE, FONTE) 1:N – Uma ESPECIE pode Parcial para a ESPECIE, podendo
ser publicada em mais que existir alguma das espécies
uma FONTE. investigadas que não mereceu ser
publicada e total do lado da FONTE
por todas as publicações
representarem sempre pelo menos
ESPECIE.
REPRESENTA(FONTE, 1:1 – Qualquer FONTE Total para ambos os lados, toda a
AUTOR) representa sempre um FONTE tem uma identificação e
AUTOR, mesmo que por todo o AUTOR representa uma
alguma eventualidade o FONTE.
nome esteja sem preencher.
Nota: Poderíamos ter representado uma participação recursiva, mas acabamos por optar por a representar.

3
TRADUÇÃO DOS REQUISITOS PARA O MODELO ER
GENE: Id (Chave Primária e não nulo), GeneA (Atributo único do Gene da hélice A),
GeneB (Atributo único do Gene da hélice B), SymbolA (tradução das proteínas),
SymbolB (tradução das proteínas em dupla hélice), SWISSPROTA (atributo único),
SWISSPROTB (atributo que poder ser igual ou não ao SWISSPROTA e pode não ser
único).

PROTEINA: SWISSPROTA (Chave Primária, atributo único e não nulo), GeneA


(Atributo único do Gene da hélice A), Id (atributo único).

ESPECIE: Id (Chave Primária, atributo único e não nulo), OrganismIDA (código


identificador não único), OrganismIDB (código identificador não único e que pode ser
igual ao OrganismIDA), OrganismNameA (Multi-valor), OrganismNameB (Multi-
valor), SWISSPROTA (código identificador único para cada proteína), SWISSPROTB
(código identificador único para cada proteína embora se repita).

TECNICA: Id (Chave Primária, atributo único), ExperimentalSystem (Multi-valor),


ExperimentalType (Multi-valor), Score? (Opcional), SWISSPROTA (código
identificador único para cada proteína embora se repita), SWISSPROTB (código
identificador único para cada proteína embora se repita).

REPETE_TECNICA: Experimental, ID (Chaves Primárias, atributos únicos).

FONTE: Id (Chave Primária, atributo único), Source, PubId (código identificador de


cada publicação), SourceDatabase (Multi-valor), SWISSPROTA (código identificador
único para cada proteína embora se repita), SWISSPROTB (código identificador único
para cada proteína embora se repita).

AUTOR: PubId (Chave Primária fraca, atributo único), Author, Year, Age (Derivado –
sem obrigatoriedade de colocar porque dá para calcular), Id (código identificador único).

TEM – Um GENE tem sempre uma ou várias proteínas no seu código genético, sendo
identificados pelo SWISSPROTA, o código que identifica as várias proteínas (é único
para cada uma e serve para as podermos comparar), então esta será uma relação de 1:N.
PERTENCE – As PROTEINAS fazem parte das ESPECIES (animais), identificadas
entre elas pelo SWISSPROTA, então esta será uma relação de 1:N.
REFERE – Para que sejam identificadas os genes e respetivas proteínas em uma
ESPECIE, a informação é obtida por TECNICA, que são várias, identificadas entre elas
pelo InteractionID, então esta será uma relação de 1:N.
PODE_TER – Resulta das experiências em uma TECNICA e pode optar
REPETE_TECNICA igual ou diferente para validação, então esta será uma relação N:M;
e ainda, relacionadas pela Experimentação; e identificadas pelo InteractionId numa
relação 1:1
EXPERIMENTA – Os resultados obtidos em REPETE_TECNICA, por sistema de
experimentação em cada ESPECIE, identificadas entre elas pelo InteractionID, então esta
será uma relação de M:N. REPETE_TECNICA é a entidade que nos dá a cardinalidade
muitos-para-muitos.

4
REPRESENTA – A FONTE é representada pelo AUTOR, que se identifica por uma
PubId, com uma relação 1:1.
RETRATA – A FONTE liga à entidade FONTE_GENE, através do Id, numa relação
1:N.

TRADUÇÃO DO MODELO ER PARA O RELACIONAL


Nos relacionamentos representamos ligações entre as entidades e definimos os seus
papeis. Relacionamento GENE: Um GENE tem uma ou mais PROTEINAS, e estas
pertencem a uma determinada ESPECIE, estudadas via TECNICA, que retrata em
conjunto de dados, a FONTE, onde participa um ou mais AUTOR. Assim sendo,
passamos a descrever os atributos chave e relacionamentos.
A chave primária da Tabela (T) PROTEINA é chave externa da T GENE
(SWISSPROTA).
A chave primária da Tabela (T) PROTEINA é chave externa da T ESPECIE
(SWISSPROTA).
A chave primária da T ESPECIE é chave primária e externa da T FONTE (InteractionId).
A chave primária da T ESPECIE é chave primária e externa da T TECNICA
(InteractionId).
A chave primária da T REPETE_TECNICA é chave primária e externa da T TECNICA
(ExperimentalSystem); A chave primária da T REPETE_TECNICA primária e externa
da T ESPECIE (InteractionId).
A chave primária da T AUTOR é chave externa da T FONTE (PubId).
A chave primária da T TECNICA é chave primária e externa da T ESPECIE
(InteractionId).
A chave primária da T AUTOR é chave externa da T FONTE (InteractionId).
A chave primária da T REPETE_TECNICA é chave primária e externa da T
TECNICA(InteractionId).
A chave primária da T REPETE_TECNICA é chave primária e externa da T ESPECIE
(InteractionId).

Referências
[1] - DOI: 10.1093/nar/gkj109; [2] - DOI: 10.1093/nar/gkl950; [3] -
DOI: 10.1186/s12920-019-0594-4; [4] - DOI: 10.1007/s12539-019-00317-y; [3] -
DOI: 10.1007/s12687-022-00602-2; [5] - ISBN: 0-9716775-0-6; [6] - ISBN:
9780805317534 pbk.

Você também pode gostar