Você está na página 1de 17

Replicação

 do  DNA  
-­‐-­‐  1  -­‐-­‐  

Prof.  Dr.  Luiz  Claudio  Demes  da  Mata  Sousa  


Tópicos  em  BioinformáDca/BioinformáDca  
2014.1  
 
E-­‐mail:  claudio.demes@ufpi.edu.br  
 
Introdução  –  replicação  do  DNA  
•  Replicação  permite  a  célula  duplicar  seu  DNA  antes  de  se  
dividir.  

•  Em  1953,  Watson  e  Crick  afirmaram:  


–  “It  has  not  escaped  our  no/ce  that  the  specific  pairing  we  
have   postulated   immediately   suggests   a   possible   copying  
mechanism  for  the  gene/c  material”  
Introdução  –  replicação  do  DNA  
•  Watson  e  Crick  conjecturaram  que  duas  fitas  da  molécula  de  
DNA   original   funcionaram   como   molde   para   que   duas   novas  
fitas  fossem  construídas.  
Introdução  –  replicação  do  DNA  
•  Teoria   semi-­‐conserva,va   explica   a   replicação   com  
sucesso,  mas  esse  processo  é  mais  complexo  do  que  
Watson  e  Crick  imaginaram.  

•  Com  relação  a  replicação:  


–  Inicia   em   uma   região   chamada   de   oriC   (origem   da  
replicação).  
–  É   realizada   por   “maquinas   de   copiar   moleculares”  
chamadas  de  DNA  polimerases  
–  Pergunta:  onde  oriC  está  exatamente  no  DNA?  
Introdução  –  replicação  do  DNA  
•  Localizar   a   região   “inicial”   chamada   oriC   ajuda   a   entender  
vários  problemas  biomédicos.  
–  Por   exemplo:   a   terapia   gênica   uDliza   mini-­‐genomas   chamado   de  
vetores  virais.  Esses  vetores  conseguem  penetrar  as  paredes  celulares.  

•  Em   1990,   terapia   gênica   foi   uDlizada   para   salvar   a   vida   de   uma  


criança   de   4   anos.   Ela   sofria   de   uma   desordem   de  
imunodeficiência.  
•  Atualmente   a   terapia   gênica   é   uDlizada   amplamente   na  
agricultura.  
Terapia  Gênica  
•  Na  terapia  gênica  infecta-­‐se  o  paciente  com  um  gene  arDficial  
capaz  de  produzir  uma  proteína  terapêuDca  –  gene  +  vetor.  
•  Como  garanDr  a  duplicação  do  vetor?  
–  Incluindo  a  região  oriC  no  genoma  desse  vetor.  
 
PROBLEMA:    
Mensagens  escondidas  no  genoma  

Pergunta:  É  um  problema  computacional  bem  definido?  

•  Não  representa  um  problema  computacional  bem  definido.    


–  Como  localizar  essa  região?  O  cienDsta  da  computação  precisa  de  mais  
informações  antes  de  buscar  por  essa  região.  
•  Biólogos   precisam   realizar   experimentos,   como   por   exemplo  
deletar   vários   pequenos   segmentos   do   genoma   e,   por   acaso,  
deletar   um  segmento   importante   para   a   deleção   (ela   para   de  
ocorrer)  
Mensagens  escondidas  no  genoma  
•  DnaA  boxes  
–  Pesquisadores  (biólogos)  mostraram  experimentalmente  que  a  parte  
do  genoma  contendo  a  região  oriC  tem  Dpicamente  algumas  centenas  
de  nucleohdeos.  
–  Nossa  abordagem  é  parDr  de  um  exemplo  em  que  a  região  oriC  é  
conhecida.  
–  O  objeDvo  ;e  tentar  encontrar  uma  abordagem  computacional  que  
permita  descobrir  essa  região  em  outros  seres  vivos.  
oriC  da  bactéria  Vibrio  cholerae    
a t c a a t g a t c a a c g t a a g c j c t a a g c a t g a t c a a g g t g c t c a c a c a g j t a t c c a c a a c  
c t g a g t g g a t g a c a t c a a g a t a g g t c g j g t a t c t c c j c c t c t c g t a c t c t c a t g a c c a  
c g g a a a g a t g a t c a a g a g a g g a t g a j t c j g g c c a t a t c g c a a t g a a t a c j g t g a c j  
g t g c j c c a a j g a c a t c j c a g c g c c a t a j g c g c t g g c c a a g g t g a c g g a g c g g g a j  
a c g a a a g c a t g a t c a t g g c t g j g j c t g j t a t c j g j j g a c t g a g a c j g j a g g a  
t a g a c g g j j t c a t c a c t g a c t a g c c a a a g c c j a c t c t g c c t g a c a t c g a c c g t a a a t  
t g a t a a t g a a j t a c a t g c j c c g c g a c g a j t a c c t c j g a t c a t c g a t c c g a j g a a g  
a t c j c a a j g j a a j c t c j g c c t c g a c t c a t a g c c a t g a t g a g c t c j g a t c a t g j  
tccjaaccctctajjjacggaagaatgatcaagctgctgctcjgatcatcgjtc    
Mensagens  escondidas  no  genoma  
•  DnaA  boxes  
–  Como  a  bactéria  sabe  exatamente  onde  fica  a  região  oriC  em  um  genoma  
>  1milhão  de  nucleohdeos?  
–  Deve  haver  alguma  “mensagem  escondida”    na  região  OriC  que  diz  para  a  
célula  iniciar  a  replicação.   DnaA  boxes  
–  Experimentalmente  sabe-­‐se  que  a  replicação  é  mediada  pela  proteína  
DnaA.    
–  A  proteína  DnaA  liga-­‐se  a  uma  pequena  região  da  sequencia  oriC  
conhecida  como  DnaA  box.  
–  A  perqunta  é:    como  encontrar  essa  mensagem  escondida  sem  saber  a  sua  
sequência  exata?    Existe  um  padrão  que  se  pode  extrair  da  região  oriC?  
Mensagens  escondidas  no  genoma  
Escrito  em  pergaminho,  como  se  segue:  

Legrand  sabia  que  os  piratas  dominavam  o  inglês.    

Legrand  sabe  que  a  sequência  “;48”  aparece  com  mais  frequência.    


A  palavra  mais  frequente  em  inglês  é  THE.  
SubsDtuindo  o  texto  original,  tem-­‐se  um  texto  ligeiramente  mais  fácil  de  decifrar.    
Mensagens  escondidas  no  genoma  

•  Usando   o   método   de   Legrand,   pode-­‐se   encontrar   “palavras”  


frequentes  na  linguagem  genômica?  
•  Será  que  existe  alguma  palavra  frequente  na  região  oriC?  
•  Sabe-­‐se   que   certas   sequências   de   nucleohdeos   aparecem  
com  frequencia  em  pequenas  regiões  genômicas.    
 
Conceito  de  k-­‐mer  
•  Usa-­‐se   o   temor   k-­‐mer   para   se   referir   a   uma   cadeia   de  
caracteres  de  tamanho  k.    
•  COUNT(Texto,   Padrao)   calcula   o   número   de   vezes   que   Padrao  
aparece  em  Texto.  
•  Exemplo:    

•  Pergunta:    
 
Considere   que   o   Padrao   é   o   k-­‐mer   mais   frequente   se   ele   maximiza  
COUNT(Texto,  Padrao)  
Mensagens  escondidas  no  genoma  
Agora  temos  problemas  computacionais  rigorosamente  definidos  
9-­‐mers  mais  frequentes  -­‐  cólera  

INTERESSANTE:    
 
Entre  os  quatro  mais  frequentes  9-­‐mers  na  região  oriC  da  Vibrio  cholerae,    
ATGATCAAG  e  CTTGATCAT  são  complementares  reversos.  Resultando  assim  em  
seis  ocorrências.  
that
in appears three or
ofmore times (as itself).
moreThis statistical evidence leads us to the
check if complement)
there are other a short
DNA string
regions length
in the 500 is far
Vibrio surprising than finding a 9-mer
working
that appears three orhypothesis
more that ATGATCAAG
times (as itself). and its
This reverse complement
statistical CTTGATCAT
evidence leads indeed
us to the
occurrences of ATGATCAAG (or CTTGATCAT ). Af-
represent DnaA boxes in Vibrio cholerae. This computational conclusion makes sense
working hypothesis that ATGATCAAG and its reverse complement CTTGATCAT indeed
peats throughout the entire Vibrio
biologically the DnaAgenome,
becausecholerae protein that binds to DnaA boxes and initiates replication
Quão  frequente  é  no  genoma?  
represent DnaA boxes in Vibrio cholerae. This computational conclusion makes sense
this end, we need does
to solve thewhich
not care following problem.
of the two strands it binds to. For our purposes, both ATGATCAAG
biologically because the DnaA protein that binds to DnaA boxes and initiates replication
and CTTGATCAT represent DnaA boxes.
does not care which of the
However, two strands
before concludingit binds
that we to. For
haveour purposes,
found the DnaA both ATGATCAAG
box of Vibrio cholerae,
•  Aparece  
and CTTGATCAT 1bioinformatician
7  vezes  
represent
the careful em  should
DnaA boxes. todo   o  gifenoma  
check there are other short regions in the Vibrio
However, before concluding thatmultiple
we have found theofDnaA box of (orVibrio cholerae,). Af-
string. •  Na   r egião  
cholerae
the careful bioinformatician
o
genome
riC,  
ter all, maybe theseshould
a parece  
exhibiting
6  v
checkasifrepeats
strings occur
ezes  
occurrences
there are
  ATGATCAAG
other short
throughout regions
the entire
CTTGATCAT
in cholerae
Vibrio the Vibrio
genome,
(500  
nome. cholerae genome rather nexhibiting
ucleohdeos)  
than just inmultiple occurrences
the oriC region. To thisof end, we 1C
ATGATCAAG (or CTTGATCAT
need to solve the following). problem.
Af-
ter all, maybe
ns in Genome where these strings
Pattern occur asas
appears repeats
a sub-throughout the entire Vibrio cholerae genome,
•  Frequencia  
rather than justPattern
in the oriC
m uito  
region. To
m aior  
this end,
na  
we
rneed
egião   to
oriC.  
solve the
Ifollowing
ndicaDvo   de  
problem.
Matching Problem:
que  éFind
 a  allDnaA   box  procurada.  
occurrences of a pattern in a string.
Pattern Matching Problem:
Input: Strings Pattern and Genome. 1C
roblem, we discover thatOutput:
ATGATCAAG appears 17
Find all occurrences of a pattern in a string.
All starting positions in Genome where Pattern appears as a sub-
e Vibrio cholerae genome:string.
Input: Strings Pattern and Genome. 1C
Output:
3, 152394, 186189, All starting
194276, 200076,positions
224527, in Genome where Pattern appears as a sub-
After solving the Pattern Matching Problem, we discover that ATGATCAAG appears 17
53338, 679985, string.
768828, 878903, 985368
times in the following positions of the Vibrio cholerae genome:
Juntos  
rences of ATGATCAAG in116556,oriC at149355,
starting positions
151913, 152013, 186189, 194276, 200076, 224527,17
After solving the Pattern Matching Problem, we152394,
discover that ATGATCAAG appears
r instances ofinATGATCAAG
times form clumps,
the following 307692, i.e., 653338,
479770, 610980,
positions of the Vibrio ap-
cholerae679985,
genome:768828, 878903, 985368
gion of the genome. You may check that the same
With the exception of the three occurrences of ATGATCAAG in oriC at starting positions
Replicação  do  DNA  
-­‐-­‐  2  -­‐-­‐  

Prof.  Dr.  Luiz  Claudio  Demes  da  Mata  Sousa  


Tópicos  em  BioinformáDca/BioinformáDca  
2014.1  
 
E-­‐mail:  claudio.demes@ufpi.edu.br  
 

Você também pode gostar