Você está na página 1de 12

Processamento de Dados

Processamento de Dados

Em um experimento de metebolômica, podem ser distinguidas diferentes fases.


Após a fase experimental, são obtidos os resultados (os dados brutos), na
chamada fase de obtenção de resultados.

Após a obtenção dos resultados (cromatograma), é necessária uma análise


multivariada dos dados para poder comparar os diferentes conjuntos de dados e
assim verificar se existem diferenças significativas entre eles.
Processamento de Dados
Processamento de Dados

O processo de pré-processamento de dados envolve as seguintes etapas:

6.1 Adaptação da escala dos picos


Todos os espectros ou cromatogramas individuais devem passar por este processo para ajustar a
intensidade de seus picos utilizando a intensidade de picos internos padrão.

6.2 Alinhamento dos picos


Independentemente da técnica utilizada, seja cromatografia gasosa, seja cromatografia líquida ou
seja ressonância magnética nuclear, é comun ocorrerem pequenas variações de fatores externos
ou internos que podem deslocar os picos, tornando o seu alinhamento compicado.

Essas pequenas variações são causadas por diferenças no tempo de retenção de picos individuais,
que podem ocorrer devido a temperatura da análise, qualidade da coluna, outros compostos
presentes no extrato, pequenas variações de pH.

Para fazer esse alinhamento dos picos, utiliza-se um padrão interno para o deslocamento químico.
Processamento de Dados

6.3 Binning ou Bucketing


Nessa etapa o espectro é dividido em regiões, onde todas as regiões são integradas. Isso facilita a comparação entre
os espectros, ou seja, pequenas variações no deslocamento por causa de fatores como pH, concentração ou
temperatura são eliminadas, mas em contrapartida ocorre uma enorme perda da resolução, ou seja, há uma
enorme perda de informação de pequenos sinais.

Este processo é utilizado mais comunente em espectros resultantes da técnica de ressonância magnética nuclear.

6.4 Peak picking


Nessa etapa ocorre o registro dos picos com as suas intensidades.

6.5 Deconvolução
Nessa etapa ocorre a extração de dados do espectro utilizando modelos matemáticos tendo como base os espectros
dos componentes individuais.

Depois de passer por todas essas etapas, os dados tornam-se dados limpos, os quais ainda devem passer pelo
chamado pré-tratamento dos dados.

Esta etapa tem influência direta nos resultados da análise multivariada e pode ser utilizada para aumentar a
importância dos metabólitos menos abundantes na análise.
Processamento de Dados

O processo de pré-tratamento de dados envolve as seguintes etapas:

6.6 Centering
Nessa etapa somente a variação é considerada para a análise. As intensidade ou
concentrações são convertidas para flutuações em volta de zero.

6.7 Ajustamento da escala


É necessário o ajustamento da escala de cada componente pela divisão do valor por
um fator específico para cada um.

Isso ocorre para que haja a possibilidade de comparação entre diferentes compostos
presentes em altas concentricões com outros em baixas concentricões.
Processamento de Dados

6.8 Transformação de dados


Corresponde a transformação logarítimica e também a transformação na
mudança da escala.

Após serem limpos, os dados são submetidos às análises multivariadas.

A análise multivariada é importante não somente para indicar os compostos que


diferenciam os conjuntos das amostras, mas também é essencial para excluir a
possibilidade de over-fitting (quando há muitas variáveis e poucas amostras) ou
ainda excluir a possibilidade que as diferenças foram causadas pelo desenho
experimental.
Processamento de Dados

As técnicas mais comuns utilizadas em análises multivariadas são Principal


Component Analysis (PCA) e Partial Least Squares – Differential Analysis (PLS-DA).

Principal Component Analysis (PCA) é um procedimento matemático que verifica


os componentes principais que mostram a maior variabilidade, dentro do conjunto
total de dados, convertendo o conjunto das observações num conjunto de
variáveis linearmente não correlacionadas.

Na Partial Least Squares – Differential Analysis (PLS-DA) a correlaçào dos dados


ocorre com variáveis independentes, aumentando o risco de obter correlações
não existentes, especialmente quando a quantidade de variáveis é maior que o
número de amostras. Por isso, esse processo sempre deve ser acompanhado pelo
processo de validação de dados.
Processamento de Dados

Referências:

CAO, YQ., et al. Digital PCR as an Emerging Tool Monitoring of Microbial Biodegradation. Molecules. 2020, Feb 25(3):706, 1-18.

CHEN, Q., GUO, W., FENG, L., YE, X., XIE, W., HUANG, X. and LIU, J. Transcriptome and proteome analysis of Eucalyptus infected
with Calonectria pseudoreteaudii. J. Proteomics 115, 117–131, 2015.

ESPÍNDULA, F.S.et al. Recursos de bioinformática aplicados às ciências ômicas como genômica, transcriptômica, proteômica,
interatômica e metabolômica. Bioscience Journal, Uberlândia, v. 26, n. 3, p. 463-477, Maio/Junho 2010.

GAUTHERET, D.; POIROT, O.; LOPEZ, F.; AUDIC, S.; CLARVERIE, J. M. Alternate polyadenylation in human mRNAs: a large-scale
analysis by EST clustering. Genome Research, Cold Spring Harbor, US, v. 8, p. 524-530, 1998.

HAN, Y., GUO, S., MUEGGE, K., ZHANG, W. and ZHOU, B. Advanced Applications of RNA Sequencing and Challenges. Bioinform.
Biol. Insights, 29, 2015.
Processamento de Dados

Referências:

KIM, K.H., KANG, Y.J., KIM, D.H., YOON, M.Y., MOON, J.-K., KIM, M.Y., VAN, K. and LEE, S.-H. RNA-Seq Analysis of a Soybean
Near-Isogenic Line Carrying Bacterial Leaf Pustule-Resistant and -Susceptible Alleles. DNA Res. 18, 483–497, 2011.

MARTIN, J.A. & WANG, Z. Next-generation transcriptome assembly. Nat. Rev. Genet. 12, 671–682, 2011.

MATTHEWS, B. F.; DEVINE, T. E.; WEISEMANN, J. M.; BEARD, H. S.; LEWERS, K. S.; MACDONALD, M. H.; PARK, Y. B.; MAITI, R.;
LIN, J.; KUO, J.; PEDRONI, J. J.; CREGAN, P. B.; SAUNDERS, J. A. Incorporation of sequence cDNA and genomic markers into
soybean genetic map. Crop Science, Madison, US, v. 41, p. 516-521, 2001.

MOREIRA, L.M; et al. Ciências Genômicas: Fundamentos e Aplicações. 1a Edição. Ribeirão Preto: Cubo, 2015.

MORETON, J., IZQUIERDO, A. AND EMES, R.D. Assembly, Assessment, and Availability of De novo Generated Eukaryotic
Transcriptomes. Front. Genet. 6, 2016.
Processamento de Dados

Referências:

PROSDOCIMI & SANTOS. Sobre bioinformática, genoma e ciência. Ciência Hoje, 2006, v. 35, n. 209, p. 54-57.

PROSDOCIMI, F. Introdução à bioinformática. Revista Biotecnologia Ciência & Desenvolvimento, 2007, p. 03-74.

SUGIMOTO, M., KAWAKAMI, M., ROBERT, M., SOGA, T., & TOMITA, M. Bioinformatics Tools for Mass Spectroscopy-Based
Metabolomic Data Processing and Analysis. Current bioinformatics, 2012, v.7, n.1, p.96–108.

VELCULESCU, V.E.; ZHANG, L.; VOGELSTEIN, B.; KINZLER, K.W. 1995. Serial Analysis of Gene Expression. Science. v. 270. p. 484-
487.

VERLI, H; et al. Bioinformática: Da Biologia à Flexibilidade Molecular. 1a Edição. São Paulo: SBBq, 2014.

WESTERMANN, A.J., GORSKI, S. a. and VOGEL, J. Dual RNA-seq of pathogen and host. Nat. Rev. Microbiol. 10, 618–630, 2012.

ZAHA, A.; FERREIRA, H.B.; PASSAGLIA, L.M.P. Biologia Molecular Básica. 5a Edição. Porto Alegre: Artmed, 2014.
Obrigada!

Você também pode gostar