Você está na página 1de 1

PREDIO DE CLASSES E SELEO DE CARACTERSTICAS COM

OTIMIZAO LINEAR PARA DADOS METAGENMICOS


Zhenqiu Liu, Dechang Chen, Li Sheng, Amy Y. Liu: Class Prediction and Feature Selection with
Linear Optimization for Metagenomic Count Data. PLoS ONE 8(3): e53253.
doi:10.1371/journal.pone.0053253.

A discusso biolgica deste estudo gira em torno da identificao de caractersticas


funcionais em diferentes populaes microbianas para possveis inferncias no comportamento
fenotpico de diagnosticos de doenas relacionadas. A partir da identificao da abundncia
relativa de certas comunidades identificadas nas amostras, em certos cenrios, pretende-se
estimar o quo relevante estas comunidades podem ser na predio de diagnstico fenotpicos
apresentados.
O suporte computacional necessrio devido a complexidade do problema. Basicamente
necessita-se de ferramentas de classificao que possam realizar a predio de caractersticas
comuns em comunidades microbianas e a identificao de multiplas classes simlutaneamente
em uma grande quantidade de dados e com uma margem de confiana estatstica dentro de um
limiar aceito.
A proposta apresentada utiliza SVM (suport vector machine) aliada a programao linear
para a identificao de classes de diagnsticos. Geralmente, a tcnica apresenta resultados de
classificao muito satisfatrios. Outras solues computacionais poderiam ser empregadas
contudo. Feature-Weighted Linear Stacking [Sill et al. 2009], por exemplo, uma tcnica em
que as previses de uma coleo de modelos so dadas como entrada para um algoritmo de
aprendizagem de segundo nvel. Este algoritmo de segundo nvel treinado para combinar as
previses do modelo de forma ideal para formar um conjunto final de previses. A robustez do
modelo chama ateno por utilizar vrios modelos de aprendizado e selecionar os que melhores
se adaptam as condies dos dados, podendo apresentar melhores resultados para conjuntos de
dados que no tem distruibuio uniforme, que o caso dos dados metagenmicos.
Os dados do problema so dipostos em uma lista de vetores contendo dados inteiros e
reais, atribudos a caractersticas extradas das sequencias do mateiral gentico. Para cada vetor
atribudo uma identificao que representa a classe diagnosticada. Este cenrio tpico para
emprego de tcnicas de aprendizado supervisionado. Por exemplo, uma loja de servios on line
que pretende identificar potenciais perfis de compradores pode usar como elementos do vetor
de caractersticas o histrico de navegao dos usurios, nmero de visitas a determinada classe
de produtos, tempo de durao das visitas, histrico de compras, idades e etc, e utilizando a
estratgia de classificao SVM aliada a programao linear, apresentada no estudo, pode
discriminar produtos de interesse do cliente e investir em propagandas personalizadas.
O estudo tem grande impacto, por resultar em benefcios diretos a sade humana, e
bastante interessante do ponto de vista computacional, pois necessita de estratgias inerentes ao
mundo da computao para resolver problemas biolgicos. Um dos pontos fortes do estudo
que o modelo pode ser aplicado a vrios tipos de dados metagenmicos tornando o modelo,
como ferramenta, bastante flexvel.

CORREA, Leandro. Bacharel em Cincia da Computao Universidade Federal do


Par (UFPA).

Referncias
Sill, J., Takacs, G., Mackey, L., and Lin, D. (2009). Feature-Weighted Linear Stacking.

Você também pode gostar