Você está na página 1de 17

24/04/13

Data Mining: conceitos e casos de uso na rea da sade

Pesquisar

Entenda o site

Tecnologias

Revistas LO GIN:

Cursos

Pocket vdeos SENHA:

Frum

Servios

Publicar

Compre Crditos

Loja Virtual

A ssine

Bem vindo a DevMedia!

Esque ci m inha se nha

C adastre -se

post favorito

comentrios

Data Mining: conceitos e casos de uso na rea da sade


Veja neste artigo Minerao de Dados e aplicaes na rea da sade.
Go s t ei (14) (0)

Ol pessoal. Estamos de volta e nesta coluna vou conversar com vocs sobre duas coisas que eu acho muito interessante, Minerao de Dados e aplicaes na rea da sade. Minha rea bioinformtica, mas aqui vou mostrar alguns cases no uso clnico, muito interessante, vale a pena leitura.

Bem para comear, data mining a explorao e a anlise, por meio automtico ou semi-automtico, de grandes quantidades de dados, a fim de descobrir padres e regras significativas (Berry et al., 2000). Estes padres e regras significativas so descritos muitas vezes como conhecimento invisvel. So assim chamados por estarem envoltos em um grande volume de dados e que se no fossem usadas tcnicas inteligentes para procurar esta informao, ou conhecimento, ele no seria descoberto facilmente pela observao humana. O conhecimento gerado pelo data mining pode ser usado para o gerenciamento de informao, processamento de pedidos de informao, tomada de deciso, controle de processos, entre outros. Para realizar essa coleta, o processo de Data Mining agrega em suas etapas conhecimento de reas como a Inteligncia Artificial e Estatstica. Os mtodos de Inteligncia Artificial do ao processo de minerao o status de processo inteligente. Tcnicas como redes neurais, rvores de deciso, regras de associao, raciocnio baseado em casos e algoritmos genticos so as mais usadas na construo deste processo. A estatstica doa da sua parte diversas tcnicas para agrupamento e anlise de dados, uma das tcnicas mais utilizadas em data mining a regresso, termo e clculos, herdados da estatstica tradicional.

1 - Tcnicas

Como descrito na introduo deste trabalho, existem diversas tcnicas utilizadas dentro do processo de data mining. Para deixar mais claro como o processo trabalha com estas tcnicas, vamos descrev-las um pouco melhor.

Estas tcnicas so utilizadas em diversas atividades (Gobel, et al.,1999) como:


www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945 1/17

24/04/13

Data Mining: conceitos e casos de uso na rea da sade

Previso: Dado um determinado item e um respectivo modelo, a capacidade de deduzir um valor para

um atributo especfico do item; Regresso: Dado um conjunto de itens, a anlise da dependncia entre os valores de atributos e,

automaticamente, produzir um modelo que possa prever valores de atributos para novos itens; Classificao: Dado um conjunto de classes pr-definidas, determinar a qual destas classes um novo

item pertence; Agrupamento: Dado um conjunto de itens, determina-se um conjunto de classes, nos quais os itens so

agrupados de acordo com suas caractersticas; Associao: Dado um conjunto de itens, a identificao dos relacionamentos existentes entre os

atributos destes itens.

1.1 Regras de Associao

As tcnicas de regras de associao estabelecem uma correlao estatstica entre certos itens de dados em um conjunto de dados (Gobel et, al., 1999).

A regra de associao pode ser representada por: X1^...^Xn => Y[C,S], onde X1, ..., Xn so itens que prevem a ocorrncia de Y com um grau de confiana C e com um suporte mnimo de S e ^ denota um operador de conjuno (AND).

Um exemplo desta regra pode ser que 90% dos consumidores de chocolate, tambm consomem plulas de emagrecimento. O percentual de 90% chamado de confiana da regra. O suporte da regra chocolate => plulas de emagrecimento o nmero de ocorrncias deste conjunto de itens na mesma transao.

Alguns algoritmos que utilizam esta tcnica so: Apriori, AprioriTid, entre outros.

1.2 rvores de Deciso

As rvores de deciso so representaes grficas onde os ns representam amostras e as folhas representam categorias.

Uma rvore de deciso designa uma classe numrica (ou sada) para uma entrada padro filtrando-se a amostra atravs dos testes na rvore. Cada teste possui reciprocamente resultados exclusivos e exaustivos.

Quando a amostra de uma populao est sendo estudada com o objetivo de se fazer alguma inferncia
www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945 2/17

24/04/13

Data Mining: conceitos e casos de uso na rea da sade

indutiva, as rvores de deciso so os modelos mais utilizados.

Em muitos exemplos vemos rvores de deciso construdas usando sua idia apenas com resultados booleanos, porm no estamos limitados a implementao destas funes.

Na figura 1 temos um exemplo de uma rvore de deciso para um jogo de tnis.

Figura 1

Alguns algoritmos conhecidos de rvore de deciso so: CART, CHAID, C5.0, ID3, entre outros.

1.3 Raciocnio Baseado em Memria

O raciocnio baseado em memria combina as vantagens da recuperao da informao e do raciocnio baseado em regras.

O fato dos programadores utilizarem a experincia de problemas anteriores para resolverem muitos dos problemas novos, torna o raciocnio baseado em memria particularmente apropriado para sistemas de suporte.

Uma questo importante em raciocnio baseado em memria a representao do caso (conhecimento) no computador. Em essncia, os casos devem manter a informao necessitada pelos usurios. Kolodner (Kolodner, 1993) descreve casos como contendo trs partes principais, que seriam:

1. A descrio do caso, a qual permite sua identificao e armazenamento; 2. O caso em si, contendo as informaes relevantes para o domnio de sua aplicao; 3. O estado posterior do domnio quando a soluo aplicada.

Raciocnio baseado em memria uma tecnologia emergente para a representao e processamento de conhecimento. Usa experincia passada, acumulando casos e tentando descobrir por analogia solues para outros problemas.

www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945

3/17

24/04/13

Data Mining: conceitos e casos de uso na rea da sade

Os principais algoritmos representantes dessa tcnica so: BIRCH, CLARANS, CLIQUE e K-MEANS.

1.4 Algoritmos Genticos

Os algoritmos genticos surgiram de uma metfora com Teoria da Evoluo das Espcies de Charles Darwin.

Os algoritmos genticos incorporam uma soluo potencial para um problema especfico numa estrutura semelhante a de um cromossomo e aplicam operadores de seleo e cross-over a essas estruturas de forma a preservar informaes crticas relativas soluo do problema.

O modelo matemtico dos algoritmos genticos ajuda a compreender melhor como ele trabalha.

Um exemplo de maximizao da funo f(x) = x2 pode ser til para entendermos todo o processo.

Vamos maximizar f(x) = x2 no intervalo de zero a trinta e um. Podemos iniciar a populao de cromossomos com quatro escolhidos aleatoriamente.

x1 = 13, x2 = 24, x3 = 8, x4 = 19

Calculando a funo de adaptao (no nosso exemplo o prprio f(x) = x2) para cada termo teremos:

f(x1) = 169, f(x2) = 576, f(x3) = 64, f(x4) = 361

Podemos ver que a melhor soluo nesta gerao x2.

A adaptao geral a soma de todas as adaptaes de cada cromossomo, ou seja, 1170. Em percentuais temos x1 participando com 14%, x2 com 49%, x3 com 6% e x4 com 31%. Precisamos sortear quatro nmeros aleatrios entre zero e cem e verificamos em que ponto da reta entre zero e cem esses nmeros encontram-se e ento fazemos a cpia dos cromossomos. De tal forma o cromossomo x1 ser copiado uma nica vez, o cromossomo x2 ser reproduzido duas vezes, o cromossomo x3 no ser reproduzido, pois nenhum sorteio aleatrio caiu dentro da faixa de 6% entre 64% e 69% e o cromossomo x4 ser reproduzido apenas uma vez.

www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945

4/17

24/04/13

Data Mining: conceitos e casos de uso na rea da sade

Grfico 1 Algoritmo Gentico

A nova gerao aps a reproduo ser: x1 = 13, x2 = 24, x3 = 24 e x4 = 19.

Podemos notar que x2 igual a x3 nesta nova gerao e que x3 da gerao anterior por ser pouco adaptado no se reproduziu, por isto no h nenhum representante seu nesta nova gerao.

Essa nova gerao representa a combinao das solues bem-sucedidas da gerao anterior que se casaram e se reproduziram.

possvel continuar o processo de evoluo, mas ele pode ser interrompido se o valor for considerado suficiente ou at atingir o valor mximo da funo f(x) no intervalo de zero a trinta e um.

1.5 Redes Neurais

As redes neurais so uma classe especial de sistemas modelados seguindo analogia com o funcionamento do crebro humano e so formadas de neurnios artificiais conectados de maneira similar aos neurnios do crebro humano (Goebel et. al., 1999).

Um neurnio artificial uma unidade de processamento lgica que tenta simular o comportamento e funes de um neurnio biolgico. Nessa estrutura os dendritos do modelo biolgico so substitudos pelas entradas de informao na unidade de processamento e as ligaes entre o corpo celular so realizadas atravs de pesos, que simulam as sinapses.

As informaes captadas na entrada so processadas pela funo de soma (?) e o limite de disparo do neurnio biolgico substitudo pela funo de transferncia.

www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945

5/17

24/04/13

Data Mining: conceitos e casos de uso na rea da sade

Figura 2 Modelo de Neurnio Artificial

A proposta de McCullok e Pitts, em 1943, para o trabalho de um neurnio pode ser resumida da seguinte forma:

1. Sinais so apresentaes de entrada. 2. Cada sinal multiplicado por um nmero, ou peso, que indica a sua influncia na sada da unidade. 3. feita a soma ponderada dos sinais que produz um nvel de atividade. 4. Se o nvel de atividade exceder um certo limite a unidade produz uma determinada resposta de sada.

Vamos exemplificar melhor.

Suponhamos que existam p sinais de entrada x1, x2,..., xn e pesos w1, w2, ..., wi e o limitador t . Os sinais do nosso exemplo sero de valores booleanos (0 e 1) e os pesos com valores reais.

No nosso caso, o nvel de atividade a dado por:

a = w1x1 + w2x2 + ... wixn

A sada y dada por:

y = 1, se a >= t ou y = 0, se a < t .

Boa parte dos modelos de redes neurais usados possui alguma regra de treinamento onde os pesos so ajustados de acordo com os padres apresentados. De maneira simplria podemos dizer que as redes neurais aprendem atravs de exemplos.

Normalmente as redes neurais so apresentadas em forma de camadas, onde a primeira camada, chamada de
www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945 6/17

24/04/13

Data Mining: conceitos e casos de uso na rea da sade

entrada, recebe as primeiras informaes que devero ser processadas, a segunda camada conhecida como camada intermediria ou camada oculta, ela pode ser formada por mais de uma camada de neurnios e nela so feitos os processamentos da rede. Por ltimo a camada final, denominada sada onde o resultado apresentado.

A forma como essas camadas trabalham e como elas so interligadas definem a topologia de uma rede.

Algumas das principais topologias que encontramos hoje em dia so: Perceptron, Rede de Kohonem, Rede de Hopfield, Redes ART, Redes MLP, entre diversos outros.

2 Exemplos de Aplicaes na rea da Sade

Consolidando os conceitos apresentados anteriormente, apresentamos exemplos simples e inseridos dentro da rea de sade, sem a inteno de fazer uma lista exaustiva de casos, nem efetuar uma anlise detalhada sobre cada exemplo apresentado. Com os exemplos apresentados, demonstrado o poder das ferramentas de data mining e quanto as mesmas podem contribuir para melhorar a qualidade dos servios de sade.

Para facilitar a compreenso dos exemplos foi definida uma estrutura de apresentao constituda por contexto, metodologia, tcnica utilizada, resultados e concluso. Nenhum dos itens definidos expressa qualquer anlise ou opinio pessoal dos autores deste artigo. O contedo referente a cada item mantm, com exatido, a idia expressa no artigo original.

No item destinado descrio da tcnica utilizada, ser indicada, basicamente, a atividade do processo de data mining, de acordo com Gobel (Gobel et al., 1999). No so analisados os detalhes computacionais apresentados no artigo original, pois a inteno apenas mostrar a aplicabilidade de uma ferramenta de data mining.

2.1 Exemplo 01: A process-mining framework for the detection of healthcare fraud and abuse.

Contexto:

Neste trabalho (Yang, 2006), desenvolvido por pesquisadores da Universidade Changhua de Taiwan, proposto um processo de data mining, baseado no conceito de pathways (Guide Lines ) para elaborao automtica de modelos para deteco de casos abusivos ou fraudulentos nos sistemas de sade (pena no Brasil no haver interesse nisso).

A motivao do trabalho vem da constatao do grande percentual de comportamentos abusivos e fraudulentos


www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945 7/17

24/04/13

Data Mining: conceitos e casos de uso na rea da sade

ocorridos nos sistemas de seguro sade.

O objetivo principal aplicar tcnicas de data mining e, a partir de dados de casos clnicos, construir modelos a partir dos quais seja possvel distinguir, automaticamente, comportamentos fraudulentos de atividades normais.

Metodologia:

Os dados utilizados para a avaliao do modelo foram a base do BNHI (Bureau of National Health Insurance) de Taiwan. Para este estudo, foram utilizados os dados referentes ao departamento de ginecologia, especificamente sobre PID (Pelvic inflammatory disease) que a patologia mais comum neste departamento. Foram coletados dados de um hospital regional, provedor de servios para o NHI. Inicialmente, foram selecionados dados de 2543 pacientes referentes ao perodo de 07/2001 a 06/2002 e a partir da preparados dois conjuntos de dados: um contendo os casos normais e outro os fraudulentos. A preparao dos dados ocorreu atravs dos seguintes passos:

Os dados iniciais foram filtrados para eliminar os registros com itens de dados sem valores ou com

valores incoerentes. Neste processo foram eliminados 77 registros. Baseado nos registros restantes, as atividades mdicas envolvidas do processo foram identificadas.

Nesta etapa, foram identificadas 127 atividades mdicas relacionadas ao processo de diagnstico e tratamento de PID. A prxima etapa foi a identificao manual dos casos fraudulentos, no conjunto de dados selecionado.

A identificao foi realizada por dois ginecologistas que examinaram todos os registros e identificaram 906 casos fraudulentos. Finalmente, os mesmos ginecologistas selecionaram 906 casos considerados normais para elaborar a

base de teste contendo 1812 registros.

Tcnicas Data Mining utilizadas:

O framework proposto envolve as tcnicas de Regresso e Classificao.

Inicialmente foi definido um fluxo geral que compreende todo o processo de data mining proposto, conforme a figura 3. Neste processo, dois conjuntos de exemplos clnicos servem como entrada; um normal e um fraudulento. A partir desta entrada, os padres so extrados e, consequentemente, os modelo so definidos. H modelos que representam casos fraudulentos e modelos que correspondem a casos normais. Com os modelos de deteco elaborados, os registros das atividades podem ser submetidos para um mecanismo de induo que os classificaro como normais ou fraudulentos.

www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945

8/17

24/04/13

Data Mining: conceitos e casos de uso na rea da sade

Figura 03 Data mining framework

A tcnica de data mining utilizada para a representao dos modelos baseada em grafos que determinam as atividades envolvidas em um caso clnico e a respectiva seqncia temporal.

Figura 04 Grafo para caso clnico

O algoritmo utilizado para induo (classificao de uma ocorrncia como normal ou fraudulenta) foi o CBA (Classification Based on Associations ).

Resultados:

A avaliao dos resultados referentes a induo, foi baseada nas medidas de Sensibilidade e Especificidade, onde sensibilidade corresponde ao percentual de casos fraudulentos detectados, com base no total de casos fraudulentos existentes e especificidade equivale ao percentual de casos normais identificados diante do total de casos normais.

Os melhores resultados obtidos foram 64% e 67% para sensibilidade e especificidade, respectivamente. A figura 5 mostra a variao destes resultados, de acordo com ajustes efetuados no algoritmo de classificao.

www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945

9/17

24/04/13

Data Mining: conceitos e casos de uso na rea da sade

10-07-2007pic07.jpg

Figura 05 Sensibilidade e Especificidade.

Concluso

Os autores concluram que o framework desenvolvido auxiliou na descoberta das caractersticas que possuem alto poder discriminatrio para representao de casos clnicos e o mostrou-se eficiente na identificao de alguns casos abusivos e fraudulentos que no seriam facilmente identificados manualmente.

2.2 Exemplo 02: Data Mining approach to policy analysis in a healh insurance domain.

Este artigo (Chae, 2001) bem rico no emprego de tcnicas de data mining, pois so aplicados mtodos para regresso, previso e definio de regras de associao.

Contexto:

Desenvolvido por pesquisadores do Departamento de Cincia da Computao da Pohang University e Yonsei University, ambas da Coria do Sul.

O objetivo do trabalho a aplicao de tcnicas de data mining na base de dados KMIC (Korea Medical Insurance Corporation) visando a descoberta de informaes no triviais para auxlio no monitoramento do programa de controle de hipertenso.

Metodologia:

Para o desenvolvimento e conseqente validao da aplicao de data mining, foram selecionados um subconjunto de dados do KMIC. Os registros foram selecionados aleatoriamente de uma populao de 127.886 beneficirios. Inicialmente foram includos 100% dos beneficirios com hipertenso (9.103) e, posteriormente, foram selecionados, de forma aleatria, o mesmo nmero de registros para beneficirios sem hipertenso, totalizando 18.206 registros. Os registros continham dados biomtricos, coletados durante o exame fsico realizado bienalmente, como presso, taxa de glicose, colesterol, altura, peso, etc. A hipertenso foi definida pelos valores da presso

www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945

10/17

24/04/13
sistlica > 140 mmHg e diastlica > 90 mmHg.

Data Mining: conceitos e casos de uso na rea da sade

Neste conjunto de dados, a idade mdia dos homens era de 52,1 anos e das mulheres 51,4 anos. Entre os homens, 47,7% eram fumantes e 16.5% ex-fumantes. Entre as mulheres, apenas 0.4% eram fumantes e tambm 0,4 % ex-fumantes. A maioria da populao considerada estava dentro do peso adequado.

Atividades do Data Mining Utilizadas:

Regresso:

A tcnica de regresso foi utilizada para identificar os fatores de risco para hipertenso, atravs de caractersticas do paciente, seu histrico, dados sobre o estilo de vida e resultados dos exames fsicos. Estes dados correspondem s variveis independentes, enquanto o status da hipertenso assume o papel da varivel dependente. Um dos artefatos tcnicos utilizados no algoritmo para determinar a importncia das variveis consideradas, foi a equao maximum-likelihood ratio.

Previso:

Esta tcnica foi implementada atravs de uma rvore de deciso que considera as variveis definidas pela tcnica de regresso como fatores de risco e determina qual a tendncia de um determinado paciente para a hipertenso. Para a rvore de deciso foram utilizados dois algoritmos, CHAID e C5.0, para efeito de comparao. O CHAID apresentou melhor resultado.

Regras de associao:

A tcnica de associao foi usada para identificar a ocorrncia de relaes entre o resultado positivo de hipertenso e as variveis de risco, como fumar, beber, etc, na tentativa de descobrir relaes entre estes itens.

Resultados:

O resultado da tcnica de regresso mostra que variveis biomdicas so excelentes indicadores da hipertenso, e, dentre estas variveis destacam-se o ndice de massa corprea, protena urinria, taxa de glicose e colesterol.

A tcnica de previso que, atravs da rvore de deciso, define o percentual de probabilidade de o indivduo adquirir hipertenso, no algoritmo CHAID tem a sensibilidade de 76,3%.

www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945

11/17

24/04/13

Data Mining: conceitos e casos de uso na rea da sade

A tcnica para descobrimento de regras de associao definiu um grande nmero de associaes entre os fatores de riscos. A figura 6 apresenta uma viso parcial da tabela de regras de associaes encontradas com os respectivos ndices de suporte e confiana; onde suporte a probabilidade de i1 e I2 ocorrerem juntos, e confiana a proporo de ocorrncia de i2 considerando todas as ocorrncias de i1.

Concluso:

Os autores concluram que as tcnicas de data mining foram eficientes na descoberta de padres sobre programas de gerenciamento de hipertenso, mesmo assumindo as limitaes do conjunto de dados utilizados no experimento.

10-07-2007pic08.jpg

Figura 06 Exemplo de associaes descobertas

2.3 Caso 03: Association Rules and Data Mining in Hospital Infection Control and Public Health Surveillance

Este terceiro artigo (Stephen, 1998), embora no muito recente, apresenta uma perspectiva diferente e interessante sobre a aplicao da tcnica data mining para a identificao de regras de associaes.

Contexto:

Desenvolvido por pesquisadores da Alabama University em parceria com o Centro para Controle e Preveno de Doenas dos Estados Unidos (CDC).

O objetivo do trabalho apresentar um processo de anlise de dados capaz de identificar, automaticamente, novos e interessantes padres nos dados referentes a infeco hospitalar e vigilncia sanitria.

Os sistemas de vigilncia so essenciais para a deteco de novas ameaas de infeces na sade pblica e nos ambientes hospitalares. A eficcia de um sistema desta natureza determinada pela sua habilidade de analisar, rapidamente, sries histricas de dados e detectar grupos de doenas no comuns.

www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945

12/17

24/04/13

Data Mining: conceitos e casos de uso na rea da sade

O principal problema abordado pelos autores que a maioria de sistemas e tcnicas para anlise dos dados assume que o usurio j tem uma situao pr-definida (ex. infeces por Salmonella em uma determinada regio) cuja incidncia monitorada no tempo. Isto significa que, mudanas nas caractersticas da incidncia que no esto sendo monitoradas, no so detectadas. Visando resolver este problema, os autores propem a utilizao de tcnicas de Data Mining que no restrinjam a anlise apenas aos indicadores definidos pelo usurio, mas que sejam capazes de identificar novos padres e associaes que consigam detectar mudanas na forma de incidncia de uma epidemia ou endemia ou qualquer programa de controle sanitrio.

Metodologia:

A principal caracterstica do processo de data mining aqui proposto, a mudana de paradigma. Enquanto nos sistemas tradicionais de vigilncia prioriza-se uma alta freqncia e um alto grau de confiana nas regras de associaes existentes, a proposta aqui inversa; as associaes com uma alta freqncia e com um baixo nvel de confiana so as mais utilizadas. A razo simples: Se um fenmeno B ocorre toda vez que um fenmeno A ocorre e o fenmeno A ocorre com muita freqncia, provavelmente trata-se de uma situao trivial ou muito bem conhecida. Se, por outro lado, um fenmeno B ocorre em apenas algumas situaes que A ocorre, nestas condies a associao A B uma associao de baixa confiana. Porm, se, ao longo do tempo, o grau de confiana desta associao aumentar, isto pode indicar uma alterao na caracterstica de incidncia do problema. Este fato extremamente importante para atividades de preveno e, raramente so detectados por ferramentas de anlises tradicionais.

O processo geral da soluo data mining proposta, muito simples e constitudo basicamente pelas seguintes etapas: Os dados que sero analisados so divididos em partes, seguindo uma diviso temporal, e, em cada parte so aplicadas tcnicas

de data mining para descobrir todas as associaes com alta freqncia; Para cada regra de associao identificada neste conjunto de dados (que corresponde a um determinado perodo de tempo), o seu

grau de confiana comparado com o grau de confiana apresentado por esta mesma regra, no conjunto de dados que corresponde ao perodo anterior; Se o grau de confiana de uma regra sofreu um aumento significativo de um perodo para o outro, esta regra sinalizada como um

evento que merece ateno;

Para validao da aplicao de data mining foram utilizados dados do UAB Hospital (University of Alabama Birmingham). O escopo de anlise foi reduzido aos casos de infeces provocadas por Pseudomonas Aeruginosa durante o ano de 1996. Cada registro corresponde a um caso de infeco por Aeruginos a e constitudo, basicamente, pelos atributos: data de ocorrncia, localizao do paciente no hospital, CEP do paciente e resultado do teste (R = Resistente; I = Intermedirio; S = suscetvel) para piperacillin, ticarcillin / clavulanate, ceftazidime, imipenem, amikacin, gentamicin, tobramycin, e ciprofloxacin.

Para deteco de novas regras de associao, o experimento foi realizado por trs vezes, considerando diferentes divises dos dados. Em cada diviso foi considerado um perodo de tempo diferente. Foram considerados perodos de um, trs e seis meses, respectivamente, para os experimentos A, B e C.

Para anlise das regras de associao foi considerada uma freqncia 10 em todos os experimentos.

www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945

13/17

24/04/13
Tcnicas Data Mining utilizadas:

Data Mining: conceitos e casos de uso na rea da sade

Associao:

A soluo proposta no trabalho, basicamente, consiste na aplicao de tcnicas de associao visando a identificao de novas correlaes nos dados. Foi utilizado o algoritmo simples chi-square para a definio de regras de associao.

Resultados: O processo de data mining descobriu e monitorou mais de 2.000 associaes no experimento A, mais de 12.000 no experimento B e mais de 20.000 no C. Uma anlise dos eventos descobertos mostrou que, a maioria dos eventos descobertos no experimento A no foram detectados no experimento B e, tambm, no foram encontrados no C. No entanto, alguns eventos interessantes foram detectados e para eles, aes preventivas foram sugeridas, como mostra a figura 7.

Figura 07 Eventos descobertos e aes sugeridas

Concluso:

Os autores definiram um novo processo de data mining para identificao e monitoramento de novos padres e associaes nos dados, o qual se mostra eficiente e adequado para sistemas de vigilncia sanitria. Os experimentos realizados validaram a eficincia do processo para a identificao de eventos interessantes, mesmo sem conhecimento prvio, podendo, inclusive, gerar aes preventivas.

Bom, o campo de aplicao para as tcnicas e ferramentas de data mining bastante amplo. Em diversos segmentos, para diferentes problemas, as solues construdas a partir do conceito de minerao de dados, vm se mostrando eficientes. Na rea da sade, onde qualquer atividade altamente dependente de informao, a aplicabilidade deste tipo de ferramenta ideal e, em alguns casos, extremamente necessria.

Os sistemas de sade de maneira geral, e os sistemas de informao em sade em particular, tm-se beneficiado das tcnicas e instrumentos de minerao de dados j h anos, seja na recuperao de informao eventualmente utilizada em descobertas baseadas em literatura, seja na extrao de conhecimento de bases de dados factuais, bibliogrficas e de texto completo, como as mantidas em extranets pela industria farmacutica.

A minerao de dados na prpria web ainda relativamente pouco realizada e, surpreendentemente, tem ocorrido com menor freqncia,

www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945

14/17

24/04/13

Data Mining: conceitos e casos de uso na rea da sade

Porm prtica comum em vrios domnios. [http://www.kdnuggets.com/polls/2005/data_types.htm].

Foram apresentados, neste trabalho, alguns conceitos bsicos e exemplos sobre esta tecnologia que propem solues a problemas inerentes aos sistemas de sade, que so importantes e relativamente comuns a praticamente todos os pases do mundo.

No primeiro exemplo apresentado um dos problemas mais srios da sade, que em muitos casos provocam verdadeiros colapsos no sistema. Uma soluo, baseada em tcnicas de data mining apresentada atravs de um mecanismo de deteco de fraudes e abusos. Se bem sucedida, a soluo proposta representar uma expressiva economia em benefcio do sistema de sade.

O segundo exemplo mostra como uma ferramenta Data Mining capaz de prever a ocorrncia de patologias ou simplesmente mostrar a tendncia de ocorrncia baseada nas caractersticas da populao, pode aumentar a qualidade preventiva da sade pblica e auxiliar, de maneira substancial, os programas de sade implantados por governos ou instituies.

O terceiro exemplo refora, de maneira brilhante, a idia de como este tipo de soluo pode, de fato, contribuir decisivamente nas aes preventivas destinadas sade pblica. apresentada uma soluo, destinada vigilncia sanitria, que identifica e monitora padres de comportamento de problemas, como epidemias e endemias, e detecta mudanas nas caractersticas destes problemas, permitindo que aes sejam tomadas antes mesmo de um surto da situao.

Os casos apresentados mostram que possvel utilizar solues construdas a partir de tcnicas de data mining para resolver problemas existentes na gesto dos servios de sade e conseqentemente beneficiar a populao que recebe estes servios.

isso ai pessoal. Espero que tenham aproveitado, at a prxima coluna.

Referncias

Berry, J.A, Linoff, Gordon S. Mastering Data Mining. New York: John Wiley & Sons; 2000.

Chae, Young Moon; Ho, Seumg Hee; Cho, Won Kyoung; Lee, Dong Ha; Ji, Sun Ha. Data Mining approach to policy analysis in health insurance domain, International Journal of Medical Informatics, 62 (2001) 103-111.

Goebel, M, Gruenwald, L. A survey of data mining and knowledge discovery software tools. SIGKDD Explorations 1999 Jun; 1: 20-33.

Kolodner, J. Case-Based Reasoning. Florida: Morgan Kaufmann; 1993.

Stephen E. Brossette, Alan P. Sprague, J. Michael Hardin, Ken B. Waites, Warren T. Jones, Stephen A. Moser. Associations Rules and Data

www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945

15/17

24/04/13

Data Mining: conceitos e casos de uso na rea da sade

Mining in Hospital Infection Control and Public Health Surveillance, Journal of the American Medical Informatics Association, V. 5 N. 4 (1998) 3713-181.

Yang, Wan-Shiou, Wang San-Yih. A process-mining framework for the detection of healthcare fraud and abuse, Expert Systems with Applications 31 (2006) 5668.

Vander Emiro Muniz vmuniz@triscal.com.br www.triscal.com.br

Vander Emiro Muniz


Vander Emiro Muniz(vmuniz@triscal.com.br) graduado em Cincia da Computao pelo Centro Universitrio Adventista de So Paulo (UNASP), mestrando em informtica em sade, na rea de concentrao de Bioinformtica, pela Universidade Federal de So Paulo (UNIFESP). Atualmente sou consultor de Busines...

0 COMENTRIO
Ne nhum com e ntrio foi postado - se ja o prim e iro a com e ntar!

cursos relacionados

ltimos do autor

Administrao do Firebird/InterBase C urso de Administrao do Microsoft SQL Server Ferramentas Administrativas do MySQL PL/SQL Oracle Administrao do Firebird/InterBase [Ver todos]

+SQL
Publicidade

www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945

16/17

24/04/13

Data Mining: conceitos e casos de uso na rea da sade

Servios
Inclua um comentrio Adicionar aos Favoritos Marcar como lido/assistido Incluir anotao pessoal Verso para impresso
(ajuda)

DevMedia | Anuncie | Fale conosco Hospedagem web por Porta 80 Web Hosting
2013 - Todos os Dire itos R e se rvados a web-03

www.devmedia.com.br/data-mining-conceitos-e-casos-de-uso-na-area-da-saude/5945

17/17