Análise do naufrágio do Titanic

Introduo Inteligncia Articial. Prof. Dra. Solange Rezende.
USP, So Carlos, So Paulo, Brasil, Junho 2010
APLICAO DA MINERAO DE DADOS NA PROCURA DE DIMINUIR A POPULAO EM RISCO E AS TAXAS DE MORTE EM ACIDENTES MARTIMOS
Andrs Eduardo Coca S.1 and Fernanda Pereira Guidotti2
1
ICMC - Instituto de Cincias Matemticas e de Computao. aecocas@icmc.usp.br 2 EESC - Escola de Engenharia de So Carlos. nandagui@usp.br Universidade de So Paulo, So Carlos, Brasil.
Resumo Apresentam-se os resultados obtidos ao aplicar mtodos de minerao de dados para determinar a populao em risco em casos de acidentes de naufrgio. Como estudo de caso utilizado a base de dados de passageiros do Titanic, com o m de determinar se h ecincia da estratgia de resgate e desenvolver idias para as melhorias das mesmas. So amostrados e analisados os resultados obtidos com diferentes algoritmos de classicao e associao. Palavras chaves: Minerao de dados, Avaliao do conhecimento, medidas subjetivas, situaes de risco martimo. 1. INTRODUO O ser humano continuamente toma decises ou simplesmente chega a determinadas concluses baseadas no conhecimento que ele acumula ao longo de sua vida. A minerao de dados usada para extrair informao relevante a partir das experincias passadas com o m de ser aproveitadas no futuro. No entanto em casos de emergncia muitas vezes este conhecimento baseado na experincia no aplicado plenamente, trazendo consigo consequncias catastrcas. Neste trabalho usa as ferramentas de minerao de dados para estudar estes casos inusuais onde a vida humana est em risco, facilitando isto a criao de estratgias que minimizem a taxa de mortalidade em episdios perigosos inesperados. Para isto, utilizar como estudo de caso a base de dados dos sobreviventes e no sobreviventes do naufrgio do Titanic. Em 15 de abril de 1912, ocorreu um desastre, o Titanic bateu em um iceberg na costa de New Foundland. Foram 1490 dos 2201 passageiros que morreram. A elevada cifra de mortos se deu principalmente a que, apesar de cumprir com as regras martimas da poca, o Titanic no levava botes salva-vidas sucientes para todos os passageiros. Os botes tinham uma capacidade total de 1.178 vagas, ainda que o barco pudesse albergar at 3.547 pessoas. Um desproporcionado nmero de homens morreram devido ao protocolo de salvamento que se seguiu no processo de evacuao do navio [8]. Neste artigo apresentam-se os resultados obtidos com a aplicao de mtodos de minerao (classicao e associao) base de dados das pessoas sobreviventes e no sobrevivente da catstrofe do Titanic, e com isto poder analisar qual foi a poltica de evacuao em 1912. Utilizando minerao de dados pode-se prever a sobrevivncia individual, analisando apenas algumas hipteses: A taxa de mortalidade para o sexo feminino foi muito menor
do que para os o sexo masculino? Alguma classe foi privilegiada durante o resgate? Ao considerar estas questes pode-se prever com preciso a sobrevivncia do indivduo segundo seus atributos e tambm desenvolver melhores polticas de evacuao para casos futuros. Este relatrio organizado como segue. A seo 2 contm uma descrio preliminar dos dados utilizando grcos descritivo, a seo 3 descreve as etapas do processo de minerao realizadas, nalmente na seo 4 os resultados, as simulaes obtidas e as concluses na seo 5. 2. ANLISE PRELIMINAR DOS DADOS Com uma anlise preliminar dos dados chega-se a algumas concluses que do informao sobre as caractersticas das pessoas a bordo e uma idia do acontecido. A Figura 1 trata-se da quantidade de passageiros existentes abordo sendo diferenciados pelo sexo, idade e classe. Aqui se v que a maioria das pessoas eram homens, que na classe tripulao no havia crianas e que a maioria das crianas estavam viajando na classe 3.
Figura 1 Distribuio de quantidade de pessoas a bordo.
A Figura 2 trata-se do nmero de pessoas que morreram no desastre, especicando o sexo, idade e classe. Percebese que na classe 3 morreram 32 (45.7%) crianas (em maior quantidade as do sexo masculino), o que praticamente o triplo comparado com a classe 2 e percebe-se que a maioria das mortes foram homens-adultos. A Figura 3 trata-se do nmero de pessoas que sobreviveram ao naufrgio.
O banco de dados contm a presena de um atributo classicatrio (sobrevivente), por tal razo a atividade indicada preditiva, porm tambm se quer encontrar as possveis associaes entre os atributos. Mudando assim a uma atividade associativa. 3.2. Pr-Processamento Nesta etapa visa-se melhorar a qualidade dos dados, melhorando assim a acurcia e ecincia dos processos de minerao subsequentes, procurando a diminuio do custo de processamento e a utilizao de amostras representativas. Esta etapa pode conter processos de extrao, integrao, transformao, limpeza ou reduo dos dados. A seguir, os processos de pr-processamento feitos neste projeto.
Figura 2 Distribuio de quantidade de no sobreviventes.
3.2.1
Extrao e Integrao
Os dados foram originalmente recolhidos pela British Board of Trade na sua investigao ao acidente. Esta base de dados contm quatro atributos para cada uma das 2201 pessoas no Titanic quando este afundou. Usou o programa Excel para preparar os dados e para posteriormente ser convertidos aos formatos .csv e .arff. Na continuao a descrio do banco de dados: Nmero de exemplos: 2202 Nmero de Atributos: 4 Atributos categricos: 1 Atributos boleanos: 3
Figura 3 Distribuio de quantidade de sobreviventes.
Primeiro foi necessrio trocar os rtulos de idioma para o portugus para agilizar assim a interpretao dos resultados, isto se mostra na tabela 1.
Atributos Atributos Tipo Class Classe Categrico Age Idade Boleano Sex Sexo Boleano Survived Sobrevivente Boleano
3. ETAPAS DO PROCESSO DE MINERAO DE DADOS Nesta seo so descritos os passos usados na minerao para o desenvolvimento deste trabalho. 3.1. Identicao do problema O objetivo analisar os dados e procurar um padro (por exemplo: a maior parte dos sobreviventes eram do sexo feminino), e obter a probabilidade de uma determinada pessoa sobreviver ou no ao acidente do Titanic, conrmar alguns dos dados que fazem parte do senso comum, como por exemplo, se ter sido adotada a regra de Smulheres e crianas primeiroT, ou ainda se ter sido a 1a classe privilegiada no momento de atribuio dos barcos salva-vidas. Depois baseados no conhecimento extrado, desenvolver estratgias de preveno e reao no momento de risco, tentando encontrar um modelo com regras simples e compreensveis para ser interpretadas na elaborao de estratgias de resgate, nas quais podem considerar a organizao dos barcos salva-vidas, mtodos de cooperao predenidos entre pessoas de diferentes idades, sexo ou classes.
Tabela 1 Atributos do banco de dados
Depois, tambm foi necessrio trocar os valores identicadores da classe, originalmente numricos (1 a 3) por letras, e o atributo meta de com valores de 1 ou 0 por as palavras sim e no respectivamente; estas mudanas so amostradas na tabela 2.
Valores antes Valores ps {1,2,3,0} {1a Classe, 2a Classe, 3a Classe, Tripulao} {1,0} {Adulto, Criana} {1,0} {masculino", feminino} {1,0} {Sim, No}
Tabela 2 Etapa de pr-processamento dos dados
O conjunto de dados original inclui os nomes dos tripulantes, mas no foram usados por serem irrelevantes para o estudo. Merece destaque tambm o fato que no banco de dados no foram encontrados dados inexistente ou desconhecidos. 3.2.2 Fragmentao da amostra
3.4. Avaliao do Conhecimento Uma avaliao do conhecimento realizada com o conjunto de teste e uma medida de sua qualidade calculada. Existem vrias medidas para ps-processar o conhecimento descoberto obtido no processo de minerao [7], algumas destas so descritas a continuao. 3.4.1 Avaliao do grau de interesse
Com o m de avaliar a vulnerabilidade do modelo encontrado ante exemplos desconhecidos, testou-se com uma amostra desconhecida. Ocorreu uma diviso do conjunto em dois subconjuntos: treinamento (1501 exemplos) e teste (700 exemplos), tentando que os dados em cada amostra fossem escolhidos aleatoriamente, isto devido ao banco de dados original encontrar-se ordenado. Para isso utilizou dois mtodos usando a ferramenta anlise de Excel: 1. Extraindo uma amostragem de 701 elementos da base original e depois usando uma funo de procura de Excel, da seguinte forma: = PROCV(\$A2;tabela;2)
Para uma dada regra de associao, o suporte do item A, Sup(A), representa a porcentagem de transaes da base de dados que contm os itens de A. O suporte de uma regra de associao Sup(A,B), a porcentagem de transaes que contm os dois itens. A conana desta regra, Conf(A B), representa, dentre as transaes que contm A, a porcentagem de transaes que tambm contm B, ou seja [7]. Conf (A B) = Sup(A, B) Sup(A) (1)
Mas os dados da amostra ainda cavam na base original, ento no conseguiu uma separao aleatria. 2. Acrescentar uma coluna de numerao dos exemplos, depois desordenar aleatoriamente todos os dados dessa coluna para nalmente ordenar a tabela em ordem acedente e escolher os primeiros 701 elementos para a base de teste de deixar os demais para o treino. 3.3. Induo do Conhecimento Para a parte de extrao do conhecimento escolheu-se trs algoritmos de classicao e um de associao. O conhecimento inferido do conjunto de treinamento com a utilizao dos seguintes algoritmos de classicao: One Rule ID3 J48 Fez-se a fase de treino e depois a fase de teste para vericar se o modelo encontrado consistente a novos exemplos, os resultados sero amostrados na seo 4. Com o objetivo de determinar o mtodo com menor erro de classicao se usaram os seguintes mtodos de estimao do erro: Validao cruzada: Com diviso em 12 partes (12 Fold) Porcentagem split: 60% Para a etapa de associao foi utilizado o algoritmo Apriori.
Entretanto, tem-se que A e B so independentes se Sup(A, B) = Sup(A) Sup(A), o que conhecido como suporte esperado SupEsp(A, B). No algoritmo Apriori, para uma regra ser considerada forte, contendo informao interessante, necessrio que ela apresente bons valores de suporte e conana, ento estas medidas atuam como medidas de interesse no processo de minerao de regras de associao. Porm, o nmero de regras geradas pelo modelo geralmente muito grande, dicultando o processo de anlise por parte do usurio. Alm disso, a minerao de bases de dados reais pode levar gerao de centenas de milhares de regras de associao e grande parte destas costumam ser compostas por regras bvias, redundantes ou, at mesmo, contraditrias [6]. Com o objetivo de identicar as regras que so, de fato, relevantes e teis dentre as muitas que podem ser mineradas, foram desenvolvidas outras medidas para quanticar a informao interessante, as quais so classicadas assim [7]: Medidas subjetivas (user-driven): o usurio especica as crenas ou conhecimento prvio sobre o domnio de aplicao e o sistema a partir delas seleciona regras interessantes, ou seja, representa uma novidade com relao ao conhecimento prvio. Medidas objetivas (data-driven): estima quanto as regras podem surpreender ao usurio de uma forma mais automtica e indireta. 3.4.2 Medidas de interesse objetiva
Neste trabalho sero utilizadas medidas objetivas para avaliar as regras obtidas pelo algoritmo Apriori na atividade de associao. Lift (interest): o mtodo mais utilizado para avaliar dependncias (Eq. 2). Indica quanto mais frequente torna-se B quando A ocorre. Varia entre 0 e . Se
Lif t > 1 indica dependncia positiva, se Lif t < 1 indica dependncia negativa. Lif t = Sup(A, B) Sup(A) Sup(B) (2)
4. RESULTADOS Nesta seo so apresentados os resultados obtidos no processo de minerao nas atividades de classicao e associao. 4.1. Classicao Na Tabela 3 so apresentados as porcentagens de classicao correta e incorreta para os trs mtodos de classicao, tanto para treino quanto para teste, alm da porcentagem de preciso do atributo meta. Percebe-se que o algoritmo tem os melhores resultados na classicao correta e o algoritmo One R na classicao incorreta. Tambm percebido, comparando as linhas de treino e teste, que todos os modelos tm bons resultados ante a presena de novos exemplos.
Classicadas Classicadas corretamente incorretamente 77, 61 22, 39 77, 55 22, 45 78, 21 21, 79 78, 13 21, 87 78, 81 21, 19 79, 14 20, 86 Preciso Preciso Sim No 0, 74 0, 79 0, 72 0, 79 0, 89 0, 77 0, 86 0, 77 0, 89 0, 77 0, 87 0, 78
Rule Interest (RI): Conhecido tambm como PS (Piatetsky-Shapiro), novidade ou leverage. Esta medida indica o valor da diferena entre suporte real e o suporte esperado de uma regra de associao (Eq. 3). Varia entre 0.25 e 0.25. Se RI = 0, indica independncia, se RI > 0, dependncia positiva e RI < 0 dependncia negativa. Quanto maior o valor da medida, mais interessante a regra. RI = Sup(A, B) Sup(A) Sup(B) (3)
Convico: Tanto o Lift quanto o RI so medidas simtricas, no entanto a medida de interesse convico proposta com o objetivo de avaliar uma regra de associao como uma verdadeira implicao [7] (Eq. 4 3.4.2). Conv = Sup(A) Sup(B) Sup(A, B) (4)
Mtodo Etapa One R Treino Teste ID3 Treino Teste J48 Treino Teste
Conv =
Sup(A) (1 Sup(b)) Sup(A) Sup(A, B)
Tabela 3 Mtodos de estimao do erro
A medida da convico varia entre 0 e . As regras mais interessantes apresentam um valor de convico entre 1.01 e 5, e as regras com valor de convico acima de 5 representam informaes bvias ou ilusrias. Outras medidas de interesse de regras importantes esto denidas pelas frmulas 5-7 [7], quanto maior o valor da medida para uma dada regra, maior o grau de interesse estimado para aquela regra [6]. Cosine = Sup(A, B) Sup(A) Sup(B) (5)
Na Tabela 6, tem-se a matriz de confuso para os diferentes classicadores nas etapas de teste e treino. A qual aporta informao semelhante e ajuda a demonstrar as anteriores concluses.
Treino Sim No 185 302 24 985 194 293 24 985 238 249 86 923 Teste Sim No 82 139 13 461 89 132 13 461 105 116 40 434
Jaccard =
Sup(A, B) Sup(A) + Sup(B) Sup(A, B) Sup(A, B) Sup(A) Sup(B)
Mtodo Atributo One R Sim No ID3 Sim No J48 Sim No
(6)
Tabela 4 Matrizes de confuso para diferentes classicadores nas duas etapas
coef =
Sup(A) Sup(B)(1 Sup(A))(1 Sup(B)) (7) Os resultados de avaliao do conhecimento usando estas regras sero mostrados na seo 4.4. 3.5. Utilizao do Conhecimento Aps a descoberta do novo conhecimento preciso fazer bom uso deste segundo os objetivos pretendidos. Na seo 4.5 de resultados sero mostradas algumas idias sobre as possveis aplicaes do conhecimento descoberto neste trabalho.
Na Figura 4 so apresentadas as porcentagens de sobrevivncia segundo a idade e o sexo. Para este mtodo as seguintes informaes: a porcentagem de adulto masculino que no sobreviveram foi do 60%, a de adultos mulheres de 5% e uma porcentagem total de sobreviventes igual a 32%, porcentagens que so menores s porcentagens de classicao obtidas com os classicadores. Na continuao apresentada as regras de classicao para cada mtodo e uma breve descrio dos resultados.
Figura 4 Porcentagem de pessoas segundo sexo, idade e sobrevivncia.
4.1.1
Classicador One R
| | idade = adulto: no | | idade = criana: sim | classe = 3rd | | idade = adulto: no | | idade = criana: no | classe = tripulao: no sexo = feminino | classe = 1st | | idade = adulto: sim | | idade = criana: sim | classe = 2nd | | idade = adulto: sim | | idade = criana: sim | classe = 3rd | | idade = adulto: no | | idade = criana: sim | classe = tripulao: sim -------------------------------Quadro 2 - Regra obtida com ID3 4.1.3 Classicador J48
O atributo escolhido pelo algoritmo One R foi o sexo. Como pode vericar nos dados obtidos classicou corretamente 1161 instncias para uma classicao correta de 77, 61%. Continuando a analisar os dados obtidos consegue-se ainda obter o nvel de preciso para cada uma das classes, assim temos 0, 74 de preciso para o Sim e 0, 79 para o No. A matriz de confuso da Tabela 4, fornece na sua diagonal principal o nmero de instncias classicadas corretamente para cada classe. Assim, o Sim teve 302 instncias classicadas corretamente e 185 incorretamente. De forma anloga, o No. Na regra obtida (Quadro 1) pode-se analisar que foi escolhido o atributo sexo como n principal e a partir dele foi denido se teve sobreviventes ou No. -----------------------------Se sexo = masculino ento sobrevivente = no Se sexo = feminino ento sobrevivente = sim Cobertura de 1161 exemplos -----------------------------Quadro 1 - Regra obtida com One Rule 4.1.2 Classicador ID3
Neste caso foi abordado mais de uma regra (Quadro 3), alm do sexo utilizou na primeira parte onde o sexo masculino a idade e a classe, j na outra parte onde o sexo feminino foi utilizado apenas a classe. ---------------------------------------sexo = masculino: no (1172.0/249.0) sexo = feminino | classe = 1st: sim (100.0/3.0) | classe = 2nd: sim (74.0/11.0) | classe = 3rd | | idade = adulto: no (115.0/53.0) | | idade = criana: sim (20.0/8.0) | classe = tripulao: sim (15.0/2.0) ---------------------------------------Quadro 3 - Regra obtida com One J48 No Quadro 4 mostrada a converso das regras obtidas em uma linguagem mais compreensvel e na Figura a respectiva rvore de deciso. --------------------------------Se sexo = masculino ento sobrevivente = no Se idade = criana ento Se classe = 1 ento sobrevivente = sim Se classe = 2 ento sobrevivente = sim Se classe = 3 ento sobrevivente = sim Se classe = Tripulao ento sobrevivente = sim Se sexo = feminino ento
Similar ao anterior utiliza o sexo como atributo de classicao principal, s que as regras de deciso so mais detalhadas (Quadro 2). -------------------------------sexo = masculino | classe = 1st | | idade = adulto: no | | idade = criana: sim | classe = 2nd
Validao cruzada (12 FOLD) Se classe = 1 ento Factor de conana 1% 25% 50% 75% 99% sobrevivente = sim Nmero de folhas 2 6 11 11 11 Se classe = 2 ento Tamanho da arvore 3 9 17 17 17 sobrevivente = sim Instancias corretamente 76, 75 76, 75 78, 15 78, 68 78, 68 classicadas (%) Se classe = 3 ento Se idade = adulto ento sobrevivente = no Tabela 5 Estimao do erro com validao cruzada Se idade = criana ento sobrevivente = sim Se classe = Tripulao ento Para este caso se tm concluses semelhantes ao mtodo sobrevivente = sim de estimao do erro de validao cruzada. No entanto, a --------------------------------taxa de classicao foi um pouco menor. Na Figura ?? Quadro 4 - Regra do J48 em linguagem natural pode-se apreciar melhor a diferena na taxa de classicao para os dois mtodos ao variar o fator de conana. Porcentagem SPLIT (60%) Factor de conana 1% 25% 50% 75% 99% Nmero de folhas 2 6 11 11 11 Tamanho da rvore 3 9 17 17 17 Instncias corretamente 76, 83 76, 83 77, 67 77, 67 77, 67 classicadas (%)
Tabela 6 Estimao do erro com porcentagem SPLIT
Figura 5 rvore de classicao do algoritmos J48
4.2. Estimao do erro Para estimar a taxa de erro se usaram os mtodos de validao cruzada e de porcentagem SPLIT. 4.2.1 Validao cruzada
O procedimento deste mtodo dividir o conjunto de dados em k partes iguais, determinar o modelo para k 1 classes e prever o resultado na classe restante. O processo repetido k vezes, deixando para testar, uma parte diferente da anterior e criando o modelo com as restantes. No m, vamos obter k estimativas para o erro dado em cada um das parties. Ao variar o fator de conana, percebe que a taxa de classicao aumenta levemente para grandes aumentos neste fator e que a complexidade da rvore de deciso aumenta consideravelmente. 4.2.2 Porcentagem SPLIT
Figura 6 Porcentagem de classicao vs fator de conana para diferentes mtodos de estimao do erro
4.3. Associao O resultado de associao obtido com o algoritmo Apriori, usando as especicaes por defeito, so descritos na continuao. Parmetros por defeito Suporte mnimo: 0.1 (150 instncias) Conana mnima: 0.9 Nmero de ciclos: 18
Este mtodo consiste em uma diviso do conjunto de dados em dois, um que vai criar o modelo e outro que vai permitir a obteno do erro associado a esse modelo. Essa diviso feita mediante uma certa porcentagem, neste caso adotada 60%.
Os tamanhos dos conjuntos de itemsets com suporte mnimo so seguintes: 1. Tamanho do conjunto de itemsets L(1): 7 2. Tamanho do conjunto de itemsets L(2): 8 3. Tamanho do conjunto de itemsets L(3): 2 Na tabela so mostradas as melhores regras encontradas pelo algoritmo. A primeira utilizada para indicar que as pessoas da classe tripulao, tendem a ser adultos homens, observao j feita na anlise da distribuio da Figura 1. Pode-se considerar esta uma regra obvia, por tal razo necessrio usar as medidas de interesse.
Regra 1 2 3 4 5 6 7 8 9 10 Regra Classe = tripulao idade = adulto, sexo = masculino Idade = adulto, sexo = masculino classe = tripulao Classe = tripulao sexo = masculino Sexo = masculino classe = tripulao Classe = tripulao, idade = adulto sexo = masculino Sexo = masculino classe = tripulao, idade = adulto Idade = adulto, sexo = masculino sobrevivente = no Sobrevivente = no idade = adulto, sexo = masculino Sexo = masculino idade = adulto, sobrevivente = no Idade = adulto, sobrevivente = no sexo = masculino
Regra 1 2 3 4 5 6 7 8 9 10
SupEsp(AB) 30.24 30.53 31.45 31.71 31.45 31.71 51.35 51.06 51.32 50.94
Lift 1.29 1.29 1.24 1.24 1.24 1.24 1.18 1.18 1.18 1.18
RI 0.09 0.09 0.08 0.08 0.08 0.08 0.09 0.09 0.09 0.09
Convico 8.95 1.24 7.87 1.19 7.87 1.19 1.59 2.23 1.49 2.79
Tabela 9 Medidas subjetivas de interesse.
Regra Cosine Jaccard coef 1 0.71 0.51 39.92 2 0.71 0.51 39.92 3 0.70 0.49 39.91 4 0.70 0.49 39.91 5 0.70 0.49 39.91 6 0.70 0.49 39.91 7 0.84 0.73 61.24 8 0.84 0.73 61.24 9 0.84 0.72 61.24 10 0.85 0.73 9.44
Tabela 10 Outras medidas subjetivas de interesse. Tabela 7 Regras de associao obtidas com o algoritmo apriori
4.4. Avaliao do Conhecimento Na Tabela 8 so mostrados os suportes e a conana para as regras. As conanas das regras 1,3,5,7,8,9 e 10 so alta, indicando possivelmente algum grau de interesse. No obstante, interpretando os valores da Tabela 10, a medida de convico revela que s as regras 8 e 10 so interessantes, as 1, 2 e 3 so ilusrias. As demais so pouco interessantes ainda que so positivamente dependentes por ter suas medidas de lift e RI na faixa de dependncia positiva. No entanto as regras 8 e 10 compartilham a mesma informao, a qual que a maioria dos no sobreviventes foram homens adultos.
Regra Sup(A) Sup(B) 1 40.21 75.19 2 75.74 40.31 3 40.21 78.23 4 78.65 40.32 5 40.21 78.23 6 78.65 40.32 7 75.74 67.80 8 67.70 75.42 9 78.65 65.25 10 65.33 77.97 Sup(AB) Conf(AB) 39.16 0.97 39.16 0.52 39.16 0.97 39.16 0.5 39.16 0.97 39.16 0.5 60.38 0.8 60.38 0.89 60.38 0.77 60.38 0.92
tos de salvao (salva-vidas), localizao dos pontos de encontro, denio de cooperao entre passageiros (por exemplo, cada homem responsvel de ajudar a uma criana predenida antes de abordar). Criar leis para controlar o cumprimento das estratgias. Fazer mineraes futuras, procurar e vericar a diminuio das taxas de morte, vericar a diminuio de atributos meta e associaes entre atributos. Visando o caso ideal de obter uma regra ilusria entre o atributo humano (criana, homem ou mulher) e a sobrevivncia, isto , que a associao entre o atributo sexo e o atributo sobrevivncia tenham uma dependncia nula e uma convico maior a 5. 5. DISCUSSES E CONCLUSES As reivindicaes que os passageiros de terceira classe estavam trancadas no fundo do navio foram exageradas. A minerao de dados mostrou que houve uma relao muito fraca entre a classe e sobrevivncia. Usando a minerao de dados, aprendeu-se sobre a poltica de evacuao em 1912, que deram provas de que um suposto crime no ocorreu e que foi aplicada a poltica Mulheres e crianas primeiro. Mediante a minerao de dados possvel achar informao relevante que no se consegue com a simples visualizao dos dados ou os grcos. Esta informao nova pode se usar segundo um dado, se podendo adaptar este conhecimento a problemas tpicos ou problemas novos, como a anti associao.
Tabela 8 Medidas de suporte e conana
4.5. Utilizao do Conhecimento Propor idias sobre estratgias de preveno, polticas de evacuao, mtodos de resgate, posicionamento de elemen-
As medidas de avaliao do conhecimento so ferramentas muito poderosas para quanticar a informao implcita contida nas regras de associao obtidas. Pois elas, por mdio de descritores estatsticos, indicam o grau de interesse e dependncia de uma forma simples. Referncias [1] Robert J. MacG. Dawson. The Unusual Episode Data Revisited. Saint Marys University. Journal of Statistics Education v.3, n.3 (1995). [2] M. Pereira. Minerao de Dados - Conceitos, Aplicaes e Experimentos com Weka. Universidade do Estado do Rio Grande do Norte (UERN). [3] P. Azarias, S. Nasser, L. Scandelari. Aplicao Da Minerao De Dados Para Gerao De Conhecimento: Um Experimento Prtico. V Congresso Nacional De Excelncia Em Gesto, Gesto do Conhecimento para a Sustentabilidade. Julho de 2009. ISSN 1984-9354. [4] G. Pimenta, G. Oliveira, H. Fernandes, J. Serufo. WEKA - Manual. Departamento de Cincia da Computao - Instituto de Cincias Exatas. Universidade Federal de Minas Gerais [5] G. Dantas, J. Almeida, P. Jnior, D. Silva de Lima, R. Ribeiro. O Uso da Descoberta de Conhecimento em Base de Dados para Apoiar a Tomada de Decises. SEGeT, Simpsio de Excelncia em Gesto e Tecnologia. [6] E. Gonalves. Regras de Associao e suas Medidas de Interesse Objetivas e Subjetivas. UFF - Universidade Federal Fluminense. http://www.dcc.ua.br/infocomp/artigos/v4.1/art04.pdf [7] L. Aparecido, D. Carvalho, C. Bilynkievycz, M. GomesVaz. Minerao De Dados E Ps-Processamento Em Padres Descobertos. Publ. UEPG Ci. Exatas Terra, Ci. Agr. Eng., Ponta Grossa, 14 (3): 207-215, dez. 2008. [8] RMS Titanic. http //pt.wikipedia.org/wiki/RM ST itanic :

Análise do naufrágio do Titanic

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Análise do naufrágio do Titanic

Enviado por

Direitos autorais:

Formatos disponíveis

Introduo Inteligncia Articial. Prof. Dra. Solange Rezende.

USP, So Carlos, So Paulo, Brasil, Junho 2010

Figura 1 Distribuio de quantidade de pessoas a bordo.

Tabela 1 Atributos do banco de dados

Tabela 2 Etapa de pr-processamento dos dados

Sup(A) (1 Sup(b)) Sup(A) Sup(A, B)

Tabela 3 Mtodos de estimao do erro

Sup(A, B) Sup(A) + Sup(B) Sup(A, B) Sup(A, B) Sup(A) Sup(B)

Mtodo Atributo One R Sim No ID3 Sim No J48 Sim No

Figura 4 Porcentagem de pessoas segundo sexo, idade e sobrevivncia.

Tabela 6 Estimao do erro com porcentagem SPLIT

Figura 5 rvore de classicao do algoritmos J48

Tabela 9 Medidas subjetivas de interesse.

Tabela 8 Medidas de suporte e conana

Você também pode gostar