Você está na página 1de 11

Universidade Estácio de Sá

Campus Estação

Titanic - Machine Learning from Disaster

Nome do discente integrantes do grupo:


Ebert Palmeira de Souza Souza Silva
Nome do(a) professor(a) orientador:
Fabricio Leoanard Leopoldo

2024
Goiânia/Goias
Sumário
1. DIAGNÓSTICO E TEORIZAÇÃO ......................................................................................................... 3
1.1. Identificação das partes interessadas e parceiros .................................................................. 3
1.2. Problemática e/ou problemas identificados........................................................................... 3
1.3. Justificativa.............................................................................................................................. 3
1.4. Objetivos/resultados/efeitos a serem alcançados (em relação ao problema identificado e
sob a perspectiva dos públicos envolvidos) ........................................................................................ 3
1.5. Referencial teórico (subsídio teórico para propositura de ações da extensão) ..................... 3
2. PLANEJAMENTO E DESENVOLVIMENTO DO PROJETO ................................................................... 4
2.1. Plano de trabalho (usando ferramenta acordada com o docente) ........................................ 4
2.2. Descrição da forma de envolvimento do público participante na formulação do projeto,
seu desenvolvimento e avaliação, bem como as estratégias pelo grupo para mobilizá-los. ............. 5
2.3. Grupo de trabalho (descrição da responsabilidade de cada membro) .................................. 5
2.4. Metas, critérios ou indicadores de avaliação do projeto ....................................................... 5
2.5. Recursos previstos .................................................................................................................. 6
2.6. Detalhamento técnico do projeto........................................................................................... 7
3. ENCERRAMENTO DO PROJETO ....................................................................................................... 7
3.1. Relatório Coletivo (podendo ser oral e escrita ou apenas escrita) ......................................... 7
3.2. Avaliação de reação da parte interessada .............................................................................. 8
3.3. Relato de Experiência Individual ............................................................................................. 9
3.1. CONTEXTUALIZAÇÃO................................................................................................................ 9
3.2. METODOLOGIA ........................................................................................................................ 9
3.3. RESULTADOS E DISCUSSÃO: ................................................................................................... 10
3.4. REFLEXÃO APROFUNDADA .................................................................................................... 10
3.5. CONSIDERAÇÕES FINAIS........................................................................................................ 10
1. DIAGNÓSTICO E TEORIZAÇÃO
1.1. Identificação das partes interessadas e parceiros
As partes interessadas desse projeto podem vir de diversas origens socioeconômicas, incluindo
indivíduos de classes média e alta.O único participante do projeto sou eu Ebert, o projeto se esforça
para ser inclusivo em relação a gênero e faixa etária.Acredito que o projeto possa envolver uma
quantidade significativa de participantes, esse projeto pode contar com o apoio de diversos
parceiros, como instituições educacionais, empresas de tecnologia, organizações sem fins lucrativos
e grupos comunitários.

1.2. Problemática e/ou problemas identificados

Ao analisar o desastre do Titanic, percebemos que as decisões sobre quem sobreviveu e quem não
sobreviveu foram influenciadas por diversos fatores, como classe socioeconômica, gênero, idade e
status social. Essa problemática revela as desigualdades existentes na sociedade da época e ressoa
com questões contemporâneas de justiça social e equidade. A motivação por trás do projeto de
extensão sobre o desafio do Titanic do Kaggle é abordar essas desigualdades sociais e econômicas
por meio da análise de dados. O desafio do Titanic no Kaggle oferece uma oportunidade única para
envolver os participantes em atividades práticas de ciência de dados, capacitando-os a utilizar
ferramentas e técnicas analíticas para explorar e visualizar dados complexos.

1.3. Justificativa

Acredito que O desafio do Titanic do Kaggle oferece uma oportunidade concreta para nos estudantes
aplicarem os conhecimentos adquiridos em sala de aula em um contexto real. Eles podem utilizar
técnicas de ciência de dados, estatística, programação e análise exploratória de dados para analisar e
extrair insights dos conjuntos de dados fornecidos.A motivação do trabalho sobre o desafio do Titanic
do Kaggle e saber que podemos incluir o desejo de aprender novas habilidades, a curiosidade sobre
análise de dados, o interesse em explorar questões sociais por meio de dados e a vontade de contribuir
para uma causa significativa.
1.4. Objetivos/resultados/efeitos a serem alcançados (em relação ao problema
identificado e sob a perspectiva dos públicos envolvidos)

O principal objetivo do projeto é proporcionar à equipe a oportunidade de desenvolver e aprimorar


habilidades práticas em análise de dados e ciência de dados . Isso inclui a capacidade de coletar,
limpar, explorar e analisar conjuntos de dados complexos, além de aplicar algoritmos de
aprendizado de máquina para criar modelos preditivos. Outro objetivo importante é estimular a
equipe a refletir criticamente sobre as desigualdades sociais e econômicas, explorando como essas
questões se manifestam no contexto do desastre do Titanic. Além disso, o projeto visa promover a
colaboração e o trabalho em equipe entre os membros da equipe.

1.5. Referencial teórico (subsídio teórico para propositura de ações da


extensão)
Thomas Piketty - Autor de "O Capital no Século XXI", Piketty discute a concentração de riqueza e as
desigualdades econômicas ao longo da história. Suas análises sobre a distribuição de renda e a
influência do capitalismo nas disparidades socioeconômicas podem fornecer uma base sólida para
entender as origens das desigualdades sociais observadas no desastre do Titanic.

Shoshana Zuboff - Em "The Age of Surveillance Capitalism", Zuboff examina as implicações sociais e
éticas da coleta e uso de dados em larga escala por empresas e instituições. Sua obra ajuda a
contextualizar as discussões sobre privacidade, poder e controle de dados, aspectos fundamentais
na análise dos dados do desafio do Titanic.

Michel Foucault - As obras de Foucault, como "Vigiar e Punir" e "Microfísica do Poder", oferecem
insights sobre as relações de poder e as estruturas sociais que moldam as interações entre
diferentes grupos na sociedade. Sua análise sobre disciplina, controle e resistência pode ser aplicada
à compreensão das dinâmicas sociais presentes no desastre do Titanic e nas decisões de
sobrevivência.

2. PLANEJAMENTO E DESENVOLVIMENTO DO PROJETO

2.1. Plano de trabalho (usando ferramenta acordada com o docente)

Os objetivos são : Desenvolver habilidades em análise de dados e ciência de dados,promover a


reflexão crítica sobre desigualdades sociais e econômicas,fomentar a colaboração e o trabalho em
equipe.

Ações a serem Executadas:

Coleta e Limpeza de Dados:

• Responsável: Ebert
• Coletar dados do desafio do Titanic do Kaggle.
• Limpar e preparar os dados para análise, tratando valores ausentes e outliers.

Exploração de Dados e Análise Descritiva:

• Responsável: Ebert
• Explorar os dados para identificar padrões e insights preliminares.
• Realizar análise descritiva das variáveis relevantes, como classe socioeconômica, gênero e
idade.

Desenvolvimento e Avaliação de Modelos Preditivos

• Responsável: Ebert
• Desenvolver modelos de aprendizado de máquina para prever a sobrevivência no Titanic.
• Avaliar a performance dos modelos utilizando técnicas de validação cruzada e métricas de
avaliação.
Discussão e Reflexão sobre Desigualdades Sociais :

• Responsável: Ebert
• Explorar as implicações éticas e sociais das descobertas, com base nos referenciais teóricos
apresentados.

Elaboração de Relatório e Apresentação dos Resultados

• Responsável: Ebert
• Elaborar um relatório final que documente as análises realizadas, os insights obtidos e as
reflexões críticas sobre as desigualdades sociais.
• Preparar uma apresentação para compartilhar os resultados.

2.2. Descrição da forma de envolvimento do público participante na formulação


do projeto, seu desenvolvimento e avaliação, bem como as estratégias pelo
grupo para mobilizá-los.

Ebert : Acredito que devemos pesquisar ou ver em enquetes para entender as necessidades e
interesses da comunidade em relação ao projeto, garantindo que suas preocupações sejam
consideradas na formulação dos objetivos e atividades do projeto.

2.3. Grupo de trabalho (descrição da responsabilidade de cada membro)

Ebert : Responsavel pela documentação do trabalho e pela solução do desafio do Titanic.

2.4. Metas, critérios ou indicadores de avaliação do projeto

Entender o Problema:

Compreender completamente o problema proposto, que neste caso é prever quais passageiros
sobreviveram ao naufrágio do Titanic com base em dados históricos.

Exploração dos Dados:

Analisar e explorar os dados fornecidos, incluindo a compreensão das variáveis disponíveis,


identificação de valores ausentes, análise estatística descritiva, visualização de dados e compreensão
das relações entre as variáveis.

Pré-processamento de Dados:

Tratar valores ausentes, converter variáveis categóricas em numéricas (por exemplo, através de
codificação one-hot ou label encoding), normalizar ou padronizar variáveis numéricas, e
possivelmente criar novas features através de engenharia de features.

Seleção de Modelo:
Escolher um conjunto de algoritmos de aprendizado de máquina adequados para o problema, como
regressão logística, árvores de decisão, random forests, SVM, entre outros. Isso pode ser feito através
de experimentação e validação cruzada para determinar quais modelos têm melhor desempenho.

Treinamento do Modelo:

Treinar os modelos selecionados nos dados de treinamento, ajustando seus parâmetros para otimizar
o desempenho.

Validação do Modelo:

Validar o desempenho final do modelo utilizando os dados de teste separados inicialmente. Isso
ajudará a garantir que o modelo generalize bem para novos dados e não apenas memorize o conjunto
de treinamento.

Interpretação dos Resultados:

Interpretar os resultados do modelo final para extrair insights sobre quais características são mais
importantes na determinação da sobrevivência dos passageiros do Titanic. Isso pode incluir análise de
importância de features e visualizações interpretáveis.

Documentação e Relatório:

Documentar todo o processo de análise e modelagem, incluindo os passos realizados, decisões


tomadas, métricas de desempenho alcançadas e conclusões obtidas. Isso é importante para
comunicar os resultados de forma clara e replicável.

2.5. Recursos previstos

Recursos Materiais:
Computadores e Acesso à Internet:

Utilização dos recursos do meu proprio computador .

Software de Análise de Dados:

Utilização de software gratuito e de código aberto, como Python com bibliotecas como Pandas e
Jupyter Notebook para análise de dados e modelagem.

Conjunto de Dados:

Utilização do conjunto de dados disponibilizado pelo Kaggle gratuitamente para o desafio do Titanic.

Recursos Institucionais:
Espaço de Trabalho:

Utilizamos os laboratórios de informática da instituição para realizar reuniões, discussões e trabalho


prático.

Recursos Humanos:
Alunos e Professores:

Tive engajamento do professor e interessados em participar do projeto como parte de atividades


extracurriculares ou projetos de pesquisa.

Estratégias para Minimizar Custos Financeiros:


Utilização de Recursos Gratuitos:

Priorizei o uso de recursos gratuitos, como software de código aberto e conjuntos de dados
disponíveis publicamente.

2.6. Detalhamento técnico do projeto

Etapa 1: Entendimento do Problema

Na primeira etapa, tive que estudar e compreender completamente o problema proposto, que é
prever a sobrevivência dos passageiros do Titanic com base em dados históricos.

Etapa 2: Exploração dos Dados

Tive que fazer análise detalhada dos dados disponíveis, incluindo a compreensão das variáveis
presentes, identificação de valores ausentes, análise estatística descritiva e visualização de dados.

Etapa 3: Pré-processamento de Dados

Nesta etapa, preparei os dados para a modelagem, o que inclui tratamento de valores ausentes,
codificação de variáveis categóricas, normalização ou padronização de variáveis numéricas .

Etapa 4: Seleção e Treinamento do Modelo

Selecionei o Jupyter notebook como ferramenta para o problema , como regressão logística, árvores
de decisão, random forests, entre outros

Etapa 5: Interpretação dos Resultados e Relatório Final

Finalmente, interpretei os resultados do modelo final para extrair insights sobre quais características
são mais importantes na determinação da sobrevivência dos passageiros do Titanic.Por final peguei
os dados e enviei ao Kaggle para ver a porcentagem de acerto.

3. ENCERRAMENTO DO PROJETO

3.1. Relato Coletivo:

Conscientização sobre Ciência de Dados e Aprendizado de Máquina:


O projeto pode ter me ajudado a aumentar a conscientização sobre ciência de dados e aprendizado
de máquina entre os participantes, proporcionando-lhes uma experiência prática na aplicação desses
conceitos.

Desenvolvimento de Habilidades Técnicas:

Fui capaz adquirir habilidades técnicas relevantes, como análise exploratória de dados, pré-
processamento de dados, modelagem de machine learning e interpretação de resultados.

Impacto na Comunidade:

Consegui avaliar o impacto na comunidade em termos de fornecer insights úteis ou soluções práticas
para problemas relacionados ao tema do Titanic, como segurança marítima, prevenção de acidentes
ou análise de dados demográficos.

Aprendizado Reflexivo:

Tive a oportunidade de refletir sobre suas próprias experiências e aprendizados ao longo do projeto,
identificando áreas de sucesso e desafios enfrentados durante o processo.

Desafios e Oportunidades Futuras:

Observei os grandes desafios enfrentados durante o projeto e identifiquei oportunidades de melhoria


para projetos futuros, como aprimoramento de habilidades técnicas, aprofundamento da
compreensão do problema ou exploração de novas áreas de aplicação.

3.1.1. Avaliação de reação da parte interessada


O propósito da avaliação no contexto do desafio do Titanic do Kaggle é entender a experiência e as
percepções das partes interessadas em relação ao projeto.Durante o projeto do desafio do Titanic
do Kaggle, adquiri várias habilidades técnicas relevantes para ciência de dados e aprendizado de
máquina. Algumas dessas habilidades podem incluir: Manipulação de Dados, Análise Exploratória de
Dados, Modelagem de Machine Learning, Interpretação de Resultados.

O impacto positivo na comunidade pode ser percebido de várias maneiras no contexto do desafio do
Titanic do Kaggle:Conscientização sobre Ciência de Dados,o projeto pode ter aumentado a
conscientização sobre ciência de dados e aprendizado de máquina na comunidade, destacando a
importância e a aplicação desses campos em problemas do mundo real,o desenvolvimento de
Habilidades,quem participa do projeto pode ter adquirido habilidades valiosas em análise de dados,
modelagem estatística e interpretação de resultados, o que pode ser aplicado em diversas áreas
além do desafio do Titanic e acolaboração e compartilhamento de conhecimento, o projeto pode ter
promovido a colaboração entre os participantes, permitindo-lhes compartilhar conhecimento,
experiências e recursos para resolver problemas complexos em equipe.

Durante o projeto do desafio do Titanic do Kaggle, enfrentei vários desafios, alguns dos quais
incluem:Entendimento do Problema: Compreender completamente o problema proposto pode ter
sido um desafio inicial, especialmente para aqueles que estão começando a se envolver com análise
de dados e aprendizado de máquina e o pré-processamento de Dados: que faz vo^cLidar com
valores ausentes, outliers e variáveis categóricas pode ter sido desafiador, exigindo técnicas
avançadas de pré-processamento de dados para garantir a qualidade e a relevância dos dados para
modelagem.
Por final enviamos nosso arquivo csv para analise de acurácia.

3.2. Relato de Experiência Individual (Pontuação específica para o relato


individual)
3.2.1. CONTEXTUALIZAÇÃO
Ebert Palmeira de Souza Silva : Minha participação no projeto do desafio do Kaggle do Titanic foi
uma experiência extremamente enriquecedora e gratificante. Como parte do projeto, tive a
oportunidade de aplicar meus conhecimentos teóricos em ciência de dados e aprendizado de
máquina em um cenário do mundo real, o que me proporcionou uma compreensão mais profunda
dos conceitos e técnicas envolvidos.Desde o início do projeto, fui envolvido em todas as etapas do
processo, desde a compreensão do problema até a interpretação dos resultados do modelo. Isso
incluiu a análise exploratória dos dados, o pré-processamento dos dados, a seleção e treinamento de
modelos de machine learning, e a avaliação da performance do modelo.

3.2.2. METODOLOGIA

Ebert Palmeira de Souza Silva : A experiência foi principalmente conduzida online.O acesso aos
recursos necessários, como conjuntos de dados e ferramentas de análise, também foi feito através da
internet. O período da experiência variou, mas geralmente durou duas semanas .

Detalhamento das Etapas da Experiência:

Entendimento do Problema: Comecei a experiência compreendendo completamente o problema


proposto pelo desafio do Titanic do Kaggle, que era prever a sobrevivência dos passageiros com base
em variáveis como idade, sexo, classe de passageiro, entre outros.

Exploração dos Dados:Realizei análises exploratórias dos dados fornecidos, examinando a distribuição
das variáveis, identificando padrões e outliers, e explorando relações entre as características dos
passageiros.
Pré-processamento de Dados: Tive que pré-processar os dados para prepará-los para modelagem, o
que incluiu tratamento de valores ausentes, codificação de variáveis categóricas e normalização de
variáveis numéricas.

Seleção e Treinamento de Modelos: Selecionei algoritmos de machine learning adequados para o


problema e treinaram esses modelos nos dados de treinamento, ajustando seus hiperparâmetros
conforme necessário para otimizar o desempenho.

Avaliação de Modelos: Avaliei a performance dos modelos utilizando métricas apropriadas para
problemas de classificação.

Interpretação de Resultados: Finalmente, interpretei os resultados do modelo para extrair insights


sobre quais características eram mais importantes na determinação da sobrevivência dos passageiros
do Titanic.

3.2.3. RESULTADOS E DISCUSSÃO:


Ebert Palmeira de Souza Silva : Minha expectativa ao participar do desafio do Kaggle do Titanic era
desenvolver minhas habilidades em ciência de dados e aprendizado de máquina, aplicando conceitos
teóricos em um problema do mundo real. A experiência resultou em um profundo entendimento do
processo de análise de dados e modelagem de machine learning. Consegui desenvolver e treinar
vários modelos com desempenho promissor na previsão da sobrevivência dos passageiros do Titanic.
Eu me senti incrivelmente empolgado e motivado durante toda a experiência. As descobertas e
aprendizagens foram numerosas, desde novas técnicas de pré-processamento de dados.

3.2.4. REFLEXÃO APROFUNDADA

Ebert Palmeira de Souza Silva:A experiência vivida durante o desafio do Kaggle do Titanic
proporcionou uma oportunidade única para aplicar a teoria apresentada em sala de aula de uma
maneira prática e significativa. Enquanto a teoria fornecia os fundamentos e os conceitos básicos de
ciência de dados e aprendizado de máquina, a experiência prática permitia a aplicação desses
conceitos em um contexto real e desafiador. Em contraste com a teoria, onde os conceitos muitas
vezes são apresentados de forma abstrata, a experiência prática permitiu uma compreensão mais
profunda e concreta dos mesmos.

3.2.5. CONSIDERAÇÕES FINAIS


Ebert Palmeira de Souza Silva :Ao trabalhar junto à parte interessada no desafio do Kaggle do Titanic,
há diversos outros aspectos que podem ser explorados e perspectivas para trabalhos futuros, tanto
em extensão quanto em pesquisa. Algumas sugestões incluem:

Extensão: Workshops e Treinamentos: Oferecer workshops ou treinamentos sobre ciência de dados e


aprendizado de máquina para outros membros da comunidade interessados em participar de desafios
semelhantes.

Divulgação de Resultados: Apresentar os resultados do projeto em conferências ou simpósios locais,


compartilhando insights e aprendizados com a comunidade acadêmica e profissional.

Pesquisa:
Aprofundamento da Análise: Realizar uma análise mais detalhada dos dados do Titanic, explorando
novas variáveis ou técnicas de modelagem para melhorar a precisão das previsões.

Estudos Comparativos: Comparar diferentes algoritmos de machine learning para o problema do


Titanic, investigando suas vantagens e limitações em diferentes cenários.

Generalização para Outros Contextos: Aplicar as técnicas e abordagens desenvolvidas no desafio do


Titanic a outros conjuntos de dados e problemas relacionados, explorando sua generalização e
aplicabilidade em diferentes domínios.

Soluções Tecnológicas Alternativas:


Utilização de Redes Neurais: Explorar o uso de redes neurais artificiais, como redes neurais
convolucionais ou redes neurais recorrentes, como alternativas aos métodos de machine learning
tradicionais.

Ensemble Learning: Implementar técnicas de ensemble learning, como o stacking ou o blending, que
combinam as previsões de vários modelos para melhorar a performance geral do sistema.

Essas são apenas algumas das possibilidades de trabalho futuro e soluções tecnológicas alternativas
que poderiam ser exploradas no contexto do desafio do Kaggle do Titanic

Você também pode gostar