Você está na página 1de 6

Departamento de Engenharias e Tecnologias

Mineração de Dados

2022/23 1º Semestre

Sistema de Recomendação- Filmes

Elaborado pelo Grupo nº 3


Budy Vieira - 20180811
Denise Celestino - 20171341

Rafael Ngunga - 20180163

Curso: Engenharia Informática


Turma: EINF9_M1

Docente: Bongo Cahisso

Data de Entrega do Trabalho: 11/11/2022


1. Introdução
À medida que ocorre o desenvolvimento da tecnologia da informação e da
Internet, as pessoas entram cada vez mais na era da sobrecarga de informação e da
deficiência de informação.

Na era da sobrecarga de informações, é muito difícil para os usuários obter


informações que eles estão realmente interessados. E para o provedor de conteúdo,
também é muito difícil para que eles façam seu conteúdo se destacar da multidão. É
por isso que muitos pesquisadores e empresas desenvolvem o Sistema de
Recomendação para resolver a contradição. A missão do Sistema de Recomendação
é conectar usuários e informações, que em uma forma ajuda os usuários a encontrar
informações valiosas para eles e de outra forma fornecer as informações para usuários
específicos.
2. Resumo
3. Esclarecimento sobre os dados
Para o Sistema de Recomendação foi utilizado um dataset com 45466 registos e
24 atributos.
Atributo Descrição Tipo de dado
adult Indica se o filme é de Boolean
classificação X ou adulto
belongs_to_collection Um dicionário de strings Object
que fornece informações
sobre a série de filmes à
qual o filme específico
pertence
budget O orçamento do filme em Float
dólares
genres Uma lista restrita de Object
dicionários que lista todos
os gêneros associados ao
filme
homepage A página oficial da String
mudança
id O ID do movimento Int
imdb_id O ID IMDB do filme Int
original_language O idioma no qual o filme String
foi originalmente filmado
original_title O título original do filme String
overview Uma breve sinopse do filme Text
popularity A pontuação de Float
popularidade atribuída pelo
TMDB
poster_path A URL da imagem do String
pôster
production_companies Uma lista restrita de Object
empresas de produção
envolvidas na produção do
filme
production_countries uma lista restrita de países Object
onde o filme foi
filmado/produzido
release_date Data de lançamento teatral Datetime
do filme
revenue a receita total do filme em Float
dólares.
runtime O tempo de execução do Int
filme em minutos
spoken_languages Uma lista restrita de Object
idiomas falados no filme
status o status do filme (lançado, a String
ser lançado, anunciado,
etc.)
tagline O slogan do filme Text
title O título oficial do filme String
video Indica se há um vídeo String
presente do filme com
TMDB
vote_average A classificação média do Float
filme
vote_count O número de votos dos Int
usuários, conforme contado
pelo TMDB
4. Objectivos

• Compreender a necessidade de pré-processamento de dados


• Aplicar técnicas de pré-processamento para limpeza
• Realizar a Coleta e integração dos dados
• Realizar a exploração e visualização dos dados

5. Perguntas Respondidas

6. Análise exploratória dos dados

7. Problemas encontrados

8. Limpeza e outras técnicas aplicadas


Para realizar a limpeza nos dados, foram utilizadas tecnologias como Python e
bibliotecas como Pandas e Numpy.
Na primeira fase, decidimos descartar/remover todos os atributos que seriam
irrelevantes para realizar a recomendação. Os atributos removidos por estas razões são
nomeadamente: adult, imdb_id, original_title, tagline, homepage.
O atributo vote_count foi removido por possuir um grau de correlação de 81% com o
atributo revenue. O atributo belongs_to_collection foi removido porque 40972 registos,
ou seja, 90% dos registos eram constituídos por valores nulos.
Para o atributo budget não foram encontrados valores nulos, porém, detetou-se 3
dados inconsistentes e valores discrepantes. Para a resolução deste problema foram
executados alguns processos:
• Tendo em conta que este atributo apenas admite valores do tipo float,
realizou-se um loop convertendo todos os valores para float. Desta forma,
onde se encontrar algum valor de tipo diferente o algoritmo irá adicionar o
valor nulo. Logo em seguida, converteu-se o tipo da tabela para float.
• Com relação aos valores discrepantes encontrados, notou-se por exemplo que
existiam 36573 registos, ou seja, 80% dos registos tinham o budget “0”.
Portanto, substituiu-se todos os valores abaixo de 1000000 (um milhão) para
null (para não influenciar no cálculo) e em seguida substituiu-se todos estes
valores pela média calculada.
Para o atributo genres detetou-se valores nulos em formas de arrays/objectos vazios
onde foi necessário acrescentar a expressão de array vazio (“[]”) para a biblioteca
Pandas o reconhecer como valor nulo.

9. Dados Pós-processados

10.Conclusão
Para a realização deste relatório,

Você também pode gostar