Você está na página 1de 10

Universidade Metodista de Angola

Faculdade de Engenharia e Arquitectura


Curso de Engenharia Informática

Trabalho Prático de Armazenamento de Dados (AD)

Autores:

Adão Oneide de Assureira Alberto – 26.846

Jovelino Fernandes Tomás – 29.486

Victória Joana Albérico Bastos – 26.817

O Professor

Prof. MSc. Edivaldo Rodrigues João

Luanda, de Dezembro de 2021


Adão Oneide de Assureira Alberto, Jovelino Fernandes Tomás, Victória
Joana Albérico Bastos

Trabalho Prático de Armazenamento de Dados (AD)

Trabalho Prático apresentado à


Faculdade de Engenharia e Arquitectura,
junto ao Departamento de Engenharia
Informática, para conclusão e obtenção da
nota da 1ª frequência da cadeira de
armazenamento de dados, leccionada pelo
Professor Msc. Edvaldo Rodrigues João.

Luanda, 03 de Dezembro de 2021

ii
Índice
1. Apresentação ......................................................................................................................... 4
1.1 Introdução ..................................................................................................................... 4
1.2 Definição do Problema .................................................................................................. 4
1.3 Justificativa ................................................................................................................... 4
1.4 Objectivos .......................................................................................................................... 5
1.4.1 Objectivo Geral ................................................................................................................ 5
1.4.2 Objectivos Específicos ..................................................................................................... 5
1.5 Metodologias de Desenvolvimento ..................................................................................... 5
2. Aplicação Prática................................................................................................................... 6
Conclusão ...................................................................................................................................... 9
Bibliografia ................................................................................................................................. 10

iii
1. Apresentação

1.1 Introdução

Durante as aulas de Armazenamento de Dados, houve um acordo com o


Professor, na qual para a obtenção da nota da primeira frequência, os alunos seriam
submetidos a dois tipos de avaliação. Sendo uma teórica, realizada na sala de aula e a
outra uma avaliação prática em prol do que foi demonstrado na sala de aula.

Esse mesmo trabalho visa realizar tarefas de extracção, transformação e limpeza


(ETL) usando a ferramenta Pentaho Data Integration (PDI). Sendo assim, começamos
por definir e apresentar conceitos básicos sobre essa ferramenta.

O Pentaho Data Integration é uma suite completa de Business Intelligence (BI)


formada por um conjunto de softwares voltados para construção de soluções de BI de
ponta-a-ponta, que inclui programas de extrair os dados de sistemas de origem em uma
empresa, gravá-los em um data warehouse (ou base de dados), limpá-los, prepará-los e
entrega-los a outros sistemas de destino ou mesmo a outros componentes da suite para
estudar ou dar acesso aos dados ao usuário final. Basicamente ele é usado para criar
processos de extracção, transformação e carga.

1.2 Definição do Problema

A transferência de grandes volumes de dados entre diferentes sistemas, muitas


das vezes acaba gerando problemas quando este não é realizado da melhor maneira,
além do elevado tempo que o processo acarreta. No caso por exemplo de empresas que
efectuam comercio online (E-commerce) na necessidade de efectuar transferência dos
seus dados para outro sistema, para o negocio não ficar parado a base de dados de
origem deve permanecer operando enquanto o processo é realizado, por isso a escolha
de uma ferramenta que permite tal processo sem interromper a base de dados de origem
é estritamente necessário.

Como não estamos trabalhando com dados reais de nenhuma empresa, por
exemplo, partimos do pressuposto de que fomos contactados pelo Director de uma
Escola, para fazer a transferência dos dados de seus Alunos de uma base de dados para
outra. Quais dados devem ser extraídos? Como efectuar a transferência dos dados? Qual
é a origem dos dados? Qual será o destino final dos dados?

1.3 Justificativa

De acordo com as informações apresentadas na definição do problema, acredita-


se que a melhor ferramenta ao nosso dispor para realizar o processo de ETL dos dados
dessa escola é o Pentaho Data Integration.

4
1.4 Objectivos

1.4.1 Objectivo Geral

O objectivo deste trabalho é a realização do processo de ETL por intermédio do


Pentaho Data Integration, no qual devem ser aplicados um conjunto de conhecimentos e
técnicas que foram apresentadas na UC de Armazenamento de Dados (AD).

1.4.2 Objectivos Específicos

A partir do objetivo geral tem-se os seguintes objetivos específicos:

 Definir as fontes de dados


 Fazer a extração dos dados vindos da fonte
 Selecionar os dados que deverão ser tratados
 Fazer a padronização dos dados
 Efectuar a tranformação dos dados
 Efectuar a carga dos dados para outro local.

1.5 Metodologias de Desenvolvimento

Para o desenvolvimento deste trabalho, inicialmente foi realizado um estudo


sobre quais fontes de dados podemos usar e quais dados iremos usar a fim de reunir
informações necessárias para o suficiente entendimento das técnicas a serem utilizadas.

Após a conclusão dessa etapa, foram seleccionados os dados, vindo das fontes
de dados, que iriamos usar, em seguida foi realizado o processo todo de ETL.

Durante a implementação foram sendo realizadas testes como: o uso de jobs não
vistos em aula, e o facto de usarmos fontes de dados diferentes, fez com que antes da
implementação final pudéssemos realizar testes diferentes. Para a realização do trabalho
utilizamos respectivamente, uma planilha de dados do Microsoft Excel e uma Base de
Dados do Microsoft Access, o Pentaho Data Integration e o Mysql como local de
armazenamento final dos dados.

5
2. Aplicação Prática

Nessa secção são apresentados a estrutura das fontes de dados e


consequentemente todo o processo até o envio dos dados finais a base de dados.

Na imagem Abaixo é apresentado os dados pertencentes a planilha de dados do


Excel.

A seguir é apresentado os dados pertencentes a base de dados do Access

Apresentamos agora os dados inicias das duas fontes, dentro do pentaho:

6
Abaixo a segunda fonte de dados

Apresentaremos agora, uma tela do pentaho com todas as transformações que


foram realizadas.

Em seguida, temos uma tela de execução do pentaho exibindo os dados após


sofrem as transformações incluídas na imagem acima.

7
E para terminar com essa secção, mostraremos agora a imagem do Mysql com as
respectivas tabelas criadas pelo processo todo e também a exibição de uma das tabelas
com os dados já transformados.

8
Conclusão

Podemos concluir que a realização deste trabalho foi um sucesso, pois


conseguimos alcançar com os objectivos práticos solicitados pelo professor,
principalmente por conseguirmos usar fontes diferentes.

Mas também importa salientar que tivermos, sim, muitas dificuldades com maior
realce na união dos dados vindo de fontes diferentes. E essa dificuldade fez com que o
trabalho fosse mesmo enviado tarde e aproveitamos solicitar desculpas por ter enviado o
trabalho tarde.

Para terminar, o nosso muito obrigado pelo trabalho, pois aprendemos que é o
pentaho é uma ferramenta, realmente, muito poderosa e útil na extracção, transformação
e carga de dados.

9
Bibliografia

www.infoq.com/br/articles/pentaho-pdi

www.google.com/com/amp/s/managebi.com/2021/02/10/pentaho-filter-rows/amp

10

Você também pode gostar