Você está na página 1de 7

02/09/2019 Usando Pentaho Data Integration, Jupyter e Python juntos | Divagações de tecnologia

Divagações de tecnologia
18 DE SETEMBRO DE 2018 · 9:03

Usando Pentaho Data Integration, Jupyter e Python


Juntos

As habilidades necessárias para operacionalizar uma solução de ciência de dados são normalmente divididas entre
engenheiros de dados e cientista de dados. É raro encontrar um único indivíduo com todas as habilidades necessárias para
criar e implantar uma solução de ciência de dados. Dê uma olhada no gráfico a seguir em uma postagem no blog do Stitch
Data:

Os cientistas de dados são ótimos no desenvolvimento de modelos analíticos para alcançar resultados comerciais específicos.
No entanto, são necessárias habilidades diferentes para implantar um modelo do ambiente de desenvolvimento do cientista
de dados para um ambiente de produção escalável. Para trazer uma solução baseada em ciência de dados para produção, as
seguintes funções são normalmente distribuídas entre cientistas de dados e engenheiros de dados:

Cientista de dados
Exploração de modelos
Seleção de modelo
Ajuste / treinamento do modelo
Engenheiro de Dados

https://hgovind.wordpress.com/2018/09/18/using-pentaho-data-integration-jupyter-and-python-together/ 1/7
02/09/2019 Usando Pentaho Data Integration, Jupyter e Python juntos | Divagações de tecnologia

Preparação / limpeza / normalização de dados


Mistura de dados
Solução de dimensionamento
Implantação, gerenciamento e monitoramento da produção

Você pode reduzir significativamente o tempo necessário para lançar uma solução de ciência de dados no mercado e
melhorar a qualidade da solução ponta a ponta, permitindo que cada tipo de desenvolvedor execute as tarefas para as quais é
mais adequado em um ambiente que melhor atenda às suas necessidades. necessidades. Ao usar o Pentaho Data Integration
com Jupyter e Python, os cientistas de dados podem gastar seu tempo desenvolvendo e ajustando modelos de ciência de
dados e os engenheiros de dados podem ser aproveitados para executar tarefas de preparação de dados. Ao usar todas essas
ferramentas juntas, é mais fácil colaborar e compartilhar aplicativos entre esses grupos de desenvolvedores. Aqui estão os
destaques de como a colaboração pode funcionar:

1. Permita que os engenheiros de dados executem todas as atividades de preparação de dados no PDI. Use o PDI para
executar as seguintes tarefas:
Utilize os conectores disponíveis para uma variedade de fontes de dados que podem ser facilmente configuradas
em vez de codificadas
Misture dados de várias fontes
Limpe e normalize os dados
Adapte conjuntos de dados para consumo pela aplicação do cientista de dados, implementando os seguintes tipos
de tarefas no PDI:
Engenharia de recursos
Análise estatística
Identificação de classes e preditores
Migre facilmente aplicativos PDI do ambiente de desenvolvimento para produção com o mínimo de alterações
Dimensione aplicativos com facilidade para lidar com volumes de produção de big data data

2. Permita que o cientista de dados use os dados preparados dos aplicativos PDI para alimentar os scripts Jupyter e
Python. Usando os dados preparados do engenheiro de dados, o cientista de dados pode se concentrar nas seguintes
tarefas no Jupyter / Python:
1. Exploração de Modelos
2. Ajuste do modelo
3. Treinamento de modelo
3. Compartilhe facilmente aplicativos PDI entre engenheiros de dados e cientistas de dados. A saída do aplicativo PDI
pode ser facilmente alimentada no Jupyter / Python. Isso reduz significativamente a quantidade de tempo que o
cientista de dados gasta nas tarefas de preparação e integração de dados.

Esta publicação demonstrará como usar essas ferramentas juntas.

Dependências
Requisitos Pentaho:

O Pentaho PDI 8.1+ precisa ser instalado na mesma máquina que o ambiente de execução Jupyter / Python.
Servidor Pentaho com serviço de dados Pentaho. O servidor Pentaho pode estar executando remotamente em um
ambiente compartilhado ou localmente em sua máquina de desenvolvimento. A transformação PDI desenvolvida
usando o Pentaho Data Service deve ser armazenada no Pentaho Server, conforme exigido pelo recurso Pentaho Data
Service. Para detalhes sobre o Pentaho Data Service, consulte os documentos de ajuda do Pentaho aqui .

https://hgovind.wordpress.com/2018/09/18/using-pentaho-data-integration-jupyter-and-python-together/ 2/7
02/09/2019 Usando Pentaho Data Integration, Jupyter e Python juntos | Divagações de tecnologia

A configuração do ambiente Jupyter e Python está além do escopo deste artigo. No entanto, você precisará garantir que as
seguintes dependências sejam atendidas no seu ambiente:

Python 2.7.x ou Python 3.5.x


Jupyter Notebook 5.6.0+
Dependências JDBC do Python, como JayDeBeApi e jpype

Como usar PDI, Jupyter e Python juntos


1. Implemente toda a sua conexão de dados, mistura, filtragem e limpeza na PDI e armazene-a no servidor Pentaho (servidor
local ou servidor remoto compartilhado):

2. Use o recurso Serviço de Dados da PDI para exportar linhas da transformação da PDI para o Jupyter. Crie um novo serviço
de dados e teste na interface do usuário.

https://hgovind.wordpress.com/2018/09/18/using-pentaho-data-integration-jupyter-and-python-together/ 3/7
02/09/2019 Usando Pentaho Data Integration, Jupyter e Python juntos | Divagações de tecnologia

3. No Jupyter Notebook, implemente o seguinte como script Python. Primeiro, você incluirá as bibliotecas PDI apropriadas e,
em seguida, criará uma conexão com o PDI Data Service. Em seguida, o script se conecta ao PDI Data Services. O script de
exemplo abaixo pressupõe que você instalou o Pentaho Server em sua máquina local. Se você estiver executando o Pentaho
Server em um servidor compartilhado remoto, altere as informações de conexão JDBC adequadamente.

4. No script Python do Jupyter Notebook, recupere todas as linhas da conexão do PDI Data Service e atribua-as a um quadro
de dados do Python Pandas.

5. Agora que você possui os dados que foram preparados em sua transformação PDI em um Python Data Frame, é possível
experimentar os dados usando vários modelos, bibliotecas e mecanismos de ciência de dados Python (como SciKit,
TensorFlow e MATLAB). O exemplo abaixo mostra a árvore de decisão SciKit.

https://hgovind.wordpress.com/2018/09/18/using-pentaho-data-integration-jupyter-and-python-together/ 4/7
02/09/2019 Usando Pentaho Data Integration, Jupyter e Python juntos | Divagações de tecnologia

https://hgovind.wordpress.com/2018/09/18/using-pentaho-data-integration-jupyter-and-python-together/ 5/7
02/09/2019 Usando Pentaho Data Integration, Jupyter e Python juntos | Divagações de tecnologia

O aplicativo PDI acima e o código Jupyter / Python estão disponíveis aqui .

Compartilhar isso:

 
Like
Be the first to like this.

Relacionado

Como obter contadores


Hadoop em aplicativos PDI
Em "Big Data"

Desenvolvimento Visual da
Pentaho para Spark
no "Adaptive Execution
Engine"

Como criar relatórios


personalizados usando dados
do MongoDB
No "Big Data"

https://hgovind.wordpress.com/2018/09/18/using-pentaho-data-integration-jupyter-and-python-together/ 6/7
02/09/2019 Usando Pentaho Data Integration, Jupyter e Python juntos | Divagações de tecnologia

https://hgovind.wordpress.com/2018/09/18/using-pentaho-data-integration-jupyter-and-python-together/ 7/7

Você também pode gostar