Você está na página 1de 18

ISSN 1984-9354

APLICAÇÃO DO PROCESSO DE DESCOBERTA DE


CONHECIMENTO EM BASE DE DADOS AGRÍCOLA PARA
RECONHECIMENTO DE FATORES QUE IMPACTAM NA
PRODUTIVIDADE DA CANA-DE-AÇÚCAR

Área temática: Gestão da Produção

Ederson Garcia
ederson.garcia@maxit.com.br
Luiz Camolesi Jr
camolesi@ft.unicamp.br

Resumo: A pesquisa pelo aumento na produtividade é constante nas empresas agrícolas que produzem cana de
açúcar, assim como é crescente o apelo pela preservação do meio ambiente. Este artigo apresenta, através do processo
de descoberta de conhecimento em bases de dados, um método sistemático de classificação dos fatores que impactam a
produtividade de forma que o agricultor possa identificar e atacar os pontos que causam os maiores impactos e que
podem trazer os maiores retornos. Neste processo foi utilizada a técnica de Árvore de Decisão em que são
apresentados os fatores que mais influenciam na produtividade agrícola. Na experimentação foram usados os dados da
safra 2014/2015 de quatro usinas da região de São Jose do Rio Preto.

Palavras-chaves:. Produtividade de Cana de Açúcar; Gestão do Processo de Colheita Agrícola;


Descoberta de Conhecimento em bases de dados; Mineração de dados;
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
13 e 14 de agosto de 2015

1. Introdução
O agronegócio é um importante setor para a economia do Brasil. A cana-de-açúcar, por sua
vez, possui uma cadeia de produção que é um dos destaques do agronegócio brasileiro e que segundo o
Procana, a cadeia foi responsável por aproximadamente 2% do PIB nacional e por 31% do PIB da
agricultura no Brasil em 2012, tendo empregado cerca de 4,5 milhões de pessoas.
Segundo o (CEPEA; 2014) “O Agronegócio é um setor estratégico para a economia brasileira
e, especialmente em 2015, pode ser o grande condicionante do seu desempenho. Representando 23%
do PIB brasileiro, ele pode ser o único setor com crescimento mais expressivo diante da indústria
claudicante e dos serviços em processo de exaustão.”
O setor passa por dificuldades econômicas e por isso é necessário investir no aumento da
produtividade, em que o objetivo é a eficiência em produzir mais no mesmo espaço físico. Neste
sentido, órgãos como o BNDES, FINEP e FAPESP têm investido em tecnologias inovadoras através
de programas como o PAISS (FINEP), o Inova Agro (BNDES), entre outros.
Este artigo aborda como o processo de descoberta de conhecimento em base de dados pode
ajudar a entender os fatores de impacto na produtividade e ajudar a melhorar os processos produtivos
envolvidos.

1.1 Objetivo
Com o aumento da preocupação com a preservação do meio ambiente, aliada a necessidade da
produção de açúcar, álcool e energia elétrica, uma das alternativas é o investimento no aumento da
produtividade agrícola, isto é, produzir mais cana-de-açúcar na mesma área física, ou em uma área
menor ter a mesma produção. Com isso, faz-se uma racionalização do uso dos recursos naturais e
também uma diminuição dos custos com terras pelos produtores rurais.
Por exemplo, no local onde se tem uma usina de tamanho médio que moi 2.000.000 de
toneladas de cana por safra com uma produtividade média de 75 toneladas por hectare são necessários
aproximadamente 26.667 alqueires de terra. Se a produtividade aumentar em 5% para 78,8 toneladas
por hectare, serão necessários aproximadamente 25.397alqueires, isto é, 1.270 hectares podem ser
usados para outros fins. Por outra perspectiva, pode-se produzir na mesma área 100.000 toneladas de
cana a mais com praticamente os mesmos gastos fixos. Eleva-se, desta forma, os lucros em mais que
5% pois os custos fixos se mantem praticamente os mesmos.
O objetivo deste artigo é descrever a pesquisa realizada que aplicou o processo de descoberta
de conhecimento em base de dados (Knowledge Discovery in Databases - KDD) para auxiliar o
produtor rural a aumentar sua produtividade sem a necessidade de se aumentar a área plantada. O

2
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
13 e 14 de agosto de 2015

processo KDD envolveu a utilização da técnica de Classificação em mineração de dados,


particularmente na produção de Árvores de Decisão para o reconhecimento dos fatores envolvidos na
produção de açúcar a álcool que apresentam maior impacto na produtividade.
Adicionalmente, esse trabalho apresenta requisitos e resultados experimentais para promover o
desenvolvimento de um software específico para o setor agrícola que permita diagnosticar a situação
da lavoura, através dos dados, de modo que o produtor rural, de forma fácil e intuitiva, consiga usar
com certa facilidade o processo de descoberta de conhecimento e por consequência consiga usar os
diagnósticos para melhorar a produtividade da lavoura.

1.2 Metodologia
A metodologia utilizada nesta pesquisa é baseada no processo de descoberta de conhecimento
em base de dados, conhecido como Knowledge Discovery in Databases (KDD), o qual é dividido em
cinco etapas principais: Seleção dos dados brutos; Pré-processamento dos dados selecionados;
Transformação dos dados pré-processados; Mineração dos dados transformados e Interpretação e
Avaliação dos padrões encontrados pela mineração.
Para aplicação desta pesquisa foi selecionada a empresa Noble Agri sendo uma organização de
grande porte que conta com quatro usinas de açúcar e álcool no Brasil situadas na região noroeste do
estado de São Paulo, nas cidades de Meridiano, Sebastianópolis do Sul, Potirendaba e Catanduva.
Para seleção dos dados usados no processo, foram realizadas seções com a equipe da
organização envolvida no cotidiano da produção agrícola, para recolhimento de experiências sobre os
fatores (variáveis) de influência na produtividade agrícola. Como resultado, foram apontados diversos
fatores (variáveis) com diferentes graus de impactos e facilidade de manejo, descartando-se aqueles
que não podem ser operados. Por exemplo, a precipitação pluviométrica impacta fortemente na
produtividade da cana, porém não é possível seu manejo, por outro lado, a aplicação de insumos de
forma adequada impacta na produtividade e é possível de ser manejada.
Com as variáveis selecionadas, analisaram-se quais destas estariam contempladas nos sistemas
de informação em uso. A organização utiliza-se do sistema ERP de gestão agrícola e deste foram
analisadas quais as tabelas de dados e colunas possuíam dados relevantes. Para acesso a estes dados foi
desenvolvido um extrator desses dados e modelado uma base de dados para os dados pré-processados.
Partindo dos dados pré-processados, foi realizada a mineração de dados aplicando-se a técnica
de Árvore de Decisão utilizando-se do algoritmo J48 do Weka (HALL et al., 2009). O J48 é uma
implementação em Java do algoritmo C4.5 (QUINLAN, 1993) que gera Árvores de Decisão a partir de
um conjunto de dados de treinamento. A cada nó, o algoritmo determina o atributo que é mais

3
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
13 e 14 de agosto de 2015

eficientemente para subdividir o conjunto das amostras em subconjuntos homogêneos. Para determinar
o atributo mais eficiente o critério usado pelo J48 é o ganho da informação definido em (QUINLAN,
1993; HALL et al., 2009).

2. Gestão de Colheitas de Cana-de-açúcar


O processo de produção de cana-de-açúcar comumente é dividido em 4 grandes etapas,
envolvendo a menor unidade de área de terra no manejo para a cultura de cana-de-açúcar é
denominada talhão, que são: reforma, plantio, trato e colheita. Na etapa de reforma são feitas as
operações para a retirada da cultura que está plantada no local. No plantio são realizadas as operações
para a plantação da cana-de-açúcar. Na etapa de trato são feitas as operações para tratamento da área
para dar melhores condições de crescimento para a cana, sendo geralmente dividida em trato de cana
planta que é o trato feito após o plantio e trato de cana soca, que é o trato feito após a colheita. Na
etapa de colheita são realizadas as operações de colheita de cana e entrega à usina. Geralmente são
feitas cinco colheitas (corte) em um ciclo de plantio. Na Figura 1 é representado um ciclo de três cortes
na linha do tempo.

1º corte 2º corte 3º corte


Reforma Plantio Trato Planta Colheita Trato Soca Colheita Trato Soca Colheita

Tempo 12 meses ou 12 meses após 12 meses após


18 meses após o corte anterior o corte anterior
o plantio

Figura 1 - Ciclo da cultura de cana de açúcar.


Na etapa de trato são aplicados os insumos como adubos, herbicida, inseticida, maturadores,
etc. A adubação é realizada com base em uma recomendação agronômica feita por um engenheiro
agrônomo, com base em análises de solo do local. Essa recomendação indica a necessidade de
reposição de nitrogênio (N), fósforo (P) e potássio (K) no solo para que a cana possa se desenvolver e
ser viável economicamente. O engenheiro agrônomo indica uma fórmula de adubo (N-P-K) para cada
local e uma dose recomendada dessa fórmula por hectare, ideal de acordo com as análises de solo
apontando os nutrientes que a cultura de cana-de-açúcar necessita.
A etapa de colheita é executada em 3 ou 4 dias em média, dependendo do tamanho do talhão. A
colheita é planejada de acordo com algumas restrições, como: capacidade de moagem diária da
indústria; capacidade de corte; carregamento e transporte da empresa e melhor época de colheita de
cada variedade de cana. Para a usina, a época de colheita é a época de produção de energia, açúcar e
álcool, considerando as restrições acima, e varia de acordo com a região. No centro oeste do estado de

4
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
13 e 14 de agosto de 2015

São Paulo essa época ocorre entre abril e dezembro ou de maio a novembro, dependendo da
quantidade de cana à ser processada.
A usina possui uma capacidade de processamento limitada, por isso a área agrícola precisa
colher de forma constante e continua durante todo o período da safra. Dessa forma a entrega de
matéria-prima precisa manter sempre a usina perto de seu limite de processamento, durante o período
de safra. Se o processo é interrompido por falta de matéria-prima, tem-se um custo alto, pois as
pessoas estão disponíveis para o trabalho, mas a indústria está parada, além de interromper a
fabricação de energia elétrica, açúcar e álcool.
Na etapa da colheita existem diversas medidas importantes para o gerenciamento da área
agrícola, entre elas destacam-se a produção de cana, a qualidade da cana (que é a medida do teor de
sacarose da cana) e a produtividade da cana que é a produção dividida pela área. No centro oeste de
São Paulo a medida de área mais comum é o hectare que equivale a 10.000 m sendo a produtividade
expressa por TCH (Tonelada de Cana por Hectare).
O ATR (Açúcar Total Recuperável) é uma das principais medidas de qualidade da cana-de-
açúcar. ATR é resultado de uma análise laboratorial que mede a qualidade da cana. O ATR representa,
resumidamente, a quantidade de quilos de açúcar que é possível extrair em uma tonelada de cana.
Portanto, se temos uma área em que a cana analisada está representando o ATR de 135, tem-se que,
com uma tonelada dessa cana é possível fabricar 135 quilogramas de açúcar.

Assim, o ATR representa quantos quilos de açúcar é possível extrair de uma tonelada de cana e
é calculado por meio da fórmula: 9,5263 x PC + 9,05 x ARC, onde os valores de PC e ARC são
fórmulas que envolvem valores obtidos através de análises de laboratório da cana-de-açúcar. As
normas dessas análises são determinadas pelo CONSECANA-SP (Conselho dos Produtores de Cana-
de-Açúcar, Açúcar e Álcool do Estado de São Paulo). Dessas análises são extraídas várias medidas
como BRIX, POL, PC, FIBRA, AR, ATR. (CONCECANA; 2007).

Cada variedade de cana tem sua curva de maturação padrão para o primeiro corte e para os
demais e, de acordo com essa curva, a variedade de cana pode ser precoce, normal ou tardia. Na Figura
2 é apresentada a curva de maturação da variedade de cana RB83-5486, para o primeiro corte de 12
meses.
Com base na curva de maturação e na produtividade é feito o planejamento de colheita para
todos os talhões, considerando as restrições de capacidade diária de moagem da usina, capacidade das

5
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
13 e 14 de agosto de 2015

frentes de corte e transporte, área com aplicação de maturador, distância, período de colheita, e demais
restrições consideradas no planejamento.
Diversos fatores influenciam na qualidade da cana. Alguns desses fatores estão relacionados
com as características das variedades, época de colheita, idade da cana, etc. A princípio, a aplicação de
insumos e fertilizantes não afetam a qualidade da cana e sim a quantidade de cana produzida. Por isso
é comum empresas trabalharem com a curva de maturação da variedade para tirar o melhor rendimento
das variedades plantadas.
ATR

Mês

Figura 2 - Curva de maturação da variedade RB83-5486

Parte da materia-prima entregue à industria tem origem nos fornecedores. Por isso, os fornecedores de
tem um papel importante no processo de colheita, pois ele compõem a produção que será entregue a
industria. Os fornecedores recebem de acordo com a quantidade de cana entregue e também de acordo
com a qualidade da cana entregue (ATR).
Desse modo, quanto maior a sua produção em toneladas de cana e melhor sua qualidade em
(ATR), maior será o valor pago ao fornecedor. Como o pico de maturação ocorre nos meses de julho,
agosto e setembro para a maioria das variedades de cana e para evitar que todo fornecedor entregue
nesse periodo, foi criado o ATR relativo. Assim, o fornecedor recebe pela média do ATR da usina, ao
invés de receber pela média do ATR.
3. Descoberta de Conhecimento em Bases de Dados
A busca por padrões em bases de dados é objeto de pesquisa desde a década de 90 quando
criaram um algoritmo para buscar dados em relações de produtos comprados em uma mesma compra e

6
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
13 e 14 de agosto de 2015

desde então muitos foram os avanços em descobertas de conhecimento em bases de dados


(AGRAWAL; IMIELINSKI; SWAMI, 1993).
Esses dados, transformados em conhecimento através da descoberta de conhecimento em bases
de dados, trazem vantagens competitivas para o mundo corporativo com uma abordagem
multidisciplinar e de horizontes a serem desvendados nos mais diversos aspectos dos dados, desde o
agrupamento destes até as descobertas usando aprendizado de máquina.
O processo de descoberta de conhecimento em base de dados ou simplesmente KDD
(Knowledge Discovery in Databases) explora todos os aspectos que levam ao conhecimento extraído a
partir de uma base de dados, e pode ser dividido em diversas etapas que vão desde a limpeza e
integração dos dados até a avaliação de padrões e apresentação dos conhecimentos gerados, passando
pela etapa da Mineração dos Dados.
Na Figura 3 tem-se uma representação do processo de descoberta de conhecimento mostrando a
sequencia das etapas. Na Figura 4 tem-se uma descrição resumida de todas as etapas do processo de
descoberta do conhecimento segundo (HAN; KAMBER 2011).

Figura 3 - Processo de Descoberta de Conhecimento em BD (adaptação de HAN; KAMBER 2011)


O processo é composto por sete etapas segundo (HAN; KAMBER, 2011), sendo que para cada
etapa existem diversas técnicas para serem trabalhadas. O processo inicia-se com a etapa de seleção
dos dados a serem trabalhados, seguido da limpeza desses dados tirando os dados inconsistentes ou
imputando dados faltantes. Após a limpeza, os dados precisam ser integrados e compatibilizados e
transformados para dar início a etapa de mineração dos dados, que consiste em aplicar algum
algoritmo para extrair o conhecimento desses dados. Após a mineração dos dados, é necessário fazer
uma avaliação dos padrões gerados pela mineração e finalmente é possível a apresentação de
resultados.

7
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
13 e 14 de agosto de 2015

Etapa Objetivo
1 Seleção de dados Buscar os dados relevantes à tarefa de análise
2 Limpeza de dados Eliminar dados inconsistentes e/ou com ruídos.
3 Integração de dados Compatibilizar os dados de múltiplas origens
Transformar os dados para o formato apropriado para a
4 Transformação de dados
tarefa de mineração
Extrair conhecimento através de mecanismos inteligentes
5 Mineração dos dados.
de extração
Identificar se o padrão extraído é realmente um
6 Avaliação dos padrões.
conhecimento, baseado em medidas de interesse.
Apresentar o conhecimento minerado usando técnicas
7 Apresentação do Conhecimento
adequadas de representação.

Figura 4 - Etapas do Processo de KDD

4. Trabalhos Relacionados
Existem alguns poucos trabalhos relativos à utilização da mineração de dados aplicados à
agricultura para geração de Árvores de Decisão. Podemos citar: Cintra (2012) que utiliza lógica fuzzy
para criar uma Árvore de Decisão com predição de alerta de ferrugem no café em plantações no Brasil;
Girolamo, (2014) que usa redes neurais artificiais e Árvore de Decisão para criar uma predição de
infestação de ferrugem no café; e Giasson (2013) que avalia cinco algoritmos de Árvores de Decisão e
três tipos de modelos digitais de elevação para mapeamento digital de solos na Bacia do Lageado
Grande (RS).
A utilização de mineração de dados na cultura de cana-de-açúcar tem alguns poucos trabalhos
como em (SOUZA et al. 2010), que faz uma análise dos atributos do solo e da produtividade da cultura
de cana-de-açúcar com o uso da geoestatística e Árvore de Decisão. Ainda, Garcia e Vieira (2008) que
apresentam uma técnica de mineração de dados multi-relacional para um problema semelhante ao
apresentado, contudo a relação desse trabalho estava voltada para o confronto de ganhos e perda em
relação ao esperado.

5. O Processo de Classificação dos Fatores que Impactam a Produtividade


A abordagem empregada nesta pesquisa para geração de Árvore de Decisão na identificação de
regras de classificação de produtividade baseado em dados sobre colheita foi baseada no processo de
KDD, visto que é um método bastante consolidado na área de tecnologia. Esta seção apresenta os
passos percorridos durante este processo, desde a seleção e preparação dos dados brutos do processo
de colheita, passando pela etapa de mineração dos dados pré-processados, até a fase de análise dos
resultados preliminares obtidos.

8
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
13 e 14 de agosto de 2015

5.1. Pré-processamento dos dados


A aplicação das técnicas de mineração de dados tem como premissa que os dados a serem
pesquisados estejam pré-selecionados, uniformes, normalizados, centralizados e com um nível
satisfatório de completude. Todas essas atividades de preparação dos dados visam, sobretudo, otimizar
a significância e a confiabilidade dos resultados gerados na etapa de mineração.
Nessa pesquisa, a etapa de pré-processamento compreendeu atividades para seleção,
transformação, centralização, imputação e discretização dos dados, as quais serão apresentadas nas
próximas seções.

5.1.1. Seleção e Limpeza dos Dados


O conjunto de dados a ser analisado foi selecionado com base em critérios gerais, relacionados
a aspectos mais abrangentes dos dados, e critérios específicos, associados a características mais
peculiares dos dados. A seguir, os critérios gerais e as respectivas descrições de como foram aplicados:
Critérios gerais para seleção dos dados:

 Dados de produção de cana de açúcar das 4 usinas na safra 2014/2015

 Dados das características dos locais de produção da safra 2014/2015;

Os critérios específicos para seleção dos dados levaram em conta especialmente a questão da
completude, uma das premissas básicas para que a etapa de mineração de dados seja bem sucedida.
A seguir, são apresentados cada um dos critérios específicos empregados na seleção dos dados.

Critérios específicos para seleção das colheitas:

 Somente dados dos locais que tiveram produtividade válida (acima de 10 Toneladas de
Cana por Hectare (TCH) e abaixo de 300 TCH).
 Somente dados dos locais com o valor do ATR válido entre 20 e 200.
Na tabela de histórico de produção que contem a sumarização da colheita dia-a-dia haviam
95.005 registros, depois de sumarizados por talhão, ficou com 18.973 registros da base de dados e após
a aplicação destes critérios, foram excluídos 1.373 (7,2% do total). Considerados os pontos com maior
riqueza e uniformidade de dados.

Critérios específicos dos parâmetros nas colheitas:

 Somente parâmetros cujas frequências tenham valor válido, isto é, diferente de nulo e
diferente de “A Definir” maior que 50% em relação a base toda.

9
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
13 e 14 de agosto de 2015

Como resultados destes critérios, foram selecionados 27 parâmetros para comporem a análise
dos dados, que estão descritos da Tabela 1. A aplicação destes critérios específicos, dos 27
parâmetros, resultou na seleção de 14 parâmetros, 13 parâmetros foram excluídos da análise por terem
menos de 50% de frequência com valores válidos (diferente de nulo e diferente de “A Definir”).
Permaneceram os parâmetros: ambiente de produção, ciclo de desenvolvimento, empresa,
espaçamento, estágio, frente de Transporte, grupo de estágio, grupo do tipo de propriedade, sistema de
colheita, tipo de propriedade, tipo de maturação, unidade administrativa, unidade industrial, variedade
de cana. Este último critério eliminou aproximadamente 48% dos parâmetros, considerados sem
valores consistentes para o processo de mineração de dados.
Classificação do ambiente de solo variando
Modo como foi cultivada a cana,
Ambiente Produção de A a F de acordo com sua produtividade Sistema Cultivo
Cultivo Convencional, sem cultivo...
potencial.
Tipo do ciclo de desenvolvimento da cana,
Ciclo Desenvolvimento se cana de ano, cana de ano e meio, cana Sistema Drenagem Modo de drenagem do local
de meiose...
Classe de declividade do solo de acordo Modo de irrigação do local,
Classe Declividade Sistema Irrigação
com seu % de inclinação do solo gotejamento, não irrigado...

Classe de fertilidade do solo em fornecer Modo como foi plantada a cana,


Classe Fertilidade Sistema Plantio
nutrição a cana mecanizado, convencional...

Empresa Empresa responsável pelo talhão Textura Textura do Solo, areiosa, argilosa...
Espaçamento entre linhas de plantação de Tipo de maturação da cana,
Espaçamento Tipo Maturação
cana precoce, tardia...
Classificação do tipo de solo,
Estágio de corte da cana, variando entre
Estágio Tipo Solo latossolo, latossolo roxo,
planta 12 meses, 2º corte, 3º corte...
eutrófico...
Tipo de terraceamento feito,
Frente Frente que transportou a cana Tipo Terraço
embutido, base larga...
Agrupamento de estágios, como Cana Topografia do terreno, ondulada,
Grupo Estágio Topografia
Planta, Cana Soca, reforma... suave, plana...
Agrupamento do tipo de propriedade, Trafegabilidade do local, boa,
Grupo Tipo Propriedade Trafegabilidade
Própria, Fornecedor... ruim...
Distribuição das regiões
Distribuição das áreas de acordo com um
Modulo ADM Unidade ADM administrativos de acordo com um
responsável
responsável
Procedência Muda Descrição da origem da muda da área Unidade Industrial Usina que processou a cana

Distribuição dos módulos administrativos Variedade da cana, CTC12, IACSP 95,


Região ADM Variedades
de acordo com um responsável CV7231...
Modo como foi colhida a cana, manual,
Sistema Colheita
mecanizado...

Tabela 1 – Parâmetros selecionados

10
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
13 e 14 de agosto de 2015

5.1.2. Integração dos Dados

Os dados selecionados de uma base de dados relacional do ERP em um sistema gerenciador de


banco de dados Oracle foram limpos, sumarizados, transformados e carregados por meio de um
processo de extração, transformação e carga (ETL – Extract, Transform and Load).
Estes dados foram integrados em um Data Warehouse Relacional (Oracle) sumarizado de
forma a ter os atributos selecionados com os valores de ATR (açúcar total recuperado) e do TCH
(tonelada de cana por hectare), os dados com valores contínuos como o ATR e o TCH foram
sumarizados. Na tabela de histórico de produção, continham os dados de produção dia-a-dia com os
valores das toneladas de cana colhida e do ATR totalizando 95.005 registros, na tabela de talhões há a
área dos talhões em hectare (ha), os dados foram sumarizados por talhão, depois de sumarizados a
tabela resultante ficou com 18.973 registros, contendo os dados de produção, dos talhões e demais
parâmetros referentes à produção e características do talhão, como tipo de solo, ambiente de produção
entre outros.
Depois de carregado, os dados foram exportados para um arquivo texto em formato adequado
para importação no WEKA (ferramenta de Mineração de Dados) como representado na Figura 5.

ERP – Oracle Oracle


ETL
Relacional Dimensional

Seleção, Limpeza,
Transformação,
sumarização e Carga

Conversão dos dados


para o Formato do
WEKA

ARFF

Carregamento no
WEKA

Figura 5 - Processo de integração dos dados.


Sumarização dos dados.

11
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
13 e 14 de agosto de 2015

5.1.3. Transformação dos Dados - Discretização


Normalmente, os mecanismos de classificação requerem que os atributos contínuos sejam
categorizados por meio de valores discretos, processo denominado discretização. De acordo com Tan
et al. (2009), a melhor abordagem de discretização é aquela que produz o melhor resultado para a
técnica de mineração de dados a ser utilizada. A conversão de um atributo contínuo em discreto
envolve duas tarefas: definir quantas categorias devem existir e como será feito o mapeamento dos
valores contínuos para os valores discretos.
O objetivo do trabalho é destacar quais são os maiores influenciadores do ATR e TCH, positiva
e negativamente, e para isso a discretização dos dados foi realizada utilizando-se de estatística
descritiva por meio da distribuição das frequências de quartil. Estabelecendo 4 faixas de valores tanto
para o ATR quanto para o TCH, com descrição de “Baixo”, “Médio Baixo”, “Médio Alto” e “Alto”,
sendo o “Baixo” do valor mínimo até o primeiro quartil, o “Médio Baixo” do primeiro quartil até a
mediana, o “Médio Alto” da mediana até o terceiro quartil e o “Alto” do terceiro quartil até o valor
máximo, sendo do ATR conforme Figura 6.

Histograma do ATR
FAIXAS DE ATR
Baixo >= 21.62 < 124.10
Médio Baixo >= 124.10 < 137.20
Médio Alto >= 137.20 < 146.90
Alto >=146.90 <= 190.60

Figura 6 - Discretização do ATR

O TCH também foi discretizado com a mesma técnica e está apresentado na Figura 7.

Histograma do TCH FAIXAS DE TCH


Baixo >= 10.00 < 51.79
Médio Baixo >= 51.79 < 68.78
Médio Alto >= 68.78 < 88.23
Alto >=88.23 <= 299.00

Figura 7 - Discretização do TCH

12
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
13 e 14 de agosto de 2015

6. Resultados

Para configurar o processamento da classificação e visualizar os resultados gerados por este


processamento, foi utilizado o Weka 3.6 uma ferramenta desenvolvida em Java, de código aberto, da
Universidade de Waikato (WEKA; 2015), que contempla uma série de algoritmos de mineração e de
validação de resultados.
6.1 – Resultados - ATR
Para o processamento dos dados foi utilizado o algoritmo J48 do Weka, que gera Árvores de
Decisão, em que, a cada nó o algoritmo determina o atributo que é mais eficientemente para subdividir
o conjunto das amostras em subconjuntos homogêneos.
Nesse caso foi usado o ATR como atributo alvo para a criação da árvore.
Abaixo a árvore gerada pelo J48.
TIPO DE PROPRIEDADE = Fornecedor Esteira: ATR Alto (1957.0/1205.0)
TIPO DE PROPRIEDADE = Própria: ATR Baixo (12.0/1.0)
TIPO DE PROPRIEDADE = Fornecedor Campo: ATR Normal Acima (1254.0/840.0)
TIPO DE PROPRIEDADE = Arrendado: ATR Normal Abaixo (4232.0/3021.0)
TIPO DE PROPRIEDADE = Cana Spot Campo: ATR Alto (125.0/27.0)
TIPO DE PROPRIEDADE = Parceria: ATR Baixo (4028.0/2868.0)
TIPO DE PROPRIEDADE = Cana Spot Esteira: ATR Normal Acima (126.0/85.0)

Na Figura 8 e apresentado a árvore em forma de um diagrama.

Tipo
Propriedade

ATR Médio ATR Médio


ATR Baixo ATR Alto
Baixo Alto

Figura 8 - Representação da árvore gerada para ATR


O algorítmo gerou como maior influenciador na distribuição do ATR, o tipo de propriedade do
local de produção (talhão). Percebe-se que os locais com tipo de propriedade “Parceria” tendem a ter
um “ATR Baixo” e os locais com tipo de propriedade “Fornecedor Esteira” tendem a ter um “ATR
Alto”.

13
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
13 e 14 de agosto de 2015

Ao apresentar esses resultados aos colaboradores, a principal indagação é o porquê dos locais
geridos pela empresa (“Parceria” e “Arrendado”) terem pior ATR em relação aos locais geridos pelos
fornecedores? (“Cana Spot Esteira”, “Fornecedor Campo”, Fornecedor Esteira” e “Cana Spot
Campo”). Uma das suposições levantadas para esse comportamento é de que como a empresa precisa
ter um fluxo continuo e constante de entrega de matéria prima (cana-de-açúcar) para a industria e a
curva de maturação da cana de açúcar tem seus picos de valores de ATR nos meses de Julho, Agosto e
Setembro, os fornecedores tendem a entregar suas canas nesses meses, as canas próprias da usina são
entregues nos meses em que tem baixa demanda de cana de fornecedores, desse modo há um
detrimento da qualidade da cana própria em favor da entrega da cana de fornecedor. Mesmo o
fornecedor recebendo pelo ATR Relativo ele tende a entregar nessses meses.
Considerando esse cenário percebido, para melhorar o ATR global das usinas nesse caso, um
plano de ação possivel é fazer o planejamento da colheita da safra, englobar os dados dos fornecedores
de modo a se ter um melhor ATR global independentemente se a cana é própria ou de fornecedor,
dessa forma o ATR global seria maior e como os fornecedores ganham por ATR relativo todos
ganhariam.
Alterando-se os parâmetros do algorítmo para aumentar o nivel da árvore, tem-se uma árvore
de dois níveis conforme apresentado na Figura 9

Grupo Tipo
Propriedade

Empresa ATR Alto

ATR Médio ATR Médio


ATR Baixo
Baixo Alto

Figura 9 - Representação da árvore gerada para ATR com dois níveis;


É possivel notar que o algorítmo classificou por grupo de tipo de propriedade, separando os
grupos “Cana Spot e “Fornecedor” com tendencia a “ATR Alto”, e os grupos do tipo “Próprio” abriu-

14
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
13 e 14 de agosto de 2015

se um segundo nivel por empresa sendo que as empresas 1 e 2 tendem a ter “ATR Baixo”, a empresa 3
tende a ter “ATR Médio Baixo” e a empresa 4 tende a ter “ATR Médio Alto”.
6.2 – Resultados - TCH
Com o intuito de verificar os influenciadores do TCH, foi realizada a classificação usando o
TCH como atributo alvo. Para esse processamento também foi usado o algoritmo J48 do WEKA para
gerar a Árvore de Decisão.
Abaixo a árvore gerada pelo J48 para o atributo alvo TCH.
Estágio = 15meses: TCH Alto (364.0/216.0)
Estágio = 18meses: TCH Alto (1277.0/441.0)
Estágio = 2º Corte: TCH Alto (2522.0/1657.0)
Estágio = 3º Corte: TCH Normal Abaixo (2027.0/1401.0)
Estágio = 4º Corte: TCH Normal Abaixo (1088.0/736.0)
Estágio = 5º Corte: TCH Normal Abaixo (1257.0/764.0)
Estágio = 6º Corte: TCH Baixo (892.0/526.0)
Estágio = 7º Corte: TCH Normal Abaixo (718.0/426.0)
Estágio = 9º Corte: TCH Normal Abaixo (223.0/159.0)
Estágio = 2º Corte Bisada: TCH Alto (217.0/88.0)
Estágio = 3° Corte Bisada: TCH Normal Acima (115.0/70.0)
Estágio = 4º Corte Bisada: TCH Normal Abaixo (143.0/94.0)
Estágio = 8º Corte: TCH Normal Abaixo (299.0/202.0)

Na Figura 10 é apresentada a representação contendo uma amostra da árvore gerada.

Estágio

TCH Médio TCH Médio


TCH Baixo TCH Alto
Baixo Alto

Figura 10 - Representação da árvore gerada para o TCH


Desse modo o algorítmo gerou como maior influenciador na distribuição do TCH, o estágio de
corte do talhão. Sendo que os locais com estágios de 15 meses, 18meses e 2o Corte tendem a ter um

15
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
13 e 14 de agosto de 2015

“TCH Alto”, 3o Corte Bisada e 6o Corte Bisada tendem a ter “TCH Médio Alto”, 3o e 4o Corte tendem
a ter “TCH Médio Baixo” e 6o Corte tende a ter um “TCH Baixo”.
Esse comportamento já é um comportamento conhecido e esperado em relação ao TCH, isto é,
a cana-de-açúcar produz mais por hectare nos primeiros cortes (15 e 18 meses), depois esse
rendimento vai caindo gradativamente com o passar dos anos e cortes, até não ser mais viavel
economicamente e ser necessário renovar a plantação e plantar novamente.
Diante disto, foi realizado um segundo processamenti, retirando-se o estágio de corte ara se
perceber o comportamento dos dados. Na Figura 11 é apresentada a árvore com dois niveis do TCH
sem o parametro do estágio.
É possivel notar que o algorítmo gerou uma árvore com dois níveis, primeiramente
classificando por grupo de tipo de propriedade, assim como ocorreu com o ATR, e para os grupos do
tipo de propriedade “Cana Spot” tendem a ter um “TCH Alto”, para os grupo de Fornecedor tendem a
ter um “TCH Médio Alto”, para os grupo “Própria”, abre-se um novo nó na árvore para Tipo de
Maturação, sendo a Precoce com “TCH Alto”, a super precoce com “TCH Médio Alto” e a Média e
Tardia com “TCH Médio Baixo”.

Grupo Tipo
Propriedade

Tipo TCH Médio


Maturação TCH Alto
Alto

TCH Médio TCH Médio


Baixo Alto TCH Alto

Figura 11 - Árvore para TCH sem estágio

7. Considerações Finais

Neste artigo foi apresentada a utilização de técnicas específicas de mineração de dados para
descoberta de conhecimento dentro do domínio da produtividade da cana de açúcar.

16
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
13 e 14 de agosto de 2015

Quanto aos dados selecionados para o estudo, procurou-se contemplar uma amostra
significativa dos dados, contemplando várias usinas e os diversos parâmetros possíveis de serem
usados para a classificação da produtividade. Também é intuito desse trabalho auxiliar as usinas a
melhorarem seus dados, trabalhando para ajudar a completude de seus dados na origem do
acontecimento dos fatos, com isso pode-se gerar outros processos de descoberta de conhecimento
acrescentando os parâmetros com dados completos afim de se ter um resultado mais acurado.
Outro elemento que deve ser considerado é que a descoberta de conhecimento é um processo
inerentemente exploratório e iterativo, característica que demanda muitos ajustes e, consequentemente,
novas iterações e experimentos em busca padrões em meio aos dados. Por este motivo, ainda serão
realizadas novas avaliações para consolidação de resultados e novas descobertas.
Durante esta pesquisa notou-se como as técnicas de mineração de dados podem prover
subsídios valiosos para a tomada de decisão no que diz respeito à gestão das lavouras de cana de
açúcar com intuito de melhorar a produtividade dos canaviais. Como complemento a esse trabalho,
temos a iniciativa para novos estudos acrescentando dados da influência das aplicações de insumos
(fertilizantes e herbicidas), além da influência do clima (precipitação e tempo de radiação solar) e a
influência de pragas e plantas daninhas. Além disso, temos a influência das safras como resultado de
uma análise temporal dos dados.
Agradecimentos
Agradecemos as instituições que apoiaram essa pesquisa: FAPESP, processo 13/50657-6;
FT/Unicamp, EsalqTec – Incubadora Tecnológica da Esalq/USP; Noble Agr, pelos dados e discussões
valiosas e Maxit-Sistemas pelos recursos humanos e equipamentos.
Referências Bibliográficas
AGRAWAL, R.; IMIELINSKI, T; SWAMI, A. Mining association rules between sets of items in large
databases. ACM SIGMOD Int'l Conf. on Management of Data, p. 207-216, 1993.
CEPEA, ESALQ. USP: Perspectivas para o Agronegócio em 2015; Piracicaba-SP, 2014. Disponível
em <http://www.cepea.esalq.usp.br/> . Acesso em 23 de Março de 2015

CINTRA, MARCOS EVANDRO; MEIRA, CARLOS A. A; MONARD MARIA C; CAMARGO,


HELOISA. The use of fuzzy decision trees for coffee rust warning in Brazilian crops. In: Intelligent
Systems Design and Applications (ISDA). 11th International Conference on. IEEE, 2011. p. 1347-
1352, 2011.

CONSECANA - Conselho dos Produtores de Cana de-Açúcar e Álcool do Estado de São


Paulo. Manual de instruções, v. 5, 2007.

17
XI CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
13 e 14 de agosto de 2015

DE SOUZA, ZIGOMAR MENEZES, CERRI, DOMINGOS GUILHERME PELLEGRINO; COLET,


MARCELO JOSÉ; RODRIGUES, LUIZ HENRIQUE ANTUNES; MAGALHÃES, PAULO SÉRGIO
GRAZIANO; MANDONI, RAFAEL JUNQUEIRA ARAÚJO. Análise dos atributos do solo e da
produtividade da cultura de cana-de-açúcar com o uso da geoestatística e árvore de decisão. Ciência
Rural, v. 40, n. 4, p. 840-847, 2010.

DI GIROLAMO NETO, C.; RODRIGUES, LHA; MEIRA, C.A.A. Modelos de predição da ferrugem
do cafeeiro (Hemileia vastatrix Berkeley & Broome) por técnicas de mineração de dados. Embrapa
Informática Agropecuária-Artigo em periódico indexado (ALICE), 2014.

GARCIA, EDERSON; VIEIRA, MARINA TERESA PIRES. Estudo de caso de mineração de dados
multi-relacional: aplicação do algoritmo connetionblock em um problema da agroindústria.
In: Proceedings of the 23rd Brazilian symposium on Databases. Sociedade Brasileira de Computação,
p. 224-237, 2008

GIASSON, ELVIO; HARTEMINK, ALFRED EDUARD; TORNQUIST, CARLOS GUSTAVO;


TESKE, RODRIGO; BAGATINI, TATIANE. Avaliação de cinco algoritmos de árvores de decisão e
três tipos de modelos digitais de elevação para mapeamento digital de solos a nível semi detalhado na
Bacia do Lageado Grande, RS, Brasil. Ciência Rural, v. 43, n. 11, p. 1967-1973, 2013.
HALL, M.A. Correlation-based feature subset selection for machine learning. Tese - Department of
Computer Science, University of Waikato. 1999.
HAN, J.; KAMBER, M. Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers. 2011.

QUINLAN, J.R. C4.5: programs for machine learning. Sydney, Austrália: Morgan Kaufmann
Publishers, 1993.

TAN, P.; STEINBACH, M.; KUMAR, V. (2009). Introdução ao Data Mining – Mineração de Dados.
Rio de Janeiro: Editora Ciência Moderna. 900 p.

WEKA– Data Mining Software in Java. Disponível no site da University of Waikato (2015).
Disponível em <http://www.cs.waikato.ac.nz/ml/weka> Acesso em 23 de Março de 2015

18

Você também pode gostar