Peloia PauloRodrigues D

PAULO RODRIGUES PELOIA
INDUÇÃO DE REGRAS DE DECISÃO PARA ANÁLISE

DESCRITIVA DE PADRÕES DE PRODUTIVIDADE EM
TALHÕES DE CANA-DE-AÇÚCAR
CAMPINAS
2015
i
ii
UNIVERSIDADE ESTADUAL DE CAMPINAS
Faculdade de Engenharia Agrícola
PAULO RODRIGUES PELOIA
INDUÇÃO DE REGRAS DE DECISÃO PARA ANÁLISE

DESCRITIVA DE PADRÕES DE PRODUTIVIDADE EM
TALHÕES DE CANA-DE-AÇÚCAR
Tese apresentada à Faculdade de Engenharia

Agrícola da Universidade Estadual de Campinas
como parte dos requisitos exigidos para obtenção do
título de Doutor em Engenharia Agrícola, na Área de
Planejamento e Desenvolvimento Rural Sustentável
ORIENTADOR: Prof. Dr. Luiz Henrique Antunes Rodrigues
ESTE EXEMPLAR CORRESPONDE À VERSÃO FINAL

DA TESE DEFENDIDA PELO ALUNO PAULO
RODRIGUES PELOIA E ORIENTADO PELO PROF. DR.
LUIZ HENRIQUE ANTUNES RODRIGUES
CAMPINAS
2015
iii
iv
v
vi
RESUMO
As indústrias do setor sucroalcooleiro coletam anualmente, durante sua operação

comercial normal, milhares de dados relacionadas à produção e fatores que podem
influenciá-la. A análise descritiva de padrões nos fatores de influência associados à
talhões de destacado desempenho relacionado ao potencial produtivo pode ser um
ponto chave para tornar o sistema de produção mais eficiente, principalmente quando
passíveis de ação e/ou inesperados, assim auxiliando na tomada de decisão ou
servindo de hipótese para experimentos específicos futuros em condições controladas.
Apesar desta disponibilidade de bases de dados e potenciais resultados, ainda existe
uma lacuna em abordagens que contemplem desde a obtenção e preparação dos
dados até extração de padrões num formato compreensível. Assim, o objetivo desta
pesquisa foi propor uma abordagem baseada na técnica de indução de regras de
decisão para análise descritiva de padrões em talhões de alto e baixo desempenho em
produtividade na cana-de-açúcar. A abordagem possui 9 etapas, sendo: obtenção da
base de dados de produtividade e seu enriquecimento com dados de fatores de
influência complementares e sua limpeza; criação de atributos derivados, padronização
do potencial produtivo dos talhões e segmentação em baixo e alto desempenho pelo
método K-means; extração de regras por indução de regras de decisão usando os
algoritmos RIPPER e Classification Tree, seguida pela seleção das principais regras por
medidas de interesse (Novidade e Likelihood ratio ou precisão e complexidade);
avaliação agronômica das regras selecionadas e dos atributos descritores. A
abordagem foi exemplificada numa base de dados de produtividade de talhões de duas
safras consecutivas de uma unidade de produção de cana-de-açúcar. Os resultados
mostraram que a abordagem foi capaz de descrever 18 padrões, sendo 10 passíveis de
ação e 4 inesperados. A abordagem proposta mostrou-se válida para descrever
padrões inesperados ou passíveis de ação relacionados à produtividade, reproduzindo
o conhecimento de especialistas de forma estruturada (passível de reprodução) e
automática (sem a necessidade um especialista durante o processo), podendo ser
estendida a outras culturas.
vii
viii
ABSTRACT
Industries of sugarcane sector collect annually thousands of information related to

production and influence factors during current commercial operation. The descriptive
analysis of influence factors patterns related to commercial blocks with outstanding
performance related to productive potential may be a key-point to make the sugarcane
production system more efficient, mainly when actionable and/or unexpected, thus
assisting decision making or being hypothesis for future specific experiments under
controlled conditions. Despite of the databases availability and potential results, still
exist a gap in approaches that cover from the data obtainment and preparation until
patterns extraction in a comprehensive format. Therefore, the objective of this research
is to propose a methodology based on decision rules induction technique to descriptively
analyze patterns in commercial blocks with high and low performance regarding
sugarcane yield. The approach has 9 phases: yield database obtainment and its
enrichment with complementary influence factors data and clean up; derived attributes
creation, productive potential of commercial blocks standardization and clustering in
high and low performance by k-means method; rules induction by algorithms RIPPER
and Classification Tree, followed by main rules selection based on interestingness
measures (Novelty and Likelihood ratio or precision and complexity); agronomic
evaluation of selected rules and descriptive attributes. The approach has been
exemplified in a two consecutive season yield database of commercial blocks from a
production unit has been analyzed. Results show that the approach was able to
describe 18 patterns, where 10 are actionable and 4 unexpected. The proposed
approach is valid to describe unexpected patterns or actionable ones related to yield,
reproducing the experts knowledge in a structured form (reproducible) and automatically
(nor requiring an knowledge expert during the process). It may be extended to other
crops.
ix
x
SUMÁRIO
1 INTRODUÇÃO .......................................................................................................... 1
1.1 HIPÓTESE .......................................................................................................... 5
1.2 OBJETIVO .......................................................................................................... 5
2 REVISÃO BIBLIOGRÁFICA ...................................................................................... 7
2.1 Cana-de-açúcar .................................................................................................. 7
2.1.1 Modelos no sistema de produção da cana-de-açúcar .................................. 8
2.1.2 Fatores de influência sobre a produtividade ............................................... 11
2.1.3 Variedades ................................................................................................. 15
2.1.4 Manejo ........................................................................................................ 16
2.1.5 Ambiente de Produção ............................................................................... 18
2.2 Mineração de dados .......................................................................................... 19
2.2.1 Indução de árvore de decisão .................................................................... 21
2.2.2 Indução de regras de decisão .................................................................... 23
2.2.3 Categorização do atributo meta .................................................................. 25
2.2.4 Medidas de Interesse ................................................................................. 26
3 MATERIAL E MÉTODOS ........................................................................................ 31
3.1 Abordagem empregada..................................................................................... 31
Etapa 1. Obtenção de Bases de Dados .................................................................. 33
Etapa 1.1. BD Produção.......................................................................................... 33
Etapa 1.2. BDs Complementares ............................................................................ 34
Etapa 2. Limpeza dos Dados .................................................................................. 35
Limpeza de dados no BD Clima .............................................................................. 36
Etapa 3. Criação de atributos derivados ................................................................. 36

xi
Etapa 3.1. Divisão em Fases fenológicas ............................................................... 37
Etapa 3.2. Cálculo de índices meteorológicos ........................................................ 38
Etapa 3.3. Cálculo de relações edáficas ................................................................. 38
Etapa 3.4. Caracterização das variedades.............................................................. 40
Etapa 4. Padronização do potencial produtivo ........................................................ 40
Etapa 5. Categorização do desempenho produtivo ................................................ 42
Etapa 6. Criação dos BD´s Modelagem .................................................................. 45
Etapa 7. Extração de regras .................................................................................... 46
Etapa 8. Seleção de regras por medidas de Interesse ........................................... 47
Etapa 9.1. Análise agronômica das regras selecionadas ........................................ 48
Etapa 9.2. Análise agronômica dos atributos descritores........................................ 48
3.2 Descrição da unidade de produção em estudo ................................................. 48
4 RESULTADOS E DISCUSSÃO .............................................................................. 51
4.1 Resultados ........................................................................................................ 51
4.1.1 Regras individuais – Alto desempenho ....................................................... 54
4.1.2 Regras individuais – Baixo desempenho .................................................... 57
4.1.3 Atributos descritores ................................................................................... 60
4.2 Discussão.......................................................................................................... 62
5 CONCLUSÃO ......................................................................................................... 77
6 REFERÊNCIAS BIBLIOGRÁFICAS ........................................................................ 79
ANEXOS ........................................................................................................................ 91
ANEXO I – Método utilizado para determinação do fator de maior influência na

produtividade .................................................................................................................. 93
ANEXO II – Descrição dos atributos utilizados para indução de regras ......................... 95
ANEXO III – Reapresentação das regras selecionadas ............................................... 101
xii
Aos meus pais, Nilce e Ailton (in memorian),
minha esposa e filha, Anna e Giovanna.
DEDICO
xiii
xiv
AGRADECIMENTOS
À FAPESP e Odebrecht Agroindustrial pelo apoio ao projeto de pesquisa (Processo

FAPESP N° 2012/50049-3).
À Faculdade de Engenharia Agrícola da Universidade Estadual de Campinas por todo o

apoio dado durante o curso.
Aos professores desta instituição pelos ensinamentos transmitidos.
Ao prof. Luiz Henrique A. Rodrigues, com quem tive o privilégio de conviver durante
estes anos, pela confiança em mim depositada, conhecimento e experiência
compartilhados.
Aos colegas que conheci, especialmente à Felipe Bocca, pelo trabalho conjuntamente
desenvolvido.
À minha família pelo apoio, paciência e compreensão.
xv
xvi
LISTA DE FIGURAS
Figura 1. Ilustração do conceito de Graus-dia (°C). ....................................................... 12

Figura 2. Abordagem empregada na indução de regras de decisão para análise
descritiva de padrões de produtividade em cana-de-açúcar. ......................................... 31
Figura 3. Fenologia típica para região de estudo em função do tipo de ciclo e meses do
ano (BOCCA, 2014). ...................................................................................................... 37
Figura 4. Exemplo da forma de integração de atributos da BD Clima na BD enriquecida.
....................................................................................................................................... 41
Figura 5. Distribuição dos valores do atributo meta produtividade originais (TCH) e após
padronização do seu potencial (ZTCH). ......................................................................... 42
Figura 6. Visualização do agrupamento utilizando K-means (K = 3) sobre TCH............ 43
Figura 7. Formação dos atributos meta categóricos Alto k3 e Baixo k3. ........................ 44
Figura 8. Formação dos BD´s Modelagem ..................................................................... 45
Figura 9. Balanceamento de classes do atributo meta e validação................................ 47
Figura 10. Precipitação mensal e temperatura média mensal para Usina Alcídia –
Teodoro Sampaio – SP, de Jan/2010 a Nov/2012. ........................................................ 49
Figura 11. Precisão e cobertura das regras induzidas para talhões de alto desempenho
de produtividade padronizada pelo número de corte (ZTCH)......................................... 51
Figura 12. Precisão e cobertura das regras induzidas para talhões de baixo
desempenho de produtividade padronizada pelo número de corte (ZTCH). .................. 52
Figura 13. Participação das variáveis descritivas agrupadas nos padrões induzidos para
talhões de desempenho Alto e Baixo ............................................................................. 61
Figura 14. Distribuição do parâmetro graus-dia no período de maturação em função do
mês de colheita (•) e ponto de corte determinado pela regra R32 (- -)........................... 65
Figura 15. Produtividade (TCH) em função do número de corte para dois grupos de
textura de solo. ............................................................................................................... 67
Figura 16. Distribuição do parâmetro graus-dia no período de brotação em função do
mês de plantio (•) e ponto de corte determinado pela regra R34 (-)............................... 71
xvii
xviii
LISTA DE TABELAS
Tabela 1. Coeficientes de cultura (Kc) para cana-de-açúcar. ........................................ 14

Tabela 2. Tabela de contingência para a regra X→Y. .................................................... 27
Tabela 3. Relações de atributos químicos e físicos do solo. .......................................... 39
Tabela 4. Percentil de registros na categoria de desempenho Alto e Baixo com relação
ao atributo meta desempenho produtivo (ZTCH) em função de diferentes valores de k
no método de agrupamento K-means. ........................................................................... 44
Tabela 5. Número de regras induzidas e selecionadas por algoritmo para desempenho
Alto. ................................................................................................................................ 53
Tabela 6. Número de regras induzidas e selecionadas por algoritmo para desempenho
Baixo. ............................................................................................................................. 53
Tabela 7. Regras induzidas a partir do BD Modelagem K3, selecionadas, associadas a
desempenho Alto. .......................................................................................................... 54
desempenho Alto. .......................................................................................................... 55
desempenho Alto. .......................................................................................................... 56
desempenho Baixo. ........................................................................................................ 57
Tabela 11. Regras induzidas a partir do BD Modelagem K4, selecionadas, associadas
a desempenho Baixo. ..................................................................................................... 58
Tabela 12. Regras induzidas a partir do BD Modelagem K5, selecionadas, associadas
a desempenho Baixo. ..................................................................................................... 59
Tabela 13. Participação na variabilidade explicada pelo modelo para os atributos
descritores induzidos por árvore de decisão com atributo meta TCH ............................ 93
Tabela 14. Descrição dos atributos contínuos ou ordinais utilizados para indução de
regras ............................................................................................................................. 95
Tabela 15. Descrição dos atributos categóricos utilizados para indução de regras ..... 100
Tabela 16. Regras selecionadas em ordem numérica ................................................. 101
xix
xx
1 INTRODUÇÃO1
A cultura da cana-de-açúcar tem grande importância econômica no mundo,

sendo cultivada numa faixa de latitude entre 35° N e 30° S. É cultivada principalmente
como matéria-prima para produção de álcool e açúcar, sendo o Brasil o maior produtor
mundial, com destaque para o estado de São Paulo como maior produtor e exportador
nacional (WACLAWOVSKY et al., 2010).
O sistema produtivo da cana-de-açúcar tem como principais objetivos o

acúmulo de biomassa por unidade de área (produção de cana por hectare), riqueza de
sacarose nos colmos industrializáveis (açúcares totais recuperáveis por tonelada de
cana) e longevidade do canavial, dado pela manutenção da produtividade e qualidade
da matéria-prima ao longo das safras (CÂMARA, 1993). Para atingir alta produção de
sacarose por área, a planta precisa encontrar épocas com condições de temperatura e
umidade adequadas para permitir o máximo acúmulo de biomassa na fase vegetativa,
seguida de um período com restrição hídrica ou térmica para favorecer o acúmulo de
sacarose no colmo na época do corte (SCARPARI; BEAUCLAIR, 2004).
Em função do seu ciclo perene, a cana-de-açúcar sofre a influência de diversos

fatores que afetam sua produtividade e maturação durante todo o ano e durante
sucessivas safras. Estes fatores estão relacionados à adaptabilidade de variedades
(LAVORENTI; MATSUOKA, 2001; RAMBURAN et al., 2011), clima (MACHADO et al.,
2009; MARIN et al., 2011), técnicas de manejo (MARCHIORI, 2004; MUCHOW et al.,
1998), pressão de pragas, daninhas e doenças (GILBERT et al., 2006) e condições
edáficas (MAULE et al., 2001).
A interação do clima de determinado local com fatores edáficos, denominado

ambiente de produção (DIAS et al., 1999), interagindo com variedades e técnicas de
1
Esta tese é fruto do Projeto de Pesquisa “Técnicas de mineração de dados aplicadas à análise e
previsão da produtividade da cana-de-açúcar” apoiado pelo convênio firmado entre FAPESP e Odebrecht
Agroindustrial (N° processo FAPESP: 2012/50049-3).
1
manejo tem sido foco de estudos, gerando conhecimento para subsidiar o planejamento
em unidades produtoras (LANDELL; BRESSIANI, 2010).
A compreensão da magnitude e natureza das interações entre fatores do

ambiente de produção, variedade e manejo é um ponto chave para o desenho de um
sistema produtivo de alta produtividade. Porém, a maior parte dos trabalhos
relacionados com este tipo de estudo visa apenas a descrição do comportamento das
variedades frente a diferentes conjuntos de fatores inerentes a cada sistema de
produção (GILBERT et al., 2006; LAVORENTI; MATSUOKA, 2001; MAULE et al., 2001;
RAMBURAN et al., 2010). Entender de que forma estes fatores interferem na
produtividade atingida frente ao potencial produtivo pode levar a um sistema de
produção mais eficiente, por meio de desenho de experimentos específicos, estratégias
de melhoramento de variedades ou mesmo alternativas de manejo e planejamento
visando o aumento da eficácia nas tomadas de decisão (FERRARO et al., 2009;
SCARPARI, 2002; TITTONELL et al., 2008).
A identificação de padrões e entendimento dos fatores que interferem na

variabilidade da produção de um talhão frente o seu potencial produtivo podem ser
extraídos por meio da análise de bases de dados de campos comerciais, porém, apesar
dos resultados promissores produzidos, tais estudos não são conduzidos rotineiramente
(LAWES; LAWN, 2005).
A principal vantagem de se utilizar bases de dados comerciais é que estas

trazem uma ampla gama de interações entre as variáveis do sistema de produção
devido a sua larga escala, o que não seria possível pela análise de experimentos de
campo (LAWES; LAWN, 2005). Em contrapartida, a estrutura deste tipo de dado
frequentemente não atende as premissas necessárias para o uso de técnicas
estatísticas clássicas como: distribuição normal da variável dependente (atributo meta),
ausência de correlação entre variáveis independentes (multicolinearidade), linearidade,
ausência de dados categóricos e balanceamento do modelo, etc. (ZHANG et al., 2005).
Na cana-de-açúcar, o uso de bases de dados comerciais é voltado mais

comumente para a predição da produtividade e maturação para fins de planejamento,
2
com modelos obtidos por meio de regressão (ARGENTON, 2006; ARGENTON et al.,
2010; BEAUCLAIR, 1991, 1994; BERNARDES et al., 2002; BRUGGEMANN et al.,
2001; SUGAWARA et al., 2007; TERAMOTO, 2003), ou ainda redes neurais artificiais
(XU et al., 2010), ensemble (EVERINGHAM et al., 2009; PICOLI, 2006), modelos
bayesianos (EVERINGHAM et al., 2007) e modelos não-lineares (BAJPAI et al., 2012).
Nestes casos, o conhecimento gerado sobre a influência dos fatores no sistema de
produção, que não é o foco principal destas pesquisas, é limitado e complexo ao
entendimento do ser humano pela própria característica dos métodos utilizados para a
obtenção dos modelos (FAYYAD et al., 1996).
De forma geral, quando há a descrição de sistemas agrícolas, ainda existe uma

lacuna com relação às variáveis submetidas à análise. Em função da ausência de
detalhamento, não é possível identificar qual prática de manejo, ou interações dentre as
várias possíveis, têm realmente destaque (FERRARO et al., 2009). São raros os
trabalhos que analisam simultaneamente variáveis relacionadas à adaptabilidade de
variedades, clima, técnicas de manejo detalhadas e condições edáficas, uma vez que
quanto maior a disponibilidade de diferentes combinações entre fatores de influência,
melhor tende a ser a descrição do sistema de produção, porém torna a sua análise
ainda mais complexa (LOBELL; ORTIZ-MONASTERIO, 2006; TITTONELL et al., 2005,
2008; ZHENG et al., 2009).
Outra lacuna que pode ser mencionada é a falta de enfoque de trabalhos numa
metodologia para análises descritivas para a identificação de fatores de produção
associados a um desempenho de destaque, seja superior ou inferior (ROEL et al.,
2007; TITTONELL et al., 2008; ZHENG et al., 2009).
Entende-se como desempenho aqui, a diferença entre a produtividade potencial

de um dado talhão e a realmente atingida. São diversos os autores que propõem
maneiras para estimar o potencial de uma área, baseando-se no ambiente de produção
(PRADO, 2005), ou sua combinação com o número de cortes (DEMATTÊ; DEMATTÊ,
2009) e época de colheita ou plantio (LANDELL et al., 2010).
3
O estudo de padrões em talhões com alto ou baixo desempenho é rotineira em
algumas unidades de produção comercial, porém se limita a identificar os fatores de
maior importância baseado em conhecimentos prévios de especialistas (DEMATTÊ;
DEMATTÊ, 2009). Assim, padrões inesperados não são focados, tampouco todas as
possibilidades analisadas, visto que hipóteses devem ser formuladas e então testadas
com as bases de dados disponíveis, via de regra não enriquecidas ou submetidas a
uma correção de ruídos.
Dentre as diversas técnicas de análise de dados, a indução de regras de

decisão e árvores de decisão recebem especial atenção quando o foco é descoberta de
conhecimento (FAYYAD et al., 1996), devido à capacidade de utilizarem
representações simbólicas que permitem explicitar o conhecimento descoberto de
forma inteligível ao ser humano. Tais representações simbólicas possibilitam o
entendimento das fronteiras de decisão presentes nos dados e também da lógica
implícita neles (APTÉ; WEISS, 1997).
O propósito básico da indução de uma árvore de decisão é produzir um modelo

de predição ou compreender quais e como as variáveis e interações entre variáveis
interferem no fenômeno estudado (MEIRA et al., 2008, 2009). Por sua vez, a indução
de regras de decisão tem foco voltado à criação de modelos descritivos que são mais
fáceis de interpretar que os gerados pelas árvores de decisão (HAN et al., 2012).
Alguns algoritmos de indução de regras, inclusive, se baseiam na simplificação do
conhecimento extraído inicialmente pela árvore de decisão. Em função desta
característica de mais fácil interpretação de regras frente à árvore de decisão, este
trabalho optou por interpretar os ramos das árvores induzidas na forma de regras.
Alguns algoritmos de indução de árvore de decisão ou regras de classificação

exigem que o atributo meta seja do tipo categórico. A forma como é feita esta
categorização na fase de preparação de dados afeta diretamente o desempenho dos
modelos criados (BAY, 2000). Apesar da importância desta etapa para os algoritmos
em questão, esta fase é dependente de decisões arbitrárias e subjetivas (TITTONELL
4
et al., 2008), como realizado em trabalhos relacionados com a análise do sistema
produtivo da cana-de-açúcar (FERRARO et al., 2009; SOUZA et al., 2010).
Como mencionado, a indução de regras de decisão é uma técnica de mineração

de dados reconhecidamente capaz de encontrar conhecimento compreensível em
bases de dados complexas sem a necessidade de um prévio estabelecimento de
hipóteses. Assim, a principal justificativa para uma abordagem baseada na indução de
regras de decisão é complementar o que já se faz comumente em unidades de
produção, para se estudar os fatores que atuam no desempenho dos talhões, é a
possibilidade de identificar padrões passíveis de ação ou conhecimentos inesperados
com maior frequência, de forma estruturada.
1.1 HIPÓTESE
A hipótese deste trabalho é:
i. Uma abordagem baseada em indução de regras de decisão, aplicada a

registros de talhões comerciais de cana-de-açúcar, permite a análise descritiva de
padrões em alto e baixo desempenho com relação ao potencial produtivo, que auxiliem
na tomada de decisão ou apontem a necessidade de comprovação por meio de
experimentos futuros.
1.2 OBJETIVO
O objetivo desta pesquisa é aplicar uma abordagem baseada na técnica

indução de regras de decisão, para análise descritiva de padrões em talhões comerciais
de cana-de-açúcar de alto e baixo desempenho, com relação ao potencial produtivo,
visando à descoberta de conhecimento.
5
6
2 REVISÃO BIBLIOGRÁFICA
2.1 Cana-de-açúcar
A cana-de-açúcar é uma planta monocotiledônea, alógama e perene, com

centro de origem provável na Indonésia e Nova Guiné. Pertence a família Poaceae,
gênero Saccharum, tendo em seus cultivares híbridos interespecíficos das espécies S.
officinarum, S. spontaneum,S. sinense, S. barbieri, S. robustum e S. edule (SCHULTZ,
1963).
A fenologia da cana-de-açúcar, segundo Gascho e Shih (1983) citado por Silva

et al. (2010), pode ser dividida em quatro estádios diferentes, a saber: brotação e
emergência, perfilhamento, crescimento dos colmos e maturação dos colmos. O
acúmulo de matéria seca da cana-de-açúcar em função do tempo, também chamado de
curva de crescimento, tem uma distribuição do tipo sigmóide, sendo: fase de
crescimento inicial (do plantio até 200 dias após plantio), correspondendo às duas
primeiras fases fenológicas, acumulando 10% da matéria seca total; fase de
crescimento máximo (de 200 a 400 dias após o plantio), onde o acúmulo de matéria
seca total é na faixa de 70 a 80%; fase de acúmulo de sacarose (de 400 dias até a
colheita); e crescimento novamente lento, onde o acúmulo de matéria seca total é de
10% (MACHADO, 1981).
Argenton et al. (2010) e Beauclair (1991) relatam que a produção da cana-de-

açúcar, assim como toda cultura agrícola, é influenciada por um grande número de
fatores de produção que afetam seu sistema produtivo. Alguns desses não podem ser
manejados, como o clima, enquanto outros, como o solo, escolha de variedades, tipo
de muda, época de plantio e colheita, podem ser manejados visando o melhor
desempenho da cultura. Em função do grande número e complexidade das interações
entre as variáveis envolvidas ao longo do ciclo de produção, surge a necessidade de se
entender e prever as respostas da cultura aos diferentes estímulos para fins de
planejamento e tomada de decisão.
7
2.1.1 Modelos no sistema de produção da cana-de-açúcar
A exploração de bases de dados por meio da criação de modelos, de forma

geral, pode ser classificada em duas categorias: preditiva e descritiva. Modelos
preditivos utilizam dados históricos para fazer inferências sobre eventos futuros. Já
modelos descritivos têm como objetivo encontrar padrões nos dados de forma a prover
informações sobre relacionamentos em variáveis em formato compreensível (EL
SEDDAWY, 2012).
Existem modelos que simulam o sistema de produção da cana, com foco na
previsão e descrição da produtividade, alguns elaborados para condições do Brasil.
Scarpari e Beauclair (2004) e Scarpari (2002) visaram a previsão de

produtividade e maturação por meio de regressão linear múltipla, com seleção de
variáveis pelo método “stepwise”, chegando à conclusão que os fatores de maior
importância para previsão são: precipitação, graus-dia e graus-dia negativo. A
granularidade dos dados usados foi mensal. Os valores dos coeficientes de
determinação (R2), para modelos de maturação nas diferentes condições estudadas, foi
em torno de 70% na fase de desenvolvimento do modelo. Por outro lado, os modelos
de previsão de produtividade não foram significativos. A criação dos modelos foi feita
com dados de duas safras consecutivas e a validação com os dados da safra seguinte.
Argenton et al. (2010) utilizaram as variáveis graus-dia, armazenamento de água

no solo, em granularidade decendial, e produtividade no corte anterior para previsão de
produtividade. O método de modelagem utilizado foi a regressão polinomial múltipla,
gerando modelos com coeficientes de determinação entre 15 a 77%.
Bernardes et al. (2002) e Teramoto (2003) buscaram a previsão de produtividade

usando características edáficas e de clima. O método usado foi a regressão linear
múltipla com seleção de atributos pelo método “stepwise”. Foram criados modelos para
cada uma das duas safras estudadas, sendo o coeficiente de determinação de 62 e
8
74%. Não foi feita validação com dados diferentes dos utilizados para construção dos
modelos.
Sugawara et al. (2007) e Picoli (2006), com dados obtidos durante duas safras,
estimaram a produtividade de talhões comerciais de 2º a 5º corte para a região de
Catanduva/SP, com uso de atributos obtidos por meio de sensoriamento remoto ou
fornecidos pela unidade de produção. Foi aplicada a técnica regressão linear múltipla e
redes neurais, respectivamente. As variáveis utilizadas foram: produtividade estimada
por modelo agronômico-espectral, produtividade do ano anterior, NDVI, safra,
variedade, número de cortes, capacidade de água disponível no solo, tipo de colheita e
aplicação de vinhaça. Os melhores resultados – que explicaram em torno de 65% da
variabilidade - foram obtidos com o uso dos atributos: produtividade estimada pelo
modelo, produtividade do ano anterior, NDVI, número de cortes e tipo de colheita.
Bruggemann et al. (2001) criaram modelos baseados em regressão múltipla

para previsão de produtividade de talhões comerciais, para determinada região da
África do Sul, com uso de dados de 19 safras (área média de 1.000 ha safra-1). Um
intensivo trabalho de limpeza dos dados teve que ser realizado, com uso da estratégia
de exclusão de registros incoerentes ou com dados faltantes. O melhor modelo explicou
55% da variabilidade na produtividade, tendo selecionado: localidade, altitude, tipo de
solo, profundidade efetiva do sistema radicular, safra, precipitação acumulada no ciclo,
variedade, número de cortes, adubação com nitrogênio, potássio e relação Ca:Mg no
solo.
Uma característica comum a vários trabalhos é o uso de técnicas estatísticas

clássicas, como a regressão múltipla, para prever maturação e produtividade. Segundo
constatado por Teramoto (2003), esta ferramenta estatística pode não ser a melhor
metodologia para elaboração de modelos e identificação de fatores que interferem na
produtividade.
Xu et al. (2010) utilizaram redes neurais para a previsão da produtividade anual

de uma determinada região produtora na China. Como atributos preditores, em
granularidade mensal, utilizaram: temperatura média, radiação solar, precipitação,
9
umidade; e também a participação na área cultivada de oito diferentes variedades. Os
atributos selecionados pelo melhor modelo de previsão foram 10, sendo: temperatura
média (3), radiação solar (1), precipitação (3) e variedade (3).
Em sua pesquisa, Ferraro et al., (2009) analisaram, por meio de árvore de

decisão e regressão, os fatores de influência sobre a produtividade da cana-de-açúcar
para a região Nordeste da Argentina, com uso de uma base de dados de informações
de talhões comerciais de cinco safras consecutivas. Os atributos meta produtividade de
cana e toneladas de açúcar por hectare foram categorizados em três níveis, com uso
da técnica k-means com k igual a três, sem o teste de outros valores. O atributo
exploratório fazenda – que representa um conjunto de técnicas de manejo não
detalhadas – foi o de maior influência entre os testados para produtividade de cana,
seguido por número de cortes (que associou altas produtividades com cortes menores
ou iguais a 2). Para produtividade de açúcar, os atributos de destaque foram variedade
e número de cortes. Os outros atributos explanatórios testados que não mostraram
significativa importância foram: mês de colheita, duração do ciclo, área do talhão,
precipitação acumulada no ciclo e precipitação durante o verão.
Souza et al. (2010) relacionaram, por meio da geoestatística e indução de

árvore de decisão, mapas de atributos químicos do solo e produtividade da cultura da
cana-de-açúcar durante uma safra, obtidos por técnicas de agricultura de precisão, num
talhão comercial de 23 ha. Para o uso da árvore de decisão, o atributo meta toneladas
de cana por hectare, originalmente contínuo, foi categorizado em três níveis, sendo que
a classe média compreendeu os registros no intervalo média ± desvio-padrão. Como
atributos preditores, além da altitude, atributos de química do solo também foram
coletados em duas profundidades (0,0-0,2m e 0,2-0,4m), sendo: pH, cálcio, magnésio,
potássio, fósforo, saturação por bases e teor de matéria orgânica. As variáveis altitude
e potássio, em ambas as profundidades, apresentaram os maiores valores de
correlação com a produtividade de cana-de-açúcar. A indução de árvores de decisão
permitiu verificar que a altitude é a variável com maior potencial para interpretar os
mapas de produtividade, mostrando-se uma ferramenta adequada para o estudo de
definição de zonas de manejo.
10
2.1.2 Fatores de influência sobre a produtividade
2.1.2.1 Fatores Climáticos
O comportamento fenológico da cana-de-açúcar e, consequentemente, sua

produtividade e maturação dependem fortemente de fatores climáticos, sendo
considerados os mais importantes a disponibilidade térmica, pluviosidade e radiação
solar (VAN HEERDEN et al., 2010; INMAN-BAMBER, 2004; LIU et al., 1998; SMIT;
SINGELS, 2006; UEHARA et al., 2009). Segundo Beauclair (1994), modelos que não
consideram o clima podem, no máximo, representar parte da variação total na faixa de
20%.
2.1.2.2 Temperatura
Segundo Almeida et al. (2008) e Liu et al. (1998), o perfilhamento, crescimento

dos perfilhos em comprimento e diâmetro e número de entrenós da cana-de-açúcar se
inicia a partir de temperaturas superiores a 20°C, tendo a faixa ótima de
desenvolvimento entre 25°C e 33°C. Para Barbieri (1981), são 20°C e 32°C a 38°C,
respectivamente, a temperatura basal e faixa ótima. De acordo com Brunini (2010), o
crescimento máximo da cana é obtido com temperaturas entre 30 e 34°C, tornando-se
lento em condições acima de 35°C ou inferiores a 25°C e cessa em 38°C e entre 16 a
10°C, dependendo da variedade.
Com relação especificamente à brotação de gemas, principal forma de

propagação da cultura onde se plantam pedaços do colmo com uma ou mais gemas,
Liu et al. (1998) consideram a temperatura mínima de 11,6°C e faixa ótima de 28°C a
30°C. Nickell (1977), citado por Scarpare (2011), considera a temperatura do ar ideal
entre 34 e 37°C, com limitantes abaixo de 21°C e acima de 44°C. Esta amplitude nos
valores foi observada por Pincelli et al. (2010), que verificaram diferentes temperaturas
11
mínimas para brotação entre variedades, sendo que os valores variaram entre 16°C e
24°C.
Segundo Villa Nova et al. (1972), o melhor método para correlacionar

temperatura e crescimento das plantas é o método de graus-dia (Figura 1), que
corresponde à área compreendida entre a temperatura basal, considerada a mínima
para que haja desenvolvimento vegetal, e a curva de temperatura média diária.
25
24
23
22 Graus-dia
Temperatura
21
20
19
18
17
16
15
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Hora do dia
Temperatura Basal Temperatura
Figura 1. Ilustração do conceito de Graus-dia (°C).
Na fase de emergência da cultura, Singels et al. (2008) citado por Scarpare

(2011), considerando a temperatura basal de 10°C para a variedade NCo 376,
encontrou o somatório térmico para cana planta (do plantio até a emergência) de
428°C.d e para cana soca (colheita até a emergência) de 203°C.d. Na cana soca,
Inman-Bamber (1994), considerando a temperatura basal de 16°C, verificou que o pico
de perfilhamento e posterior redução no seu número se iniciou após 500°C.d e que a
estabilização ocorreu com 1.200°C.d.
12
2.1.2.3 Disponibilidade hídrica
Os déficits hídricos afetam negativamente a taxa de brotação, número de

perfilhos, alongamento dos colmos, desenvolvimento foliar, produção de matéria seca,
sólidos solúveis e sacarose, sendo a principal causa de redução de produtividade
(BEZUIDENHOUT et al., 2001; INMAN-BAMBER, 2004; MACHADO et al., 2009;
RAMESH; MAHADEVASWAMY, 2000). Segundo Inman-Bamber e Smith (2005), a fase
fenológica em que ocorre o déficit hídrico pode afetar a produtividade de maior ou
menor forma, sendo o alongamento dos colmos a fase mais suscetível, podendo
resultar em queda de produtividade.
O estabelecimento de uma relação entre produção e consumo de água pela

cana-de-açúcar é uma tarefa difícil devido às interações locais entre clima e variedade
(TERAMOTO, 2003), estádio fenológico, ciclo da cultura (cana planta ou soca) e água
disponível no solo (SCARDUA; ROSENFELD, 1987).
Com relação à disponibilidade hídrica, Inman-Bamber e Smith (2005)

consideram um suprimento de 1.000 mm por ciclo vegetativo com uma boa distribuição
suficiente para obtenção de altas produtividades em cana-de-açúcar. Para Brunini
(2010), este valor deve estar na faixa de 1.100 a 1.700 mm por ano, já para Ometto
(1980), este intervalo é de 1.200 a 1.500 mm, concentrado nos meses de crescimento
da cultura e, no período de maturação, a seca é desejável, desde que não drástica, por
reduzir o crescimento e, consequentemente, favorecer o acúmulo de sacarose.
A melhor forma de verificar a influência da disponibilidade hídrica em modelos

de análise e previsão é o cálculo do balanço hídrico segundo Thornthwaite e Mather
(1955), onde são levados em conta precipitação, evapotranspiração potencial e real,
coeficiente da cultura (Kc) em função da fase fenológica, juntamente com a capacidade
de armazenamento hídrico do solo (CAD), resultando na água disponível (BRUNINI,
2010; SCARPARI; BEAUCLAIR, 2004).
O primeiro passo no cálculo do balanço hídrico é a seleção de um determinado

valor para o CAD, em mm. Este corresponde ao intervalo entre a umidade do solo na
13
capacidade de campo e no ponto de murcha permanente, multiplicado pela densidade
do solo e profundidade de exploração do sistema radicular da cultura (compreendido
pela área em que se concentram 80% das raízes) (SENTELHAS et al., 2000).
A evapotranspiração potencial (ETP) é a quantidade de água consumida por

uma superfície vegetada com grama com plena disponibilidade de água no solo, sendo
assim um indicativo da demanda evapotranspirativa da atmosfera de um local num
dado período. A evapotranspiração da cultura (ETc) refere-se à quantidade de água
usada por uma determinada cultura na ausência de restrição hídrica. Este valor pode
ser estimado pela correção da ETP pelo coeficiente de cultura (Kc), dado em função do
desenvolvimento da cana-de-açúcar (Tabela 1).
Tabela 1. Coeficientes de cultura (Kc) para cana-de-açúcar.
Idade da cultura
Coeficiente (Kc)
(meses) Período de Estádio de
Cana Cana desenvolvimento desenvolvimento
mínimo Máximo médio
planta soca
Do plantio até 25% de
0–2 0–1 0,40 0,60 0,50
cobertura do solo
De 25% a 50% de
2–3 1–2 Estabelecimento da 0,75 0,85 0,80
cobertura do solo
cultura seguido de
De 50% a 75% de
3–4 2–3 período vegetativo 0,90 1,00 0,95
cobertura do solo
De 75% a cobertura
4–7 3–4 1,00 1,20 1,10
completa do solo
Formação da
7 – 14 4–9 Utilização máxima 1,05 1,30 1,20
produção
14 – 16 9 – 10 Início da maturação 0,80 1,05 0,95
Maturação
16 – 18 10 – 12 Maturação 0,60 0,75 0,70
Fonte: Doorenbos e Pruitt (1977)
14
Em função da dificuldade em estimar com precisão a CAD para grandes áreas,
uma medida alternativa para medir a disponibilidade hídrica é o cálculo da diferença
entre precipitação e evapotranspiração potencial ou da cultura (BRUNINI, 2010).
2.1.2.4 Radiação solar
A radiação solar é um fator ambiental de grande influência no processo de

perfilhamento da cultura, tanto com relação à formação quanto ao crescimento. A
quantidade de perfilhos aumenta com o aumento da intensidade luminosa, enquanto a
elongação é reduzida (BEZUIDENHOUT et al., 2003). Este fenômeno pode ser
explicado pela foto-oxidação apical, o que reduz o fluxo de auxinas e, por conseguinte
há um decréscimo na inibição das gemas basais e então perfilhos se formam (VAN
DILLEWIJN, 1952). Para condições de reduzida radiação solar, a emissão de novos
perfilhos diminui substancialmente (CÂMARA, 1993), e quando há competição intra-
específica por luz com o fechamento do dossel, há um crescimento do colmo principal e
senescência dos perfilhos mais jovens (INMAN-BAMBER, 1994).
De acordo com Ortolani e Paes de Camargo (1987) citado por Marchiori (2004),
a radiação solar tem influência direta em todos os fenômenos meteorológicos,
determinando parcial ou integralmente na origem ou desenvolvimento de tais
fenômenos. A radiação solar intervém no crescimento e desenvolvimento dos vegetais,
influindo indiretamente na temperatura do ambiente e na demanda hídrica. Por este
motivo, a radiação solar não é considerada diretamente em modelos de análise e
previsão, mas sim os seus efeitos como temperatura e demanda por água.
2.1.3 Variedades
A variabilidade genética entre diferentes variedades comerciais de cana-de-

açúcar pode resultar em comportamentos distintos em função de mesmas condições de
15
sistema produtivo. Hoffmann et al. (2008) caracterizaram as variedades segundo os
seguintes critérios: brotação de cana planta; brotação de cana soca (colheita manual);
brotação de cana soca (colheita mecanizada); perfilhamento de cana planta;
perfilhamento de cana soca; velocidade de crescimento; porte; hábito de crescimento;
fechamento das entrelinhas; suscetibilidade ao tombamento; produção agrícola; época
de maturação; teor da açúcar; teor de fibra; período útil de industrialização (PUI);
floração; chochamento; adaptabilidade; estabilidade; resistência à seca; tolerância a
herbicidas; época de corte; densidade do colmo; facilidade de despalha; e exigência ao
ambiente de produção.
Com relação ao número de perfilhos, Ramesh e Mahadevaswamy (2000)

observaram que as variedades que perfilham mais têm uma menor produtividade.
Outras características específicas também foram estudadas para algumas

variedades como em Pincelli et al. (2010) e Silva et al. (2004), que constataram
diferentes taxas de brotação entre variedades em função da temperatura. Rodrigues et
al. (2009) observaram diferentes tolerâncias à seca das variedades, sendo o controle
desta característica multigênico, expresso por meio de respostas celulares a
modificações morfológicas. Brunini (2010) citou diferentes exigências de calor em
função da variedade e Orlando Filho (1983) diferentes exigências nutricionais.
Beauclair e Penteado (1984) relatam que trabalhos desenvolvidos na Austrália,

sobre a influência do período de plantio e corte de cana-de-açúcar, demonstraram
respostas semelhantes em diferentes variedades com características sabidamente
distintas, variando apenas a intensidade desta resposta às condições do ambiente.
2.1.4 Manejo
O manejo da cultura da cana-de-açúcar na região centro-sul do Brasil pode ser

resumido nas operações de preparo de solo (setembro a março), plantio de cana de 12
meses (setembro a novembro), plantio de cana de 18 meses (janeiro a maio), cultivo de
16
soqueira (maio a dezembro) e colheita (março a dezembro). A colheita da cana de
plantio de 12 meses se faz quando esta possui de 11 a 14 meses (agosto a dezembro)
e a de plantio de 18 meses quando esta tem de 15 a 20 meses de idade (março a
outubro). A colheita de cana soca é feita aproximadamente 12 meses após o corte
anterior. A cana de 12 meses tem seu máximo desenvolvimento de novembro a abril,
reduzindo em seguida em função das condições climáticas desfavoráveis. A cana de 18
meses, por sua vez, devido ao clima, tem um crescimento restrito de maio a setembro,
retomando o crescimento normal de outubro a abril com o aumento das precipitações,
com pico a partir de dezembro (CASTRO, 1999).
O plantio é uma das atividades mais importantes por afetar diretamente a

produtividade e longevidade do canavial, sendo o ciclo médio de exploração de cinco
anos. São diversos os fatores operacionais a serem considerados para se conseguir um
plantio que resulte num estande adequado de plantas como: idade da muda e tempo de
armazenamento até o plantio no sulco, profundidade de sulcação, quantidade de terra
na cobrição dos toletes, tempo entre abertura dos sulcos e plantio, posição da gema no
colmo e tamanho, umidade e disponibilidade de açúcares e nutrientes de reserva nos
toletes (ROCHA, 1984; SILVA et al., 2004, 2010).
Com relação ao tamanho do tolete por ocasião do plantio, Van Dillewijn (1952)
apontou que a secção dos mesmos aumenta a taxa de brotação, pois toletes menores
têm uma taxa de brotação maior. Tal fenômeno ocorre, pois quando há brotação de
uma gema (normalmente da parte apical do tolete), esta produz o hormônio auxina que
inibe ou retarda a brotação das demais. Segundo o mesmo autor, o tamanho do tolete
deve ser ajustado de acordo com as condições de plantio e qualidade da muda, se
estas forem adversas, toletes de maior tamanho resultarão num melhor estande de
plantas, enquanto sob condições favoráveis, podem ser plantados toletes de até uma
gema. Lee (1984) constatou que sob forte déficit hídrico, toletes menores desidrataram
mais e resultaram em piores estandes. Segundo Rocha (1984), a brotação e
desenvolvimento inicial da cana decresce com o aumento do tempo de armazenamento
das mudas e a influência deste fator decresce com o aumento do tamanho do tolete.
17
No planejamento do plantio, além da correta alocação de variedades, a época é
o fator de maior influência na produtividade segundo Ricaud e Cochran (1980) citado
por Marchiori (2004). De maneira geral, plantios de 12 meses têm um perfilhamento
mais rápido e intenso, porém produzem colmos de menor altura, diâmetro e peso
quando comparado ao plantio de 18 meses (ROCHA, 1984).
A época de plantio e corte, tanto da cana planta como soca, influenciam

diretamente no número de perfilhos e de colmos industrializáveis (CÂMARA, 1993;
MACHADO et al., 2009).
2.1.5 Ambiente de Produção
Ambiente de produção é formado pelas interações entre os atributos do solo

com condições climáticas locais, considerando o manejo adequado da camada arável
com relação a preparo, calagem, adubação, controle de ervas daninhas e pragas de
solo. Aspectos do solo como condições físico-hídricas, morfológicas, químicas e
mineralógicas são importantes na determinação do ambiente de produção, assim como
aqueles relacionados ao clima, como: precipitação, temperatura, radiação solar,
evaporação e vento (PRADO et al., 2010).
Os componentes do ambiente de produção podem ser representados de forma

mais simples pela fertilidade, servindo de fonte de nutrientes para a cultura;
profundidade, que tem relação forte com o volume de solo explorado pelas raízes e
com a disponibilidade de água; textura, diretamente relacionada com os níveis de
disponibilidade hídrica, capacidade de troca de cátions e matéria orgânica; água,
indispensável para a produção da cultura e parte integrante da solução do solo
(DEMATTÊ; DEMATTÊ, 2009; PRADO et al., 2010).
O conhecimento do ambiente de produção é importante para avaliar o potencial

de determinada região com relação à produtividade agrícola, bem como alocar
corretamente variedades e tomar medidas de manejo da cultura (LANDELL et al., 2010;
18
TERAMOTO, 2003). Prado (2005) criou 10 classes de ambiente de produção, atribuindo
produtividades médias esperadas para os 5 cortes que vão de 100 a 68 t/ha. Por sua
vez, Demattê e Demattê (2009) propõem 8 classes, com produtividade média potencial
dos cinco cortes de 100 a 70 t/ha.
Neste sentido, estudos que relacionam ambientes de produção e variedades

são comuns, visando indicar a adaptabilidade de cada variedade a determinados
ambientes (GILBERT et al., 2006; LANDELL et al., 2010; MAULE et al., 2001). Uma
característica comum a estes trabalhos é considerar o ambiente de produção como um
fator único, sem decompô-lo em seus fatores constituintes no intuito de descrever as
interações e fatores de influência nas variedades (LAVORENTI; MATSUOKA, 2001). O
entendimento desta interação entre fatores e variedade poderia contribuir para tomadas
de decisão sobre o sistema de produção e demonstrar os impactos da seleção de
determinada variedade (RAMBURAN et al., 2010).
2.2 Mineração de dados
Os avanços rápidos na tecnologia de coleta e armazenamento de dados

permitiram que se acumulassem uma vasta quantidade de dados. A extração de
informação útil, porém, tem provado ser extremamente desafiadora. Em muitos casos,
ferramentas e técnicas tradicionais de análise de dados não podem ser usadas devido
ao tamanho do conjunto de dados, por ser muito grande, ou mesmo a própria natureza
não trivial destes dados, mesmo que em conjuntos pequenos, impedem a aplicação de
abordagens tradicionais (TAN et al., 2009).
Com o avanço da tecnologia da computação, um novo método de modelagem

empírica, mineração de dados, tornou-se popular em função de sua capacidade de
encontrar novos conhecimentos e padrões em bases de dados já analisadas
anteriormente por métodos tradicionais (TAN et al., 2009). A mineração de dados é um
processo de consulta e extração de informações, padrões e tendências úteis,
inicialmente desconhecidas, em bases de dados (FAYYAD et al., 1996). Esse potencial
19
de análise de dados complexos levou a um número crescente de aplicações bem
sucedidas de mineração de dados nos últimos anos, inclusive na área agrícola
(GALVÃO; MARIN, 2009).
A mineração de dados é uma atividade integral do processo geral de conversão

de dados brutos em informações úteis, denominado descoberta de conhecimento em
bancos de dados (KDD – Knowledge Discovery in Databases). Embora cada autor dê
diferente ênfase e divisão para as atividades do KDD (CHAPMAN et al., 2000; FAYYAD
et al., 1996; REZENDE et al., 2005), estes seguem uma linha básica que pode ser
resumida em: i. estabelecimento do objetivo do processo; ii. ajustes na base de dados
para permitir a mineração; iii. modelagem (mineração propriamente dita); iv. avaliação
do modelo gerado; v. organização do conhecimento gerado.
Apesar dos diferentes processos de KDD seguirem uma sequência, é muito

frequente a necessidade de voltar às fases anteriores. Esse fato é algo descrito como
comum (FAYYAD et al., 1996), dando-se não pela falta de qualidade na execução das
fases anteriores, mas sim pela necessidade que surge em função da evolução do
modelo que vai sendo construído.
Independentemente da forma de divisão das etapas do KDD, a fase de

preparação de dados, que compreende todas as atividades realizadas nos dados brutos
de forma a disponibilizar a informação contida neles, da melhor maneira possível às
ferramentas de modelagem (PYLE, 1999), é de suma importância no processo de
descoberta de conhecimento em bases de dados (LU et al., 1996), porém nem sempre
recebe a devida atenção (MEIRA, 2008).
As técnicas de mineração de dados são divididas em duas categorias,

supervisionadas e não-supervisionadas. As não-supervisionadas têm como
característica a ausência de atributo meta, podendo ser citadas as técnicas de
associação e agrupamento. As técnicas supervisionadas, que possuem um atributo
meta, são chamadas de classificação ou regressão se o atributo meta for categórico ou
contínuo, respectivamente (TAN et al., 2009).
20
O objetivo das tarefas não-supervisionadas é encontrar padrões, correlações,
tendências, grupos homogêneos, anomalias em meio a base de dados. As tarefas
supervisionadas visam à elaboração de modelos para determinar um atributo específico
de interesse (atributo meta) baseado nos valores de outros atributos (variáveis
independentes).
Dentro das técnicas supervisionadas, existem aquelas que não permitem a

geração de conhecimento inteligível, como regressão múltipla, regressão logística,
redes neurais ou máquinas de vetores de suporte (Support Vector Machine - SVM).
Também existem aquelas tarefas com possibilidade de explicitar o conhecimento
descoberto de forma inteligível ao ser humano, como exemplo os algoritmos de indução
de regras de classificação e árvores de decisão, em função da capacidade de utilizarem
representações simbólicas para explicitar o conhecimento descoberto (FAYYAD et al.,
1996). Tais representações simbólicas possibilitam o entendimento das fronteiras de
decisão presentes nos dados e também da lógica implícita neles (APTÉ; WEISS, 1997).
Árvores de decisão já foram usadas com sucesso no entendimento do sistema de
produção da cultura da cana-de-açúcar (FERRARO et al., 2009, 2012; SOUZA et al.,
2010).
Faz-se importante salientar duas limitações no uso de indução de regras de

classificação e árvores de decisão. Primeira, não há possibilidade de expressar
relações lineares de forma simples e concisa de forma semelhante à regressão linear.
Segunda, não há solução única (ZHANG et al., 2005), ou seja, diferentes árvores ou
conjuntos de regras podem levar a resultados igualmente satisfatórios. Tais vantagens
e desvantagens fazem da técnica árvore de decisão e indução de regras de
classificação métodos complementares a outras técnicas.
2.2.1 Indução de árvore de decisão
A indução de árvore de decisão é uma técnica de modelagem não-paramétrica,

que faz divisões recursivas num espaço finito multidimensional definido por variáveis
21
independentes, em zonas que são tão homogêneas quanto possível em termos da
resposta do atributo meta. O resultado da análise é uma estrutura hierárquica chamada
árvore de decisão com ramos e folhas, que contém as regras para predizer novos casos
(TAN et al., 2009).
A árvore de decisão é a representação gráfica do modelo criado, semelhante a

uma árvore em sentido invertido. No topo da estrutura, existe o nó raiz, seguido por nós
internos, que são chamados de nós de decisão. Cada um possui um teste sobre uma
ou mais variáveis independentes (atributos) e os resultados desses testes formam os
ramos da árvore. Estes testes, na maioria dos casos, consistem na comparação do
valor do atributo independente com um valor constante. Se o atributo em teste num
determinado nó é do tipo nominal, o número de ramos a partir do nó de decisão poderá
ser igual ou menor ao número de categorias que o atributo possa assumir. Já para
atributos em testes do tipo contínuo, o nó de decisão se ramifica em dois, fazendo a
comparação do tipo maior ou menor que uma dada constante. Na extremidade inferior
da árvore estão as folhas, que representam um valor de predição para a variável
dependente (atributo meta) ou uma distribuição de probabilidade dos seus possíveis
valores.
Existem diferentes métodos para escolha do atributo em teste em cada nó de

decisão, como índice de Gini ou a entropia (medida de desorganização de um sistema),
porém, a escolha do método tem pouca influência no desempenho do algoritmo de
aprendizagem (TAN et al., 2009). O método mais utilizado é o ganho de informação,
também interpretado como redução de entropia (MEIRA, 2008). O atributo com maior
redução de entropia é o que divide os dados em grupos mais homogêneos. Isso
permite reduzir o número de testes para classificação de um exemplo, e
consequentemente o tamanho da árvore (HAN et al., 2012).
Após a construção da árvore de decisão, esta pode se tornar demasiadamente

específica aos dados utilizados e, via de regra, com alta complexidade. Esta condição é
chamada de overfitting, ou super-ajuste, e pode ser evitada com o uso de podas da
22
árvore, que a tornam mais generalista e menos complexa. Existem duas categorias
principais de poda, a pré-poda e a pós-poda.
No método de pós-poda, a árvore é construída por completo e em seguida são

buscados ramos que podem ser podados, seja pela substituição de ramos (sub-árvore)
por uma folha, ou pela elevação de uma sub-árvore na estrutura da árvore principal,
podando-se assim algum ramo intermediário.
Na pré-poda, a árvore de decisão pára de crescer em função de determinadas

restrições disponíveis nos algoritmos e escolhidos pelo usuário, de forma que um ramo
de decisão, para ser criado, deve atender a estas restrições, caso contrário, se torna
uma folha. Como tipo de restrições temos, nível de profundidade da árvore (SAS
INSTITUTE INC., 2013), número mínimo de registros cobertos por folha (WITTEN;
FRANK, 2011), significância estatística ou ganho de informação (TAN et al., 2009).
Segundo Han et al. (2012), a maior dificuldade está na escolha do valor apropriado da
restrição para poda, pois, uma vez que este seja muito elevado, torna a árvore muito
simples, e no caso de valores baixos, a árvore é pouco generalista.
A árvore de decisão, depois de pronta, pode ser utilizada para descobrir a

estrutura preditiva do problema, permitindo a compreensão de quais variáveis e
interação dessas variáveis conduzem ao fenômeno estudado. Regras podem ser
extraídas de árvores de decisão, no formato “SE... → ENTÃO” (explicação detalhada no
tópico seguinte), seguindo o caminho do nó raiz até uma das folhas, facilitando assim
sua compreensão, uma vez que permitem a análise dos padrões encontrados de forma
individual (TAN et al., 2009; WITTEN; FRANK, 2011).
2.2.2 Indução de regras de decisão
A indução de regras de classificação é uma abordagem alternativa a árvores de

decisão, tendo como vantagem a possibilidade de gerar uma base de conhecimento de
23
mais fácil interpretação, principalmente para os casos de árvores de decisão profundas
(APTÉ; WEISS, 1997; HAN et al., 2012).
A base de conhecimento gerada por esta classe de algoritmo de classificação é

expressa por meio de um conjunto de regras do tipo “SE... → ENTÃO”, onde o “SE”,
que corresponde ao antecedente ou pré-condição da regra, consiste numa série de
testes sobre os atributos independentes. E o “ENTÃO”, por sua vez, é o consequente
ou conclusão da regra, indicando a classe dos exemplos cobertos pela regra (WITTEN;
FRANK, 2011).
O conjunto de regras gerado, em função da característica do algoritmo utilizado,

pode ser do tipo ordenado ou não-ordenado. No conjunto de regras ordenadas, estas
são organizadas num lista de prioridades, também chamada de lista de decisão, de
acordo com alguma determinada medida de qualidade da regra (precisão, cobertura,
complexidade, opinião de especialistas, etc.). Na predição de um novo registro, o
antecedente das regras é testado em ordem decrescente de importância dentro da lista
até que a regra seja ativada (antecedente satisfeito), dando assim a classificação do
registro. As regras seguintes na lista, mesmo que tivessem seu antecedente satisfeito,
são ignoradas. Para o caso de conjunto de regras não-ordenadas, as regras podem ser
testadas em qualquer ordem uma vez que são mutuamente exclusivas. Regras que
pertencem à conjuntos não-ordenados tentem a serem mais facilmente interpretadas
(HAN et al., 2012).
Para se extrair um conjunto de regras, existem duas grandes classes de

métodos, diretos, que extraem regras diretamente da base de dados, e indiretos, que
geram o conjunto de regras a partir do conhecimento extraído por outros métodos,
como árvores de decisão. Os métodos diretos segmentam a base de dados por meio de
divisões nos atributos independentes, de forma que seja possível atribuir uma classe
aos registros contidos em cada segmento, usando uma única regra de classificação. Os
métodos indiretos usam regras para simplificar o conhecimento extraído por outros
métodos.
24
Como algoritmo de indução direta pode ser citado o RIPPER (COHEN, 1995),
especialmente indicado para conjuntos de dados com distribuição de frequência
desequilibradas entre classes e ruídos (TAN et al., 2009).
Para problemas com múltiplas classes, o RIPPER ordena-as de forma

crescente a partir de sua frequência. Na primeira interação, com o intuito de gerar
regras para a classe minoritária, é atribuído rótulo positivo aos seus registros e negativo
a todos os demais. Após, partindo de uma regra de antecedente vazio e consequente
positivo (estratégia de aumento de regra conhecida como geral-para-específico), o
algoritmo estuda o conjunto de restrições a serem incluídas, por meio do método de
ganho de informação, de forma a melhorar a qualidade da regra, uma vez que
inicialmente esta era ruim, pois cobria todos os registros da base de dados. Uma vez
que a regra passa a cobrir novamente registros negativos, o algoritmo pára de
aumentá-la e então é feita uma poda com base em registros do conjunto de dados de
validação. Finalmente, a regra pronta é adicionada ao conjunto de regras e os registros
cobertos por ela, tanto positivos como negativos, são retirados da base de dados inicial
e o processo de extração se repete até que todos os registros das classes não
majoritárias sejam cobertos (TAN et al., 2009).
2.2.3 Categorização do atributo meta
Algoritmos de indução de árvore de decisão ou de regras de classificação

exigem que o atributo meta seja do tipo categórico, sendo que a forma com que é feita
esta discretização afeta diretamente o desempenho dos modelos criados (BAY, 2000),
frequentemente de forma subjetiva (TITTONELL et al., 2008). Como trabalhos que
fazem uso deste artifício em cana-de-açúcar, podem ser citados Everingham et al.
(2007), Ferraro et al. (2009) e Souza et al. (2010).
As técnicas de discretização podem ser usadas para reduzir o número de

valores de um atributo contínuo por meio da sua divisão em intervalos. Os novos
intervalos criados podem então ser utilizados para substituir os valores brutos
25
contínuos. Essa substituição de atributos com valores contínuos por um pequeno
número de intervalos tende a reduzir e simplificar a base de dados original. Desta
forma, os resultados de modelagem se tornam de mais fácil compreensão (HAN et al.,
2012).
Dentre as possíveis técnicas de discretização podem ser citadas: análise de

histograma, binning e análise de agrupamentos. A análise de histograma (Equal
Frequency) segmenta o atributo meta em k intervalos com igual número de registros por
classe. O binning (Equal width) consiste na divisão do atributo meta em k intervalos de
igual amplitude, sendo, este método, sensível a valores extremos (outliers). O método
de análise de agrupamento visa minimizar a diferença entre pontos dentro de um
mesmo grupo e maximizar a diferença entre os k grupos. Em todos os métodos citados,
o número de k é previamente selecionado pelo usuário, sendo um fator fundamental
para o sucesso dos métodos de modelagem posteriores (HAN et al., 2012; WITTEN;
FRANK, 2011).
Um exemplo de algoritmo para análise de agrupamentos é o k-means

(FORGEY, 1965; FRIEDMAN; RUBIN, 1967; MCQUEEN, 1967). Este inicia seu
processo de partição dos registros da base de dados com a escolha arbitrária de k
centros de grupos e então alocação dos registros ao centro mais próximo. Em seguida,
os centros, que representam as médias dos registros dos grupos, são recalculados e,
então, os registros são movidos de grupo caso um novo centro de outro grupo esteja
mais próximo que o novo centro do grupo original. O processo continua iterativamente
até que seja obtida estabilidade. Usualmente um domínio de valores é experimentado
para o número de k grupos (MANLY, 2005).
2.2.4 Medidas de Interesse
Uma etapa importante na descoberta de conhecimento em bases de dados é a

avaliação dos resultados do modelo gerado, no caso de tarefas descritivas,
representado na forma de regras. Medidas de interesse são as medidas de avaliação
26
destas regras usadas para comparar a qualidade do conhecimento descoberto. É muito
comum o uso da medida do percentual de registros corretamente classificados
(acurácia) num conjunto de regras, porém, segundo Freitas (1999), este não é o melhor
indicador de interesse a ser aplicado em tarefas de cunho descritivo. Em diversos
casos, a acurácia de um classificador pode não ser satisfatória, em contra partida, o
conhecimento induzido por poucas regras do conjunto podem ter uma boa taxa de
acerto e trazer alguma outra propriedade interessante (MEIRA, 2008).
Dentro do processo de avaliação, cada regra é medida de forma objetiva, onde

são calculadas medidas de interesse, que funcionam como um filtro para regras
potencialmente interessantes. Em seguida, a forma subjetiva é aplicada, sendo o
conhecimento avaliado por especialistas, que atua como um filtro final (FREITAS, 1999;
GENG; HAMILTON, 2006; MCGARRY, 2005; TAN et al., 2009). Han et al. (2012)
salientam que medidas objetivas não substituem a avaliação de especialistas para
identificação de regras interessantes devido à frequente ausência de correlação entre
estas duas formas de avaliação.
As medidas objetivas são calculadas com base na metodologia desenvolvida por

Lavrac et al. (1999). Cada regra é considerada com o formato X → Y, onde X
corresponde ao antecedente, formado pelos atributos independentes; e Y,
consequente, correspondendo ao atributo meta. As medidas objetivas podem ser
calculadas com base nos contadores de frequência tabulados em uma tabela de
contingência (Tabela 2).
Tabela 2. Tabela de contingência para a regra X→Y.
Y ¬Y
X f11 f10 f1+

¬X f01 f00 f0+
f+1 f+0 N
Onde,
27
f11 = número de exemplos para os quais Y é verdadeiro e X é verdadeiro
f01 = número de exemplos para os quais Y é verdadeiro e X é falso (¬X)
f10 = número de exemplos para os quais Y é falso (¬Y) e X é verdadeiro
f00 = número de exemplos para os quais Y é falso (¬Y) e X é falso (¬X)
f1+ = número de exemplos para os quais X é verdadeiro
f+1 = número de exemplos para os quais Y é verdadeiro
f0+ = número de exemplos para os quais X é falso (¬X)
f+0 = número de exemplos para os quais Y é falso (¬Y)
N = número total de exemplos
A complexidade consiste na contagem do número de atributos independentes

que constituem a regra, dado por X.
A cobertura (Equação 1) determina a frequência na qual uma regra é aplicável a

um determinado conjunto de dados, sendo importante porque uma regra que abranja
poucos registros pode acontecer simplesmente por coincidência.
𝑓1+
𝑐(𝑋 → 𝑌) = (1)
𝑁
A precisão (Equação 2), mede o número de registros corretamente cobertos pela

regra.
𝑓11
𝑝(𝑋 → 𝑌) = (2)
𝑓1+
A medida de novidade (Equação 3) se baseia na diferença entre a probabilidade

observada de X e Y e o valor esperado se X e Y forem estatisticamente independentes,
28
em outras palavras, uma regra é considerada “nova” se a probabilidade de antecedente
e consequente ocorrerem juntos não puder ser inferido pelas probabilidades deles
isoladamente. A faixa de valores da novidade é entre -0,25 e 0,25, onde valores
extremos indicam forte associação entre X e Y, ou seja, uma regra interessante
(LAVRAC et al., 1999).
𝑓11 𝑓+1 × 𝑓1+

𝑁𝑜(𝑋 → 𝑌) = − (3)
𝑁 𝑁2
A medida likelihood ratio (Equação 4) está relacionada com a diferença na

distribuição das classes do atributo meta na base de dados integral e após a aplicação
da regra. Quanto maior esta diferença, maior o valor da medida, que vai de zero até
infinito (HAN et al., 2012; ZAR, 2010).
𝑓11 𝑓10
𝐿𝑅(𝑋 → 𝑌) = 2 [𝑓11 × ln ( ) + 𝑓10 × ln ( )] (4)
𝑓+1 𝑓+0
A avaliação de regras por medidas subjetivas, de forma geral, comparam o

conhecimento de especialistas de determinada área do conhecimento com padrões
descobertos pelos algoritmos. Estas são consideradas como subjetivas, pois o grau de
interesse está estritamente relacionado às impressões gerais do especialista do
domínio sobre uma regra. A classificação possível é se as regras são, ou não,
inesperadas e passíveis de ação (MCGARRY, 2005).
De acordo com Geng e Hammilton (2006), com base em revisão bibliográfica,

são poucos os estudos que tentam correlacionar medidas de interesse objetivas e
subjetivas, sendo que a medida objetiva que mais se aproxima da opinião dos
especialistas é muito dependente da área em que o estudo está sendo conduzido.
Desta forma, não é possível prever quais medidas objetivas terão melhor desempenho
em representar a classificação dada pelos especialistas.
29
30
O processo se iniciou com a obtenção de bases de dados (etapa 1).
Primeiramente uma BD que continha informações históricas sobre a produtividade da
cana-de-açúcar (TCH) no nível de talhão, bem como outras características que
poderiam auxiliar na análise, como manejo e solo (etapa 1.1). Tal base foi denominada
BD Produção. Em seguida, na etapa 1.2, foram buscadas bases de dados com
informações que pudessem complementar o BD Produção, sendo estas chamadas de
BD´s Complementares. Cada uma das bases de dados passou pelo processo de
limpeza (etapa 2), onde a qualidade das informações contidas foi avaliada e corrigida
quando necessário.
A Etapa 3 consistiu na criação de atributos derivados, ou seja, cálculo de novos

atributos com base nos originais. Foi nesta etapa em que foi feita a segmentação do
ciclo da cultura nas fases fenológicas (Etapa 3.1), calculados índices meteorológicos
(Etapa 3.2) e relações edáficas (Etapa 3.3) e feita a caracterização das variedades
(Etapa 3.4).
Na etapa 4, uniram-se os atributos do BD Produção e BD´s complementares,

dando origem a uma nova base de dados: BD enriquecido. A padronização do potencial
produtivo foi realizada com o intuito de eliminar a influência de um ou mais fatores
determinados sobre o atributo meta (TCH), assim equalizando o potencial produtivo dos
talhões que se desenvolveram em condições distintas, gerando o atributo meta
padronizado ZTCH (desempenho produtivo).
Na etapa 5 foi feita a categorização do desempenho produtivo (ZTCH), pelo

método k-means, com k igual a 3, 4, e 5. Para cada um dos valores de k, o grupo de
menor média recebeu o rótulo Baixo, o grupo de maior média, Alto, e todos os demais
grupos restantes foram unidos e denominados Médio. A fim de tornar o problema de
mais simples interpretação, os padrões associados a Alto e Baixo desempenho forma
analisados separadamente, desta forma, cada valor de k gerou dois atributos metas
categóricos.
Na etapa 6,. cada um dos seis atributos metas categóricos foi unida aos atributos
descritores da BD enriquecida, assim gerando seis BD´s Modelagem.
32
Cada uma das BD´s Modelagem foi submetida a dois diferentes algoritmos para
indução de regras de decisão (Etapa 7), RIPPER (COHEN, 1995), disponíveis no
software livre Weka 3.6.10 (HALL et al., 2009) e Classification Tree, disponível no
software JMP versão 11.2 (SAS INSTITUTE INC., 2013). A cobertura mínima de cada
regra foi de 2% do total de registros.
Cada uma das regras encontradas poderia ser selecionada de duas maneiras: (I)
ranking por meio das medidas de interesse Novidade (LAVRAC et al., 1999) e
Likelihood ratio (ZAR, 2010); (II) taxa de acerto e complexidade; correspondendo à
Etapa 8. Aquelas selecionadas para análise individual à luz dos conhecimentos
agronômicos disponíveis na literatura (Etapa 9.1) foram classificas se são, ou não,
inesperadas e passíveis de ação. Os atributos descritores selecionados por todas as
regras induzidas também foram analisados de forma agrupada (Etapa 9.2).
Etapa 1. Obtenção de Bases de Dados
Etapa 1.1. BD Produção
A base de dados de produção correspondeu aos registros de produtividade dos

talhões da unidade Alcídia para a safra 2010/2011 e 2011/2012. Além do atributo meta
tonelada de cana por hectare (TCH), as seguintes informações relacionadas a cada
talhão estavam disponíveis: código de identificação do talhão, ano de safra, variedade,
localização (fazenda), início de ciclo (data de plantio ou colheita anterior), término de
ciclo (data de colheita), número do corte, ambiente de produção segundo Prado (2005)
e Demattê e Demattê (2009), classificação do solo, textura (classificação segundo
Demattê e Demattê (2009) e teores de argila, silte e areia em três profundidades: 0-25,
25-50 e 80-100 cm), fertilidade (classificação segundo Demattê e Demattê (2009) e
teores na camada de 0-20 cm para: pH, matéria orgânica, fósforo, potássio, cálcio,
magnésio, H+Al, alumínio, soma de bases (SB), capacidade de troca catiônica (CTC),
saturação de bases (V%) e saturação por alumínio (m%), aplicação de torta de filtro,
33
vinhaça, fertilizante (fórmula e dose), maturador, infestação de pragas (broca-da-cana:
Diatraea saccharalis; cigarrinha-das-raízes: Mahanarva fimbriolata; Migdolus: Migdolus
fryanus; e, nematóides), tipo de plantio (manual/mecanizado), forma de colheita
(mecanizada/manual) e condições de colheita (crua/queimada).
O conjunto de dados inicial possuía 65 colunas e 1303 linhas (talhões) para a

safra 2010/2011 e 1343 para a safra 2011/2012, totalizando 2646 registros. Optou-se
por utilizar dados de um curto período de tempo relativos à uma única região para
aumentar a probabilidade de se entrarem regras passíveis de ação ou inesperadas
(HAN et al., 2012).
Etapa 1.2. BDs Complementares
Em função dos dados já fornecidos juntamente com o BD Produção, as bases de

dados complementares se limitaram a informações climáticas, recebendo a
denominação BD Clima. No seu formato final, foi composta pelas informações históricas
de temperatura média, máxima e mínima diária (°C) e precipitação (mm) em
granularidade diária para o período em estudo.
Originalmente, os dados de temperatura foram obtidos em granularidade horária,

provenientes da estação meteorológica automática localizada no Parque Estadual do
Morro do Diabo (PEMD), município de Teodoro Sampaio - SP. Após os procedimentos
descritos na Etapa 2. Limpeza de dados (descrita a seguir), os dados foram passados
para granularidade diária de forma a constituir o BD Clima.
Por sua vez, os dados de precipitação para o período em estudo foram

fornecidos também pela unidade de produção Alcídia, em escala diária. Estes eram
referentes aos pluviômetros distribuídos pela unidade, e foram agrupados para
representar a média de precipitação ocorrida na unidade. Não foi possível associar as
medidas de precipitação de cada pluviômetro aos talhões mais próximos, pois não era
feito registro das posições dos pluviômetros.
34
Etapa 2. Limpeza dos Dados
Foi utilizado o software estatístico R (R DEVELOPMENT CORE TEAM, 2011)

ao longo de toda a etapa 2: Limpeza de dados.
A etapa de limpeza de dados para ambas as bases de dados foi composta por
processos de identificação de outliers, remoção de ruído nos dados, padronização,
preenchimento de valores faltantes e correção e eliminação de inconsistências. A forma
como os processos foram realizados em cada uma das bases de dados é descrita a
seguir.
Limpeza de dados no BD Produção
Como mencionado anteriormente, o conjunto de dados de produção inicial, pré-

limpeza, possuía 2646 registros. Deste, foram excluídos, inicialmente, os talhões sem
informação de produtividade e talhões identificados como áreas em formação ou
mudas, uma vez que não se aplicam para estudos da produtividade colhida. Além
disso, foram excluídos aqueles que não tinham simultaneamente a data da colheita e a
data da colheita anterior ou plantio, uma vez que nessa condição, não é possível
delimitar o início e o fim do ciclo de desenvolvimento do talhão.
A consistência dos dados foi verificada pela: soma das frações granulométricas
numa mesma camada deveria ser igual a 100%; atributos químicos de solo como SB,
CTC, V% e m% foram recalculados e o resultado deveria ser igual ao presente na base
de dados; as datas de colheita da safra 2010/2011 deveriam ser iguais as datas de
início de ciclo da safra 2011/2012, para um mesmo talhão, exceto quando fosse
renovado na segunda safra em estudo.
Além das verificações de coerência, foram identificados através de inspeção de

histogramas e boxplots (considerando 1,5 vezes o intervalo inter-quartílico) valores que
poderiam ser considerados como outliers ou incoerentes. Esses valores foram
35
identificados e submetidos à usina, que foi capaz de corrigir ou validá-los. Os registros
que se mantiveram sob suspeita de serem errôneos, foram excluídos.
Foi necessário padronizar campos de entrada textual, devido à variação no uso

de acentuação e letras maiúsculas, e.g. “Não, Não, não, nao” ou “Baixo, Baixa, baixa”.
Também foi harmonizada a unidade de quantidade de fertilizante aplicado para kg/ha.
Após a etapa de limpeza, a base de dados Produção permaneceu com 2255

registros, sendo estes usados nas etapas seguintes.
Limpeza de dados no BD Clima
Na série de dados original de temperatura, em escala horária, existiam 2432

registros faltantes, sendo alguns consecutivos. Como 97% destes estão em sequências
de até três valores faltantes consecutivos, optou-se pela interpolação linear.
Após a imputação de valores faltantes, a série histórica foi agregada para

granularidade diária, e então calculados os valores de temperatura mínima, média e
máxima.
De posse da base de dados com valores de temperatura diária, os dados de

precipitação diária média foram unidos de forma a obter-se o BD Clima que foi usado
nas etapas seguintes.
Etapa 3. Criação de atributos derivados
Atributos derivados são aqueles incluídos na base de dados, obtidos por meio
do cálculo que faz uso de um ou mais atributos originais. Estes novos atributos podem
incorporar conhecimento que os algoritmos de modelagem reconheçam na forma de
padrões.
36
Etapa 3.1. Divisão em Fases fenológicas
O clima foi dividido em quatro fases fenológicas ao longo do ciclo de

desenvolvimento da cana-de-açúcar: brotação, perfilhamento, crescimento e
maturação. Esta segmentação do clima teve o objetivo de representar seu efeito
diferenciado em cada uma das fases de crescimento da cultura. Devido a inexistência
de dados relativos à fenologia, foram utilizadas estimativas baseadas no
comportamento local típico da cultura, que foi posteriormente validada com a equipe da
unidade de produção, conforme representado na Figura 3.
Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov
1 2 3 4 5 6 7 8 9 10 11 12 13 14
1 2 3 4 5 6 7 8 9 10 11 12 13 14 Plantio de 18 meses
1 2 3 4 5 6 7 8 9 10 11 12 13 14
1 2 3 4 5 6 7 8 9 10 11 12 13
1 2 3 4 5 6 7 8 9 10 11 12 13 Plantio de
1 2 3 4 5 6 7 8 9 10 11 12 13 Inverno
1 2 3 4 5 6 7 8 9 10 11 12 13
1 2 3 4 5 6 7 8 9 10 11 12 13
1 2 3 4 5 6 7 8 9 10 11 12
Plantio de 12 1 2 3 4 5 6 7 8 9 10 11 12
meses 1 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 7 8 9 10 11
1 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 7 8 9 10 11 12 Soca
1 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 7 8 9 10 11 12
Brotação 1 2 3 4 5 6 7 8 9 10 11 12
Perfilhamento 1 2 3 4 5 6 7 8 9 10 11 12
Crescimento 1 2 3 4 5 6 7 8 9 10 11 12
Maturação 1 2 3 4 5 6 7 8 9 10 11 12
Figura 3. Fenologia típica para região de estudo em função do tipo de ciclo e meses do ano (BOCCA,
2014).
37
Etapa 3.2. Cálculo de índices meteorológicos
Para cada uma das quatro diferentes fases fenológicas (brotação, perfilhamento,
crescimento e maturação) e ciclo completo, denominadas nas variáveis I, II, III, IV e
ciclo, respectivamente, foram calculados índices meteorológicos padronizados pela
duração do período, uma vez que estes variam em função do ciclo da cultura (número
de cortes) e mês do ano.
Assim, como estimativa de água disponível, foi usado o volume de precipitação

total menos evapotranspiração da cultura divididos pela duração da fase ou ciclo
completo (P-ETC_dia_I até P-ETC_dia_IV e P-ETC_dia_ciclo). O método para
estimativa da ETP foi pelo método de Thornthwaite e Mather (1955) e os valores de
coeficiente de cultura (Kc) para I a IV foram, respectivamente, 0,5; 0,95; 1,25 e 0,8
(DOORENBOS; PRUITT, 1977).
Ainda com relação a água disponível, foram criados atributos relacionados ao

número de dias consecutivos sem chuva (Estiagem) e a contagem de veranicos
(Veranicos). Foram considerados veranicos os períodos de 10 dias consecutivos sem
chuva (PORTO DE CARVALHO et al., 2013). A aplicação de vinhaça após o plantio ou
colheita em parte da área da unidade de produção foi considerada para os cálculos de
veranico e estiagem, assim como foram feitas correções na soma de precipitação do
período de brotação.
Foram inclusos, também para cada uma das fases fenológicas e ciclo completo,
o atributo derivado Graus-Dias médio diário (LIU et al., 1998), considerando uma
temperatura base de 18 ºC.
Etapa 3.3. Cálculo de relações edáficas
Para os dados de química e textura do solo, foram calculadas algumas relações

(Tabela 3).
38
Etapa 3.4. Caracterização das variedades
Cada uma das variedades plantadas na unidade de produção em estudo foi

caracterizada de acordo com a época de maturação e ambiente de produção
recomendado conforme recomendado por Hoffmann et al. (2008).
Os valores de época de maturação vão de 4 a 11, representando de abril a

novembro, respectivamente. Já o ambiente de produção recomendado está no intervalo
1 a 5, o que equivale a A até E.
Etapa 4. Padronização do potencial produtivo
A etapa de padronização do potencial produtivo se deu após a integração das

bases de dados Produção e Clima, assim gerando a BD Enriquecida. Tal processo
consistiu basicamente na manutenção do BD Produção após a fase de preparação de
dados e inclusão dos atributos derivados obtidos na BD Clima.
A BD Clima teve os valores para posterior obtenção dos atributos derivados

calculados na forma de linhas, ou seja, por dia. Com base na data de início de ciclo de
cada talhão (plantio ou colheita anterior), utilizou-se a duração de cada fase fenológica
pré-determinada para então se realizar os cálculos para obtenção dos atributos
derivados segmentados nas 4 fases e do ciclo todo. Estes, na base de dados
enriquecida, passam a ser considerados como atributos (colunas), como mostrado na
Figura 4.
40
BD CLIMA
ANO MÊS DIA Graus-dia
2011 JAN 1 4,00
2011 JAN 2 5,99
2011 JAN 3 3,97
2011 JAN 4 4,90
2011 JAN 5 5,85
... ... ...
BD ENRIQUECIDA
TALHÃO INÍCIO CICLO Graus-dia_I Graus-dia_II Graus-dia_III Graus-dia_IV Graus-dia_Ciclo
A 02/JAN/2011 1,00 0,99 0,97 0,90 ...
B 22/FEV/2012 0,99 0,97 0,90 0,85 ...
... ... ... ... ... ... ...
Figura 4. Exemplo da forma de integração de atributos da BD Clima na BD enriquecida.
A padronização do potencial produtivo foi feita pelo fator de maior influência

sobre produtividade, neste caso, o número de cortes3. Esta etapa foi realizada com o
intuito de definir o potencial produtivo do talhão em função do número de cortes, assim
eliminando sua influência sobre o atributo meta tonelada de cana por hectare (TCH)
(Figura 5). Desta forma, a produtividade dentro de cada corte passa a ter média igual a
zero e desvio-padrão igual a 1. Assim, entende-se que o potencial produtivo para cada
corte é igual a zero. O TCH padronizado foi chamado de ZTCH (desempenho
produtivo).
Esta padronização se fez necessária uma vez que, sabidamente, há um declínio

na produtividade com o acúmulo do número de cortes, o que não contribuiria com o
objetivo do estudo identificar, por exemplo, que talhões com plantio de 18 meses têm
alto desempenho e 5º. corte, têm baixo.
3
O método utilizado para determinação do fator de maior influência e resultado obtido estão descritos no
ANEXO I – Método utilizado para determinação do fator de maior influência na produtividade. Entende-se
que o método aplicado é uma possível alternativa ao conhecimento de especialistas.
41
Figura 5. Distribuição dos valores do atributo meta produtividade originais (TCH) e após padronização do
seu potencial (ZTCH).
Apesar da padronização pelo número de cortes, fatores que possivelmente

venham a atuar apenas num determinado grupo de cortes ainda podem ser
identificados pelos algoritmos de indução de regras, se for o caso.
Etapa 5. Categorização do desempenho produtivo
A categorização do desempenho produtivo, atributo meta ZTCH, foi realizada

pelo método de agrupamento k-means, com a diferença entre pontos baseada na
distância euclidiana e o número de k grupos igual a 3, 4 e 5. A aplicação deste método
foi realizada considerando apenas o atributo meta em cada rodada e sempre
desconsiderando todos os demais atributos. Foram utilizados diferentes valores de k
para aumentar a possibilidade de encontrar regras de interesse, visto que o método de
categorização tem forte influência sobre os algoritmos de indução de regras (BAY,
2000).
42
Optou-se pelo k-means, que apesar de ter o número de grupos (k) definido
arbitrariamente, tem, de forma geral, capacidade de se adaptar à distribuição dos dados
do atributo meta.
A título de ilustração, a Figura 6 mostra o efeito do agrupamento em três

classes (K = 3) sobre TCH, mostrando a importância da prévia padronização (ZTCH)
para então fazer a segmentação, assim anulando o efeito do número de cortes. Por
exemplo, no 4° corte, valores de TCH inferiores a 70 foram classificados como alto
desempenho, ao passo que para plantio de 18 meses, valores acima de 70 foram
considerados como médio.
Figura 6. Visualização do agrupamento utilizando K-means (K = 3) sobre TCH
Os grupos de média mais alta, formados pelos diferentes valores de k, foram

nomeados de ALTO, e os demais grupos de NÃO-ALTO. Procedimento análogo foi feito
com os grupos mais baixos, sendo chamados de BAIXO e NÃO-BAIXO (Figura 7).
43
Atributo Meta Atributo Meta
Alto k3 Baixo k3
Alto
Não-Baixo
Não-Alto
Baixo
Figura 7. Formação dos atributos meta categóricos Alto k3 e Baixo k3.
Desta forma, cada valor de k deu origem a dois atributos meta categóricos, um
com foco em talhões de ALTO desempenho e outro em BAIXO desempenho. Tal
procedimento foi adotado para manter o problema de modelagem como binário, mais
simples.
Os segmentos obtidos para cada valor de k estão na Tabela 4.
Tabela 4. Percentil de registros na categoria de desempenho Alto e Baixo com relação ao atributo meta
desempenho produtivo (ZTCH) em função de diferentes valores de k no método de agrupamento K-
means.
Desempenho
Valor de k BAIXO ALTO
3 PO – P24,1 a P75,8 – P100 a
4 PO – P18,2 b P82,9 – P100 b
5 PO – P16,1 c P81,0 – P100 c
Letras diferentes nas colunas indicam médias diferentes pelo teste de Kruskal Wallis a 5% de
significância.
44
Nota-se que, para ambos os desempenhos, as segmentações em função dos
diferentes valores de k puderam ser diferenciadas.
Etapa 6. Criação dos BD´s Modelagem
A criação dos seis BD´s Modelagem foi feita com a junção dos atributos
descritores da BD enriquecida com cada um dos seis atributos meta discretos, três para
desempenho Alto e três para Baixo (Figura 8).
Atributo Meta BD Modelagem

Alto k3 = Alto k3

+ Alto k4 =
Alto k4
+ Atributo Meta BD Modelagem
=
Atributos + Alto k5 Alto k5
descritores da
BD Enriquecida + Atributo Meta BD Modelagem
Baixo k3
=
Baixo k3
+
+ Baixo k4 = Baixo k4

Baixo k5 = Baixo k5
Figura 8. Formação dos BD´s Modelagem
A descrição dos 62 atributos utilizados para a extração de regras (atributos descritores

da BD enriquecida) está disponível na Tabela 14 e Tabela 15 (ANEXO II).
45
Etapa 7. Extração de regras
Cada uma das BD´s Modelagem foi submetida a dois diferentes algoritmos para
indução de regras de decisão, RIPPER (COHEN, 1995) disponível no software livre
Weka 3.6.10 (HALL et al., 2009) e Classification Tree4, disponível no software JMP
versão 11.2 (SAS INSTITUTE INC., 2013). Foram utilizados diferentes algoritmos para
aumentar a possibilidade de encontrar regras de interesse visto que cada um possui
uma diferente estratégia para seleção de atributos.
Para ambos os algoritmos, os atributos descritores selecionados são os que

geram maior ganho de informação, ou seja, que resultam na maior redução da entropia
(medida de desorganização dos dados).
O ponto de pré-poda utilizado foi de 2% do número total de registros, técnica

amplamente utilizada para aumentar a possibilidade de encontrar regras passíveis de
ação ou inesperadas (HAN et al., 2012).
Com o objetivo de melhorar o desempenho dos algoritmos de indução de regras,

foi feito o balanceamento de classes do atributo meta (Figura 9), que consistiu na
retirada de registros exclusivamente da classe majoritária, de forma aleatória, (Não-
Alto/Não-Baixo) até que a base de dados atingisse um balanceamento 40/60 para todos
os valores de k. Após a indução das regras na base de dados balanceada, cada uma foi
validada de forma independente na base de dados original (desbalanceada), sendo
este o resultado apresentado nos resultados.
4
Apesar de ser originalmente um algoritmo de indução de árvores de decisão, foi utilizada a
funcionalidade do software de apresentar os resultados no formato de regras de decisão.
46
BD Original (desbalanceado)
% dos 80 20 Validação
registros (80 registros) (20 registros)
Balanceamento
(retirada de registros
de classe majoritária)
BD Balanceado R1: Se... → Então...

R2: Se... → Então...
% dos 60 40 Indução de R3: Se... → Então...
registros (30 registros) (20 registros) regras R4: Se... → Então...
Rn: Se... → Então...
Figura 9. Balanceamento de classes do atributo meta e validação
É importante frisar que a técnica de validação das regras descrita só é válida

quando o objetivo da pesquisa é descritivo (não-preditivo), semelhante ao utilizado na
extração de regras de associação (HAN et al., 2012), tendo como vantagem a
eliminação da necessidade de interpretação das regras de forma ordenada, quando for
o caso.
Etapa 8. Seleção de regras por medidas de Interesse
Para que uma regra fosse selecionada, bastou que atendesse a um dos dois
diferentes métodos descritos a seguir:
Para o método I, cada uma das regras encontradas foram avaliadas pelas
medidas de interesse Novidade (LAVRAC et al., 1999) e Likelihood ratio (ZAR, 2010).
Um ranking decrescente em qualidade das regras foi feito para cada uma das medidas
de interesse independentemente e então a média destes rankings foi calculada para
elaboração de um ranking final. As 5 regras mais bem colocadas foram selecionadas.
No método II, complementarmente, regras que atingiram ao menos 80% de

precisão e número de atributos no antecedente (complexidade) inferior ou igual a 4,
também foram selecionadas.
47
Etapa 9.1. Análise agronômica das regras selecionadas
As regras selecionadas na Etapa 8 foram interpretadas de forma individual a luz

dos conhecimentos agronômicos disponíveis na literatura (Etapa 9.1), classificando-os,
de forma subjetiva, se são, ou não, inesperados e passíveis de ação (MCGARRY,
2005).
Etapa 9.2. Análise agronômica dos atributos descritores
Os atributos descritores selecionados por todas as regras induzidas também

foram analisados de forma agrupada (Etapa 9.2). A participação das categorias de
atributos descritores para desempenho Alto e Baixo foi comparada por meio do Teste
de Independência (ɑ = 5%), seguida pela comparação dentro de cada categoria de
atributo descritor pela estimativa do intervalo de confiança (ɑ = 5%). Em seguida, dentro
de cada desempenho, o número de aparições de cada grupo foi comparado pelo Teste
Z (ɑ = 5%).
3.2 Descrição da unidade de produção em estudo
A unidade de produção em estudo, Alcídia, faz parte do grupo Odebrecht

Agroindustrial, estando localizada no município de Teodoro Sampaio – SP (S 22°
31´57´´ W 52° 10´03´´, altitude média 321 m), extremo oeste do Estado de São Paulo,
região conhecida como Pontal do Paranapanema. Os registros de talhões comerciais
de produção de cana-de-açúcar fornecidos correspondem as safras 2010/2011 e
2011/12, representando uma área colhida de aproximadamente 25.000 ha por safra,
com tamanho médio de talhão de 22,6 ha. De acordo com Brunini (2010) esta unidade
48
se localiza numa região caracterizada como apta sem restrições, tendo um déficit
hídrico anual entre 10 e 40 mm, temperatura anual média anual entre 20°C e 24° e
temperatura do mês mais frio superior a 17°C, apresentando uma boa distribuição de
chuvas durante o ano. A distribuição de chuvas e temperatura média mensal do período
em estudo estão disponíveis na Figura 10.
450 30
400
25
350
300 20
250
mm
15
°C
200
150 10
100
5
50
0 0
mai/10
jun/10
mai/11
jun/11
mai/12
jun/12
dez/10
dez/11
jan/10
fev/10
mar/10
ago/10
set/10
jan/11
fev/11
mar/11
jan/12
fev/12
mar/12
set/12
nov/10
ago/11
set/11
nov/11
ago/12
nov/12
abr/10
jul/10
out/10
abr/11
jul/11
out/11
abr/12
jul/12
out/12
P mm T oC
Figura 10. Precipitação mensal e temperatura média mensal para Usina Alcídia – Teodoro Sampaio – SP,
de Jan/2010 a Nov/2012.
Os ambientes de produção, segundo Prado (2005), podem ser classificados

como: 70% dos talhões em ambiente E e 26% em ambiente D, sendo os 4% restantes
em ambientes C e B.
Os solos, de acordo com Santos et al. (2006), são latossolo vermelho (55%),
neossolo quartzarênico (24%), latossolo vermelho-amarelo (11%) e argissolo vermelho
(6%) e argissolo vermelho-amarelo (3%). Seguindo o mesmo critério, com relação a
classe de fertilidade (1 – mais fértil; 7 - menos fértil): 51% em classe 3; 38% em classe
49
4; 6% em classe 2; e, 6% em classe 1. Finalmente, para classes de textura do solo (1 –
mais argiloso; 6 – mais aresono; 7 – siltoso), a área em estudo é classificada como:
55% em classe 4; 23% em classe 5; 11% em classe 2; 9% em classe 3; e, 2% em
classe 6.
Com relação à mecanização da operações de plantio e colheita, 89% de todos

os talhões, independente do número de corte em que se encontravam, foram plantados
mecanicamente. A colheita é mecanizada em 98% dos talhões, sendo crua (sem
queima prévia da palha) em 81%.
50
4 RESULTADOS E DISCUSSÃO
4.1 Resultados
A aplicação da abordagem descrita sob os dados foi capaz de induzir 21 regras

para desempenho Alto (Figura 11) e 24 para desempenho Baixo (Figura 12). Para os
três valores de k testados (3, 4 e 5), foi possível encontrar regras com cobertura acima
de 2%. Para desempenho Baixo, cada valor de k (3, 4 e 5) gerou um número
semelhante de regras, sendo 9, 7 e 8, respectivamente. Este fato não ocorreu para as
regras geradas para talhões de Alto desempenho, onde k igual a 4 gerou apenas 3
regras, frente a 10 e 8 regras com k igual a 3 e 5, respectivamente.
100%
90%
80%
Precisão
70%
60%
50%
2% 4% 6% 8% 10% 12% 14% 16% 18% 20% 22%
Cobertura
ALTO 3 ALTO 4 ALTO 5
Figura 11. Precisão e cobertura das regras induzidas para talhões de alto desempenho de produtividade
padronizada pelo número de corte (ZTCH).
Para desempenho alto, não é possível encontrar um padrão de cobertura ou

precisão associado as regras para os valores de k. De forma geral, as regras possuem
cobertura entre 3 e 4% dos registros, formando dois grupos quanto a precisão: entre 80
51
e 90% e entre 60 e 65%. Existem duas regras com cobertura de destaque, 12 e 21%,
porém ambas com precisão inferior a 55%.
100%
90%
80%
Precisão
70%
60%
50%
2% 4% 6% 8% 10% 12% 14% 16% 18% 20% 22%
Cobertura
BAIXO 3 BAIXO 4 BAIXO 5
Figura 12. Precisão e cobertura das regras induzidas para talhões de baixo desempenho de
produtividade padronizada pelo número de corte (ZTCH).
Com relação ao desempenho de precisão e cobertura das regras geradas para o

desempenho baixo, é possível agrupá-las com base no valor de k. Quando k foi igual a
5, na sua maioria, a regra têm cobertura entre 3 e 5% e precisão inferior a 70%. Por sua
vez, k igual a 4 e 3 possuem uma precisão maior, entre 70 e 85% em sua maioria.
Diferentemente das regras para desempenho alto, estas não possuem cobertura ou
precisão de grande destaque.
A análise das regras induzidas por algoritmo mostram que para desempenho alto
(Tabela 5), RIPPER foi responsável por 12 regras e Classification Tree por 9 regras.
Foram selecionadas para análise individual, respectivamente, 6 e 3 regras. Para baixo
desempenho (Tabela 6), RIPPER foi responsável por 20 regras, sendo 7 selecionadas,
a passo que Classification Tree induziu 4 regras no total, com 2 selecionadas.
52
Para alto desempenho, RIPPER teve um desempenho ligeiramente superior,
correspondendo a 57% das regras induzidas e 66% das selecionadas. No caso de
baixo desempenho, RIPPER foi significativamente superior, com 83% das regras
induzidas e 78% das selecionadas.
Tabela 5. Número de regras induzidas e selecionadas por algoritmo para desempenho Alto.
Seleção da regra
Algoritmo K Sim Não Total
3 2 4 6
4 1 0 1
RIPPER
5 3 2 5
Total 6 6 12
3 1 3 4
Classification 4 1 1 2
Tree 5 1 2 3
Total 3 6 9
Outro ponto de destaque é que Classification Tree não teve mais de uma regra
selecionada por valor de K para ambos os desempenhos. Também não teve grande
diferença no número de regras induzidas em função de K dentro de um determinado
desempenho.
Tabela 6. Número de regras induzidas e selecionadas por algoritmo para desempenho Baixo.
Seleção da regra
Algoritmo K Sim Não Total
3 3 4 7
4 3 3 6
RIPPER
5 1 6 7
Total 7 13 20
3 1 1 2
Classification 4 0 1 1
Tree 5 1 0 1
Total 2 2 4
Por sua vez, RIPPER teve significativa interação entre o valor de K dentro de
desempenho alto, induzindo apenas uma regra. Tal fato não foi observado em
desempenho baixo.
53
4.1.1 Regras individuais – Alto desempenho
Como mencionado anteriormente, foram induzidas 21 regras para desempenho

Alto. Estas foram numeradas por ordem de extração de R1 a R21, sendo que 9 regras
foram selecionadas para análise individual.
As regras R3, R4 e R6 foram extraídas do BD Modelagem com K igual a 3,

estando associadas aos talhões com 24,2% melhor desempenho (Tabela 7).
Tabela 7. Regras induzidas a partir do BD Modelagem K3, selecionadas, associadas a desempenho Alto.
Precisão Cobertura
N. Regra
(%) (%)
R3 SE (Textura ≤ 3) & (Cigarrinha ≥ 2,9) 100,0 2,3
→ ENTÃO Alto (K3 | 24,2% | Classification Tree)
R4 SE (Textura ≤ 3) 50,1 20,6
→ ENTÃO Alto (K3 | 24,2% | RIPPER)
R6 SE (Veranico ciclo ≤ 6) & (Fertilidade ≤ 2) & 86,5 2,3
(Graus-dia Maturação ≤ 4,32)
A regra R3, com precisão de 100,0% e cobertura de 2,8%, possui como

antecedente, solos com classe de textura igual ou inferior a 3 (mais que 26% de argila
no horizonte B) e infestação por cigarrinha (Mahanarva fimbriolata) igual ou superior a
2,9 ninfas/m.
A regra R4 possui acerto de 50,1%. Apesar de possuir uma baixa precisão, tem
significativa cobertura, 20,6% dos registros. Aponta que talhões com classe de textura
do solo igual ou inferior a 3 (mais que 26% de argila no horizonte B) tem Alto
desempenho.
A regra R6 apresentou cobertura de 2,3% dos registros e precisão de 86,5%.

Seu antecedente é composto por 3 atributos, a saber: número de veranicos no ciclo
54
menor ou igual a 6, classe de fertilidade menor ou igual a 2 (eutrófico ou epieutrófico) e
graus-dia na maturação menor ou igual a 4,32 °C.dia-1.
As regras R10 e R11 foram extraídos do BD Modelagem com K igual a 4,

estando associadas aos talhões com 17,1% melhor desempenho (Tabela 8).
Tabela 8. Regras induzidas a partir do BD Modelagem K4, selecionadas, associadas a desempenho Alto.
Precisão Cobertura
N. Regra
(%) (%)
R11 SE (Textura ≤ 2) & (Broca ≤ 2.05) & (Mg ≥ 7.0) 80,8 3,5
A regra R10 apresenta semelhante antecedente ao da regra R3, solos com

classe de textura igual ou inferior a 3 (mais que 26% de argila no horizonte B) e
infestação por cigarrinha (Mahanarva fimbriolata) igual ou superior a 2,9 ninfas/m.
Cobre 2,8% dos registros e sua precisão é de 88,9%.
A regra R11 tem precisão de 80,8% e cobertura de 3,5% dos registros. Estes
talhões têm como padrão o cultivo em áreas com textura menor ou igual a 2 (o que
corresponde a solos com teor de argila no horizonte B maior que 36%), danos
causados por broca no momento da colheita (Diatraea saccharalis) inferiores a 2% e
teor de Mg no solo superior a 7,0 mmolc . dm-3.
As regras R14, R15, R17 e R19 foram extraídos do BD Modelagem com K igual
a 5 (Tabela 9).
55
Tabela 9. Regras induzidas a partir do BD Modelagem K5, selecionadas, associadas a desempenho
Alto.
Precisão Cobertura
N. Regra
(%) (%)
R15 SE (Textura ≤ 3) & (Corte ≥ 3) 53,4 11,6
→ ENTÃO Alto (K5 |19,0% | RIPPER)
R17 SE (Seca Crescimento ≤ 16) & (Nematoide ≤ 0) 87,0 2,0
R19 SE (P-ETC Crescimento ≥ 1,39) & (Broca < 1,52) 83,6 2,7
A regra R14 possui exatamente o mesmo antecedente que a regra R10, também
cobrindo 2,8% dos registros, ou seja, solos com classe de textura igual ou inferior a 3 e
infestação por cigarrinha igual ou superior a 2,8 ninfas/m. A sua precisão é de 92,1%.
A regra R15, assim como R4, possui baixa precisão (53,4%), porém alta
cobertura (11,6%). Para talhões com solos com textura inferior ou igual a 3 e número de
cortes maior ou igual a 3°, o desempenho é Alto.
A regra R17 tem cobertura 2,0% dos registros e acerto de 87,0%. Possui 2
variáveis em seu antecedente: número de dias consecutivos sem precipitação na fase
de crescimento máximo menor ou igual a 16, e infestação com nematoides ausente.
A regra R19 tem taxa de acerto de 83,6% e cobertura de 2,7% dos registros. Os
antecedentes são disponibilidade hídrica na fase de crescimento máximo (diferença
entre precipitação e evapotranspiração da cultura) superior ou igual a 1,39 mm.dia -1, e
infestação por broca inferior a 1,52%.
56
4.1.2 Regras individuais – Baixo desempenho
O método utilizado gerou 24 regras associadas a talhões com baixo

desempenho, numeradas de R22 a R45 por ordem de extração. Foram 9 as regras
selecionadas para análise individual.
As regras R22, R25, R26 e R28 foram extraídas do BD Modelagem com K igual
a 3 (Tabela 10).
Baixo.
Precisão Cobertura
N. Regra
(%) (%)
R22 SE (Graus-dia Maturação ≥ 4,51) & (Textura ≥ 4) & 86,2 2,6
(P-ETC Brotação ≥ 5,4) & (KCaMg < 0,11)
→ Baixo (K3 | 24,1% | Classification Tree)
R25 SE (Seca Brotação ≤ 9) & (P-ETC Ciclo ≤ -0,22) & 81,0 4,4
(Ambiente Produção ≥ 6)
→ Baixo (K3 | 24,1% | RIPPER)
R26 SE (Seca Crescimento ≥ 33) & (Seca Brotação <19) & (Ca < 7) & 84,7 2,6
(Corte ≥ 3)
R28 SE (Seca Crescimento ≥ 29) & (Seca Brotação ≤ 19) & (K < 0,51) & 71,9 6,2
(Mês Colheita = (3, 4, 9, 10)
→ ENTÃO Baixo (K3 | 24,1% | RIPPER)
A regra R22 apresentou taxa de acerto de 86,2% e cobertura de 2,6% do total de

registros. Possui 4 variáveis no antecedente, sendo: graus-dia no período de maturação
maior ou igual a 4,51 °C.dia-1, textura menor ou igual a 4 (teor de argila no horizonte B
menor ou igual a 25%), diferença entre precipitação e evapotranspiração da cultura na
fase de brotação maior ou igual a 5,4 mm.dia -1 e relação cálcio, potássio magnésio
(K/(Ca + Mg)½) inferior a 0,11.
57
A regra R25 cobre 4,4% do total de registros, ou seja, 99 talhões, tendo um taxa
de acerto de 81,0%. A sua leitura é que talhões que tiveram o maior período de dias
consecutivos sem precipitação no período de brotação menor ou igual a 9, diferença
entre precipitação e evapotranspiração da cultura no ciclo menor ou igual a -0,22
mm/dia e estão cultivadas num ambiente de produção igual ou mais restritivo que E
(correspondendo a um potencial baixo até extremamente baixo), têm desempenho
baixo em relação a produtividade.
A regra R26 tem precisão de 84,7% e cobertura de 2,6%. As variáveis que

compõem seu antecedente são 4. Número de dias consecutivos sem precipitação no
período de máximo crescimento maior ou igual a 33 e, para período de brotação menor
ou igual a 19. Teor de cálcio no solo menor que 7 mmolc dm-3 e soqueira de 3° corte ou
mais velha.
A regra R28 possui cobertura de 6,2% e taxa de acerto de 71,9%. Traz como
antecedentes o número de dias consecutivos sem precipitação maior ou igual a 29 mm
no período de máximo crescimento da cultura e menor ou igual a 19 mm no período de
brotação. Teores de potássio no solo iguais ou inferiores a 0,51 mmolc dm-3 e mês de
colheita anterior igual a Março, Abril, Setembro ou Outubro.
As regras R32, R34 e R35 do BD Modelagem com K igual a 4 (Tabela 11).
Baixo.
Precisão Cobertura
N. Regra
(%) (%)
R32 SE (Graus-dia Maturação ≥ 4,64) & (Mg ≤ 3,8) & (Seca Brotação ≤ 9) & 75,8 4,2
(P-ETC Ciclo ≤ -0,22)
R34 SE (Broca ≥ 2,27) & (Graus-dia Brotação ≥ 5,59) & (KCaMg < 0,15) 83,1 2,6
R35 SE (Graus-dia Maturação ≥ 4,63) & (K < 0.38) & 82,4 2,3
(P-ETC Crescimento < 0,89) & (SiBCS = PV, PVA, RQ)
58
A regra R32 cobre 4,2% dos talhões e têm uma taxa de acerto de 75,8%. Assim
como a regra R25, contempla talhões com o maior período de dias consecutivos sem
precipitação no período de brotação menor ou igual a 9 e diferença entre precipitação e
evapotranspiração da cultura no ciclo menor ou igual a -0,22 mm.dia-1. Além destes
antecedentes, também estão presentes o teor de magnésio no solo e graus-dia no
período de maturação da cana.
A regra R34 possui cobertura de 2,6% e precisão de 83,1%. Tem como

antecedentes o dano por broca na colheita maior ou igual a 2,27%, graus-dia na fase de
brotação maior ou igual a 5,59 °C.dia-1 e relação cálcio, potássio e magnésio menor que
0,15.
A regra R35 apresentou precisão de 82,4% e cobertura de 2,3%. São 4 atributos

em seu antecedente a saber: graus-dia no período de maturação maior ou igual a 4,63
°C.dia-1, teor de potássio no solo menor que 0,38 mmolc dm-3, diferença entre
precipitação e evapotranspiração de cultura na fase de máximo crescimento menor que
0,89 mm.dia-1, e solos classe argissolo vermelho, argissolo vermelho-amarelo e
neossolo quartzarênico.
Do BD Modelagem com K igual a 5, foram selecionadas R38 e R40 (Tabela 12).
Baixo.
Precisão Cobertura
N. Regra
(%) (%)
R38 SE (Graus-dia Maturação ≥ 4,73) & (Seca Brotação <24) & 60,4 4,9
(MO < 7,9) & (P-ETC Ciclo < -0,20)
→ ENTÃO Baixo (K5 | 16,1% | Classification Tree)
R40 SE (Graus-dia Maturação ≥ 4,73) & (Seca Brotação ≤ 9) & 86,3 2,3
(P-ETC Ciclo < -0,24) & (Textura ≥ 5)
A regra R38, associada a desempenho baixo, tem como antecedentes graus-dia

na maturação maior ou igual a 4,73 °C.dia-1, número de dias consecutivos sem
59
precipitação na fase de brotação menor ou igual a 24, teor de matéria orgânica no solo
inferior a 7,9 g.dm-3 e diferença entre precipitação e evapotranspiração da cultura
durante o ciclo inferior a -0,20 mm.dia-1. Sua cobertura é 4,9% dos registros e taxa de
acerto 60,4%.
A regra R40 tem cobertura de 2,3% e precisão de 86,3%. Seus antecedentes

são graus-dia na maturação maior ou igual a 4,73 °C.dia-1, número de dias consecutivos
sem precipitação na fase de brotação menor ou igual a 9, diferença entre precipitação e
evapotranspiração da cultura durante o ciclo inferior a -0,24 mm.dia-1 e textura do solo
menor ou igual a 5, o que corresponde a 15% de argila ou menos no horizonte B do
solo.
4.1.3 Atributos descritores
A análise do conjunto de atributos descritores selecionados por todas as regras

(Figura 13) mostrou que num total das 24 regras induzidas para desempenho Baixo, 82
atributos descritores foram utilizados, ao passo que, nas 21 regras associadas a talhões
de Alto desempenho, 76 atributos foram selecionados.
O teste de independência mostrou que a proporção dos atributos descritores

para desempenho Alto é diferente da proporção para desempenho Baixo (p-value
0,0087). A análise dos intervalos de confiança mostra que esta diferença se dá na
participação da classe física do solo, onde a importância é significativamente maior para
desempenho Alto quando comparado ao desempenho Baixo. Para desempenho Alto, a
classificação proposta por Demattê e Demattê (2009) representou 85% da classe física
do solo. Isso indica que o teor de argila no horizonte B do solo é um fator que contribui
para diferenciar talhões com Alto desempenho, porém o mesmo não pode ser afirmado
para Baixo desempenho.
60
50%
45%
40%
35%
30%
Frequência
25%
20%
15%
10%
5%
0%
PRAGA QUÍMICA SOLO FÍSICA SOLO DISPONIBILIDADE GRAUS-DIA OUTROS
HÍDRICA
Categoria de atributo descritor
BAIXO ALTO
Figura 13. Participação das variáveis descritivas agrupadas nos padrões induzidos para talhões de
desempenho Alto e Baixo
Na análise dos atributos descritores dentro de desempenho Alto, a classe

disponibilidade hídrica tem participação significativamente superior à média. Por sua
vez, na análise dentro de desempenho Baixo, disponibilidade hídrica também tem
participação superior, assim como graus-dia e química do solo, enquanto praga e física
do solo têm participação inferior.
Atributos relacionados à disponibilidade hídrica possuem destacada importância

para ambos os desempenhos. Fenômenos que ocorreram durante a fase de brotação
(I), máximo crescimento (III) e ciclo, corresponderam, na média entre Alto e Baixo uma
vez que são independentes do desempenho (p-value 0,9385), a 33, 33 e 18%,
respectivamente, desta categoria. As proporções atingidas pelas fases I e III (33%)
diferem estatisticamente da proporção do ciclo (18%). Os atributos descritores,
diferença entre precipitação e evapotranspiração da cultura e maior número de dias
consecutivos sem precipitação, foram selecionados pelas regras com frequência média
entre Alto e Baixo, visto que são independentes do desempenho (p-value 0,4578), de
49% e 43%, respectivamente.
61
Para a análise dentro de desempenho Baixo, graus-dia e a química do solo
tiveram especial destaque. Graus-dia no período de brotação e maturação tiveram as
maiores participações, correspondendo, respectivamente, a 32 e 63% desta categoria.
Teores de K, Ca, Mg e suas relações correspondendo a 84% da categoria química do
solo.
4.2 Discussão5
A interação entre os valores de k e as bases de dados para desempenho alto e

baixo (Figura 11 e Figura 12) já era esperada, uma vez que a forma de categorização
do atributo meta tem influência significativa no resultado dos algoritmos utilizados (BAY,
2000). Outro fato que corrobora com esta afirmação, que justifica o uso de diferentes
valores para k e mais de um algoritmo de indução de regras é que, das 45 regras
geradas, apenas 3 são iguais, isto é, possuem o mesmo antecedente porém foram
induzidas em BD´s Modelagem diferentes.
Outro ponto de destaque é que avaliar regras individualmente ao invés do

conjunto como um todo foi uma abordagem interessante para este caso de análise
descritiva, visto que apenas 18 foram selecionadas por medidas de interesse dentre as
45 regras induzidas. A análise dos conjuntos como um todo, por meio da taxa de
acertos, muito provavelmente mostrariam um desempenho fraco, fazendo com que as
regras fossem descartas e nenhum padrão analisado. Tal vantagem na análise de
regras individuais por medidas de interesse foi relatada anteriormente por Freitas (1999)
e Meira (2008).
Com relação ao desempenho dos algoritmos, foi possível notar interação destes
com desempenho e valor de K. De forma geral, RIPPER foi superior a Classification
Tree tanto no número de regras induzidas como selecionadas, fenômeno já descrito
anteriormente por Bay (2000).
5
Todas as regras apresentadas em 4.1 Resultados, também estão disponíveis no ANEXO III para facilitar
a consulta do leitor.
62
O fato do algoritmo Classification Tree ter tido no máximo uma regra selecionada
por cada valor de k pode estar relacionado com o seu método de indução, onde o
primeiro atributo descritor selecionado influencia todas as regras induzidas. No caso de
atributos descritores com ganho de informação semelhante, o algoritmo irá selecionar o
melhor e o utilizará para todas as regras. No caso do RIPPER, a cada regra induzida, é
feita uma nova rodada para identificação do atributo de maior de ganho informação,
assim estes podem variar de regra para regra. Para o caso destas bases de dados
estudadas, esta característica de indução das regras pode ter sido determinante no
desempenho.
As regras R3, R10 e R14 possuem o mesmo antecedente, solos argilosos ou

muito argilosos e infestação por cigarrinha (Mahanarva fimbriolata) igual ou superior a
2,8 ninfas/m, associados a alto desempenho. A infestação por cigarrinha pode parecer
contraditória: maior infestação e melhor desempenho. De acordo com Dinardo-Miranda
et al. (2001), a influência da infestação de cigarrinhas é menor para talhões colhidos no
início de safra e é crescente com o passar da safra. De maneira geral, o nível de dano
econômico vai de 10 ninfas/m no início da safra, para 4 ninfas/m no final de safra
(DINARDO-MIRANDA et al., 2002).
Os talhões cobertos pelas regras apresentaram infestação entre 2,8 e 3,5

ninfas/m em 94% dos casos, tendo sido colhidos até o final do mês de julho em 91%
das vezes. Desta forma, a infestação obtida no período em questão pode ser
considerada como abaixo do nível de dano econômico. Tal fato pode servir como
justificativa para entender porque infestações superiores a 2,8 ninfas/m não causam
dano significativo no desempenho dos talhões.
Ainda segundo Dinardo-Miranda (2010), a cigarrinha é extremamente sensível às

condições do ambiente, sendo favorecida por períodos úmidos.
Assim, especula-se que essa maior umidade no solo, que favorece o aumento da
população de cigarrinha (abaixo do nível de dano econômico), também favoreça o
desenvolvimento da cultura. Esse maior acúmulo de umidade em determinados talhões
pode ser resultado de maior acúmulo de palha da colheita anterior (DINARDO-
63
MIRANDA, 2002) e/ou posição no relevo (KRAVCHENKI; BULLOCK, 2000;
MONTEZANO et al., 2008; SOUZA et al., 2003, 2004, 2010).
Regras que contradizem o esperado também podem ser consideradas como

inesperadas e valiosas, podendo indicar lacunas no conhecimento disponível ou sugerir
aspectos dos dados que devem ser analisados mais profundamente (BAY; PAZZANI,
1999; CARVALHO; FREITAS, 2000; GENG; HAMILTON, 2006; LIU et al., 1997, 1999;
SILBERSCHATZ; TUZHILIN, 1995, 1996).
Como mencionado, além da infestação por cigarrinha, as regras R3, R10 e R14
têm a textura do solo argilosa ou muito argilosa presente em seus antecedentes. Este
último atributo também foi selecionado nas regras R4, R11 e R15. Tal padrão
encontrado está em linha com o exposto na literatura. Solos com elevados teores de
argila tendem a ter maior capacidade de retenção de água, contribuindo para o
desenvolvimento da cultura (PRADO et al., 2010).
A regra R6 apresentou a disponibilidade hídrica, representada pelo atributo

veranicos durante o ciclo, como favorável para o desenvolvimento da cultura
considerando os dados analisados, pois contempla o primeiro quartil deste atributo.
Com relação à fertilidade, a regra está em linha com a literatura, solos mais férteis
tendem a estar associados com produtividades superiores, sendo um diferencial para
alto desempenho, pois apenas 12% dos registros têm estas classes de fertilidade.
O parâmetro graus-dia é melhor método para correlacionar temperatura com o

desenvolvimento dos vegetais e a cana-de-açúcar tende a ter respostas positivas de
produtividade com o aumento de temperatura até determinado limite (LIU et al., 1998).
Porém, este fator na fase de maturação tende a não ter respostas pronunciadas de
produtividade (MACHADO, 1981).
Assim, associar talhões de alto desempenho com graus-dia inferiores a

determinado limite (R6), ou o oposto para R22, R32, R35, R38 e R40, ou seja, associar
baixo desempenho com graus-dia superiores a determinado limite, aparentemente não
está em linha com a literatura.
64
Ao se analisar a distribuição de graus-dia no período de maturação em função do
mês de colheita (Figura 14), nota-se que o limite de corte proposto pela regra separa o
período de colheita em duas partes: outono/primavera e inverno.
6
Graus-dia Maturação
0
2 3 4 5 6 7 8 9 10 11 12
Mês Colheita
Figura 14. Distribuição do parâmetro graus-dia no período de maturação em função do mês de colheita
(•) e ponto de corte determinado pela regra R32 (- -).
Esta segmentação do período de colheita em estações do ano permite agrupar

talhões em condições razoavelmente homogêneas de déficit hídrico acumulado durante
o ciclo da cultura (LANDELL et al., 2010). Uma possível interpretação levando-se em
conta as regras R22, R32, R35, R38 e R40, é que os parâmetros que são associados a
talhões com baixo desempenho são semelhantes para colheita realizada no
Outono/Primavera. Com base na regra R6, associada a alto desempenho, os
parâmetros são semelhantes no período de Inverno.
65
De forma geral, a interpretação da regra R6 é que condições favoráveis de
fertilidade e disponibilidade hídrica e colheita de inverno levaram a um desempenho
alto.
A regra R11, além de contemplar talhões que têm como padrão o cultivo em
áreas com textura muito argilosa (cuja importância já foi abordado anteriormente),
também possui danos causados por broca no momento da colheita inferiores a 2% e
teor de Mg superior a 7,0 mmolc.dm-3.
A importância da broca (Diatraea saccharalis) se mostra significativa, onde

menores danos estão associados a talhões de melhor desempenho (R11 e R19), ou o
inverso (R34), sendo o nível de dano econômico, a título de referência, no intervalo de 1
a 4% (DINARDO-MIRANDA, 2010). Considerando estas três regras com dano por
broca no antecedente, o ponto de corte ficou no intervalo de 1,52 a 2,27%, por tanto,
dentro do especificado na literatura.
Finalmente, teores de Mg maiores que 8 mmolc.dm-3 são considerados como

superiores segundo RAIJ et al., (1996), mostrando que a regra está dentro do
esperado.
A regra R15, assim como R4, possui baixa precisão, porém alta cobertura. Esta
regra mostra uma interação entre textura do solo e número de cortes do canavial
(Figura 15). Para cana-planta e 2° ano, a textura do solo tem menor influência sobre a
produtividade, sendo um fator que diferencia o desempenho dos talhões apenas do 3°
corte em diante. Não foram encontradas pesquisas na literatura que tiveram resultados
semelhantes, sendo este um ponto que pode ser considerado alvo de investigações
mais específicas.
Também se observa que, para talhões com textura argilosa ou muito argilosa
(Prob>F <0,001; b (IC 95%) = -4,36 ± 0,68) é menor a redução na produtividade com o
aumento do número de cortes quando comparado a solos de textura mais arenosa
(Prob>F <0,001; b (IC 95%) = -8,48 ± 0,37), comprovado pela declividade das retas que
diferem estatisticamente entre si. Este fenômeno também foi observado por Inman-
Bamber (2013), porém diferente do observado por Demattê e Demattê (2009).
66
A importância dos danos por broca bem como a relação entre o ponto de dano
econômico apresentado na literatura e ponto de corte proposto pela regra já foram
discutidos anteriormente.
Com relação ao nível de infestação por nematoides, este pode ser um diferencial
para a expressão do potencial produtivo visto que ataques severos debilitam o sistema
radicular reduzindo assim a capacidade de absorção de água e nutrientes pela planta
(DINARDO-MIRANDA et al., 1995, 1996, 1998). Para a regra em questão (R17), há
uma relação entre boa disponibilidade hídrica e ausência de nematoides, mostrando
que mesmo sob adequado fornecimento de água para a planta, ausência de danos
causados pelos nematoides foi um diferencial.
A regra R22 relaciona à baixo desempenho: colheita realizada no

outono/primavera (de acordo com o discutido sobre graus-dia no período de maturação
e período de colheita), solos com textura médio arenosa a muito arenosa, alta
disponibilidade hídrica no período de brotação e relação cálcio, potássio e magnésio
inferior a 0,11.
A regra R25, por sua vez, relaciona baixo desempenho a alta disponibilidade
hídrica no período de brotação e baixa disponibilidade na média do ciclo, e cultivo num
ambiente de produção restritivo.
A regra R26 tem o antecedente formado por boa disponibilidade hídrica no

período de brotação e restrição no período de máximo crescimento, teor de cálcio no
solo menor que 7 mmolc dm-3 e soqueira de 3° corte ou mais velha.
As regras R38 e R40, com atributo meta baixo desempenho, têm como
característica geral colheita em início ou final de safra, boa disponibilidade hídrica na
fase de brotação e restrição hídrica na média do ciclo, associada a solo de textura
arenosa ou baixo teor de matéria orgânica no solo.
O padrão das cinco regras (R22, R25, R26, R38 e R40) pode ser interpretado
como talhões que tiveram boa disponibilidade hídrica durante o período de brotação
têm seu sistema radicular pouco profundo (SMITH et al., 2005), o que os torna menos
68
resistentes a um ciclo da cultura ou período de máximo crescimento com deficiência
hídrica agravado com um ambiente de produção restritivo (caracterizado por sua baixa
capacidade de retenção de água ou presença de fatores físicos ou químicos que
limitam o desenvolvimento radicular (DEMATTÊ; DEMATTÊ, 2009), textura arenosa ou
limitação química.
Para o caso da regra R22, a limitação química do solo ao desenvolvimento da

cultura é dada pela relação cálcio, potássio e magnésio inferior a 0,11. Segundo
Orlando Filho et al. (1996), em solos com textura arenosa, a relação K/(Ca + Mg)½
inferior a 0,19 está relacionada com baixas produtividades. O ponto de corte
selecionado pela regra é inferior ao proposto pela literatura, porém ainda em
concordância. A regra R34, com atributo meta baixo desempenho, também possui a
relação entre estes nutrientes no solo como parte de seu antecedente, com o ponto de
corte selecionado foi 0,15.
Por sua vez, a limitação química da regra R26 é o teor de cálcio. De acordo com
Raij et al. (1996), podem ser considerados como médios, teores de cálcio no solo entre
4 e 7 mmolc dm-3, desta forma, o ponto de corte selecionado pela regra distancia-se do
proposto pela literatura. Tal fato pode possivelmente ser atribuído a um limitado
desenvolvimento radicular causado por fatores hídricos, agravado pelo número de
cortes do canavial, que por sua vez dificulta a absorção de cálcio que se dá por fluxo de
massa ou interceptação radicular (ORLANDO FILHO, 1983). Landell et al. (2003)
observou a influência do teor de cálcio na subsuperfície do solo sobre a produtividade a
partir do 3º corte. Teor deste nutriente na camada superficial do solo não foi estudada
para permitir a comparação com o encontrado neste presente trabalho, porém, existem
indícios de que a relação do teor de cálcio em ambas as camadas do solo e
produtividade são as mesmas.
A regra R28 associa a atributo meta baixo desempenho com um período

relativamente chuvoso durante a brotação da cultura, com ausência de chuva no
período de máximo crescimento – o mais sensível à deficiência hídrica (DOORENBOS;
PRUITT, 1977) – com baixos teores de potássio no solo, de acordo com Raij et al.
69
(1996), são considerados baixos teores de potássio no solo menor que 1,6 mmolc dm-3
–- e período de início ou final de safra. Tais fatores já foram discutidos anteriormente
nas demais regras.
A regra R32 contempla talhões com alta disponibilidade hídrica durante a

brotação da cultura e limitação durante o ciclo de forma geral. Além destes
antecedentes, também estão presentes o teor baixo de magnésio no solo e colheita no
início e final de safra.
De acordo com Raij et al. (1996), podem ser considerados como médios, teores
de magnésio no solo entre 5 e 8 mmolc dm-3, e a regra em questão associa valores
inferiores a 3,8 mmolc dm-3 a talhões de baixo desempenho, fato já esperado. Os
demais fatores já foram discutidos anteriormente.
A regra R34 tem como antecedentes: dano por broca acima do nível econômico,
graus-dia na fase de brotação maior ou igual a 5,59 °C.dia -1 e relação cálcio, potássio e
magnésio menor que 0,15. A importância dos atributos dano por broca e relação entre
cátions já foi discutida anteriormente.
Assim como descrito anteriormente para a relação entre graus-dia no período de

maturação e período de colheita, o mesmo é válido para graus-dia na brotação e mês
de plantio (Figura 16).
São diversos os estudos que comprovam a influência do período de plantio na

produtividade da cana-de-açúcar (DEMATTÊ; DEMATTÊ, 2009; MARCHIORI, 2004;
ROCHA, 1984; SINGELS et al., 2005). A regra gerada segmenta o período de plantio
em dois. De forma aproximada, um período é compreendido entre a 2ª. quinzena de
Outubro até a 1ª quinzena de Março. O outro período, por conseguinte, é da 2ª
quinzena de Março até a 1ª quinzena de Outubro. Segundo Demattê e Demattê (2009),
para ambientes de produção restritivos, em função da menor fertilidade e
disponibilidade hídrica, caso predominante dos solos contemplados pelo estudo, deve-
se realizar o plantio preferencialmente de 18 e 15 meses, evitando-se o plantio de 12
meses.
70
9
6
Graus-dia brotação
0
0 1 2 3 4 5 6 7 8 9 10 11 12
Mês plantio
Figura 16. Distribuição do parâmetro graus-dia no período de brotação em função do mês de plantio (•)
e ponto de corte determinado pela regra R34 (-).
A regra R35 contempla talhões colhidos em início ou final de safra, teor de

potássio no solo baixo, disponibilidade hídrica adequada à baixa no período de máximo
crescimento, e solos classe argissolo vermelho e vermelho-amarelo e neossolo
quartzarênico.
Apesar da diferença entre precipitação e evapotranspiração de cultura ter valor

positivo para 50% dos talhões cobertos por esta regra, a classe de solo argissolo
representa apenas 8% enquanto os 92% dos registros restantes são classificados como
neossolo quartzarênico. Segundo Prado et al. (2010), esta classe de solo tem o perfil
arenoso em toda sua extensão, resultando em baixa capacidade de armazenamento
hídrico e baixa fertilidade.
71
Desta forma, a classe do solo e baixa disponibilidade de potássio fazem com que
os talhões cobertos por esta regra tenham um baixo desempenho, mesmo com uma
boa disponibilidade hídrica na fase crítica em boa parte dos casos.
Com relação à classificação subjetiva das regras com atributo meta alto
desempenho, a regra R4 pode ser classificada como esperada e não-passível de ação,
pois está em linha com o descrito na literatura, o que a torna esperada, e possui fator
relacionado ao ambiente (textura do solo), o que torna alguma ação muito difícil.
As regras R6, R11, R17 e R19 foram classificadas como esperadas e passíveis
de ação. Diferentemente da anterior, são consideradas como passíveis de ação, pois o
controle de pragas pode, em teoria, ser intensificado, assim como correções nos teores
de nutrientes aplicados.
Por fim, as regras R3, R10 e R14, R15, podem ser consideradas como
inesperadas e não-passíveis de ação. Para as três primeiras, uma das possíveis
explicações seria a relação do relevo com alto desempenho, fato já descrito na
literatura, porém não há resultados de pesquisas que mostrem que a população de
cigarrinhas pode ser um indicador indireto de condições mais favoráveis ao
desenvolvimento da cultura propiciado pelo relevo. Para R15, o efeito negativo sobre a
produtividade causado pela perda da eficiência do sistema radicular que ocorre com o
aumento do número de cortes, aparenta ser mitigado com a textura do solo argilosa.
Já para as regras com consequente baixo desempenho, todas as regras

encontradas são consideradas como esperadas, sendo que R25, R38 e R40 são não-
passíveis de ação, ao passo que R22, R26, R28, R32, R34 e R35 podem ser
consideradas como passíveis de ação. Todas estão alinhadas com resultados obtidos
anteriormente por outras pesquisas, sendo que as primeiras possuem fatores
relacionados ao ambiente (regime pluviométrico e ambiente de produção) o que torna
alguma ação específica difícil. Como afirmado por Landell et al. (2010), unidades de
produção possuem talhões em praticamente todos os ambientes de produção e
colhidos todas as épocas, o que inviabilizaria alguma ação. O que é sugerido pelos
72
autores seria atuar na alocação de variedades que mais se adaptem em cada condição
para mitigar efeitos negativos.
As seis últimas regras foram classificadas como passíveis de ação, pois além de
fatores relacionados ao clima e época de colheita que não podem ser alterados,
também possuem antecedentes relacionados com teores de nutrientes no solo e
controle de praga.
Assim, em resumo, das 18 regras selecionadas somando-se desempenho baixo

e alto, dez foram classificadas como passíveis de ação e quatro como inesperadas.
Passando agora para a análise dos atributos descritores. Tanto para

desempenho baixo como alto, a disponibilidade hídrica foi o fator de destaque, fato este
já esperado e relatado por inúmeros autores. As fases fenológicas de maior destaque
foram brotação e máximo crescimento, como descrito anteriormente na discussão das
regras individuais, estas duas fases são reconhecidamente sensíveis à disponibilidade
hídrica.
A seleção de atributos pelas regras relacionados com a disponibilidade hídrica

durante fases fenológicas em detrimento ao ciclo como um todo - ponto destacado por
Ramburan et al. (2011) como interessante em ser testado em função de uma possível
vantagem que traria na interpretação de resultados - mostra que esta foi uma
abordagem válida, ao menos para os resultados obtidos com esta base de dados,
mesmo que a determinação destas fases tenha sido feita de forma aproximada.
Os atributos descritores, diferença entre precipitação e evapotranspiração da

cultura e maior número de dias consecutivos sem precipitação, foram selecionados
pelas regras com maior frequência, enquanto veranico foi pouco selecionado. Tal fato
pode ser explicado pelo pequeno número de veranicos que ocorreram durante o
período em estudo, o que faz com que um grande percentual de registros tenham o
mesmo valor para este atributo.
Para a análise dentro de desempenho baixo, química do solo teve especial

destaque, com teores de K, Ca, Mg e suas relações com maior percentual de seleção
73
pelas regras. Sabidamente, tais elementos têm importância para a produtividade da
cultura (ALMEIDA et al., 2008; ANDERSON et al., 1999; BRUGGEMANN et al., 2001;
DIAS et al., 1999; ORLANDO FILHO et al., 1996; PORTIER; ANDERSON, 1995; REIS
JUNIOR, 2001) e, como também esperado, as relações também são importantes, uma
vez que a cana-de-açúcar tem como principal nutriente exportado o potássio e os solos
em estudo se mostram deficientes neste nutriente, características que contribuem para
a interação entre estes nutrientes (REIS JUNIOR, 2001).
Uma possível razão para que outros atributos químicos do solo não tenham sido
selecionados com grande frequência pelas regras é que os dados disponíveis são
apenas da camada superficial do solo. Resultados de diversos trabalhos mostram que
há uma maior correlação entre produtividade e condições em sub-superfície do solo
(LANDELL et al., 2003).
Graus-dia no período de brotação e maturação, que podem ser interpretados

como data de plantio/corte anterior e colheita, respectivamente, tiveram destacada
participação nas regras. Tal fenômeno já era esperado, principalmente quando se leva
em conta ambientes de produção restritivos (DEMATTÊ; DEMATTÊ, 2009; LANDELL et
al., 2010; MARCHIORI, 2004; ROCHA, 1984).
Uma limitação deste estudo, que não pode deixar de ser mencionada, é que os
padrões encontrados são diretamente dependentes da qualidade e representatividade
dos registros disponíveis nos conjuntos de dados utilizados. Alguns fatores com
conhecida influência na produtividade da cana estavam indisponíveis (compactação do
solo, qualidade do plantio, das mudas, controle de daninhas, doenças, etc). Em quanto
outros, estavam disponíveis com precisão apenas aproximada, característica comum a
bases de dados coletadas em condições normais de operação comercial. Cabe ao
método utilizado mitigar estes efeitos e ser robusto a ruídos, caso das técnicas de
mineração de dados utilizadas.
Apesar das regras selecionadas cobrirem um pequeno percentual do total de

registros, entende-se que a análise dos dados por meio desta abordagem deve ser feita
de forma periódica, por exemplo a cada safra, intercalando-se com medidas corretivas
74
associadas às regras passíveis de ação ou experimentos controlados para padrões
inesperados.
75
76
5 CONCLUSÃO
A abordagem proposta, baseada em indução de regras de decisão, mostrou-se

como um válido protocolo para analisar de forma descritiva padrões em talhões
comerciais com diferentes desempenhos relacionados à produtividade, que podem ser
considerados inesperados ou passíveis de ação, assim auxiliando na tomada de
decisão ou servindo de hipótese para experimentos específicos futuros em condições
mais controladas.
Para esta análise específica, fatores que permitem diferenciar talhões com alto
desempenho e baixo desempenho são diferentes.
A segmentação de variáveis climatológicas em função do estádio fenológico da

cultura, mesmo que de forma aproximada, se mostrou uma etapa válida visto que os
atributos relacionados a uma fase de desenvolvimento da cultura foram selecionados
com superior frequência do que aqueles que abrangem todo o ciclo.
Os atributos diferença entre precipitação e evapotranspiração da cultura e

número máximo de dias consecutivos sem precipitação se mostraram mais promissores
do que o atributo veranico na diferenciação de talhões com alto e baixo desempenho.
O número de grupos predefinido (k) na etapa de categorização do atributo e

algoritmo de indução de regras tiveram influência nas regras induzidas.
Com relação a padrões inesperados, foi levantada a possibilidade de que taxas

de infestação por cigarrinha podem ser um indicador indireto de talhões com condições
mais propícias para o desenvolvimento da cultura em função do relevo. Foram também
encontrados indícios de que a disponibilidade de água para o desenvolvimento de
cultura tem maior influência sobre o desempenho dos talhões com relação a
produtividade do 3° corte em diante.
Trabalhos futuros poderiam realizar a Etapa 4. Padronização do potencial

produtivo, considerando além do número de cortes, também época de colheita (Outono,
Inverno e Primavera) e ambiente de produção (favorável, médio, desfavorável), a fim de
77
aumentar a probabilidade de encontrar conhecimentos inesperados ou passíveis de
ação.
O protocolo gerou regras, de forma geral, que reproduzem o conhecimento de

especialistas de forma estruturada (passível de reprodução) e automática (sem a
necessidade um especialista durante o processo). Embora a aplicação da metodologia
tenha sido feita no sistema de produção da cana-de-açúcar numa região tradicional,
esta pode ser estendida a áreas de expansão em condições onde o conhecimento de
especialistas ainda é restrito, ou outras culturas onde estejam disponíveis bases de
dados relacionadas ao sistema produtivo e clima.
78
6 REFERÊNCIAS BIBLIOGRÁFICAS
ALMEIDA, A. DOS S.; SOUZA, J.; TEODORO, I.; BARBOSA, G. Desenvolvimento

vegetativo e produção de variedades de cana-de-açúcar em relação à disponibilidade
hídrica e unidades térmicas. Ciência e Agrotecnologia, v. 32, n. 5, p. 1441–1448,
2008.
APTÉ, C.; WEISS, S. Data mining with decision trees and decision rules. Future
Generation Computer Systems, v. 13, p. 197–210, 1997.
ARGENTON, P. E. Influência das variáveis edafoclimáticas e de manejo no

rendimento de variedades de cana-de-açúcar (Saccharum spp.) na região de
Piracicaba, São Paulo. Dissertação de Mestrado, Piracicaba: Universidade de São
Paulo, 2006.
ARGENTON, P. E.; BEAUCLAIR, E. G. F.; SCARPARI, M. S. Modelagem de variáveis

climáticas, edáficas e de manejo para a predição de produtividade de cana-de-açúcar.
In: C. A. C. Crusciol; M. de A. Silva; R. Rosseto; R. P. Soratto (Eds.); Tópicos em
ecofisiologia da cana-de-açúcar. p.22–26. Botucatu: FEPAF, 2010.
BAJPAI, P. K.; PRIYA, K.; MALIK, M. Selection of appropriate growth model for
prediction of sugarcane area, production and productivity of India. Sugar Tech, v. 14, n.
2, p. 188–191, 2012.
BARBIERI, V. Medidas e estimativas de consumo hídrico em cana-de-açúcar.

Dissertação de Mestrado, Piracicaba: Universidade de São Paulo, 1981.
BAY, S. D. Multivariate discretization of continuous variables for set mining. In:

INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA
MINING, 6., 2000, Boston. Proceedings.... Boston: ACM SIGKDD, p.315 – 319, 2000.
BAY, S. D.; PAZZANI, M. J. Detecting change in categorical data: Mining contrast sets.
In: INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA
MINING, 5., 1999, San Diego. Proceedings... San Diego: KDD, p.302–306, 1999.
BEAUCLAIR, E. G. F. Relações entre algumas propriedades químicas do solo e a

produtividade da cana-de-açúcar (Saccharum spp.), através de regressão linear
múltipla. Dissertação de Mestrado, Piracicaba: Universidade de São Paulo, 1991.
BEAUCLAIR, E. G. F. Produtividade da cana-de-açúcar em função de alguns

macronutrientes presentes no caldo e no solo. Tese de Doutorado, Piracicaba:
Universidade de São Paulo, 1994.
BEAUCLAIR, E. G. F.; PENTEADO, C. R. Cronograma de corte da cana-de-açúcar

através de programação linear. In: SEMINÁRIO DA TECNOLOGIA AGRONÔMICA, 2.,
79
1984, Piracicaba. Anais... Piracicaba: Centro de Tecnologia Copersucar, 1984. p.424–
434
BERNARDES, M. S.; TERAMOTO, E. R.; BARBOSA, M.; SADER, S. L. Comparação

entre a produtividade real e simulada através do modelo matemático, avaliada em cinco
variedades de cana-de-açúcar (Saccharum spp.). Stab Açúcar, Álcool e
Subprodutos, v. 1, p. 44–44, 2002.
BEZUIDENHOUT, C. N.; LEIBBRANDT, N. B.; RAJA, A. The development of a

computerized decision support tool for weed control in the South African sugar industry.
In: WORLD CONGRESS OF COMPUTERS IN AGRICULTURE AND NATURAL
RESOURCES, 2001, Foz do Iguaçú. Proceedings... Foz do Iguaçu: ASABE, p.642–
650, 2001.
BEZUIDENHOUT, C. N.; O’LEARY, G. J.; SINGELS, A.; BAJIC, V. B. A process-based

model to simulate changes in tiller density and light interception of sugarcane crops.
Agricultural Systems, v. 76, n. 2, p. 589–599. doi: 10.1016/S0308-521X(02)00076-8,
2003.
BOCCA, F. F. Produtividade de Cana-de-Açúcar: Caracterização dos Contextos de

Decisão e Utilização de Técnicas de Mineração de Dados para Modelagem.
Dissertação de Mestrado, Campinas: Universidade Estadual de Campinas, 2014.
BRUGGEMANN, E. A.; KLUG, J. R.; GREENFIELD, P. L.; DICKS, H. M. Empirical

modeling and prediction of sugarcane yields from field records. In: SOUTH AFRICA
SUGARCANE TECHNOLOGISTS ASSOCIATION, 75, 2001. Proceedings... p.204–
210, 2001.
BRUNINI, O. Ambientes climáticos e exploração agrícola da cana-de-açúcar. In: L. L.

Dinardo-Miranda; A. C. M. Vasconcelos; M. G. A. Landell (Eds.); Cana-de-açúcar. 1a
ed. Campinas: Instituo Agronômico, 2010.
CÂMARA, G. M. S. Ecofifiologia da cultura da cana-de-açúcar. Produção de cana-de-

açúcar. p.p. 31–64. Piracicaba: FEALQ, 1993.
CARVALHO, D. R.; FREITAS, A. A. A genetic algorithm-based solution for the problem

of small disjuncts. In: EUROPEAN CONFERENCE ON PRINCIPLES OF DATA MINING
AND KNOWLEDGE DISCOVERY, 4., 2000, Lyon. Proceedings... Lyon: Springer Berlin
Heidelberg, p.345–352, 2000.
CASTRO, P. R. C. Maturadores químicos em cana-de-açúcar. In: SEMANA DA CANA-

DE-AÇÚCAR DE PIRACICABA, 4., 1999. Anais... Piracicaba: FEALQ, p.12–16, 1999.
CHAPMAN, P.; CLINTON, R.; KERBER, R.; et al. CRISP-DM 1.0 - Step-by-step data
mining guide. . SPSS Inc., 2000.
80
COHEN, W. W. Fast Effective Rule Induction. In: INTERNATIONAL CONFERENCE ON
MACHINE LEARNING. 12., 1995. Proceedings... p.115–123, 1995.
DANIEL, J.; ANDRÉS, P.-U.; HÉCTOR, S.; et al. A Survey of Artificial Neural Network-
Based Modeling in Agroecology. In: B. Prasad (Ed.); Soft Computing Applications in
Industry. v. 226, p.247–269. Berlin, Heidelberg: Springer Berlin Heidelberg. Retrieved
November 5, 2013, from http://www.springerlink.com/index/10.1007/978-3-540-77465-
5_13, 2008.
DEMATTÊ, J. L. I.; DEMATTÊ, J. A. M. Ambientes de produção como estratégia de

manejo na cultura da cana-de-açúcar. Informações Agronômicas, v. 127, p. 10–18,
2009.
DIAS, F. L. F.; MAZZA, J. A.; MATSUOKA, S.; PERECIN, D.; MAULE, R. F.

Produtividade da cana-de-açúcar em relação a clima e solos da região noroeste do
Estado de São Paulo. Revista Brasileira de Ciência do Solo, v. 23, p. 627 – 634,
1999.
VAN DILLEWIJN, C. Botany of sugarcane. Waltham: The Chronica Botanica, 1952.
DINARDO-MIRANDA, L. L. O papel da retirada de palha no manejo da cigarrinha das

raízes. Stab Açúcar, Álcool e Subprodutos, v. 20, n. 5, p. 23, 2002.
DINARDO-MIRANDA, L. L. Pragas. In: L. L. Dinardo-Miranda; A. C. M. Vasconcelos; M.

G. A. Landell (Eds.); Cana-de-açúcar. Campinas: Instituo Agronômico, 2010.
DINARDO-MIRANDA, L. L.; FERREIRA, J. M. G.; CARVALHO, P. A. . Influência da

época de colheita e do genótipo de cana-de-açúcar sobre a infestação de Mahanarva
fimbriolata (Stal) (Hemiptera: Cercopidae). Neotropical Entomology, v. 30, n. 1, p.
145–149, 2001.
DINARDO-MIRANDA, L. L.; GARCIA, V.; PARAZZI, V. Efeito de inseticidas no controle

de Mahanarva fimbriolata (Stal) (Hemiptera: Cercopidae) e de nematóides fitoparasitos,
na qualidade tecnológica e na produtividade da cana-de-açúcar. Neotropical
Entomology, v. 31, n. 4, p. 609–614, 2002.
DINARDO-MIRANDA, L. L.; MENEGATTI, C. C.; GARCIA, V.; SILVA, S. F.; ODORISI,

M. Reação de variedades de cana-de-açúcar a Pratylenchus zeae. Stab Açúcar,
Álcool e Subprodutos, v. 17, n. 2, p. 39–41, 1998.
DINARDO-MIRANDA, L. L.; MORELLI, J. L.; LANDELL, M. G. A.; SILVA, M. A.

Comportamento de genótipos de cana-de-açúcar em relação a Pratylenchus zeae.
Nematologia Brasileira, v. 20, n. 2, p. 52–58, 1996.
81
DINARDO-MIRANDA, L. L.; NOVARETTI, W. R. T.; MORELLI, J. L.; NELLI, E. J.
Comportamento de variedades de cana-de-açúcar em relação a Meloidogyne javanica,
em condições de campo. Nematologia Brasileira, v. 19, p. 60–66, 1995.
DOORENBOS, J.; PRUITT, W. O. Guidelines for predicting crop water requirements

- revised 1977, FAO irrigation and drainage paper, No. 24. Rome, Italy: FAO, 1977.
EL SEDDAWY, A. B. Adapted Framework for Data Mining Technique to Improve

Decision Support System in an Uncertain Situation. International Journal of Data
Mining & Knowledge Management Process, v. 2, n. 3, p. 1–9. doi:
10.5121/ijdkp.2012.2301, 2012.
EVERINGHAM, Y. L.; INMAN-BAMBER, N. G.; THORBURN, P. J.; MCNEILL, T. J. A

Bayesian modelling approach for long lead sugarcane yield forecasts for the Australian
sugar industry. Australian Journal of Agricultural Research, v. 58, p. 87–94, 2007.
EVERINGHAM, Y. L.; SMYTH, C. W.; INMAN-BAMBER, N. G. Ensemble data mining

approaches to forecast regional sugarcane crop production. Agricultural and Forest
Meteorology, v. 149, n. 3-4, p. 689–696. doi: 10.1016/j.agrformet.2008.10.018, 2009.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining to Knowledge

Discovery in Databases. AI Magazine, v. 17(3), p. 37–54, 1996.
FERRARO, D. O.; GHERSA, C. M.; RIVERO, D. E. Weed Vegetation of Sugarcane

Cropping Systems of Northern Argentina: Data-Mining Methods for Assessing the
Environmental and Management Effects on Species Composition. Weed Science, v. 60,
n. 1, p. 27–33. doi: 10.1614/WS-D-11-00023.1, 2012.
FERRARO, D. O.; RIVERO, D. E.; GHERSA, C. M. An analysis of the factors that

influence sugarcane yield in Northern Argentina using classification and regression
trees. Field Crops Research, v. 112, n. 2–3, p. 149–157. doi:
10.1016/j.fcr.2009.02.014, 2009.
FORGEY, E. Cluster analysis of multivariate data: efficiency vs. interpretability of

classification. Biometrics, v. 21, p. 768, 1965.
FREITAS, A. A. On rules interestingness measures. Knowledge-based systems, v. 12,

p. 309–315, 1999.
FRIEDMAN, H. P.; RUBIN, J. On some invariant criteria for grouping data. Jounal of
American Statistical Association, v. 62, p. 1159–1178, 1967.
GALVÃO, N. D.; MARIN, H. F. Técnica de mineração de dados: uma revisão da

literatura. Acta Paulista de Enfermagem, v. 22, n. 5, p. 686–690, 2009.
82
GENG, L.; HAMILTON, H. J. Interestingness measures for data mining: A survey. ACM
Computing Surveys, v. 38, n. 3, p. 9–es. doi: 10.1145/1132960.1132963, 2006.
GILBERT, R. A.; SHINE, J. M.; MILLER, J. D.; RICE, R. W.; RAINBOLT, C. R. The
effect of genotype, environment and time of harvest on sugarcane yields in Florida,
USA. Field Crops Research, v. 95, n. 2-3, p. 156–170. doi: 10.1016/j.fcr.2005.02.006,
2006.
HALL, M.; FRANK, E.; HOLMES, G.; PFAHRINGER, B.; REUTEMANN, P. The WEKA
Data Mining Software: An Update. SIGKDD Explorations, v. 11, n. 1, 2009.
HAN, J.; KAMBER, M.; PEI, J. Data mining : concepts and techniques. Amsterdam;
Boston: Elsevier/Morgan Kaufmann, 2012.
VAN HEERDEN, P. D. R.; DONALDSON, R. A.; WATT, D. A.; SINGELS, A. Biomass

accumulation in sugarcane: unravelling the factors underpinning reduced growth
phenomena. Journal of Experimental Botany, v. 61, n. 11, p. 2877–2887. doi:
10.1093/jxb/erq144, 2010.
HOFFMANN, H. P.; SANTOS, E. G. D.; BASSINELLO, A. I.; VIEIRA, M. A. S.

Variedades RB de cana-de-açúcar. 1st ed. Araras: CCA/UFSCar, 2008.
INMAN-BAMBER, N. . Temperature and seasonal effects on canopy development and

light interception of sugarcane. Field Crops Research, v. 36, p. 41–51, 1994.
INMAN-BAMBER, N. . Sugarcane water stress criteria for irrigation and drying off. Field
Crops Research, v. 89, n. 1, p. 107–122. doi: 10.1016/j.fcr.2004.01.018, 2004.
INMAN-BAMBER, N. . Sugarcane yields and yields-limiting processes. In: P. H. Moore;

F. C. Botha (Eds.); Sugarcane: Physiology, Biochemistry, and Functional Biology.
1st ed., p.579–600. Chichester, UK: John Wiley & Sons Ltd. Retrieved November 8,
2014, from http://doi.wiley.com/10.1002/9781118771280, 2013.
INMAN-BAMBER, N. G.; SMITH, D. M. Water relations in sugarcane and response to

water deficits. Field Crops Research, v. 92, n. 2-3, p. 185–202. doi:
10.1016/j.fcr.2005.01.023, 2005.
KRAVCHENKI, A. N.; BULLOCK, D. G. Correlation of corn and soybean yield with

topography and soil properties. Agronomy Journal, v. 75, n. 1, p. 75–83, 2000.
LACLAU, P.; LACLAU, J.-P. Growth of the whole root system for a plant crop of
sugarcane under rainfed and irrigated environments in Brazil. Field Crops Research, v.
114, n. 3, p. 351–360. doi: 10.1016/j.fcr.2009.09.004, 2009.
83
LANDELL; BRESSIANI, J. P. Melhoramento genético, caracterização e manejo varietal.
In: L. L. Dinardo-Miranda; A. C. M. Vasconcelos; M. G. A. Landell (Eds.); Cana-de-
açúcar. 1a ed. Campinas: Instituo Agronômico, 2010.
LANDELL, M. G. A.; MACHADO, R. S.; SILVA, D. N. DA; et al. A interação entre a

cana-de-açúcar e ambientes de produção estressantes. Tópicos em ecofisiologia da
cana-de-açúcar. 1st ed., p.´34–42. Botucatu: FEPAF, 2010.
LANDELL, M. G. A.; PRADO, H.; VASCONCELOS, A. C. M.; et al. Oxisol subsurface

chemical attributes related to sugarcane productivity. Scientia Agricola, v. 60, p. 741–
745, 2003.
LAVORENTI, N. A.; MATSUOKA, S. Combinação de métodos paramétricos e não-

paramétricos na análise de estabilidade de cultivares de cana-de-açúcar. Pesquisa
Agropecuária Brasileira, v. 36, n. 4, p. 653–658, 2001.
LAVRAC, N.; FLACH, P.; ZUPAN, B. Rule evaluation measures: a unifying view. In:
INTERNATIONAL WORKSHOP ON INDUCTIVE LOGIC PROGRAMMING, 9., 1999.
Proceedings... p. 174-185, 1999.
LAWES, R. A.; LAWN, R. J. Applications of industry information in sugarcane production

systems. Field Crops Research, v. 92, n. 2–3, p. 353–363. doi:
10.1016/j.fcr.2005.01.033, 2005.
LEE, T. S. G. Efeito do plantio de cana inteira na germinação, no desenvolvimento e na

produção de cana-de-açúcar. Caderno Planalsucar, v. 3, n. 1, p. 13–23, 1984.
LIU, B.; HSU, W.; CHEN, S. Using general impressions to analyze discovered
classification rules. In: International Conference on Knowledge Discovery and Data
Mining, 3., 1997. Proceedings... Newport Beach: KDD, p.31–36., 1997.
LIU, B.; HSU, W.; MUN, L.; LEE, H. Finding interesting patterns using user expectations.
Transactions of Knowledge Data Engineering, v. 11, n. 6, p. 817–832, 1999.
LIU, D. L.; KINGSTON, G.; BULL, T. A. A new technique for determining the thermal
parameters of phenological development in sugarcane, including suboptimum and
supra-optimum temperature regimes. Agricultural and Forest Meteorology, v. 90, n.
1-2, p. 119–139. doi: 10.1016/S0168-1923(97)00087-7, 1998.
LOBELL, D. B.; ORTIZ-MONASTERIO, J. I. Regional importance of crop yield

constraints: Linking simulation models and geostatistics to interpret spatial patterns.
Ecological Modelling, v. 196, n. 1-2, p. 173–182. doi:
10.1016/j.ecolmodel.2005.11.030, 2006.
84
LU, H.; SUNG, S. Y.; LU, Y. On Preprocessing Data for Effective Classification. In:
WORKSHOP ON RESEARCH ISSUES ON DATA MINING AND KNOWLEDGE
DISCOVERY, 1., 1996. Proceedings... Montreal: ACM SIGMOD, 1996.
MACHADO, E. C. Um modelo matemático-fisiológico para simular o acúmulo de

matéria seca na cultura da cana-de-açúcar (Saccharum spp.)., Dissertação
(Mestrado) - Unicamp. Campinas, 1981.
MACHADO, R. S.; RIBEIRO, R. V.; MARCHIORI, P. E. R.; et al. Respostas biométricas

e fisiológicas ao deficit hídrico em cana-de-açúcar em diferentes fases fenológicas.
Pesquisa Agropecuária Brasileira, v. 44, n. 12, p. 1575–1582. doi: 10.1590/S0100-
204X2009001200003, 2009.
MANLY, B. J. F. Métodos estatísticos multivariados: uma introdução. 3rd ed. Porto

Alegre: Bookman, 2008.
MARCHIORI, L. F. S. Influência da época de plantio e corte na produtividade da

cana-de-açúcar. Tese de Doutorado, Piracicaba: Universidade de São Paulo, 2004.
MARIN, F. R.; JONES, J. W.; ROYCE, F.; et al. Parameterization and evaluation of
predictions of DSSAT/CANEGRO for Brazilian sugarcane. Agronomy Journal, v. 103,
n. 2, p. 304–315, 2011.
MAULE, R. F.; MAZZA, J. A.; MARTHA JÚNIOR, G. B. Produtividade agrícola de

cultivares de cana-de-açúcar em diferentes solos e épocas de colheita. Scientia
Agricola, v. 58, n. 2, p. 295–301, 2001.
MCGARRY, K. A survey of interestingness measures for knowledge discovery. The

knowledge engineering review, v. 20, n. 1, p. 39–61, 2005.
MCQUEEN, J. Some methods for classification and analysis of multivariate

observations. In: SYMPOSIUM OF MATHEMATICS, STATISTICS AND PROBABILITY,
5., 1967. Proceedings... Berkeley, p.281–296 1967.
MEIRA, C. A. A. Processo de descoberta de conhecimento em bases de dados

para a análise e o alerta de doenças de culturas agrícolas e sua aplicação na
ferrugem do cafeeiro. Tese de Doutorado, Campinas: Universidade Estadual de
Campinas, 2008.
MEIRA, C. A. A.; RODRIGUES, L. H. A.; MORAES, S. A. Análise da epidemia da

ferrugem do cafeeiro com árvore de decisão. Tropical Plant Pathology, v. 33, n. 2, p.
114–124, 2008.
MEIRA, C. A. A.; RODRIGUES, L. H. A.; MORAES, S. A. Modelos de alerta para o

contrle da ferrugem-do-cafeeiro em lavouras com alta carga pendente. Pesquisa
Agropecuária Brasileira, v. 44, n. 3, p. 232–242, 2009.
85
MONTEZANO, Z. F.; CORAZZA, E. J.; MURAOKA, T. Variabilidade de nutrientes em
plantas de milho cultivado em talhão manejado homogeneamente. Bragantia, v. 67, n.
4, p. 969–976. doi: 10.1590/S0006-87052008000400020, 2008.
MUCHOW, R. .; HIGGINS, A. .; RUDD, A. .; FORD, A. . Optimising harvest date in

sugar production: A case study for the Mossman mill region in Australia. Field Crops
Research, v. 57, n. 2, p. 153–162. doi: 10.1016/S0378-4290(97)00116-0, 1998.
OMETTO, J. C. Parâmetros meteorológicos e a cultura da cana-de-açúcar.

Piracicaba: ESALQ, 1980.
ORLANDO FILHO, J. Nutrição e adubação de cana-de-açúcar no Brasil. Piracicaba:

Instituto do Açúcar e do Álcool/Planalsucar, 1983.
ORLANDO FILHO, J.; BITTENCOURT, V. C.; CARMELLO, Q. A. . .; BEAUCLAIR, E. G.

F. Relações K, Ca e Mg de solo areia quartzoza e produtividade da cana-de-açúcar.
Stab Açúcar, Álcool e Subprodutos, v. 14, p. 13 – 17, 1996.
PICOLI, M. C. A. Estimativa da produtividade agrícola da cana-de-açúcar utilizando

agregados de redes neurais artificiais: estudo de caso da Usina Catanduva.
Dissertação de Mestrado, São José dos Campos: Instituto Nacional de Pesquisas
Espaciais, 2006.
PINCELLI, R. P.; SILVA, M. DE A.; SORRILLA, P. F.; et al. Brotação de cultivares de

cana-de-açúcar sob baixa temperatura. In: CONGRESSO NACIONAL DE BOTÂNICA,
61., 2010. Resumos... Manaus, 2010.
PORTO DE CARVALHO, J. R.; DELGADO ASSAD, E.; MEDEIROS EVANGELISTA, S.

R.; DA SILVEIRA PINTO, H. Estimation of dry spells in three Brazilian regions —
Analysis of extremes. Atmospheric Research, v. 132-133, p. 12–21. doi:
10.1016/j.atmosres.2013.04.003, 2013.
PRADO, H. Ambientes de produção de cana-de-açúcar na região Centro-Sul do Brasil.

Encarte do Informações Agronômicas, v. 110, p. 12–17, 2005.
PRADO, H.; PÁDUA JÚNIOR, A. L.; GARCIA, J. C.; et al. Solos e ambientes de
produção. In: L. L. Dinardo-Miranda; A. C. M. Vasconcelos; M. G. A. Landell (Eds.);
Cana-de-açúcar. 1a ed. Campinas: Instituo Agronômico, 2010.
PYLE, D. Data preparation for data mining. San Francisco: Morgan Kaufman, 1999.
R DEVELOPMENT CORE TEAM. R: A language and environment for statistical

computing. Vienna, Austria: R Foundation for Statistical Computing. Retrieved from
http://www.R-project.org/, 2011.
86
RAIJ, B. VAN; CANTARELLA, H.; QUAGGIO, J. A.; FURLANI, A. M. C.
Recomendações de adubação e calagem para o estado de São Paulo. 2nd ed.
Campinas: Instituo Agronômico, 1996.
RAMBURAN, S.; PARASKEVOPOULOS, A.; SAVILLE, G.; JONES, M. A decision

support system for sugarcane variety selection in south africa based on genotype-by-
environment analyses. Experimental Agriculture, v. 46, n. 02, p. 243. doi:
10.1017/S001447970999086X, 2010.
RAMBURAN, S.; ZHOU, M.; LABUSCHAGNE, M. Interpretation of

genotype×environment interactions of sugarcane: Identifying significant environmental
factors. Field Crops Research, v. 124, n. 3, p. 392–399. doi: 10.1016/j.fcr.2011.07.008,
2011.
RAMESH, P.; MAHADEVASWAMY, M. Effect of Formative Phase Drought on Different

Classes of Shoots, Shoot Mortality, Cane Attributes, Yield and Quality of Four
Sugarcane Cultivars. Journal of Agronomy and Crop Science, v. 185, n. 4, p. 249–
258. doi: 10.1046/j.1439-037x.2000.00399.x, 2000.
REIS JUNIOR, R. D. A. Probabilidade de resposta da cana-de-açúcar à adubação

potássica em razão da relação K (Ca+Mg) do solo. Pesquisa Agropecuária Brasileira,
v. 36, n. 9, p. 1175–1183, 2001.
REZENDE, S. O.; PUGLIESI, J. B.; MELANDA, E. A.; PAULA, M. F. DE. Mineração de

dados. In: S. O. rezende (Ed.); Sistemas inteligentes: fundamentos e aplicações.
p.307–336. São Paulo: Manole, 2005.
ROCHA, A. M. C. Emergência, perfilhamento e produção da cana-de-açúcar

(Saccharum spp.) em função das épocas de plantio no Estado de São Paulo.
Dissertação de Mestrado, Piracicaba: Universidade de São Paulo, 1984.
RODRIGUES, F. A.; DE LAIA, M. L.; ZINGARETTI, S. M. Analysis of gene expression

profiles under water stress in tolerant and sensitive sugarcane plants. Plant Science, v.
176, n. 2, p. 286–302. doi: 10.1016/j.plantsci.2008.11.007, 2009.
ROEL, A.; FIRPO, H.; PLANT, R. E. Why do some farmers get higher yields?
Multivariate analysis of a group of Uruguayan rice farmers. Computers and Electronics
in Agriculture, v. 58, n. 1, p. 78–92. doi: 10.1016/j.compag.2006.10.001, 2007.
SANTOS, H. G.; JACOMINE, P. K. T.; ANJOS, L. H. C. DOS; et al. Sistema brasileiro

de classificação de solos. 2a. ed. Rio de Janeiro: Embrapa Solos, 2006.
SAS INSTITUTE INC. JMP 11 Specialized Models. Cary, NC: SAS Institute Inc., 2013.
87
SCARDUA, R.; ROSENFELD, U. Irrigação da cana-de-açúcar. In: S. B. Paranhos (Ed.);
Cana-de-açúcar: cultivo e utilização. v. 1, p.313–341. Campinas: Fundação Cargill,
1987.
SCARPARE, F. V. Simulação do crescimento da cana-de-açúcar pelo modelo

agrohidrológico SWAP/WOFOST. Tese de Doutorado, Piracicaba: Universidade de
São Paulo, 2011.
SCARPARI, M. S. Modelos para a previsão da produtivdade da cana-de-açúcar

(Saccharum soo.) através de parâmetros climáticos. Dissertação de Mestrado,
Piracicaba: Universidade de São Paulo, 2002.
SCARPARI, M. S.; BEAUCLAIR, E. G. F. Sugarcane maturity estimation through

edaphic-climatic parameters. Scientia Agricola, v. 61, p. 486 –491, 2004.
SCHULTZ, A. R. Botânica sistemática. 3rd ed., v. 2. Rio de Janeiro: Globo, 1963.
SENTELHAS, P. C.; PEREIRA, A. R.; ANGELOCCI, L. R. Meteorologia Agrícola. 3rd

ed. Piracicaba: ESALQ, 2000.
SILBERSCHATZ, A.; TUZHILIN, A. On subjective measures of interestingness in

knowledge discovery. In: INTERNATIONAL CONFERENCE ON KNOWLEDGE
DISCOVERY AND DATA MINING, 1., 1995. Proceedings... Montreal: KDD, p.275–281,
1995.
SILBERSCHATZ, A.; TUZHILIN, A. What makes patterns interesting in knowledge

discovery systems. Transactions of Knowledge Data Engineering, v. 8, n. 6, p. 970–
974, 1996.
SILVA, M. A.; CARLINI, S. D.; PERECIN, D. Fatores que afetam a brotação inicial da
cana-de-açúcar. Revista Ceres, v. 51, n. 296, p. 457–466, 2004.
SILVA, M. DE A.; DOS SANTOS, C. M.; ARANTES, M. T.; PINCELLI, R. P. Fenologia

da Cana-de-açúcar. In: C. A. C. Crusciol; M. de A. Silva; R. Rosseto; R. P. Soratto
(Eds.); Tópicos em ecofisiologia da cana-de-açúcar. p.8–21. Botucatu: FEPAF, 2010.
SINGELS, A.; SMIT, M. A.; REDSHAW, K. A.; DONALDSON, R. A. The effect of crop
start date, crop class and cultivar on sugarcane canopy development and radiation
interception. Field Crops Research, v. 92, n. 2-3, p. 249–260. doi:
10.1016/j.fcr.2005.01.028, 2005.
SMIT, M. A.; SINGELS, A. The response of sugarcane canopy development to water

stress. Field Crops Research, v. 98, n. 2-3, p. 91–97. doi: 10.1016/j.fcr.2005.12.009,
2006.
88
SMITH, D. M.; INMAN-BAMBER, N. G.; THORBURN, P. J. Growth and function of the
sugarcane root system. Field Crops Research, v. 92, n. 2-3, p. 169–183. doi:
10.1016/j.fcr.2005.01.017, 2005.
SOUZA, Z. M. DE; CERRI, D. G. P.; COLET, M. J.; et al. Análise dos atributos do solo e
da produtividade da cultura de cana-de-açúcar com o uso da geoestatística e árvore de
decisão. Ciência Rural, v. 40, n. 4, p. 840–847, 2010.
SOUZA, Z. M. DE; MARQUES JÚNIOR, J.; PEREIRA, G. T. Influência do relevo na

variação anisotrópica dos atributos químicos e granulométricos de uma latossolo em
Jaboticabal-SP. Engenharia Agrícola, v. 23, n. 3, p. 486–495, 2003.
SOUZA, Z. M. DE; MARQUES JÚNIOR, J.; PEREIRA, G. T.; MOREIRA, L. F.

Variabilidade espacial do pH, Ca, Mg e V% do solo em diferentes formas do relevo sob
cultivo de cana-de-açúcar. Ciência Rural, v. 34, n. 6. doi: 10.1590/S0103-
84782004000600015, 2004.
SUGAWARA, L. M.; RUDORFF, B. F. T.; FREITAS, C. C.; PICOLI, M. C. A.; ADAMI, M.

Estimativa de produtividade de cana-de-açúcar (Saccharum officinarum L.) por meio de
técnica de análise de regressão linear múltipla. In: SIMPÓSIO BRASILEIRO DE
SENSORIAMENTO REMOTO, 13., 2007. Anais... Florianópolis: INPE, p.435–442,
2007.
TAN, P.; STEINBACH, M.; KUMAR, V. Introdução ao Data Mining. Rio de Janeiro:
Ciência Moderna, 2009.
TERAMOTO, E. R. Avaliação e aplicação de modelos de estimativa de produção

de cana-de-açúcar (Saccharum spp) baseados em parâmetros do solo e do clima.
Tese de Doutorado, Piracicaba: Universidade de São Paulo, 2003.
THORNTHWAITE, C. W.; MATHER, J. R. The water balance. New Jersey: Centertown,

1955.
TITTONELL, P.; SHEPHERD, K.; VANLAUWE, B.; GILLER, K. Unravelling the effects of
soil and crop management on maize productivity in smallholder agricultural systems of
western Kenya—An application of classification and regression tree analysis.
Agriculture, Ecosystems & Environment, v. 123, n. 1-3, p. 137–150. doi:
10.1016/j.agee.2007.05.005, 2008.
TITTONELL, P.; VANLAUWE, B.; LEFFELAAR, P. A.; SHEPHERD, K. D.; GILLER, K.

E. Exploring diversity in soil fertility management of smallholder farms in western Kenya.
Agriculture, Ecosystems & Environment, v. 110, n. 3-4, p. 166–184. doi:
10.1016/j.agee.2005.04.003, 2005.
89
UEHARA, N.; SASAKI, H.; AOKI, N.; OHSUGI, R. Effects of the Temperature Lowered
in the Daytime and Night-time on Sugar Accumulation in Sugarcane. Plant Production
Science, v. 12, n. 4, p. 420–427. doi: 10.1626/pps.12.420, 2009.
VASCONCELOS, A. C. M.; CASAGRANDE, A. A. Fisiologia do sistema radicular. In: L.

L. Dinardo-Miranda; A. C. M. Vasconcelos; M. G. A. Landell (Eds.); Cana-de-açúcar.
1st ed., p.79–100. Campinas: Instituo Agronômico, 2010.
VILLA NOVA, N. A.; PEDRO JÚNIOR, M. J.; PEREIRA, A. R.; OMETTO, J. C.

Estimativa de graus-dia acumulados acima de qualquer temperatura base, em função
das temperaturas máxima e mínima. Caderno de Ciência da Terra, v. 30, n. 8, p. 1–8,
1972.
WACLAWOVSKY, A. J.; SATO, P. M.; LEMBKE, C. G.; MOORE, P. H.; SOUZA, G. M.

Sugarcane for bioenergy production: an assessment of yield and regulation of sucrose
content. Plant Biotechnology Journal, v. 8, n. 3, p. 263–276. doi: 10.1111/j.1467-
7652.2009.00491.x, 2010.
WITTEN, I. H.; FRANK, E. Data mining : practical machine learning tools and
techniques. 2nd ed. Amsterdam; Boston, MA: Morgan Kaufman, 2005.
XU, Y.; SHEN, S.; CHEN, Z. Comparative study of sugarcane average unit yield
prediction with genetic BP neural network algorithm. In: INTERNATIONAL
CONFERENCE ON ADVANCED COMPUTER CONTROL, 2., 2010. Proceedings...
p.340–343, 2010.
ZAR, J. H. Biostatistical analysis. 5th ed. Prentice-Hall/Pearson, 2010.
ZHANG, B.; VALENTINE, I.; KEMP, P. Modelling the productivity of naturalised pasture
in the North Island, New Zealand: a decision tree approach. Ecological Modelling, v.
186, n. 3, p. 299–311. doi: 10.1016/j.ecolmodel.2004.12.016, 2005.
ZHENG, H.; CHEN, L.; HAN, X.; ZHAO, X.; MA, Y. Classification and regression tree
(CART) for analysis of soybean yield variability among fields in Northeast China: The
importance of phosphorus application rates under drought conditions. Agriculture,
Ecosystems & Environment, v. 132, n. 1-2, p. 98–105. doi:
10.1016/j.agee.2009.03.004, 2009.
90
ANEXOS
91
92
ANEXO I – Método utilizado para determinação do fator de maior influência na
produtividade
Uma árvore de decisão foi induzida a partir da BD enriquecida, ressaltando que o

atributo meta contínuo é TCH.
O software utilizado para indução de árvore de decisão foi o JMP versão 11.2
(SAS INSTITUTE, 2013). Foi estabelecido para parada de crescimento o número
mínimo de registros por folha igual a 45.
Os resultados obtidos sobre a participação relativa dos atributos descritores na

árvore induzida estão na Tabela 13.
Tabela 13. Participação na variabilidade explicada pelo modelo para os atributos descritores induzidos
por árvore de decisão com atributo meta TCH
Participação na
Categoria do Atributo Número de nós Variabilidade
Número Corte 7 72
Textura 3 6
Seca Crescimento 1 4
P-ETC maturação 2 3
Outros 22 15
A árvore de decisão gerada para o atributo meta contínuo TCH possui 35 nós,
sendo que o atributo número de cortes representa um quinto destes. Com relação à
participação na variabilidade explicada pelo modelo, número de cortes tem 72%, sendo
o principal fator de influência sobre TCH.
93
94
ANEXO II – Descrição dos atributos utilizados para indução de regras
Tabela 14. Descrição dos atributos contínuos ou ordinais utilizados para indução de regras
Descrição Variável P25 P50 P75

Ambiente de Produção
AmbProd 6 7 8
(PRADO, 2005)
Teor de matéria orgânica no solo
MO 7 10 13
(g.dm-3)
Teor de fósforo no solo
P 4,2 6,5 10,9
(mg dm-3)
Teor de potássio no solo
K 0,5 0,8 1,1
(mmolc dm-3)
Teor de cálcio no solo
Ca 9,0 12,0 17,0
(mmolc dm-3)
Teor de magnésio no solo
Mg 3,0 4,7 7,0
(mmolc dm-3)
Teor de alumínio no solo
Al 0,0 0,0 0,5
(mmolc dm-3)
Infestação de broca
(% entrenós brocados no Broca 1,4 1,9 2,4
momento da colheita)
Infestação de cigarrinha
(ninfas/m sulco – avaliação mais Cigarrinha 0,0 0,1 0,4
recente)
Classe de infestação por
nematóide
Nematoide 1 1 2
(0 – Ausente; 1- Baixa; 2 –
Média; 3 - Alta)
95
Tabela 14.1. Descrição dos atributos contínuos ou ordinais utilizados para indução de regras
(continuação)
Classe de infestação por
migdólus
Migdolus 2 2 3
(0 – Ausente; 1- Baixa; 2 –
Média; 3 - Alta)
Número de cortes
(0,5 – plantio 18 meses; 0,75 –
Estagio_num 2 3 4
plantio 15 meses; 1,0 – plantio
12 meses; 2 a 5 – 2° a 5° corte)
Ambiente de produção
recomendado para a variedade Vari_Amb 2 3 3
(1 – A até 5 – E)
Mês de plantio para a variedade
Vari_Ciclo 7 8 8
(4 – Abril até 11 – Novembro)
Quantidade de N na adução
insumoN 0 36 72
(kg/ha)
Quantidade de P2O5 na adução
insumoP 0 0 0
(kg/ha)
Quantidade de K2O na adução
insumoK 0 54 81
(kg/ha)
Ambiente de Produção
AmbDmt 4 6 7
(DEMATTÊ; DEMATTÊ, 2009)
Classe de fertilidade do solo
Fertilidade 3 3 4
(1 – mais fértil até 7 - menos
fértil)
96
(continuação)
Classe de textura do solo
Textura 4 4 4
(1 - muito argilosa até 6 - muito
arenosa; 7 - siltosa)
Mês de início da brotação Mes brotacao 6 8 10
Mês de início do perfilhamento Mes perfilhamento 7 9 11
Mês de início do máximo
Mes Crescimento 2 8 11
crescimento
Mês do início da maturação Mes maturacao 3 7 8
Graus-dia médio na fase de
brotação Graus-dia brotação 3,1 4,4 5,4
(°C.dia-1)
Graus-dia
perfilhamento 4,0 5,2 6,6
perfilhamento
(°C.dia-1)
Graus-dia
máximo crescimento 4,7 5,2 6,2
-1
crescimento
(°C.dia )
Graus-dia
maturação 4,0 4,8 5,5
maturação
(°C.dia-1)
Graus-dia médio no ciclo
Graus-dia ciclo 5,0 5,1 5,3
(°C.dia-1)
Número de veranicos na fase de
Veranico brotação 0 1 1
brotação
Número de veranicos na fase de Veranico
0 1 2
perfilhamento perfilhamento
97
(continuação)
Número de veranicos na fase de Veranico
3 4 5
máximo crescimento crescimento
Número de veranicos na fase de
Veranico maturação 1 1 2
maturação
Número de veranicos no ciclo Veranico ciclo 6 8 9
Número máximo de dias
consecutivos com ausência de Seca brotação 9 15 19
precipitação na fase de brotação
consecutivos com ausência de
Seca perfilhamento 9 17 19
precipitação na fase de
perfilhamento
Seca crescimento 18 36 36
precipitação na fase de máximo
crescimento
Seca maturação 11 15 23
precipitação na fase de
maturação
Relação Ca/Mg no solo CaMg 2,20 2,67 3,00
Relação Ca/K no solo CaK 9,72 14,68 24,00
Relação Mg/K no solo MgK 3,64 5,63 10,00
Relação K/(Ca + Mg)½ no solo KCaMg 0,13 0,19 0,28
Relação K/CTC no solo KCTC 0,01 0,02 0,03
98
(continuação)
Gradiente textural
(%Argila Camada B/%Argila GradText 1,1 1,2 1,4
Camada A)
Mês de colheita MesC 6 8 9
Mês de colheita do ciclo anterior MesC_ant 6 8 10
Diferença entre precipitação e
evapotranspiração da cultura na P-ETC brotação -1,05 0,76 3,55
-1
fase de brotação (mm.dia )
P-ETC
evapotranspiração da cultura na -2,05 -0,23 2,47
perfilhamento
fase de perfilhamento (mm.dia-1)
evapotranspiração da cultura na
P-ETC crescimento -1,63 -0,67 0,54
fase de máximo crescimento
(mm.dia-1)
evapotranspiração da cultura na P-ETC maturação -2,59 0,18 1,77
fase de maturação (mm.dia-1)
evapotranspiração da cultura no P-ETC ciclo -0,42 0,00 0,48
ciclo da cultura (mm.dia-1)
99
Tabela 15. Descrição dos atributos categóricos utilizados para indução de regras
Classes
Descrição Variável (participação no total de
registros)
Aplicação de vinhaça Vinh_nom Não (80%) / Sim (20%)
Aplicação de torta de filtro Torta_nom Não (96%) / Sim (4%)
Aplicação de maturador Maturador_bin Não (82%) / Sim (18%)
Incidência de geada Geada Não (98%) / Sim (2%)
Tipo de Plantio TipoPlantio Mecanizado (89%) / Manual (11%)
Queima pré-colheita Queima Não (81%) / Sim (19%)
Tipo de colheita MecColh Mecanizado (99%) / Manual (1%)
RB 86-7515 (47%)
SP 81-3250 (13%)
SP 80-1842 (9%)
Variedade Variedade
RB 96-6928 (8%)
SP 91-1049 (6%)
Outras (17%)
latossolo vermelho (55%)
neossolo quartzarênico (24%)
Classe de solo SiBCS latossolo vermelho-amarelo (11%)
argissolo vermelho (6%)
argissolo vermelho-amarelo (3%)
Outono (25%)
Época de colheita EpocaC Inverno (44%)
Primavera (31%)
100
ANEXO III – Reapresentação das regras selecionadas
Tabela 16. Regras selecionadas em ordem numérica
Precisão Cobertura
N. Regra
(%) (%)
R4 SE (Textura ≤ 3) 50,1 20,6
R6 SE (Veranico ciclo ≤ 6) & (Fertilidade ≤ 2) & 86,5 2,3
(Graus-dia Maturação ≤ 4,32)
R11 SE (Textura ≤ 2) & (Broca ≤ 2.05) & (Mg ≥ 7.0) 80,8 3,5
R15 SE (Textura ≤ 3) & (Corte ≥ 3) 53,4 11,6
R17 SE (Seca Crescimento ≤ 16) & (Nematoide ≤ 0) 87,0 2,0
R19 SE (P-ETC Crescimento ≥ 1,39) & (Broca < 1,52) 83,6 2,7
R22 SE (Graus-dia Maturação ≥ 4,51) & (Textura ≥ 4) & 86,2 2,6
(P-ETC Brotação ≥ 5,4) & (KCaMg < 0,11)
→ Baixo (K3 | 24,1% | Classification Tree)
R25 SE (Seca Brotação ≤ 9) & (P-ETC Ciclo ≤ -0,22) & 81,0 4,4
(Ambiente Produção ≥ 6)
R26 SE (Seca Crescimento ≥ 33) & (Seca Brotação <19) & (Ca < 7) & 84,7 2,6
(Corte ≥ 3)
R28 SE (Seca Crescimento ≥ 29) & (Seca Brotação ≤ 19) & (K < 0,51) & 71,9 6,2
(Mês Colheita = (3, 4, 9, 10)
101
Tabela 16.1. Regras selecionadas em ordem numérica (continuação)
Precisão Cobertura
N. Regra
(%) (%)
R32 SE (Graus-dia Maturação ≥ 4,64) & (Mg ≤ 3,8) & (Seca Brotação ≤ 9) & 75,8 4,2
(P-ETC Ciclo ≤ -0,22) → ENTÃO Baixo (K4 | 18,2%)
R34 SE (Broca ≥ 2,27) & (Graus-dia Brotação ≥ 5,59) & (KCaMg < 0,15) 83,1 2,6
R35 SE (Graus-dia Maturação ≥ 4,63) & (K < 0.38) & 82,4 2,3
(P-ETC Crescimento < 0,89) & (SiBCS = PV, PVA, RQ)
R38 SE (Graus-dia Maturação ≥ 4,73) & (Seca Brotação <24) & (MO < 7,9) 60,4 4,9
& (P-ETC Ciclo < -0,20)
→ ENTÃO Baixo (K5 | 16,1% | Classification Tree)
R40 SE (Graus-dia Maturação ≥ 4,73) & (Seca Brotação ≤ 9) & 86,3 2,3
(P-ETC Ciclo < -0,24) & (Textura ≥ 5)
102

Peloia PauloRodrigues D

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Peloia PauloRodrigues D

Enviado por

Direitos autorais:

Formatos disponíveis

PAULO RODRIGUES PELOIA

INDUÇÃO DE REGRAS DE DECISÃO PARA ANÁLISE

PAULO RODRIGUES PELOIA

INDUÇÃO DE REGRAS DE DECISÃO PARA ANÁLISE

Tese apresentada à Faculdade de Engenharia

ORIENTADOR: Prof. Dr. Luiz Henrique Antunes Rodrigues

ESTE EXEMPLAR CORRESPONDE À VERSÃO FINAL

As indústrias do setor sucroalcooleiro coletam anualmente, durante sua operação

Industries of sugarcane sector collect annually thousands of information related to

1.1 HIPÓTESE .......................................................................................................... 5

1.2 OBJETIVO .......................................................................................................... 5

2 REVISÃO BIBLIOGRÁFICA ...................................................................................... 7

2.1 Cana-de-açúcar .................................................................................................. 7

2.1.1 Modelos no sistema de produção da cana-de-açúcar .................................. 8

2.1.2 Fatores de influência sobre a produtividade ............................................... 11

2.1.3 Variedades ................................................................................................. 15

2.1.4 Manejo ........................................................................................................ 16

2.1.5 Ambiente de Produção ............................................................................... 18

2.2 Mineração de dados .......................................................................................... 19

2.2.1 Indução de árvore de decisão .................................................................... 21

2.2.2 Indução de regras de decisão .................................................................... 23

2.2.3 Categorização do atributo meta .................................................................. 25

2.2.4 Medidas de Interesse ................................................................................. 26

3 MATERIAL E MÉTODOS ........................................................................................ 31

3.1 Abordagem empregada..................................................................................... 31

Etapa 1. Obtenção de Bases de Dados .................................................................. 33

Etapa 1.1. BD Produção.......................................................................................... 33

Etapa 1.2. BDs Complementares ............................................................................ 34

Etapa 2. Limpeza dos Dados .................................................................................. 35

Limpeza de dados no BD Clima .............................................................................. 36

Etapa 3. Criação de atributos derivados ................................................................. 36

Etapa 3.2. Cálculo de índices meteorológicos ........................................................ 38

Etapa 3.3. Cálculo de relações edáficas ................................................................. 38

Etapa 3.4. Caracterização das variedades.............................................................. 40

Etapa 4. Padronização do potencial produtivo ........................................................ 40

Etapa 5. Categorização do desempenho produtivo ................................................ 42

Etapa 6. Criação dos BD´s Modelagem .................................................................. 45

Etapa 7. Extração de regras .................................................................................... 46

Etapa 8. Seleção de regras por medidas de Interesse ........................................... 47

Etapa 9.1. Análise agronômica das regras selecionadas ........................................ 48

Etapa 9.2. Análise agronômica dos atributos descritores........................................ 48

3.2 Descrição da unidade de produção em estudo ................................................. 48

4 RESULTADOS E DISCUSSÃO .............................................................................. 51

4.1 Resultados ........................................................................................................ 51

4.1.1 Regras individuais – Alto desempenho ....................................................... 54

4.1.2 Regras individuais – Baixo desempenho .................................................... 57

4.1.3 Atributos descritores ................................................................................... 60

6 REFERÊNCIAS BIBLIOGRÁFICAS ........................................................................ 79

ANEXO I – Método utilizado para determinação do fator de maior influência na

ANEXO II – Descrição dos atributos utilizados para indução de regras ......................... 95

ANEXO III – Reapresentação das regras selecionadas ............................................... 101

minha esposa e filha, Anna e Giovanna.

À FAPESP e Odebrecht Agroindustrial pelo apoio ao projeto de pesquisa (Processo

À Faculdade de Engenharia Agrícola da Universidade Estadual de Campinas por todo o

Aos professores desta instituição pelos ensinamentos transmitidos.

À minha família pelo apoio, paciência e compreensão.

Figura 1. Ilustração do conceito de Graus-dia (°C). ....................................................... 12

Tabela 1. Coeficientes de cultura (Kc) para cana-de-açúcar. ........................................ 14

A cultura da cana-de-açúcar tem grande importância econômica no mundo,

O sistema produtivo da cana-de-açúcar tem como principais objetivos o

Em função do seu ciclo perene, a cana-de-açúcar sofre a influência de diversos

A interação do clima de determinado local com fatores edáficos, denominado

A compreensão da magnitude e natureza das interações entre fatores do

A identificação de padrões e entendimento dos fatores que interferem na