AGROSOFT 97
I Congresso da SBI-Agro

Data Mining: Geração de dados com qualidade para

sistemas agropecuários

Anne Magály de Paula Canuto
anne@dimap.ufrn.br
Departamento de Informática e Matemática Aplicada -UFRN
R. Água Marinha, 1980 Bl.D Ap.102 - L.Nova - Natal - RN CEP.: 59076-200

Márcia de Paiva Bastos Gottgtroy
marcia@dimap.ufrn.br
Departamento de Informáica e Matemática Aplicada - UFRN
Coordenadora da base de pesquisa de sistemas de apoio à decisão
Campus Universitário Lagoa Nova B. L. Nova CEP.:59072-970 Natal - RN

Resumo

A Extração de Conhecimento através de Base de Dados (Knowledge Discovery of Database - KDD) é uma tecnologia que possui ferramentas poderosas para a descoberta eficiente de informações valorosas de uma grande coleção de dados, visando o auxílio no suporte a decisão. Data Mining é uma das ferramentas de KDD mais utilizadas, tanto no meio comercial quanto no meio científico. O principal objetivo do data mining é a descoberta de informações e conhecimento através dos dados (base de dados), centralizando-se na decoberta automática de novos fatos e relações nos dados. O SAGRI é um Sistema Especialista híbrido utilizado na agricultura, que tem como principal objetivo o apoio e aconselhamento aos técnicos, pesquisadores e, em especial, o agricultor em todas as etapas do processo produtivo, com atenção especial a uma melhor utilização dos recursos naturais disponíveis. Esse sistema, assim como a maioria dos sistemas na área de agricultura, utiliza-se de dados contidos em grande bases de dados em que as informações são acessadas através de listagens de consultas, onde a quantidade de dados passa a prejudicar a atualização e a eficiência na tomada de decisão. Foi observada a adequabilidade de utilização de data mining em vários pontos do sistema SAGRI bem como a necessidade da escolha da técnica de data mining mais adequada para as tarefas específicas.

Abstract

The Knowledge Discovery in databases (KDD) is a tecnology that has powerfull tools to a eficient discovery of valuable information from huge amounts of data and its goal is the help in the decision support process. Data Mining is one of the most used tools of KDD, as in a cientific as in a bussiness enviroment. The main purpose of data mining is the discovery of information and knowledge from databases and the central point is the automatic discovery of new facts and relations in the data. SAGRI, an Intelligent system to support of the growing activity, is a hybrid Intelligent system and it is used in agriculture. The main goal of this system is the support and advisement to experts, researchers and, specially, farmers in the whole process of crops, with a special attention to a better utilization of the available natural resources. Like most systems addressed to agriculture activity, this system uses huge amounts of data and informations are accessed through consultations in which the amount of data is a negative point in the update and efficiency of the process to support the decision. It is noticed that several fields of the system SAGRI are suitable to the utilization of data mining and the choice of the best method of data mining must be used.

Palavras-chave

Extração de conhecimento em base de dados, Data Mining, Sistemas Especialistas para a agricultura e Inteligência computacional.

1. INTRODUÇÃO

A Extração de Conhecimento através de Base de Dados (Knowledge Discovery of Database - KDD) é uma tecnologia de crescente interesse que combina Computação Inteligente, Base de dados e Aprendizagem de máquina. Tal tecnologia possui ferramentas poderosas para a descoberta eficiente de informações valorosas e não óbvias de uma grande coleção de dados, visando o auxílio no suporte a decisão.

O principal objetivo do data mining é a descoberta de informações e conhecimento através dos dados (base de dados), centralizando-se na decoberta automática de novos fatos e relações nos dados(Anand, 1995; Holheimer,1994). Com a utilização do data mining, pode-se utilizar informações, uma vez que se consegue passar a informação de maneira mais adequada e rápida para que a mesma possa ser utilizada (visualizar, acessar e utilizar) sem a necessidade de uma busca dessas informações visualmente na listagem de dados.

O SAGRI (Sistema Inteligente de Apoio a Atividade Agrícola) é um sistema especialista híbrido utilizado na agricultura, tendo como principal finalidade o apoio e aconselhamento ao técnicos, pesquisadores e, em especial, o agricultor em todas as etapas do processo produtivo, com atenção especial a uma melhor utilização dos recursos naturais disponíveis - solo e água [Gottgtroy et ell,1996].

O principal objetivo deste artigo é analisar a utlização de técnicas de data mining em sistemas agropecuários, mais especificamente, a partir do sistema SAGRI. Este artigo está dividido em cinco principais sessões, que são: a primeira e atual sessão apresenta uma rápida introdução ao assunto; a segunda ilustrará o sistema SAGRI; a terceira mostrará uma introdução ao data mining; a quarta ilustrará os possíveis locais de utilização dessa tecnologia, assim como a importância e o ganho na qualidade das informações do sistema SAGRI, pela utilização desse processo; na quinta e última sessão serão descritas algumas considerações sobre o trabalho realizado.

2. DATA MINING

A utilização do data mining permite o acesso de informações com maior qualidade, tanto por parte do usuário no processo de suporte a decisão, quanto pelos especialistas (técnicos e agrônomos) O processo de data mining consiste basicamente de três grandes passos (Bigus, 1996), a saber:

Preparação: como o próprio nome sugere, é nesse passo que os dados são preparados antes de serem apresentados ao data mining. Os dados são selecionados (quais os dados que são importantes), purificados (retirar inconsistências e incompletude dos dados) e preprocessados (representá-los de uma maneira adequada para o data mining). Este passo é realizado sob a supervisão e conhecimento de um especialista, pois o mesmo é capaz de definir quais os dados são importantes, assim como o que fazer com os dados antes de utilizá-los no data mining.
Data Mining: é nesse passo que os dados preparados são processados, ou seja, é onde se faz a mineração dos dados propriamente dita. O principal objetivo desse passo é transformar os dados de uma maneira que permita a identificação mais fácil de informações importantes;
Análise dos dados: Nesse passo, o resultado do data mining é avaliado, visando determinar se algum conhecimento adicional foi descoberto, assim como definir a importância dos fatos gerados. Para este passo, várias maneiras de análise podem ser utilizadas, por exemplo: o resultado do data mining pode ser um gráfico, em que análise dos dados passa a ser uma análise do comportamento do gráfico.

Data Mining é uma das ferramentas de KDD mais utilizadas, tanto no meio comercial quanto no meio científico (Bigus, 1996). Existem várias atividades (funções) de data mining que podem ser aplicadas aos dados, a saber: associação (encontrar relacionamentos entre os dados), agrupamento ou clustering (segmentar as informações em grupos definíveis e homogêneos, com base em algumas características), classificação (classificar os dados através de modelos de comportamento), padrões sequenciais (descobrir eventos relacionados que ocorrem ao longo de um período de tempo) e séries temporais (identificar séries similares coletadas ao longo de um período de tempo).

O Data Mining dispõe de várias técnicas para a execução dessas tarefas, entre elas: Teoria dos Conjuntos, Estatística e Redes Neurais [Fayyad et all, 1996]. A adequabilidade do tipo da função de data mining ao tipo de problema que se está querendo solucionar, juntamente com a quantidade e qualidade dos dados são os fatores fundamentais para definir a técnica mais adequada de execução.

O papel mais importante do data mining é saber onde utilizar as informações descobertas neste processo, ou seja, o objetivo da análise dos dados. Existem várias maneiras de utilizar o resultado da análise dos dados, as duas principais são: no processo de suporte à decisão e no desenvolvimento de aplicações. Neste artigo, o resultado do data mining será utilizado no processo de suporte a decisão, fornecendo informações com mais qualidade ao seu usuário.

3. O Sistema SAGRI

Um sistema do porte do SAGRI, que é baseado no conhecimento de especialistas da área agrícola, requer uma arquitetura robusta e a aplicação de tecnologias de ponta, que permitam a efetivação das diversas facetas que o sistema se propõe a desempenhar. A figura 1 mostra a concepção esquemática e conceitual adotada que permite visualizar as diversas áreas e tecnologias que necessitam ser trabalhadas para a sua implementação.

Esse sistema, assim como a maioria dos sistemas utilizados na área de agropecuária, necessita de grande volume de dados contidos em grande bases de dados (um enorme arquivo de informações, muitas vezes, codificadas) em que as informações são acessadas através de consultas a intermináveis listagens de dados. Muitas vezes, consultas visuais aos dados dão margens a não percepção de informações importantes, assim como um cansaço excessivo do analisador. Nestes casos, a quantidade de dados não trabalhados passa a prejudicar a atualização e, consequentemente, a eficiência na tomada de decisão (Rocha, 1997).

Pode-se dizer que a necessidade de obter informações com mais qualidade, assim como a exaustiva consulta a listagens de dados foram as duas principais motivações para a utilização de data mining no projeto SAGRI. A extração do conhecimento de base de dados, como forma de agilizar os processos, é de fundamental importancia no desempenho desse sistema.

Figura 1: Estrutura Conceitual do SAGRI

4. APLICAÇÃO DE DATA MINING NO SAGRI

Foram identificadas duas áreas de atuação principais do data mining no SAGRI, a saber: no pré-processamento dos dados, de forma a organizar e depurar os dados para serem utilizados por outros módulos do sistema como as próprias bases, SGI (Sistemas Geográficos de Informações) e Redes Neurais; e na geração de meta-conhecimento, retro-alimentando e atualizando as bases de conhecimento. Neste artigo, será analisada a utilização do data mining para a depuração dos dados.

Atualmente, está em desenvolvimento um trabalho de pesquisa correlato a este, também aplicado ao sistema SAGRI, que aplica a aprendizagem indutiva para extrair meta-conhecimento da relação cultura/solo (De Souza et all, 1997).

Através de um estudo cuidadoso da modelagem e objetivos do sistema SAGRI, observou-se várias partes do sistema em que se adequaria a utilização de data mining, como, por exemplo: analisar novas possibilidades de culturas através da análise de culturas de outras regiões e a indicação da melhor época de plantio de determinada cultura, analisando a base de dados da rota de pragas, etc.

Dentro do escopo do sistema SAGRI, foi observado que a análise da aptidão de novas culturas através da descoberta de conhecimento de características do solo e cultura é um processo muito importante para um bom desempenho e, por isso, será nosso objeto de estudo.

Nas base de dados do sistema SAGRI, existem informações sobre o uso e aptidão das terras do estado do Rio Grande do Norte. Essas informações também estão disponíveis para outros estados brasileiros. Esses dados podem ser cruzados com as informações sobre os tipos de solos e suas características e sobre as características das culturas propriamente ditas.

O objetivo de utilizar data mining é relacionar características do solo e culturas. Com a descoberta deste conhecimento, é facilitado o processo de definição de qual o solo é mais adequado (assim como as possíveis correções a serem feitas no solo) para uma cultura que, até o momento, não tinha sido introduzida numa determinada região.

Para a realização de tal processo, que está ilustrado na figura 2, o data mining foi dividido em duas etapas, que são:

Extração de características do solo que é utilizado com boa produtividade para o plantio de uma determinada cultura a partir de suas características estruturais;
Classificar o solo mais apropriado em outra região para a cultura desejada, a partir das características extraídas do resultado da primeira etapa.

Como foi mencionado anteriormente, as Redes Neurais Artificiais (RNAs) podem ser utilizadas como técnica de extração de conhecimento (data mining). Segundo (Bigus, 1996), a adequabilidade das RNAs é boa para todas as atividades comuns de data mining (ver seção 2).

Figura 2: Estrutura do processo de data mining.

Através de um estudo detalhado do problema, conclui-se que para a primeira etapa do processo - extração de características - a atividade de associação é a que melhor se adequa. A segunda etapa - adequabilidade do solo - é caracterizada como uma atividade de classificação.

A atividade de associação é uma etapa complexa uma vez que um tipo de solo pode ser apto ao plantio de várias culturas, assim como uma mesma cultura pode ser cultivada em diversos tipos de solos. Em outras palavras, é uma atividade que associa N para N carasterísticas. Para a realização desta etapa, é possível utilizar redes neurais que realizam tarefas de hetero-associação (Bishop, 1995), redes neuro-fuzzy (Bossley, 1995) ou redes mais complexas. Este módulo ainda está em fase de estudo e definição dos parametros necessários.

Na atividade de classificação, vários modelos de redes neurais podem ser utilizados. Para a implementação deste módulo, foi escolhido o modelo MlP (Multi-layer Perceptron) (Ebehart, 1996; Neuron, 1996). Este módulo já foi implementado e está em fase de testes, com a comprovação de um bom desempenho do mesmo (ver figura 3).

5. CONSIDERAÇÕES FINAIS

Este artigo se propôs a apresentar a utilização de técnicas de data mining no sistema SAGRI. O tópico de atuação foi a análise de aptidão de novas culturas para um determinado solo, tomando como base características da cultura.

Atualmente, está ocorrendo o processo de especificação dos bancos de dados (culturas e caracteríticas; solos e características, bem como solo e uso de cultura). Até então, estas informações ainda não estavam disponíveis em banco de dados. No entanto, a segunda etapa do processo de data mining já foi implementado com as informações existentes. A primeira etapa será implementada assim que o processo de especificação e implementação dos bancos de dados se encerrar.

Figura 3: Estrutura da rede neural para a segunda etapa.

6. REFERÊNCIAS:

Anand, T(1995). Opportunity Explorer: Navigating Large Databases using Discovery Templates , Journal of Intelligent Information Systems, pp.27-37.
Bigus, J(1996). Data Mining with Neural Networks Ed. McGraw-Hill .
Bishop, C.M.(1995); Neural Networks for Pattern Recognition. Clarendom Press, Oxford.
Bossley K M (1995); Neurofuzzy Construction Algorithms, Tecnical Report, Image, Speech and Intelligent Systems Research Group. Department of Computer Science and Electronic. University of Southhampton.
De Souza, Gottgtroy, M e Do Nascimento, J(1997); Incorporação Dinâmica de Conhecimento no Projeto SAGRI: Sistema Inteligente de Apoio à Produção Agrícola. A ser aprensetado no AGROSOFT'97.
Eberhart, L.(1996); Computational Intelligence PC Tolls. AP. Professional.
Fayyad, U.S., Piatetsky-Shapiro, G., Smyth, P. end Uthurusamy, R. (1996); Advances in Knowledge Dicovery and Data Mining. The MIT Press .
Gottgtroy, et.all (1996); "The Development and Application of SAGRI: An Intelligent System for Supporting Agricultural Activities" - Proceedings of the 14^th IASTED; Innsbuck - Austria .
Holsheimer, M. and SIEBES, A(1994); Data Mining: The Search for Knowledge in data bases , Techinal Report, Amsterdam.
Rocha, J.V(1997); Gerenciamento de Operações agrícolas em Sistemas de Informações Geo-referenciadas. Revista Agrosoft, número 0, pp.8-11.

7. BIOGRAFIA

Anne Magály de Paula Canuto: graduação em Ciências da Computação pela UFRN, M.Sc. em Informática pelo DI-UFPE. Atualmente, bolsista DCR/CNPq alocada ao DIMAp/UFRN desde novembro/95 até setembro/97, na base de pesquisa de Sistemas de Apoio à Decisão. A partir de outubro/97, estará no curso de doutoramento pela University of Kent at Cantebury, UK. Áreas de Interesse: Inteligência Computacional, Sistemas Híbridos, Processamento e análise de Imagens.

Márcia de Paiva Bastos Gottgtroy: graduação em informática pela UFRJ, M. Sc. em Sistemas de Computação pela COPPE/UFRJ, Ds.C. em Engenharia Civil pela COPPE/UFRJ. Atualemente é professora adjunta da UFRN, Coordenadora da base de pesquisa Sistemas de Apoio à Decisão, Coordenadora dos projetos: SAGRI (Sistema Inteligente de Apoio à Produção Agrícola) e TOM (Sistema de apoio à Atividade Turística). Atuante nos cursos de Ciências da Computação e Engenharia da Computação, Curso de Especialização em Engenharia de Sistemas e Curso de Mestrado em Sistemas e Computação do DIMAp/UFRN. Áreas de Interesse: Inteligência Computacional, Aquisição Automática de Conhecimento, Sistemas Híbridos, Cognição, Design de Informação, Tutores Inteligentes.