|
Data Mining: Geração de dados com qualidade para sistemas agropecuários
Anne Magály de Paula Canuto Márcia de Paiva Bastos Gottgtroy
Resumo A Extração de Conhecimento através de Base de Dados (Knowledge Discovery of Database - KDD) é uma tecnologia que possui ferramentas poderosas para a descoberta eficiente de informações valorosas de uma grande coleção de dados, visando o auxílio no suporte a decisão. Data Mining é uma das ferramentas de KDD mais utilizadas, tanto no meio comercial quanto no meio científico. O principal objetivo do data mining é a descoberta de informações e conhecimento através dos dados (base de dados), centralizando-se na decoberta automática de novos fatos e relações nos dados. O SAGRI é um Sistema Especialista híbrido utilizado na agricultura, que tem como principal objetivo o apoio e aconselhamento aos técnicos, pesquisadores e, em especial, o agricultor em todas as etapas do processo produtivo, com atenção especial a uma melhor utilização dos recursos naturais disponíveis. Esse sistema, assim como a maioria dos sistemas na área de agricultura, utiliza-se de dados contidos em grande bases de dados em que as informações são acessadas através de listagens de consultas, onde a quantidade de dados passa a prejudicar a atualização e a eficiência na tomada de decisão. Foi observada a adequabilidade de utilização de data mining em vários pontos do sistema SAGRI bem como a necessidade da escolha da técnica de data mining mais adequada para as tarefas específicas. Abstract The Knowledge Discovery in databases (KDD) is a tecnology that has powerfull tools to a eficient discovery of valuable information from huge amounts of data and its goal is the help in the decision support process. Data Mining is one of the most used tools of KDD, as in a cientific as in a bussiness enviroment. The main purpose of data mining is the discovery of information and knowledge from databases and the central point is the automatic discovery of new facts and relations in the data. SAGRI, an Intelligent system to support of the growing activity, is a hybrid Intelligent system and it is used in agriculture. The main goal of this system is the support and advisement to experts, researchers and, specially, farmers in the whole process of crops, with a special attention to a better utilization of the available natural resources. Like most systems addressed to agriculture activity, this system uses huge amounts of data and informations are accessed through consultations in which the amount of data is a negative point in the update and efficiency of the process to support the decision. It is noticed that several fields of the system SAGRI are suitable to the utilization of data mining and the choice of the best method of data mining must be used. Palavras-chave Extração de conhecimento em base de dados, Data Mining, Sistemas Especialistas para a agricultura e Inteligência computacional.
1. INTRODUÇÃO A Extração de Conhecimento através de Base de Dados (Knowledge Discovery of Database - KDD) é uma tecnologia de crescente interesse que combina Computação Inteligente, Base de dados e Aprendizagem de máquina. Tal tecnologia possui ferramentas poderosas para a descoberta eficiente de informações valorosas e não óbvias de uma grande coleção de dados, visando o auxílio no suporte a decisão. O principal objetivo do data mining é a descoberta de informações e conhecimento através dos dados (base de dados), centralizando-se na decoberta automática de novos fatos e relações nos dados(Anand, 1995; Holheimer,1994). Com a utilização do data mining, pode-se utilizar informações, uma vez que se consegue passar a informação de maneira mais adequada e rápida para que a mesma possa ser utilizada (visualizar, acessar e utilizar) sem a necessidade de uma busca dessas informações visualmente na listagem de dados. O SAGRI (Sistema Inteligente de Apoio a Atividade Agrícola) é um sistema especialista híbrido utilizado na agricultura, tendo como principal finalidade o apoio e aconselhamento ao técnicos, pesquisadores e, em especial, o agricultor em todas as etapas do processo produtivo, com atenção especial a uma melhor utilização dos recursos naturais disponíveis - solo e água [Gottgtroy et ell,1996]. O principal objetivo deste artigo é analisar a utlização de técnicas de data mining em sistemas agropecuários, mais especificamente, a partir do sistema SAGRI. Este artigo está dividido em cinco principais sessões, que são: a primeira e atual sessão apresenta uma rápida introdução ao assunto; a segunda ilustrará o sistema SAGRI; a terceira mostrará uma introdução ao data mining; a quarta ilustrará os possíveis locais de utilização dessa tecnologia, assim como a importância e o ganho na qualidade das informações do sistema SAGRI, pela utilização desse processo; na quinta e última sessão serão descritas algumas considerações sobre o trabalho realizado.
2. DATA MINING A utilização do data mining permite o acesso de informações com maior qualidade, tanto por parte do usuário no processo de suporte a decisão, quanto pelos especialistas (técnicos e agrônomos) O processo de data mining consiste basicamente de três grandes passos (Bigus, 1996), a saber:
Data Mining é uma das ferramentas de KDD mais utilizadas, tanto no meio comercial quanto no meio científico (Bigus, 1996). Existem várias atividades (funções) de data mining que podem ser aplicadas aos dados, a saber: associação (encontrar relacionamentos entre os dados), agrupamento ou clustering (segmentar as informações em grupos definíveis e homogêneos, com base em algumas características), classificação (classificar os dados através de modelos de comportamento), padrões sequenciais (descobrir eventos relacionados que ocorrem ao longo de um período de tempo) e séries temporais (identificar séries similares coletadas ao longo de um período de tempo). O Data Mining dispõe de várias técnicas para a execução dessas tarefas, entre elas: Teoria dos Conjuntos, Estatística e Redes Neurais [Fayyad et all, 1996]. A adequabilidade do tipo da função de data mining ao tipo de problema que se está querendo solucionar, juntamente com a quantidade e qualidade dos dados são os fatores fundamentais para definir a técnica mais adequada de execução. O papel mais importante do data mining é saber onde utilizar as informações descobertas neste processo, ou seja, o objetivo da análise dos dados. Existem várias maneiras de utilizar o resultado da análise dos dados, as duas principais são: no processo de suporte à decisão e no desenvolvimento de aplicações. Neste artigo, o resultado do data mining será utilizado no processo de suporte a decisão, fornecendo informações com mais qualidade ao seu usuário.
3. O Sistema SAGRI Um sistema do porte do SAGRI, que é baseado no conhecimento de especialistas da área agrícola, requer uma arquitetura robusta e a aplicação de tecnologias de ponta, que permitam a efetivação das diversas facetas que o sistema se propõe a desempenhar. A figura 1 mostra a concepção esquemática e conceitual adotada que permite visualizar as diversas áreas e tecnologias que necessitam ser trabalhadas para a sua implementação. Esse sistema, assim como a maioria dos sistemas utilizados na área de agropecuária, necessita de grande volume de dados contidos em grande bases de dados (um enorme arquivo de informações, muitas vezes, codificadas) em que as informações são acessadas através de consultas a intermináveis listagens de dados. Muitas vezes, consultas visuais aos dados dão margens a não percepção de informações importantes, assim como um cansaço excessivo do analisador. Nestes casos, a quantidade de dados não trabalhados passa a prejudicar a atualização e, consequentemente, a eficiência na tomada de decisão (Rocha, 1997). Pode-se dizer que a necessidade de obter informações com
mais qualidade, assim como a exaustiva consulta a listagens de
dados foram as duas principais motivações para a utilização
de data mining no projeto SAGRI. A extração do
conhecimento de base de dados, como forma de agilizar os
processos, é de fundamental importancia no desempenho desse
sistema.
Figura 1: Estrutura Conceitual do SAGRI
4. APLICAÇÃO DE DATA MINING NO SAGRI Foram identificadas duas áreas de atuação principais do data mining no SAGRI, a saber: no pré-processamento dos dados, de forma a organizar e depurar os dados para serem utilizados por outros módulos do sistema como as próprias bases, SGI (Sistemas Geográficos de Informações) e Redes Neurais; e na geração de meta-conhecimento, retro-alimentando e atualizando as bases de conhecimento. Neste artigo, será analisada a utilização do data mining para a depuração dos dados. Atualmente, está em desenvolvimento um trabalho de pesquisa correlato a este, também aplicado ao sistema SAGRI, que aplica a aprendizagem indutiva para extrair meta-conhecimento da relação cultura/solo (De Souza et all, 1997). Através de um estudo cuidadoso da modelagem e objetivos do sistema SAGRI, observou-se várias partes do sistema em que se adequaria a utilização de data mining, como, por exemplo: analisar novas possibilidades de culturas através da análise de culturas de outras regiões e a indicação da melhor época de plantio de determinada cultura, analisando a base de dados da rota de pragas, etc. Dentro do escopo do sistema SAGRI, foi observado que a análise da aptidão de novas culturas através da descoberta de conhecimento de características do solo e cultura é um processo muito importante para um bom desempenho e, por isso, será nosso objeto de estudo. Nas base de dados do sistema SAGRI, existem informações sobre o uso e aptidão das terras do estado do Rio Grande do Norte. Essas informações também estão disponíveis para outros estados brasileiros. Esses dados podem ser cruzados com as informações sobre os tipos de solos e suas características e sobre as características das culturas propriamente ditas. O objetivo de utilizar data mining é relacionar características do solo e culturas. Com a descoberta deste conhecimento, é facilitado o processo de definição de qual o solo é mais adequado (assim como as possíveis correções a serem feitas no solo) para uma cultura que, até o momento, não tinha sido introduzida numa determinada região. Para a realização de tal processo, que está ilustrado na figura 2, o data mining foi dividido em duas etapas, que são:
Como foi mencionado anteriormente, as Redes Neurais
Artificiais (RNAs) podem ser utilizadas como técnica de
extração de conhecimento (data mining). Segundo (Bigus,
1996), a adequabilidade das RNAs é boa para todas as atividades
comuns de data mining (ver seção 2).
Figura 2: Estrutura do processo de data
mining. Através de um estudo detalhado do problema, conclui-se que para a primeira etapa do processo - extração de características - a atividade de associação é a que melhor se adequa. A segunda etapa - adequabilidade do solo - é caracterizada como uma atividade de classificação. A atividade de associação é uma etapa complexa uma vez que um tipo de solo pode ser apto ao plantio de várias culturas, assim como uma mesma cultura pode ser cultivada em diversos tipos de solos. Em outras palavras, é uma atividade que associa N para N carasterísticas. Para a realização desta etapa, é possível utilizar redes neurais que realizam tarefas de hetero-associação (Bishop, 1995), redes neuro-fuzzy (Bossley, 1995) ou redes mais complexas. Este módulo ainda está em fase de estudo e definição dos parametros necessários. Na atividade de classificação, vários modelos de redes neurais podem ser utilizados. Para a implementação deste módulo, foi escolhido o modelo MlP (Multi-layer Perceptron) (Ebehart, 1996; Neuron, 1996). Este módulo já foi implementado e está em fase de testes, com a comprovação de um bom desempenho do mesmo (ver figura 3).
5. CONSIDERAÇÕES FINAIS Este artigo se propôs a apresentar a utilização de técnicas de data mining no sistema SAGRI. O tópico de atuação foi a análise de aptidão de novas culturas para um determinado solo, tomando como base características da cultura. Atualmente, está ocorrendo o processo de especificação dos
bancos de dados (culturas e caracteríticas; solos e
características, bem como solo e uso de cultura). Até então,
estas informações ainda não estavam disponíveis em banco de
dados. No entanto, a segunda etapa do processo de data mining já
foi implementado com as informações existentes. A primeira
etapa será implementada assim que o processo de especificação
e implementação dos bancos de dados se encerrar.
Figura 3: Estrutura da rede neural para a
segunda etapa. 6. REFERÊNCIAS:
7. BIOGRAFIA Anne Magály de Paula Canuto: graduação em Ciências
da Computação pela UFRN, M.Sc. em Informática pelo DI-UFPE.
Atualmente, bolsista DCR/CNPq alocada ao DIMAp/UFRN desde
novembro/95 até setembro/97, na base de pesquisa de Sistemas de
Apoio à Decisão. A partir de outubro/97, estará no curso de
doutoramento pela University of Kent at Cantebury, UK.
Áreas de Interesse: Inteligência Computacional, Sistemas
Híbridos, Processamento e análise de Imagens. Márcia de Paiva Bastos Gottgtroy: graduação em
informática pela UFRJ, M. Sc. em Sistemas de Computação pela
COPPE/UFRJ, Ds.C. em Engenharia Civil pela COPPE/UFRJ.
Atualemente é professora adjunta da UFRN, Coordenadora da base
de pesquisa Sistemas de Apoio à Decisão, Coordenadora dos
projetos: SAGRI (Sistema Inteligente de Apoio à Produção
Agrícola) e TOM (Sistema de apoio à Atividade Turística).
Atuante nos cursos de Ciências da Computação e Engenharia da
Computação, Curso de Especialização em Engenharia de Sistemas
e Curso de Mestrado em Sistemas e Computação do DIMAp/UFRN.
Áreas de Interesse: Inteligência Computacional, Aquisição
Automática de Conhecimento, Sistemas Híbridos, Cognição,
Design de Informação, Tutores Inteligentes. |