维普资讯 http://www.cqvip.com ・30・ 计算机应用研究 2007矩 一种基于群体智能的多主体聚类算法 刘相双 ,徐建良。,杨文琳 ,陈卓 (1.中国海洋大学计算机科学系,山东青岛266071;2.青岛海信通信有限公司,山东青岛266071) 摘要:目前聚类算法普遍存在对初始化参数和异常数据敏感,难以找到最优聚类以及聚类的有效性等问题。 利用群体智能和多主体系统具有的自组织性、健壮性、可扩展性和简单性等优点,给出了一种新型的优化聚类算 法。在三维空间搭建主体运行环境,丰富主体的记忆、通信以及信息协调能力,增强主体的分析和判断能力。实 验证明,该新型聚类算法具有运行速度快,准确性高以及对数据的输入顺序不敏感,能应付异常数据,处理高维、 高复杂性数据等优点,可应用于图像处理、模式识别、文档归类等多个领域。 关键词:群体智能;多主体系统;聚类 中图法分类号:TP301.6 文献标识码:A 文章编号:1001-3695(2007)02-0030-03 Multi—Agent Clustering Algorithm Based on Swarm Intelligent Theory LIU Xiang-shuang 一,XU Jian.1iang ,YANG Wen.1in ,CHEN Zhuo (1.Dept.ofComputer Science,Ocean UniversityofChina,Qingdao Shandong 266071,Chia;2.HinsenseR&D,Qingdao Shandong 266071, China) Abstract:Traditional clustering algorithm generally has some problems,such as the sensitivity to initializing parameter and abnormal data,diiculfty of finding out the optimization clustering result and the validity of clustering.In this paper,a new- style optimized clustering algorithm based on the swarnl intelligence and multi-Agent system,which has the characteristics of serf-organization,robustness,expandability and simplicity,is provided.In this algorithm the agents move in a three—dimen- sional space and have the abilities of memory,communication and coordinating information.The agents also are strengthened the capabilities of judgment and analysis.Experimental results COnfOrm that this lgoraithm has many merits such as insensitive to the order of the data,capability of dealing with exceptional,high-dimension and complicated data.The algorithm Can be used in the fields of image processing,pattern recognition,document classiifcation and SO on. Key words:Swarm Intelligence;Multi-Agent System;Clustering 信以及信息协调能力,增强了主体的分析和判断能力,从而增 1 引言 聚类又称分割,是将物理或抽象的数据对象集合分组, 成为由类似的对象组成的多个类,使不同类间的相似性最小 化,而相同类内相似性最大化 。聚类是数据挖掘研究的一 个重要方面,是一种无指导的学习过程 。数据聚类的研究 强了个体的智能性和灵活性,优化了算法性能。 2基本理论 2.1群体智能理论 能推动统计学、机器学习、空间数据库技术、生物学以及市场营 销的发展。目前常见的几大类聚类算法的基本思想有 法 J、层次法 、基于密度的方法 和基于网格的方法 j、基 群体智能是指无智能的主体通过合作表现出智能行为的 特性。一些受群居生物筑巢、觅食、迁徙、清扫蚁穴等行为启发 而设计的算法成功地解决了组合优化、通信网络和机器人等领 域的实际问题。群体智能在没有集中控制并且不提供全局模 型的前提下,为寻找复杂的分布式问题的解决方案提供了基 础 。将群体智能应用于聚类算法,可使聚类算法具有与群 体智能算法相同的特点,它利用个体与个体和个体与环境的交 互作用,不必预设聚类中心的数目,实现自组织聚类过程,具有 于模型的方法 。以上各种算法虽各有优点,但普遍存在对 初始化参数敏感,处理异常数据困难,难以找到最优聚类以及 聚类的有效性等问题。 本文利用群体智能理论和多主体系统具有的自组织性、健 壮性、可扩展性、简单性等优点 J,在基于群体智能聚类的自 动机和数学模型 的基础上,给出一种新型的优化聚类算法。 该算法在三维空间中搭建主体运行环境,丰富主体的记忆、通 健壮性和可视化等特点。 2.2多主体系统 多主体系统理论与技术的研究源自分布式人工智能 收稿日期:2005—11—26;修返日期:2006.02—22 基金项目:国家自然科学基金资助项目(60374031);山东省 (DAI),20世纪90年代它成了DAI领域的研究热点,目前已 在许多领域得到了广泛的应用。多主体系统主要研究在逻辑 上或物理上分离的多个主体之间进行协调智能行为,最终实现 自然科学基金资助项目(Y2002G18) 维普资讯 http://www.cqvip.com 第2期 刘相双等:一种基于群体智能的多主体聚类算法 ・31・ 问题求解… 。主体是具有信念、愿望、意图、能力、选择、承诺 等心智状态的实体,比对象的粒度更大,智能性更高,而且具有 一定自主性。主体试图自治地、地完成任务,而且可以与 环境交互,与其他主体通信,通过规划达到目标。 3 基于群体智能的多主体聚类算法 基于群体智能的聚类算法起源于对蚁群、蚁卵的分类研 究。Deneubourg等人提出了基本模型(Basic Mode1),这种模型 主要是基于对于单只蚂蚁拾起、放下物体的行为方式进行建 模。Lumer和Faieta将BM推广应用到数据分析。吴斌等人在 简化分类模型的基础上系统地提出了一种基于群体智能的聚 类算法。本文在借鉴多主体系统相关思想的基础上,提出了一 种基于群体智能的MAC(Multi—Agent Clustering Algorithm,多主 体聚类算法),并将其成功应用于新闻文本的自动归类中。 区别于以往的群体智能聚类算法,本文提出的新型聚类算 法具有如下特点: (1)将知识约简后的数据矢量组随机地放入一个三维空 间的二维平面中。 (2)聚类主体具有一定的记忆特点。当其遇到或搭建起 一个堆时,会将该堆的特征信息以及位置信息记录下来。 (3)聚类主体具有分析能力。主体在聚类过程中会遇到 堆或物体,主体会自行区分这两种不同情形,从而采取不同的 行动来区别对待。 (4)聚类主体具有判断能力。当主体拿起一个数据矢量, 它首先去搜寻现有的记忆信息,如果当前数据矢量信息能够与 以往的堆进行合并,那么它会将此矢量直接归并到相似堆中。 (5)聚类主体具有通信功能。它能够将记忆信息传播给 其他主体,这样就能实现聚类主体间的信息共享。 (6)聚类主体具有信息协调能力。为适应网格中数据矢 量分布和堆分布的动态特性,主体需要能够实时地去更新记忆 链表中的堆信息,以保证信息的一致性。 以上的这些特点使群体智能中的个体有了自身的智能特 性,加快了算法的收敛速度,提高了算法性能。 3.1 MAC算法中的聚类主体 根据MAC算法中聚类主体所具有的智能特性,其结构体 及通信环境设计如图1所示。 3.2 MAC算法的设计 (1)初始化 在初始化过程中,首先根据待聚类的数据数目N。,生成一 个二维网格表c,c中网格的数目要大于 。将待聚类的数 据集{O }随机地放入G中,保证每个数据O.占据一个网格 g ;然后将所分配的主体{A },采取与{0 }相同的方式随机地 放入G中。初始化结果如图2所示,其中每个网格中的小矩形 代表{O },黑圆代表{A }。 (2)各主体进行聚类 ’ 该部分为MAC算法的核心内容。所有的聚类主体均按照 同样的规则进行运动。算法流程如图3所示。 (3)结果输出 经过聚类主体对数据根据其相似性进行沿网格的多次搬 运后,会将初试状态下散乱的数据堆积在多个不同的网格中。 如图4所示。因此,MAC算法的聚类数目就是 G中非空网格 的数目,每一类所包含的数据项就是处于同一网格中的数据 项。 外 界 动 ● ● 态 环 境 ● 号 口 口 ● ● 零 图1聚类主体结构及通信环境 图2初始化结果 次数是否 ≥ —、——一 是l 否 记忆及通信>1< 粤 苎曾 裹 蕃篝 所拿物体 否 人已知类 匝亟 否 否 否 图3多主体聚类流程图 4 实验结果 本文采用如下两种标准来评价聚类结果: m (1)聚类收缩率(Rate of Contractility,C,):C = x100% mresulI m. (2)聚类正确率(Rate ofVeracity, ): = 世×100% Hl越 其中m 为完全聚类数目,m…。 为运行结果聚类数目,m 为 正确聚类数据数目,m 为全部数据数目。由上述两个评价标 准的定义可知其取值范围分别是C,>0,0≤ ≤1,且最理想的 聚类结果是C =1, =1,即由聚类结果所得的收缩率和正确 率越接近1,则聚类效果越好。 为了验证所提出的基于群体智能的多主体聚类算法的有 效性,本文采用新浪网的部分新闻文本进行了多次文本自动归 类试验。试验文本数据的主题包括教育、经济、政治、体育、军 事、娱乐、医疗、科技类共503篇新闻报导。首先根据词频 提取出每篇新闻报导的5—10个关键词,并对其进行标注,对 标注后的结果分别采用传统的蚁群算法和MAC算法进行聚 类。对比实验运行结果如表1和表2所示。 由上面的结果可以分析得出,MAC算法的聚类收敛速度 维普资讯 http://www.cqvip.com ・32・ 计算机应用研究 2007年 及准确性较传统蚁群算法有了较大提高,MAC算法在蚂蚁数 为100左右时,聚类结果基本稳定,而此时传统蚁群聚类算法 [3]Berehtold S,Keim D,Kriegel H P.The x.tree:An Index Structure f0r HigII・dimensional Data[c].Bombay,India:Proceedings of hte International Conference on Very Databases,1996.28-39. 的正确率约为75%,收缩率仅为66%。 实验证明,本文提出的MAC算法具有运行速度快,准确性 高以及对数据的输入顺序不敏感等优点。由于其高效性,因此 [4]Sheikholeslami G,Chaaeqee S,Zhang A.Wave.Cluster:A Mulit. esrolution ClusteringApproachforVeyr Large Spatila Databases[C】. New York:Proceedings of the 24th International Conference on Very LlI葛e Databases,1998.428-439. 该算法适用于处理高维、高复杂性数据,同时该算法也可应用 于图像处理、模式识别、经济分析等多个领域。 表1 MAC算法运行结果 主体数 50 60 70 80 90 l00 ll0 [5]Agrawal R。Gehrke J,Gunopulos D,et .Automaitc Subsacpe Clustering of High Dimensional Data for Data Mining Applications 目 国 v, 步数 30 30 30 30 30 30 30 [c].Seatlte。WA:Proceedings of hte ACM SIGMOD Intenartional Conference on Management of Data,1998.94-105. C 73% 80% 8O% 89% l0o% 。t00%lt00% 85% 91% 93% 96% 97% 。99% 99% [6]Hinneburg A,Keim D A.Optimal Gird-Clusteirng,Towards Brea- king hte Curse of Dimensionlaity in Hih-gdimensional Clusteirng[c]. Edinburgh,Scotland:Proceedings of the 25th International Con- ference on Very LlI葛e Databases,1999.506・517. 表2传统蚁群聚类算法运行结果 蚂蚁数 50 60 70 80 90 l00 ll0 步数 30 30 30 30 30 30 30 C 5o% 50% 57% 66% 66% 66% 73% 图4聚类后结果 V, 61% 63% 69% 71% 74% 75% 舳% 【7]HirmeburgA,Keim D A.An Efficient Approach to Clustering in 5结论 聚类是一个古老的问题,是按照事物间的相似性进行区分 和分类的过程,是一种无监督的分类。它伴随着人类社会的产 生和发展而不断深化,已成为数据挖掘的常用技术,现已广泛 IJarge Mulitmedia Databases wiht Noise[c].New York:Proceedings 0f the International Conference on Knowldge Diescovery and Data Mining(KDD’98),1998.58-66. [8]Chen Zhuo,Meng Qing-chun.A New-type nIcermental Clusteirng l-A gorihtm Based on Swarm Inteligence heTory[c].Shanghai:The 3rd International Conference on Machine Learning and Cybernetics(ICM- 应用于图像处理、文档归类、模式识别等多个领域。群集智能 和多主体系统的研究虽处于初级阶段,但由于其具有的自组织 LC2004),2004.1768・1772. 性、健壮性、可扩展性、简单性等优点,已经引起越来越多的研 究者的关注,并广泛应用于组合优化、通信网络和智能控制等 领域,其必将成为以后计算机研究发展的一个重要方向。 参考文献: [1]Hatr Jia-wei,et 2.Dat0a Mining:Concepts and Techniques[M].范 明,等.北京:机械工业出版杜,2000.2.20. [9]陈卓,盂庆春,魏振钢.基于群体智能理论的聚类模型及优化算法 [J].计算机工程。2005,32(3):34-36. [1O]E Bonabeau,M Dorigo,G heTraulaz.Swarm nItelligence:From Na- turla to Artiifcila Systems【M].New York:Oxford Univesrity Press, 1999.5.43. . [11]王长缨,姚莉,张维明,等.一种新的多主体学习方法[J].小型徽 型计算机系统,2003,24(3):344.347. [2]Ester M,Kriegel H P,et Density・based Algoirthm for Dicsovering 作者简介: 刘相双(1974・),男,硕士研究生,主要研究方向为嵌入式系统、图像图 Clusters in Large Spatial Databases[c].Podand,OR:Proc.of 1996 ht.Conf.on Knowledge Discovery and Data Mining,1996.226・231. 形处理、模糊信息处理等。 (上接第29页) ding Using Efficient Multi・dimensional Range Matching[c].Proc.of ACM SIGCOMM,1998. 6结束语 本文结合Aho-Corasick多关键字匹配算法的基本思想,扩 充了RFC算法,使新算法能够对含有变长字符串域的报文进 行分类。实验结果表明,新算法具有很快的匹配速度,而且易 [5】V Srinivsaan,G Varhegc,S sSuri,et吐Fast nd aSealblae L ̄rer 4 Switching[c].Proc.of ACM SIGCOMM,1998. [6]PGupta,NMcKeown.Packet Clsasificaiton onMultiifelds[c].Pro- ceedings of ACM SIGCOMM.1999.146・l6o. 【7]V Srinivasan,S Suri,G Varghec.Pascket Classiifcation Using Tuple Space Search[c].Proc.of ACM SIGCOMM,1999. [8]E W Spitznage1.CompressdDatea StructuresforRecursive Flow Clsa. silfcation[EB/OL].http://cse.seas.wust1.edu/teehreportfdes/ge- treport.asp?305,2003. 于实现,是一种值得应用的报文分类算法。 当然,新算法仍有局限性,特别是当字符串中包含的字符 数较大时,构造匹配自动机需要较大的存储空间。如何进一步 降低空间开销,将是下一步研究工作的重点。 参考文献: [1]Srinivasn V,Varghesc G.Fast Scalblae Level Four Switching[J]. ACM.[9]Aho A V,M J Corasick.Efifcient String Matching:An Aid to Biblio- graphic earSch[c].Communicaitons ofthe ACM,1979.333・340. Computer Communication Renew,1998,28(4):191・205. 作者简介: 田珂(1973-),男,四川成都人,博士研究生,主要研究方向为工作流技 术、电子政务、电信网络管理;朱清新(1954-),男,四川成都人,博导, 主要研究方向为算法设计、系统仿真、最优控制与搜索;向培素 (1974.)。女,四川成都人,硕士,主要研究方向为电信网络管理、工作 流技术、电子政务。 [2]V Srinivasan,G VarglIese.Fast IP Lookups Using Controlld Preeifx Expansion[c].Proc.of ACM SIGMETRICS,1998. [3]M Waldvogel,G Varghesc。J Turner,et 20.Sealable Hih・gspeed IP Rouitng Lookups[c].Proe.of ACM SIGCOMM,1998.25・36. [4]T V Lakshman,D Stidilais、Hi【h gSpeed Policy-based Packet Forwar・