您的当前位置:首页正文

模糊聚类分析在河流含沙量研究中的应用

来源:独旅网
第33卷第:1期 2011年11月 人民黄河 Vo1.33.Nn 11 Nov.,2011 YELLOW RIVER 【水文・泥沙】 模糊聚类分析在河流含沙量研究中的应用 宰松梅,郭树龙,郭冬冬,温季 (水利部农田灌溉研究所,河南新乡453003) 摘要:基于聚类分析和模糊数学的基本原理,以某河流20年输沙量、降水量、汛期降水量、年径流量为基础,根据不同 水平年各个指标的相似度,对不同水平年进行了分类。结果表明:在样本容量不大的情况下,模糊聚类分析的计算量较 小,计算比较方便,避免了主观分析的不合理因素,比传统分类方法更客观、细致、全面和合理;应用模糊聚类分析方法, 可在不确定各影响因子相互作用过程的情况下,确定其主要联系、相互关系及主要影响因素。 关键词:影响因子;聚类分析;模糊数学;含沙量;河流 文献标识码:A doi:10.3969/j.issn.1000—1379.2011.11.010 中图分类号:O159 Application of Fuzzy Clustering Analysis to the Study of Sediment Concentration of Rivers ZAI Song—mei,GUO Shu—long,GUO Dong—dong,WEN ji (Farmland Irrigation Research Institute,MWR,Xinxiang 453003,China) Abstract:Based on the basic principles of cluster analysis and fuzzy mathematics,according t()the similarity of various indieato ̄in different typi— cat years,the information of one fiver for 20 years,such as sediment discharge,rainfall,precipitation in flood season,annual runoff,ete were compared,and the study years were classiifed,The results showed that,for the irrational elements of subjective analyses are overcnnle,in the ease of small sample size,the calculation of fuzzy clustering analysis is less and more convenient.Compared with the traditional classiicatifon methods, fuzzy clustering analysis is more objective,detailed,comprehensive and reasonable.Using fuzzy cluster analysis,the main contact,interaction and the main factors can be determined,despite the interaction course of the impact factors is uncertain. Key words:impact factor;cluster analysis;fuzzy mathematics;sediment concentration;fiver 黄河年均向下游输送l6亿t泥沙,其中约有4亿t淤积在 下游河道,致使河床逐年淤高,河道过洪能力急剧减小,防洪压 力增大 。同时,一些高含沙洪水难以作为水资源加以利用, 也使黄河成为资源性缺水河流 。分析研究河流泥沙的影响 事物是否能形成一个类群、一个事物是否属于某一个子类,都 不是泾渭分明的,而是有一个聚类和隶属度问题。因此,用模 糊集合的理论方法来描述和处理聚类问题更为符合实际。现 将模糊聚类分析方法简介如下。 因素,对减少河流泥沙、防治水土流失和水资源开发利用等方 面都具有指导意义。 聚类分析是数据挖掘中的一个重要研究领域,是定量确定 样本的亲疏关系、客观划分类型的数学方法。事物之间的界 1.1数据矩阵 设有n个待分类样本,且每个样本都有m个特i正统计指 标,由此可得到论域的原始数据矩阵R : 限,有些是确切的,有些则是模糊的,当聚类涉及事物之间的模 糊界限时,需运用模糊聚类分析方法。随着模糊聚类理论的发 『 1…rIh”] =l i … J l (1) 展,模糊聚类己经在众多的领域获得广泛应用,并取得了令人 满意的效果和可观的效益 J。笔者利用模糊聚类分析方法对 收稿日期:2010—09_22 基金项目:国家“863”计划项目(2006AA100213);“十一五”国家科技支撑计划 项目(2o07BAC15B02)。 影响河流含沙量的主要因素进行了分类和分析,探讨了不同年 份河流含沙量的影响因素,并对其影响因素进行了综合分析。 作者简介:宰松梅(1970一),女,河南南阳人,副研究员,博士,主要从事节水灌 模糊聚类分析方法简介 现实中的事物分类往往伴随着模糊性。在多数场合,一组 ・溉与环境方面的研究工作。 通讯作者:温季(1960一),男,研究员,博士 E-mail:ggszsm@yahoo.eom.cn 24・ 人民黄河2011年第11期 式(1)也可表示为 足:( ) (2) 2实例应用 当矩阵元素满足条件0≤ ≤1时,称R为模糊矩阵。 以某河流20 a输沙量、降水量、汛期降水量、年径流量资料 1.2数据规格化 为基础,运用模糊数学聚类的方法,根据不同水平年各个指标 待聚类的数据对象往往是多维的,这些指标的量纲和数量 的相似度,将不同水平年进行分类,研究不同类别水平年的指 级往往不同。在聚类分析前,要对待聚类的数据进行必要的数 标特征和分布规律。 据预处理 。在实际问题中,不同变量的量纲不同,为了使不 2.1计算步骤 同的量纲也能放在一起比较,通常需要对数据作一些变换。有 计算步骤为:①首先按式(1)列出样本矩阵,按式(3)进行 时即使变量的量纲相同,但为了使数据更适用某种数学模型, 数据的标准化处理;②按式(4)计算样本集合的相似度矩阵 也需要对数据进行变换。变换后的数据要求处于[0,1]区间。 ;③验证相似度矩阵R 是否具有传递性,若不具有传递性, , J —m1n 则按照式(7)计算矩阵的模糊等价矩阵;④根据所需分类的问 :— —-—_ _-(i=1,2,…,n =1,2,…,m)(3) max —mln 题,设定不同的A值,将样本划分为不同的类;⑤根据所研究的 式中: 为第 个样本的第i个数据值;max 、min 分别为第 问题,分析得出适宜的A值,并就此A值下的分类情况进行 个样本中的最大数据和最小数据。 分析。 1.3建立模糊相似矩阵 2.2模糊等价矩阵 表1为按照第②步和第③步计算得出的模糊等价矩阵,根 聚类是按照某种标准来鉴别元素间的接近程度,把彼此接 据模糊等价矩阵可绘出模糊聚类图,见图1。 近的对象归为一类。为此,用[0,1]中的数r 来表示元素 和 11 接近或相似的程度,称为相似系数,由r ,构成模糊相似矩阵 4 ,2 ( ) 。本文采用相关系数法计算rfj,公式为 10 18 三 一 一 3 l 一Xi lI xjk一  I19 k==lrit =— — ==========_— ========= ========。■ ========== (4L ) 14 √ 一 。√ ( 一 )2 15 窭1廿203  8 = ¨ ∑ (5) 16 17 = ,( 1 ’,20,j=1,2,…,20)(6) 7 9 12 式中:m为数据特征个数。 5 6 1.4聚类和确定阈值A 1 若相似系数矩阵为模糊等价矩阵,则可将其直接聚类;若 0.98 0 97 0.96 0.95 0.94 0 93 0.92 0.9I 相似系数矩阵不满足模糊等价矩阵,则需要将模糊相似关系转 ^值 图1模糊聚类图 变为模糊等价关系。模糊相似关系具有自反性和对称性,但在 按第④步设定不同的A值,当A:0.925时,样本分为2类: 没有传递性的情况下,要利用模糊矩阵的传递闭包性质将其转 (1,2,3,4,5,6,7,8,9,10,12,13,14,15,16,17,18,19,20) 变成具有模糊等价关系的相似矩阵。 (11) 方法是将R自乘,设 的传递闭包R =t(R),R =R・R, 当A=0.935时,样本分为4类: R =R ・R , =R ・R ,直到有一个自然数k,使得R = (1,5,6,7,8,9,12,13,14,15,16,17,20) ・ ,即模糊等价矩阵为 (2,4,10) R =t(R)=R (7) (3,18,19) 基于等价关系聚类方法就是给定不同的阈值A,对建立的 (11) 模糊等价关系矩阵进行水平截取,通过不同阈值A,就可得到 当A=0.945时,样本分为7类: 不同的聚类结果:A值越小,A (模糊集合)含的元素越多,让A (1,5,6,9,12) 由大到小取值,而A 所含的元素由少到多的过程,实际上就是 (2,4,10) (3,18) 一种分类过程。A值取得越大,A 包含的元素越少,分出的类 (7,8,16,17) 就越多,分类就越细;A值取得越小, 包含的元素越多,分出 (11) 的类就越少,分类就越粗。A值太小时,会将所有的样本都归 (13,14,15,20) 为一类,但这样就失去了实用价值。 (19) ・25・ 人民黄河2011年第11期 2 3 4 5 6 7 8 9 m¨ H "掩 加 l 0.93 0.97 0.93 0.93 0.93 0.93 0.93 0.99 0.92 0.93 0.93 0.93 0.93 0.93 0.93 0.93 0.93 0.93 1 0.93 0.93 0.93 0.93 0.93 0.93 0.93 0.92 0.93 0.93 0.93 0.93 0.93 0.93 0.95 0.94 0.93 1 0.93 0.93 0.93 0.93 0.93 0.97 0.92 0.93 0.93 0.93 0.93 0.93 0.93 0.93 0.93 0.93 1 0.98 0.94 0,94 0.96 0.93 0.92 0.97 0.94 0.94 0.94 0.94 0.94 0.93 0.93 0.94 1 0.94 0.94 0.96 0.93 0.92 0.97 0.94 0.94 0.94 0.94 0.94 0.93 0.93 0.94 1 0.97 0.94 0.93 0.92 0.94 0.94 0.94 0.94 0.97 0.97 0.93 0.93 0.94 1 0.94 0.93 0.92 0.94 0.94 0.94 0.94 0.97 0.97 0.93 0.93 0.94 1 0.93 0.92 0.96 0.94 0.94 0.94 0.94 0.94 0.93 0.93 0.94 1 0.92 0.93 0.93 0.93 0.93 0.93 0.93 0.93 0.93 0.93 1 0.92 0.92 0.92 0.92 0.92 0.92 0.92 0.92 0.92 l 0.94 0.94 0.94 0.94 0.94 0.93 0.93 0.94 l 0.97 0.97 0.94 0.94 0.93 0.93 0.97 1 0.99 0.94 0.94 0.93 0.93 0.97 1 0.94 0.94 0.93 0.93 0.97 l 0.99 0.93 0.93 0.94 l O.93 0.93 0.94 1 0.94 0.93 l 0.93 1 2.3结果分析 对于不同的A值,可以有不同的分类,A的确定方法一般 计算比较方便,分析结果比传统分类方法的结果更客观、细致、 全面和合理。应用模糊聚类分析方法,可在不确定各影响因子 相互作用过程的情况下,确定其主要联系和相互关系及影响的 有两种:①在动态聚类图中,调整A值得到适当的分类;②采用 F统计量确定适宜值。根据前述的确定A的原则,即最适宜的 主要因素。利用模糊聚类分析方法对河流含沙量的影响因素 进行分析,对指导河流含沙量监测和分析,特别是对加强流域 综合治理工作有重要的意义。 结果是分类不能太多,也不能太少。通过综合分析,认为样本 分为4类比较好,即A=0.935,此时有以下结论。 (I)序号1,5,6,7,8,9,12,13,14,15,16,17,20的年份为 一类。该类的特点是:各年输沙量数量级略小于年降水量、年 参考文献: [1]谢鉴衡.新中国成立5O年黄河泥沙研究的进展[J].人民黄河,2000,22 (1):18—21. 径流量和汛期降水量。在这一分类中,年平均降水量和汛期平 均降水量均较大,分别为800、850 mm,产生的年径流量最大为 550 ITlm,河流的输沙量平均为0.22万t。在这些年份中,流域 [2] 赵文林.黄河水利科学技术丛书:黄河泥沙[M].郑州:黄河水利出版社, 1996. 综合治理以及水土保持措施不断加强,植被条件较好。 (2)序号2,4,10的年份为一类。该类的特点是径流量和 降水量明显增大,河流输沙量平均为0.34万t,输沙量的增速 [3]张静.黄河下游花园口至央河滩段含沙量过程预报方法研究[D].西安:西 安理工大学,2007. [4] 潘玉奇.基于聚类分析的水污染监测系统的应用研究[D].济南:山东大 学.2005. 大于其他因素。可以初步判断,降水量和径流量的增大导致河 流含沙量明显增大,其中年径流量增大是河流含沙量增大的主 要因素。 [5] 王好芳,董咏梅,宋苏林.基于模糊聚类分析的地表水环境变化趋势评价 [j].人民黄河,2009,31(8):48—49. [6] 田林钢,李洋.模糊聚类分析在震后水库风险评价中的应用[J].人民黄河, 2010,32(1):130—131. (3)序号3,18,19的年份为一类。该类的特点是汛期降水 量较大,年径流量没有明显增大,河流输沙量平均为0.37万t, [7]倪国元.基于模糊聚类的增量式挖掘算法研究[D].武汉:华中科技大学, 2004. 说明汛期降水量是河流含沙量的重要影响因子。 (4)序号1 1的年份为一类。该类的特点是年平均降水量、 年径流量均较小,随着径流量的减小,输沙量明显减小,说明在 降水量和植被覆盖率一定的情况下,径流量是河流含沙量的决 定性因素。 【责任编辑翟戌亮】 3结语 模糊聚类分析方法在样本量不大的情况下,计算量较小, ・26・ 

因篇幅问题不能全部显示,请点此查看更多更全内容