searchdetail-综述开题网

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回

基于数据挖掘的聚类算法研究及R语言实现开题报告

   

1. 研究目的与意义

随着信息科学的发展,数据库的规模在不断的扩大,人们积累了大量的数据。但是并不是所有的数据都是有用或者是我们需要的,如何从中发现有价值的信息成为一个急需解决的问题。在这种应用的大量需求的驱动下,数据挖掘(DM)研究应运而生。数据挖掘看似是一个费力不讨好的事情,但却是一件必须要去做的事情,这是一个长远的计划。通过数据挖掘可以提高很多方面的效率,可以避免很多重复的错误发生。在数据挖掘技术中有很多研究领域,聚类分析数据挖掘就是其中一个重要的研究方向。算法是解决一个问题所要采取的一系列步骤构成的计算方法。计算机求解一个实际问题的计算速度不仅仅与计算机的配置有关,更取决于求解的算法技术水平。目前,聚类分析已经广泛地应用于模式识别,数据分析,图像处理,以及市场研究等。在数据挖掘中,聚类是一个活跃的研究领域。聚类算法具体可以分为基于划分的方法、基于层次方法、基于密度的方法、基于模型的方法等。单纯的理论研究是不足以满足现状的,本文着重于算法实现的研究,并利用R语言实现数据挖掘算法,因为R语言相对于其他一些软件有着免费、开放源代码、算法更新速度快等优点。

2. 国内外研究现状分析

从数据库中发现知识(KDD)一词首次出现在1989年举行的第十一届国际联合人工智能学术会议上。随后在1991年、1993年和1994年都举行KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。随着参与人员的不断增多,KDD国际会议发展成为年会。到目前为止,由美国人工智能协会主办的KDD国际研讨会己经召开了8次,规模由原来的专题讨论会发展到国际学术大会,研究基于数据挖掘聚类算法研究及R语言实现点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。1999年,亚太地区在北京召开的第三届PAKDD会议收到158篇论文,空前热烈。IEEE的KnowledgeandDataEngineering会刊率先在1993年出版了KDD技术专刊。数据挖掘在1995年召开了第一届知识发现与数据挖掘国际学术会议。该会议是由1989年至1994年举行的四次数据库中知识发现国际研讨会发展来的。数据挖掘研究界于1998年建起了一个新的学术组织ACM-SIGKDD,即ACM下的数据库中知识发现专业组(SpecialInterested Groupon Knowledge Discovery in Database).1999年ACM-SIGKDD组织了第五届知识发现与数据挖掘国际学术会议(KDD' 99)。ACM-SIGKDD还出版了一种季刊电子通信SIGKDDExplorations。还有一些其他国际或地区性的数据挖掘会议如知识发现与数据挖掘太平洋亚洲会议(PAKDD),数据库与知识发现原理与实践欧洲会议(PKADD)和数据仓库与知识发现国际会议(DaWaK)涉及数据挖掘的研究成果己在许多数据库国际会议论文集发表,包括ACM-SIGMOD数据管理国际会议(SIGMOD),超大型数据库国际会议(VLDB), "ACM-SIGMOD-SIGART数据库原理研讨会(PODS),数据工程国际会议(ICDE),扩展数据库技术国际会议(EDBT),数据库理论国际会议(ICDT)信息与知识管理国际会议(CIKM),数据库与专家系统应用国际会议(DEXA)和数据库系统高级应用国际会议(DASFAA)数据挖掘的研究也发表在主要数据库杂志上。国内从事数据挖掘研究的人员主要在大学,也有部分在研究所或公司。所涉及的研究领域很多,一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。目前进行的大多数研究项目是由政府资助进行的,如国家自然科学基金、863计划、九五计划等,但还没有关于国内数据挖掘产品的报道。与国外相比,国内对数据挖掘的研究稍晚,没有形成整体力量。1993年国家自然科学基金首次支持对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,如清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究;华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则挖掘算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。

3. 研究的基本内容与计划

本论文的主要目标是对数据挖掘中的聚类算法进行研究并采用R语言编程实现。主要内容有以下几个方面: 1. 对数据挖掘的研究背景,研究目的和意义,及研究方法和工具进行深入的学习。2.学习聚类分析的相关算法,如基于划分的方法、基于层次方法、基于密度的方法、基于模型的方法。3.掌握数据挖掘算法的研究工具R语言,并利用R语言编程实现相关聚类分析算法。4.采用标准数据集,按数据挖掘的标准流程进行分析,首先对数据作初步统计分析,再利用聚类方法建立预测模型,最后得出结论并提供预测参考。

进度计划:2016年2月23日 2016年3月13日:查找资料、搜集素材2016年3月14日 2016年3月31日:数据挖掘的理论分析2016年4月1日 2016年4月15日:聚类算法的研究2016年4月15日 2016年4月25日:基于数据挖掘的聚类算法研究2016年4月26日 2016年5月10日:R语言的实现2016年5月11日 2016年5月25日:撰写完成毕业论文

4. 研究创新点

本课题是目前比较新兴的研究,涉及到统计学、数据库、机器学习等众多学科。基于聚类算法来进行数据挖掘需要一定的学习理解能力,理解分析能力,能够展示出一定的理论水平。算法研究是数据挖掘研究的重中之重,算法的好坏直接影响到数据挖掘的效率。目前研究聚类算法的文章比较多,但大多数研究只停留在理论上。本文还利用R语言实现数据挖掘算法实现,因为R语言相对于其他一下软件有着免费、开放源代码、算法更新速度快等优点。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。