数据挖掘技术在研究高校毕业生就业影响因素中的应用开题报告
1. 研究目的与意义、国内外研究现状(文献综述)
随着我国高等教育事业的不断深入发展,当前我国高等教育已经开始步入国际公认的大众化阶段。在这种大背景下,我国高校毕业生的数量逐年增多,加上之前爆发的金融危机的影响,毕业生的就业形势受到前所未有的挑战,甚至出现了所谓毕业即失业的观点与看法。因此,大学生毕业后能否顺利就业以及影响大学生就业的主要因素等方面的研究,已成为全社会普遍关注的重要热点问题之一。数据作为重要的生产因素之一,已经渗透到当今每一个行业和业务职能领域。在上述的大背景下,本课题通过对大学生就业等方面的海量数据的挖掘和处理来得到有价值的关键数据。在此基础上,本课题采用的相关数据挖掘技术如Logistic回归和决策树等方法研究、分析高等教育大众化背景下毕业生就业的影响因素。当前,这些研究工作显然具有重要的理论价值与现实意义。近年来,随着大数据时代的来临,数据挖掘作为一门新兴的边缘学科与技术,引起了中国学术界和产业界的广泛关注。同时,由于数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛,所以,当前国内、外对于数据挖掘技术方面的研究都十分重视,研究成果更是日新月异。目前,国外数据挖掘的最新发展主要有对发现知识(knowledge discovery in database, i.e., KDD)的方法的进一步研究,如近年来注重对Bayes(贝叶斯)方法以及Boosting方法的研究和改进提高;KDD与数据库的紧密结合;传统的统计学回归方法在KDD中的应用。在应用方面主要体现在KDD商业软件工具从解决问题的孤立过程转向建立解决问题的整体系统,主要用户有保险公司、大型银行和销售业等。许多计算机公司和研究机构都非常重视数据挖掘的开发应用,IBM和微软都相继成立了相应的研究中心。从各个国家的研究成果来看,美国仍然是全球数据挖掘研究最繁荣的国家之一,并将长期占据着研究的核心地位。与国外相比,国内对数据挖掘的研究起步稍晚且不成熟,目前正处于快速发展的关键阶段。在这一方面,最新的研究发展为:分类技术研究中,试图建立其集合理论体系,实现海量数据处理;将粗糙集和模糊集理论二者融合用于知识发现;构造模糊系统辨识方法与模糊系统知识模型;构造智能专家系统;研究中文文本挖掘的理论模型与实现技术;利用概念进行文本挖掘等。同时,需要特别指出的是,国内的大多数研究项目都是由政府资助,研究方向集中在数据挖掘的学习算法、理论方面以及实际应用。但是,研究的产品尚未得到国际市场的认可,在国际上的使用更是为数甚少。总的来说,数据挖掘是一个强大的技术工具,它不会在缺乏指导的情况下自动地发现模型,而且得到的模型必须在现实生活中验证,数据分析者必须知道你所选用的挖掘算法的原理是什么以及是如何工作的,并且要深刻了解期望解决问题的领域,理解数据,了解其过程,只有这样才能解释最终所得到的结果,从而促使挖掘模型的不断完善和提高,使得数据挖掘真正地满足信息时代人们的要求,服务于社会。主要参考文献:[1] 胡侃, 夏绍玮. 基于大型数据仓库的数据采掘:研究综述[J]. 软件学报, 1998, 9(1):53-63.[2] 陈娜. 数据挖掘技术的研究现状及发展方向[J]. 电脑与信息技术, 2006, 2(1):46-49.[3] Jiawei Han, M Kamber. 数据挖掘:概念与技术[M]. 范明, 孟小峰, 译. 北京:机械工业出版社, 2001. [4] 夏艳军, 周建军, 向昌盛. 现代数据挖掘技术研究进展[J]. 江西农业学报, 2009, 21(4):82-84. [5] 游湘涛, 叶施仁, 史忠植. 多策略通用数据采掘工具MSMiner[J]. 计算机研究与发展, 2001, 38(5):581-586. [6] 王立伟. 数据挖掘研究现状综述[J]. 图书与情报, 2008(5):42-46. [7] 施伯乐, 朱扬勇. 数据库与智能数据分析技术:技术、实践与应用[M]. 上海:复旦大学出版社, 2003.[8] Y Liu, M Schumann. Data mining feature selection for credit scoring models[J]. Journal of the Operational Research Society, 2005, 38(56): 1099-1108.[9] 刘同明, 数据挖掘技术及其应用[M]. 国防工业出版社, 2001. [10] 梁循, 数据挖掘算法与应用[M]. 北京大学出版社, 2006.[11] David Hand, Heikki Mannila, Padhraie Smyth. Principles of Data Mining[M]. USA, Massachusetts: MIT press, 2001.[12] Usama Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth. From Data Mining to Knowledge Discovery in Databases[J]. AI Magazine, 1996, 17(3): 45-46.
2. 研究的基本内容和问题
本研究的目标:本课题的目的在于通过对数据挖掘技术的理论知识,结合当代大学生就业情况,探讨数据挖掘技术在研究高校毕业生就业影响因素中的应用。具体来说就是利用数据挖掘技术,找出各方面数据的一些规律性特征,根据这些规律特征分析造成高校毕业生就业困难的原因,找出有价值的、有科学依据的影响因素,从而对大学生本科阶段的人生规划起到有益的警示和指导作用,旨在为解决大学生就业难问题提供依据。本研究的内容主要有以下三点:(1)Logistic回归和决策树等数据挖掘技术与方法的应用;(2)当前国内大学毕业生就业难的主要影响因素;(3)提高大学毕业生就业竞争力的主要措施与具体建议。拟解决的关键问题主要两点:(1)大学生就业问题海量数据的筛选与挖掘;(2)如何将Logistic回归和决策树等数据挖掘技术方法构建适当的数学模型,应用于大学生就业问题的分析中。
3. 研究的方法与方案
研究方法:(1)文献查阅法:利用南京农业大学图书馆馆藏资料以及购买的中国知网、维普等的电子文献资源,查找、检索与数据挖掘技术及大学生就业问题等相关的博硕士论文、期刊论文、会议论文以及文字资料,仔细研读以期找出一些有益的研究线索、方法与思路。(2)数学分析与建模法:基于数据挖掘技术中的Logistic回归和决策树等数据挖掘技术方法,结合当前大学生就业问题研究的具体情况来建立恰当的广义线性回归模型,并通过计算机MATLAB软件编写程序,求解模型结果,并对模型及模型结果进行深入评价、分析。(3)归纳总结法:在上述大学生就业影响因素的广义线性回归模型模型及其模型计算结果分析的基础上,进行归纳、总结,对提高大学就业核心竞争力提出一些具有针对性、科学性的建议与观点。本研究的技术路线如下:搜集文献、查找资料→大学生就业问题的现状分析→常见大学生就业影响因素回归模型中的主要元素→以选取南京农业大学为例,构建大学生就业影响因素的广义线性回归模型→大学生就业影响因素的广义线性回归模型结果分析及评价→对提高南京农业大学毕业生核心竞争力提出一些参考性的建议与观点。实验方案及可行性分析: 由于本研究以南京农业大学为例,拟通过问卷调查等方式对大学生在校基本信息采集,如成绩、担任职务、参加社团等以及互联网技术如爬虫等方法收集大学生毕业生的就业、个人其他信息,这就为海量数据的整理提供了较为坚实的基础,具有较高的可操作性。此外,在技术方面,有导师的指导、同学的帮助以及丰富的文献资料可供查阅,这就为数据模型的建立于求解提供了一个行之有效的实践机会。
4. 研究创新点
本文较为新颖的尝试从数据挖掘的概念和特征人手,结合新形势下大学生就业环境下存在的问题,将两种数据挖掘技术及分析方法:Logistic回归和决策树,引入到大学生就业相关联的因素分析等问题研究中,通过分析各个就业因素与二元就业录用情况的关联程度,以期得到一些有意义,对大学就业问题具有针对性、科学性的科研成果。
5. 研究计划与进展
研究计划及预期进展本研究的具体计划,主要分为三个阶段:第一阶段:文献资料的查找以及大学生就业海量数据的挖掘;第二阶段:根据已有文献中的成果以及筛选后的就业数据,建立恰当的Logistic回归模型;第三阶段:Logistic回归模型数学模型求解与结果分析以及在其基础上的大学生就业影响因素研究。预期进展如下:2017年3月底完成第一阶段;2017年4月底完成第二阶段;2017年5月底完成第三阶段,同时完成论文的撰写以及修改工作。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。