Spark环境集群构建与Spark SQL编程开题报告
1. 研究目的与意义(文献综述包含参考文献)
1.引言
伴随着大数据相关技术和产业的逐步成熟,继hadoop之后,spark技术以集大成的无比优势,发展迅速,将成为替代hadoop的下一代云计算、大数据核心技术。spark是ucberkeleyamplab所开源的类hadoopmapreduce的通用的并行计算框架[1],spark基于mapreduce算法实现的分布式计算,拥有hadoopmapreduce所具有的优点;但不同于mapreduce的是job中间输出结果可以保存在内存中,从而不再需要读写hdfs,节省了磁盘io耗时,号称性能比hadoop快100倍。spark成功的使用sparksql、sparkstreaming、mllib、graphx近乎完美的解决了大数据中batchprocessing、streamingprocessing、ad-hocquery等三大核心问题,使得spark中sparksql、sparkstreaming、mllib、graphx四大子框架和库之间可以无缝的共享数据和操作,有着目前任何大数据平台都无可匹敌的优势[12]。
关键词:spark,hadoop,大数据,构建与集群...
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
2. 研究的基本内容、问题解决措施及方案
研究步骤:1.查阅相关资料,做好笔记;
2.仔细阅读研究文献资料;
3.在老师指导下,确定整个论文的思路,列出论文提纲,撰写开题报告;
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。