searchdetail-综述开题网

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回

Spark环境集群构建与Spark SQL编程开题报告

   

1. 研究目的与意义(文献综述包含参考文献)

1.引言

伴随着大数据相关技术和产业的逐步成熟,继hadoop之后,spark技术以集大成的无比优势,发展迅速,将成为替代hadoop的下一代云计算、大数据核心技术。spark是ucberkeleyamplab所开源的类hadoopmapreduce的通用的并行计算框架[1],spark基于mapreduce算法实现的分布式计算,拥有hadoopmapreduce所具有的优点;但不同于mapreduce的是job中间输出结果可以保存在内存中,从而不再需要读写hdfs,节省了磁盘io耗时,号称性能比hadoop快100倍。spark成功的使用sparksql、sparkstreaming、mllib、graphx近乎完美的解决了大数据中batchprocessing、streamingprocessing、ad-hocquery等三大核心问题,使得spark中sparksql、sparkstreaming、mllib、graphx四大子框架和库之间可以无缝的共享数据和操作,有着目前任何大数据平台都无可匹敌的优势[12]。

关键词:spark,hadoop,大数据,构建与集群...

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容、问题解决措施及方案

研究步骤:1.查阅相关资料,做好笔记;

2.仔细阅读研究文献资料;

3.在老师指导下,确定整个论文的思路,列出论文提纲,撰写开题报告;

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。