云计算环境的搭建与应用开题报告
2023-03-25 06:03
1. 研究目的与意义
内容:
近年来,随着信息技术的飞速发展,云计算、物联网和移动互联网等新一代信息技术在医疗方面得到了广泛的应用,人类进入了海量数据的时代。然而这些规模庞大并且极为复杂的健康数据无法通过普通的软件工具在尽快的时间内进行提取、整理和分析。目前数据的增长速度大大超过了互联网硬件、软件的增长速度,因此如何有效的处理这些数据成为新的挑战。而云计算技术的产生,则为这些海量的、以几何级数增长、多样化的大数据提供了存储和运算的支撑平台。基于这种平台进行的数据挖掘是可靠的、快捷的,因为医疗过程中收集到的数据一般是真实可靠的、不受其他因素影响的。此外,基于云计算存储的数据稳定性强,这对于后期数据的挖掘是十分重要的。
意义:
2. 文献综述
1.摘要
近几年来,随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。动辄达到数百tb甚至数十至数百pb规模的行业/企业大数据已远远超出了现有传统的计算技术和信息系统的处理能力,因此,寻求有效的大数据处理技术、方法和手段已经成为现实世界的迫切需求。百度目前的总数据量已超过1000pb,每天需要处理的网页数据达到10pb~100pb;淘宝累计的交易数据量高达 100pb;twitter每天发布超过2亿条消息,新浪微博每天发帖量达到8000万条;中国移动一个省的电话通联记录数据每月可达 0.5pb~1pb;一个省会城市公安局道路车辆监控数据三年可达200亿条、总量120tb。据世界权威it信息咨询分析公司idc研究报告预测:全世界数据量未来10年将从2009年的0.8zb增长到2020年的35zb(1zb=1000eb=1000000pb),10年将增长44倍,年均增长 40%。因此,云计算和大数据的概念应运而生。云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件和资源和信息可以按需求提供给计算机或者其他设备。在云计算中,用户不需要了解云中基础的细节,不必具有专业的知识,也无需直接进行控制。云计算描述了一种基于互联网的新的it服务增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展而且经常是虚拟化的资源。经过云计算的数据在安全性上得到保障,它横向拓展的特性也十分有利于大量的数据存储和分析,对用户的健康数据安全以及健康数据的分析是一个很好的解决方案。
关键词:云计算、大数据、虚拟化、横向拓展
3. 设计方案和技术路线
设计方案:
1.如何搭建spark集群?方案:使用多台工作站,根据spark官网给出的教程,搭建spark集群。
2.如何使mdrill和 spark、hadoop协调工作?首先,mdrill基于hadoop等开源项目,搭建好mdrill就能够把hadoop集群搭建完成,然后集成spark。
4. 工作计划
03.02-03.14:查找、收集资料,论文初稿03.15-03.21:需求分析,完善论文03.22-03.28:总体设计,完善论文03.29-04.11:环境搭建,完善论文04.12-05.09:深入研究大数据平台,完善论文05.10-05.16:优化平台性能,完善论文05.17-06.06:论文定稿。
06.07-06.20:准备答辩。
5. 难点与创新点
1.安全:通过云计算集群的数据将会被备份(复制到不同的节点上) ,有效防止因硬件故障导致的数据丢失。
2.快速:列存储、倒排索引、高效的数据压缩、内存计算,各种缓存、分区、分布式处理等等这些技术,使得mdrill可以仅在几秒到几十秒的时间分析百亿级别的数据。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。