searchdetail-综述开题网

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回

基于scrapy框架分布式算法的网络爬虫的研究与应用开题报告

 2024-07-08 05:07  

1. 研究目的与意义

爬虫技术:在近几年网络技术与通信技术爆发式发展中,人们已经不知不觉中习惯从万维网中获取自己需要的信息。

为了有效的提取需要的信息,各种搜索引擎层次不穷,例如具有代表性的有google,yahoo!,以及国人熟知的baidu等。

但是,通用的搜索引擎是存在一定局限性的,例如:在不同领域的用户往往有这不同的需求,通用搜索引擎检索的结果包含大量用户不需要的内容。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 课题关键问题和重难点

课题关键问题: (1)掌握相关编程语言(python) (2)对抓取目标的表述和定义 (3)对网页信息的分析与过滤 (4)对url的搜索策略(采用广度优先算法) (5)从大量的数据中通过算法分析并提取出其中关键信息。

(6)通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。

难点:在整个课题中难点分为以下几大点:一、针对网页的反爬虫措施必须要做到定制准备,如:ip代理池(顺带会产生代理池的维护问题,正文会予以介绍),网页参数分析(通过js予以混淆的参数最为重要),爬行效率处理(既要做到不危机网页的正常运行又必须保持抓取效率)二、对数据进行分析处理,需要进行分类,估计,预测,相关性分组或关联规则,聚类等一系列操作。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状(文献综述)

每时每刻,搜索引擎和网站都在采集大量信息,非原创即采集。

采集信息用的程序一般被称为网络爬虫(web crawler)、网络铲(web scraper,可类比考古用的洛阳铲)、网络蜘蛛(web spider),其行为一般是先爬到对应的网页上,再把需要的信息铲下来。

在互联网上进行自动数据采集这件事和互联网存在的时间差不多一样长。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究方案

图1 scrapy架构图4.1编程语言选择:方案一:采用java方案二:采用 python方案三:采用 其他语言如:node.js, c , go爬虫工作可以由不同的语言完成,不过相比python,其他语言未免太重,并且没有太好的库支持,增加无关的工作量,所以选择方案二。

4.2 python爬虫框架选择:方案一:自建框架方案二:python scrapy方案三:python pyspider自建框架优先放弃,时间和精力跟不上进度,而对于python库,scrapy支持自定义item,pipeline数据管道,用这个框架可以轻松将数据爬下来。

而pyspider的耦合性不如scrapy,选择方案二。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 工作计划

第1周:接受任务书,领会课题含义,按要求查找相关资料;第2周:阅读相关资料,理解有关内容;第3周:翻译相关英文资料,提出拟完成本课题的方案,写出相关开题报告一份;第4周:确定爬虫与数据挖掘工作原理;第5周:进行论文章节写作并进行爬虫代码编写;第6周:完成爬虫代码,并执行储存数据;第7周:对数据处理代码进行编写;第8周:配合部分数据进行数据处理代码测试;第 9周:整合数据,并进行可视化模块代码编写;第10周:完善可视化代码,通过分析得到图表;第11周:整合各项代码,数据,图表;第12周:进行毕业设计说明书写作,写业务总结,接收验收成果,接受答辩资格审查;第13周:指导教师审阅毕业论文,修改后准备毕业答辩;第14周:毕业设计答辩及成绩评定。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。