网络爬虫论文答辩.ppt

资源描述

网络爬虫论文答辩.ppt

《网络爬虫论文答辩.ppt》由会员分享，可在线阅读，更多相关《网络爬虫论文答辩.ppt（22页珍藏版）》请在冰点文库上搜索。

网络爬虫论文答辩.ppt

网络爬虫论文答辩,答辩学生：

包志英,指导老师：

赵中英,定向爬取脚本之家文本信息,课题综述,1,研究过程,4,目前现状,2,研究结论,5,研究目标,3,参考文献,6,目录页,选题背景及意义,有效信息,广告、无用信息,选题背景及意义,研究目标,目录页,php、数据可视化显示,研究方法,研究步骤,目录页,关键技术,主爬虫的设计编写,数据的转换与显示,Spider主爬虫文件的编写，利用Scrapy根据网站的自身特性构建URL，将抓取下来的网页信息进行信息提取，并将有用信息存储到mongo数据库，监测数据库插入情况,可视化显示将Mongodb中的数据通过脚本程序复写到MySQL,利于网站依赖关系处理，用Laravel框架编写后台控制逻辑，友好的Bootstrap前台显示。

Scrapy,Scrapy环境搭建需要导入的一些关键包：

python2.7、lxml、zope、Twisted、pyOpenSSL、pywin32、一定要注意版本，国内一些也没有，安装依赖包就会将很多人拒之门外。

Mongodb,启动脚本：

mongod-dbpath./data依赖包：

pymongo主要类：

Script2Pipeline（object）pymongo.MongoClient（）tdb=clientself.post.insert（scriptInfo）,Spider,关键代码：

src2Spider（scrapy.Spider）:

parse（self,response）:

scrapy.selector.Selector（response）new_url=self.url+str（self.pageNum）+.htmyieldRequest（new_url,callback=self.parse）,Data,提取字段：

title、desc、content、tag主配置：

USER_AGENTCOOKIES_ENABLEDCONCURRENT_REQUESTSHTTPCACHE_ENABLEDMONGODB_CONFIG,技术难点,VS,案例对比分析,目录页,01完成了主题爬虫编写，两条爬虫同时爬取目标网站四个多小时，共提取出了有效信息85000条，以json格式，每一万条数据一张表的形式，保存至mongodb数据库,03通过laravel。

bootstrap框架利用MVC框架，将数据优雅的显示到前台，并提供简单的查询功能，但搜索功能还是不尽人意，在多重模糊查询中由于mysql左连接的缺陷是的搜索速度非常的缓慢，有时还可能拖死mysql数据库,02将mongodb数据库中的数据经过整合，首先使用自带的CSV作为中间件进行转换时由于CSV文件的单个单元格最大存储32,767个字符造成数据截取丢失，编写自适应错误脚本程序将mongodb中的数据转换到了mysql数据库,成果形式,成果形式脚本之家主爬虫代码片段,数据成果存储展现形式,应用前景,目录页,论文总结,笑看历史,小试牛刀,闭关思修,山科论剑,Summary,一个多月的开发，回头望去，困难很多，但通过查阅书记，网络资源，以及老师的指导，已经没有什么困难可以让自己放弃，在未来的生活学习中也会将这种学习过程延续下去,经过基础知识的储备和项目理论的设计，在编写Spider主文件递归调用时、还是多次出错，引入mongo数据库操作时，初始化函数也很不尽人意，数据转换脚本中，由于字符编码和数据量过大（10000/table）引起了数据丢失，与宕机现象,通过上网、书籍查询，自主的完成了基础python，scrapy，php,mongodb，laravel，bootstrap知识的学习，培养了自学体系,多次与老师探讨URL构造的设计，数据的保存形式，以及搜索最快最准确的方式，导师对不成熟的设计及时做出了矫正，并在Spider的递归调用，数据迁移脚本的编写做出了指正。

致谢,THANKS!

大学生活即将结束，在此，我要感谢所有教导我的老师和陪伴我一齐成长的同学，他们在我的大学生涯给予了很大的帮助。

本论文能够顺利完成，要特别感谢我的导师赵中英老师，赵中英老师对该论文从选题，构思到最后定稿的各个环节给予细心指引与教导,使我得以最终完成毕业论文设计！

最后，我要向百忙之中抽时间对本文进行审阅，评议和参与本人论文答辩的各位老师表示感谢！

恳请各位老师批评指正！

知识回顾KnowledgeReview,

展开阅读全文