Scrapy框架入门：使用Scrapy框架爬取全书网小说数据_新闻动态_领航科技

软件定制开发

首页 > 常见问题

【Scrapy框架入门：使用Scrapy框架爬取全书网小说数据】

来源：www.sywebsoft.com 发布者：领航科技　发布时间：2019-04-22　

　

一、准备阶段

明确一下爬虫页面分析的思路：

对于书籍列表页：我们需要知道打开单本书籍的地址、以及获取点开下一页书籍列表页的链接

对于书籍信息页面，我们需要找到提取：（书名、作者、书本简介、书本连载状态）这四点信息

爬虫流程：书籍列表页中点开一本书→提取每一本书的书籍信息；当一页书籍列表页的书籍全部被采集以后，按照获取的下一页链接打开新的商户及列表页→点开一本书的信息→提取每一本书的信息

二、页面分析

首先，我们先对爬取数据要打开的第一页页面进行分析。

除了使用开发者工具以外，我们还可以使用scrapy shell <url>命令，可以进行前期的爬取实验，从而提高开发的效率。

首先打开cmd（前提必须是安装好了scrapy~，这里就不说怎么按照scrapy了）

输入scrapy shell +<要分析的网址>

接下来分析单页书籍信息

处理思路和分析书籍页面信息一样，获取网页

在shell中通过fetch函数下载书籍信息页面，然后再通过view函数在浏览器中查看该页面

下一篇：沈阳软件开发中的差距与分析


推荐文章

	论关系型数据库在互联网中是否重要	[2019-04-22]
	沈阳软件开发后的思考	[2019-04-21]
	WebService究竟是什么尼？	[2019-04-21]
	沈阳OA办公系统中权限管理设计	[2019-04-21]
	沈阳软件开发中的差距与分析	[2019-04-21]
	沈阳在线考试系统模块更新	[2019-04-21]

沈阳软件开发

沈阳软件定制开发

沈阳软件公司

沈阳软件开发公司

首页
关于我们
新闻中心
产品介绍
解决方案
成功案例
服务支持
联系我们

关于领航

公司地址：沈阳市沈河区北站路77-1号光达大厦C座13层
邮政编码：110013
客服电话：13840539193 024-31281857
Email：2579047692@qq.com
客服Q Q：2579047692

官方微信

Copyright @ 2005-2019 sywebsoft.com All Right Reserved

展开