一、准备阶段
明确一下爬虫页面分析的思路:
对于书籍列表页:我们需要知道打开单本书籍的地址、以及获取点开下一页书籍列表页的链接
对于书籍信息页面,我们需要找到提取:(书名、作者、书本简介、书本连载状态)这四点信息
爬虫流程:书籍列表页中点开一本书→提取每一本书的书籍信息;当一页书籍列表页的书籍全部被采集以后,按照获取的下一页链接打开新的商户及列表页→点开一本书的信息→提取每一本书的信息
二、页面分析
首先,我们先对爬取数据要打开的第一页页面进行分析。
除了使用开发者工具以外,我们还可以使用scrapy shell <url>命令,可以进行前期的爬取实验,从而提高开发的效率。
首先打开cmd(前提必须是安装好了scrapy~,这里就不说怎么按照scrapy了)
输入scrapy shell +<要分析的网址>
接下来分析单页书籍信息
处理思路和分析书籍页面信息一样,获取网页
在shell中通过fetch函数下载书籍信息页面,然后再通过view函数在浏览器中查看该页面
|