这次要爬取的是 CLWY
的新闻列表以及文章内页,Api 文档地址: https://clwy.cn/guide/documents/clwy-api/2-0/information-articles
使用 Shell 分析接口
scrapy shell https://clwy.cn/information/api/v2/articles.json\?page\=1
>>> import json
>>> json.loads(response.text)
>>> json.loads(response.text)['articles']
可以看到数据存在了 articles
中
新建项目
scrapy startproject ArticleSpider
创建蜘蛛
cd ArticleSpider
scrapy genspider article "clwy.cn"
修改 items.py