chevron_left

Scrapy 爬虫开发教程

免费
第 7 回

教程文档

Scrapy 爬虫开发教程 - 爬取 Api 接口

2023年11月13日
Scrapy 爬虫开发教程

爬取 Api 接口

这次要爬取的是 CLWY 的新闻列表以及文章内页,Api 文档地址: https://clwy.cn/guide/documents/clwy-api/2-0/information-articles

使用 Shell 分析接口

scrapy shell https://clwy.cn/information/api/v2/articles.json\?page\=1
>>> import json
>>> json.loads(response.text)
>>> json.loads(response.text)['articles']

可以看到数据存在了 articles

新建项目

scrapy startproject ArticleSpider

创建蜘蛛

cd ArticleSpider
scrapy genspider article "clwy.cn"

修改 items.py

课程介绍

Scrapy 是适用于 Python 的一个快速、高层次的屏幕抓取和 web 抓取框架,用于抓取 web 站点并从页面中提取结构化的数据。Scrapy 用途广泛,可以用于数据挖掘、监测和自动化测试。

Scrapy 吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如 BaseSpider、sitemap 爬虫等,最新版本又提供了 web2.0 爬虫的支持。

Scrapy 是一个适用爬取网站数据、提取结构性数据的应用程序框架,它可以应用在广泛领域:Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过 Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片。

尽管 Scrapy 原本是设计用来屏幕抓取(更精确的说,是网络抓取),但它也可以用来访问 API 来提取数据。