使用 shell 调试工具
$ scrapy shell https://clwy.cn/video/categories/php
若果发现出现 403 错误,说明站点开启了反爬虫,这时可以使用 User-Agent 伪装成浏览器
$ scrapy shell -s USER_AGENT='Chrome/75.0.3770.142' https://clwy.cn 
出现的状态为 200,就表示成功了。
获取需要的数据
接下来,就是要获取需要爬取的内容。这里需要先学习下 Xpath 的用法
| 表达式 | 说明 | 
| nodename | 匹配此节点的所有内容 | 
| / | 匹配根节点 | 
| // | 匹配任意节点位置 | 
| . | 匹配当前节点 | 
| .. | 匹配父节点 | 
| @ | 匹配属性 | 
使用 Xpath 匹配节点
使用 chrome 开发者工具检查 https://clwy.cn/video/categories/php 的源码,找到课程标题所在位置...