使用 shell 调试工具
$ scrapy shell https://clwy.cn/video/categories/php
若果发现出现 403 错误,说明站点开启了反爬虫,这时可以使用 User-Agent 伪装成浏览器
$ scrapy shell -s USER_AGENT='Chrome/75.0.3770.142' https://clwy.cn
出现的状态为 200,就表示成功了。
获取需要的数据
接下来,就是要获取需要爬取的内容。这里需要先学习下 Xpath 的用法
| 表达式 |
说明 |
| nodename |
匹配此节点的所有内容 |
| / |
匹配根节点 |
| // |
匹配任意节点位置 |
| . |
匹配当前节点 |
| .. |
匹配父节点 |
| @ |
匹配属性 |
使用 Xpath 匹配节点
使用 chrome 开发者工具检查 https://clwy.cn/video/categories/php 的源码,找到课程标题所在位置...