在新建的爬虫文件中,通常需要根据爬虫选择不同的方式来取得我们所需要的值

一、 返回值为json

当返回值为json时,可以在爬虫文件中使用以下方法进行

def parse(self, response):
    items = Item()
    res = json.loads(response.text)
    items['code'] = res['code']
    items['data'] = res['data']
    print(res, items['data'])
    yield items

二、 返回值为html

1. XPATH选择器

当返回值为html时,可以使用XPATH方式

def parse(self, response):
    items = Item()
    title = response.xpath('/html/head/title/text()')
    items['title'] = res['title']
    print(title)
    yield items
操作 说明
nodeName 选取此节点的所有节点
/ 从根节点选取
// 从匹配选择的当前节点选择文档中的节点,不考虑它们的位置
. 选择当前节点
.. 选取当前节点的父节点
@ 选取属性
* 匹配任何元素节点
@* 匹配任何属性节点
Node() 匹配任何类型的节点

2. CSS选择器

def parse(self, response):
    items = Item()
    title = response.css('title::text')
    items['title'] = res['title']
    print(title)
    yield items

具体方法可参考Scrapy官方中文文档

添加微信