在爬虫过程中渠道的text中包含html标签,或者想剔除某一块标签,使用正则即可将html标签完全剔除

import re

html = '<font color=red>区块链</font>技术应用场景落地,重庆智能学生证助力大数据精准教学'

pattern = re.compile(r'<[^>]+>', re.S)
title = pattern.sub('', html)

print(title)

添加微信