Python中使用正则去除html标签

2021-09-11 日常小节 88 字

python

在爬虫过程中渠道的text中包含html标签，或者想剔除某一块标签，使用正则即可将html标签完全剔除

import re

html = '<font color=red>区块链</font>技术应用场景落地，重庆智能学生证助力大数据精准教学'

pattern = re.compile(r'<[^>]+>', re.S)
title = pattern.sub('', html)

print(title)

添加微信

作者： Init

文章链接： https://www.init888.cn/re/re.html

Python程序打包成exe可执行文件(pyinstaller)

Python如何利用BeautifulSoup剔除不想要的标签