正则表达式 查找网页源代码 提取指定内容
2021-04-22 10:28
标签:col int 根据 ref 正则表达式 内容 空白 sts htm import requests txt=‘想把夏日的阳光寄给冬日的你‘ https://www.vgirls.com/13404.html 总结: 1。根据网页源代码找到关键位置,主要分析相关同一级别的源代码的共同点 2。找到关键如txt的内容,复制下来 5。所以第一个只提取超级连接的地址;第二个只提取“标签A中的文字" 正则表达式 查找网页源代码 提取指定内容 标签:col int 根据 ref 正则表达式 内容 空白 sts htm 原文地址:https://www.cnblogs.com/xkdn/p/12243681.html
import re
urla=re.findall(‘.*?‘,txt)
for i in urla:
print(i)
urlb=re.findall(‘(.*?)‘,txt)
for i in urlb:
print(i)
结果:
想把夏日的阳光寄给冬日的你
3。粘贴到空白处:urla=re.findall(‘ ‘,txt)
4.需要选择出来的部分去掉改成 (.*?);不想选择但内容又变化的去掉改成 .?*,一定不能加括号