p92 段子爬取，第一页正则匹配好像没完全匹配上，只匹配到了17个，但是菜鸟工具看正则匹配到了20个 #2

Mathhub6 · 2024-01-15T09:57:07Z

https://xiaohua.zol.com.cn/baoxiaonannv/1.html

运行代码

# 导入模块
import logging

# 匹配内容
import re

# 网页请求
import requests

# 忽略警告
logging.captureWarnings(True)
# 控制时间
import time

# 写入请求网址与请求头
url = "https://xiaohua.zol.com.cn/baoxiaonannv/%d.html"
header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36",
}


# 正则表达式
pattern = re.compile(r'<div class="summary-text">(.*?)</div>')


duanzi = url % (1)
print(duanzi)
requests.packages.urllib3.disable_warnings()
# 获取代码内容,cerify=False不认证
response = requests.get(url=duanzi, headers=header, verify=False, timeout=10).text
# 正则匹配
item = pattern.findall(response, re.S)
time.sleep(2)

response
# print(item)

通过正则表达式<div class="summary-text">(.*?)</div>照理来说应该这20个都匹配到了，但是为什么这3个没有匹配到?re.S似乎能含\n但是没有制表符\t。是这个问题吗？那正则表达式该怎么改使得\t也能被匹配

The text was updated successfully, but these errors were encountered:

sfvsfv · 2024-03-09T04:05:19Z

有没有看是哪个没有匹配上呢？然后对比下正则表达式

Mathhub6 closed this as completed May 24, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

p92 段子爬取，第一页正则匹配好像没完全匹配上，只匹配到了17个，但是菜鸟工具看正则匹配到了20个 #2

p92 段子爬取，第一页正则匹配好像没完全匹配上，只匹配到了17个，但是菜鸟工具看正则匹配到了20个 #2

Mathhub6 commented Jan 15, 2024 •

edited

sfvsfv commented Mar 9, 2024

p92 段子爬取，第一页正则匹配好像没完全匹配上，只匹配到了17个，但是菜鸟工具看正则匹配到了20个 #2

p92 段子爬取，第一页正则匹配好像没完全匹配上，只匹配到了17个，但是菜鸟工具看正则匹配到了20个 #2

Comments

Mathhub6 commented Jan 15, 2024 • edited

sfvsfv commented Mar 9, 2024

Mathhub6 commented Jan 15, 2024 •

edited