爬虫流程:
正则表达式
正则表达式由字符和操作符组成
常用操作符:

举例:
经典正则表达式:
eg:
Re库:
re库可以采用raw string类型表示正则表达式,表示为: r'text', PS: raw string是不包含对转义符再次转义的字符串
例如:r'[1‐9]\d{5}'
和r'\d{3}‐\d{8}|\d{4}‐\d{7}'
Re库主要函数:
re.search: 在整个字符串中搜索匹配
1 | import re |
re.match: 与re.search类似,但是是从字符串开始位置起匹配表达式,返回match对象
1 | import re |
re.findall:
1 | import re |
re.split:
1 | import re |
re.finditer:
1 | import re |
re.sub:
1 | import re |
re库的面向对象方法:
1 | rst = re.search(r'[1-9]\d{5}',"BIT 100081") #对比——函数式:一次性操作 |
1 | pat = re.compile(r'[1-9]\d{5}') |
**re库的match对象:**
match对象是一次匹配的结果,包含匹配的很多信息
1 | match = re.search(r'[1-9]\d{5}','BIT 100081') |
1 | import re |
re库的贪婪匹配和最小匹配:
1 | # 贪婪匹配——默认采用贪婪匹配,即输出匹配最长的子串 |
总结:
参考:
b站视频:嵩天教授的Python网络爬虫与信息提取课程

