目的
提取网站链接
代码
1 | # 修改book_spider.py代码 |
1 | # LxmlLinkExtractor构造器 |
参数解析
allow
接收一个正则表达式或正则列表,提取绝对url和正则匹配的链接,如果参数为空,就提取全部链接
deny
接收一个正则表达式或正则列表,排除绝对url与正则表达式匹配的链接
allow_domains
接收一个域名或一个域名列表,提取到指定域名的链接(如提取当前页面所有到baidu.com和google.com这2个域名的链接)
deny_domains
接收一个域名或一个域名列表,排除到指定域名的链接
restrict_xpaths
接收一个XPath表达式或列表,提取所选区域下的链接
restrict_css
接收一个CSS表达式或列表,提取所选区域下的链接
tags
接收一个标签(字符串)或一个标签列表,默认为[‘a’,’area’]
attrs
接收一个属性(字符串)或列表,提取属性内的链接
process_value