应用
代码
在Scrapy框架中自动生成的pipelines.py
就是为了帮助我们处理数据的
1 | class PachongPipeline(object): |
常见方法
process_item
(必须)open_spider(self,spider)
处理数据前回调该方法,通常用来完成初始化工作,比如连接数据库
close_spider(self,spider)
处理数据后回调该方法,通常用来清理工作,比如关闭数据库
from_crawler(cls,crawler)
创建Item Pipeline对象时回调该类方法,比如在该方法中通过
crawler.settings
读取配置,创建Item Pipeline对象
启用Item Pipeline
在Scrapy框架中自动生成的settings.py
中进行配置,找到
1 | # Configure item pipelines |
取消注释即可,如果有多个Item Pipeline对象,则在ITEM_PIPELINES
字典中添加即可,后面的数值决定了各Item Pipeline的处理数据先后,值越小越先执行
结果
1 | 查看前5行 |
案例二
目的
过滤重复数据
代码
1 | class DuplicatesPipeline(object): |
启用Item Pipeline
别忘了向前面一样在settings.py
中进行配置
结果
1 | 爬出999条,其中有一条重复 |