我正在尝试使用Requests模块编写一个简单的网络爬虫,我想知道如何禁用its-default-keep-alive feauture。
我试过使用:
s = requests.session()
s.config['keep_alive'] = False
但是,我得到一个错误,指出session对象没有属性'config',我认为它是随着新版本而改变的,但我似乎无法在官方文档中找到如何做到这一点。
事实是,当我在特定网站上运行爬虫时,它最多只能获得五个页面,然后无限循环,所以我认为它与keep-alive功能有关!
Ps:Requests是web-crawler的好模块吗? 有更适应的吗?
谢谢!
我不确定,但您可以尝试在使用请求发送GET请求时将{"Connection":"close"}作为HTTP标头传递。 这将在服务器返回响应后立即关闭连接。