处理 Python-requests请求的超时时间

python程序根据url从互联网上批量下载图片时，设置HTTP或Socket超时，来防止爬虫爬取某个页面时间过长，导致程序卡置不前。我之前开发的一个脚本读取kafka 就是拿图片后续一直卡在这里。一种解决方案是全局设置：import socketsocket.setdefaulttimeout(t)t：代表经过t秒后，如果还未下载成功，自动跳入下一次操作，此次下载失败另外一种解决方案是:使用t

树下水月

4325人浏览 · 2020-11-19 18:12:37

树下水月 · 2020-11-19 18:12:37 发布

python程序根据url从互联网上批量下载图片时，设置HTTP或Socket超时，来防止爬虫爬取某个页面时间过长，导致程序卡置不前。我之前开发的一个脚本读取kafka 就是拿图片后续一直卡在这里。

一种解决方案是全局设置：

import socket
socket.setdefaulttimeout(t)
t：代表经过t秒后，如果还未下载成功，自动跳入下一次操作，此次下载失败

另外一种解决方案是:

使用timeout 参数可以设定等待连接的秒数，如果等待超时，Requests会抛出异常

>>> requests.get('http://github.com', timeout=0.001)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
requests.exceptions.Timeout: HTTPConnectionPool(host='github.com', port=80): Request timed out. (timeout=0.001)
>>> requests.get('https://www.baidu.com',timeout=0.5)
<Response [200]>

timeout 仅对连接过程有效，与响应体的下载无关。 timeout 并不是整个下载响应的时间限制，而是如果服务器在 timeout 秒内没有应答，将会引发一个异常（更精确地说，是在 timeout 秒内没有从基础套接字上接收到任何字节的数据时)。

第三种

import time
import requests
from requests.adapters import HTTPAdapter
s = requests.Session()
s.mount('http://', HTTPAdapter(max_retries=3))
s.mount('https://', HTTPAdapter(max_retries=3))
print(time.strftime('%Y-%m-%d %H:%M:%S'))
try:
    r = s.get('http://www.google.com.hk', timeout=5)
    return r.text
except requests.exceptions.RequestException as e:
    print(e)
print(time.strftime('%Y-%m-%d %H:%M:%S'))

max_retries 为最大重试次数，重试3次，加上最初的一次请求，一共是4次，所以上述代码运行耗时是20秒而不是15秒

第四种：捕获请求异常：

def gethtml(url):
    i = 0
    while i < 3:
    try:
        html = requests.get(url, timeout=5).text
        return html
    except requests.exceptions.RequestException:
      i += 1

Kafka开源项目指南

Kafka开源项目指南提供详尽教程，助开发者掌握其架构、配置和使用，实现高效数据流管理和实时处理。它高性能、可扩展，适合日志收集和实时数据处理，通过持久化保障数据安全，是企业大数据生态系统的核心。

更多推荐

Kafka入门（一）概述、部署与API的简单使用

Kafka概述、部署与API的简单使用

Kafka开源项目指南

基于canal和kafka同步，实现binlog同步ElasticSearch

文章目录前言elasticsearch 安装canal安装canal-adapter 安装及配置mysql 安装zk及kafaka安装查看效果注意事项前言中间件版本elasticsearch7.5.2canal1.1.4client-adapter1.1.5-alpha-1zookeeper3.4.13kafka2.6.0mysql5.7.31elasticsearch 安装{"settings"

Kafka开源项目指南

基于 Iceberg 的湖仓一体架构在 B 站的实践

背景在B站，每天都有PB级的数据注入到大数据平台，经过离线或实时的ETL建模后，提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据，如何高效低成本地满足下游数据的分析需求，一直是我们重点的工作方向。我们之前的数据处理流程基本上是这样的：采集端将客户端埋点、服务端埋点、日志、业务数据库等数据收集到HDFS、Kafka等存储系统中，然后通过Hive、Spark、Fl...