百度一年来，杭州国际城市学研究中心围绕“城市交通”主题开展了第二届“钱学森城市学金奖”和“西湖城市学金奖”的征集评选活动，今年10月还举行了专家评审会和“钱学森城市学思想研讨会”，在今天的论坛上，向“钱学森金奖”和“西湖金奖”的获奖者颁了奖。

评价此篇文章

有帮助没帮助

本页目录

错误缓解方案

更新时间：2025-08-04

千帆ModelBuilder为不同的服务设定了不同的调用频率限制策略，以保障服务稳定性和为开发者提供最佳性能和较优的开发体验。本文介绍了千帆ModelBuilder提供的具体调用频率限制策略，以及遇到限制时的一些处理方法。

调用频率限制介绍

开发者在调用API服务时，调用次数/消耗tokens数有一定的限制。调用频率限制介绍、限制策略等，请参考速率限制说明文档。

触发限制后的响应

以ERNIE 3.5为例进行说明

默认RPM=300，如果客户在1分钟之内发送310个请求，只会有300个请求成功，剩余10个请求直接失败。请求失败错误码为336501，错误描述为Rate limit reached for RPM。
默认TPM=300,000，如果客户在1分钟内消耗的token数量超过300,000 ，则超过300,000tokens以后的请求都会失败。请求失败错误码为336502，错误描述为Rate limit reached for TPM。

示例如下：

                JSON
                
            

                HTTP/1.1 200 
Content-Type: application/json
X-Ratelimit-Limit-Requests: 300  //一分钟内允许的最大请求次数
X-Ratelimit-Limit-Tokens: 300000 //一分钟内允许的最大tokens消耗，包含输入tokens和输出tokens
X-Ratelimit-Remaining-Requests: xx //达到RPM速率限制前，剩余可发送的请求数配额，如果配额用完，将会在0-60s后刷新
X-Ratelimit-Remaining-Tokens: xxx // 达到TPM速率限制前，剩余可消耗的tokens数配额，如果配额用完，将会在0-60s后刷新

{
    "code": 336501,
    "msg": "Rate limit reached for RPM"
}
            

如何处理限制

为最大限度地减少服务出现问题后带来的影响，千帆ModelBuilder提供了多种机制，在调用错误时进行重试等，避免出现频率极高的错误，提升用户使用体验。

重试机制

SDK 提供了多种方式，在遇到错误时自动进行重试，以及在重试间进行退避避免触发流控。

基于指数回避重试机制，重试的等待时间会以某种策略化的计算，以规避请求风暴等问题，更多详细介绍请参考退避回避算法。简单可以总结为：

重试等待时间=min(backoff_factor×(2^重试次数)+random(0, jitter), max_wait_interval)

retry_count：重试次数。
backoff_factor：退避因子。
jitter：抖动系数，对退避时间做一个“抖动”，以具有一定的随机性。
max_wait_interval：最大重试间隔，以避免无限长的等待时间。
timeout：本次请求超时时间（秒）。

SDK目前提供2种方式设置重试机制，分别通过环境变量设置、通过参数设置。不同方式实现效果相同，设置方式及参数名不同，开发者可以选择任一方式，具体使用请参考示例。

方式一：通过环境变量设置

环境变量设置对整个程序生效。

说明	设置环境变量项
超时时间（秒）	QIANFAN_LLM_API_RETRY_TIMEOUT
重试次数	QIANFAN_LLM_API_RETRY_COUNT
退避因子	QIANFAN_LLM_API_RETRY_BACKOFF_FACTOR
抖动系数	QIANFAN_LLM_API_RETRY_JITTER
最大重试间隔	QIANFAN_LLM_API_RETRY_MAX_WAIT_INTERVAL

以ERNIE-3.5-8K调用为例，如下。

                Python
                
            

                import os
import qianfan

## 超时时间（秒）
os.environ["QIANFAN_LLM_API_RETRY_TIMEOUT"] = "300"
# 重试次数（模型推理相关操作）
os.environ["QIANFAN_LLM_API_RETRY_COUNT"] = "3"
## 退避因子
os.environ["QIANFAN_LLM_API_RETRY_BACKOFF_FACTOR"] = "1"
## 抖动系数
os.environ["QIANFAN_LLM_API_RETRY_JITTER"] = "3"
## 最大重试间隔
os.environ["QIANFAN_LLM_API_RETRY_MAX_WAIT_INTERVAL"] = "120"

#【推荐】使用安全认证AK/SK鉴权，通过环境变量初始化认证信息
# 替换下列示例中参数，安全认证Access Key替换your_iam_ak，Secret Key替换your_iam_sk
os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"

chat_comp = qianfan.ChatCompletion()

# 指定特定模型
resp = chat_comp.do(model="ERNIE-3.5-8K", messages=[{
    "role": "user",
    "content": "你好"
}])

print(resp["body"])
            

方式二：通过参数设置

参数设置仅对该请求生效。

说明	参数名称	类型
重试次数	retry_count	int
超时时间（秒）	request_timeout	float
退避因子	backoff_factor	float
抖动系数	retry_jitter	float
自定义重试API错误码	retry_err_codes	set[int]
最大重试间隔	retry_max_wait_interval	float

以ERNIE-3.5-8K调用为例如下。

                Python
                
            

                import os
import qianfan

#【推荐】使用安全认证AK/SK鉴权，通过环境变量初始化认证信息
# 替换下列示例中参数，安全认证Access Key替换your_iam_ak，Secret Key替换your_iam_sk
os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"

chat = qianfan.ChatCompletion()

resp = chat.do(
    model="ERNIE-3.5-8K",
    messages=[{
    "role": "user",
    "content": "你好"
    }],
    # 重试次数
    retry_count=3,
    # 超时时间（秒）
    request_timeout=300,
    # 退避因子
    backoff_factor=2,
    # 抖动系数
    retry_jitter=2,
    # 最大重试间隔
    retry_max_wait_interval=120,
    # 自定义需要重试的API错误码
    retry_err_codes={2, 336100, 15, 18, 336501, 336502},
)

print(resp["body"])
            

限流机制

为防止超额请求带来潜在问题，千帆ModelBuilder SDK对用户接口的请求进行限流。限流策略及配置以下：

类别	维度	描述
请求频率类	QPS 限制	设置 QPS 限制，为正浮点数。注意：（1）QPS限制和RPM不能同时设置，只能设置其中一个（2）如果是ERNIE 系列模型，SDK 会自动从平台获取限流配置，且和用户自己指定的配置对比，SDK 会取两者中较小的值（3）如果是第三方模型，则需要用户自行配置限流
请求频率类	RPM 限制	设置RPM 限制，会限制每分钟请求的次数，为正浮点数。注意：（1）QPS限制和RPM不能同时设置，只能设置其中一个（2）如果是ERNIE 系列模型，SDK 会自动从平台获取限流配置，且和用户自己指定的配置对比，SDK 会取两者中较小的值（3）如果是第三方模型，则需要用户自行配置限流。
token/字符类	TPM 限制	设置TPM 限制，代表每分钟内可以消耗的 Token 总数，为正整数。注意：（1）如果是ERNIE 系列模型，SDK 会自动从平台获取限流配置，且和用户自己指定的配置对比，SDK 会取两者中较小的值（2）如果是第三方模型，则需要用户自行配置限流。

?
开发者可以通过以下2种方式配置限流，通过调整设定的限流值，避免出现频率极高的错误。

方式一：通过系统环境变量配置

以ERNIE-3.5-8K为例说明

                Python
                
            

                import os
import qianfan

# 设置QPS限制，为正浮点数，QPS限制和RPM不能同时设置，只能设置其中一个
os.environ["QIANFAN_QPS_LIMIT"] = "1"
# 设置RPM限制，限制每分钟请求的次数，为正浮点数；QPS限制和RPM不能同时设置，只能设置其中一个
# os.environ["QIANFAN_RPM_LIMIT"] = "300"
# 设置TPM限制，代表每分钟内可以消耗的 Token 总数，为正整数
os.environ["QIANFAN_TPM_LIMIT"] = "30000"

# 使用安全认证AK/SK鉴权，通过环境变量方式初始化；替换下列示例中参数，安全认证Access Key替换your_iam_ak，Secret Key替换your_iam_sk
os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"

chat_comp=qianfan.ChatCompletion()

# 指定特定模型
resp = chat_comp.do(model="ERNIE-3.5-8K", messages=[{
    "role": "user",
    "content": "你好"
}])

print(resp.body)
            

方式二：通过参数配置

在创建相关请求对象时，传入相关参数进行配置限流，以ERNIE-3.5-8K为例说明。

                Python
                
            

                import os
import qianfan

# 使用安全认证AK/SK鉴权，通过环境变量方式初始化；替换下列示例中参数，安全认证Access Key替换your_iam_ak，Secret Key替换your_iam_sk
os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"

# 创建相关请求对象时，通过参数配置限流
chat_comp=qianfan.ChatCompletion(
    # 设置QPS限制，为正浮点数，QPS限制和RPM不能同时设置，只能设置其中一个
    request_per_minute=300,
    # 设置RPM限制，限制每分钟请求的次数，为正浮点数；QPS限制和RPM不能同时设置，只能设置其中一个
    # request_per_minute
    # 设置TPM限制，代表每分钟内可以消耗的 Token 总数，为正整数
    token_per_minute=300000,
)

# 指定特定模型
resp = chat_comp.do(model="ERNIE-3.5-8K", messages=[{
    "role": "user",
    "content": "你好"
}])

print(resp.body)
            

自动截断机制

当调用API，输入大模型内容过长，超过限制时，接口会返回336103或336007错误。可以通过以下任一方式解决：
· 通过适当缩短prompt，即减少输入长度，避免请求内容超过限制
· 通过使用SDK调用相关API，当输入大模型内容过长时，SDK会自动截断输入

如何提升调用频率限制

如果用户使用的服务RPM和TPM速率限制较低，无法满足业务要求，可以通过购买TPM实现扩容。具体请查看如何提升速率限制。

错误码

API调用指南

高危行为是什么意思	医院信息科是做什么	查胃病做什么检查合适	牛黄是什么东西	梦到自己头发白了是什么意思
pdrn是什么	被强奸是什么感觉	哮喘病有什么症状	谵妄是什么意思	瘦人吃什么长胖
小孩发烧挂什么科	精神慰藉什么意思	什么叫保守治疗	水能变成什么	叶字五行属什么
小孩改姓需要什么手续	馀是什么意思	国家电网需要什么专业	为什么井盖是圆的	发烧不退烧是什么原因

文化大革命什么时候hcv7jop4ns5r.cn	宫缩什么感觉hcv7jop6ns6r.cn	婚检女性检查什么项目luyiluode.com	海底椰是什么东西hcv8jop8ns1r.cn	什么之财hcv9jop2ns3r.cn
喝酒吃什么解酒hcv8jop2ns2r.cn	打强心针意味着什么hcv8jop8ns0r.cn	淫羊藿治什么病hcv8jop1ns4r.cn	口腔溃疡需要补充什么维生素hcv9jop2ns7r.cn	黎山老母什么级别神仙hcv9jop0ns1r.cn
四月初五是什么星座hcv7jop5ns6r.cn	痛风不能吃什么蔬菜hcv9jop0ns4r.cn	三叉神经痛吃什么药好hcv9jop6ns6r.cn	农历11月25日是什么星座hcv9jop1ns2r.cn	巴士是什么意思youbangsi.com
蜈蚣最怕什么东西hcv8jop5ns3r.cn	孕晚期吃什么水果好hcv9jop1ns6r.cn	etf什么意思clwhiglsz.com	绝代双骄是什么意思hcv7jop6ns0r.cn	梦到孩子被蛇咬是什么意思hcv8jop8ns7r.cn

澄迈盈滨海湾大桥通车海口进西线高速增便捷坦途

千帆大模型服务与开发平台ModelBuilder