免费大模型平台测评汇总

6 个平台 · 40+ 模型实测 · 找到最佳免费 API 方案
测试日期:2026-06-09 ~ 06-11 测试标准:速度 > 20 tok/s 测试环境:Windows 11 + Python 3.12
白天
夜间
6
测试平台
40+
测试模型
108.8
最高 tok/s
3
推荐平台
14+
可用模型
2000+
每日免费调用
平台总览
次选
免费模型:3 个
文本速度:14.8 tok/s
图片生成:9s/张
视频生成:~30s
推荐:agnes-2.0-flashagnes-image-2.1-flashagnes-video-v2.0
夜间速度可达 80.8 tok/s
免费模型:12 个
最佳速度:90.0 tok/s
稳定性:优秀
额度:无限制
推荐:Hunyuan-A13B(90 tok/s)、Ling-flash-2.0
多模态:Qwen3-Omni-30B(支持视觉)
生图:Kolors(3s/张)
不推荐
免费模型:1 个
glm-4-flash:几乎不可用
稳定性:过载严重
额度:极有限
问题:免费层仅 glm-4-flash,速度慢(12-13 tok/s),过载频繁
放弃
免费模型:28 个
最佳速度:87 tok/s
稳定性:Provider 频繁错误
中文支持:部分优秀
问题:免费层资源不足,大模型不可用,Provider 错误频繁
放弃
免费模型:~6 个小模型
旗舰模型:需付费订阅
免费层能力:不足
API 格式:Ollama 原生
问题:免费层仅有小模型(3B-31B),旗舰模型需订阅
模型参数一览
模型发布时间总参数激活参数架构上下文
Qwen3.5-397B-A17B2026.02397B17BMoE262K
Qwen3.5-122B-A10B2026.02122B10BMoE262K
Qwen3.5-35B-A3B2026.0235B3BMoE262K
Qwen3.5-27B2026.0227B27BDense262K
Qwen3.6-27B2026.0427B27BDense262K
Qwen3-Omni-30B-A3B2026.0230B3BMoE262K
DeepSeek-V4-Flash2026284B13BMoE1M
DeepSeek-R12025.01671B37BMoE128K
Hunyuan-A13B-Instruct2025.0680B13BMoE256K
MiniMax-M2.52025456B45BMoE1M
Kimi-K2.520251T+32BMoE128K
GLM-52026335B25BMoE128K
GLM-5.12026335B25BMoE128K
Ling-flash-2.02025~14B~14BDense32K
Ling-2.6-1T2025~1T~MoEMoE32K
Step-3.5-Flash2025~32B~32BDense32K
agnes-2.0-flash2025~8B~8BDense32K
速度排行榜
#模型平台耗时tokens速度状态
1Qwen3.5-35B-A3B魔搭101.0s10983
108.8
Thinking
1Qwen3.5-35B-A3B魔搭47.8s7381
154.3
Thinking
2Qwen3.5-122B-A10B魔搭74.0s6533
88.3
Thinking
2Qwen3.5-397B-A17BSiliconFlow11.75s1371
116.6
Thinking
3Hunyuan-A13B-InstructSiliconFlow2.1s188
90.0
推荐
3Qwen3.5-122B-A10B魔搭88.9s9933
111.8
Thinking
4Ling-flash-2.0SiliconFlow1.8s142
79.3
推荐
4Hunyuan-A13B-InstructSiliconFlow0.92s98
106.8
推荐
5Qwen3.6-27BSiliconFlow11.1s500
45.0
推荐
5agnes-2.0-flashAgnes AI2.0s158
80.8
夜间首选
6Step-3.5-FlashSiliconFlow8.5s304
36.0
推荐
6Ling-flash-2.0SiliconFlow0.88s68
77.1
推荐
7Qwen3-Omni-30B-A3BSiliconFlow5.2s124
23.7
多模态
7Qwen3.5-27B魔搭99.7s8124
81.5
Thinking
8DeepSeek-V4-FlashSiliconFlow9.13s185
20.3
可用
8Step-3.5-FlashSiliconFlow6.4s300
46.9
推荐
9Qwen3.5-27B魔搭40.7s2444
26.3
Thinking
9Qwen3-Omni-30B-A3BSiliconFlow0.67s38
56.6
多模态
10Kimi-K2.5魔搭9.6s157
16.3
白天较慢
10MiniMax-M2.5魔搭27.4s1499
54.7
Thinking
11agnes-2.0-flashAgnes AI3.72s34
14.8
白天较慢
11DeepSeek-V4-Flash魔搭13.3s539
40.7
推荐
12Ling-2.6-1T魔搭10.5s140
13.3
白天较慢
12Qwen3.6-27BSiliconFlow7.84s300
38.3
推荐
13GLM-5魔搭11.2s150
13.4
白天较慢
13GLM-5魔搭26.5s918
34.7
Thinking
14GLM-5.1魔搭11.2s144
12.9
白天较慢
14Ling-2.6-1T魔搭7.1s140
19.6
可用
15DeepSeek-V4-FlashSiliconFlow7.23s146
20.2
可用
16Kimi-K2.5魔搭8.7s167
19.3
可用
17GLM-5.1魔搭8.4s153
18.2
可用
18DeepSeek-R1SiliconFlow18.57s299
16.1
Thinking
图片/视频生成模型
模型平台类型耗时状态说明
KolorsSiliconFlow文生图3.09s推荐快手出品,免费文生图
Z-Image-Turbo魔搭文生图~3s推荐阿里出品,异步任务模式
agnes-image-2.1-flashAgnes AI文生图9.03s可用新加坡 Sapiens AI,免费
FireRed-Image-Edit-1.1魔搭图片编辑~6s可用支持图片编辑
agnes-video-v2.0Agnes AI视频生成~30s可用5 秒视频,异步任务
速度体感对比

不同 tok/s 下的实际输出体感。相同速度下,代码比文本更紧凑,看起来更慢。拖动滑块或点击预设速度感受差异。

文本
编码
思考
点击
5 tok/s智 能 是 指 某 些 心 理 能 力 。 关 于 哪 些 能 力 属 于 智 能 , 目 前 尚 无 一 致 意 见 。 这 个 概 念 源 于 拉 丁 语 ...
20 tok/s智能是指某些心理能力。关于哪些能力属于智能,目前尚无一致意见。这个概念源于拉丁语"intelligo",意为"在不同选项间选择"。智能的一部分使人们能够解决问题...
60 tok/s智能是指某些心理能力。关于哪些能力属于智能,目前尚无一致意见。这个概念源于拉丁语"intelligo",意为"在不同选项间选择"。智能的一部分使人们能够解决问题,这些问题可能简单,也可能复杂,需要抽象思维...
100 tok/s智能是指某些心理能力。关于哪些能力属于智能,目前尚无一致意见。这个概念源于拉丁语"intelligo",意为"在不同选项间选择"。智能的一部分使人们能够解决问题。对某些人来说,智能是心智的一种属性或特征...
200 tok/s智能是指某些心理能力。关于哪些能力属于智能,目前尚无一致意见。这个概念源于拉丁语"intelligo",意为"在不同选项间选择"。智能的一部分使人们能够解决问题。对某些人来说,智能是心智的一种属性或特征。对另一些人来说,它只是大脑的运作,尤其是大脑皮层...
英文约 1.3 token/词,30 tok/s 约等于 23 词/秒。中文约 1-2 token/字。
5 tok/sdef estimate_tokens(text):
20 tok/sdef estimate_tokens(text, model="claude-opus"):
chars = len(text)
overhead = sum(1 for c in text if c in ".,;:!?")
60 tok/sdef estimate_tokens(text, model="claude-opus"):
chars = len(text)
overhead = sum(1 for c in text if c in ".,;:!?")
return (chars // 4) + overhead + 1
100 tok/sclass TokenStream:
def __init__(self, model, prompt, rate=30):
self.model = model
self.prompt = prompt
self.rate = rate
self._budget = 2048
200 tok/sclass TokenStream:
def __init__(self, model, prompt, rate=30):
self.model = model
self.prompt = prompt
self.rate = rate
self._budget = 2048
async def __aiter__(self):
async for chunk in self.model.stream(self.prompt):
yield chunk.text
代码比文本更紧凑,相同 tok/s 下代码的信息密度更高,视觉上感觉更慢。
5 tok/s让我用一个小例子来验证索引是否对齐...
20 tok/s让我用一个小例子来验证索引是否对齐。这个函数接收一个路径并返回 Result,所以任何 IO 错误都会通过 ? 操作符向上传播...
60 tok/s让我用一个小例子来验证索引是否对齐。这个函数接收一个路径并返回 Result,所以任何 IO 错误都会通过 ? 操作符向上传播。等等 — 如果输入列表为空,循环永远不会执行,我们会返回一个过期的值。我认为最简洁的方法是将其提取为独立的辅助函数...
100 tok/s让我用一个小例子来验证索引是否对齐。这个函数接收一个路径并返回 Result,所以任何 IO 错误都会通过 ? 操作符向上传播。等等 — 如果输入列表为空,循环永远不会执行,我们会返回一个过期的值。我认为最简洁的方法是将其提取为独立的辅助函数并单独进行单元测试。实际上,现有的工具函数已经处理了重试逻辑,所以我应该直接复用它...
思考模式(Thinking)会先输出推理过程,再输出最终答案。推理过程消耗大量 token 但不直接展示给用户。
5 tok/s[等待响应中... 约 20 秒后开始输出]
20 tok/s[首 token 延迟 ~1s,然后以 20 tok/s 稳定输出,一段话约 3-5 秒]
60 tok/s[首 token 延迟 ~0.5s,然后以 60 tok/s 快速输出,一段话约 1-2 秒]
100 tok/s[首 token 延迟 ~0.3s,然后以 100 tok/s 疾速输出,一段话瞬间完成]
200 tok/s[首 token 延迟 ~0.2s,然后以 200 tok/s 极速输出,几乎感觉不到等待]
点击体验:实际使用中,首 token 延迟(TTFT)和吞吐速度同样重要。低延迟 + 高吞吐 = 最佳体验。
其他值得关注的平台
关注
下载即送免费额度,可体验主流模型
不推荐
仅有智谱 GLM-4.7,速度极慢,与官网一致
关注
偶尔有限免模型,值得关注

测试说明