免费大模型平台测评汇总

测试平台

测试模型

154.2

最高 tok/s

推荐平台

可用模型

2000+

每日免费调用

平台总览

魔搭 ModelScope

首选

免费模型：15 个可用

最佳速度：154.2 tok/s

稳定性：优秀

额度：2000 次/天

新秀：Ling-2.6-flash（154 tok/s）、MiniMax-M3（91 tok/s）
推荐：DeepSeek-V4-Flash（76 tok/s）、Qwen3.5-35B（136 tok/s Thinking）

Agnes AI

次选

免费模型：3 个

文本速度：14.8 tok/s

图片生成：4.7~13.9s/张

视频生成：~30s

推荐：agnes-2.0-flash、agnes-image-2.1-flash、agnes-video-v2.0
夜间速度可达 80.8 tok/s

SiliconFlow 硅基流动

备选

免费模型：1 个（Qwen3-8B）

价格：0 元/K Tokens

稳定性：良好

额度：不限量（永久免费）

免费：Qwen3-8B（8B 参数，输入输出均为 0 元）
注意：仅 9B 以下小模型永久免费，大模型均需付费

智谱 GLM

不推荐

免费模型：1 个

glm-4-flash：几乎不可用

稳定性：过载严重

额度：极有限

问题：免费层仅 glm-4-flash，速度慢（12-13 tok/s），过载频繁

OpenRouter

不推荐

免费模型：28 个

最佳速度：57 tok/s（Laguna XS.2）

稳定性：Provider 频繁错误

特点：均为小模型，能力有限

可用：Laguna XS.2（57 tok/s）、Nemotron Nano 9B（46 tok/s）
注意：免费层模型普遍偏小（9B-31B），大模型需付费或不可用

Ollama Cloud

放弃

免费模型：~6 个小模型

旗舰模型：需付费订阅

免费层能力：不足

API 格式：Ollama 原生

问题：免费层仅有小模型（3B-31B），旗舰模型需订阅

OpenCode

关注

下载即送免费额度，可体验主流模型

七牛云

不推荐

仅有智谱 GLM-4.7，速度极慢，与官网一致

Hermes Agent

关注

偶尔有限免模型，值得关注

讯飞星火

后付费

Qwen3.6-35B-A3B，实测 12.2 tok/s

速度排行榜（魔搭免费模型 — 夜间速度）

测试任务：输出九九乘法表（81个等式）。点击模型名旁的复制图标，复制完整的 API 调用示例。

#	模型	速度	tokens	状态
1	Ling-2.6-flash⎘	154.2	625	新秀
2	Qwen3.5-35B-A3B⎘	136.3	6430	Thinking
3	Step-3.5-Flash⎘	131.2	800	格式不同
4	Ling-2.6-1T⎘	127.9	624	新秀
5	Step-3.7-Flash⎘	123.5	800	格式不同
6	Qwen3.5-122B-A10B⎘	99.2	5406	Thinking
7	MiniMax-M3⎘	91.5	800	新旗舰
8	GLM-4.7-Flash⎘	86.7	800	格式不同
9	DeepSeek-V4-Flash⎘	75.8	565	推荐
10	Qwen3.5-27B⎘	70.9	624	Thinking
11	GLM-5.1⎘	65.2	565	可用
12	DeepSeek-V4-Pro⎘	61.5	565	可用
13	DeepSeek-V3.2⎘	44.5	312	可用
14	Kimi-K2.5⎘	32.3	566	可用
15	GLM-5⎘	29.3	565	可用

模型参数一览

模型	发布时间	总参数	激活参数	架构	上下文	图片/视频
Ling-2.6-flash	2026-04-22	104B	7.4B	MoE	262K	-
Ling-2.6-1T	2026-04-23	1T	-	MoE	262K	-
Qwen3.5-35B-A3B	2026-02-26	35B	3B	MoE	262K	图片+视频
Qwen3.5-122B-A10B	2026-02-26	122B	10B	MoE	262K	图片+视频
Qwen3.5-27B	2026-02-26	27B	27B	Dense	262K	图片+视频
Step-3.5-Flash	2026-01-30	196B	11B	MoE	262K	-
Step-3.7-Flash	2026-05-29	196B	11B	MoE	256K	图片+视频
DeepSeek-V4-Flash	2026-04-24	284B	13B	MoE	1M	-
DeepSeek-V4-Pro	2026-04-24	1.6T	49B	MoE	1M	-
DeepSeek-V3.2	2025-12-01	671B	37B	MoE	128K	-
MiniMax-M3	2026-06-01	428B	22B	MoE(128e/4a)	1M	图片+视频
GLM-4.7-Flash	2026-01-19	30B	30B	Dense	203K	-
GLM-5.1	2026-04-08	335B	25B	MoE	203K	-
GLM-5	2026-02-12	335B	25B	MoE	203K	-
Kimi-K2.5	2026-01-27	1T	32B	MoE	262K	图片
agnes-2.0-flash	2025	~8B	~8B	Dense	32K	-

图片/视频生成模型

模型	平台	类型	耗时	状态	说明
agnes-image-2.1-flash ⎘	Agnes AI	文生图	9.7s (动漫) / 13.9s (写实)	免费	免费，质量可用
agnes-video-v2.0 ⎘	Agnes AI	视频生成	~30s	免费	5 秒视频，异步任务

生图效果实测

模型: agnes-image-2.1-flash | 提示词: "A cute anime girl with fox ears" / "Monaco Grand Prix circuit" / "speedtest logo"

动漫赛马娘

9.7s | 1024x1024

摩纳哥赛道

13.9s | 1024x1024

测速网站 Logo

10.3s | 1024x1024

速度体感对比

实时动画：点击不同速度，直观感受各 tok/s 的输出体验。相同速度下，代码比文本更紧凑。

30 tok/s

文本

编码

思考

▍

基于 tokenspeed 项目。英文约 1.3 token/词，30 tok/s 约 23 词/秒。代码比文本信息密度更高，同速下视觉感受不同。

测试说明

测试日期：2026-06-16，共测试 30 个模型，15 个可用，15 个不可用
测试标准：速度 > 20 tok/s 为可用，统一任务为输出九九乘法表（81个等式）
新秀模型：Ling-2.6-flash（154.2 tok/s 夺冠）、Ling-2.6-1T（127.9 tok/s）、MiniMax-M3（91.5 tok/s，最新旗舰）
已移除旧模型：Qwen3-Next-80B、Qwen3-235B-A22B、Mistral-Large 不再可用/已过时
不可用新模型：Qwen3.5-397B-A17B（超时）、Kimi-K2.6/K2-Instruct（400错误）、ERNIE-4.5（异常）、MiMo-V2（400）
Step 模型：Step-3.5/3.7-Flash 速度快但输出格式不标准（含 markdown 包装，0/81 等式匹配）
Thinking 模型：Qwen3.5-35B/122B 默认开启 thinking，token 消耗极大（6K+）。魔搭可用 chat_template_kwargs: {"enable_thinking": false} 关闭
SiliconFlow：仅 Qwen3-8B 永久免费（0 元/K Tokens），大模型均需付费。旧的免费宣称（Llama/Yi/GLM-4-9B）已不准确
智谱 GLM 已放弃：免费层仅 glm-4-flash，速度慢且过载严重