今年3月发布了几款新的开源模型,有几款分别是阿里的QwQ 32B模型和谷歌的新Gemma 3 27B模型,据说其中两款分别是这些模型,据说它们都很擅长推理。🤔
我们来比较一下这些模型,并看看它们与一个优秀的开源推理模型——比如Deepseek R1模型——相比如何。
GIF
而且,如果你看了我一段时间的帖子,你知道我不会同意那些基准测试,直到我自己测试过! 😉
太长不看如果你只想看结论,与这三个模型相比,答案并没有其他博客文章那么明确,QwQ 在编程方面稍微占优,但另外两个模型的推理能力同样很强。
如果是编程的话,推荐使用QwQ 32B型号或Deepseek R1,如果是其他用途,Gemma 3同样很棒,应该能满足你的需求。
…
QwQ 32B 模型简述在三月的第一周,阿里发布了这款拥有32B参数的新模型,声称其性能可以与Deepseek R1相媲美,后者拥有671B参数。🤯
注意:原文链接多了一个字符'0',这里保持一致。如果需要修复链接,请删除多余的'0'。
这标志着他们首次将强化学习(RL)扩展以提升模型的推理能力。
以下是在对比另一个领先模型Deepseek R1时,他们公开了展示QwQ-32B在性能上的基准。
](https://imgapi.imooc.com/3a2f3a6708e0ae6608000451.jpg)
现在这看起来有趣多了,特别是他们还把Deepseek R1(一个大约是他们模型规模的20倍的模型)进行比较呢。
此处省略
Gemma 3 27B型号简介Gemma 3 是 Google 基于 Gemini 2.0 的新开源模型。虽然它有 4 种不同尺寸(1B、4B、12B 和 27B),但这并不是最令人感兴趣的部分。
据说它是“在单个GPU或TPU上运行的最高效的模型之一”。🔥 这意味着它可以在资源有限的设备上运行。
它支持一个128K的上下文窗口功能,主要针对推理相关的任务,并支持超过140种语言的翻译。
不过,Gemma 3 27B 模型在许多人的不同编码测试中似乎没有那么出色。
试试看这到底是不是真的,这个模型推理能力怎么样。
……
编程难题💁 接下来,我将测试这三个模型在动画制作和一个难题LeetCode上的编码能力。
1. 旋转球,上面有字母
提示: 创建一个使用JavaScript模拟的旋转3D字母球。最接近的字母应该用更亮的颜色(如白色)显示,反之,最远的字母则应显示为灰色。
QwQ 32B 的回复
你可以通过这个链接找到生成的代码: 链接
程序的输出如下:
QwQ给我们的输出简直让人难以置信。从动画效果到字母旋转,再到颜色变换,一切都如我所希望的一样。真是太好了!
Gemma 3 27B的回复
你可以在这里查看它生成的代码:Link
下面是你程序的输出结果:
似乎没有完全按照我的提示来做,确实有些事情发生了。但我要求的是一个3D的球体,结果却出现了一个旋转的带有字母的环。
虽然这个模型编码能力一般,但至少我们还是搞出了点儿能用的。
Deepseek R1:的回复
你可以在这里找到生成的代码:Link
程序的输出如下所示:
它也基本上做对了,并且准确地实现了我的要求。这一点没有疑问,但与QwQ 32B模型相比,整体效果看起来逊色不少。
总结:
或 简单来说:
在这一部分,毋庸置疑,QwQ 32B 模型无疑是最棒的。它在动画和困难的 LeetCode 题目上的表现都超过了我们的编码测试。尽管将这些小型模型与671B(每查询37B活跃参数)的Deepseek进行比较似乎不太公平,但令人惊讶的是,QwQ 32B 实际上在这里打败了Deepseek R1。
2. LeetCode 题目
对此,让我们快速检查一下 LeetCode 上的题目,用一个超级难的 LeetCode 题来看看这些模型如何解决一个仅 14.4% 的接受率的难题:强密码检查器。
鉴于这是个难题,我对这三个模型几乎不抱什么希望,因为它们没有像Claude 3.7这样的代码模型那么好。
如果你想看看Claude 3.7和其他顶级模型如Grok 3和o3-mini-high的对比,可以看看这篇博客文章哦。
## Claude 3.7 Sonnet、Grok 3 和 o3-mini-high:代码对比 Shrijal Acharya 编写 ・ 2月27日 #javascript #python #ai #开源
提示:
如果密码满足以下条件,则认为它是强壮的:
- 至少包含6个字符,但不超过20个字符。
- 至少包含一个小写字母,一个大写字母,以及一个数字。
- 不包含连续的三个相同的字符(例如,“Baaabb0”是弱密码,而“Baaba0”是强壮密码)。
给定一个字符串密码,返回使密码强壮所需的最小步骤数。如果密码已经是强壮的,则返回0。
在一步操作中,你可以做以下任一操作:
- 在密码中插入一个字符,
- 从密码中删除一个字符,或
- 用另一个字符替换密码中的一个字符。
示例 1:
输入:password = "a"
输出:5
示例 2:
输入:password = "aA1"
输出:3
示例 3:
输入:password = "1337C0d3"
输出:0
约束条件:
1 <= password.length <= 50
密码由字母、数字、点 '.' 或感叹号 '!' 组成,不包括其他特殊字符。
切换到全屏,退出全屏
QwQ 32B 的回复
你可以在这里查看它生成的代码:查看代码
靠,竟然做对了。更厉害的是,还能在O(N)的时间复杂度里写出整个代码,这也达到了预期的时间复杂度要求。
如果非要比较代码质量,我会说质量还行。不仅代码好,所有内容都记录得很清楚。因此,这个模型潜力很大。
尽管思考花费了很长时间,但真正重要的是实际可行的答案。
Gemma 3 27B:回复
这里可以找到生成的代码:Link
好吧,Gemma 3 在这里就有点不行了。它通过了 39/54 个测试案例,但这点缺陷甚至没有起到帮助。还不如根本不要生成代码,写得烂有什么用呢。🤷♂️
但考虑到这一点,这个模型是一个开源模型,只有270亿个参数,并且运行在单个GPU或TPU上,这也值得我们考虑。
Deepseek R1 的回应
我对这个问题几乎不抱任何希望这个模型能成功。在我之前的测试中,当我比较Deepseek R1和Grok 3时,Deepseek R1表现得非常糟糕。如果你想看看的话,
## Grok 3 与 Deepseek r1 的深度对比分析 Shrijal Acharya 供 Composio ・ 2021 年 2 月 #AI #开源 #效率 #互动讨论
你可以在这里查看它生成的代码:链接
挺酷的,它几乎通过了51/54个测试。但是哪怕只有一个测试用例失败,提交就会被判错,所以对Deepseek R1来说,运气不怎么好。
总结:
结果在比较这三个模型处理两个编码问题时非常明确。QwQ 32B 模型显然赢了 🔥,虽然Gemma 3 27B 尽力了,但绝对不适合用来做高级编码。至于Deepseek,也没什么好说的,虽然它表现平平,但对于大多数基本到中级的编码问题还是能应付的,我自己每天也在用这个模型。
此处省略
推理问题在这里,我们可以检查一下两个模型的推理能力怎么样。
1. 水果互换
我们先来一个简单的问题(一点也不难),这个问题需要一点常识来解决。看看这些模型是否也具备常识。
我只是想看看模型是否只会解析需要解析的内容,只进行必要的推理,就像问10000*3456*0*1234
的结果一样。🥱
提示: 你一开始有14个苹果。你掉了7个后捡起4个。Leo拿走了4个,但给了你5个。你从Emma那里拿走一个苹果,用它换来了Leo的三个苹果,然后把这三个苹果给了Emma,Emma给了你一个苹果和一个橙子,然后。Zara拿走了你的一个苹果,给了你一个梨,然后。你用梨换了Leo的一个苹果,然后。之后,Zara用一个苹果换了她的橙子,然后把橙子和你换了一个苹果。你现在有几个梨?
你看,我们提供了所有不必要的背景,比如苹果和橙子,而真正的问题是关于梨的。但在最后,只提到一笔交易,结果我们一无所有,没有得到任何梨。
QwQ 32B 说:
详细解释在这里: Link
正如我所料,它似乎完全缺少了这一点。😮💨 真是的,它算了172秒(约2.9分钟),把那些苹果和橙子的计算都搞定了。这确实让我很失望,来自QwQ 32B。
Gemma 3 27B 的回复
你可以请见此处的它的理由: 链接
只需要几秒钟,它就能算出所有情况并给出总的梨的数量。这里也没什么好埋怨的。
回复非常快,这个模型真的让我印象深刻。
Deepseek R1:回答
你可以在这里找到它的解释: Link
它想了一分钟左右,找到了答案。虽然预料它会给出正确的答案,但我只是想看看它能否直接回答我提出的问题,而不是去做那些多余的苹果和橙子的计算。可惜,它也没能做到。
总结:
说实话,这个问题,我并不是真的在寻找正确答案,甚至一个一年级的小学生都能回答。我只是想看看这些大型语言模型(LLM)是否能够过滤掉所有不必要的细节,只回答所需问题,但可惜的是,它们全都失败了,真是。即使我在问题后面加上了这句话:“只回答问题本身。” 😮💨 实在令人失望。
2. 电梯里的女性
提示: 一个秃头瘦弱的女人住在第78层。天晴的时候,她乘电梯到第67层,然后走上去。在雨天时,她直接坐电梯到她家。她为什么在下雨天直接坐电梯到她家呢?
这个问题有点棘手,因为我包含了一些不必要的细节,让LLMs难以注意到,使它们不容易轻易找到答案。答案是这位女士个子矮,夏天够不到电梯按钮,但她带着伞,可以用伞按高一点的电梯按钮。
这个答案跟她是不是光头或者骨感没有关系啦。 🥴
QwQ 32B 的回复
你可以在这里看看它的解释:Link
在这里花了足足311秒(大约5.2分钟),我花了一段时间才弄明白这跟她秃头且瘦有什么关系,但最后我还是特别佩服这个回应。
它真的是如何解释其思维过程的,非常棒。你也来看看。
说起来,QwQ 32B 确实说得对,解释得非常到位。✅
Gemma 3 27B的回复:
你可以在这里查看点击这里:Link,理由如下。
我被Gemma 3模型的表现惊到了,几秒钟内就给出了正确结果。它在解决推理任务时表现得非常出色。到目前为止,我对这个谷歌开源模型非常满意。🔥
Deepseek R1的回复
你可以在这里找到这个链接里的原因:Link
我们知道Deepseek在推理任务上很厉害,所以它答对了也不奇怪。
想出答案确实花了一点时间,大约思考了72秒(约1.2分钟),不过每次我都很喜欢这个思考过程。
真的很难理解这和那个女人秃头又瘦有什么关系,但是,嘿,这就是我加入这个内容的原因。🥱
以下为摘要:
毫无疑问,这三个模型都非常擅长处理推理问题。我特别喜欢QwQ 32B和Deepseek R1模型解释它们的思考过程,还有Gemma 3回答问题的速度特别快。这三个模型都得了满分10/10,因为它们都能准确找到答案✅,不过QwQ 32B有时候推理会显得有些多余。🤷♂️
数学题目
💁 查看了看这三个模型的所有推理题答案后,我觉得这两个模型的也能通过数学题。
1. 钟表指针呈直角问题
提示: 在5:30和6:00之间,钟表的时针和分针什么时候会成直角?
QwQ 32B 的回复
你可以通过这个链接找到它的理由如下: Link
Gemma 3 27B的回复
你可以在这里看看: Link
除了编码题目之外,Gemma 3 也答对了这道题,并且在我说的所有推理题和数学题中表现出色的水平。这真是一个又小又强大的模型。
真的太棒了🤩
Deepseek R1的回复
你可以在这里找到它的解释: Link
在我写的关于Deepseek R1和Grok 3的比较文章中,已经可以看出Deepseek在数学上的表现非常出色,所以我对这个模型充满期待。
跟往常一样,它这次也答对了。它肯定花了些时间思考才得出答案,但它确实给出了答案。
简述:
所有模型在推理和数学方面都表现得非常好。Gemma 3 27B 迅速搞定,另外两个模型 QwQ 32B 和 Deepseek R1 也同样用正确的推理轻松搞定。
2. 字母组合:
问题: 将单词 MATHEMATICS 中的字母排列,使得元音字母必须相邻,有多少种排列方式?
这是经典的数学问题,通常用来询问大型语言模型,让我们看看这三个大型语言模型的表现如何。
QwQ 32B 的回复了
你可以通过这个链接查看它的解释: Link
想了552秒(大约9.2分钟),确实花了那么长时间才想出答案,不过,就像往常一样,它这次也准确地回答了这个问题。
虽然感觉冗长又无聊,但只要能完成任务,那就是优点了。QwQ 32B 模型真的表现得非常扎实,一直碾压所有问题,🔥
Gemma 3 27B的回复
你可以在这里找到解释:Link 或者点击这里查看说明。
真是精准。它快速且准确的回应真是让人惊讶。谷歌在这上面做得真是不错,这无疑是个很好的成果。😵
Deepseek R1回复了
你可以在这里找到它的原因:链接
【Deepseek R1模型对数学问题的回答】(https://imgapi.imooc.com/66b3ee6709e0ae7808000238.jpg)
经过大约132秒(也就是2.2分钟),它找到了答案,再次给出了Deepseek R1的正确答案。
总结:
这次的答案同样显而易见。我们三个模型都完美地回答了,完美地解释和推理。面对这么难的问题,三个模型都给出了非常出色的回答。其中最让我印象深刻的是Gemma 3 27B,真是一个轻量级却非常优秀的模型,真是太给力了!🔥
总结一下
结果非常明确。对我来说,经过所有这些比较,如果我必须选一个模型,还是会选择Deepseek R1。QwQ 32B模型表现非常好,可以说在这次比较中获胜。✅ 似乎其他一些测试模型的人也有类似的想法。
对我来说,Deepseek R1既有平衡的推理,响应时间也快。
尽管 Gemma 3 和 Deepseek R1 在编程问题上没有完全答对,不过它们的整体推理能力非常强。我对 Gemma 3 27B 模型简直是赞不绝口。这真是一款你工具箱里不可或缺的模型。
你觉得呢?说说你的想法吧!👇
Shrijal Acharya全栈软件开发工程师 • 开源贡献者 • Oppia合作成员 • 欢迎交流合作 https://dev.to/shricodev
共同學習,寫下你的評論
評論加載中...
作者其他優(yōu)質文章