寫文章

首頁手記 ?? 三款大模型比拼：QwQ 32B vs. Gemma...

?? 三款大模型比拼：QwQ 32B vs. Gemma 3 27B vs. Deepseek R1 效果如何？?

標簽：

機器學習人工智能自然語言處理

今年3月发布了几款新的开源模型，有几款分别是阿里的QwQ 32B模型和谷歌的新Gemma 3 27B模型，据说其中两款分别是这些模型，据说它们都很擅长推理。🤔

我们来比较一下这些模型，并看看它们与一个优秀的开源推理模型——比如Deepseek R1模型——相比如何。

GIF

而且，如果你看了我一段时间的帖子，你知道我不会同意那些基准测试，直到我自己测试过！ 😉

太长不看

如果你只想看结论，与这三个模型相比，答案并没有其他博客文章那么明确，QwQ 在编程方面稍微占优，但另外两个模型的推理能力同样很强。

如果是编程的话，推荐使用QwQ 32B型号或Deepseek R1，如果是其他用途，Gemma 3同样很棒，应该能满足你的需求。

…

QwQ 32B 模型简述

在三月的第一周，阿里发布了这款拥有32B参数的新模型，声称其性能可以与Deepseek R1相媲美，后者拥有671B参数。🤯

注意：原文链接多了一个字符'0'，这里保持一致。如果需要修复链接，请删除多余的'0'。

这标志着他们首次将强化学习（RL）扩展以提升模型的推理能力。

以下是在对比另一个领先模型Deepseek R1时，他们公开了展示QwQ-32B在性能上的基准。

](https://imgapi.imooc.com/3a2f3a6708e0ae6608000451.jpg)

现在这看起来有趣多了，特别是他们还把Deepseek R1（一个大约是他们模型规模的20倍的模型）进行比较呢。

此处省略

Gemma 3 27B型号简介

Gemma 3 是 Google 基于 Gemini 2.0 的新开源模型。虽然它有 4 种不同尺寸（1B、4B、12B 和 27B），但这并不是最令人感兴趣的部分。

据说它是“在单个GPU或TPU上运行的最高效的模型之一”。🔥 这意味着它可以在资源有限的设备上运行。

它支持一个128K的上下文窗口功能，主要针对推理相关的任务，并支持超过140种语言的翻译。

不过，Gemma 3 27B 模型在许多人的不同编码测试中似乎没有那么出色。

试试看这到底是不是真的，这个模型推理能力怎么样。

……

编程难题

💁 接下来，我将测试这三个模型在动画制作和一个难题LeetCode上的编码能力。

1. 旋转球，上面有字母

提示： 创建一个使用JavaScript模拟的旋转3D字母球。最接近的字母应该用更亮的颜色（如白色）显示，反之，最远的字母则应显示为灰色。

QwQ 32B 的回复

你可以通过这个链接找到生成的代码: 链接

程序的输出如下：

QwQ给我们的输出简直让人难以置信。从动画效果到字母旋转，再到颜色变换，一切都如我所希望的一样。真是太好了！

Gemma 3 27B的回复

你可以在这里查看它生成的代码：Link

下面是你程序的输出结果：

似乎没有完全按照我的提示来做，确实有些事情发生了。但我要求的是一个3D的球体，结果却出现了一个旋转的带有字母的环。

虽然这个模型编码能力一般，但至少我们还是搞出了点儿能用的。

Deepseek R1：的回复

你可以在这里找到生成的代码：Link

程序的输出如下所示：

它也基本上做对了，并且准确地实现了我的要求。这一点没有疑问，但与QwQ 32B模型相比，整体效果看起来逊色不少。

总结:
或 简单来说:

在这一部分，毋庸置疑，QwQ 32B 模型无疑是最棒的。它在动画和困难的 LeetCode 题目上的表现都超过了我们的编码测试。尽管将这些小型模型与671B（每查询37B活跃参数）的Deepseek进行比较似乎不太公平，但令人惊讶的是，QwQ 32B 实际上在这里打败了Deepseek R1。

2. LeetCode 题目

对此，让我们快速检查一下 LeetCode 上的题目，用一个超级难的 LeetCode 题来看看这些模型如何解决一个仅 14.4% 的接受率的难题：强密码检查器。

鉴于这是个难题，我对这三个模型几乎不抱什么希望，因为它们没有像Claude 3.7这样的代码模型那么好。

如果你想看看Claude 3.7和其他顶级模型如Grok 3和o3-mini-high的对比，可以看看这篇博客文章哦。

## Claude 3.7 Sonnet、Grok 3 和 o3-mini-high：代码对比 Shrijal Acharya 编写・ 2月27日 #javascript #python #ai #开源

    提示：

    如果密码满足以下条件，则认为它是强壮的：

    - 至少包含6个字符，但不超过20个字符。
    - 至少包含一个小写字母，一个大写字母，以及一个数字。
    - 不包含连续的三个相同的字符（例如，“Baaabb0”是弱密码，而“Baaba0”是强壮密码）。

    给定一个字符串密码，返回使密码强壮所需的最小步骤数。如果密码已经是强壮的，则返回0。

    在一步操作中，你可以做以下任一操作：

    - 在密码中插入一个字符，
    - 从密码中删除一个字符，或
    - 用另一个字符替换密码中的一个字符。

    示例 1：

    输入：password = "a"
    输出：5

    示例 2：

    输入：password = "aA1"
    输出：3

    示例 3：

    输入：password = "1337C0d3"
    输出：0

    约束条件：

    1 <= password.length <= 50
    密码由字母、数字、点 '.' 或感叹号 '!' 组成，不包括其他特殊字符。

切换到全屏，退出全屏

QwQ 32B 的回复

你可以在这里查看它生成的代码：查看代码

靠，竟然做对了。更厉害的是，还能在O(N)的时间复杂度里写出整个代码，这也达到了预期的时间复杂度要求。

如果非要比较代码质量，我会说质量还行。不仅代码好，所有内容都记录得很清楚。因此，这个模型潜力很大。

尽管思考花费了很长时间，但真正重要的是实际可行的答案。

Gemma 3 27B：回复

这里可以找到生成的代码：Link

好吧，Gemma 3 在这里就有点不行了。它通过了 39/54 个测试案例，但这点缺陷甚至没有起到帮助。还不如根本不要生成代码，写得烂有什么用呢。🤷‍♂️

但考虑到这一点，这个模型是一个开源模型，只有270亿个参数，并且运行在单个GPU或TPU上，这也值得我们考虑。

Deepseek R1 的回应

我对这个问题几乎不抱任何希望这个模型能成功。在我之前的测试中，当我比较Deepseek R1和Grok 3时，Deepseek R1表现得非常糟糕。如果你想看看的话，

## Grok 3 与 Deepseek r1 的深度对比分析 Shrijal Acharya 供 Composio ・ 2021 年 2 月 #AI #开源 #效率 #互动讨论

你可以在这里查看它生成的代码：链接

挺酷的，它几乎通过了51/54个测试。但是哪怕只有一个测试用例失败，提交就会被判错，所以对Deepseek R1来说，运气不怎么好。

总结:

结果在比较这三个模型处理两个编码问题时非常明确。QwQ 32B 模型显然赢了 🔥，虽然Gemma 3 27B 尽力了，但绝对不适合用来做高级编码。至于Deepseek，也没什么好说的，虽然它表现平平，但对于大多数基本到中级的编码问题还是能应付的，我自己每天也在用这个模型。

此处省略

推理问题

在这里，我们可以检查一下两个模型的推理能力怎么样。

1. 水果互换

我们先来一个简单的问题（一点也不难），这个问题需要一点常识来解决。看看这些模型是否也具备常识。

我只是想看看模型是否只会解析需要解析的内容，只进行必要的推理，就像问10000*3456*0*1234的结果一样。🥱

提示: 你一开始有14个苹果。你掉了7个后捡起4个。Leo拿走了4个，但给了你5个。你从Emma那里拿走一个苹果，用它换来了Leo的三个苹果，然后把这三个苹果给了Emma，Emma给了你一个苹果和一个橙子，然后。Zara拿走了你的一个苹果，给了你一个梨，然后。你用梨换了Leo的一个苹果，然后。之后，Zara用一个苹果换了她的橙子，然后把橙子和你换了一个苹果。你现在有几个梨？

你看，我们提供了所有不必要的背景，比如苹果和橙子，而真正的问题是关于梨的。但在最后，只提到一笔交易，结果我们一无所有，没有得到任何梨。

QwQ 32B 说:

详细解释在这里: Link

正如我所料，它似乎完全缺少了这一点。😮‍💨 真是的，它算了172秒（约2.9分钟），把那些苹果和橙子的计算都搞定了。这确实让我很失望，来自QwQ 32B。

Gemma 3 27B 的回复

你可以请见此处的它的理由: 链接

推理问题的回答

只需要几秒钟，它就能算出所有情况并给出总的梨的数量。这里也没什么好埋怨的。

回复非常快，这个模型真的让我印象深刻。

Deepseek R1：回答

你可以在这里找到它的解释: Link

它想了一分钟左右，找到了答案。虽然预料它会给出正确的答案，但我只是想看看它能否直接回答我提出的问题，而不是去做那些多余的苹果和橙子的计算。可惜，它也没能做到。

总结:

说实话，这个问题，我并不是真的在寻找正确答案，甚至一个一年级的小学生都能回答。我只是想看看这些大型语言模型（LLM）是否能够过滤掉所有不必要的细节，只回答所需问题，但可惜的是，它们全都失败了，真是。即使我在问题后面加上了这句话：“只回答问题本身。” 😮‍💨 实在令人失望。

2. 电梯里的女性

提示: 一个秃头瘦弱的女人住在第78层。天晴的时候，她乘电梯到第67层，然后走上去。在雨天时，她直接坐电梯到她家。她为什么在下雨天直接坐电梯到她家呢？

这个问题有点棘手，因为我包含了一些不必要的细节，让LLMs难以注意到，使它们不容易轻易找到答案。答案是这位女士个子矮，夏天够不到电梯按钮，但她带着伞，可以用伞按高一点的电梯按钮。

这个答案跟她是不是光头或者骨感没有关系啦。 🥴

QwQ 32B 的回复

你可以在这里看看它的解释：Link

在这里花了足足311秒（大约5.2分钟），我花了一段时间才弄明白这跟她秃头且瘦有什么关系，但最后我还是特别佩服这个回应。

它真的是如何解释其思维过程的，非常棒。你也来看看。

说起来，QwQ 32B 确实说得对，解释得非常到位。✅

Gemma 3 27B的回复:

你可以在这里查看点击这里：Link，理由如下。

我被Gemma 3模型的表现惊到了，几秒钟内就给出了正确结果。它在解决推理任务时表现得非常出色。到目前为止，我对这个谷歌开源模型非常满意。🔥

Deepseek R1的回复

你可以在这里找到这个链接里的原因：Link

我们知道Deepseek在推理任务上很厉害，所以它答对了也不奇怪。

想出答案确实花了一点时间，大约思考了72秒（约1.2分钟），不过每次我都很喜欢这个思考过程。

真的很难理解这和那个女人秃头又瘦有什么关系，但是，嘿，这就是我加入这个内容的原因。🥱

以下为摘要:

毫无疑问，这三个模型都非常擅长处理推理问题。我特别喜欢QwQ 32B和Deepseek R1模型解释它们的思考过程，还有Gemma 3回答问题的速度特别快。这三个模型都得了满分10/10，因为它们都能准确找到答案✅，不过QwQ 32B有时候推理会显得有些多余。🤷‍♂️

数学题目

💁 查看了看这三个模型的所有推理题答案后，我觉得这两个模型的也能通过数学题。

1. 钟表指针呈直角问题

提示： 在5:30和6:00之间，钟表的时针和分针什么时候会成直角？

QwQ 32B 的回复

你可以通过这个链接找到它的理由如下: Link

Gemma 3 27B的回复

你可以在这里看看: Link

除了编码题目之外，Gemma 3 也答对了这道题，并且在我说的所有推理题和数学题中表现出色的水平。这真是一个又小又强大的模型。

真的太棒了🤩

Deepseek R1的回复

你可以在这里找到它的解释: Link

在我写的关于Deepseek R1和Grok 3的比较文章中，已经可以看出Deepseek在数学上的表现非常出色，所以我对这个模型充满期待。

跟往常一样，它这次也答对了。它肯定花了些时间思考才得出答案，但它确实给出了答案。

简述:

所有模型在推理和数学方面都表现得非常好。Gemma 3 27B 迅速搞定，另外两个模型 QwQ 32B 和 Deepseek R1 也同样用正确的推理轻松搞定。

2. 字母组合：

问题: 将单词 MATHEMATICS 中的字母排列，使得元音字母必须相邻，有多少种排列方式？

这是经典的数学问题，通常用来询问大型语言模型，让我们看看这三个大型语言模型的表现如何。

QwQ 32B 的回复了

你可以通过这个链接查看它的解释: Link

想了552秒（大约9.2分钟），确实花了那么长时间才想出答案，不过，就像往常一样，它这次也准确地回答了这个问题。

虽然感觉冗长又无聊，但只要能完成任务，那就是优点了。QwQ 32B 模型真的表现得非常扎实，一直碾压所有问题，🔥

Gemma 3 27B的回复

你可以在这里找到解释：Link 或者点击这里查看说明。

真是精准。它快速且准确的回应真是让人惊讶。谷歌在这上面做得真是不错，这无疑是个很好的成果。😵

Deepseek R1回复了

你可以在这里找到它的原因：链接

【Deepseek R1模型对数学问题的回答】(https://imgapi.imooc.com/66b3ee6709e0ae7808000238.jpg)

经过大约132秒（也就是2.2分钟），它找到了答案，再次给出了Deepseek R1的正确答案。

总结:

这次的答案同样显而易见。我们三个模型都完美地回答了，完美地解释和推理。面对这么难的问题，三个模型都给出了非常出色的回答。其中最让我印象深刻的是Gemma 3 27B，真是一个轻量级却非常优秀的模型，真是太给力了！🔥

总结一下

结果非常明确。对我来说，经过所有这些比较，如果我必须选一个模型，还是会选择Deepseek R1。QwQ 32B模型表现非常好，可以说在这次比较中获胜。✅ 似乎其他一些测试模型的人也有类似的想法。

对我来说，Deepseek R1既有平衡的推理，响应时间也快。

尽管 Gemma 3 和 Deepseek R1 在编程问题上没有完全答对，不过它们的整体推理能力非常强。我对 Gemma 3 27B 模型简直是赞不绝口。这真是一款你工具箱里不可或缺的模型。

你觉得呢？说说你的想法吧！👇

Shrijal Acharya

全栈软件开发工程师 • 开源贡献者 • Oppia合作成员 • 欢迎交流合作 https://dev.to/shricodev

點擊查看更多內(nèi)容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學習，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優(yōu)質(zhì)文章

正在加載中

收到一只叮咚

手記
篇

粉絲

22

獲贊與收藏

114

關(guān)注作者，訂閱最新文章

閱讀免費教程

后端通用面試教程

41個小節(jié) 32194 359

網(wǎng)絡(luò)編程入門教程

20個小節(jié) 13289 250

Pandas 入門教程

25個小節(jié) 19885 373

推薦

評論

收藏

共同學習，寫下你的評論



感謝您的支持，我會繼續(xù)努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學

大額優(yōu)惠券免費領(lǐng)

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優(yōu)惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復制

優(yōu)惠券可用于購買實戰(zhàn)課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學習，選課去


第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

?? 三款大模型比拼：QwQ 32B vs. Gemma 3 27B vs. Deepseek R1 效果如何？?

1. 旋转球，上面有字母

2. LeetCode 题目

1. 水果互换

2. 电梯里的女性

1. 钟表指针呈直角问题

2. 字母组合：

閱讀免費教程

?? 三款大模型比拼：QwQ 32B vs. Gemma 3 27B vs. Deepseek R1 效果如何？?