第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機立即綁定

?? 三款大模型比拼:QwQ 32B vs. Gemma 3 27B vs. Deepseek R1 效果如何??

今年3月发布了几款新的开源模型,有几款分别是阿里的QwQ 32B模型和谷歌的新Gemma 3 27B模型,据说其中两款分别是这些模型,据说它们都很擅长推理。🤔

我们来比较一下这些模型,并看看它们与一个优秀的开源推理模型——比如Deepseek R1模型——相比如何。

GIF 火焰GIF

而且,如果你看了我一段时间的帖子,你知道我不会同意那些基准测试,直到我自己测试过! 😉

太长不看

如果你只想看结论,与这三个模型相比,答案并没有其他博客文章那么明确,QwQ 在编程方面稍微占优,但另外两个模型的推理能力同样很强。

关于 QwQ 32B 模型的推文

如果是编程的话,推荐使用QwQ 32B型号或Deepseek R1,如果是其他用途,Gemma 3同样很棒,应该能满足你的需求。

QwQ 32B 模型简述

在三月的第一周,阿里发布了这款拥有32B参数的新模型,声称其性能可以与Deepseek R1相媲美,后者拥有671B参数。🤯

QwQ 32B 型号发布的推特

注意:原文链接多了一个字符'0',这里保持一致。如果需要修复链接,请删除多余的'0'。

这标志着他们首次将强化学习(RL)扩展以提升模型的推理能力。

以下是在对比另一个领先模型Deepseek R1时,他们公开了展示QwQ-32B在性能上的基准。

QwQ与其他模型的比较](https://imgapi.imooc.com/3a2f3a6708e0ae6608000451.jpg)

现在这看起来有趣多了,特别是他们还把Deepseek R1(一个大约是他们模型规模的20倍的模型)进行比较呢。

此处省略

Gemma 3 27B型号简介

Gemma 3 是 Google 基于 Gemini 2.0 的新开源模型。虽然它有 4 种不同尺寸(1B、4B、12B 和 27B),但这并不是最令人感兴趣的部分。

据说它是“在单个GPU或TPU上运行的最高效的模型之一”。🔥 这意味着它可以在资源有限的设备上运行。

Gemma 327B 单GPU运行演示图

它支持一个128K的上下文窗口功能,主要针对推理相关的任务,并支持超过140种语言的翻译。

不过,Gemma 3 27B 模型在许多人的不同编码测试中似乎没有那么出色。

Reddit上的AI模型讨论

试试看这到底是不是真的,这个模型推理能力怎么样。

……

编程难题

💁 接下来,我将测试这三个模型在动画制作和一个难题LeetCode上的编码能力。

1. 旋转球,上面有字母

提示: 创建一个使用JavaScript模拟的旋转3D字母球。最接近的字母应该用更亮的颜色(如白色)显示,反之,最远的字母则应显示为灰色。

QwQ 32B 的回复

你可以通过这个链接找到生成的代码: 链接

程序的输出如下:

QwQ给我们的输出简直让人难以置信。从动画效果到字母旋转,再到颜色变换,一切都如我所希望的一样。真是太好了!

Gemma 3 27B的回复

你可以在这里查看它生成的代码:Link

下面是你程序的输出结果:

似乎没有完全按照我的提示来做,确实有些事情发生了。但我要求的是一个3D的球体,结果却出现了一个旋转的带有字母的环。

虽然这个模型编码能力一般,但至少我们还是搞出了点儿能用的。

Deepseek R1:的回复

你可以在这里找到生成的代码:Link

程序的输出如下所示:

它也基本上做对了,并且准确地实现了我的要求。这一点没有疑问,但与QwQ 32B模型相比,整体效果看起来逊色不少。

总结:
简单来说:

在这一部分,毋庸置疑,QwQ 32B 模型无疑是最棒的。它在动画和困难的 LeetCode 题目上的表现都超过了我们的编码测试。尽管将这些小型模型与671B(每查询37B活跃参数)的Deepseek进行比较似乎不太公平,但令人惊讶的是,QwQ 32B 实际上在这里打败了Deepseek R1。

2. LeetCode 题目

对此,让我们快速检查一下 LeetCode 上的题目,用一个超级难的 LeetCode 题来看看这些模型如何解决一个仅 14.4% 的接受率的难题:强密码检查器

鉴于这是个难题,我对这三个模型几乎不抱什么希望,因为它们没有像Claude 3.7这样的代码模型那么好。

如果你想看看Claude 3.7和其他顶级模型如Grok 3o3-mini-high的对比,可以看看这篇博客文章哦。

Composio ## Claude 3.7 Sonnet、Grok 3 和 o3-mini-high:代码对比 Shrijal Acharya 编写 ・ 2月27日 #javascript #python #ai #开源

    提示:

    如果密码满足以下条件,则认为它是强壮的:

    - 至少包含6个字符,但不超过20个字符。
    - 至少包含一个小写字母,一个大写字母,以及一个数字。
    - 不包含连续的三个相同的字符(例如,“Baaabb0”是弱密码,而“Baaba0”是强壮密码)。

    给定一个字符串密码,返回使密码强壮所需的最小步骤数。如果密码已经是强壮的,则返回0。

    在一步操作中,你可以做以下任一操作:

    - 在密码中插入一个字符,
    - 从密码中删除一个字符,或
    - 用另一个字符替换密码中的一个字符。

    示例 1:

    输入:password = "a"
    输出:5

    示例 2:

    输入:password = "aA1"
    输出:3

    示例 3:

    输入:password = "1337C0d3"
    输出:0

    约束条件:

    1 <= password.length <= 50
    密码由字母、数字、点 '.' 或感叹号 '!' 组成,不包括其他特殊字符。

切换到全屏,退出全屏

QwQ 32B 的回复

你可以在这里查看它生成的代码:查看代码

靠,竟然做对了。更厉害的是,还能在O(N)的时间复杂度里写出整个代码,这也达到了预期的时间复杂度要求。

如果非要比较代码质量,我会说质量还行。不仅代码好,所有内容都记录得很清楚。因此,这个模型潜力很大。

尽管思考花费了很长时间,但真正重要的是实际可行的答案。

来自QwQ32B题的LeetCode题目

Gemma 3 27B:回复

这里可以找到生成的代码:Link

好吧,Gemma 3 在这里就有点不行了。它通过了 39/54 个测试案例,但这点缺陷甚至没有起到帮助。还不如根本不要生成代码,写得烂有什么用呢。🤷‍♂️

但考虑到这一点,这个模型是一个开源模型,只有270亿个参数,并且运行在单个GPU或TPU上,这也值得我们考虑。

来自Gemma 27B 测试的LeetCode问题回复

Deepseek R1 的回应

我对这个问题几乎不抱任何希望这个模型能成功。在我之前的测试中,当我比较Deepseek R1和Grok 3时,Deepseek R1表现得非常糟糕。如果你想看看的话,

Composio ## Grok 3 与 Deepseek r1 的深度对比分析 Shrijal Acharya 供 Composio ・ 2021 年 2 月 #AI #开源 #效率 #互动讨论

你可以在这里查看它生成的代码:链接

挺酷的,它几乎通过了51/54个测试。但是哪怕只有一个测试用例失败,提交就会被判错,所以对Deepseek R1来说,运气不怎么好。

Deepseek R1测试中的LeetCode题目回答

总结:

结果在比较这三个模型处理两个编码问题时非常明确。QwQ 32B 模型显然赢了 🔥,虽然Gemma 3 27B 尽力了,但绝对不适合用来做高级编码。至于Deepseek,也没什么好说的,虽然它表现平平,但对于大多数基本到中级的编码问题还是能应付的,我自己每天也在用这个模型。

此处省略

推理问题

在这里,我们可以检查一下两个模型的推理能力怎么样。

1. 水果互换

我们先来一个简单的问题(一点也不难),这个问题需要一点常识来解决。看看这些模型是否也具备常识。

我只是想看看模型是否只会解析需要解析的内容,只进行必要的推理,就像问10000*3456*0*1234的结果一样。🥱

提示: 你一开始有14个苹果。你掉了7个后捡起4个。Leo拿走了4个,但给了你5个。你从Emma那里拿走一个苹果,用它换来了Leo的三个苹果,然后把这三个苹果给了Emma,Emma给了你一个苹果和一个橙子,然后。Zara拿走了你的一个苹果,给了你一个梨,然后。你用梨换了Leo的一个苹果,然后。之后,Zara用一个苹果换了她的橙子,然后把橙子和你换了一个苹果。你现在有几个梨?

你看,我们提供了所有不必要的背景,比如苹果和橙子,而真正的问题是关于梨的。但在最后,只提到一笔交易,结果我们一无所有,没有得到任何梨。

QwQ 32B 说:

详细解释在这里: Link

QwQ 32B模型的推理问题回答

正如我所料,它似乎完全缺少了这一点。😮‍💨 真是的,它算了172秒(约2.9分钟),把那些苹果和橙子的计算都搞定了。这确实让我很失望,来自QwQ 32B。

Gemma 3 27B 的回复

你可以请见此处的它的理由: 链接

推理问题的回答 推理问题的回答

只需要几秒钟,它就能算出所有情况并给出总的梨的数量。这里也没什么好埋怨的。

回复非常快,这个模型真的让我印象深刻。

Deepseek R1:回答

你可以在这里找到它的解释: Link

来自Deepseek R1模型的推理问题回复

它想了一分钟左右,找到了答案。虽然预料它会给出正确的答案,但我只是想看看它能否直接回答我提出的问题,而不是去做那些多余的苹果和橙子的计算。可惜,它也没能做到。

总结:

说实话,这个问题,我并不是真的在寻找正确答案,甚至一个一年级的小学生都能回答。我只是想看看这些大型语言模型(LLM)是否能够过滤掉所有不必要的细节,只回答所需问题,但可惜的是,它们全都失败了,真是。即使我在问题后面加上了这句话:“只回答问题本身。” 😮‍💨 实在令人失望。

2. 电梯里的女性

提示: 一个秃头瘦弱的女人住在第78层。天晴的时候,她乘电梯到第67层,然后走上去。在雨天时,她直接坐电梯到她家。她为什么在下雨天直接坐电梯到她家呢?

这个问题有点棘手,因为我包含了一些不必要的细节,让LLMs难以注意到,使它们不容易轻易找到答案。答案是这位女士个子矮,夏天够不到电梯按钮,但她带着伞,可以用伞按高一点的电梯按钮。

这个答案跟她是不是光头或者骨感没有关系啦。 🥴

QwQ 32B 的回复

你可以在这里看看它的解释:Link

QwQ 32B模型的推理问题回答

在这里花了足足311秒(大约5.2分钟),我花了一段时间才弄明白这跟她秃头且瘦有什么关系,但最后我还是特别佩服这个回应。

它真的是如何解释其思维过程的,非常棒。你也来看看。

说起来,QwQ 32B 确实说得对,解释得非常到位。✅

Gemma 3 27B的回复:

你可以在这里查看点击这里:Link,理由如下。

【Gemma 3 27B模型的推理问题回答】

我被Gemma 3模型的表现惊到了,几秒钟内就给出了正确结果。它在解决推理任务时表现得非常出色。到目前为止,我对这个谷歌开源模型非常满意。🔥

Deepseek R1的回复

你可以在这里找到这个链接里的原因:Link

Deepseek R1模型的回答

我们知道Deepseek在推理任务上很厉害,所以它答对了也不奇怪。

想出答案确实花了一点时间,大约思考了72秒(约1.2分钟),不过每次我都很喜欢这个思考过程。

真的很难理解这和那个女人秃头又瘦有什么关系,但是,嘿,这就是我加入这个内容的原因。🥱

Deepseek R1 对问题的回答

以下为摘要:

毫无疑问,这三个模型都非常擅长处理推理问题。我特别喜欢QwQ 32B和Deepseek R1模型解释它们的思考过程,还有Gemma 3回答问题的速度特别快。这三个模型都得了满分10/10,因为它们都能准确找到答案✅,不过QwQ 32B有时候推理会显得有些多余。🤷‍♂️


数学题目

💁 查看了看这三个模型的所有推理题答案后,我觉得这两个模型的也能通过数学题。

1. 钟表指针呈直角问题

提示: 在5:30和6:00之间,钟表的时针和分针什么时候会成直角?

QwQ 32B 的回复

你可以通过这个链接找到它的理由如下: Link

QwQ 32B模型对数学问题的回答

Gemma 3 27B的回复

你可以在这里看看: Link

数学问题的答案来自Gemma 3 27B模型

除了编码题目之外,Gemma 3 也答对了这道题,并且在我说的所有推理题和数学题中表现出色的水平。这真是一个又小又强大的模型。

真的太棒了🤩

Deepseek R1的回复

你可以在这里找到它的解释: Link

Deepseek R1模型对数学问题的回答

在我写的关于Deepseek R1和Grok 3的比较文章中,已经可以看出Deepseek在数学上的表现非常出色,所以我对这个模型充满期待。

跟往常一样,它这次也答对了。它肯定花了些时间思考才得出答案,但它确实给出了答案。

简述:

所有模型在推理和数学方面都表现得非常好。Gemma 3 27B 迅速搞定,另外两个模型 QwQ 32B 和 Deepseek R1 也同样用正确的推理轻松搞定。

2. 字母组合:

问题: 将单词 MATHEMATICS 中的字母排列,使得元音字母必须相邻,有多少种排列方式?

这是经典的数学问题,通常用来询问大型语言模型,让我们看看这三个大型语言模型的表现如何。

QwQ 32B 的回复了

你可以通过这个链接查看它的解释: Link

QwQ 32B模型的数学回答

想了552秒(大约9.2分钟),确实花了那么长时间才想出答案,不过,就像往常一样,它这次也准确地回答了这个问题。

虽然感觉冗长又无聊,但只要能完成任务,那就是优点了。QwQ 32B 模型真的表现得非常扎实,一直碾压所有问题,🔥

Gemma 3 27B的回复

你可以在这里找到解释:Link 或者点击这里查看说明。

来自Gemma 3 27B模型的数学问题答案

真是精准。它快速且准确的回应真是让人惊讶。谷歌在这上面做得真是不错,这无疑是个很好的成果。😵

Deepseek R1回复了

你可以在这里找到它的原因:链接

【Deepseek R1模型对数学问题的回答】(https://imgapi.imooc.com/66b3ee6709e0ae7808000238.jpg)

经过大约132秒(也就是2.2分钟),它找到了答案,再次给出了Deepseek R1的正确答案。

总结:

这次的答案同样显而易见。我们三个模型都完美地回答了,完美地解释和推理。面对这么难的问题,三个模型都给出了非常出色的回答。其中最让我印象深刻的是Gemma 3 27B,真是一个轻量级却非常优秀的模型,真是太给力了!🔥


总结一下

结果非常明确。对我来说,经过所有这些比较,如果我必须选一个模型,还是会选择Deepseek R1。QwQ 32B模型表现非常好,可以说在这次比较中获胜。✅ 似乎其他一些测试模型的人也有类似的想法。

转发QwQ 32B 美眉

对我来说,Deepseek R1既有平衡的推理,响应时间也快。

尽管 Gemma 3 和 Deepseek R1 在编程问题上没有完全答对,不过它们的整体推理能力非常强。我对 Gemma 3 27B 模型简直是赞不绝口。这真是一款你工具箱里不可或缺的模型。

你觉得呢?说说你的想法吧!👇

shricodev 图片

Shrijal Acharya

全栈软件开发工程师 • 开源贡献者 • Oppia合作成员 • 欢迎交流合作 https://dev.to/shricodev

點擊查看更多內(nèi)容
TA 點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優(yōu)質文章

正在加載中
  • 推薦
  • 評論
  • 收藏
  • 共同學習,寫下你的評論
感謝您的支持,我會繼續(xù)努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優(yōu)惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網(wǎng)微信公眾號

舉報

0/150
提交
取消