第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時(shí)綁定郵箱和手機(jī)立即綁定

Gemini 1.5和OpenAI模型在復(fù)雜推理題上的較量:IQ和SAT數(shù)學(xué)題測試

更新于2024年11月14日,使用Gemini Experimental 1114版本,解决了更多一个问题。

这周人工智能界又忙得不可开交,尤其是OpenAI发布了其o1模型,该模型以先进的推理能力著称,并在编程和数学方面表现出色,特别是在代码和数学计算方面(链接)。谷歌也不甘示弱,最近曝光了自家的模型(目前尚未公开),这些模型在数学奥林匹克问题上的表现据称已经达到了人类水平(链接)。看来这两家公司正在激烈竞争,争夺这个迅速发展的领域的领先地位。

双子星1.5 vs. ChatGPT 4 vs. 开源o1

我看了一个视频,视频通过应用自定义提示,将ChatGPT 4和OpenAI o1进行了对比,以对ChatGPT模型进行深度分析。

观看并进行比较确实很有趣,而且很有启发性。现在的问题是看看 Gemini 1.5 在其最新版本中能取得什么样的表现。我使用了 Gemini 1.5 Pro 和 Flash 版本 0827,并用条件输出提示进行了测试。

双子星 1.5 Pro 带有上下文中的思考链提示版本

为了使其更具挑战性,我还测试了不使用链式思考(COT,即chain-of-thought)的Gemini 1.5 Pro。

你可以在这里找到IQ测试题 here,而SAT数学题则可以在这里找到 here

结果

Gemini和OpenAI模型的推理题结果

智力题5

这个问题挺有意思的。在视频里,OpenAI的模型给出的答案都不对,但Gemini 1.5 Pro和Flash回答得很准确。在我进行的测试中,我多次询问了这个问题,发现Gemini有一次回答的是“C. 海豚”。这让我有点意外,我还试了直接调用ChatGPT 4o API的情况,当我把温度设置为0.5时,API给出了正确的答案。

我的几点心得
1 这篇文章没有任何科学测试支持。就像视频中展示的那样,Gemini今天在这些问题上会比OpenAI的模型有更好的结果。
2 双子座模型真的被低估了。虽然作为一名Google Workspace的GDE,我自然更关注Google的模型,但这次测试进一步证实了我之前的想法,那就是它们的确很令人印象深刻。
3 智力测验问题5的例子说明了即使是细微的模型调整也会显著影响结果。一个错误的答案可能通过调整变为正确,因此不断探索改进的方法并质疑模型的回答非常重要。
4 对双子座的测试引发了关于其实际效果的问题。无论是否使用带有上下文的链式思维提示,双子座的总体测试结果都相同,但使用该提示可以提供更详细的答案。
5 这项测试并不评估答案的质量;它只是一个选择题测试。在检查双子座的答案是否符合测试标准时,它得到了8分(满分10分)。
6 双子 1.5 版表现出了与 OpenAI 模型相当的强大性能。然而,正如谷歌所强调的,双子 1.5 Pro 在处理高级任务和进行推理方面表现出色。
點(diǎn)擊查看更多內(nèi)容
TA 點(diǎn)贊

若覺得本文不錯(cuò),就分享一下吧!

評論

作者其他優(yōu)質(zhì)文章

正在加載中
  • 推薦
  • 評論
  • 收藏
  • 共同學(xué)習(xí),寫下你的評論
感謝您的支持,我會(huì)繼續(xù)努力的~
掃碼打賞,你說多少就多少
贊賞金額會(huì)直接到老師賬戶
支付方式
打開微信掃一掃,即可進(jìn)行掃碼打賞哦
今天注冊有機(jī)會(huì)得

100積分直接送

付費(fèi)專欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與 放棄機(jī)會(huì)
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號

舉報(bào)

0/150
提交
取消