Gemini 1.5和OpenAI模型在復(fù)雜推理題上的較量：IQ和SAT數(shù)學(xué)題測試

標(biāo)簽：

算法人工智能數(shù)學(xué)

更新于2024年11月14日，使用Gemini Experimental 1114版本，解决了更多一个问题。

这周人工智能界又忙得不可开交，尤其是OpenAI发布了其o1模型，该模型以先进的推理能力著称，并在编程和数学方面表现出色，特别是在代码和数学计算方面（链接）。谷歌也不甘示弱，最近曝光了自家的模型（目前尚未公开），这些模型在数学奥林匹克问题上的表现据称已经达到了人类水平（链接）。看来这两家公司正在激烈竞争，争夺这个迅速发展的领域的领先地位。

双子星1.5 vs. ChatGPT 4 vs. 开源o1

我看了一个视频，视频通过应用自定义提示，将ChatGPT 4和OpenAI o1进行了对比，以对ChatGPT模型进行深度分析。

观看并进行比较确实很有趣，而且很有启发性。现在的问题是看看 Gemini 1.5 在其最新版本中能取得什么样的表现。我使用了 Gemini 1.5 Pro 和 Flash 版本 0827，并用条件输出提示进行了测试。

双子星 1.5 Pro 带有上下文中的思考链提示版本

为了使其更具挑战性，我还测试了不使用链式思考(COT，即chain-of-thought)的Gemini 1.5 Pro。

你可以在这里找到IQ测试题 here，而SAT数学题则可以在这里找到 here。

结果

Gemini和OpenAI模型的推理题结果

智力题5

这个问题挺有意思的。在视频里，OpenAI的模型给出的答案都不对，但Gemini 1.5 Pro和Flash回答得很准确。在我进行的测试中，我多次询问了这个问题，发现Gemini有一次回答的是“C. 海豚”。这让我有点意外，我还试了直接调用ChatGPT 4o API的情况，当我把温度设置为0.5时，API给出了正确的答案。

我的几点心得

1 这篇文章没有任何科学测试支持。就像视频中展示的那样，Gemini今天在这些问题上会比OpenAI的模型有更好的结果。

2 双子座模型真的被低估了。虽然作为一名Google Workspace的GDE，我自然更关注Google的模型，但这次测试进一步证实了我之前的想法，那就是它们的确很令人印象深刻。

3 智力测验问题5的例子说明了即使是细微的模型调整也会显著影响结果。一个错误的答案可能通过调整变为正确，因此不断探索改进的方法并质疑模型的回答非常重要。

4 对双子座的测试引发了关于其实际效果的问题。无论是否使用带有上下文的链式思维提示，双子座的总体测试结果都相同，但使用该提示可以提供更详细的答案。

5 这项测试并不评估答案的质量；它只是一个选择题测试。在检查双子座的答案是否符合测试标准时，它得到了8分（满分10分）。

6 双子 1.5 版表现出了与 OpenAI 模型相当的强大性能。然而，正如谷歌所强调的，双子 1.5 Pro 在处理高级任务和进行推理方面表现出色。

點(diǎn)擊查看更多內(nèi)容

為 TA 點(diǎn)贊

若覺得本文不錯(cuò)，就分享一下吧！

評論

評論

共同學(xué)習(xí)，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優(yōu)質(zhì)文章

正在加載中

米琪卡哇伊

手記
篇

粉絲

4

獲贊與收藏

31

關(guān)注作者，訂閱最新文章

閱讀免費(fèi)教程

Python 算法入門教程

15個(gè)小節(jié) 29441 1131

算法入門教程

15個(gè)小節(jié) 33243 694

后端通用面試教程

41個(gè)小節(jié) 32194 359

推薦

評論

收藏

共同學(xué)習(xí)，寫下你的評論



感謝您的支持，我會(huì)繼續(xù)努力的～

掃碼打賞，你說多少就多少

贊賞金額會(huì)直接到老師賬戶

支付方式

打開微信掃一掃，即可進(jìn)行掃碼打賞哦

今天注冊有機(jī)會(huì)得

100積分直接送

付費(fèi)專欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與放棄機(jī)會(huì)

點(diǎn)擊
抽獎(jiǎng)

慕課手記新用戶專享福利

恭喜你，你的運(yùn)氣太好了，居然抽中了 100個(gè)積分！

恭喜你，抽中了價(jià)值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標(biāo)、機(jī)械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優(yōu)惠券
在等著你去兌換了噢

作者：

免費(fèi)贈(zèng)送

兌換碼：1111222211 復(fù)制

優(yōu)惠券可用于購買實(shí)戰(zhàn)課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學(xué)習(xí)，選課去


第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

Gemini 1.5和OpenAI模型在復(fù)雜推理題上的較量：IQ和SAT數(shù)學(xué)題測試

閱讀免費(fèi)教程