AI代理和AI助手:哪種更適合解決你的問(wèn)題?
哪些代理AI的特点真正重要?现在的大型语言模型能否很好地支持这些特点?还有哪些实际问题需要AI代理来解决?
今天,“AI智能体”一词常被用来形容几乎任何能为个人完成智能任务的AI程序或应用。然而,真正的AI智能体——目前仍然不多——与常见的AI助手有着明显的不同。
本文中,我将专注于个人用途的AI应用,而不是团队或组织中使用的AI。在这个领域,最接近AI代理的并非“助手”,而是“副驾驶”。
AI代理和其他AI工具有什么不同?一起来澄清共驾系统与助手之间的区别,了解它们的定义并比较它们之间的差异……ai.gopubby.com下面是有些基本的区别:
(根据提供的专家建议,更改为:“下面是一些基本的区别:”,以确保简洁流畅并符合口语化风格。)
最终翻译如下:
下面是一些基本的区别:
- AI副驾设计用于接管日常任务,发现并解决问题,并为用户提供具体的解决方案。
- AI代理的功能比副驾更全面。它们具有更大的自主性,并与外部环境互动更多,而与用户互动较少。
在第一节中,我将更深入地探讨AI副驾(助手)与AI代理的区别。提示:这并不是逻辑推理。之后,我将简要回答两个关于完全成熟的AI代理的问题,分别是:
- 仅仅依靠推理够使AI代理真正意义上的全能吗?(理论方面)
- 目前市面上有哪些AI代理可用?(实际应用)
在此基础上,在第四节中,我将列举最适合应对各种挑战的AI工具的重要标准。
1. 相比AI副驾,AI代理助手能做些什么? AI 小伙伴TL;DR : 当谈到深入研究时,AI助手确实非常必要。然而,对于许多其他任务类型——尤其是购物——AI助手相较于AI代理的优势非常值得商榷。
AI副驾是AI助手的一个高级子集。与传统助手不同,副驾通过利用更广泛的上下文感知和长期记忆提供智能建议。在这方面,ChatGPT已经像一个“副驾”一样运作,尽管它在决定记住什么方面还有改进的空间。
另一个与AI副驾驶相关的关键特性——即ChatGPT中缺失的是主动行为。
例如,一个AI助手可以根据用户的常见请求生成智能建议。它根据许多用户行为的模式“学习”哪些请求通常会跟随其他请求(通常通过上下文学习,而微调是可选的)。此外,它可以记住该用户的过去请求。通过分析其记忆和当前对话上下文,助手会在恰当的时候提出相关建议。
似乎由于这些特性,AI副驾会主动行动,仿佛能‘预测’用户的需求。
AI副驾可以积极行动;不过,它的活动范围仅限于特定的应用程序。
与可以在其广阔环境中执行实际操作的AI代理不同,AI副驾驶通常仅限于向用户发送消息。然而,AI副驾驶背后的LLM调用相比那些明确请求,总能收到回复的AI助手的LLM调用,引入了一种新的“魔法”体验。
要了解AI助手的具体例子,可以看看这篇文章。
AI代理程序和推理能力在个人场合里,AI助手就像是你的智能伙伴,不过它至少具备三种额外功能中的一个。
- 自主性。 一个AI代理可以不依赖直接的人类指导而运行。然而,当今大多数AI代理是半自主的,这意味着它们只有在满足某些条件时才会独立行动。人类的指导也可以被看作是一种工具的使用,这意味着带有“人在回路”模式的半自主代理与完全自主代理类似。
- 环境互动。 一个AI代理必须具有传感器来感知其指定的环境。例如,OpenAI Operator 设计有基于截图的“视觉”技术,专门用于网页浏览。此外,AI代理还应该能够利用工具执行操作,比如点击网页上的按钮或与计算机上的各种应用程序进行交互。在这种情况下,代理代表用户在浏览器或操作系统中执行操作,前提是用户已经授权其进行这些操作。
- 目标导向行为。 这种能力使AI代理能够通过制定计划并把目标分解成可执行的任务,从而实现高层次的目标。
推理和自我监控是大型语言模型的关键功能,能够支持目标导向的行为。目前,所有主要的语言模型提供商都在努力增强这些功能。OpenAI的o1和o3模型是已知最早的推理模型,而自从2025年1月开始,这一领域的竞争正在以惊人的速度加快。
- DeepSeek R1 最近在推理能力方面成为一个强劲的竞争对手,
- Google 最近发布了 Gemini 2.0 闪电思考,
- xAI 随后发布了 Grok 3,同样具备强大的推理能力,
- Claude 最近发布了一个混合 Sonnet 3.7 模型,其中 思维可以根据推理预算进行调整。
人工智能行业的进步历程中,有一种特有的节奏。我们已经习惯了渐进式的发展……
截至2025年3月初,Grok 3和Gemini 2.0闪电思考在LMArena排行榜上名列前两名,排名是根据用户评估(两两比较)按Elo评级系统计算的。
来源:lmarena.ai,任务简介,按排名顺序,2025年3月2日
所以,先进AI代理崛起的一个重要因素已经到位:市场上已经充斥着各种推理大模型,竞争正促使这些模型迅速进化。但这是否就是最关键的因素?
什么让AI代理与众不同在我看来,上述提到的特征并非全部都是真正让AI代理与众不同的。
- 推理 通常被认为 是AI代理而非AI副驾的一个标志性特征。
然而,这最终是LLM自身的一项能力,不仅对于代理(决定其行动)至关重要,对于副驾(为其向用户提出的建议做决定)同样重要。因此,不应将推理——包括自我监控在内的——视为AI代理的一个基本特征。 - 另一个常被提及的AI代理特征是它们能够通过工具 在外部环境中采取行动。
然而,许多AI副驾也具备这种能力,但其范围更为有限——一个特定的系统而不是广泛的环境。例如,当用户在一个应用程序或CMS中的网页上编辑文档时,AI副驾不仅提供关于用户修改的反馈,还可以直接在系统内进行修改。 - 同样适用于“传感器”。
在这种情况下,AI副驾不仅观察用户行为,还可以检查整个系统(无论是文档还是网页),并能检测系统的外部更改。
因此,AI副驾(助手)和AI代理人之间的基本区别不在于逻辑推理、行动或传感器本身的,而在于以下两个关键点:
- 一个AI 副驾 缺少自主性,尽管它仍然可以主动行动。相比之下,一个AI 代理 可以在其目标范围内自主运行,这意味着它不仅完成任务,还会根据需要自动生成新的任务以达成目标。
- 一个AI 副驾 在帮助用户在一个 单一系统 内完成 特定 任务时最为有用。例如,在特定编辑器中创建复杂文档,或在特定市场中选择产品。而一个AI 代理 则更为 灵活多变,它可以在一个 更广泛的环境中 运行,这个环境可能跨越多个系统,涉及其他用户,甚至与其他代理合作。
如果一个AI系统被称作特定领域的代理或行业特定的垂直代理,它实际上可能就是一个AI助手。这两种AI的区别正变得越来越模糊。
因此,我将仅将术语“智能体”用于那些高度多功能且多用途的人工智能系统,这些系统没有特定领域的限制。这类智能体包括OpenAI的Operator和Deep Research。
2. 什么样的多功能AI代理需要什么样的智能程度?我来总结一下前一节中的两个主要区别:AI 副驾的可能解决方案相对较少,而灵活的 AI 代理则可以在一个更大的解决方案空间中运作范围更广(这个术语可能有点抽象,表示歉意)。
- 现在的大型语言模型由于上下文窗口的不断扩展和对上下文细节的更好追踪,已经能够应对AI助手这样较小的解决方案空间,成为非常有效的辅助工具。
- AI代理则需要在巨大的解决方案空间中以类似人类的水平运作。目前,大型语言模型尚无法达到这种能力。很可能,通用人工智能将被需要来处理全功能AI代理所需的广泛任务。
由于真正的通用人工智能(AGI)尚不存在,业界正试图通过使用具有推理功能的大规模语言模型(LLM)来构建多功能代理程序。这包括让LLM学会自我验证,探索多种解决方案,并选择最合适的选项。
这些推理能力是否足以让一个AI代理在各种任务中表现得像人类?我对此表示怀疑。在许多真实情况下,人类并不只是通过逻辑推理来解决问题,这样做效率低。
想象一个AI代理就像一个完全没有现实生活经验的人类。它的“系统1”(缺乏由经验塑造的快速直觉思维)不成熟,而是完全依赖于缓慢而费力的“系统2”进行理性的思考。这种思维方式扭曲的代理不太可能与全面发展的人类相比,其成本可能与人类时间的价值相当。
关于通过系统1和系统2的思维来理解AI当你在读一本好书时,你是否曾有过那种“啊哈!”的顿悟时刻?我刚刚经历了一个,特别想分享一下……www.linkedin.com 让人类慢下来思考——而不是AI!更重要的是,我们是否真的希望AI接管我们做所有的事情?一个更具体的问题可能是:
当我们寻求人工智能的帮助来处理任务时,我们有多少次依赖我们缓慢的、分析性的“系统2”(即人类的逻辑思考系统)呢?
我个人觉得很少。实际上,我想委托出去的是那些日常任务,比如写文章或撰写文章,这些任务通常不需要复杂的思考(系统2)。我并不想委托出去的,是思考的过程——比如构思大纲。
那就是为什么我很少需要全自主AI代理。大多数情况下,我只是希望AI能够帮助完成更简单、更具体的任务——这正是智能副驾更适合处理这种任务的原因。
与AI代理不一样,它有其他的特点。
- 通常来说,助手不需要复杂的推理;它内置的LLM功能(尚未完全成熟的“系统1”)足以完成它的任务。
- 助手能够产生高质量的结果,因为它在一个相对较窄的解决方案空间内工作,并且现有的上下文信息已经足够。
然而,并不是每个人都像我一样喜欢深入思考。许多人更愿意将甚至需要系统2级处理的任务交给AI。
这就是为什么在第4节里,我将探讨影响选择代理和副驾的其它因素。但在深入讨论之前,让我们先看看一些真实世界中的AI代理,通过具体示例来说明。
3. 市场上有哪些AI代理可用? 与计算机使用等类似代理的限制OpenAI Operator 可以被视为一个半自动代理,但许多用户注意到它提问过多且需要频繁确认,即使在没有风险的情况下也一样:
“Operator 就像使用巡航控制驾驶汽车 — 偶尔需要手动干预 — 但还远没有达到真正的自动驾驶。”
此外,虽然Operator从技术上说可以与任何网站互动,但实际上它远不是一个全能的解决方案。它在一系列预定义的平台上运行稳定,比如购物和餐厅预订(如Instacart和OpenTable),这些平台的功能已经得到了充分测试。但在这些之外,其表现就不那么稳定了——有时甚至会生成错误甚至完全虚构的数据。
谷歌的Project Mariner项目,旨在为Chrome提供类似功能,目前仍处于封闭测试阶段,尚未对外开放。与此同时,许多人对Claude的消费者产品充满期待,Claude在2024年10月发布了其Claude Computer Use代理的API(该代理基于略有不同的原则)。然而,有一点可以肯定的是,它会比Operator更加“谨慎”,这意味着它不太可能自动帮你发送邮件或在社交媒体上发帖。
因此,浏览器代理至少有两个关键限制:
— 它们只能在特定预设的网站上可靠运行;
— 某些操作被禁止(例如,允许代理程序自动发送电子邮件可能会导致其所有者与他人产生冲突)。
移动代理也面临类似的限制。以Perplexity Assistant为例,这是最早尝试打造一个“多功能性”的移动AI代理之一——它依然仅能在这有限的应用程序范围内代表用户执行操作。
深度研究专家为了突出这种对比,让我们来看看专门用于深入研究的人工智能代理。这一领域最近出现了许多新工具,它们的表现远远超过标准的人工智能网络搜索。
- Perplexity 深度研究 和 开放深度研究平台 都是免费使用的。
- Grok 3 DeepSearch 目前免费提供。
- GPT 研究者 是开源的,但需要 OpenAI API 密钥,这意味着你需要自己支付 API 调用的费用。
- ChatGPT 深度研究现已通过每月 $20 的 Plus 订阅开放。
- Gemini 深度研究可通过 Google One 订阅服务获得。
深入研究现在由perplexity.ai、x.ai、openai.com、gemini.google.com以及其他开源项目支持
这些工具因为高度自主,所以也被看作是人工智能的代理人。
- 它们能推理,把给定的目标拆解成任务,并利用过去的成果来确定新的任务,从而更接近目标。
- 虽然它们灵活性较低且缺少某些功能(比如,在研究中“传感器”并不重要),但在完成特定任务方面表现出色。
在现阶段,还没有真正能自主处理问题的工具能够处理任何问题——即使是在半自主模式下,更不用说完全自主模式了。然而,在特定领域,如深度研究领域中的代理,已经存在非常高效的代理工具。
考虑到这一点,我们将典型的AI应用分为几个类别(应用场景),并对每个类别探讨以下问题。
4. 这些用例是否更适合使用AI助手或副驾?我们来看看三个个人用AI的例子:
- 购物及预订助手: 在设定的预算内找到并购买最佳产品,订购披萨,预订餐厅的桌子,或预订航班和酒店等旅行安排。
- 执行助理: 处理任务,设置提醒,安排预约,回复邮件,以及其他行政事务。
- 研究员: 对复杂主题进行深入研究,用经过事实核查的信息支持论点或撰写报告和文章。
问题在于哪种AI工具最适合每个需求?
比如说,订阅带有Operator代理的ChatGPT Pro(每月200美元的套餐)是否合适?还是使用带有o3-mini推理模型和copilot功能(比如记忆功能和带有预设的自定义GPT系统提示)的ChatGPT Plus就足够了?
选择AI工具的标准在选择AI助手和AI副驾时,至少应考虑以下几点关键因素:
- A. 为AI定义这个问题需要花多少时间和精力?
- B. 您希望将问题解决过程交给AI到什么程度?具体来说,您是否希望在某些中间步骤中保持参与?
- C. 最终结果的质量有多重要,是否需要最优解?
虽然有些人将现有的AI购物解决方案称为智能购物助手,https://www.forbes.com/sites/jasongoldberg/2024/11/22/ai-shopping-agents-are-here-they-will-reshape-retail-and-advertising/,但它们还算不上真正的AI智能助手,因为:
- 他们没有自主权。
- 在多功能性上,他们更受限制。
例如,最早的人工智能购物解决方案之一,如Perplexity的像专家一样购物,作为一个能进行基本推理的助手,用于搜索和选择最佳产品。然而,如果您从其列表中选择一个产品并希望通过一键“使用Pro购买”完成购买,这个功能是否可用取决于卖家是否与Perplexity集成——这不是由人工智能驱动的功能。
这并不意味着我们现在不能建造这种多功能的人工智能。
事实上,有些人已经创建了自己的个人 AI 代理!而且这并不一定需要编写代码——你可以通过将基于 API 的浏览器插件(如 Skyvern)与无需编写代码的自动化平台(如 n8n、Zapier 或 Make.com)集成来创建个人 AI 代理。
这样的 DIY 代理不仅能比市面上的产品更自由,还能更加灵活多变。
我们真的需要代购来购物和类似的任务吗?
我对购物其实不太感冒,但不能否认期待购买能给我们带来愉快的多巴胺释放。而当我们把购物委托给AI代理时,我们就会错过那种快感。相比之下,在购物过程中与AI 副驾互动仍然会带来乐趣。与传统的手动在线购物相比,唯一真正的区别就是时间投入减少了——有了副驾,我们可以灵活掌控花费的时间。
这在假期计划而非仅仅是挑选产品时更为相关。一个AI 助手 可以为你预订“最佳”的航班和酒店。然而,想象一下这些任务只需几分钟而不是几小时就能完成,借助一个AI 副驾。你真的会更喜欢一个完全自主的AI吗?我想不会。对于度假的期待带来的兴奋与我们在规划过程中的积极参与密切相关。
预订过程中最繁琐的部分不是选择选项,而是完成支付过程,特别是那些需要填写表格的票。说起来,由于涉及财务风险,交易本身不应该完全交给AI助手处理。使用AI来填写表格确实很有帮助,但你仍然应该掌握主动权。在这种情况下,使用一个副驾会是更明智的选择。
在这些A-C标准上得分越高,就越有力地支持避免使用AI代理。
在三个因素中,只有评估标准C(实现最优结果的重要性如何)在购物和预订这些场景中,AI代理会更有优势。在这些情况下,AI只是从现有的选项中做选择。因为很多选项已经足够好,选择其实并不那么重要。这就是为什么把决策交给代理来做是合理的。然而,这只有在你对标准B的重视程度不高时才建议这样做——也就是说,你并不特别看重从这个过程中得到的快感。
因此,自主代理并不适合这类任务,即使是半自主代理,也不总是最有效的选择。
更好的方法是直接嵌入到你已依赖的购物和预订平台中的AI副驾。许多拥有数百万用户和雄厚财力的大平台不仅在快速开发自己的AI副驾,而且有些已经推出它们。
比如,使用AI行程规划器,与其他Booking.com的AI功能一起,它可以大幅减少规划时间,同时确保质量和乐趣不减。
用例 2:高管人工智能助手许多管理者和员工都喜欢像对人类助手一样,把诸如安排日程、提醒和回复邮件等例行任务交给个人AI助理,但不用支付高昂的人工费用。
然而,我们目前还没有真正成熟的AI助手,能够轻松处理所有这些任务。这不仅仅是我的个人看法——比如说,可以参考这篇Reddit上的讨论。目前有单独的AI辅助的日程安排工具,以及其他针对不同类型任务的解决方案,但还没有真正全能的“执行AI助手”。
- 一个潜在的“多功能性”选项是 Gemini 高级会员,它可以在 Google 日历和 Gmail 等应用中启用 AI 功能。例如,在 Google 日历中,它可以创建不涉及其他参与者的活动。而在 Gmail 中,它只能以只读方式访问您的收件箱。虽然所有 Gemini 应用都在同一个界面(gemini.google.com)中,但您需要在前面加上 @ 来激活它们,并且它们不能自主调用彼此。
- 另一个选择是 Apple 智慧功能,尽管它甚至更不成熟。它不是一个统一的代理,而是由分散在不同应用程序中的 AI 功能组成。例如,在 iPhone 16 上,其日历功能仅限于 照片转事件功能,这远非革命性的改进。尽管 Siri 仍然可以创建日历事件,这一功能自 GenAI 时代之前并没有太大变化。
有技术背景的人可以使用n8n或Make.com开发自己的定制的AI执行助手,并沿途攻克各种技术难关。
对于其他人来说,唯一的选择是等待谷歌、苹果和微软能够提供功能完备、用户友好的智能助手,这些助手对普通用户来说是安全的,并且可以无缝集成到他们的操作系统中。
根据之前提到的A-C标准,在“日常任务”中,对AI代理和AI助手的需求情况。
A. 解决问题的尝试
首先,完全自主代理可能不是必要,因为个人助手通常执行的任务相对简单,无需进行复杂的推理或创建子任务。然而,在处理大量数据(如“所有最近的邮件”)时,可能需要推理来理解用户请求。在这种情况下,这样的代理会很有帮助,但并不是在所有情况下。
B. 用户在过程中的参与
因为我们不太喜欢参与日常的琐事,从这点来看,代理更适合,相比之下,副驾就不那么合适了。
C. 实现最佳结果的关键点
尽管这些任务相对简单,但犯错的成本却很高。当AI行为影响到他人,比如发送电子邮件或安排日历邀请时,错误就变得尤为严重。这就是为什么现有的AI助手不会独立完成这些操作。也许下一代AI代理能达到超过99.9%的准确率,使其能够可靠地完成这些任务。在此之前,副手仍然是处理你的邮箱和日历的唯一可行选项。
因此,在日程安排、提醒设置和电子邮件管理方面,无论是AI代理还是助手,都无法被视为更优秀。
场景 3:人工智能研究: AI 研究将近30年来,我在不同层面进行了科学研究。我定期为我的课程和文章分析新的专业主题,作为IT经理,我多次评估了最佳软件解决方案,并处理了许多其他类型的研究任务。
不过,我得承认最新的深度学习AI代理比我强——不仅速度快,研究质量也高,尤其是在网上有大量相关资料的情况下。
当然,如果没有额外的提示(例如,额外的提示),AI生成的研究报告往往会偏离主题——例如,它们经常关注一些不重要的细节。尽管如此,我还是决定尽可能多地使用这些工具。
例如,我在上一节所做的初步分析是使用了两个AI助手完成的(如下所示)。虽然我最终重写了他们的大部分结论,但他们找到的相关资料数量远超我用Google搜索到的数量——尽管我在Google上花费的搜索时间比为AI编写详细提示的时间还要长。
非常适合深度研究的一个用户界面。来源:perplexity.ai
Groks 3 深搜:智能报告格式化。来源:x.com/i/grok,该链接指向 Groks 的相关信息。
建议查看第3节中的深度研究代理列表,以及这些工具在不同研究任务中的对比,例如:
我刚用Grok-3、Perplexity和Gemini做了个AI测试,对它们进行了比较——看看哪个聊天机器人更强。我用Claude 3.5 Sonnet策划的五个测试提示进行了测试。www.tomsguide.com从理论上讲,深入研究也可以通过AI 助手来完成。一年前,MaxAI.co曾提供过一个AI驱动的搜索助手,但这个AI助手现在已经不存在了——很可能是因为用户对交互式搜索过程不感兴趣;他们想要的是即时的、现成的结果(“像谷歌,但更智能”)。这也很自然:
_> 从深度研究代理那里获取完整报告,浏览关键来源并略读重要信息,如有需要,再让代理澄清或纠正任何不准确之处,这比直接从深度研究代理那里获取报告方便得多。由于在报告生成的中间阶段并不需要人类的直接参与,因此,这强有力地表明了不建议使用AI副驾或仅仅依靠搜索引擎完成此类任务。
即使一个代理的结论有缺陷,它们仍然很有价值——它们能激发新的思考和问题,邀请辩论 😊——因此,相较于传统的搜索结果,它们更具有价值。基于事实的辩论是最快接近真相的方式之一。
在研究中,基于之前已引入的标准,对 AI 代理人和 AI 副驾的需求。
与购物和日常事务不同,研究中的标准C在取得高分时并不妨碍使用AI 代理。原因在于,大模型通过后训练(RLHF)专门针对研究任务进行了微调。
_> 这使得研究员有时候甚至比人类研究员更加有效。
最后这些AI代理对于讨论的三种用例真的有“问题解决方案契合度”吗?还是说AI助手更符合典型用户的需求?我的见解总结如下表所示:
AI代理和AI副驾:它们如何应对三大挑战,以及市场上有哪些相关工具
面对数百种可用的人工智能工具,常常不知道从哪里开始。希望这次分析能帮助你做出更明智的选择,是否使用半自主的AI代理或专业的AI副驾来提升你的问题解决能力。
_“你应该追求AI员工、AI代理,还是仅仅追求AI驱动的工作流程?”_这是一个对公司来说非常复杂且影响深远的问题,尤其是在应对AI革命时。作为一名专注于B2B解决方案的产品经理,我计划在2025年分享我的研究见解。敬请关注。
这个故事发表在Generative AI。请在LinkedIn上联系我们,并关注Zeniteq获取最新的AI故事。
通过订阅我们的Newsletter和观看我们的YouTube频道,了解最新的生成式人工智能资讯和更新。让我们一起塑造生成式人工智能的未来吧!
共同學(xué)習(xí),寫(xiě)下你的評(píng)論
評(píng)論加載中...
作者其他優(yōu)質(zhì)文章
100積分直接送
付費(fèi)專(zhuān)欄免費(fèi)學(xué)
大額優(yōu)惠券免費(fèi)領(lǐng)