Kagent:當(dāng)AI代理遇上Kubernetes——云原生管理的新利器
照片由 Mohammad Rahmani 拍摄,来自 Unsplash
想象一下这样的场景:凌晨两点,生产数据库出问题了,你被困在多重连接跳转中挣扎,试图在昏暗的灯光下找出问题所在,同时不吵醒宝宝。你急切地在 kubectl 命令、Prometheus 仪表盘和 Istio 配置之间切换,试图拼凑出哪里出了问题,就像在黑暗中寻找光。听起来熟悉吗?如果你像我一样管理过云原生基础设施,你肯定经历过这种情况——你就像在十几个相互连接的系统中当侦探,而时间一分一秒过去,你的服务水平协议(SLA)也在一点一点耗尽。
这一场景完美地印证了我在《AgentOps的时代》中的预言。我们正朝着像生物系统一样的自主代理发展——这些系统能够自我修复和维持,不需要你像摸黑一样在凌晨2点去操作。
图源:kagent.dev
kagent,这是一个开源的代理型AI框架,专为Kubernetes设计,正在将这一愿景变为现实。不再需要你手动在云端原生堆栈中寻找问题,自主代理现在可以处理这些问题,就像侦探一样追踪线索,通过复杂的多步骤问题进行推理和决策,并在没有人类干预的情况下自动采取行动。这不仅仅是自动化升级——这是我们在管理基础设施方面迈出的重要一步。它还有更多潜力。
云原生运营存在的问题云原生生态系统已经变得既美丽又复杂。我们有了Kubernetes来调度容器,Istio来管理服务网格流量,Prometheus来收集指标,Argo来处理部署,还有数十个CNCF项目在堆栈的每一层上工作。每一个都解决了重要的问题,毫无疑问——但它们也创造了一个新的问题:操作复杂性随着添加的每个组件呈指数级增加。以前简单的“systemctl restart”修复现在变得复杂,需要理解应用程序如何跨不同抽象层进行交互,每层都有自己特有的配置语言、调试工具和故障模式,这使得整个系统变得更加复杂。
传统自动化存在不足,因为它执行的是基于已知条件的预定义脚本,是确定性的。但在云原生的问题中,情况很少如此简单。当你的应用程序性能下降时,是否是因为服务间存在网络问题?还是网关配置不当?资源竞争?还是一个依赖关系三级跳后引发的级联故障?你需要能够推理这些场景、形成假设、测试它们,并根据发现的情况调整方法的工具。你需要那种多步骤的问题解决方法,这种问题解决直到现在还需要一个了解所有这些活动部件之间错综复杂关系的人类专家来完成。
Kagent 有何特别之处许多DevOps领域的AI工具本质上不过是高级聊天机器人——它们可以回答关于Kubernetes YAML的问题或解释概念,但实际上并不能做任何事情。Kagent代表了一种根本的转变,即向代理型AI的转变:这些系统使用高级推理和迭代规划来自主解决复杂的多步骤问题。与仅仅告诉你可能的问题不同,Kagent代理可以进行调查,形成假设,测试和实施解决方案。这就像拥有一个知识丰富的顾问和一个可以亲自动手解决问题的专业专家之间的区别。
再次,这与我在《AgentOps的时代》中提到的生物体模型完美契合。就像你的免疫系统中有专门的细胞应对不同的威胁,一些细胞识别问题,一些协调响应,还有一些执行针对性的行动——kagent允许你部署专门的代理,这些代理作为一个协同系统一起工作。监控代理可以检测异常,诊断代理可以找出根本原因,而修复代理可以执行修复,而协调代理则确保它们朝着同一个目标努力,不会相互干扰。
照片由 Carol Highsmith's America 拍摄,来自 Unsplash
三层架构[^1]
[^1] 注:此处“三层架构”指特定的技术架构,通常包括表示层、业务逻辑层和数据访问层。
Kagent 的架构让我想起了一个高效协作的维修团队——每一层都有特定的任务,但它们协同工作无缝衔接,迅速让你回到正轨。基础层是工具,这些工具本质上是代理们用来与你的基础设施互动的扳手和诊断工具。这些不仅仅是简单的 API 调用,而是功能更强大的,类似 MCP 的复杂功能,可以显示 pod 日志、查询 Prometheus 指标、生成 Kubernetes 资源,或者与任何你给它们的原生云系统交互。可以想象,每个代理都能随意使用这些专用工具,有点像外科医生根据不同手术使用不同工具。
代理层是核心——这些是真正能够思考问题并采取行动的自主系统。与遵循固定if-then逻辑的传统自动化不同,这些代理可以制定多步计划,执行任务,分析结果,并根据所学调整方法。它们就像是一支能够独立运作或合作解决复杂问题的专家团队。一个代理可能专门负责网络诊断,而另一个则负责资源优化,但当问题涉及多个领域时,它们也可以协同合作。
框架层通过一个基于微软AutoGen基础的声明性接口将所有组件整合在一起。这是你的控制中心,在这里你可以定义代理,分配工具,并通过UI、CLI或YAML配置来协调它们的活动。它的美妙之处在于其可扩展性;你不会被锁定在一个僵化的框架中。你可以为特定环境创建自定义工具,基于你的运营经验开发新的代理,并且还可以扩展框架本身。这就像一个平台,它会随着你的需求增长,而不是限制你的需求。
真实世界的应用
那么这在实践中会是什么样子?Kagent 配备了代理,可以解决每个 DevOps 团队常见的棘手问题。需要调试为什么你的网关没有正确路由流量吗?有一个代理可以检查你的 HTTPRoute 配置,查看服务端点,并跟踪服务网格中的连接路径。希望使用 Argo 执行渐进式部署而无需监护吗?代理可以监控金丝雀指标,根据性能阈值自动升级或回滚,并处理整个部署生命周期。当 Prometheus 开始发出关于异常资源消耗的警报时,代理可以将这些指标与最近部署的应用相关联,识别根本原因,甚至提出补救措施——所有这些都不需要你在深夜里研究 PromQL 查询。
企业的影响远远超过了仅仅加速解决个别问题。Kagent 让你将团队的操作经验转化为可重复使用的代理,这些代理可以在整个公司内部共享。那个总是能解决 Istio 问题的资深工程师?他们的知识现在可以被封装在一个代理中,供初级工程师使用。不再需要每次事件都依赖专家来处理,你的代理会处理日常问题,而人类则专注于需要创造力和战略思考的真正复杂任务。这就像拥有全天候可用的最佳故障排除专家,但没有工作压力和报警疲劳。
CNCF 的贡献和参与
Solo.io决定将其kagent-CNCF提交给CNCF作为孵化项目——该项目最近已被接受(🎉恭喜!!)——这不仅仅体现了良好的开源精神。这是一个战略举措,认识到kagent有望成为整个云原生生态系统中的基础设施。在中立治理下,该项目可以根据社区需求而非任何单一公司的需求进行演化。这很重要,因为基于Kubernetes的代理式AI已从Solo.io的愿景演变成为云原生大规模采用管理复杂性的基本需求。
这真是令人惊讶——社区的反响真是令人印象深刻。自首次公告以来的几周内,kagent 在 GitHub 上获得了超过 817 颗星,吸引了超过 400 名 Discord 用户,并合并了来自贡献者的众多拉取请求。当一个项目真正触及到痛点时,你就能看到这种有机增长。未来的路线图将重点放在生产就绪的代理系统所需的关键要素上:增强的可观测性,处理 AI 代理非确定性特性的稳健反馈和测试体系,以及扩展运行时功能,如多代理协调和对更多 LLM 提供商的支持。很明显,社区认识到 kagent 是一种新的云原生基础设施操作方式的基础,同时还具有许多其他应用场景的优势。
这对未来很重要
Kagent 证明了我在《AgentOps 时代》中描述的未来,远远超出了 DevOps 工具箱中的又一个酷工具。我们正在见证从反应式基础设施操作向真正自主系统转变,这些系统能够预判、诊断并解决无需人工干预的问题。就像我预测的那样,我们正在从羊到牧羊人的模型转变,其中 DevOps 工程师不再管理单个服务器,而是开始调度智能代理的舰队。Kagent 已经证明我们已经跨越了从自动化到自主的门槛,从确定性脚本到能够应对新情况的推理系统。
它代表了超越基础设施即代码(IaC)的下一步进化。IaC 让我们声明所需的系统状态,并使系统符合这一状态,但 kagent 进一步提供了能够理解这种状态、判断何时有问题发生并采取纠正行动的代理,而无需等待人类指令来采取行动。我们正在从“基础设施按照我们的指示行事”到“代理理解我们想要实现的目标”。这种从被动应付到主动解决问题的转变正是云原生时代区分成功组织与勉强生存组织的关键所在。
开始
准备好动手了吗?了解 kagent 的潜力最好的方式就是亲自动手,构建一个实际项目。最近,我与 Peter Jausovec,Solo.io 的高级技术营销经理,合作进行了一场直播,我们在直播中从零开始构建了一个 Terraform 代理——你可以在这里观看完整回放,看看实际操作中代理是如何构建的。或者,如果你想立即开始尝试,kagent 的快速入门指南可以在几分钟内让你在 Kubernetes 集群中运行 AI 代理。
真正的魔法就在你开始为生态系统做贡献的时候。看看工具注册表里都有哪些工具,或者深入GitHub仓库贡献你自己的代理和工具,或者添加新功能。这不仅仅是使用他人的框架——你正在共同构建自主基础设施的未来。你每创建一个代理,每贡献一个工具,每解决一个问题,都在增加集体智能,帮助我们重塑运营云原生系统的方式。AgentOps的时代已经来临,不再是即将到来的事情,而kagent就是你进入这个新世界的钥匙。
供图:感谢 Peter Jausovec 提供图片 Peter Jausovec
我邀请所有读者加入我和Peter一起的AIRE框架构建直播系列的第二部分。我们将创建一个结合了Terraform AI代理和GitHub MCP服务器的IaC代理,这将使我们能够生成Terraform配置并自动在GitHub上创建PR,从而让我们更高效地工作。您可以在示例代理仓库中查看我们所有的工作——如果您想了解这些概念的实际操作,这绝对值得一看。
基于专家建议的翻译应为:# 作者简介杰森·T·克拉克是Craine Technology Labs的创始人。在基础设施自动化和云计算领域拥有超过20年的经验。亲身经历了从裸机到容器化的转变后,他现在专注于代理智能(Agentic AI)领域的革命——在这个领域,自主代理能够协作管理基础设施,几乎不需要人工干预。他的近期工作包括《代理运营时代》(The Age of AgentOps)一书以及为采用代理系统的组织编写实施指南。
杰森觉得我们还需要大约24到36个月,自主代理才会变得非常普遍,到时候企业的运作方式也会发生根本性的变化。
了解更多关于代理人工智能和人格化用户界面,请访问Craine.io。
共同學(xué)習(xí),寫下你的評(píng)論
評(píng)論加載中...
作者其他優(yōu)質(zhì)文章