自Nova Act SDK宣布以来,已经过去了一周多一点的时间了,目前该SDK仍处于研究预览阶段(仅限美国)。我利用午餐时间,看看自己能在多短时间内上手操作。跟我一起往下看,看看我能在这大约一个小时里做到什么程度 🙈。
设置环境你可以先通过你的Amazon账号(就是你用来购物的那个 📦,而不是你的AWS账号)申请访问Nova。如果你没有立即获得访问权限,可能需要等待一段时间,所以请留意你的邮箱。
获得访问权限后,请前往“-Nova Act SDK-”(https://nova.amazon.com/act?trk=6e6eadd1-6cc9-4873-a34d-5f591ab28643&sc_channel=el)。你会看到有三步要完成:安装SDK,设置API密钥,并查看第一个工作流示例,。
如图所示,Nova Act SDK 设置界面截图
我查看入门指南以了解如何与SDK交互及身份验证的方法。
_⚠️ 我在这里使用API密钥作为环境变量时遇到了一些小问题。想着能提前解决这些问题,我创建了一个.env文件来存放API密钥,希望VSCode项目能够读取它,但这样仍然会出错。TL;DR- 只需在启动终端会话之前执行
export NOVA_ACT_API_KEY="你的API密钥"
,SDK就会很高兴了。以下是我一直遇到的错误信息。_
你可以在 Python 脚本中使用这个 SDK,或者直接在终端中使用标准的 Python shell。
示例说明我现在正在把日语当作一种业余爱好来学习,为了在下个月的旅行中更自在一些,我想试试让Nova Act帮我做些带有音标的平假名闪卡(Duolingo还不够用,真是心累 😭)
我的第一次尝试是这样:
导入 NovaAct 从 nova_act
with NovaAct(starting_page="https://www.google.com") as nova:
nova.act("搜索带有音标的 日语平假名闪卡,找到可以清晰打印的那种。")
进入全屏模式。退出全屏。
这引导代理来到谷歌,它搜索我输入的查询,然后打开第一个网页结果,即为Quizlet。一切进展顺利。我看到代理在我的终端中描述了它的思考过程,并开始在网站上查找打印按钮。
当它这样做时,会出现一个弹窗验证码,要求点击确认是人类,这在第一次使用Nova Act时感觉特别滑稽。现在,事情有点跑偏——Nova Act理解有弹出窗口的存在,但它卡住了,无法跳出循环,也无法继续操作页面。我等了几秒钟,还是退出了脚本。
💡 所以,这里的第一课来了——有些网站确实能检测到使用代理,这种行为目前会让Nova Act失效(除非你有巧妙的方法……而在这次快速的小技巧中我没有 😄)
我对如果我让它避开其他网站,直接访问谷歌图片是否能得到更好的结果很好奇。
尝试二如下所示
导入 NovaAct 从 nova_act
with NovaAct(starting_page="https://www.google.com") as nova:
nova.act("搜索带有音标的日语平假名闪卡的 google 图像。找到用于学习的日语平假名闪卡,这些适合打印。")
点击全屏切换。点击退出全屏。
这方法不错,只是我忘记给它一个具体的指令,让它在找到图片标签时做具体的事情,所以它会一直滚动,直到我停止脚本。
这第三次看起来是这样的:
from nova_act import NovaAct
with NovaAct(starting_page="https://www.google.com") as nova:
nova.act(
"搜索包含日语平假名带声调符号的闪卡的 Google 图片,然后右键点击一张图片,在弹出的菜单中选择 '在新标签页中打开图片'。"
)
进入全屏模式/退出全屏模式
我花了三十多分钟试图操作Nova Act,让它执行右键点击以打开上下文菜单,但没找到方法。
学到的东西虽然可以访问网页的代理很有前景,但和大多数代理或AI自动化的难题一样,找到正确的指令来让模型执行你的任务仍然具有挑战性。我本希望通过这个例子完成更多任务,但不愿意花更多时间让模型明白一个对人类来说如此简单的概念,比如右键点击 🖱️
敬请期待更多内容,因为我将继续调整Nova Act(也许我会回来完成这个示例……)
(附注:我已经向Nova Act团队报告了这个缺失的菜单选项的问题!PFR正在开发中 锤子))
更多资源 📚
共同學(xué)習(xí),寫下你的評論
評論加載中...
作者其他優(yōu)質(zhì)文章