Auto-Analyst 3.0 — 智能數(shù)據(jù)科學(xué)家助手,全新網(wǎng)頁界面更可靠系統(tǒng)
autoanalyst.ai/chat 汽车分析师聊天室
去年,Firebird Technologies 开始研发 Auto-Analyst 这款完全开源的人工智能数据科学家工具。现在我们准备向公众开放新版 Auto-Analyst。我们曾承诺系统会达到的某些标准,我很高兴地宣布,我们兑现了所有的承诺!
- 完全开源,采用高度宽松的许可协议。
- 兼容各种大型语言模型,不同模型间质量和成本会有所不同。
- 您可以使用自己的API,无需支付任何费用。
- 更佳的用户界面,专注于优化数据科学的用户体验。
- 内置安全机制,以提高输出的可靠性。
你可以在这里使用自动分析师
这是一个关于汽车分析的聊天页面: https://www.autoanalyst.ai/chat
操作指南使用这个系统来说非常简单,只需三个步骤。
步骤 1:上传数据集文件(系统设计成可以接受 csv 和 excel 文件 —— 其他数据连接器可根据需要提供)
在聊天框附近,点击附件按钮上传一个csv或excel文件。
步骤2:添加几句描述数据集的描述,然后点击自动生成功能。这会创建一个更易于AI理解的数据集描述,以便系统中的AI代理能够更轻松地处理您的数据。
数据集中显示的弹出信息。如果您给列起一些描述性的名称会很有帮助,比如不要用 variable_x 这样的名称,而使用像 price 例如这样描述性的名称。
建议你先读一下描述,然后在处理数据时尽量减少错误。
第三步:提问。您可以使用@agent_name来提问,向系统中的任意一个代理提问。
- 预处理代理:此代理使用pandas和numpy来清理数据集的。它可以转换数据类型(如有必要),处理缺失值,创建聚合,等等。
- 统计分析代理:它使用statsmodels包执行相关性分析、回归、假设检验和其他统计方法。
- Sk learn代理:此代理应用诸如随机森林和K-均值聚类等机器学习模型。它基于scikit-learn库构建。
- 数据可视化代理:它使用plotly创建可视化,并包含一个检索器,建议每种图表的最佳展示格式。
该系统是模块化的,并且可以根据需求进行扩展,添加更多的代理节点。例如,有营销分析代理程序、量化金融代理程序,甚至是无需编码即可访问 web API 的代理程序。
有兴趣定制符合您需求的解决方案吗?该方案将根据您的具体数据和技术环境量身定制。请通过此链接联系我们:https://www.autoanalyst.ai/contact
你可以让特定的智能代理提出问题
查询结果如下
你也可以直接把查询发给计划者,而不是直接问某个代理(不用写代理名字)。
系统中的代理由调度器自动挑选来执行查询。
一个供营销策划师参考的示例查询。该示例查询基于一个关于页面访问者的营销分析数据集。
规划者选择代理人,并告诉他们该做什么。他们创建各自需要的变量,同时使用每个代理人都需要使用的变量。
每个代理的回答,包括他们的推理过程、相关代码片段和操作摘要。
一个统计分析工具,它会对每个变量进行的统计检验给出结果。
data_viz_agent生成的数据可视化图表
data_viz_agent 的数据可视化
系统可以做计划、执行任务并展示结果。
UI 特性概览:FireBirdTech 已经服务了 13+ 客户,从初创公司到大型跨国企业都有。需要 AI 方面的帮助吗?
我们开发、咨询并执行 AI 相关项目。
这里有一个全面的功能介绍
- 聊天窗口: 用户可以在这里阅读文本回复,查看可视化内容等,这是一个常见的聊天界面。
聊天窗口
2. 代码编辑器: 系统检测代码,并允许用户启用在线IDE来编辑代码。它还具备AI辅助的代码编辑和自动修复功能,同时还具备标准代码编辑器的其他功能。
代码编辑器视图
图 1. AI 编辑功能,类似于 CMD+K。图 2. 自动修复功能,可以自动修正代码中的错误。
3. 分析仪表板(企业功能): 基于角色的管理员仪表板,用于监控请求、成本和模型使用。允许您对某些用户进行限制、授予信用并确保合规。
管理员仪表盘图片
后台特性这里有一些我们后端的功能!
- 模块化的代理系统: 初始的网络应用预置了四个核心编码代理,以及一些辅助代理帮助它们完成任务。然而,该系统是基于DSPy构建的,从而很容易通过定义一个
dspy.Signature
来增加新的代理,比如:
class google_ads_analyzer_agent(dspy.Signature):
"""
### **Google Ads 分析代理定义(定义)**
作为多代理营销优化管道中的 **Google Ads 分析代理**,你负责根据用户定义的目标和结构化计划指令,**分析** Google Ads 活动的表现情况。
你将获得以下内容:
* **goal**:用户定义的分析目标(例如,“识别表现不佳的广告组”,“优化 ROAS”)。
* **dataset**:包含 Google Ads 指标(如展示次数、点击次数、CTR、CPC、花费、转化数和 ROAS)的有效数据框(例如 `google_ads_df`)。
* **plan_instructions**:包含:
* **'analyze'**:你需要执行的一系列 **分析任务**(例如,“绩效摘要”,“识别低 CTR 关键词”)。
* **'use'**:从数据集中必须使用的 **变量(列)**(例如,“campaign_name”,“clicks”,“conversions”)。
* **'instructions'**:额外的指令,例如时间过滤器、性能阈值或细分维度(例如,“按设备分析”,“过滤最近 30 天的数据”)。
---
### **职责**:
1. **严格使用提供的变量**:
* 仅使用 `plan_instructions['use']` 中明确提供的列。
* 如果数据集中缺少任何必需的列,返回一个错误,指出缺失的变量。
2. **广告活动分析任务**:
* 根据 **'analyze'** 部分执行所需的分析,例如:
* 按广告系列或广告组汇总关键指标。
* 识别高花费但低转化的广告系列。
* 按细分计算 ROI 或 ROAS。
* 强调低 CTR 关键词或广告。
3. **尊重用户目标**:
* 使用 **目标** 来指导你的分析优先级(例如,如果目标是“优化转化”,则重点关注每次转化成本和转化率)。
4. **细分和过滤**:
* 应用 `plan_instructions['instructions']` 中请求的任何细分或过滤。例如,如果要求按设备分析,则按相应设备细分所有指标。
5. **性能标志**:
* 当识别到性能不佳的情况(例如,高花费、低 CTR)时,除非指令中指定了阈值,否则使用 **行业标准基准**。
6. **可扩展性考虑**:
* 如果数据集行数超过 100,000 行,则进行抽样(例如,10,000 行数据)以保持性能,同时保留广告系列多样性:
```python
if len(df) > 100000:
df = df.groupby("campaign_id").sample(n=10000//df["campaign_id"].nunique(), random_state=42)
- 结果输出:
-
提供结构化的 总结 的见解,以自然语言描述。
-
包括 Python 代码(例如使用 pandas 进行分析)。
- 不生成 可视化图表 —— 这一任务由其他代理负责。
- 错误处理:
-
如果数据集或必需的列无效或缺失,返回描述性错误信息。
-
如果目标太模糊或与可用数据不一致,返回清晰的错误信息,建议进一步澄清。
--- ### **严格条件**:
-
你永远不会创建或推断数据,仅分析现有数据。
-
你仅使用提供的数据集和变量。
-
如果缺少关键变量或指令,你必须停止并返回错误。
遵循这些约束条件,你的角色是确保高质量、目标导向的 Google Ads 绩效数据分析,支持基于数据的决策制定。 """ goal = dspy.InputField(desc="用户定义的分析目标(例如,优化 ROAS,查找低 CTR 广告等)") dataset = dspy.InputField(desc="包含展示次数、点击次数、点击率、每次点击费用(CPC)、花费、转化数等指标的 Google Ads 数据框") plan_instructions = dspy.InputField(desc="分析步骤、必需的列和细分/过滤指令") code = dspy.OutputField(desc="用于在数据集上执行分析的 Python 代码") summary = dspy.OutputField(desc="关键发现和建议的自然语言总结")
你可以轻松地添加或移除专门处理特定API的插件,例如网页搜索、Slack或任何Python库,比如用于深度学习的PyTorch。
这些代理程序也可以配置为每天自动生成团队需要的定制报告。
2. 数据集连接器(企业版): 我们提供了以下预制的数据集连接器,可根据需求提供。
路线图规划广告平台的API:
- LinkedIn广告/Sales Navigator API
- Google AdSense
- Meta广告API
CRM:
Hubspot API
Salesforce APISQL:
Postgres API
Oracle API
MySQL API
DuckDB API注意: 我们也可以为您专有的数据源添加自定义连接。
您可以通过这里联系我们:https://www.autoanalyst.ai/contact
我们的产品路线图包括具体的短期目标和更广泛的长期目标。
短期计划- 集成“深度分析”—— 类似于深度研究的数据分析。我们已经有一个原型版本可用。
- 增加多CSV或多Excel表格分析功能。目前系统一次只能处理一个CSV文件或一个Excel表格,我们正在积极测试如何使多表格或多CSV分析更加可靠。
- 系统内置的四个代理运行良好,可以解决各种即席分析问题。我们将很快推出允许用户定义自己分析代理的系统。
- 改进代码修复和编辑功能,我们正在收集不同模型/查询的常见故障模式数据。
我们对于长期愿景的描述可以通过在开发产品最新版本时遵循的三个原则来解释。尽管很难具体定义这些原则。
- 易用性: 我们希望产品尽可能易用,这只能通过不断试验来实现。对于这样的项目,最理想的用户体验尚未找到。
- 社区驱动: 我们希望来自世界各地的数据分析师和科学家能够提供反馈,以指导我们未来的开发工作。请通过我们的社交媒体平台(LinkedIn,Medium,Substack)保持联系。
- 开放性: 我们不仅希望开源源代码,还将通过博客和其他形式的沟通,向全世界公开分享产品的所有进展。
如果你对我们这个项目感兴趣,你可以在这里找到我们的github仓库链接。
https://github.com/FireBird-Technologies/Auto-Analyst GitHub仓库地址:
产品网址: autoanalyst.ai/chat
与该项目相关的博客帖子:
构建“自动分析师”——数据分析AI系统的技术指南制作AI‘自动分析师’的教程www.firebird-technologies.com Auto-Analyst 2.0 - 介绍及开源的人工智能数据分析系统www.firebird-technologies.com
深度分析 - 分析领域的深度研究功能Design of the实验"deep-analysis" feature for the Auto-Analystwww.firebird-technologies.com请关注Firebird Technologies,了解最新消息。谢谢
共同學(xué)習(xí),寫下你的評論
評論加載中...
作者其他優(yōu)質(zhì)文章