第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機立即綁定

文檔提取是GenAI的殺手級應用

未来已经到来,你不会得到杀手机器人。你会得到出色的技术,帮助你自动化繁琐的办公室工作。

大约十年前,我在领英著名的数据标准化团队担任机器学习工程师。从我加入的那一天到离开的那一天,我们仍然无法自动读取一个人的个人资料并可靠地理解他们在所有语言和地区中的职位和级别。

这乍一看很简单。“软件工程师”这个职位名称很清楚,对吧?那那些只写“关联”(associate)的人呢?如果是沃尔玛的员工,他们可能是低级别的零售工人;如果是律师事务所的员工,他们可能是高级律师。但你可能已经知道了——你知道什么是Java 新手吗?什么是Freiwilliges Soziales Jahr?这不仅仅是关于懂德语——它翻译成“自愿服务年”。但是,代表这个角色的好标准职位名称是什么呢?如果你有一份已知的职位名称列表,你会把它映射到哪里?

我加入了LinkedIn,后来又离开了LinkedIn。我们取得了一些进展,但即使是理解最简单的常规文本——一个人的简历——也变得遥不可及。

非常难的问题变得很简单

你可能不会惊讶地发现,对于像 GPT-4 这样的大型语言模型来说,这个问题非常简单。

简单轻松(来源:我和GPT)

但是请等一下,我们是一家公司,而不是一个在聊天终端里的人,我们需要结构化的输出。

(来源: GPT)

啊,这样好多了。你可以用最微妙且具有文化特定的问题来重复这个练习。更好一点的是,当你获得一个人完整的个人资料时,可以重复这个练习,这会给你更多的背景信息,再加上代码,这会给你在商业环境中一致使用结果的能力,而不仅仅是作为一次性的聊天。通过更多的努力,你可以将结果转化为一个标准的职位名称分类体系,这将使其可索引。毫不夸张地说,如果你复制并粘贴一个人的整个简历,并正确地提示GPT,你将超过十年前一些非常聪明的人花了多年时间才能达到的最佳结果。

高价值办公室工作 == 理解文档

具体标准化简历的例子很有趣,但这种做法仍然局限于技术一直在努力的地方——在一家自然应用AI工具的技术网站上。我认为这里有一个更深层次的机会。世界上很大一部分GDP来源于办公室工作,这些工作本质上是专家的人类智能反复从文档中提取信息,并考虑上下文。以下是一些按复杂度递增的例子:

  1. 费用管理是读取发票并将其转换为标准化的视图,显示支付了什么费用、何时支付、支付的货币以及费用类别。这一决定可能受到企业背景信息、提出费用的人等信息的影响。
  2. 医疗理赔处理是读取混乱的发票和临床笔记,并得出结论:“总的来说,这里有一个胸部X光检查,其中包含许多重复项,费用为800美元,并且它对应于健康保险政策中的类别1-C”。
  3. 贷款承销人可能会查看申请人的银行对账单并回答一系列问题。同样,这是因为输入信息杂乱无章。实际的决策过程类似于:“现金的平均流入和流出是多少,有多少资金用于贷款偿还,以及其中哪些部分是一次性的还是真正的经常性收入”。
文本推理是LLM的专长

到目前为止,大型语言模型(LLMs)因容易产生幻觉而臭名昭著,也就是编造信息。实际情况要复杂得多:在某些情况下,幻觉实际上是可以预测的结果,而在其他情况下,则几乎不会发生

幻觉出现的地方是在你要求它回答事实性问题,并期望模型能够直接从其对世界的内在知识中“知道”答案时。大型语言模型(LLMs)在反思它们对世界的了解方面表现不佳——它们能够做到这一点更像是一个非常偶然的巧合。它们并没有被明确训练来完成这项任务。它们被训练的任务是生成可预测的文本序列完成。当一个大型语言模型根据输入文本进行对齐,并需要回答关于该文本内容的问题时,它不会产生幻觉。 如果你将这篇博客文章复制粘贴到chatGPT中并问它是否教你如何做美式苹果派,你将100%得到正确的结果。对于大型语言模型来说,这是一个非常可预测的任务,它看到一段文本,并试图预测一个称职的

之前作为AI顾问,我们多次解决了涉及从文档中提取信息的项目。事实证明,在保险、金融等领域中,这有很多实用性。客户担心的问题(“LLMs会产生幻觉”)与真正困扰我们的问题(我们没有正确提取表格,所有错误都源于此)之间存在很大的差距。LLMs确实会失败——当我们未能以清晰且无歧义的方式呈现输入文本时,它们就会失败。构建能够理解文档的自动管道需要两个必要因素:

  1. 完美的文本提取,将输入文档转换为干净、易懂的纯文本。这意味着处理表格、复选框、手写注释、可变的文档布局等。整个现实世界表单的复杂性需要转换为在LLM中具有意义的干净的纯文本。
  2. 强大的模式定义,明确指定你期望从某种类型的文档中获得哪些输出,如何处理边缘情况,使用什么数据格式等。
文本提取比最初看起来要复杂得多

这里介绍了导致大语言模型崩溃并产生极其糟糕输出的原因:

  1. 输入具有复杂的格式,例如双栏布局,并且你从左到右复制并粘贴了来自例如PDF的文本,导致句子完全脱离了上下文。
  2. 输入包含复选框、对勾和手写注释,但在转换为文本时你完全忽略了这些内容。
  3. 更糟糕的是:你认为可以绕过转换为文本的过程,希望直接粘贴文档的图片并让GPT自行理解。这会让你进入幻觉城市。只需让GPT转录一张带有空单元格的表格图片,你就会看到它会胡乱编造内容。

记住现实世界中的文档是多么混乱总是有帮助的。这里有一份随意的税表:

当然,真实的税表上所有这些字段都是填写好的,通常是由手写的。

或者这是我的简历

来源:我的简历

或者一个公开的实验报告示例(这是来自 Google 的搜索结果首页)

来源:research gate,公共领域图片

顺便说一下,你绝对不能做的事情是要求GPT将其多模态功能用于转录表格。如果你敢试一试的话——乍一看似乎正确,但实际上它会为某些单元格编造一些乱七八糟的东西,完全脱离上下文等等。

如果世界上有什么不对劲,那就建立一家 SaaS 公司来解决它

当我和我的联合创始人Nitai Dean面对理解这类文档的任务时,我们困惑地发现没有现成的解决方案来解析这些文本。

有些人声称能解决这个问题,比如 AWS Textract。但他们在我们测试过的任何复杂文档上都犯了很多错误。然后还有许多小但必要的功能,比如识别勾选框、单选按钮、划掉的文字、表格上的手写涂鸦等。

所以,我们构建了Docupanda.io——它首先生成任何页面的干净文本表示。左边是你看到的原始文档,右边是文本输出。

来源:docupanda.io

表格的处理方式类似。在后台,我们只是将表格转换为人类和LLM可读的Markdown格式:

来源:docupanda.io

理解数据并与大型语言模型(LLMs)交互的最后一环是生成和遵守严格的输出格式。能够使AI将其输出塑造成JSON格式固然很好,但为了对数据应用规则、推理、查询等操作,我们需要让其输出行为规范化。数据需要符合一组预定义的槽位,我们将这些槽位填充上内容。在数据世界中,我们称这为 模式

构建模式是一个试错过程……而这正是LLM可以做到的

我们需要一个模式的原因是,没有规律的数据是毫无用处的。如果我们处理患者记录,而这些记录中的性别标记为“male”“Male”“m”和“M”,那么我们的工作做得非常糟糕。

那么你是如何构建一个模式的呢?在教科书中,你可能会通过长时间地盯着墙思考,来定义你想要提取的内容。你会坐在那里思考你的医疗数据操作,心想“我想提取患者的姓名、日期、性别以及他们的医生姓名。哦,对了,性别必须是M/F/Other。”

在现实生活中,为了定义从文档中提取什么内容,你得盯着你的文档看……看了很多。你一开始可能像上面那样开始,但后来发现有些文档中有一个医生的列表,而不是一个单独的医生。而且有些文档还列出了医生的地址。有些地址还包含单元号和楼号,所以你可能需要一个字段来存储这些信息。就这样,问题不断出现。

我们逐渐意识到,能够准确定义你想提取的所有内容,这既不简单,也不容易,但借助AI却可以很好地解决这个问题。

那是 DocuPanda 的一个重要部分。我们并没有只是要求 LLM 为每个文档即兴创作输出,而是构建了一个机制,让你能够:

  1. 用自由的语言说明你需要从文档中获取哪些信息
  2. 让我们的AI分析许多文档,找出一个能够回答所有问题并适应实际文档中的各种问题和不规则之处的模式。
  3. 根据反馈调整模式,使其符合你的业务需求

最终你得到的是一个强大的JSON模式——一个模板,它确切地说明了你希望从每个文档中提取的内容,并且可以映射到成千上万个文档上,从中提取出所有问题的答案,同时遵守一些规则,比如始终以相同的格式提取日期,尊重一组预定义的类别等。

来源:docupanda.io

更多内容!

就像任何兔子洞一样,总是比最初看到的要多。随着时间的推移,我们发现还需要更多的东西:

  • 经常组织需要处理大量匿名文档,所以我们自动对它们进行分类,并决定应用何种模式
  • 文档有时是由多个文档拼接而成的,你需要一个智能解决方案将非常长的文档拆分成其基本、独立的组件
  • 使用生成的结果查询正确的文档非常有用

如果这篇帖子给你留下了什么印象,那就是你应该尝试利用LLMs来定期处理文档。如果还有第二个印象,那就是你也应该试一试Docupanda.io。我之所以在建设它,是因为我相信它。也许这已经是一个足够好的理由去尝试一下了?

一位未来的办公室工作人员(来源:unsplash.com)

點擊查看更多內容
TA 點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優(yōu)質文章

正在加載中
  • 推薦
  • 評論
  • 收藏
  • 共同學習,寫下你的評論
感謝您的支持,我會繼續(xù)努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優(yōu)惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消