我們老是談AI寫作,其實(shí)更應(yīng)該興奮的是AI閱讀的能力
我最近读了一篇文章,名为《AI 对文字的影响被夸大了》(https://www.thediff.co/archive/ais-impact-on-the-written-word-is-vastly-overstated/),作者是 Bryan Hobart。我非常同意文章中的很多看法——它基本上认为我们早就需要处理太多内容了,而 AI 并不会对此产生太大影响。例如,博客和互联网的兴起导致了内容的爆炸性增长,早就超出我们筛选它们的能力了。
这让我想到一件事。我第一次创业是在2014年,那是一家出版业的数据分析公司——我们试图让计算机以人类阅读的方式理解书籍。即便是那时候,我们也会讨论这个问题。当时我们对Goodreads进行的分析发现,你我可能听说过的几乎所有书籍都来自仅有的48,000本书。虽然有数以百万计的书籍存在,但我们对大多数书籍的评论和用户投票太少,无法有效地互相告知。
但对某些人而言这是个问题,对普通读者来说却不是真的问题。除非你对已经读过的书(《哈利·波特》、《简·爱》、《指环王》或《时光之轮》……)感到不满意,否则这个宇宙的推荐系统做得相当不错。
可能它失败的地方是,你其实会非常喜欢的一本书比其他书更棒,但却从未发现它。那本最适合我的书可能就在我们所知道的48000本书中……但更可能是真的藏在那数百万本书的海洋中,我可能永远都不会听说。我永远也不会知道,但我可能也不会因为不知道而真正感到痛苦。
这本书的作者却挺不容易的。当前的推荐引擎对普通读者来说还算不错,虽然还有改进的空间。
这对内容创作者来说却是个灾难。
让我们多聊聊AI阅读技术文章中的一句话引发了这篇帖子,即人类“每秒只能有意识地处理10位信息,这相当于一个人一生中大约2GB的信息处理量。”
这是一个惊人的统计数据。从内容发现的角度来看,我们面临的问题是市场上充斥着太多内容,而我们在快速处理这些内容的工具方面跟进得很差。社交推荐引擎在应对这一挑战方面做得非常努力——我们聚合了大量的用户生成内容,并成功为48000本书添加了足够的信息,使它们易于发现。这比之前没有现代工具时做得多得多,这确实是一个胜利。
但AI能够读懂并应用个人的口味偏好,像在模仿那个人的口味一样,这和那些能够写作的AI一样,对书籍读者来说同样重大。
想象我有一个经过训练的AI模型,它熟悉我对阅读的口味和偏好。快速地进行谷歌搜索发现,一台中等性能的电脑上的平均LLM可以以每秒处理内容的速度是人脑每秒处理信息10比特速度的188,000倍。
> 换句话说,人类一生中可以使用的2GB数据,大型语言模型就能在大约5.2秒内读取完毕。
那就给出一个建议。
创作大量内容已经有一段时间了。用计算机生成元数据也已经有一段时间了——至少从2007年我们开始用BookLamp做这件事以来,甚至在那之前,其他人也在做类似的事情。
新的地方是,也许现在人们会真正开始认真对待它。目前为止,我们从未有过一个能在内容生成速度上跟上的工具,能让人们大规模使用。我们试过了,但大多失败了。
每次读到关于人工智能在出版业利弊的文章时,这些文章大多侧重于内容创作的数量和质量,但我认为我们应该同样关注——也同样感到兴奋——阅读这一方面。毕竟,内容创作带来的问题只有当我们没有合适的工具来处理阅读这一方面时才会显现。毕竟,没有相应的阅读工具,内容创作就失去了意义。
基于计算机的音频内容分析,人们会真正去听;以及针对每个用户的个性化元数据……这真的很有意思,而且(讽刺的是),就像我们在2007年创立BookLamp时那样前所未有。
可能最好有一个针对AI的元数据的生成和提取的公共元数据工具最后想说一点。在2014年,我们努力说服出版业,用电脑帮助人类更好地理解内容的重要性。在公司被苹果收购之前进行“书籍基因组计划”时,我们在这一领域取得了显著进展,这项技术随后就不再为公众所知了。这样的工具依然很有必要。
方便作者、出版商和读者的技术工具(而不是专门针对零售商的)一直都很难找到。或者至少,它们通常是由出版业以外的人来部署的。
有了这么多开源的大规模语言模型项目,也许也应该有一个项目专注于生成“非人类生成但人类可读”的推荐元数据。这可以简单到分析一本书的关键属性——语言、写作风格、主题标签等——打包成一个简介,可以由作者或出版商下载和分发。换句话说,一个作者或出版商可以信赖的公共系统,可以在线或本地应用到他们的书上,提取一组标准化的元数据,贡献给任何支持这一格式的系统。这将让大小作者都能轻松地从中受益,而无需完全将他们的书交给不受他们控制的AI来分析。
一个专门用来做一件事的工具——可靠地生成深度元数据,这些元数据可以根据每位读者的口味进行个性化设置,并分发给AI系统进行推荐,同时不会让作者失去控制。
值得想想。
最后一个小注,和书推荐引擎没什么关系哦(如果想停也可以在这里停下来不读了,毕竟文章已经写完了)。我之前在文章里说过,推荐引擎对一般读者来说还算成功。不过,我必须补充一个很重要的注意点。如果你已经是书虫,那么现在的推荐引擎的确能找到你喜欢的内容,但问题是,有没有更好的选择。
但是。书籍在我们的娱乐消费中是独一无二的,因为它们既是独特的又是让人沉浸其中的。我的意思是,当你在读书时,几乎不能同时做其他事情。你不能发邮件。你不能看电视或聊天。大多数其他类型的媒体都是非专属的。你可以一边看电影一边处理电子邮件。你可以听音乐同时用手机上网。有声书是最接近非专属书籍的形式——这就是为什么你通勤时会选择听有声书而不是拿着小说读书会撞车的原因。
要读一本书,你必须决定只读这本书,因此其他事情的机会成本就很高。在懒散的日子里,我常会一边看电影一边回邮件——但我绝不会一边回邮件一边读书。
书也有粘性这个说法。我的意思是,我们对书有一种可能不太健康的依恋,而这种感觉我们对电影、歌曲或大多数人际关系并没有。如果我不喜欢一部电影,中途就关掉,想看时换一部。如果第一集不喜欢,就换另一部看。
但不知怎么的,总觉得非得一口气读完一本书。
几年前我向一个不太爱读书的朋友推荐了《安德的游戏》。他想通过我来找到进入阅读世界的门径,而我从小就很喜欢《安德的游戏》……所以,为什么不试试呢?
他还在啃那本书。可能已经十年了。如果他现在决定开始读一本新书,我敢肯定他会回去继续啃《安德的游戏》,试图有点进展。如果你问他正在读什么书,他会告诉你他在读《安德的游戏》。很明显,这对他来说不是一个好的推荐,因为他已经在《安德的游戏》上卡了这么多年。但他也不会放弃,而是会去找另一本更有希望的书。《安德的游戏》是他的一次机会,结果却失败了(尽管他知道我经常用这个例子来调侃他)。他还是没有放弃……我觉得到这个时候,他可能只是在跟我开玩笑。
关键是,书籍推荐和其他类型的推荐,比如电影、音乐或电视不同,就像是个泥潭。书籍阅读是一个较高的投入过程,如果不能吸引读者兴趣,那些偶尔阅读的人就会失去兴趣。这样一来,就像是一个燃烧的泥潭。所以,现在的书籍推荐引擎确实让很多读者受益,但对于整个行业来说,还有许多工作要做。
糟糕的书推荐对我们行业的影响是,不是读者对尝试的书籍提不起兴趣,而是有很大一部分人根本从不碰书。
共同學(xué)習(xí),寫下你的評(píng)論
評(píng)論加載中...
作者其他優(yōu)質(zhì)文章