你可以借助 Claude-3 和 Lightning AI,將任何 YT 視頻變成內(nèi)容創(chuàng)作神器。
2月20日,Karpathy发布了一段从头开始构建GPT-3分词模型的详尽视频。
一个例子,2小时13分钟的视频 转换成一篇博客文章(包含截图和代码),使用了Claude 3 Opus.
3月4日,Emmanuel Ameisen 和 Erik Schluntz 接受了 Karpathy 的这个挑战,即将视频转换成博客,使用大语言模型,并从同一个 GPT-3 Tokenizer 视频创建了一个博客。
点击这里查看这篇博客。
来自X的帖子链接: https://twitter.com/mlpowered/status/1764718705991442622
今天,我要再进一步。我正在与Lightning AI合作,帮助人们通过Lightning Studios创建内容制作工具,从任何YouTube视频开始!
开始吧!往下看并创建你的 ↓
使用Claude-3创建任何视频转文本LLM模型 - 由cvetkotim创建的闪电工作室该工作室旨在将YouTube视频转换为Claude-3生成的博客内容。复制到lightning.ai 以下内容将由本文介绍:- 如何实现 PyTube 和 Claude-3 以将任何 YouTube 视频转换成文本 — 完整代码实现
- 如何轻松构建任何语音转文本的大型语言模型产品并生成大量内容
P1 :行了,给我演示一下这个怎么操作!➡ 如果您希望将YT视频自动转换为完整内容形式,请点击这里填写表格这里⬅
此 notebook 提供了重现 Claude-3 在 Karpathy 挑战中的解决方案的基础,该挑战是将一个(个)video tutorial 转换为一篇博客文章。
博客视频工作流程
好的,这样一步步来说明。
- 获取Claude-3的API密钥并初始化Anthropic客户端。
- 下载YouTube视频及其字幕。
- 初始化Whisper模型以进行语音转文本。
- 将视频切分为文字和截图对。
- 使用Claude-3来填充博客内容。
从官方网站获取API密钥,以运行这三个可用模型中的任何一个演示。
作者制作,通过API密钥初始化
第二步:下载 YouTube 视频和其字幕文件我们将使用 Python 中的 pytube 库(来自 YT)先下载视频和音频流,这些音频流稍后会用于 Whisper。
下载YouTube视频和对应的字幕
步骤 3 :初始化 Whisper 模型以转写语音
我们从 _faster_whisper 导入 WhisperModel,将其转录为文本片段,以处理我们的 YouTube 视频内容。
启动Whisper(语音转文字模型)
第4步:将视频切成文本和截图的组合:现在来谈谈不太有趣的部分。我们需要从pytube和Whisper分别加载视频和文本。为此,最有效的方法是将视频分割成章节。
作者提供的图片:将视频按章节拆分
第五步:用 Claude-3 填写博客哈!太酷了。现在,我们能把任何YT视频拆分成包含视频和文字的片段,并且可以为这些片段添加LLM语义。我们先来看看Claude-3模型的提示吧。
prompt_instructions = f"""
<指令>
您将收到视频在不同时间点的图像,以及由AI语音识别工具生成的转录文本,在<转录>中。
该转录文本可能包含一些误差。
您的任务是将转录文本转换为Markdown格式的博客文章。
请按照以下指南,将转录文本转换为有效的Markdown格式:
- 输出有效的Markdown
- 根据需要插入部分标题和其他格式
- 您只获得了转录文本的一部分,因此不要包含介绍性或结论性段落。只包含转录文本中讨论的主要内容
- 使用适当的格式使图片、文本、代码、边注和页面布局看起来像典型的博客文章或教科书
- 删除口头语
- 如果有冗余信息,请仅呈现一次
- 保持原文中对话的风格。使用标题使叙事更易于跟随
- 转录文本中包含太多图片,因此请在输出中只包含最重要的1-2张图片
- 选择与转录文本相关的插图
- 优先展示完整的代码片段,而非部分代码
- 当相关时,转录重要的代码片段和其他有价值的文本
- 如果图片有助于说明转录文本的一部分,请插入相应的图片
- 要包含图片,请在图片数据上方插入一个带有< img class="lazyload" src="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAAAXNSR0IArs4c6QAAAARnQU1BAACxjwv8YQUAAAAJcEhZcwAADsQAAA7EAZUrDhsAAAANSURBVBhXYzh8+PB/AAffA0nNPuCLAAAAAElFTkSuQmCC" data-original="xxxxx.jpg"/>的标签,其中xxxxx用插入的图片时间戳替换
- 不要添加任何多余的资料,仅包括在转录文本或图片中提到的内容
您的最终输出应适合放入教科书中。
</指令>
"""
这里是应用到每个块的最终版本,包括Markdown。
作者的图片:最终的For循环在块上
… 这就留下了一篇类似的博客文章,如下所示。真是太酷了!
图片来自作者,就是一个截图。
构建任意视频转文本的大型语言模型产品好的。能够做到的代码:
- 输入任何 YT 视频
- 创建章节列表(大纲)
- 使用 Claude-3 生成 Markdown
…真的很棒。而且还是自动的。
如果是博客,为何不内容?这里怎么做:要从这一步做到构建任何视频转文字的LLM产品都,很简单!只需要改变提示。
如果是博客,为什么不内容呢?这里怎么做。
我们将利用提示工程用AI自动生成任何内容。这是我们要用来创建博客的初始提示。
prompt_instructions = f"""
<说明部分>
您将获得视频在不同时间戳下的图像,随后是通过AI语音识别工具生成的<转录>文本。
转录可能包含许多不准确的信息。
您的任务是将转录转换成markdown格式的博客文章。
该转录包含许多不准确的信息。您的工作是创建不超过200字符的有效推特或领英帖子,简短快速的句子和学习要点。
- 输出有效的markdown格式
- 在适当的地方插入章节标题和其他格式,比如列表和粗体
- 您只得到了部分转录,因此不要包含引言或结论段落。仅包括转录中讨论的主要话题
- 使用样式使图像、文本、代码、标注和页面布局和边距看起来像典型的博客文章或教科书
- 删除任何口头语
- 如果有冗余的信息,只需呈现一次
- 保持转录中的对话内容风格,如口语化表达。包括标题以使叙述结构更容易跟随
- 选择与转录相关的插图图像
- 尽可能包含显示完整代码的图像,而不是部分代码
- 当相关内容重要时,转录重要代码段和其他有价值的文字到帖子中
- 不要添加任何额外的信息:仅包含转录或图像中提到的内容
您的最终输出应适合包含在教科书中,或发表在博客上。
</说明部分>
"""
我们来把这个家伙调一下,让它直接从 YouTube 视频里提取内容。
prompt_instructions = f"""
<指令>
已提供视频不同时间戳的图像,随后是<转录>中的音频转录。
转录是由AI语音识别工具生成的,可能存在一些错误或不准确性。
转录可能存在一些不准确的地方。你的任务是创建不超过200字符的Twitter/LinkedIn帖子,内容为简短且快速的句子和学习要点。
- 输出有效的Markdown格式
- 根据需要添加部分标题和其他格式
- 你只获得了转录的部分内容,因此不要包含开头或结尾段落。只包括转录中讨论的主要话题
- 使用样式使图像、文本、代码、注释和页面布局及边距看起来像典型的博客文章或教科书
- 删除口头语
- 如果有冗余的信息,只呈现一次
- 保持转录中对话内容的风格。包括标题使叙述结构更易于跟随
- 选择与转录相关的插图说明
- 尽可能包括展示完整代码的图像,而不是正在开发中的代码
- 在相关情况下,转录重要的代码片段和其他有价值的文本
- 不要添加任何无关信息:只包括在转录或图像中提到的内容
最终输出应适合教科书中的内容。
</指令>
"""
我插入了這段來自20VC的視頻,例如。
20VC:Harry Stebbings 和 Kevin Ryan
aaand 得到了这样的内容:(205 行满满的知识)
-> 点击这里查看
作者的图片:blogpost.md 文件由 Claude-3 创建
总结……- 我已经向你展示了如何将任何 YouTube 视频作为输入,做一些预处理,并应用 Claude-3(或任何其他 LLM)来创建内容。
- 感谢 Lightning AI,如下可以做到这一点:
我很想知道你要建什么!
➡ 如果您希望自动将YT视频转换为完整内容资料,请填写表格点击这里这里⬅
祝您编程愉快!如果您有任何问题,请随时通过 tim@timcvetko.com 联系我帮忙。
感谢您读完本文。我的名字是Tim,我从事AI、商业和生物学的交叉领域工作。我喜欢解释机器学习的概念,或写有关商业(如风险投资或宏观经济)的文章!可以通过我的邮箱cvetko.tim@gmail.com联系我。
免费订阅 ,获取我推送的每个新故事的通知。
每当 Tim Cvetko 发布内容时都会收到电子邮件。如果注册,如果没有 Medium 账户,将会为您创建一个。…timc102.medium.com 参考文献:链接如下:
共同學習,寫下你的評論
評論加載中...
作者其他優(yōu)質(zhì)文章