背景
生成式排序作为生成式模型在推荐系统中的重要应用方向,旨在通过生成式模型对用户行为序列进行建模,从而实现对用户兴趣的动态捕捉和对未来行为的准确预测。与传统基于特征工程的推荐方法相比,生成式排序模型能够更自然地处理序列数据,捕捉用户行为的长期依赖关系,并且可以自适应地更新用户兴趣表示,以适应用户兴趣的变化。此外,生成式排序模型还具有更好的可扩展性,能够更容易地整合新的特征和数据源,从而不断提升模型的性能和泛化能力。
Meta,GR
出发点
- 现有推荐系统困境:现有的深度学习推荐模型(DLRMs)依赖高基数、异构特征,且需处理海量用户行为数据,但在计算资源扩展性上表现不佳,难以有效利用大规模计算资源。
- 借鉴Transformer成功经验:受Transformer在语言和视觉领域成功的启发,作者希望重新审视推荐系统的底层设计选择,以克服现有DLRMs在扩展性和效率上的局限。
创新点
- 推荐问题新范式:将推荐问题重新表述为生成式建模框架内的序贯转导任务,使排序和检索等核心任务能够以生成式方式系统地利用特征、训练和推理中的冗余,提高效率。
- HSTU架构设计:提出一种新的序贯转导架构HSTU,针对高基数、非平稳的流式推荐数据设计,通过修改注意力机制和利用推荐数据集特性,在长序列上比FlashAttention2-based Transformers快5.3x到15.2x。
- M-FALCON算法:提出一种新的推理算法M-FALCON,通过微批处理(micro-batching)完全分摊计算成本,在相同的推理预算下,能够服务复杂度高285x的模型,同时实现1.50x-2.99x的速度提升。
模型结构
- 特征统一编码:将DLRMs中的异构特征空间(包括分类特征和数值特征)统一编码为单一的时间序列,通过选择最长的时间序列作为主时间序列,并将其他时间序列压缩后合并到主时间序列中。
- 序贯转导任务定义:定义了排序和检索任务作为序贯转导任务,通过因果自回归设置,将用户与内容的交互序列映射到输出令牌序列。
- 生成式训练:采用生成式训练方式,将印象级训练转变为生成式训练,通过采样率调整,将总训练成本降低一个O(N)因子,使编码器成本能够在多个目标上分摊。
- HSTU层设计:HSTU由多个相同层堆叠而成,每层包含三个子层:逐点投影、空间聚合和逐点变换。采用点式聚合注意力机制,结合相对注意力偏置,充分利用序列中的位置和时间信息。
相关实验
- 公共数据集验证:在MovieLens和Amazon Reviews数据集上,与SASRec等先进Transformer实现对比,HSTU在相同配置下显著优于基线,并且在扩大规模后性能进一步提升。
- 工业级流式设置验证:在工业级流式数据集上,与Transformer和HSTU的变体对比,HSTU在排名任务上尤其表现出色,且在小规模设置下,HSTU以1.5x-2x的更快墙钟时间和50%更少的HBM使用量,展现了更好的质量。
- 对比DLRMs实验:在工业级流式设置中,与多个表面的大型互联网平台部署的DLRM基线对比,基于HSTU的GR在离线评估中显著优于DLRMs,并在在线A/B测试中带来了12.4%的指标提升。
- 可扩展性验证:通过对比GRs和DLRMs的可扩展性,发现GRs具有更好的FLOPs可扩展性,且在序列长度和其他参数协同扩展时,主要指标与所用训练计算量呈幂律关系,验证了推荐系统中扩展定律的适用性。
实验结论
- 性能提升:HSTU在多个数据集和设置下均优于现有方法,证明了其作为推荐系统中生成式模型的有效性。
- 效率优势:HSTU在训练和推理过程中均展现出显著的效率提升,尤其是在处理长序列和大规模数据时,降低了计算成本和内存使用。
- 可扩展性:GRs遵循与大型语言模型类似的扩展定律,表明其在计算资源增加时能够持续提升模型性能,为推荐系统的未来发展提供了新的方向。
- 实际应用价值:基于HSTU的GRs已在拥有数十亿用户的大型互联网平台上部署,显著提高了推荐质量,证明了其在实际工业环境中的可行性和有效性。
美团,MTGR
基于meta GR扩展的MTGR https://article.juejin.cn/post/7504697156771708955
出发点:
- 自然语言处理和计算机视觉等领域已经验证了算力和效果之间的Scaling Law(缩放法则),但在推荐系统领域仍处于起步阶段。当前推荐系统多基于传统DLRM(Deep Learning Recommendation Model)模式,难以进一步提升转化率。
- 生成式推荐框架(如HSTU)为推荐系统提供了新的发展方向,但存在不能使用交叉特征、对低点击率且高复购率业务适应难等局限。
创新点:
- 提出了一种新的生成式推荐模型框架MTGR,结合传统DLRM模型特征体系,采用混合式架构,保留了全部DLRM原始特征,包括交叉特征等。
- 应用HSTU(Hierarchical Sequential Transduction Units)架构对多条序列统一建模,通过无损压缩样本、稀疏化存储和计算框架等优化,降低冗余计算。
- 设计了三种不同尺寸的MTGR模型(small、middle、large),验证了离在线效果的Scaling Law,使用MTGR-large在美团核心业务中取得显著收益,并完成全量。
模型结构:
- 保留全部DLRM原始特征,并针对样本进行无损压缩,同时建设稀疏化存储以及计算框架将padding导致的冗余计算降低至0。
- 采用Group LayerNorm以及动态混合掩码策略,实现用统一的HSTU架构针对不同语义空间的Token信息进行编码。
- 将样本信息拆分成一个个Token,利用HSTU架构针对Token化的输入进行统一编码,并引入动态混合掩码提升学习效果。
相关实验:
- 对比基准模型,单样本前向推理FLOPs提升65倍,离线CTCVR GAUC +2.88pp,外卖首页列表订单量+1.22%,PV_CTR +1.31%。在资源使用上,训练成本与基准模型持平,在线推理资源节省12%。
- 设置了small、middle、large三种不同大小的MTGR模型与当前在线最好的DLRM base进行对比,验证了Scaling Law的效果。
实验结论:
- MTGR在美团外卖推荐场景中取得了显著的收益,是近2年迭代单次优化最大收益。模型在保留传统模型特征体系的基础上,通过HSTU架构和相关优化,有效提升了推荐效果,降低了推理成本。
- 训练成本与基准模型持平,在线推理资源节省12%。验证了推荐系统中Scaling Law的适用性,为推荐系统的未来发展提供了新的方向。
Google,TIGER
百度,GRAB
- 在百度搜推广告场景中,排序模型长期依赖大规模离散特征,虽然通过GPU等硬件提升了一定模型容量和特征交互能力,但仍受到人工特征设计的局限。
- 生成式模型在自然语言处理等领域取得显著成果,但在推荐系统中的应用尚在探索阶段。Meta的GRs模型提出了生成式推荐的新方向,百度希望在此基础上探索适用于自身业务的生成式排序模型。
创新点:
- 提出了GRAB(Generative Ranking for Ads at Baidu)模型,将传统低效的MLP结构改造成Transformer结构,端到端、一体式建模,实现推荐系统的Scaling-Law。
- 三层架构设计:离散特征层、连续表征层、序列建模层,分别进行特征处理、连续化和序列化建模。
- 采用序列打包及用户表征坍缩、相对位置编码、异构表征方案、模型热启动等技术,优化模型训练和推理过程。
- 设计了新模型框架下的Scaling-law验证,证实了模型指标与序列长度的指数关系。
模型结构:
- 离散特征层:对用户性别、广告标题等特征进行离散化、切词、组合等预处理,哈希得到ID特征。
- 连续表征层:将离散特征通过大规模离散PSTable进行连续化,对每个序列Item经过MLP等投影操作得到固定维度的Token表征。
- 序列建模层:将用户行为Token按照时间序排列,结合相对时间、相对位置、行为信号等Position Embedding,通过多层Causal Masked Transformer计算点击率等指标。
相关实验:
- 在百度信息流广告点击率模型中应用GRAB,取得了显著的AUC提升(2+千分位)及业务落地收益提升(2.5%收入提升)。
- 通过序列长度分析验证了GRAB模型的Scaling能力,序列长度每提升一个阶次,模型指标获得线性增长。
实验结论:
- GRAB模型在百度推荐广告场景中取得了显著收益,打开了新的建模空间,展示了生成式推荐模型的潜力。
- 模型的Scaling能力得到验证,表明生成式序列化建模技术结合离散特征对于用户历史行为的精准刻画具有显著优势。
- 推荐模型未来的技术路径将趋向于用算力弥补人工经验的不足,GRAB为这一趋势提供了有力支持。
未来展望:
- 继续研究用户多领域兴趣融合、长期兴趣建模、训练推理性能成本优化等方向,以进一步提升推荐系统的性能和效果。
总结
生成式排序主要和传统排序区别较大的地方:
- 样本组织上从传统排序的曝光粒度,切换成用户粒度+mask调节的方式
- 模型推理发生比较大的变化,需要仿照大模型围绕kv cache和batch做文章
本文由博客一文多发平台 OpenWrite 发布!
點擊查看更多內(nèi)容
1人點贊
評論
評論
共同學(xué)習,寫下你的評論
評論加載中...
作者其他優(yōu)質(zhì)文章
正在加載中
感謝您的支持,我會繼續(xù)努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦