第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機立即綁定

基于機器學(xué)習(xí)的傾向得分匹配(PSM)在SQL中的應(yīng)用

標(biāo)簽:
機器學(xué)習(xí)

因果

作为一名数据工程师,我们经常会分析网站事件、门店交易或自助服务终端交互,来回答一个基本的问题:“发生了什么?” 这些时序数据帮助我们生成性能指标,比如针对特定产品线或整个业务。我们会寻找客户行为模式,例如添加到购物车但未购买的产品,或经常退货的产品,并尝试找出这些行为之间的关联。

但我们是否应该仅仅停留在回顾性分析上?与其只是观察过去的表现,我们是不是更应该问:

  • 这是在搞什么鬼?
  • 我们是不是不小心引入了选择偏差?
  • 我们应该怎样不断调整我们的洞察来改进决策呢?
不再只是观察:探索因果关系

绩效指标讲述了一个故事,但真正深入的理解来自于理解它们之间的关系。这时,倾向得分匹配(PSM) 就能帮助我们了。PSM 让数据工程师能够分析现实世界中的非随机数据,从而揭示潜在的因果关系。

在传统的A/B测试中,我们会设立对照组和测试组来衡量变化的效果。然而,在电子商务和现实世界中,这种方法在实际操作中往往不切实际。大规模地进行受控实验的成本高、耗时长,而且结果出来时可能已经过时。

利用PSM工具,我们可以从客户互动中提取有意义的洞察——无需依赖昂贵且缓慢的实验。相反,我们根据关键属性将相似的客户群体分组并分析他们的行为,帮助我们更快地做出基于数据的决策。

在 Adobe Experience Platform 中大规模部署 PSM(此处指代具体术语)—— SQL 的机器学习扩展

在标准的数据科学工作流程中,数据处理和建模通常使用比如 pandas(用于结构化数据处理)、numpy(用于数值计算)和 scikit-learn(用于包括分类和回归在内的机器学习任务)等 Python 库来完成。对于大规模数据处理和分布式计算,会使用例如 Apache Spark 这样的框架,这通常需要集群管理、资源分配和定制配置以确保最佳运行效率。

在 Adobe Experience Platform 上,Data Distiller 机器学习 SQL 扩展消除了对外部库和分布式系统管理的依赖。通过扩展的 SQL 接口,可以进行分布式特征处理、模型训练和推断,从而实现了平台内机器学习工作流的原生执行。这种方法保持数据本地性,减少数据移动,并执行平台内定义的访问控制、安全和治理政策。利用平台的内置计算层,用户可以在受控环境中大规模执行机器学习管道,而不会增加额外的操作负担。

使用Data Distiller进行基于SQL的特征提取
  • 我们的事件来源:

我们的事件源数据,也就是我们用来提取特征的原始资料。数据集预计是大量数据,具有高度嵌套的结构,如struct、数组、map等,以表示用户事件的各种方面。我们示例中的事件数据是一个电商数据集,具有以下特征:

我们事件源数据集的结构图

列元数据来自特征。

  • 样本数据示例: 与特征构建相关的样本数据如下:

  • 特征工程: 跟踪客户购买行为指标及客户活动(即如果在45天内购买则为1,反之则为0)。根据提供的源,我们将利用Adobe Experience Platform中的Data Distiller(数据提炼器)提供的SQL功能提取与特征工程相关的购买指标。

SQL查询

在逻辑回归中常使用的特征

数据提炼的机器学习SQL扩展 用于建模和预测
第一步:模型

我们可以使用带有标签的数据来训练逻辑回归模型,来预测转化率或流失率。相应的逻辑回归方程会是:

通常,数据科学家会使用像pandas、numpy和sklearn这样的Python库来进行回归分析等任务。而当我们谈论大规模分布式环境中的数据时,则可能会使用Apache Spark或其他类似的分布式计算引擎及其自定义配置。但在Adobe Experience平台上,可以利用Data Distiller机器学习-SQL扩展,不需要设置上述任何工具,并且无需将数据从平台中移出。通过仅使用内置了机器学习能力的SQL扩展,在大规模分布式环境中访问、处理、训练和推断数据,但可以保持相同的治理和访问模式,而现在是在一个更加安全可信的环境中。

首先,让我们深入细节来,使用SQL中的逻辑回归模型来构建购买意愿或流失预测。

ML-SQL 扩展提供了“create model”的 SQL 操作符来执行特征工程,并将其与逻辑回归模型关联起来。执行创建模型的 SQL 操作符后,模型会根据提供的数据进行训练,并可供评估并进一步迭代。我们将使用事件来源的数据构建一个名为 porpensity_purchase_behavior_log_reg 的逻辑回归模型实例。

接下来的步骤:模型评测

机器学习-SQL 扩展提供了一种名为model_evaluate的功能,允许用户在模型部署前评估其准确性和有效性。评估使用与模型训练相同结构的数据集来生成准确性指标。这有助于衡量模型在验证数据上的预测性能。

我们利用新的时间分区来收集测试数据,以便进行评估。

步骤3:模型的预测结果

评估后,我们用这个模型来预测客户购买的意愿。

预测的购买意愿输出为

第4步:使用最近邻匹配算法的 PSM(倾向评分匹配)

当我们评估一项干预措施(例如营销活动、产品功能或忠诚度计划)的影响时,我们需要将干预组客户(activity = 0)与控制组客户(activity = 1)进行比较。然而,由于这些组可能具有不同的特征,因此我们使用PSM来创建一个公平的比较环境,通过匹配相似的客户。

如何在PSM框架内实现NNM(最近邻匹配)的方法,在SQL中?

在我们的分析中,查询在 psm_data 中随机选取每个组(实验组和对照组)中的 10000 名客户。其中,psm_data 是 model_predict 模型生成的数据集。

最近邻匹配查询:

我们实现了这样的最近邻匹配(NNM):

  • 使用了治疗组和对照组之间的综合得分(归一化的欧几里得距离)。
  • 利用标准差(STDDEV)对特征进行归一化处理,防止因尺度不同而导致某个特征过于突出。
  • 通过平衡各个特征来减少偏差,确保所有特征都对距离计算有贡献。
  • 确保匹配是基于整体相似度,而不仅仅是单一特征的匹配。
  • 通过选取最低距离的最优匹配,而不是基于任意的排名。

系统会对客户进行随机抽取(对照组,实验组)

  • 从不活跃组(activity = 0)和活跃组(activity = 1)中各随机抽取10000名客户。

交叉连接,(每个被处理的客户的)潜在匹配项

  • 每个接受治疗的客户都会与所有对照组客户一一配对(形成一个类似笛卡尔积的关系)。
  • 这样我们就可以计算出他们之间的差异。

最近邻匹配法——找到最接近的对照样本

  • 使用 ROW_NUMBER() 函数来为每个接受治疗的客户对其对照客户进行排名。
  • 最近的对照匹配(即最小距离)会被排为第1名并被选中。

配对客户的示例

注意:

  • 配对的客户在收入情况、购买次数和订单总值方面行为非常相似。
  • 唯一的关键区别是“自上次购买以来的天数”,这自然地将处理组和对照组区分开来。
  • 距离很小,这表明对照组的客户与处理组客户极为相似。

现在我们有一个在45天内错失收入机会的相似客户列表。

为了实现PSM(倾向得分匹配)的目标,使得观测数据表现得像实验数据。在这里,我们展示了一种方法,能够根据倾向得分和其他特征,将活动状态为0的客户群与活动状态为1的对照组客户匹配。这种方法通过减少选择偏差,确保公平比较,使分析更加可靠。匹配后,可以利用这些匹配的客户来衡量对参与度、留存率或收入的真实影响(例如,收入、参与度等)。

简介:数据工程师——新一代的数据专家

随着数据工程和数据科学之间的界限越来越模糊,数据工程师越来越多地接手传统上属于数据科学家的责任。利用先进的工具、自动化和ML-SQL集成,他们不仅在准备特征数据,还构建、部署和优化机器学习模型。数据驱动决策的未来不再是仅仅关于科学,而是关于如何在大规模上实现工程化智能。

特别感谢Data Distiller团队,他们让机器学习在SQL工作流程中更容易被使用,推动了这项创新!

使用机器学习的SQL博客:

排序学习(LTR)

联邦学习:

集成学习:

因果推理:

机器学习 :

  • 基于K-Means的RFM
點擊查看更多內(nèi)容
TA 點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優(yōu)質(zhì)文章

正在加載中
  • 推薦
  • 評論
  • 收藏
  • 共同學(xué)習(xí),寫下你的評論
感謝您的支持,我會繼續(xù)努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學(xué)

大額優(yōu)惠券免費領(lǐng)

立即參與 放棄機會
微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號

舉報

0/150
提交
取消