寫文章

首頁(yè) 手記蘇寧基于Spark Streaming的實(shí)時(shí)日志分析系統(tǒng)實(shí)踐

蘇寧基于Spark Streaming的實(shí)時(shí)日志分析系統(tǒng)實(shí)踐

標(biāo)簽：

架構(gòu)

目前业界基于 Hadoop 技术栈的底层计算平台越发稳定成熟，计算能力不再成为主要瓶颈。多样化的数据、复杂的业务分析需求、系统稳定性、数据可靠性，这些软性要求，逐渐成为日志分析系统面对的主要问题。2018 年线上线下融合已成大势，苏宁易购提出并践行双线融合模式，提出了智慧零售的大战略，其本质是数据驱动，为消费者提供更好的服务，苏宁日志分析系统作为数据分析的第一环节，为数据运营打下了坚实基础。

数据分析流程与架构介绍

业务背景

苏宁线上、线下运营人员，对数据分析需求多样化、时效性要求越来越高。目前实时日志分析系统每天处理数十亿条流量日志，不仅需要保证：低延迟、数据不丢失等要求，还要面对复杂的分析计算逻辑，这些都给系统建设提出了高标准、高要求。如下图所示：

数据来源丰富：线上线下流量数据、销售数据、客服数据等
业务需求多样: 支撑营销、采购、财务、供应链商户等数据需求

640?wx_fmt=png&wxfrom=5&wx_lazy=1

640?wx_fmt=png

指标计算后数据主要存储到 HBase、Druid 等存储引擎，业务系统读取实时计算好的指标数据，为运营人员提供数据分析服务。

Spark Streaming 在指标分析实践

Spark Streaming 介绍

众所周知 Spark 是批处理框架，而 Spark Streaming 借鉴批处理的理念实现的准实时算框架，通过将数据按时间分批处理，实际应用中根据延迟要求合理设置分批间隔，如下图所示。Spark Streaming 支持多种数据源：Kafka、Flume、HDFS、Kenisis 等，平台原生支持写入到 HDFS、常见关系数据库等存储介质。

640?wx_fmt=png

对比 Storm， Spark Streaming 准实时架构，吞吐量更高，支持 SQL，与 HDFS、数据库等存储介质支持的更好，开发方便，并且支持 Window 特性，能支持复杂的窗口函数计算。

NDCG 指标分析

Normalized Discounted Cumulative Gain，即 NDCG，常用作搜索排序的评价指标，理想情况下排序越靠前的搜索结果，点击概率越大，即得分越高 (gain)。CG = 排序结果的得分求和， discounted 是根据排名，对每个结果得分 * 排名权重，权重 = 1/ log(1 + 排名) ，排名越靠前的权重越高。首先我们计算理想 DCG（称之为 IDCG），再根据用户点击结果，计算真实的 DCG， NDCG = DCG / IDCG，值越接近 1，则代表搜索结果越好。DCG 计算公式如下：

640?wx_fmt=png

在苏宁易购搜索关键词"苹果"，取第一排 4 个结果为例子。

640?wx_fmt=png

计算得出 IDCG = 1， DCG = 0.5，NDCG = DCG / IDCG = 0.5 , 最终通过对每次搜索计算 NDCG 得分，用来作为判断搜索结果好坏的一个评价指标。

NDCG 计算方案设计

通过统计搜索行为时间跨度，86% 的搜索行为在 5 分钟内完成、90% 的在 10 分钟内完成（从搜索开始到最后一次点击结果列表时间间隔），通过分析比较， NDCG 实时计算时间范围设定在 15 分钟。这就提出了两个计算难点：

时间窗口计算：每一次都是对前 15 分钟数据的整体分析
去重：时间窗口内保证一次搜索只计算一次

最终我们选择了 Spark Streaming 框架，利用其 Window 特性，实现时间窗口计算。时间窗口为 15 分钟，步进 5 分钟，意味着每 5 分钟计算一次。每次计算，只对在区间［15 分钟前， 10 分钟前］发起的搜索行为进行 NDCG 计算，这样就不会造成重复计算。

640?wx_fmt=png

按照方案开发后，线上测试很快发现问题，保存 15 分钟的数据消耗资源太多，通过分析发现：搜索数据仅占流量数据很小一部分，清洗任务在 Kafka 单独存储一份搜索数据，NDCG 计算订阅新的搜索数据，大大减小了资源消耗。

性能与数据安全保障

性能保障

容量预估与扩展

640?wx_fmt=png

640?wx_fmt=jpeg

目前时间粒度是只到天，如果加上小时、周、月等时间维度，任务数、存储都要翻几倍。此时，一个高性能的 OLAP 计算引擎，来提升指标分析效率，变得更加迫切。

16 下半年数据云平台启动 OLAP 引擎建设，17 年正式对外提供 Druid 服务。 Druid 支持 sum、max、min、avg、count、distinct count 等常规聚合计算，支持从 Kafka 实时数据接入，其列式存储结构提升数据检索效率，通过数据预聚合提升了计算效率。

经过方案预研以及性能测试，Druid 大大提升了 NDCG 这类指标的计算分析效率，让指标分析任务变得更轻量级，指标多维分析能力交给 Druid 来解决。

数据保障

保障数据不丢失

640?wx_fmt=png

exactly-once 语义保障

对于销售类数据，不仅要保证数据被处理，还需要保证数据仅被处理一次，涉及销售财务指标数据必须 100% 准确。

第一种方案：Labmda 架构 + Redis 去重

实时去重：一个订单被计算后，将订单号写入 Redis，通过比对订单号，保证数据不重复处理。
离线更新：每天凌晨重新计算销售指标，更新前一天指标数据

640?wx_fmt=png

第二种方案：MPP + 主键

使用场景：适于外部使用场景，外部系统从 Mpp 数据查询、分析数据
技术方案：MPP 选用 PG CITUS 数据库，在 MPP 数据库建表，对订单号等唯一性字段设为主键。

未来架构演进与优化

640?wx_fmt=png

总结与展望

日志处理分析系统作为数据挖掘、BI 分析等高阶应用的幕后支撑，起着承上启下的作用，尤其对于业务线多、大数据量场景，没有系统化平台化的支撑，大数据终将是一句空话。我相信不止是算法模型，底层的数据质量、时效性、系统稳定性，都将成为智慧零售的胜负手。

原文出处

點(diǎn)擊查看更多內(nèi)容

為 TA 點(diǎn)贊

若覺得本文不錯(cuò)，就分享一下吧！

評(píng)論

評(píng)論

共同學(xué)習(xí)，寫下你的評(píng)論

評(píng)論加載中...

展開查看更多評(píng)論

作者其他優(yōu)質(zhì)文章

正在加載中

慕UI4062818

手記
篇

粉絲

97

獲贊與收藏

553

關(guān)注作者，訂閱最新文章

閱讀免費(fèi)教程

MySQL 進(jìn)階教程

32個(gè)小節(jié) 53061 997

后端通用面試教程

41個(gè)小節(jié) 32486 366

網(wǎng)絡(luò)編程入門教程

20個(gè)小節(jié) 13447 254

推薦

評(píng)論

收藏

共同學(xué)習(xí)，寫下你的評(píng)論



感謝您的支持，我會(huì)繼續(xù)努力的～

掃碼打賞，你說多少就多少

贊賞金額會(huì)直接到老師賬戶

支付方式

打開微信掃一掃，即可進(jìn)行掃碼打賞哦

今天注冊(cè)有機(jī)會(huì)得

100積分直接送

付費(fèi)專欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與放棄機(jī)會(huì)

點(diǎn)擊
抽獎(jiǎng)

慕課手記新用戶專享福利

恭喜你，你的運(yùn)氣太好了，居然抽中了 100個(gè)積分！

恭喜你，抽中了價(jià)值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標(biāo)、機(jī)械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優(yōu)惠券
在等著你去兌換了噢

作者：

免費(fèi)贈(zèng)送

兌換碼：1111222211 復(fù)制

優(yōu)惠券可用于購(gòu)買實(shí)戰(zhàn)課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換


第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

蘇寧基于Spark Streaming的實(shí)時(shí)日志分析系統(tǒng)實(shí)踐

数据分析流程与架构介绍

业务背景

Spark Streaming 在指标分析实践

Spark Streaming 介绍

NDCG 指标分析

NDCG 计算方案设计

性能与数据安全保障

性能保障

容量预估与扩展

数据保障

保障数据不丢失

exactly-once 语义保障

未来架构演进与优化

总结与展望

閱讀免費(fèi)教程