Elasticsearch生态技术峰会 | Elasticsearch在清博大数

2023-07-24 大全 32 作者：考证青年

关于在清博的应用和实践，本文将通过四个部分展开介绍：

一、关于清博大数据

清博数据成立于2014年，是一家专注于内容数据领域，是基于网络公开数据，依托自然语言处理、知识图谱、事理图谱等AI技术，挖掘有价值的数据以及关系，为政务部门、企业、媒体和高校的网络空间数据治理，提供一站式解决方案的公司。

清博大数据的主要业务布局有：

二、典型业务场景

上文所提到的业务方向中都有的参与和支持。下面介绍几个典型的应用场景。

清博舆情

下图展示的是清博舆情中常见的分析模块。

清博舆情利用NLP技术给常见的每条新闻及评论打上7个情绪标签，然后基于标签分析每天的情绪走势和情绪分布情况。这个应用可以理解为，针对某个事件，大众在不同情感表达下的声量大小。

另外，我们也对事件的发布和媒体敏感信息报道进行渠道统计，统计后就可以直观的看到一个事件的重要或敏感的传播节点，这就为业务的决策者提供了非常直观的决策参考。除此之外，系统还为用户提供发文类型、提及地区、热词分析等十多个常用的统计分析模块。

以上所描述的统计分析，都是基于强大的聚合统计能力，包括嵌套的统计能力实现的。由于清博大数据提供的是线上的SaaS服务，在同个页面会迸发请求查询或聚合多个接口等需求，这就对的聚合统计性能和内存使用率，都提出了更高的要求。

多维度的检索

多维度检索在清博大数据也是比较常见的业务场景。在舆情高级检索模块，清博检索提供了基于时间、发布平台、情感、媒体类别、发布地区等十多个维度的复合检索。同时还提供了基于term和match price的精确或模糊检索的复杂查询方式。

不同于日志检索场景，清博的多维度检索业务，需要权衡召回率和准确率，需要对标题跟正文设置不同的打分策略。比如给标题设置更高的权重，给正文设置相对较低的权重。另外，产品还能对包括阿拉伯语、日语、韩语、德语、法语等多国语言进行文本检索，这就涉及到了多语种的分词与检索召回。

账号画像

下图是清博指数平台一个微信公众号的画像页面，展示了公众号系列数据，包括阅读统计、阅读点赞、在看、发文趋势、发布习惯等数据指标的统计模块。通过这些模块，用户可以直观的了解一个公众号的发布情况、文章传播情况等，不仅给运营者提供了全方位、可参考的数据，也给广告投放的用户提供客观投放参考。

三、痛点与诉求

上文列举的不同业务场景都离不开强大的查询和聚合能力，那么实现这样的功能有哪些痛点与诉求呢？

从上面业务场景列举可以看出，清博大数据的业务基本上都是基于文本检索，那么它具有的特点包括：

基于以上的业务特点就要求具备高性能、平衡检索的召回率和准确率，并具有动态伸缩的能力。

基于以上的业务特点和服务要求，对清博大数据来讲，业务痛点可以分为三个方面：

1、成本

单篇文档不同于日志数据，占用索引空间大，所需的SSD存储昂贵；

2、运维

当业务数据不断增加，需要频繁扩节点；同时，由于是在线SaaS业务，所以需要实现亚秒级响应速度；并且在节点升级、增加内存等在线升级时，不停止服务。

3、兼容性

实现集群迁移、本地化部署，业务代码无感知适配；云端备份索引可以兼容开源的。

针对以上的业务痛点，清博大数据对云端也提出了三点诉求：

1、成本

平滑扩缩容，索引支持冷热分离，热数据才放到SSD存储，从而降低存储成本；

2、运维

需要有简单的运维工具支持一键扩缩容和节点升级等能力；需要支持丰富的运维指标，在达到一定阈值时，可以有不同类型的报警通知；需要支持平滑升级不对业务产生影响；

3、兼容性

阿里云 100%兼容开源生态，并支持自定义的分词器，实现热更新分词词典，方便备份与恢复。云上备份与索引，可以快速在开源上恢复或拉起服务。

四、云上实践与收益

清博大数据在迁移之前是基于 Solr自建的搜索集群，为了提升搜索性能和巩固集群稳定性，创建了很多小的Solr集群。在上游数据分析之后，通过一套路由机制写入到不同的Solr集群，在查询时通过同一套机制，自动选择对应的集群。在不同的集群中查询不同的数据，可以分散单个集群压力，如果有小集群异常只会影响部分业务。

但是太多分散且小的集群也会出现很多问题，比如增加故障的概率、缺少统一运维管理平台、运维管理成本过高、无法自动扩充Shard、需要手动增加节点扩容等等。

_清博大数据的简介_清博大数据ceo

相比之下，阿里云提供智能的、统一的运维平台，不仅可以多维度地监控告警，也能及时发现集群问题，而且阿里云ES专家的支持也减少了大量的运维成本。

阿里云ES自动Shard，提升系统性能，提高了系统的检索性能；阿里云ES节点的伸缩能力，可以灵活应对业务逐步增加，节省大量一次性投入的成本。

在迁移过程中，清博大数据同步升级了数据架构，整个平台是分层的数据模式。最底层是数据接入层，包括上述提到的各平台社交文本数据。所有的数据源首先会推送到Kafka集群，通过消息队列对各个业务模块进行检索。

再往上一层是数据处理和存储层。在存储层，像新闻标题、发布时间、原始URL等信息存储到HBASE。一些不需要检索内容的镜像数据会存到OSS上进行长期存储，并把OSS的路径存到HBASE，方便后面的检查。

在数据处理这一层，使用 Flink 实时流处理引擎，通过RPC的方式实时调用NLP相关的算法服务，为每一条文本内容打上情感属性、情绪分类、新闻类型和地域等标签，方便下游业务使用。

再上一层是整个ES的基础设施，包括ES集群和智能网关两层服务。在ES集群层，根据业务特点把近两年的数据放到冷数据集群，使用价格相对较低的高效云盘，把近三个月的数据放到热数据集群，使用SSD盘进行冷热集群分离，同时根据不同平台大小对索引进行拆分，分为微信、微博、短视频等等索引。

为了提高ES的安全性和访问的可控性，清博大数据开发了智能网关服务，屏蔽了直连ES的方式。在智能网关层，有很多业务都要调用ES数据，为了防止单个业务占用过多资源，影响到其他业务使用，网关可以为每个业务分配各自的QPS并设置优先级。一旦集群出现问题，可以对低优先级的业务进行熔断限流，以保证高优先级的业务。

由于在ES的数据层把索引按照来源进行拆分，数据被分散到多个集群中，这会给查询带来一定的麻烦。为了方便前端业务的调用，网关路由所有模块可以根据业务端查询的数据类型，自动路由到对应的索引，同时网关层也会对业务端查询进行优化，比如根据时间段选择对应索引，而不是扫描全部索引。

最上面一层是业务接入层，包括上文提到的舆情业务、指数业务、融媒业务等等。

基于阿里云ES打造的统一数据平台，也可以看作是一个分层架构，如下图。

最底层文档写入ES索引前，会先进入路由层。路由服务会根据文档的来源、发布时间、机型状态等，选择对应的集群以及索引，比如自动选择对应平台或者是对应索引所在的机器。

对日增数据量比较少的平台，会按照周或月进行索引拆分。对日增数据量很大的平台，路由会按天创建索引，这样就避免单个索引过大、数据过于倾斜而影响整个集群性能的问题，使每个索引的大小保持基本相同。

再向上一层是多个ES集群，包括不同平台的数据集群和冷热数据集群。前面一层经过路由策略之后，最终数据会分散到对应集群的对应索引中。为了方便查询，通过开发的Proxy，对用户特定的索引查询、多索引查询和聚合查询，甚至跨集群查询等，可以对数据进行查询集合，做到对业务端底层的索引细节屏蔽、业务端无感知、降低业务端调用成本，同时也方便底层的迭代升级。

基于以上的架构，在阿里云的ES数据平台提供近三个月超过100亿的热数据，在近三个月的索引占用空间超过60TB，日增网络公开内容数据超过1.2亿，单篇文档搜索字段超过200。

在这么大数据量的情况下，频繁变动升级会带来一些问题。值得一提的是，利用阿里云ES诊断功能，可以很方便地发现ES集群潜在的问题，也为集群的运维方向提供诊断经营。

在阿里云ES各种功能的加持下，清博大数据平台的稳定性较之以前提升了60%，整个运维时间减少了80%。正是由于阿里云平台的各种能力，让团队可以把更多的精力放到产品开发和迭代上，比如基于平台能力快速开发了轻薄融媒平台，为清博融媒平台提供内容检索服务。

在开发的政府补贴类应用中提供政策搜索服务，为后面的推荐算法提供出色的结果，也为年终公众号运营画像类应用提供相关统计服务。除此之外，基于平台的能力还能提供更多的产品形态。

原文链接

tags: 集群索引检索阿里博大

Elasticsearch生态技术峰会 | Elasticsearch在清博大数

Java程序员奋斗五年，坚持不懈，如何拿到阿里 9 个月的年终奖？

解决FlieZilla上传文件至阿里云ECS服务器（aliyun Linux系统

【直播】React、AliSQL、BeeHive、JStorm等8大阿里开源项目

安卓开发api！Android面试中常问的MMAP到底是啥东东？附面试题答案

帧结构和物理资源(CRB，Resourcegrid，Resource

计算机磁盘打开缓慢,Win10纯净版打开此电脑磁盘分区显示缓慢怎么办

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

Elasticsearch生态技术峰会 | Elasticsearch在清博大数

Java程序员奋斗五年，坚持不懈，如何拿到阿里 9 个月的年终奖？

解决FlieZilla上传文件至阿里云ECS服务器（aliyun Linux系统

【直播】React、AliSQL、BeeHive、JStorm等8大阿里开源项目

安卓开发api！Android面试中常问的MMAP到底是啥东东？附面试题答案

帧结构和物理资源(CRB，Resourcegrid，Resource

计算机磁盘打开缓慢,Win10纯净版打开此电脑磁盘分区显示缓慢怎么办

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡 已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡