在上一篇文章中,小编为您详细介绍了关于《2020好玩的和风策略手游推荐 丰富的经营养成玩法》相关知识。本篇中小编将再为您讲解标题性能提升数十倍!百万级高并发MongoDB集群优化实践。
原标题:性能提升数十倍!百万级高并发MongoDB集群优化实践
线上某集群峰值TPS超过100万/秒左右(主要为写流量,读流量很低),峰值tps几乎已经到达集群上限,同时平均时延也超过100ms,随着读写流量的进一步增加,时延抖动严重影响业务可用性。该集群采用mongodb天然的分片模式架构,数据均衡的分布于各个分片中,添加片键启用分片功能后实现完美的负载均衡。集群每个节点流量监控如下图所示:
从上图可以看出集群流量比较大,峰值已经突破120万/秒,其中delete过期删除的流量不算在总流量里面(delete由主触发删除,但是主上面不会显示,只会在从节点拉取oplog的时候显示)。如果算上主节点的delete流量,总tps超过150万/秒。
在不增加服务器资源的情况下,首先做了如下软件层面的优化,并取得了理想的数倍性能提升:
1、业务层面优化
该集群总文档近百亿条,每条文档记录默认保存三天,业务随机散列数据到三天后任意时间点随机过期淘汰。由于文档数目很多,白天平峰监控可以发现从节点经常有大量delete操作,甚至部分时间点delete删除操作数已经超过了业务方读写流量,因此考虑把delete过期操作放入夜间进行,过期索引添加方法如下:
Db.collection.createIndex( { "expireAt": 1 }, {expireAfterSeconds: 0 } )
上面的过期索引中 expireAfterSeconds=0,代表 collection 集合中的文档的过期时间点在 expireAt 时间点过期,例如:
db.collection.insert ({
//表示该文档在夜间凌晨1点这个时间点将会被过期删除
"expireAt": new Date('July 22, 2019 01:00:00'),
"logEvent": 2,
"logMessage": "Success!"
})
通过随机散列expireAt在三天后的凌晨任意时间点,即可规避白天高峰期触发过期索引引入的集群大量delete,从而降低了高峰期集群负载,最终减少业务平均时延及抖动。
Delete 过期 Tips1: expireAfterSeconds 含义
1)在expireAt指定的绝对时间点过期,也就是12.22日凌晨2:01过期
Db.collection.createIndex( { "expireAt": 1}, { expireAfterSeconds: 0 })
db.log_events.insert( { "expireAt": new Date(Dec 22, 2019 02:01:00'),"logEvent": 2,"logMessage": "Success!"})
2)在expireAt指定的时间往后推迟expireAfterSeconds秒过期,也就是当前时间往后推迟60秒过期
db.log_events.insert( {"createdAt": new Date(),"logEvent": 2,"logMessage": "Success!"} )
Db.collection.createIndex( { "expireAt": 1 }, { expireAfterSeconds: 60 } )
Delete过期Tips2:为何mongostat只能监控到从节点有delete操作,主节点没有?
原因是过期索引只在master主节点触发,触发后主节点会直接删除调用对应wiredtiger存储引擎接口做删除操作,不会走正常的客户端链接处理流程,因此主节点上看不到delete统计。
主节点过期delete后会生存对于的delete oplog信息,从节点通过拉取主节点oplog然后模拟对于client回放,这样就保证了主数据删除的同时从数据也得以删除,保证数据最终一致性。从节点模拟client回放过程将会走正常的client链接过程,因此会记录delete count统计。
官方参考如下:https://docs.mongodb.com/manual/tutorial/expire-data/
2、Mongodb配置优化(网络IO复用,网络IO和磁盘IO做分离)
由于集群tps高,同时整点有大量推送,因此整点并发会更高,mongodb默认的一个请求一个线程这种模式将会严重影响系统负载,该默认配置不适合高并发的读写应用场景。官方介绍如下:
1)Mongodb内部网络线程模型实现原理
mongodb默认网络模型架构是一个客户端链接,mongodb会创建一个线程处理该链接fd的所有读写请求及磁盘IO操作。
Mongodb默认网络线程模型不适合高并发读写原因如下:
2)网络线程模型优化方法
为了适应高并发的读写场景,mongodb-3.6开始引入serviceExecutor: adaptive配置,该配置根据请求数动态调整网络线程数,并尽量做到网络IO复用来降低线程创建消耗引起的系统高负载问题。
此外,加上serviceExecutor: adaptive配置后,借助boost:asio网络模块实现网络IO复用,同时实现网络IO和磁盘IO分离。这样高并发情况下,通过网络链接IO复用和mongodb的锁操作来控制磁盘IO访问线程数,最终降低了大量线程创建和消耗带来的高系统负载,最终通过该方式提升高并发读写性能。
3)网络线程模型优化前后性能对比
在该大流量集群中增加serviceExecutor: adaptive配置实现网络IO复用及网络IO与磁盘IO做分离后,该大流量集群时延大幅度降低,同时系统负载和慢日志也减少很多,具体如下:
① 优化前后系统负载对比
验证方式:
该集群有多个分片,其中一个分片配置优化后的主节点和同一时刻未优化配置的主节点load负载比较:
未优化配置的load
优化配置的load
② 优化前后慢日志对比
验证方式:
该集群有多个分片,其中一个分片配置优化后的主节点和同一时刻未优化配置的主节点慢日志数比较:
同一时间的慢日志数统计:
未优化配置的慢日志数(19621):
优化配置后的慢日志数(5222):
③ 优化前后平均时延对比
验证方式:
该集群所有节点加上网络IO复用配置后与默认配置的平均时延对比如下:
从上图可以看出,网络IO复用后时延降低了1-2倍。
3、wiredtiger存储引擎优化
从上一节可以看出平均时延从200ms降低到了平均80ms左右,很显然平均时延还是很高,如何进一步提升性能降低时延?继续分析集群,我们发现磁盘IO一会儿为0,一会儿持续性100%,并且有跌0现象,现象如下:
从图中可以看出,I/O写入一次性到2G,后面几秒钟内I/O会持续性阻塞,读写I/O完全跌0,avgqu-sz、awit巨大,util次序性100%,在这个I/O跌0的过程中,业务方反应的TPS同时跌0。
此外,在大量写入IO后很长一段时间util又持续为0%,现象如下:
总体IO负载曲线如下:
从图中可以看出IO很长一段时间持续为0%,然后又飙涨到100%持续很长时间,当IO util达到100%后,分析日志发现又大量满日志,同时mongostat监控流量发现如下现象:
从上可以看出我们定时通过mongostat获取某个节点的状态的时候,经常超时,超时的时候刚好是io util=100%的时候,这时候IO跟不上客户端写入速度造成阻塞。
有了以上现象,我们可以确定问题是由于IO跟不上客户端写入速度引起,第2章我们已经做了mongodb服务层的优化,现在我们开始着手wiredtiger存储引擎层面的优化,主要通过以下几个方面:
1)cachesize调整优化(为何cacheSize越大性能越差)
前面的IO分析可以看出,超时时间点和I/O阻塞跌0的时间点一致,因此如何解决I/O跌0成为了解决改问题的关键所在。
找个集群平峰期(总tps50万/s)查看当时该节点的TPS,发现TPS不是很高,单个分片也就3-4万左右,为何会有大量的刷盘,瞬间能够达到10G/S,造成IO util持续性跌0(因为IO跟不上写入速度)。
继续分析wiredtiger存储引擎刷盘实现原理,wiredtiger存储引擎是一种B+树存储引擎,mongodb文档首先转换为KV写入wiredtiger,在写入过程中,内存会越来越大,当内存中脏数据和内存总占用率达到一定比例,就开始刷盘。同时当达到checkpoint限制也会触发刷盘操作,查看任意一个mongod节点进程状态,发现消耗的内存过多,达到110G,如下图所示:
于是查看mongod.conf配置文件,发现配置文件中配置的cacheSizeGB: 110G,可以看出,存储引擎中KV总量几乎已经达到110G,按照5%脏页开始刷盘的比例,峰值情况下cachesSize设置得越大,里面得脏数据就会越多,而磁盘IO能力跟不上脏数据得产生速度,这种情况很可能就是造成磁盘I/O瓶颈写满,并引起I/O跌0的原因。
此外,查看该机器的内存,可以看到内存总大小为190G,其中已经使用110G左右,几乎是mongod的存储引起占用,这样会造成内核态的page cache减少,大量写入的时候内核cache不足就会引起磁盘缺页中断。
解决办法:通过上面的分析问题可能是大量写入的场景,脏数据太多容易造成一次性大量I/O写入,于是我们可以考虑把存储引起cacheSize调小到50G,来减少同一时刻I/O写入的量,从而规避峰值情况下一次性大量写入的磁盘I/O打满阻塞问题。
2)存储引擎dirty脏数据淘汰优化
调整cachesize大小解决了5s请求超时问题,对应告警也消失了,但是问题还是存在,5S超时消失了,1s超时问题还是偶尔会出现。
因此如何在调整cacheSize的情况下进一步规避I/O大量写的问题成为了问题解决的关键,进一步分析存储引擎原理,如何解决内存和I/O的平衡关系成为了问题解决的关键,mongodb默认存储因为wiredtiger的cache淘汰策略相关的几个配置如下:
调整cacheSize从120G到50G后,如果脏数据比例达到5%,则极端情况下如果淘汰速度跟不上客户端写入速度,这样还是容易引起I/O瓶颈,最终造成阻塞。
解决办法: 如何进一步减少持续性I/O写入,也就是如何平衡cache内存和磁盘I/O的关系成为问题关键所在。从上表中可以看出,如果脏数据及总内占用存达到一定比例,后台线程开始选择page进行淘汰写盘,如果脏数据及内存占用比例进一步增加,那么用户线程就会开始做page淘汰,这是个非常危险的阻塞过程,造成用户请求验证阻塞。平衡cache和I/O的方法:调整淘汰策略,让后台线程尽早淘汰数据,避免大量刷盘,同时降低用户线程阀值,避免用户线程进行page淘汰引起阻塞。优化调整存储引起配置如下:
eviction_target: 75%
eviction_trigger:97%
eviction_dirty_target: %3
eviction_dirty_trigger:25%
evict.threads_min:8
evict.threads_min:12
总体思想是让后台evict尽量早点淘汰脏页page到磁盘,同时调整evict淘汰线程数来加快脏数据淘汰,调整后mongostat及客户端超时现象进一步缓解。
3)存储引擎checkpoint优化调整
存储引擎得checkpoint检测点,实际上就是做快照,把当前存储引擎的脏数据全部记录到磁盘。触发checkpoint的条件默认又两个,触发条件如下:
当journal日志达到2G或者redo log没有达到2G并且距离上一次时间间隔达到60s,wiredtiger将会触发checkpoint,如果在两次checkpoint的时间间隔类evict淘汰线程淘汰的dirty page越少,那么积压的脏数据就会越多,也就是checkpoint的时候脏数据就会越多,造成checkpoint的时候大量的IO写盘操作。
如果我们把checkpoint的周期缩短,那么两个checkpoint期间的脏数据相应的也就会减少,磁盘IO 100%持续的时间也就会缩短。
checkpoint调整后的值如下:
checkpoint=(wait=25,log_size=1GB)
4)存储引擎优化前后IO对比
通过上面三个方面的存储引擎优化后,磁盘IO开始平均到各个不同的时间点,iostat监控优化后的IO负载如下:
从上面的IO负载图可以看出,之前的IO一会儿为0%,一会儿100%现象有所缓解,总结如下图所示:
5)存储引擎优化前后时延对比
优化前后时延对比如下(注: 该集群有几个业务同时使用,优化前后时延对比如下):
从上图可以看出,存储引擎优化后时间延迟进一步降低并趋于平稳,从平均80ms到平均20ms左右,但是还是不完美,有抖动。
1、服务器IO硬件问题背景
如第3节所述,当wiredtiger大量淘汰数据后,发现只要每秒磁盘写入量超过500M/s,接下来的几秒钟内util就会持续100%,w/s几乎跌0,于是开始怀疑磁盘硬件存在缺陷。
从上图可以看出磁盘为nvMe的ssd盘,查看相关数据可以看出该盘IO性能很好,支持每秒2G写入,iops能达到2.5W/S,而我们线上的盘只能每秒写入最多500M。
2、服务器IO硬件问题解决后性能对比
于是考虑把该分片集群的主节点全部迁移到另一款服务器,该服务器也是ssd盘,io性能达到2G/s写入(注意:只迁移了主节点,从节点还是在之前的IO-500M/s的服务器)。迁移完成后,发现性能得到了进一步提升,时延迟降低到2-4ms/s,三个不同业务层面看到的时延监控如下图所示:
从上图时延可以看出,迁移主节点到IO能力更好的机器后,时延进一步降低到平均2-4ms。
虽然时延降低到了平均2-4ms,但是还是有很多几十ms的尖刺,鉴于篇幅将在下一期分享大家原因,最终保存所有时延控制在5ms以内,并消除几十ms的尖刺。
此外,nvme的ssd io瓶颈问题原因,经过和厂商确认分析,最终定位到是linux内核版本不匹配引起,如果大家nvme ssd盘有同样问题,记得升级linux版本到3.10.0-957.27.2.el7.x86_64版本,升级后nvme ssd的IO能力达到2G/s以上写入。
通过mongodb服务层配置优化、存储引擎优化、硬件IO提升三方面的优化后,该大流量写入集群的平均时延从之前的平均数百ms降低到了平均2-4ms,整体性能提升数十倍,效果明显。
在前面,我们通过定位nvme ssd硬件的IO问题后,和厂商一起分析后发现IO问题是因为操作系统版本不对引起,于是开始对线上的主从MongoDB实例的服务器硬件进行升级,升级后开始替换线上该集群的实例。
具体操作过程如下:
为了谨慎保险起见,通过上面的硬件替换升级过程,我们只替换了所有分片的主节点,提后前后架构发生了变化,原有集群硬件架构如下图所示:
所有分片主节点硬件升级后的架构图如下图所示:
从上图可知,新的集群架构,主从节点服务器IO能力有比较大的差距。最开始我们认为业务方默认没有设置WriteConncern,也就是默认写入到Primary就向客户端发送确认,因此不会影响业务写入。
所有分片主节点升级为高IO服务器后,多个业务接口的时间访问延迟降到了平均2-4ms左右,但是在超大流量冲击的时候,还是有几十ms的尖刺,我选取一个接口的时延为例,如下图所示:
从上图可以看出,特别是在大流量冲击的时间点,尖刺越明显。
1、readConcern配置优化
在上一节,我们替换了分片的所有主节点为高IO服务器,从节点还是以前未升级的低IO服务器。由于业务方默认没有设置WriteConncern,因此我们认为客户端写到主成功就会返回客户端OK,即使从服务器性能差也不会影响客户端写主。
在升级主服务器后,继续优化存储引擎把eviction_dirty_trigger: 25%调整到了30%。
由于在超大流量的高并发冲击,会从平峰期的几十万TPS瞬间飙升到百万级别,而且该毛刺几乎每天都会出现两三次,比较容易复现。
于是提前部署好Mongostat监控所有实例,同时在每个服务器上用Iostat监控实时的IO状况,同时编写脚本实时采集db.serverstatus()、db.printSlaveReplicationInfo()、db.printReplicationInfo()等集群重要信息。
当某个时间点监控出现毛刺后,于是开始分析Mongostat,我们发现一个问题,即使在平峰期,脏数据比例也会持续增长到阀值(30%),我们知道当脏数据比例超过eviction_dirty_trigger:30%阀值,用户线程就会进行evict淘汰,这样用户线程就会阻塞直到腾出内存空间,因此淘汰刷盘过程很慢。分析平峰期毛刺时间点对应的Mongostat监控,发现如下情况:
从上图可以看出,集群TPS才40-50万左右的时候某个分片的主节点出现了脏数据达到eviction_dirty_trigger: 30%阀值,于是整个集群访问时延就会瞬间增加,原因是一个分片的用户线程需要刷盘,导致这个分片的访问时延上升(实际上其他分片的访问时延还是正常的),最终把整体平均时延拉上去了。
为什么普通平峰期也会有抖动?这很明显不科学。
于是获取出问题的主节点的一些监控信息,得出以下结论:
当客户端时延监控发现时间延迟尖刺后,我们发现主节点所有现象一切正常,系统负载、IO、TPS等都没有到达瓶颈,但是有一个唯一的异常,就是主从同步延迟持续性增加,如下图所示:
同时对应低IO服务器的从节点上面的IO状况如下图:
从节点的IO性能一塌乌涂,这也正式主从延迟增加的根源。
从上图可以看出在时延尖刺的同样时间点,主从延迟超大。于是怀疑时延尖刺可能和从节点拉取Oplog速度有关系,于是把整个Mongostat、iostat、top、db.printSlaveReplicationInfo()、db.serverstatus()等监控持续跑了两天,记录下了两天内的一些核心系统和Mongo监控指标。
两天后,对着客户端时延尖刺时间点分析对应监控数据,发现一个共同的现象,尖刺出现时间点和脏数据eviction_dirty_trigger超过阀值时间点一致,同时主从延迟在这个时间点都有很大的延迟。
到这里,我们越来越怀疑问题和从节点拉取oplog速度有关。之前认为业务方默认没有设置WriteConncern,也就是默认写入到Primary就向客户端发送确认,可能应答客户端前还有其他流程会影响写入。于是查看MongoDB-3.6的Production Notes,从中发现了如下信息:
从Production Notes可以看出,MongoDB-3.6默认启用了read concern "majority"功能,于是怀疑抖动可能和该功能有关。
为了避免藏独,MongoDB增加了该功能,启用该功能后,MongoDB为了确保带有带有参数readConcern("Majority")的客户端读取到的数据确实是同步到大多数实例的数据,因此MongoDB必须在内存中借助snapshot 及主从通信来维护更多的版本信息,这就增加了Wiredtiger存储引擎对内存的需求。
由于从节点是低IO服务器,很容易造成阻塞,这样拉取oplog的速度就会跟不上进度,造成主节点消耗大量的内存来维护快照信息,这样就会导致大量的内存消耗,最终导致脏数据瞬间剧增,很快达到eviction_dirty_trigger阀值,业务也因此抖动。
说一个小插曲,因为MongoDB-3.6默认开启enableMajorityReadConcern功能,我们在这个过程中出现过一次严重的集群故障,业务流量有段时间突然暴涨,造成时延持续性达到几千ms,现象如下:
该问题的根源也是因为enableMajorityReadConcern功能引起,由于从节点严重落后主节点,导致主节点为了维护各种snapshot快照,消耗大量内存,同时从节点和主节点的oplog延后,导致主节点维护了更多的内存版本,脏数据比例持续性增长,直到从节点追上oplog。
由于我们的业务不需要readConcert功能,因此我们考虑禁用该功能(配置文件增加配置replication.enableMajorityReadConcern=false。
鉴于篇幅,enableMajorityReadConcern及主从硬件IO能力不足引起的严重业务故障,本篇不做详细的分析,后期会写一篇专门的《百万计高并发MongoDB集群性能优化采坑记》做分享,除了ReadConcern采坑,还有其他好几个核心采坑点,敬请关注。
此外,后续会专门写一篇ReadConcern的原理及代码实现分析文章,同样也请关注。
2、替换从节点服务器为升级后的高IO服务器
除了通过replication.enableMajorityReadConcern=false在配置文件中禁用ReadConcern Majority功能,我们继续把所有分片的从节点由之前的低IO服务器替换为升级后的高IO服务器,升级后所有主从硬件资源性能完全一样,升级后集群分片架构如下图所示:
通过禁用功能,并统一主从服务器硬件资源后,查看有抖动的一个接口的时间延迟,如下图所示:
从上图可以看出,通过MajorityReadConcern功能并且替把所有从节点的低IO服务器做系统升级后,业务时间延迟抖动的峰值进一步降低了,从之前第2节中的峰值80ms降低到了现在的峰值40ms左右。
此外,3.1节提到的脏数据持续性突破eviction_dirty_trigger阀值引起客户端时延飙涨到几千ms的问题得以彻底解决。
3、继续优化调整存储引起参数
通过前面的条优化,我们发现有一个业务接口还是偶尔有40ms时延尖刺,分析发现主要是eviction_dirty_trigger达到了我们配置的阀值,业务线程开始淘汰page cache,这样就造成业务线程很慢,最终导致平均时延尖刺。
为了进一步减缓时延尖刺,我们继续在之前基础上对存储引擎调优,调整后配置如下:
eviction_target: 75%
eviction_trigger:97%
eviction_dirty_target: %3
eviction_dirty_trigger:30%
evict.threads_min:12
evict.threads_max:18
checkpoint=(wait=20,log_size=1GB)
经过此轮的存储引擎调优后,该业务的核心接口时延进一步好转,时延尖刺相比之前有了进一步的改善,时延最大尖刺时间从前面的40ms降低到了30ms,同时尖刺出现的频率明显降低了,如下图所示:
从此图可以看出,在个别时间点还是有一次时延尖刺,对照该尖刺的时间点分析提前部署好的Mongostat和iostat监控,得到如下信息:
从上图可以看出,在峰值TPS百万级别的时候,部分节点evict淘汰速率已经跟不上写入速度,因此出现了用户线程刷盘的情况。
但很奇怪的是,在这个时间点分析对应机器的系统负载、IO状况、内存状况等,发现系统负载、比较正常,但是对应服务器IO偏高,如下图所示:
同时分析对应服务器对应时间点的慢日志,我们发现尖刺出现时间的的慢日志统计如下:
分析非时延尖刺时间点,对应慢日志统计如下:
分析两个时间点慢日志可以看出,慢日志出现的条数和时间延迟尖刺出现的时间点一致,也就是IO负载很高的时候。
通过上面的分析可以看出,当IO比较高(util超过50%)的时候,慢日志和时延都会增加,他们之间成正比关系。
通过软件层面(MongoDB服务配置、业务优化、存储引擎优化)及硬件优化(升级操作系统)后,该大流量集群的核心接口时延从最初的平均成百上千ms降低到了现在的平均1-2ms,性能提升比较可观,整体时延性能提升数十倍。
优化前主要接口时延:
在不增加物理机器的基础上,经过一系列的优化措施,最终业务方主要接口时延控制到了几ms,如下图所示:
注意:文章中的一些优化方法并不是一定适用于所有mongodb场景,请根据实际业务场景和硬件资源能力进行优化,而不是按部就班。
作者丨OPPO互联网技术 运维团队
来源丨OPPO互联网技术(ID:OPPO_tech)
dbaplus社群欢迎广大技术人员投稿,投稿邮箱:editor@dbaplus.cn
>>>>活动推荐
2020年9月11日,北京,Gdevops全球敏捷运维峰会将开启年度首站!重点围绕数据库、智慧运维、Fintech金融科技领域,携手阿里、腾讯、蚂蚁金服、中国银行、平安银行、中邮消费金融、建设银行、农业银行、民生银行、中国联通大数据、浙江移动、新炬网络等技术代表,展望云时代下数据库发展趋势、破解运维转型困局。
Gdevops全球敏捷运维峰会北京站:https://www.bagevent.com/event/6243820?bag_track=dbaplus游戏网
编后语:关于《性能提升数十倍!百万级高并发MongoDB集群优化实践》关于知识就介绍到这里,希望本站内容能让您有所收获,如有疑问可跟帖留言,值班小编第一时间回复。 下一篇内容是有关《台积电股东大会:美国5nm工厂绝对符合公司利益,赢得客户信任》,感兴趣的同学可以点击进去看看。
小鹿湾阅读 惠尔仕健康伙伴 阿淘券 南湖人大 铛铛赚 惠加油卡 oppo通 萤石互联 588qp棋牌官网版 兔牙棋牌3最新版 领跑娱乐棋牌官方版 A6娱乐 唯一棋牌官方版 679棋牌 588qp棋牌旧版本 燕晋麻将 蓝月娱乐棋牌官方版 889棋牌官方版 口袋棋牌2933 虎牙棋牌官网版 太阳棋牌旧版 291娱乐棋牌官网版 济南震东棋牌最新版 盛世棋牌娱乐棋牌 虎牙棋牌手机版 889棋牌4.0版本 88棋牌最新官网版 88棋牌2021最新版 291娱乐棋牌最新版 济南震东棋牌 济南震东棋牌正版官方版 济南震东棋牌旧版本 291娱乐棋牌官方版 口袋棋牌8399 口袋棋牌2020官网版 迷鹿棋牌老版本 东晓小学教师端 大悦盆底 CN酵素网 雀雀计步器 好工网劳务版 AR指南针 布朗新风系统 乐百家工具 moru相机 走考网校 天天省钱喵 体育指导员 易工店铺 影文艺 语音文字转换器