百亿级数据分表后怎么分页查询？_创投

作者 | 科技缪缪

来源 | 科技缪缪（ID：kejimiumiu）

头图 | CSDN 下载自东方IC

当营业范围达到必定范围之后，像淘宝日订单量在5000万单以上，美团3000万单以上。数据库面对海量的数据压力，分库分表就是必须进行的操作了。而分库分表之后一些惯例的查询可能都邑产生问题，最常见的就是比如分页查询的问题。一般我们把分表的字段称作shardingkey，比如订单表按照用户ID作为shardingkey，那么假如查询前提中不带用户ID查询怎么做分页？又比如更多的多维度的查询都没有shardingkey又怎么查询？

独一主键

一般我们数据库的主键都是自增的，那么分表之后主键冲突的问题就是一个无法避免的问题，最简单的办法就是以一个独一的营业字段作为独一的主键，比如订单表的订单号肯定是全局独一的。

常见的分布式生成独一ID的方法很多，最常见的雪花算法Snowflake、滴滴Tinyid、美团Leaf。以雪花算法举例来说，一毫秒可以生成 4194304多个ID。

第一位不应用，默认都是0， 41位时光戳精确到毫秒，可以容纳69年的时光， 10位工作机械ID高5位是数据中间ID，低5位是节点ID， 12位序列号每个节点每毫秒累加，累计可以达到2^12 4096个ID。

分表

第一步，分表后要怎么包管订单号的独一搞定了，如今推敲下分表的问题。起首根据自身的营业量和增量来推敲分表的大年夜小。

举个例子，如今我们日单量是10万单，预估一年后可以达到日100万单，根据营业属性，一般我们就支撑查询半年内的订单，跨越半年的订单须要做归档处理。

那么以日订单100万半年的数量级来看，不分表的话我们订单量将达到100万X180=1.8亿，以这个数据量级部分表的话肯定单表是扛不住的，就算你能扛RT的时光你也根本无法接收吧。根据经验单表几百万的数量对于数据库是没什么压力的，那么只要分256张表就足够了，1.8亿/256≈70万，假如为了保险起见，也可以分到512张表。那么推敲一下，假如营业量再增长10倍达到1000万单天天，分表1024就是比较合适的选择。

经由过程分表加上跨越半年的数据归档之后，单表70万的数据就足以应对大年夜部分场景了。接下来对订单号hash，然后对256取模的就可以落到具体的哪张表了。

那么，因为独一主键都是以订单号作为根据，以前你写的那些根据主键ID做查询的就不克不及用了，这就涉及到了汗青一些查询功能的修改。不过这都不是事儿对吧，都改成以订单号来查就行了。这都不是问题，问题在我们的标题说的点上。

C端查询

说了半天，总算到了正题了，那么分表之后查询和分页查询的问题怎么解决？

起首说带shardingkey的查询，比如就经由过程订单号查询，不管你分页照样怎么样都是能直接定位到具体的表来查询的，显然查询是不会有什么问题的。

假如不是shardingkey的话，上面举例说的以订单号作为shardingkey的话，像APP、小法度榜样这种一般都是经由过程用户ID查询，那这时刻我们经由过程订单号做的sharding怎么办？很多公司订单表直接用用户ID做shardingkey，那么很简单，直接查就完了。那么订单号怎么办，一个很简单的办法就是在订单号上带上用户ID的属性。举个很简单的例子，本来41位的时光戳你认为用不完，用户ID是10位的，订单号的生陈规矩带上用户ID，落具体表的时刻根据订单号中10位用户ID hash取模，如许无论根据订单号照样用户ID查询后果都是一样的。

当然，这种方法只是举例，具体的订单号生成的规矩，若干位，包含哪些身分根据本身的营业和实现机制来决定。

好，那么无论你是订单号照样用户ID作为shardingkey，按照以上的两种方法都可以解决问题了。那么还有一个问题就是假如既不是订单号又不是用户ID查询怎么办？最直不雅的例子就是来自商户端或者后台的查询，商户端都是以商户或者说卖家的ID作为查询前提来查的，后台的查询前提可能就更复杂了，像我碰着的有些后台查询前提能有几十个，这怎么查？？？别急，接下来分开说B端和后台的复杂查询。

实际中真正的流量大年夜头都是来自于用户端C端，所以本质上解决了用户端的问题，这个问题就解了大年夜半，剩下来自商户卖家端B端、后台支撑运营营业的查询流量并不会很大年夜，这个问题就好解。

其他端查询

针对B端的非shardingkey的查询有两个办法解决。

双写，双写就是下单的数据落两份，C端和B端的各自保存一份，C端用你可以用单号、用户ID做shardingkey都行，B端就用商家卖家的ID作为shardingkey就好了。有些同窗会说了，你双写不影响机能吗？因为对于B端来说稍微的延迟是可以接收的，所以可以采取异步的方法去落B端订单。你想想你去淘宝买个器械下单了，卖家稍微延迟个一两秒收到这个订单的消息有什么关系吗？你点个外卖商户晚一两秒收到这个订单有什么太大年夜影响吗？

这是一个解决筹划，别的一个筹划就是走 离线数仓或者ES查询，订单数据落库之后，不管你经由过程binlog照样MQ消息的都情势，把数据同步到数仓或者ES，他们支撑的数量级对于这种查询前提来说就很简单了。同样这种方法肯定是稍微有延迟的，然则这种可控范围的延迟是可以接收的。

而针对治理后台的查询，比如运营、营业、产品须要看数据，他们天然须要复杂的查询前提，同样走ES或者数仓都可以做获得。假如不消这个筹划，又要不带shardingkey的分页查询，兄弟，这就只能扫全表查询聚合数据，然背工动做分页了，然则如许查出来的成果是有限制的。

比如你256个片，查询的时刻轮回扫描所有的分片，每个片取20条数据，最后聚合数据手工分页，那必定是弗成能查到全量的数据的。

总结

分库分表后的查询问题，对于有经验的同窗来说其实这个问题都知道，然则我信赖其实大年夜部分同窗做的营业可能都没来到这个数量级，分库分表可能都逗留在概念阶段，面试被问到后就七手八脚了，因为没有经验不知道怎么办。

分库分表起首是基于现有的营业量和将来的增量做出断定，比如拼多多这种日单量5000万的，半年数据得有百亿级别了，那都得分到4096张表了对吧，然则实际的操作是一样的，对于你们的营业分4096那就没有须要了，根据营业做出合理的选择。

对于基于shardingkey的查询我们可以很简单的解决，对于非shardingkey的查询可以经由过程落双份数据和数仓、ES的筹划来解决，当然，假如分表后数据量很小的话，建好索引，扫全表查询其实也不是什么问题。

上一篇：水下智能装备企业深之蓝完成 2 亿元 Pre-IPO 轮融资
下一篇：专注于工业AI视觉，阿丘科技完成2000万美元B轮融资

百亿级数据分表后怎么分页查询？

为您推荐

深度揭秘网络AG虚拟平台真人直播视频网站造假坑骗真实内幕

物理学第七版下册马文蔚课后习题答案解析

Steam创始人G胖暗示阀门将为主机平台推出游戏

「报修易」助力设备“零故障”

从源头守护安全让App Store给你的苹果设备一份保险

Steam创始人G胖暗示阀门将为主机平台推出游戏

高频HIVE-SQL笔试题详解（一）

为什么很多人都不喜欢小米手机？

三维可视化管理系统在智慧园区集成管理平台的价值

杭州集中供地下半场：华润百亿造城、黑马中骏闯入