数据从 Oracle 迁移到 GBase 8a 后，分页查询的不同实现方式总结（附：分片、分区、分桶的区别）

2026/7/3 16:11:13

本文对比了Oracle与GBase8a数据库的分页查询实现方式差异，为金融行业信创迁移提供技术参考。
Oracle传统采用ROWNUM三层嵌套写法（12c以下）或OFFSET-FETCH语法（12c+），而GBase8a使用标准LIMIT-OFFSET方式。
迁移需注意三点关键：
1）排序字段需确保唯一性；
2）GBase8a特有的gcluster_flip_pages参数可控制分页一致性（开启可能影响性能）；
3）提出分页SQL记忆口诀。
文章还说明了分片（物理存储）、分区（逻辑裁剪）、分桶（优化关联）的核心区别，建议迁移时优先采用GBase8a的标准语法，在性能与一致性间取得平衡。

数据从 Oracle 迁移到 GBase 8a 后，分页查询的不同实现方式总结

在金融行业信创迁移项目中，将数据从 Oracle 迁移到 GBase 8a（国产 MPP 数据库）后，分页查询的实现方式需要同步调整。两者的实现差异较大，下面进行系统对比。

GBase 中的“G”是General的缩写，代表“通用”的意思。
这个名字直接体现了南大通用（GBASE）公司早期对产品的定位思路：用产品名称的最后一个字母来标识其核心用途。这个“通用”的概念，与当时侧重特定应用场景的数据库产品（如安全数据库）形成了对比。
经过多年发展，GBase 目前已不再只是一个单一的数据库，而是一个覆盖多种技术路线和应用场景的产品家族。其中的几个主要产品有：
GBase 8a：一款分析型（OLAP）数据库，主要用于数据仓库、商业智能等海量数据分析场景，是我们之前聊过的大数据平台的重要组成部分。
GBase 8s：一款安全、事务型（OLTP）数据库，常用于对安全等级要求很高的金融、政务等核心业务系统。
GBase 8t：一款高端事务型（OLTP）数据库，基于国际知名的 Informix 数据库技术打造，核心目标是替代金融、电信等行业核心系统中的 Oracle 等国外数据库。
简单来说，“G”最初的“通用”含义，已经演变为一个统一的品牌标识，代表南大通用公司及其研发的整个 GBase 数据库产品生态。

一、核心差异概览

对比维度	Oracle（12c 以下）	Oracle（12c+）	GBase 8a
分页语法	`ROWNUM`伪列 + 三层子查询	`OFFSET ... FETCH`标准语法	`LIMIT ... OFFSET`标准语法
是否支持 OFFSET	❌ 不支持（12c 以下）	✅ 支持	✅ 支持
核心优化机制	`STOPKEY`（提前截断扫描）	`STOPKEY`（同 ROWNUM）	原生支持分页语法，内部有分页优化
排序要求	排序必须在最内层子查询中完成	排序直接在`ORDER BY`中完成	排序直接在`ORDER BY`中完成
分页一致性控制	依赖`ORDER BY`唯一性保证	依赖`ORDER BY`唯一性保证	可开启`gcluster_flip_pages`参数控制

二、分页查询写法对照（以“查第三页，每页20条”为例）

1. Oracle（12c 以下，使用 ROWNUM）

sql

SELECT * FROM ( SELECT A.*, ROWNUM AS RN FROM ( SELECT * FROM 表名 ORDER BY 排序字段 -- 排序必须在最内层 ) A WHERE ROWNUM <= 60 -- 结束行：20 × 3 = 60 ) WHERE RN >= 41; -- 起始行：20 × (3-1) + 1 = 41

关键机制：ROWNUM在数据行被提取时动态编号，WHERE ROWNUM <= 60触发STOPKEY优化，一旦扫描到第 60 行就立即停止，避免扫描全表。

ROWNUM是 Oracle 数据库中一个非常独特的内置功能，可以看作是它的一个“标志性”特性。
为了更好地理解它为什么特殊，可以从这两个方面来看：
它本质上是“伪列”，而非真实列：ROWNUM并不是表中真实存在的一个列，而是 Oracle 在查询时动态生成的序号。它从 1 开始，为结果集中的每一行临时分配一个编号，这个编号是“即用即算”的，用完就会消失。
它是 Oracle 的“独有方言”：ROWNUM是Oracle 特有的语法，在其他主流数据库中并没有完全一样的实现。例如，在MySQL和PostgreSQL中，实现相同功能通常使用的是LIMIT关键字。
不过需要留意的是，一些基于 Oracle 进行开发的数据库（如openGauss），为了提升兼容性，也可能会支持ROWNUM关键字。

在 Oracle 分页场景下，ROWNUM就像“边跑边数，数够了就停”，而ROW_NUMBER()则是“先把所有人都排好队，再从中数出某个位置的人”。对于大数据量的分页，ROWNUM的效率优势非常明显。
核心逻辑区别
对比维度 ROWNUM ROW_NUMBER()
执行时机 数据行被提取时动态生成，是先于ORDER BY的伪列。在ORDER BY排序完成后才进行计算，是一个窗口函数。
执行计划特征 能利用STOPKEY（行数限制）优化，一旦达到指定行数就立即停止扫描。必须先对全表数据排序，然后逐行标记行号，最后再过滤。
典型写法 三层子查询，内层控制结束行（如ROWNUM <= 60）子查询 +WHERE rn BETWEEN 41 AND 60
性能对比：为什么ROWNUM更优？
对于“查第三页”这类查询（跳过 40 行，取 20 行），性能差异源于它们对数据扫描量的不同：
使用ROWNUM（高效）：
逻辑是：数据行不断被提取，行号从 1 开始递增。Oracle 内部有一个STOPKEY优化，一旦行号达到 60（即WHERE ROWNUM <= 60），就会立即停止扫描数据文件，不再继续读取。
扫描量：只扫描 60 行（或更少）的数据，然后就返回了。
使用ROW_NUMBER()（相对低效）：
逻辑是：先对整张表进行排序，给每一行分配一个全局行号，然后从所有数据中挑选出行号在 41 到 60 的行。
扫描量：必须对整个表的数据进行排序和编号。即使你只取中间的 20 行，数据库仍然需要处理全表的数据才能计算出每一行的排名，这会导致大量的临时表空间使用和 I/O 消耗。

对比维度	ROWNUM	ROW_NUMBER()
执行时机	数据行被提取时动态生成，是先于`ORDER BY`的伪列。	在`ORDER BY`排序完成后才进行计算，是一个窗口函数。
执行计划特征	能利用`STOPKEY`（行数限制）优化，一旦达到指定行数就立即停止扫描。	必须先对全表数据排序，然后逐行标记行号，最后再过滤。
典型写法	三层子查询，内层控制结束行（如`ROWNUM <= 60`）	子查询 +`WHERE rn BETWEEN 41 AND 60`

结论与建议
场景推荐写法理由
大数据量、深分页 ROWNUM STOPKEY能提前终止扫描，性能远超需要全量排序的窗口函数。
小数据量、查询逻辑复杂 ROW_NUMBER() 可以接受性能差异，且代码可读性更高，更便于维护。
存在“跳跃”或“不连续”的行号需求 ROW_NUMBER() 例如需要在复杂分组内编号或跳过某些行，此时ROWNUM无法满足。

场景	推荐写法	理由
大数据量、深分页	`ROWNUM`	`STOPKEY`能提前终止扫描，性能远超需要全量排序的窗口函数。
小数据量、查询逻辑复杂	`ROW_NUMBER()`	可以接受性能差异，且代码可读性更高，更便于维护。
存在“跳跃”或“不连续”的行号需求	`ROW_NUMBER()`	例如需要在复杂分组内编号或跳过某些行，此时`ROWNUM`无法满足。

2. Oracle（12c+，使用 OFFSET ... FETCH）

sql

SELECT * FROM 表名 ORDER BY 排序字段 OFFSET 40 ROWS -- 跳过前 40 行（前两页） FETCH NEXT 20 ROWS ONLY; -- 再取 20 行（第三页）

关键机制：语法更简洁，底层同样可利用STOPKEY优化，性能与ROWNUM方式接近。

3. GBase 8a（使用 LIMIT ... OFFSET）

sql

SELECT * FROM 表名 ORDER BY 排序字段 LIMIT 20 OFFSET 40; -- 跳过前 40 行，取 20 行

关键机制：符合 SQL 标准，语法直观。GBase 8a 内部会对LIMIT进行优化处理。

三、迁移时的注意事项

1. 排序字段的唯一性

问题：如果ORDER BY字段不唯一（如只有交易日期），那么翻页时可能出现数据重复或遗漏。

解决方案：在ORDER BY后加上一个唯一字段（如主键），保证排序结果完全稳定：

sql

ORDER BY 交易日期, 交易流水号 -- 确保唯一性

2. GBase 8a 的分页一致性参数（重要）

GBase 8a 提供了gcluster_flip_pages参数，用于控制多分片环境下分页结果的一致性：

多分片环境是 GBase 8a 这类 MPP（大规模并行处理）数据库的核心架构特征。
简单来说，就是一张大表的数据，会按照某个分布策略（比如哈希或范围），被水平拆分并存储在多台服务器（称为数据节点）上。
在执行查询时，GBase 8a 会同时向所有节点发送指令，让它们并行处理自己分片上的数据，最后再将结果汇总。这种“分而治之”的架构，是它处理海量数据能如此高效的根本原因。
而gcluster_flip_pages参数，就是在这种并行架构下，用来控制多节点数据汇总时，分页结果是否绝对稳定的一个开关。

参数值	行为	适用场景
`0`（默认）	各分片独立排序后截取，再汇总，翻页结果可能不稳定	对一致性要求不高，追求性能
`1`（开启）	先汇总全部数据到一处，再统一排序、分页，结果绝对稳定	对一致性要求严格（如银行报表）

使用方法：

sql

SET gcluster_flip_pages = 1; -- 开启一致性保证 SELECT * FROM 表名 ORDER BY 排序字段 LIMIT 20 OFFSET 40;

⚠️ 注意：开启gcluster_flip_pages=1后，数据会汇聚到单个节点排序，当数据量大且OFFSET很大时，性能会明显下降。需在一致性和性能之间权衡。
cluster 群聚，聚集
flip 快速翻阅，浏览

四、迁移建议总结

场景	推荐写法	理由
迁移后优先推荐	GBase 8a 的`LIMIT ... OFFSET`	语法最简洁，代码可读性高，符合 SQL 标准
对分页一致性要求极高	开启`gcluster_flip_pages=1`，使用`LIMIT ... OFFSET`	保证跨分页数据绝对不重复、不遗漏
对性能要求高，一致性要求一般	使用`LIMIT ... OFFSET`（保持`gcluster_flip_pages=0`）	各分片并行截取，性能最好，但需接受潜在的分页不稳定风险
深分页（OFFSET 很大）性能问题	使用游标或基于排序键的范围查询（如`WHERE id > 上次最后一条的id`）	避免`OFFSET`跳过大量数据带来的性能损耗

五、一条 SQL 的写法记忆口诀

Oracle（传统）：三层套，ROWNUM 圈范围，STOPKEY 截断快。
Oracle（新版）：ORDER BY + OFFSET FETCH，简便又标准。
GBase 8a：ORDER BY + LIMIT OFFSET，简捷明了，一致性靠参数调。

ROW_NUMBER()的结果是什么？
当你执行带有ROW_NUMBER()的查询时：
sql
SELECT *, ROW_NUMBER() OVER (ORDER BY id) AS rn FROM your_table;
数据库会在查询执行的那一刻，对your_table的当前数据进行排序和编号。
这个编号结果不会存储在任何地方，它只是查询结果集的一部分，随着查询结束而消失。
下一次再执行同样的查询，数据库会重新读取表数据、重新排序、重新编号。
所以：它既不是快照，也不是缓存，而是一个“即用即算”的实时计算结果。

概念	是否持久化	是否随时间变化	典型例子
`ROW_NUMBER()`查询结果	❌ 不持久化，查询结束即消失	✅每次查询都重新计算，反映最新数据	`SELECT ROW_NUMBER() OVER(...) FROM ...`
快照（Snapshot）	✅ 持久化存储（如创建一张表）	❌ 固定不变，是过去某个时间点的状态	`CREATE TABLE snapshot AS SELECT ...`
视图（View）	❌ 不存数据，只存SQL定义	✅每次查询视图都重新执行SQL，反映最新数据	`CREATE VIEW v AS SELECT ROW_NUMBER()...`
物化视图（Materialized View）	✅ 持久化存储数据	⚠️按刷新策略更新（手动/定时），可能滞后于源表	`CREATE MATERIALIZED VIEW ... REFRESH ...`

如果想“缓存”这个排序结果，有什么办法？

如果需要复用这个排序结果，有以下几种方案：

方案一：创建普通视图（View）

sql

CREATE VIEW v_ranked_data AS SELECT *, ROW_NUMBER() OVER (ORDER BY id) AS rn FROM your_table;

效果：每次SELECT * FROM v_ranked_data都会重新执行排序，不缓存数据。
适用：希望逻辑复用，但数据量小或查询不频繁的场景。

方案二：创建物化视图（Materialized View）

sql

CREATE MATERIALIZED VIEW mv_ranked_data AS SELECT *, ROW_NUMBER() OVER (ORDER BY id) AS rn FROM your_table;

效果：数据物理存储在硬盘上，后续查询直接读这份“快照”。可以配置定时刷新（如每天凌晨）。
适用：数据变化不频繁、对查询性能要求高的场景（如报表）。

方案三：直接创建一张表（手工快照）

sql

CREATE TABLE snapshot_ranked AS SELECT *, ROW_NUMBER() OVER (ORDER BY id) AS rn FROM your_table;

效果：一次性持久化，后续需要手动重新创建来更新。
适用：临时分析、数据导出等一次性需求。

在分页场景下，为什么不建议用视图/物化视图来“缓存”排序？

因为分页查询通常是用户交互式的（如翻页），每次翻页请求的OFFSET值不同，无法提前预知所有可能的行号范围：

普通视图：每次翻页仍要全表排序，性能没变。
物化视图：虽然查询快了，但数据是“过去某个时间点”的，用户可能看到过时的数据，这在银行交易系统中是不可接受的。

所以：对于实时性要求高的分页查询，ROWNUM配合STOPKEY是 Oracle 中最优的方案，既不依赖缓存，也能利用优化器提前截断数据扫描。

一句话总结

ROW_NUMBER()的排序结果是“即用即算”的实时计算，不是快照，也不能自动缓存更新。如果需要持久化复用，可以用物化视图或普通表，但要接受数据新鲜度和存储成本的权衡。在分页场景下，实时查询 +ROWNUM的STOPKEY优化，才是兼顾性能和数据实时性的最佳选择。😊

六、一句话总结

Oracle 迁移到 GBase 8a 后，分页查询从“ROWNUM 三层套娃”演变为“LIMIT ... OFFSET 单层标准”，SQL 写法更简洁，但需要额外关注排序唯一性和 GBase 8a 独有的gcluster_flip_pages一致性参数。😊
Oracle 效率优化：上面给出的写法（内层ROWNUM <= 60+ 外层>= 41）优于直接写BETWEEN 41 AND 60，因为 Oracle 会将ROWNUM <= 60下推到内层提前截断，减少数据传输。
GBase 8a 一致性注意：GBase 8a 有一个控制分页一致性的参数gcluster_flip_pages，默认关闭。如果翻页结果出现重复或遗漏，可以尝试在当前会话开启：SET gcluster_flip_pages = 1;。不过开启后有一些使用限制（如不支持ORDER BY子查询等），需根据实际情况权衡。

分片和分区、分桶的区别是什么

这是一个非常经典且容易混淆的问题。

分片、分区、分桶是数据库和大数据领域中三个不同维度的数据分布策略。

为了让你一眼看清区别，我用一个表格来对比它们的核心定位：

对比维度	分区	分桶	分片
一句话定位	“按目录切”（逻辑划分）	“按哈希打散”（数据组织）	“按节点切”（物理存储）
核心目的	裁剪数据，快速过滤，减少扫描量	优化关联，让Join在本地完成，避免数据重分布	横向扩展，利用多台机器的存储和计算能力
数据切分依据	按业务字段的值范围（如日期、地区）	按字段的哈希值取模	按分布键的哈希值或范围
数据量级	每个分区的数据量可控（通常按天/月）	每个桶的数据量尽量均匀	每个分片的数据量大致均衡
典型场景	查询时指定`WHERE dt = '2026-07-01'`，只扫描该分区	两张表用相同字段分桶，做Bucket Map Join	支撑海量数据的分布式存储与并行计算
常见于	Hive、GBase 8a、Oracle	Hive、Spark	GBase 8a、MongoDB、Elasticsearch

用一个生活中的例子帮你加深理解

想象你在管理一个全国连锁的图书馆：

分区：就像图书馆按楼层分类——一楼放2024年的书，二楼放2025年的书。你要找今年的书，直接上二楼，不用翻遍整栋楼。这就是分区裁剪。
分桶：就像在每层楼里，按书名首字母分成A-Z共26个书架。找《红楼梦》，直接去H架，比在整层楼里乱翻快得多。这就是分桶打散，方便快速定位。
分片：就像你在全国有多个分馆——北京馆、上海馆、广州馆，每座分馆都存了部分书籍。读者分散在全国各地，可以就近借阅。这就是数据分片，实现了水平扩展。

在实际大数据架构中的层级关系

这三个概念通常不是平级的，而是分层配合使用的。例如在Hive中：

text

表（Table） ├── 分区（Partition）—— 第一层：按日期/地区逻辑划分 │ └── 分桶（Bucket）—— 第二层：在每个分区内，按哈希值打散成多个文件 │ └── 实际数据文件

而分片则属于MPP数据库（如GBase 8a）的物理存储层概念，对业务来说是透明的——你不需要关心数据具体存在哪个节点上，只需在创建表时指定分布键，数据库会自动将数据打散到各个分片。

总结一句话

分区：是逻辑划分（按业务维度），用来减少扫描量。
分桶：是数据组织方式（按哈希），用来加速关联查询。
分片：是物理存储分布（跨机器），用来支撑海量数据。

数据从 Oracle 迁移到 GBase 8a 后，分页查询的不同实现方式总结（附：分片、分区、分桶的区别）