MySql系列:MySql分页时使用 limit+order by 会出现数据重复问题 | 八月更文挑战

这是我参与8月更文挑战的第9天,活动详情查看:8月更文挑战mysql

📖摘要

能把复杂的知识讲的简单很重要sql

在学习的过程当中咱们看过不少资料、视频、文档等,由于如今资料视频都较多因此每每一个知识点会有多种多样的视频形式讲解。除了推广营销之外,确实有不少人的视频讲解很是优秀,例如李永乐老师的短视频课,能够在一个黑板上把那么复杂的知识,讲解的那么容易理解,那么透彻。而咱们学习编程的人也是,不仅是要学会把知识点讲明白,也要写明白。数据库


🌂问题描述

MySQL 中咱们一般会采用 limit 来进行翻页查询,好比 limit(0,10) 表示列出第一页的10条数据, limit(10,10) 表示列出第二页。可是,当 limit 遇到 order by 的时候,可能会出现翻到第二页的时候,居然又出现了第一页的记录。编程

具体以下:markdown

SELECT
  `post_title`,
  `post_date`
FROM
  post
WHERE
  `post_status` = 'publish'
ORDER BY
  view_count desc
LIMIT
  5, 5
复制代码

使用上述SQL查询的时候,颇有可能出现和 LIMIT 0,5 相同的某条记录。而若是使用以下方式,则不会出现重复的状况:post

SELECT
  *
FROM
  post
WHERE
  post_status = 'publish'
ORDER BY
  view_count desc
LIMIT
  5, 5
复制代码

可是,因为 post 表的字段不少,仅仅但愿用这两个字段,不想把 post_content也查出来。为了解决这个状况,在 ORDER BY 后面使用了两个排序条件来解决这个问题,以下:学习

SELECT
  `post_title`,
  `post_date`
FROM
  post
WHERE
  `post_status` = 'publish'
ORDER BY
  view_count desc,
  ID asc
LIMIT
  5, 5
复制代码

按理来讲, MySQL 的排序默认状况下是以主键ID做为排序条件的,也就是说,若是在 view_count 相等的状况下,主键ID做为默认的排序条件,不须要咱们画蛇添足加 ID asc。可是事实就是,MySQLorder bylimit 混用的时候,出现了排序的混乱状况。优化


🤳分析问题

MySQL 5.6 的版本上,优化器在遇到 order by limit 语句的时候,作了一个优化,即 使用了 priority queuespa

使用 priority queue 的目的,就是在不能使用索引有序性的时候,若是要排序,而且使用了 limit n,那么只须要在排序的过程当中,保留n条记录便可,这样虽然不能解决全部记录都须要排序的开销,可是只须要 sort buffer 少许的内存就能够完成排序。code

之因此 MySQL 5.6 出现了第二页数据重复的问题,是由于 priority queue 使用了堆排序的排序方法,而堆排序是一个不稳定的排序方法,也就是相同的值可能排序出来的结果和读出来的数据顺序不一致。

MySQL 5.5 没有这个优化,因此也就不会出现这个问题。

也就是说,MySQL 5.5 是不存在本文提到的问题的,5.6 版本以后才出现了这种状况

再看下MySQL解释sql语言时的执行顺序:

(1)     SELECT 
(2)     DISTINCT <select_list>
(3)     FROM <left_table>
(4)     <join_type> JOIN <right_table>
(5)     ON <join_condition>
(6)     WHERE <where_condition>
(7)     GROUP BY <group_by_list>
(8)     HAVING <having_condition>
(9)     ORDER BY <order_by_condition>
(10)    LIMIT <limit_number>
复制代码

执行顺序依次为 form… where… select… order by… limit… ,因为上述 priority queue 的缘由,在完成 select 以后,全部记录是以堆排序的方法排列的,在进行 order by 时,仅把 view_count 值大的往前移动。

但因为 limit 的因素,排序过程当中只须要保留到5条记录便可, view_count 并不具有索引有序性,因此当第二页数据要展现时, mysql 见到哪一条就拿哪一条,所以,当排序值相同的时候,第一次排序是随意排的,第二次再执行该sql的时候,其结果应该和第一次结果同样。


🤳解决问题

(1) 索引排序字段

若是在字段添加上索引,就直接按照索引的有序性进行读取并分页,从而能够规避遇到的这个问题。

(2) 正确理解分页

分页是创建在排序的基础上,进行了数量范围分割。排序是数据库提供的功能,而分页倒是衍生出来的应用需求。

MySQLOracle 的官方文档中提供了 limit nrownum < n 的方法,但却没有明确的定义分页这个概念。

还有重要的一点,虽然上面的解决方法能够缓解用户的这个问题,但按照用户的理解,依然还有问题:好比,这个表插入比较频繁,用户查询的时候,在 read-committed 的隔离级别下,第一页和第二页仍然会有重合。

因此,分页一直都有这个问题,不一样场景对数据分页都没有很是高的准确性要求。

(3) 一些常见的数据库排序问题

不加 order by 的时候的排序问题

用户在使用 OracleMySQL 的时候,发现 MySQL 老是有序的, Oracle 却很混乱,这个主要是由于 Oracle 是堆表, MySQL 是索引聚簇表的缘由。因此没有 order by 的时候,数据库并不保证记录返回的顺序性,而且不保证每次返回都一致的。

分页问题 分页重复的问题

如前面所描述的,分页是在数据库提供的排序功能的基础上,衍生出来的应用需求,数据库并不保证分页的重复问题。

NULL值和空串问题

不一样的数据库对于 NULL 值和空串的理解和处理是不同的,好比 Oracle NULLNULL 值是没法比较的,既不是相等也不是不相等,是未知的。而对于空串,在插入的时候, MySQL 是一个字符串长度为0的空串,而 Oracle 则直接进行 NULL 值处理。

🎉最后

  • 更多参考精彩博文请看这里:《陈永佳的博客》
  • 喜欢博主的小伙伴能够加个关注、点个赞哦,持续更新嘿嘿!
相关文章
相关标签/搜索