Mysql随机所需要考虑的问题

按时间逆序排列，是列表数据的常见排法，不过当用户缺乏活跃，帖子数据增量较少时，就会出现用户几次下拉刷新后，发现没变化，从而认为平台数据太少，没啥好玩的，就离开了。这个时候往往需要考虑做一些随机列表，让用户每次刷新都能看到不一样的内容，延长用户的停留时间。

随机从数据库中取数据，看似简单，实则并不容易，坑很多，要考虑的问题也很多。

最先想到的就是使用如下SQL，一句话搞定：

select * from Subject order by rand() limit 10;

Mysql文档里也有特别描述，使用order by rand()会建立临时表，会全表描述。对于几十万的数据量，奇慢无比，某次愉快的长途旅行，就因为这个SQL，不得不在火车上紧急处理线上问题。

接下来，也很容易想到解决方案，网上的方案也大同小异：

select * from Subject where id >= (select floor(rand() * (max(id) - min(id)) + min(id)) from Subject) limit 1;

不知道为啥，让Mysql自己生成随机数，就会有点慢，所以干脆不用Mysql的rand()函数，而由后端代码生成拼接到SQL中：

select * from Subject where id >= (select floor(0.123 * (max(id) - min(id)) + min(id)) from Subject) limit 1;

注意：这里只能取一条，要取10条，就需要执行10次，所以还不如简化一下，执行11次查询，第一次把min(id)和max(id)查出来，每次由程序算出随机值再拼接入SQL：

select min(id), max(id) from Subject;
select * from Subject where id>=123;
select * from Subject where id>=321;
...

其实这还不够，10条随机数据，有一个隐形条件就是这10条数据自身不能有重复，那么就需要有一个Set进行除重，这样可能会执行11次以上的SQL查询，不过速度还是相当快的。

但也有一个问题，就是当初期，数据量比较少，出现重复数据的概率会非常高，甚至是数据量不足10条时，会导致死循环。所以你需要知道表里大致有多少条数据，比如大于1000条，就按后面的方法走，少于1000条，就直接按order by rand()走，这个判断还是相当快的：

select id from Subject limit 1000,1;

综上，要实现从Mysql数据库表里随机取10条数据，性能佳、逻辑正确，代码量还是不小的。

发表于 2016年11月17日 23:52 评论：0 阅读：3104