这道题应该算是我原创的的一道题,来源于我遇到的一个具体需求。大体需求是已知一批数和每一个数出现的次数,而后写个接口,每次调用都能返回已知数据中的某个数,且返回的几率和原始数据中每一个数出现的几率一致,题目描述起来有些绕口,咱们来举个实际的例子。
以上面的输入为例,要求实现的接口必须以11.96%的几率返回五、18.10%的几率返回91……16.55%的几率返回98,固然个人要求不单单是这几个数,而是可能有10^5个数。 先别急着往下看,给你几分钟先思考下。java
各类语言其实都内置了random函数,能够随机返回int或者long型的随机数,这里咱们先不考虑溢出的问题。为了方便讲解,假设咱们已有n个数存在在num[n]中,其出现的频次存放在fre[n]中。 借助已有的random(),咱们很简单就能够生成0-n之间的一个随机数i,可是若是直接返回num[i]的话,每一个数返回的几率是一致的,明显不知足咱们的需求。dom
其实解决方案也很简单,咱们按照每一个数出现的频次大小,将其映射成不一样的区间大小,出现的几率越大,区间越大。想象下,这些数据按不一样的区间大小把一个飞镖盘分红不一样的部分,咱们生成数的时候就是拿个飞镖随机扎,扎到哪一个算哪一个。
固然咱们能够直接用一位直线区间描述上面的二维飞镖盘模型。只须要随机生成0-100%之间的数便可,假设某次随机生成的数是0.65(65%),咱们算一下 正好对应在数字58对应的区间上,因此此次直接返回58就是了,咱们能够开始写代码了。
函数
int[] num; // 数字 int[] fre; // 出现的频次 double[] pro; // 出现的几率 int n; // 数据量 void init() { int sum = 0; for (int i = 0; i < n; i++) { sum += fre[i]; } for (int i = 0; i < n; i++) { pro[i] = fre[i]/sum; // 计算出每一个数出现的几率 } } int getRandom() { double rp = random.getNextDouble(); double sum = 0; for (int i = 0; i < n; i++) { if (sum >= r && sum + pro[i] > rp) { //找到命中的区间 return num[i]; } sum += pro[i]; } return num[n-1]; }
彷佛一切都很完美,但每次getRandom()的时间复杂度是O(n),大量的使用性能也抗不太住。有没有更好的实现方式?既然写到这里了,必然是有的。性能
上面代码循环中有个sum += pro[i]; 每次计算都要累加,咱们是否是能够提早在init()中累加好?而后你会发现由于每次累加的数都只正数,因此pro是个递增序列,对于有序序列的查找 二分必然是首选。这时候咱们能够用二分重写上面代码。.net
int[] num; // 数字 int[] fre; // 出现的频次 double[] pro; // 出现的几率 int n; // 数据量 void init() { int sum = 0; for (int i = 0; i < n; i++) { sum += fre[i]; } for (int i = 0; i < n; i++) { pro[i] = fre[i]/sum; // 计算出每一个数出现的几率 if (i != 0) { pro[i] += pro[i-1]; } } } int getRandom() { double rp = random.getNextDouble(); int l = 0; int r = n-1; while (l != r) { // 二分查找肯定区间位置 int mid = (l + r) >> 1; if (pro[mid] < rp) { l = mid + 1; } else { r = mid; } } return num[n-1]; }
到这里问题就完全解决了,可是最后给你们留下一个思考题。code
上述代码中pro[]的计算有必要吗? 可否直接用fre[]替代其功能?
本文来自https://blog.csdn.net/xindooblog