有的人一看到这个题,很简单嘛最麻烦的就是从头遍历一遍的事情嘛. 不过要看清楚题! 40亿个无符号整数. 咱们生活中1G内存占用的字节数1024*1024*1024为1073741824个字节.粗略就是10亿个字节. 而40亿个无符号整数是160亿个字节. 也就是这些数据存储下来须要16G的内存. 那么问题来了,普通的工做电脑的内存都4G,好点的就是8G. (若是你是16G内存光速吃鸡那么当我没说)咱们能够发现这些数据的内存大于电脑的内存因此存储不下. 这个时候就很头大了,内存都存不下那么你怎么读取呢? 固然你说你直接去硬盘里面读.好! 没问题.从硬盘里面读取数据的速度和从内存中读取的速度根本没得比的.若是你的时间多也能够.不过咱们有一个更厉害的方法就是咱们的位图.位图就是给定一段连续的空间而后让这个空间的每一位都为0,再而后让每个位表示一个数字.再而后当你这个数字出现的 时候将它对应的那个位->置为1.这样的话存储40亿个数据,也就是存储40亿个位.也就是5亿个字节.大概512MB的样子. 这样的话咱们的内存存储这些数据也就是绰绰有余了.因此位图对于大数据的问题有着显著的效果。
#include "stdio.h"
// 用位图的方式实现大数据的查找
#include <vector>
#include <iostream>
using namespace std;
class CBitmapFind
{
enum{INFOBITS_IN_VECT = 8};
public:
// 肯定容器大小
explicit CBitmapFind(size_t nRange = 0)
{
BitmapVect.resize(nRange / INFOBITS_IN_VECT + 1);
}
// 添加单个元素并标记该元素
void AddElement(int nNum)
{
// 肯定该数据所在vect中的位置
int nVectIndex = nNum / INFOBITS_IN_VECT;
// 肯定在vect索引中的byte位置
int nByteIndex = nNum % 8;
BitmapVect[nVectIndex] |= (1 << nByteIndex);
}
// 删除单个元素并移除单个元素
void MoveElement(int nNum)
{
// 肯定该数据所在vect中的位置
int nVectIndex = nNum / INFOBITS_IN_VECT;
// 肯定在vect索引中的byte位置
int nByteIndex = nNum % 8;
BitmapVect[nVectIndex] &= ~(1 << nByteIndex);
}
bool TestBit(int nNum)
{
// 肯定该数据所在vect中的位置
int nVectIndex = nNum / INFOBITS_IN_VECT;
// 肯定在vect索引中的byte位置
int nByteIndex = nNum % 8;
return (BitmapVect[nVectIndex] & (1 << nByteIndex)? true:false);
}
private:
vector<char> BitmapVect;
};
// 用位图的方式实现大数据的查找,判断出现的次数,下面的代码只能处理出现次数小于等于3的状况
// 00 01 10 11
class CNBitmapFind
{
public:
enum{ INFOBITS_IN_VECT = 4 };
// 肯定容器大小
explicit CNBitmapFind(size_t nRange = 0)
{
BitmapVect.resize(nRange / INFOBITS_IN_VECT + 1);
}
// 添加单个元素并标记该元素出现的次数
void AddElement(int nNum)
{
// 肯定该数据所在vect中的位置
int nVectIndex = nNum / INFOBITS_IN_VECT;
// 肯定元素在vect索引中的byte位置
int nByteIndex = nNum % INFOBITS_IN_VECT;
nByteIndex *= 2;
bool first = BitmapVect[nVectIndex] & (1 << nByteIndex);
bool second = BitmapVect[nVectIndex] & (1 << (nByteIndex + 1));
if (!(first && second))
{
BitmapVect[nVectIndex] += (1 << nByteIndex);
}
}
int Test(int nNum)
{
// 肯定该数据所在vect中的位置
int nVectIndex = nNum / INFOBITS_IN_VECT;
// 肯定元素在vect索引中的byte位置
int nByteIndex = nNum % INFOBITS_IN_VECT;
nByteIndex *= 2;
int first = BitmapVect[nVectIndex] & (1 << nByteIndex)?1:0;
int second = BitmapVect[nVectIndex] & (1 << (nByteIndex + 1))?1:0;
return second * 2 + first;
}
private:
vector<char> BitmapVect;
};
void main()
{
int nReange = 4 * pow(10, 2);
CBitmapFind BitmapFind(nReange);
for (int i = 0; i < nReange; i++)
{
BitmapFind.AddElement(i);
}
cout << "CBitmapFind测试:" << endl;
BitmapFind.TestBit(401) ? (cout << "找到:" << 401 << endl) : (cout << "未找到" << 401 << endl);
BitmapFind.TestBit(388) ? (cout << "找到" << 388 << endl) : (cout << "未找到" << 388 << endl);
CNBitmapFind NBitmapFind(6);
NBitmapFind.AddElement(1);
NBitmapFind.AddElement(1);
NBitmapFind.AddElement(1);
NBitmapFind.AddElement(2);
NBitmapFind.AddElement(2);
NBitmapFind.AddElement(3);
cout << "CNBitmapFind测试:" << endl;
cout << "1出现的次数:" << NBitmapFind.Test(1) << endl;
cout << "2出现的次数:" << NBitmapFind.Test(2) << endl;
cout << "3出现的次数:" << NBitmapFind.Test(3) << endl;
}