mongodb中使用mapreduce进行分组统计
admin
2023-04-12 14:21:24
0

最近在统计某一个时间段的url去重数,由于数据量巨大导致报错,提示:

distinct failed: {
"errmsg" : "exception: distinct too big, 16mb cap",
"code" : 17217,
"ok" : 0
} at src/mongo/shell/collection.js:1108

最终通过mapreduce来解决如下:

//定义map函数
map=function(){
    emit(this.url,{"count":1});
}
//定义reduce函数
reduce=function(key,values){
    var total=0;
    for(var i=0; i < values.length; i++){
        total+=values[i].count;
    }
    return {count:total}
}
//执行mapreduce函数,其中out的值是存储执行结果的集合
db.runCommand({"mapreduce":"visit","map":map,"reduce":reduce,"query":{"vtime":{"$gte":1412611200,"$lte":1413907119}},"out":"test.tmp"});

关于mapreduce的选项解释如下:

"out":{replace:"collection name"} -- mapreduce输出结果会替换掉原来的collection,collection不存在则创建
"out":{merge:"collection name"} -- 将新老数据进行合并,新的替换旧的,没有的添加进去
"out":{reduce:"collection name"}-- 存在老数据时,在原来的基础上加新的数据(即new value=old value+mapreduce value)
"out":{inline:1} -- 不会创建collection,结果保存在内存里面,只限于结果小于16MB的情况


相关内容

热门资讯

AI会取代哪些职业?多个AI意... 当前,人们日益担忧人工智能(AI)将影响就业市场。美国近期一项研究显示,多个人工智能模型在预测哪些职...
大疆Air 4无人机曝光,预估... IT之家 5 月 12 日消息,消息源 Igor Bogdanov 昨日(5 月 11 日)在 X ...
中核国电漳州能源原党委书记、董... 中核集团中核国电漳州能源有限公司原党委书记、董事长何辉涉嫌严重违纪违法,目前正接受中央纪委国家监委驻...
总投资1.85亿元,郑州市金水... 【大河财立方消息】 5月11日,金水区人民政府对金水区城市更新项目入库信息进行公示,公示期为2026...
特朗普访华期间是否会讨论台湾和... 澎湃新闻记者 聂舒翼 谢瑞强5月12日,外交部发言人郭嘉昆主持例行记者会。有记者就特朗普访华期间是否...
AI+教育,郑州航空港区成果亮... 【大河财立方 记者 程帅星】5月11日,由教育部、浙江省人民政府共同主办的2026世界数字教育大会在...
外交部:中方反对美国向中国台湾... 新华社北京5月12日电(记者万倩仪、冯歆然)外交部发言人郭嘉昆12日在例行记者会上就中美关系和台湾问...
外交部:亚太各国应擦亮眼睛,共... 新华社北京5月12日电(记者董雪、孙楠)外交部发言人郭嘉昆5月12日在例行记者会上回答相关问题时表示...
坚定不移沿着习近平总书记指引的... 吴敏杰(右一)和陈萍(左一),由班车结缘。湖北日报全媒记者 张诗秋 摄淅川到柴湖的班车。李栀子 卢晋...
热搜爆了!腾讯张军: 不会开发... 5月11日晚,“微信状态 访客记录”爆上热搜第一。 今天(5月12日),微信员工@客村小蒋发文回应:...