详解Mongodb?多文档聚合操作处理方法(Map-reduce?函数)

更新时间：2023年07月25日 14:42:57 作者：Ethanchen's?notes

这篇文章主要介绍了Mongodb多文档聚合操作处理方法（Map-reduce函数）,本文通过示例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下

聚合

聚合操作处理多个文档并返回计算结果。您可以使用聚合操作来：

将多个文档中的值分组在一起。
对分组数据执行操作以返回单个结果。
分析数据随时间的变化。

要执行聚合操作，您可以使用：

聚合管道
单一目的聚合方法
Map-reduce 函数

Map-reduce 函数

在mongoshell 中，该db.collection.mapReduce() 方法是命令的包装器mapReduce。下面的例子使用该db.collection.mapReduce()方法。

定义： db.collection.mapReduce(map,reduce, { <options> })

该map功能有以下要求：

在map函数中，将当前文档引用为函数中的this。
该map函数不应出于任何原因访问数据库。
该map函数应该是纯粹的，或者对函数之外没有影响（即副作用）。
该map函数可以选择调用emit(key,value)任意次数来创建key与关联的输出文档value。

# 原型如下：
function() {
   ...
   emit(key, value);
}

该reduce函数表现出以下行为：

该reduce函数不应访问数据库，即使是执行读取操作。
该reduce功能不应影响外部系统。
reduceMongoDB 可以针对同一个键多次调用该函数。在这种情况下，该键的函数的先前输出将成为该键的reduce 下一个函数调用的输入值之一。
该reduce函数可以访问参数中定义的变量scope。

# 该reduce函数具有以下原型：
function(key, values) {
   ...
   return result;
}

插入测试数据。如下：

sit_rs1:PRIMARY> db.orders.insertMany([
...    { _id: 1, cust_id: "A", ord_date: new Date("2023-06-01"), price: 15, items: [ { sku: "apple", qty: 5, price: 2.5 }, { sku: "apples", qty: 5, price: 2.5 } ], status: "1" },
...    { _id: 2, cust_id: "A", ord_date: new Date("2023-06-08"), price: 60, items: [ { sku: "apple", qty: 8, price: 2.5 }, { sku: "banana", qty: 5, price: 10 } ], status: "1" },
...    { _id: 3, cust_id: "B", ord_date: new Date("2023-06-08"), price: 55, items: [ { sku: "apple", qty: 10, price: 2.5 }, { sku: "pears", qty: 10, price: 2.5 } ], status: "1" },
...    { _id: 4, cust_id: "B", ord_date: new Date("2023-06-18"), price: 26, items: [ { sku: "apple", qty: 10, price: 2.5 } ], status: "1" },
...    { _id: 5, cust_id: "B", ord_date: new Date("2023-06-19"), price: 40, items: [ { sku: "banana", qty: 5, price: 10 } ], status: "1"},
...    { _id: 6, cust_id: "C", ord_date: new Date("2023-06-19"), price: 38, items: [ { sku: "carrots", qty: 10, price: 1.0 }, { sku: "apples", qty: 10, price: 2.5 } ], status: "1" },
...    { _id: 7, cust_id: "C", ord_date: new Date("2023-06-20"), price: 21, items: [ { sku: "apple", qty: 10, price: 2.5 } ], status: "1" },
...    { _id: 8, cust_id: "D", ord_date: new Date("2023-06-20"), price: 76, items: [ { sku: "banana", qty: 5, price: 10 }, { sku: "apples", qty: 10, price: 2.5 } ], status: "1" },
...    { _id: 9, cust_id: "D", ord_date: new Date("2023-06-20"), price: 51, items: [ { sku: "carrots", qty: 5, price: 1.0 }, { sku: "apples", qty: 10, price: 2.5 }, { sku: "apple", qty: 10, price: 2.5 } ], status: "1" },
...    { _id: 10, cust_id: "D", ord_date: new Date("2023-06-23"), price: 23, items: [ { sku: "apple", qty: 10, price: 2.5 } ], status: "1" }
... ])
{
        "acknowledged" : true,
        "insertedIds" : [
                1,
                2,
                3,
                4,
                5,
                6,
                7,
                8,
                9,
                10
        ]
}
sit_rs1:PRIMARY> db.orders.find()
{ "_id" : 4, "cust_id" : "B", "ord_date" : ISODate("2023-06-18T00:00:00Z"), "price" : 26, "items" : [ { "sku" : "apple", "qty" : 10, "price" : 2.5 } ], "status" : "1" }
{ "_id" : 6, "cust_id" : "C", "ord_date" : ISODate("2023-06-19T00:00:00Z"), "price" : 38, "items" : [ { "sku" : "carrots", "qty" : 10, "price" : 1 }, { "sku" : "apples", "qty" : 10, "price" : 2.5 } ], "status" : "1" }
{ "_id" : 1, "cust_id" : "A", "ord_date" : ISODate("2023-06-01T00:00:00Z"), "price" : 15, "items" : [ { "sku" : "apple", "qty" : 5, "price" : 2.5 }, { "sku" : "apples", "qty" : 5, "price" : 2.5 } ], "status" : "1" }
{ "_id" : 2, "cust_id" : "A", "ord_date" : ISODate("2023-06-08T00:00:00Z"), "price" : 60, "items" : [ { "sku" : "apple", "qty" : 8, "price" : 2.5 }, { "sku" : "banana", "qty" : 5, "price" : 10 } ], "status" : "1" }
{ "_id" : 9, "cust_id" : "D", "ord_date" : ISODate("2023-06-20T00:00:00Z"), "price" : 51, "items" : [ { "sku" : "carrots", "qty" : 5, "price" : 1 }, { "sku" : "apples", "qty" : 10, "price" : 2.5 }, { "sku" : "apple", "qty" : 10, "price" : 2.5 } ], "status" : "1" }
{ "_id" : 3, "cust_id" : "B", "ord_date" : ISODate("2023-06-08T00:00:00Z"), "price" : 55, "items" : [ { "sku" : "apple", "qty" : 10, "price" : 2.5 }, { "sku" : "pears", "qty" : 10, "price" : 2.5 } ], "status" : "1" }
{ "_id" : 5, "cust_id" : "B", "ord_date" : ISODate("2023-06-19T00:00:00Z"), "price" : 40, "items" : [ { "sku" : "banana", "qty" : 5, "price" : 10 } ], "status" : "1" }
{ "_id" : 7, "cust_id" : "C", "ord_date" : ISODate("2023-06-20T00:00:00Z"), "price" : 21, "items" : [ { "sku" : "apple", "qty" : 10, "price" : 2.5 } ], "status" : "1" }
{ "_id" : 8, "cust_id" : "D", "ord_date" : ISODate("2023-06-20T00:00:00Z"), "price" : 76, "items" : [ { "sku" : "banana", "qty" : 5, "price" : 10 }, { "sku" : "apples", "qty" : 10, "price" : 2.5 } ], "status" : "1" }
{ "_id" : 10, "cust_id" : "D", "ord_date" : ISODate("2023-06-23T00:00:00Z"), "price" : 23, "items" : [ { "sku" : "apple", "qty" : 10, "price" : 2.5 } ], "status" : "1" }

示例：按客户统计

对集合 orders 执行map-reduce操作，按 cust_id 进行分组，然后统计每个客户的 price 计算总和，如下：

首先，我们需要定义map函数来处理每个输入文档:

在函数中，this指的是map-reduce操作正在处理的文档。
该函数将每个文档的 price 映射为 cust_id，并发出 cust_id 和 price 。

sit_rs1:PRIMARY> var myMapFun = function() {
...    emit(this.cust_id, this.price);
... };
sit_rs1:PRIMARY> print(myMapFun)
function() {
   emit(this.cust_id, this.price);
}

然后，用两个参数 keyCustId 和 valuesPrices 定义相应的reduce函数。这里需要调用数组的 sum 方法计算客户订单总价。

valuesPrices 是一个数组，其元素是map函数发出的price 字段的值，并按 keyCustId 分组。
该函数将 valuesPrice 数组缩减为其元素的总和

# 计算数组元素总和
sit_rs1:PRIMARY> Array.sum([2,2,6,8])
18
# 计算数组平均值
sit_rs1:PRIMARY> Array.avg([1,2,3])
2
sit_rs1:PRIMARY> var myReduceFun = function(keyCustId, valuesPrices) {
...    return Array.sum(valuesPrices);
... };
sit_rs1:PRIMARY> print(myReduceFun)
function(keyCustId, valuesPrices) {
   return Array.sum(valuesPrices);
}

最后，使用 myMapFun 函数和 myReduceFun 函数对集合 orders 中的所有文档执行map-reduce统计：

out: 指定map-reduce操作结果的位置。您可以输出到集合、通过操作输出到集合或内联输出。
此操作将结果输出到名为的集合 map_reduce_out。如果该 map_reduce_out 集合已存在，则该操作将使用此 Map-Reduce 操作的结果替换内容。

sit_rs1:PRIMARY> db.orders.mapReduce(
...    myMapFun,
...    myReduceFun,
...    { out: "map_reduce_out" }
... )
{
        "result" : "map_reduce_out",
        "ok" : 1,
        "$clusterTime" : {
                "clusterTime" : Timestamp(1690259241, 6),
                "signature" : {
                        "hash" : BinData(0,"Kur+ueslJYcT5oExd8ujPIC/J3Q="),
                        "keyId" : NumberLong("7205479298910650370")
                }
        },
        "operationTime" : Timestamp(1690259241, 6)
}

查询 map_reduce_out 集合以验证结果是否正确：

sit_rs1:PRIMARY> db.map_reduce_out.find().sort( { _id: 1 } )
{ "_id" : "A", "value" : 75 }
{ "_id" : "B", "value" : 121 }
{ "_id" : "C", "value" : 59 }
{ "_id" : "D", "value" : 150 }
# 检查 cust_id 为 A 的客户， 总和是 75 正确
sit_rs1:PRIMARY> db.orders.find({ "cust_id" : "A"}, {"price": 1})
{ "_id" : 1, "price" : 15 }
{ "_id" : 2, "price" : 60 }
# 检查 cust_id 为 B 的客户，总和是 121 正确
sit_rs1:PRIMARY> db.orders.find({ "cust_id" : "B"}, {"price": 1})
{ "_id" : 4, "price" : 26 }
{ "_id" : 3, "price" : 55 }
{ "_id" : 5, "price" : 40 }

示例：按日期统计

按日期统计，和上面示例一样，只需要把 map 函数重新定义如下，将每个文档的 price 映射为 ord_date，并发出 ord_date 和 price 。

sit_rs1:PRIMARY> var myMapFun2 = function() {
...     emit(this.ord_date, this.price);
... };
sit_rs1:PRIMARY> print(myMapFun2)
function() {
    emit(this.ord_date, this.price);
}

然后，用两个参数 keyOrdDate 和 valuesPrices 定义相应的reduce函数。这里需要调用数组的 avg 方法计算平均客单价。

valuesPrices 是一个数组，其元素是map函数发出的 price 字段的值，并按 keyOrdDate 分组。
该函数将 valuesPrice 数组缩减为其元素的总和的平均值

sit_rs1:PRIMARY> var myReduceFun2 = function(keyOrdDate, valuesPrices) {
...    return Array.avg(valuesPrices);
... };
sit_rs1:PRIMARY> print(myReduceFun2)
function(keyOrdDate, valuesPrices) {
   return Array.avg(valuesPrices);
}

最后，使用 myMapFun2 函数和 myReduceFun2 函数对集合 orders 中的所有文档执行map-reduce统计：

sit_rs1:PRIMARY> db.orders.mapReduce(
...    myMapFun2,
...    myReduceFun2,
...    { out: "map_reduce_out2" }
... )
{
        "result" : "map_reduce_out2",
        "ok" : 1,
        "$clusterTime" : {
                "clusterTime" : Timestamp(1690265083, 8),
                "signature" : {
                        "hash" : BinData(0,"pCWskY3HjLGEjSk00ARYdZKECDE="),
                        "keyId" : NumberLong("7205479298910650370")
                }
        },
        "operationTime" : Timestamp(1690265083, 8)
}

查询 map_reduce_out2 集合以验证结果是否正确：

sit_rs1:PRIMARY> db.map_reduce_out2.find()
{ "_id" : ISODate("2023-06-08T00:00:00Z"), "value" : 57.5 }
{ "_id" : ISODate("2023-06-01T00:00:00Z"), "value" : 15 }
{ "_id" : ISODate("2023-06-18T00:00:00Z"), "value" : 26 }
{ "_id" : ISODate("2023-06-20T00:00:00Z"), "value" : 49.333333333333336 }
{ "_id" : ISODate("2023-06-23T00:00:00Z"), "value" : 23 }
{ "_id" : ISODate("2023-06-19T00:00:00Z"), "value" : 39 }
# 检查日期2023-06-08的订单平均值
sit_rs1:PRIMARY> db.orders.find({ "ord_date" : ISODate("2023-06-08T00:00:00Z")}, {"price": 1})
{ "_id" : 2, "price" : 60 }
{ "_id" : 3, "price" : 55 }
sit_rs1:PRIMARY> print((60+55)/2)
57.5
# 检查日期2023-06-20的订单平均值
sit_rs1:PRIMARY> db.orders.find({ "ord_date" : ISODate("2023-06-20T00:00:00Z")}, {"price": 1})
{ "_id" : 9, "price" : 51 }
{ "_id" : 7, "price" : 21 }
{ "_id" : 8, "price" : 76 }
sit_rs1:PRIMARY> print((51+21+76)/3)
49.333333333333336

对于需要自定义功能的 Map-Reduce 操作，MongoDB 从 4.4 版本开始提供 $accumulator 和 $function 聚合运算符。使用这些运算符在 JavaScript 中自定义聚合表达式。

聚合管道作为 Map-Reduce 的替代方案，聚合管道提供比 Map-Reduce 操作更好的性能和可用性。
可以使用聚合管道运算符（例如 $group、$merge等）重写 Map-reduce 操作。

到此这篇关于Mongodb 多文档聚合操作处理方法(Map-reduce 函数)的文章就介绍到这了,更多相关Mongodb 聚合操作内容请搜索程序员之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持程序员之家！

您可能感兴趣的文章:

MongoDB插入数据的3种方法
在MongoDB中，db.collection.insert()方法添加一个新文档到集合中。另外，db.collection.update()方法和db.collection.save()方法也能通过upsert操作添加新文档。upsert操作执行更新现有文档或者当文档不存在时插入一个新文档。
2014-05-05
Mongodb如何使用killCursors停止运行的cursor
MongoDB分批向用户返回数据结果,通过游标的移动, mongodb确定当前返回结果的位置,是否要加载更多数据到内存当中,这篇文章主要介绍了Mongodb如何使用killCursors停止运行的cursor,需要的朋友可以参考下
2023-12-12
Mongodb?删除文档Delete与Remove的区别解析
这篇文章主要介绍了Mongodb?删除文档Delete与Remove的区别,要从集合中删除所有文档,请将空过滤器文档传递{}给该?db.collection.deleteMany()方法,本文通过示例代码介绍的非常详细,需要的朋友可以参考下
2023-08-08
详解MongoDB中创建集合与删除集合的操作方法
因为MongoDB属于NoSQL,所以集合collection相当于关系型数据库中的表table,这里我们就来详解MongoDB中创建集合与删除集合的操作方法:
2016-06-06
mongodb?linux下集群搭建过程
这篇文章主要介绍了mongodb?linux下集群搭建过程，本例中，为每个集群(shard?config)三个mongo实例,本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2022-02-02
Centos 7下Mongodb开机无法自启动的解决方法
这篇文章主要介绍了Centos 7下Mongodb开机无法自启动的解决方法，文中介绍的非常详细，对大家具有一定的参考价值，需要的朋友们下面来一起看看吧。
2017-03-03
MongoDB数据库简介与安装方法
这篇文章介绍了MongoDB数据库简介与安装方法，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2022-03-03
MongoDB自动删除过期数据的方法（TTL索引）
这篇文章主要给大家介绍了关于MongoDB自动删除过期数据（TTL索引）的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2018-11-11
MongoDB分组查询和聚合查询实例教程
聚合(aggregate)是MongoDB的高级查询语言,它允许我们通过转化合并多个文档的数据来生成新的在单个文档里不存在的文档信息,下面这篇文章主要给大家介绍了关于MongoDB分组查询和聚合查询的相关资料,需要的朋友可以参考下
2023-05-05
Java操作MongoDB数据库示例分享
MongoDB是一个文档型数据库，是NOSQL家族中最重要的成员之一，以下代码封装了MongoDB的基本操作。具体都在备注当中，要仔细看哦
2014-08-08