一文详解Python如何优雅地对数据进行分组

更新时间：2022年07月14日 10:18:26 作者：Python技术大本营

这篇文章主要和大家详细介绍一下Python是如何优雅地对数据进行分组的，文中通过示例进行了详细的讲解，感兴趣的小伙伴可以跟随小编一起学习一下

假设我们有这样一种数据：

data?=?[
????("apple",?30),?("apple",?35),
????("apple",?32),?("pear",?60),
????("pear",?32),?("pear",?60),
????("banana",?102),?("banana",?104)
]

#?我们希望变成如下格式
"""
[('apple',?[30,?35,?32]),?
?('pear',?[60,?32,?60]),?
?('banana',?[102,?104])]
"""

如果是你的话，你会怎么做呢？很容易想到的一种解决方案是构造一个字典：

data?=?[
????("apple",?30),?("apple",?35),
????("apple",?32),?("pear",?60),
????("pear",?32),?("pear",?60),
????("banana",?102),?("banana",?104)
]

data_dict?=?{}
for?name,?count?in?data:
????if?name?not?in?data_dict:
????????data_dict[name]?=?[]
????data_dict[name].append(count)
print(data_dict)
"""
{'apple':?[30,?35,?32],?
?'pear':?[60,?32,?60],?
?'banana':?[102,?104]}
"""
print(list(data_dict.items()))
"""
[('apple',?[30,?35,?32]),?
?('pear',?[60,?32,?60]),?
?('banana',?[102,?104])]
"""

这种方案完全没有问题，不过我们还可以写的更优雅一些，也就是使用字典的 setdefault 方法：

data?=?[
????("apple",?30),?("apple",?35),
????("apple",?32),?("pear",?60),
????("pear",?32),?("pear",?60),
????("banana",?102),?("banana",?104)
]

data_dict?=?{}
for?name,?count?in?data:
????#?setdefault(k,?v)?含义如下
????#?当?k?不存在时，将?k:?v?设置在字典中，并返回?v
????#?当?k?存在时，直接返回?k?对应值
????data_dict.setdefault(name,?[]).append(count)

print(list(data_dict.items()))
"""
[('apple',?[30,?35,?32]),?
?('pear',?[60,?32,?60]),?
?('banana',?[102,?104])]
"""

setdefault 是一个非常方便的方法，但是使用频率却不怎么高，或者说该方法不太让人喜欢。主要是每次调用都要给一个初始值，比如代码中的空列表 []。另外这里的初始值可以任意，如果你希望添加的时候还能实现去重效果，那么就将空列表换成空集合即可。

或者我们还可以使用 defaultdict，它位于 collections 模块中。

from?collections?import?defaultdict

data?=?[
????("apple",?30),?("apple",?35),
????("apple",?32),?("pear",?60),
????("pear",?32),?("pear",?60),
????("banana",?102),?("banana",?104)
]

#?里面接收一个?callable
#?当访问的?k?不存在时，返回?callable?调用之后的值
data_dict1?=?defaultdict(list)
for?name,?count?in?data:
????data_dict1[name].append(count)

print(list(data_dict1.items()))
"""
[('apple',?[30,?35,?32]),?
?('pear',?[60,?32,?60]),?
?('banana',?[102,?104])]
"""

#?也可以指定为?set
data_dict2?=?defaultdict(set)
for?name,?count?in?data:
????data_dict2[name].add(count)

print(list(data_dict2.items()))
"""
[('apple',?{32,?35,?30}),?
?('pear',?{32,?60}),?
?('banana',?{104,?102})]
"""

总的来说，defaultdict 和字典的 setdefault 方法非常类似，我们使用 setdefault 即可。

当然啦，关于分组，还有一种特殊情况，就是词频统计。假设我们想统计可迭代对象中，每个元素出现的次数该怎么做呢？

data?=?["apple",?"apple",?"apple",
????????"pear",?"pear",?"pear",
????????"banana",?"banana"]

data_dict?=?{}
for?item?in?data:
????#?此处不能使用?setdefault，因为它是函数
????#?.setdefault(item,?0)?+=?1?是不符合语法规则的
????if?item?not?in?data_dict:
????????data_dict[item]?=?0
????data_dict[item]?+=?1

print(data_dict)
"""
{'apple':?3,?'pear':?3,?'banana':?2}
"""

#?或者使用?defaultdict
from?collections?import?defaultdict
data_dict?=?defaultdict(int)
for?item?in?data:
????data_dict[item]?+=?1
print(data_dict)
"""
defaultdict(<class?'int'>,?
????????????{'apple':?3,?'pear':?3,?'banana':?2})
"""

然而说到词频统计，我们还可以使用 collections 下的 Counter 类。

from?collections?import?Counter

data?=?["apple",?"apple",?"apple",
????????"pear",?"pear",?"pear",
????????"banana",?"banana"]

data_dict?=?Counter(data)
#?直接搞定，Counter?已经包含了我们之前的逻辑
print(data_dict)
"""
Counter({'apple':?3,?'pear':?3,?'banana':?2})
"""
#?Counter?继承?dict，除了支持字典操作之外
#?还提供了很多其它操作，其中一个就是?most_common
#?用于选择出现频率最高的几个元素
print(data_dict.most_common(2))
"""
[('apple',?3),?('pear',?3)]
"""

还是很简单的。

到此这篇关于一文详解Python如何优雅地对数据进行分组的文章就介绍到这了,更多相关Python数据分组内容请搜索程序员之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持程序员之家！

您可能感兴趣的文章:

利用python numpy+matplotlib绘制股票k线图的方法
这篇文章主要介绍了利用python numpy+matplotlib绘制股票k线图的方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-06-06
python实现得到当前登录用户信息的方法
这篇文章主要介绍了python实现得到当前登录用户信息的方法,结合实例形式分析了Python在Linux平台以及Windows平台使用相关模块获取用户信息的相关操作技巧,需要的朋友可以参考下
2019-06-06
Python图像处理之图像的灰度线性变换
这篇文章主要介绍了Python图像处理之图像的灰度线性变换，文章围绕主题展开详细的内容戒杀，具有一定的参考价值，需要的小伙伴可以参考一下
2022-09-09
400多行Python代码实现了一个FTP服务器
400多行Python代码实现了一个FTP服务器,实现了比之前的xxftp更多更完善的功能
2012-05-05
python爬虫实例详解
这篇文章主要为大家详细介绍了python爬虫实例，包括爬虫技术架构，组成爬虫的关键模块，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-06-06
解析python 中/ 和 % 和 //（地板除）
这篇文章主要介绍了python 中/ 和 % 和 //（地板除）的区别及简介，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友参考下吧
2020-06-06
详解Python中__new__和__init__的区别与联系
在Python中,每个对象都有两个特殊的方法：__new__和__init__,本文将详细介绍这两个方法的不同之处以及它们之间的联系,具有一定的参考价值,感兴趣的可以了解一下
2023-12-12
Python中比较两个字符串操作实例深究
本文深入探讨Python中字符串比较的多种方法,并通过丰富的示例代码演示如何灵活运用这些技巧,从基本的相等性检查到更高级的正则表达式模式匹配,读者将了解如何利用Python强大的字符串处理功能,提高对字符串数据的操作技能,以解决日常编程任务中的挑战
2023-12-12
使用python客户端访问impala的操作方式
这篇文章主要介绍了使用python客户端访问impala的操作方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-03-03
Python?pyecharts?数据可视化模块的配置方法
Echarts 是一个由百度开源的数据可视化，凭借着良好的交互性，精巧的图表设计，得到了众多开发者的认可，这篇文章主要介绍了Python?pyecharts?数据可视化模块,需要的朋友可以参考下
2022-09-09