Python实用技法第9篇：从序列中移除重复项且保持元素间顺序不变

时间 2019-12-10

标签 python 实用技法序列移除重复保持元素顺序不变栏目 Python 繁體版

原文原文链接

上一篇文章： Python实用技法第8篇：在两个字典中寻找相同点
下一篇文章： Python实用技法第10篇：对切片命名

一、需求🙀

咱们想去除序列出现的重复元素，但仍然保持剩下的元素的顺序不变。

若是只是想要去重，那么一般足够简单的方法就是构建一个集合：segmentfault

a=[1,5,4,36,7,8,2,3,5,7]
#结果为：{1, 2, 3, 4, 5, 36, 7, 8}
print(set(a))

二、解决方案😸

若是序列中的值是可哈希的（hashable），那么这个问题能够经过使用集合和生成器轻松解决。函数

若是一个对象是可哈希的，那么它的生存期内必须是不可变的，它须要有一个 __hash__()方法。整数、浮点数、字符串、元素都是不可变的。

def dedupe(items):
    seen=set()
    for item in items:
        if item not in seen:
            yield item
            seen.add(item)

a=[1,2,3,1,9,1,5,10]
print(list(dedupe(a)))

运行结果：code

[1, 2, 3, 9, 5, 10]

只有当序列中的元素是可哈希的时候才能这么作。若是想在不可哈希的对象序列中去除重复项，须要上述代码稍做修改：对象

def dedupe(items,key=None):
    seen=set()
    for item in items:
        value=item if key is None else key(item)
        if value not in seen:
            yield item
            seen.add(value)

a=[
    {'x':1,'y':2},
    {'x':1,'y':3},
    {'x':1,'y':4},
    {'x':1,'y':2},
    {'x':1,'y':3},
    {'x':1,'y':1},

]
print(list(dedupe(a,key=lambda d:(d['x'],d['y']))))

print(list(dedupe(a,key=lambda d:d['y'])))

运行结果：字符串

[{'x': 1, 'y': 2}, {'x': 1, 'y': 3}, {'x': 1, 'y': 4}, {'x': 1, 'y': 1}]
[{'x': 1, 'y': 2}, {'x': 1, 'y': 3}, {'x': 1, 'y': 4}, {'x': 1, 'y': 1}]

这里的参数key的做用是指定一个函数用来将序列中的元素转换为可哈希的类型，那么作的目的是为了检测重复项。get

上一篇文章： Python实用技法第8篇：在两个字典中寻找相同点
下一篇文章： Python实用技法第10篇：对切片命名