Python defaultdict的5个隐藏用法：从数据清洗到机器学习预处理-酒店常州论坛

Python defaultdict的5个隐藏用法：从数据清洗到机器学习预处理

在数据科学和机器学习的工作流中，字典是最基础也最常用的数据结构之一。但很多开发者可能不知道，Python标准库中的collections.defaultdict远比表面看起来要强大。它不仅仅是一个能避免KeyError的便利工具，更能在数据预处理、特征工程、图算法等场景中大幅提升代码效率和可读性。

想象一下这样的场景：你需要快速统计文本中的词频，或者构建一个图结构来表示社交网络关系，又或者需要处理嵌套的JSON数据。在这些情况下，传统的字典操作往往需要大量样板代码来处理键不存在的情况。而defaultdict能让你专注于业务逻辑本身，而不是这些边缘情况。

1. 数据清洗中的自动归类与异常值处理

数据清洗是任何数据分析项目中最耗时但也最关键的环节。defaultdict在这里可以发挥意想不到的作用，特别是在处理不完整或结构不一致的数据时。

假设我们有一组来自不同来源的销售记录，其中某些字段可能缺失。传统方法需要大量if-else来检查键是否存在：

sales_data = [ {"product": "A", "region": "North", "amount": 100}, {"product": "B", "amount": 200}, # 缺少region {"region": "South", "amount": 150}, # 缺少product ] # 传统方法 stats = {} for record in sales_data: product = record.get("product", "Unknown") if product not in stats: stats[product] = {"count": 0, "total": 0} stats[product]["count"] += 1 stats[product]["total"] += record["amount"]

使用defaultdict可以大幅简化：

from collections import defaultdict stats = defaultdict(lambda: {"count": 0, "total": 0}) for record in sales_data: product = record.get("product", "Unknown") stats[product]["count"] += 1 stats[product]["total"] += record["amount"]

更高级的用法是结合defaultdict和Counter来自动归类异常值：

from collections import Counter def detect_outliers(data, threshold=3): values = [x["amount"] for x in data if "amount" in x] mean = sum(values) / len(values) std = (sum((x - mean)**2 for x in values) / len(values))**0.5 outliers = defaultdict(list) for record in data: if "amount" not in record: outliers["missing"].append(record) elif abs(record["amount"] - mean) > threshold * std: outliers["outlier"].append(record) else: outliers["normal"].append(record) return outliers

2. 特征工程中的快速映射构建

在机器学习特征工程中，我们经常需要构建各种映射关系，比如类别编码、特征交叉等。defaultdict能让这些操作变得异常简洁。

2.1 类别特征编码

假设我们有一个用户数据集，需要将城市名称转换为数字编码：

users = [ {"name": "Alice", "city": "New York"}, {"name": "Bob", "city": "Chicago"}, {"name": "Charlie", "city": "New York"}, # ... 更多用户 ] # 传统方法 city_to_id = {} current_id = 0 for user in users: city = user["city"] if city not in city_to_id: city_to_id[city] = current_id current_id += 1 # 使用defaultdict from itertools import count city_counter = count() city_to_id = defaultdict(lambda: next(city_counter)) for user in users: city = user["city"] _ = city_to_id[city] # 自动分配新ID

2.2 特征交叉统计

在构建推荐系统时，我们可能需要统计用户-物品的交互频率：

interactions = [ ("user1", "itemA"), ("user2", "itemB"), ("user1", "itemC"), ("user2", "itemA"), # ... 更多交互 ] # 构建用户到物品的映射 user_to_items = defaultdict(set) for user, item in interactions: user_to_items[user].add(item) # 构建物品到用户的映射 item_to_users = defaultdict(set) for user, item in interactions: item_to_users[item].add(user) # 计算物品共现矩阵 cooccurrence = defaultdict(lambda: defaultdict(int)) for user, items in user_to_items.items(): items = list(items) for i in range(len(items)): for j in range(i+1, len(items)): item1, item2 = items[i], items[j] cooccurrence[item1][item2] += 1 cooccurrence[item2][item1] += 1

3. 图算法中的邻接表表示

图算法是数据科学中的重要工具，而defaultdict是表示图结构的绝佳选择。无论是社交网络分析、网页排名还是路径规划，邻接表都是最常用的图表示方法之一。

3.1 构建无权图

edges = [("A", "B"), ("B", "C"), ("C", "A"), ("B", "D"), ("D", "E")] graph = defaultdict(set) for src, dst in edges: graph[src].add(dst) # 如果是无向图，还需要添加反向边 graph[dst].add(src)

3.2 构建带权图

对于带权图（如距离、流量等），我们可以使用defaultdict嵌套：

weighted_edges = [("A", "B", 5), ("B", "C", 3), ("A", "C", 10)] graph = defaultdict(dict) for src, dst, weight in weighted_edges: graph[src][dst] = weight # 无向图需要添加反向边 graph[dst][src] = weight

3.3 实现简单的PageRank算法

def pagerank(graph, damping=0.85, iterations=100): # 初始化所有节点的PR值 ranks = defaultdict(lambda: 1.0 / len(graph)) for _ in range(iterations): new_ranks = defaultdict(float) total_rank = 0.0 # 收集每个节点的PR值 for node in graph: if not graph[node]: # 处理悬挂节点 total_rank += ranks[node] continue share = damping * ranks[node] / len(graph[node]) for neighbor in graph[node]: new_ranks[neighbor] += share # 处理随机跳转部分 random_jump = (1 - damping + damping * total_rank) / len(graph) for node in graph: new_ranks[node] += random_jump ranks = new_ranks return ranks

4. 实现高效缓存机制

缓存是优化程序性能的常用技术，defaultdict可以轻松实现各种缓存策略。

4.1 简单的记忆化缓存

def memoize(func): cache = defaultdict() def wrapper(*args): if args not in cache: cache[args] = func(*args) return cache[args] return wrapper @memoize def fibonacci(n): if n < 2: return n return fibonacci(n-1) + fibonacci(n-2)

4.2 带过期时间的缓存

import time class TimedCache: def __init__(self, ttl=60): self.cache = defaultdict() self.ttl = ttl def __contains__(self, key): if key not in self.cache: return False value, timestamp = self.cache[key] return time.time() - timestamp < self.ttl def __getitem__(self, key): if key in self: return self.cache[key][0] raise KeyError(key) def __setitem__(self, key, value): self.cache[key] = (value, time.time())

4.3 LRU缓存实现

虽然Python有functools.lru_cache，但了解其实现原理很有帮助：

from collections import OrderedDict class LRUCache: def __init__(self, capacity=128): self.cache = OrderedDict() self.capacity = capacity def get(self, key): if key not in self.cache: return None self.cache.move_to_end(key) return self.cache[key] def put(self, key, value): if key in self.cache: self.cache.move_to_end(key) self.cache[key] = value if len(self.cache) > self.capacity: self.cache.popitem(last=False)

5. 配置管理与树形结构处理

处理嵌套的配置数据或树形结构时，defaultdict能大大简化代码。

5.1 嵌套配置合并

def merge_configs(*configs): def merge_dicts(d1, d2): result = defaultdict(dict, d1) for key, value in d2.items(): if key in result and isinstance(result[key], dict) and isinstance(value, dict): result[key] = merge_dicts(result[key], value) else: result[key] = value return dict(result) result = {} for config in configs: result = merge_dicts(result, config) return result

5.2 构建文件系统树

def build_file_tree(paths): tree = defaultdict(dict) for path in paths: parts = path.split('/') current_level = tree for part in parts[:-1]: current_level = current_level.setdefault(part, defaultdict(dict)) current_level[parts[-1]] = None return tree

5.3 处理嵌套JSON数据

def flatten_json(data, parent_key='', sep='_'): items = defaultdict(list) for key, value in data.items(): new_key = f"{parent_key}{sep}{key}" if parent_key else key if isinstance(value, dict): nested = flatten_json(value, new_key, sep) for k, v in nested.items(): items[k].extend(v) elif isinstance(value, list): for i, item in enumerate(value): if isinstance(item, dict): nested = flatten_json(item, f"{new_key}{sep}{i}", sep) for k, v in nested.items(): items[k].extend(v) else: items[new_key].append(item) else: items[new_key].append(value) return dict(items)

企业官网建设流程全解析