Python案例如何合并多组数据？

wen python案例 2026-06-09 56

Python实战：如何高效合并多组数据？——从基础到进阶的完整案例解析

目录导读

问题背景：为什么需要合并多组数据？
基础方法：concat、merge、join 三大核心函数详解
实战案例一：用 pandas.concat 合并同结构数据集
实战案例二：用 pandas.merge 实现键值关联合并
实战案例三：用 pandas.join 进行索引对齐合并
进阶技巧：处理重复列、缺失值、大数据量下的性能优化
常见问题问答（FAQ）
总结与最佳实践建议

问题背景：为什么需要合并多组数据？

在数据分析与自动化处理任务中，我们经常面临这样的场景：数据来自不同源头（如多个CSV文件、API接口、数据库表），且这些数据具有关联字段（如用户ID、时间戳）或完全相同的列结构，直接逐条处理不仅效率低，还容易出错。合并多组数据是Python数据清洗的核心技能之一，它能将分散的信息整合成统一的DataFrame,为后续分析奠定基础。

Python案例如何合并多组数据？

关键词提示：本篇文章聚焦于 pandas 库，它是Python生态中最强大的数据合并工具，适用于金融、电商、科研等领域的批量数据整合。

基础方法：`concat`、`merge`、`join` 三大核心函数详解

在了解具体案例前,先明确三个核心函数的适用场景：

函数	核心逻辑	适合场景	类比SQL
`pd.concat`	沿轴（行/列）堆叠	相同列结构的数据追加	UNION ALL
`pd.merge`	基于列键值匹配	关联两张表（类似数据库JOIN）	JOIN + ON
`pd.join`	基于行索引匹配	索引对齐的列扩展	索引连接

关键区别：

concat关注“形状拼接”，不关心列名是否匹配（列名不同会生成NaN）；
merge关注“关系匹配”，必须指定连接键（on/left_on/right_on）；
join实质上是一种“索引版本的merge”,默认使用行索引作为连接键。

实战案例一：用 `pandas.concat` 合并同结构数据集

场景：你有三个月份的销售数据文件（sales_jan.csv、sales_feb.csv、sales_mar.csv），每个文件都有相同的列：customer_id、product、amount,你需要合并成一个完整季度表。

代码实现：

import pandas as pd
# 读取多个CSV文件
jan = pd.read_csv('sales_jan.csv')
feb = pd.read_csv('sales_feb.csv')
mar = pd.read_csv('sales_mar.csv')
# 使用concat沿行轴（axis=0）合并
quarter_data = pd.concat([jan, feb, mar], ignore_index=True)
print(quarter_data.shape)  # 输出: (3000, 3) 假设每月1000条

关键参数说明：

ignore_index=True：重置行索引，避免索引重复；
axis=0（默认）表示行拼接，axis=1表示列拼接（需注意列数对齐）。

输出示例：

   customer_id product  amount
0         1001    A     200
1         1002    B     150
...       ...    ...    ...
2999      2000    C     280

注意：如果列名不完全一致，concat 会保留所有列，缺失位置填充 NaN,此时应检查列名拼写差异。

实战案例二：用 `pandas.merge` 实现键值关联合并

场景：你有一个订单表 orders.csv（含order_id、customer_id、order_date）和一个客户信息表 customers.csv（含customer_id、name、city）,你想为每个订单附加客户姓名和城市。

代码实现：

orders = pd.read_csv('orders.csv')
customers = pd.read_csv('customers.csv')
# 内连接（inner）: 只保留两边都有的customer_id
merged_inner = pd.merge(orders, customers, on='customer_id', how='inner')
# 左连接（left）: 保留所有订单记录，客户缺失时填充NaN
merged_left = pd.merge(orders, customers, on='customer_id', how='left')

核心参数：

on：指定连接键（若两个表键名不同，需用left_on和right_on）；
how：连接方式（inner/left/right/outer）；
suffixes：处理重复列名（如自动添加 ('_x', '_y')）。

输出效果（左连接结果）：

   order_id  customer_id order_date  name    city
0      101          1     2023-01-01  张三    北京
1      102          2     2023-01-02  李四    上海
2      103          3     2023-01-03  NaN    NaN   # 客户ID=3不存在于客户表

常见坑：

键的数据类型必须一致（如 int 与 object 不匹配会报错）；

键值有重复时，会生成笛卡尔积（可通过 validate='m:1' 等参数校验）。

实战案例三：用 `pandas.join` 进行索引对齐合并

场景：你有一个时间序列索引的股票数据 stock_A.csv（行索引为日期，列含price、volume），另一个基金数据 fund_B.csv（也是日期索引，列含nav），你想将两个索引对齐,一次性建立宽表。

代码实现：

stock = pd.read_csv('stock_A.csv', index_col='date', parse_dates=True)
fund = pd.read_csv('fund_B.csv', index_col='date', parse_dates=True)
# 默认左连接（how='left'），按索引匹配
combined = stock.join(fund, how='outer')  # 或 how='inner'
# 也可以指定列名：如 stock.join(fund[['nav']])
print(combined.head())

输出示例：

              price   volume   nav
date                              
2023-01-01    100      5000    1.25
2023-01-02    102      4800    1.27
2023-01-03    NaN      NaN     1.26   # 该日股票数据缺失

优势：当数据天然带有时间或ID索引时，join 比 merge 更简洁，但需注意，join 默认执行 left join，不指定 on 参数时完全依赖索引。

进阶技巧：处理重复列、缺失值、大数据量下的性能优化

（1）处理重复列

如果两个表有多个相同名称的列，merge 会自动添加 _x 和 _y 后缀,你也可以自定义：

pd.merge(left, right, on='id', suffixes=('_left', '_right'))

（2）合并后填充缺失值

合并后产生的 NaN 可用 fillna 或 interpolate 处理：

combined['price'].fillna(combined['price'].mean(), inplace=True)

（3）大数据量下的性能优化

分块读取：使用 chunksize 分块合并,避免内存溢出；
使用 dask 库：对超大数据可迁移至 dask.dataframe,语法与pandas一致；
减少中间副本：尽量用 inplace=True 或链式操作。

常见问题问答（FAQ）

Q1：concat 和 merge 到底怎么选？
A：简单判断：如果只是“上下堆叠”相同结构的表，用 concat；如果需要“左右关联”两张不同结构的表，用 merge。

Q2：合并后数据量变大了，是不是错了？
A：不一定是错误。merge 的 outer 连接会保留两个表的所有记录；如果键有重复，可能导致笛卡尔积,请检查键是否唯一。

Q3：如何处理合并时内存不足？
A：优先使用 dtype 压缩（如将 object 转为 category），其次是分块读取后合并，最后考虑数据库解决方案（如 SQLite 临时表）。

Q4：我的列名在不同文件里拼写不一致，怎么办？
A：建议先对每个DataFrame统一列名：df.rename(columns={'旧名':'新名'}, inplace=True),再进行合并操作。

Q5：join 和 merge 可以互换使用吗？
A：不完全可互换。join 默认按索引连接，而 merge 可指定列或索引，但你可以用 pd.merge(left, right, left_index=True, right_index=True) 模拟 join 效果。