Python案例如何批量删除数据？

wen python案例 2026-06-08 64

本文目录导读：

Python案例如何批量删除数据？

目录导读
问题：为什么数据库里100万条垃圾数据，用Python几秒就能删完？
案例一：删除Excel中指定条件的数据行
案例二：删除CSV文件中含空值的记录
案例三：删除数据库（MySQL）中过期的数据
案例四：删除文件夹内所有匹配模式的文件
批量删除的注意事项与性能优化
常见问题解答（FAQ）
从手动到自动的蜕变

高效办公必备！Python批量删除数据实战案例详解（附完整代码）

目录导读

为什么要用Python批量删除数据？
批量删除的常见场景与核心原理
删除Excel中指定条件的数据行
删除CSV文件中含空值的记录
删除数据库（MySQL）中过期的数据
删除文件夹内所有匹配模式的文件
批量删除的注意事项与性能优化
常见问题解答（FAQ）
从手动到自动的蜕变

问题：为什么数据库里100万条垃圾数据，用Python几秒就能删完？

很多人在处理数据时都遇到过这样的困境：手动删除一条记录要花几秒，而面对几十万条重复、过时或错误的数据时，手动操作不仅耗时，还容易出错，Python凭借其强大的数据处理库（如pandas、os、sqlite3）和简洁的语法，能通过循环+条件判断+批量执行的方式，将删除操作自动化，用for循环遍历文件列表，结合if条件匹配删除规则，再利用DataFrame.drop()或os.remove()执行删除，整个过程高效、可追溯。

删除Excel中指定条件的数据行

场景：你有一个销售报表Excel，需要删除所有“状态”列为“已取消”的行。

import pandas as pd
# 读取Excel文件
df = pd.read_excel('sales.xlsx')
# 删除条件：状态列为“已取消”的行
df_cleaned = df[df['状态'] != '已取消']
# 或者使用drop方法
df.drop(df[df['状态'] == '已取消'].index, inplace=True)
# 保存为新文件，避免覆盖原数据
df_cleaned.to_excel('sales_cleaned.xlsx', index=False)
print(f"原数据{len(df)}行，删除后{len(df_cleaned)}行")

核心逻辑：pandas通过布尔索引生成一个筛选后的DataFrame，相当于“保留不等于目标值的行”，这是最常用的删除方式。

删除CSV文件中含空值的记录

场景：原始CSV数据中某些字段缺失，需要删除所有含NaN值的行。

import pandas as pd
df = pd.read_csv('user_data.csv')
# 删除任意列包含空值的行
df.dropna(inplace=True)  # 默认删除任何含有NaN的行
# 或者只删除指定列（如'email'）为空的行
df.dropna(subset=['email'], inplace=True)
df.to_csv('user_data_clean.csv', index=False)

关键点：dropna()的how='all'参数可设置为只删除全为空的行，而thresh参数可设置非空值的最小数量，灵活度很高。

删除数据库（MySQL）中过期的数据

场景：一个日志表中，需要删除30天前的所有记录以释放空间。

import pymysql
from datetime import datetime, timedelta
# 连接数据库
conn = pymysql.connect(host='localhost', user='root', password='123456', database='test')
cursor = conn.cursor()
# 计算30天前的日期
cutoff_date = datetime.now() - timedelta(days=30)
# 执行删除SQL语句
sql = "DELETE FROM log_table WHERE create_time < %s"
cursor.execute(sql, (cutoff_date,))
# 提交事务
conn.commit()
print(f"删除了{cursor.rowcount}条过期数据")
# 关闭连接
cursor.close()
conn.close()

提醒：生产环境建议先用SELECT COUNT(*)预览待删除记录数，再执行DELETE，并确保在事务中操作，以便回滚。

删除文件夹内所有匹配模式的文件

场景：一个下载目录中积累了大量.tmp临时文件，需要批量删除。

import os
import glob
folder_path = '/path/to/download/folder'
pattern = '*.tmp'  # 匹配所有.tmp文件
for file_path in glob.glob(os.path.join(folder_path, pattern)):
    try:
        os.remove(file_path)
        print(f"已删除: {file_path}")
    except Exception as e:
        print(f"删除失败: {file_path}, 原因: {e}")
print("临时文件清理完成")

进阶用法：结合os.walk()递归删除子文件夹中的匹配文件，或使用send2trash库（安全删除到回收站）替代os.remove。

批量删除的注意事项与性能优化

备份先行：无论是文件还是数据表，删除前先备份或使用“软删除”（标记字段而非实际删除）。
分批删除：如果数据量巨大（>10万行），避免单次删除造成数据库锁表或内存溢出，可使用循环+LIMIT分批次删除。
索引利用：在数据库中，为删除条件涉及的字段（如create_time）建立索引，能大幅提升删除速度。
原子性：文件删除后不可恢复，建议先用print模拟执行，确认无误后再运行真实删除。
日志记录：每次删除操作后，记录删除了多少条、哪些数据，便于审计。

常见问题解答（FAQ）

Q1：使用pandas删除后，原文件会被修改吗？
A：不会，pandas默认在内存中操作，原文件保持不变，只有通过to_excel或to_csv覆盖保存时才会修改原文件。

Q2：删除数据库数据时如何防止误删？
A：先用SELECT COUNT(*)和SELECT *预览数据，再在事务中执行DELETE，并在ROLLBACK前检查结果。

Q3：批量删除文件时，如何过滤某些特定文件名？
A：使用glob.glob('*.tmp')匹配模式，或结合startswith('temp_')、'2023' in filename等字符串判断。

Q4：删除操作很慢怎么办？
A：对于Excel/CSV，尝试使用chunksize分批读取；对于数据库，检查索引、改为TRUNCATE（全表删除）或使用DROP重建表。

Q5：如何恢复误删的文件或数据？
A：文件可通过回收站或数据恢复软件（如Recuva）尝试恢复；数据库可通过事务回滚或日志重做。强烈建议提前备份。

从手动到自动的蜕变

批量删除数据,本质上是从“重复、低效、易错”的体力劳动，转向“一次编程、永久受益”的智慧办公，这四个案例覆盖了常见的数据源（Excel、CSV、数据库、文件系统），只需根据你的实际场景调整条件、路径和删除逻辑，就能在几分钟内完成原本需要数小时的工作。

建议初学者先在自己安全的测试环境运行代码,从单一场景（如删除一个文件）开始，逐步扩展到批量处理。自动化不是让机器替你做决定，而是让机器替你执行你早已确定的规则。

当你真正跑通一段删除100万行数据的脚本时,那种掌控感和效率提升的愉悦，会让你再也回不到手动删除的“石器时代”，打开你的Python编辑器，从最简单的Excel删除案例开始练习吧！