Python案例如何解压压缩文件？

wen python案例 2026-06-08 95

Python案例：如何解压压缩文件？从零到实战的完整指南

📚 目录导读

为什么需要掌握Python解压文件？——场景与痛点
准备工作：Python内置模块与第三方库选择
基础实战：用zipfile解压ZIP文件（附代码案例）
进阶实战：用tarfile解压TAR.GZ/TAR.BZ2文件
异常处理：密码保护、编码兼容性与大文件解压
常见问答（Q&A）：解密解压中的“坑”
写出高效解压脚本的3个原则

为什么需要掌握Python解压文件？——场景与痛点

在日常工作中,我们经常遇到需要批量解压压缩包的场景：

Python案例如何解压压缩文件？

数据分析师收到100个ZIP格式的CSV文件,手动解压效率低下
运维工程师需要自动解压日均GB级别的日志压缩包
爬虫开发者下载的网页资源往往是TAR.GZ格式的归档文件

传统的做法是右键解压或使用命令行（如unzip），但当文件数量多、格式复杂（如加密压缩）或需要集成到自动化流程时，Python脚本就成为了首选。掌握Python解压，能让你从重复劳动中解放，并轻松对接CI/CD、数据处理管道。

准备工作：Python内置模块与第三方库选择

Python标准库提供了两个核心模块：

模块	适用格式	特点
`zipfile`	`.zip`	内置、轻量、支持密码（需第三方库辅助）
`tarfile`	`.tar.gz` `.tar.bz2` `.tar.xz`	内置、支持多线程压缩、适合Linux生态

第三方库（推荐场景）：

pyunpack + patool：支持RAR、7Z、ISO等多格式（需安装对应系统工具）
shutil：仅支持“提取tar.gz”等简单操作，不推荐用于加密或复杂场景

安装命令（如果用到第三方库）：

pip install patool pyunpack  # 如果确需处理RAR

✅ 优先级提醒：能用内置就别装第三方，本案例以zipfile和tarfile为主，覆盖90%的日常解压需求。

基础实战：用`zipfile`解压ZIP文件（附代码案例）

1 最简单的解压（单文件）

import zipfile
def unzip_file(zip_path, extract_dir="extracted"):
    """解压ZIP文件到指定目录"""
    with zipfile.ZipFile(zip_path, 'r') as zip_ref:
        zip_ref.extractall(extract_dir)
    print(f"成功解压到: {extract_dir}")
# 使用示例
unzip_file("data.zip", "output/")

2 带密码解压（需安装`pyminizip`或使用`patool`）

⚠️ 注意：zipfile标准库不支持加密解压，需结合pyminizip（推荐）或pyzipper。

方法1（推荐）：使用pyunpack+patool（支持加密ZIP）

pip install patool pyunpack

from pyunpack import Archive
def unzip_with_password(zip_path, password, extract_dir="encrypted_out"):
    Archive(zip_path).extractall(extract_dir, password=password)
    print(f"成功解压加密ZIP到: {extract_dir}")
unzip_with_password("secret.zip", "mypassword123", "output/")

方法2（纯标准库扩展）：只针对已知特定格式

除非你确信压缩包是ZIP 2.0传统加密（非AES），否则不推荐硬干。

3 高级：逐个提取（控制内存）

def extract_single_file(zip_path, target_file, output_dir="single"):
    """只解压ZIP中的某一个文件"""
    with zipfile.ZipFile(zip_path, 'r') as zip_ref:
        if target_file in zip_ref.namelist():
            zip_ref.extract(target_file, output_dir)
        else:
            print(f"文件 {target_file} 不在压缩包中")

进阶实战：用`tarfile`解压TAR.GZ/TAR.BZ2文件

TAR格式常出现在Linux环境、源码包（.tar.gz）或科学数据集中，Python的tarfile模块直接在标准库中支持读取与解压。

1 解压.tar.gz

import tarfile
def untar_gz(tar_path, extract_dir="tar_output"):
    with tarfile.open(tar_path, "r:gz") as tar:  # "r:gz" 表示只读gzip格式
        tar.extractall(extract_dir)
    print(f"解压 {tar_path} 完成，输出到 {extract_dir}")
untar_gz("archive.tar.gz", "extracted/")

2 解压.tar.bz2（类似写法）

with tarfile.open("archive.tar.bz2", "r:bz2") as tar:
    tar.extractall("extracted_bz2")

3 只解压某个子目录或文件

def extract_specific_path(tar_path, internal_path="data/file.csv"):
    with tarfile.open(tar_path, "r:*") as tar:  # 自动识别压缩格式
        member = tar.getmember(internal_path)
        tar.extract(member, path="extracted_specific/")

异常处理：密码保护、编码兼容性与大文件解压

1 常见异常及处理

异常类型	原因	代码应对
`BadZipFile`	损坏的ZIP文件	`try-except`包裹，跳过并记录日志
`KeyError`	解压密码错误（`pyunpack`场景）	返回自定义错误提示
`UnicodeDecodeError`	文件名含中文字符（Windows常见）	`encoding="gbk"`或`utf-8`按需指定

编码兼容示例：

import zipfile
def safe_unzip(zip_path, extract_dir, encoding="gbk"):
    with zipfile.ZipFile(zip_path, 'r') as zf:
        for name in zf.namelist():
            try:
                # 尝试用指定编码解码文件名
                decoded_name = name.encode('cp437').decode(encoding)
            except:
                decoded_name = name  # 失败则保留原样
            zf.extract(name, path=extract_dir)
            # 重命名文件（如果需要）
            import os
            os.rename(os.path.join(extract_dir, name), os.path.join(extract_dir, decoded_name))

2 大文件解压（内存优化）

使用流式解压：shutil.copyfileobj复制流
限制单文件大小：解压前检查member.size属性

def safe_extract_large(tar_path, max_size_mb=500):
    with tarfile.open(tar_path, "r:*") as tar:
        for member in tar.getmembers():
            if member.isfile() and member.size > max_size_mb * 1024 * 1024:
                print(f"跳过过大文件: {member.name} ({member.size / 1024/1024:.2f} MB)")
                continue
            tar.extract(member, path="safe_extract/")