深度学习训练环境磁盘空间清理指南

背景#

跑深度学习实验最头疼的事情之一，就是磁盘空间不知不觉就被占满了。模型权重、训练 checkpoint、数据集、各种缓存……几天不清理，几百G 的空间就消失了。这篇文章整理一下常用的清理方法，涵盖数据集、checkpoint、模型缓存、包管理器等各个方面。

1. 数据集管理#

数据集往往是占用空间最大的部分，但清理时需要谨慎——删错了可能要重新下载，很浪费时间。

清理不用的数据集#

先检查哪些数据集占空间最大：

1
# 查看 Hugging Face 数据集缓存
2
du -sh ~/.cache/huggingface/datasets/* | sort -h
3

4
# 查看自定义数据集目录
5
du -sh /path/to/datasets/* | sort -h

对于确认不再需要的数据集，直接删除即可。对于暂时不用但以后可能需要的，可以考虑：

迁移到 HDD#

SSD 空间有限，可以把不常用的数据集迁移到 HDD：

1
# 移动数据集
2
mv /ssd/datasets/imagenet /hdd/datasets/
3

4
# 创建软链接，保持代码兼容性
5
ln -s /hdd/datasets/imagenet /ssd/datasets/imagenet

这样代码里读取 /ssd/datasets/imagenet 仍然能正常工作，但实际上数据存储在 HDD 上。

压缩不常用数据集#

对于读取频率不高的数据集，可以压缩存储：

1
# 压缩为 tar.gz
2
tar -czf dataset.tar.gz /path/to/dataset
3

4
# 使用时解压到临时目录
5
tar -xzf dataset.tar.gz -C /tmp/

2. Checkpoint 管理#

训练过程中保存的 checkpoint 是磁盘占用的另一大来源。以 PyTorch Lightning 为例：

Lightning 的自动清理#

Lightning 提供了方便的 checkpoint 管理：

1
from pytorch_lightning.callbacks import ModelCheckpoint
2

3
# 只保留最新的 3 个 checkpoint
4
checkpoint_callback = ModelCheckpoint(
5
    save_top_k=3,
6
    monitor="val_loss",
7
    mode="min",
8
    filename="{epoch}-{val_loss:.2f}"
9
)
10

11
# 或者只保留验证指标最好的 1 个
12
checkpoint_callback = ModelCheckpoint(
13
    save_top_k=1,
14
    monitor="val_acc",
15
    mode="max"
16
)

手动清理旧 checkpoint#

如果没有使用自动清理，可以写脚本定期删除：

1
# 保留最新的 5 个 checkpoint，删除其余的
2
ls -t checkpoints/*.ckpt | tail -n +6 | xargs rm -f
3

4
# 或者按时间删除，比如删除 7 天前的ind checkpoints/ -name "*.ckpt" -mtime +7 -delete

只保存必要的内容#

checkpoint 通常包含模型权重、优化器状态、学习率调度器状态等。如果只需要模型权重，可以只保存 state_dict：

1
# 只保存模型权重，文件更小
2
torch.save(model.state_dict(), "model_weights.pth")
3

4
# 而不是保存整个 checkpoint
5
torch.save({
6
    'epoch': epoch,
7
    'model_state_dict': model.state_dict(),
8
    'optimizer_state_dict': optimizer.state_dict(),
9
    ...
10
}, "full_checkpoint.pth")

3. 模型缓存清理#

PyTorch 缓存#

1
# 删除下载的预训练模型
2
rm -rf ~/.cache/torch/hub/checkpoints/*
3

4
# 删除 torchvision 数据集缓存
5
rm -rf ~/.cache/torch/datasets/*
6

7
# 删除 torch 编译缓存（PyTorch 2.0+）
8
rm -rf ~/.cache/torch/kernels/*

Hugging Face 缓存#

1
# 删除所有 Hugging Face 缓存
2
rm -rf ~/.cache/huggingface/*
3

4
# 或者分别清理
5
rm -rf ~/.cache/huggingface/hub/*      # 模型权重
6
rm -rf ~/.cache/huggingface/datasets/* # 数据集
7
rm -rf ~/.cache/huggingface/transformers/*

其他模型库#

大部分模型库都遵循类似的缓存模式：

1
# timm 模型缓存
2
rm -rf ~/.cache/timm/*
3

4
# transformers（旧版本可能用这个路径）
5
rm -rf ~/.cache/transformers/*

修改缓存位置#

如果 SSD 空间紧张，可以把缓存目录改到 HDD：

1
# PyTorch
2
export TORCH_HOME=/hdd/.cache/torch
3

4
# Hugging Face
5
export HF_HOME=/hdd/.cache/huggingface
6

7
# 添加到 ~/.bashrc 永久生效
8
echo 'export HF_HOME=/hdd/.cache/huggingface' >> ~/.bashrc

4. 包管理器缓存#

pip#

1
pip cache purge

conda / mamba#

1
conda clean -a

uv#

1
uv cache clean

pixi#

1
pixi clean

5. 其他常见占用#

Docker 镜像#

如果用 Docker 跑实验，镜像可能占用大量空间：

1
# 删除所有未使用的镜像、容器、卷
2
docker system prune -a
3

4
# 只删除未使用的卷
5
docker volume prune

日志文件#

训练日志可能积累到很大：

1
# 清空日志文件（保留文件，清空内容）
2
truncate -s 0 /path/to/train.log
3

4
# 或者删除旧的日志
5
find logs/ -name "*.log" -mtime +30 -delete

Jupyter Notebook 检查点#

1
# 删除所有 .ipynb_checkpoints 目录
2
find ~ -name ".ipynb_checkpoints" -type d -exec rm -rf {} + 2>/dev/null

Python 编译缓存#

1
# 删除 __pycache__ 目录
2
find ~ -type d -name "__pycache__" -exec rm -rf {} + 2>/dev/null
3

4
# 删除 .pyc 文件
5
find ~ -name "*.pyc" -delete

6. 预防性措施#

除了事后清理，更好的方法是预防：

监控磁盘使用#

1
# 查看当前目录各子目录大小
2
du -sh */ | sort -h
3

4
# 实时监控磁盘使用
5
watch -n 60 'df -h'

设置 checkpoint 保存策略#

训练代码里就设置好只保留必要的 checkpoint，避免事后清理。

使用云存储#

对于大规模数据集，考虑使用云存储（S3、OSS 等），按需下载，减少本地存储压力。

总结#

深度学习环境的磁盘清理是个持续的工作，建议：

定期检查磁盘使用情况
训练时就设置好 checkpoint 保存策略
不用的数据集及时迁移或删除
大文件优先放 HDD，SSD 留给频繁读写的数据

保持磁盘空间充足，训练才不会因为磁盘满了而中断。