`olm.train.optim.zero`

Source: src/olm/train/optim/zero.py:1

Classes

`ZeROOptimizer(optimizer: torch.optim.optimizer.Optimizer, partition_optimizer_states: bool = True, overlap_communication: bool = True, world_size: int | None = None, rank: int | None = None)`

Bases: olm.train.optim.base.OptimizerBase

Source: src/olm/train/optim/zero.py:9

ZeRO (Zero Redundancy Optimizer) wrapper for distributed training.

Implements memory optimization techniques from "ZeRO: Memory Optimizations Toward Training Trillion Parameter Models" (Rajbhandari et al., 2020).

ZeRO reduces memory consumption by partitioning optimizer states, gradients, and parameters across data-parallel processes. This implementation provides a simplified version focusing on optimizer state partitioning (ZeRO Stage 1).

For full ZeRO support with gradient and parameter partitioning, consider using DeepSpeed or PyTorch's FSDP (Fully Sharded Data Parallel).

Parameters

optimizer: Base optimizer to wrap (e.g., AdamW, Lion)
partition_optimizer_states: Whether to partition optimizer states (default: True)
overlap_communication: Overlap gradient communication with computation (default: True)
world_size: Number of distributed processes (default: None, auto-detected)
rank: Process rank in distributed group (default: None, auto-detected)