Lerne Sprachen natürlich mit frischen, authentischen Inhalten!

Beliebte Themen
Nach Region erkunden
Die TorchPass-Software von Clockwork.io verhindert KI-Trainingsabstürze, indem sie eine Live-GPU-Migration ermöglicht und jährlich Millionen in großen KI-Clustern spart.
Clockwork.io hat TorchPass eingeführt, eine Software-Lösung, die Live-GPU-Migration und Fehlertoleranz in großen KI-Trainingsclustern ermöglicht und kostspielige Neustarts bei Hardware-Ausfällen, Netzwerkproblemen oder Treiberfehlern verhindert.
Das System hält die Trainingskontinuität ohne Checkpointing aufrecht, unterstützt reaktive, proaktive und wartungsbasierte Failover und kann jährlich über 6 Millionen Dollar in einem 2.048-GPU-Setup sparen.
Da die Ausfallraten in massiven Clustern steigen – die mittlere Zeit bis zum Ausfall auf nur 1,8 Stunden in einem 16.384-GPU-System fallen – verbessert TorchPass die Zuverlässigkeit, die GPU-Auslastung und die Modelltrainingseffizienz.
Early Adopters berichten über eine verbesserte Durchsatz-, Resilienz- und Service-Level-Vereinbarungsleistung und bieten eine softwaregesteuerte Lösung für eine große Kostenbarriere in der KI-Infrastruktur.
Clockwork.io's TorchPass software prevents AI training crashes by enabling live GPU migration, saving millions annually in large AI clusters.