Lerne Sprachen natürlich mit frischen, authentischen Inhalten!

Tippen zum Übersetzen – Aufnahme

Nach Region erkunden

flag Die TorchPass-Software von Clockwork.io verhindert KI-Trainingsabstürze, indem sie eine Live-GPU-Migration ermöglicht und jährlich Millionen in großen KI-Clustern spart.

flag Clockwork.io hat TorchPass eingeführt, eine Software-Lösung, die Live-GPU-Migration und Fehlertoleranz in großen KI-Trainingsclustern ermöglicht und kostspielige Neustarts bei Hardware-Ausfällen, Netzwerkproblemen oder Treiberfehlern verhindert. flag Das System hält die Trainingskontinuität ohne Checkpointing aufrecht, unterstützt reaktive, proaktive und wartungsbasierte Failover und kann jährlich über 6 Millionen Dollar in einem 2.048-GPU-Setup sparen. flag Da die Ausfallraten in massiven Clustern steigen – die mittlere Zeit bis zum Ausfall auf nur 1,8 Stunden in einem 16.384-GPU-System fallen – verbessert TorchPass die Zuverlässigkeit, die GPU-Auslastung und die Modelltrainingseffizienz. flag Early Adopters berichten über eine verbesserte Durchsatz-, Resilienz- und Service-Level-Vereinbarungsleistung und bieten eine softwaregesteuerte Lösung für eine große Kostenbarriere in der KI-Infrastruktur.

9 Artikel