プライベート・プレビューで環境フリーのトレーニングを発表。詳細はこちら：

サーバーレスRL

GPUやインフラストラクチャーを気にすることなく、RLのファインチューニングジョブを実行する。

サーバーレスRLは、インフラストラクチャーのプロビジョニングや管理を行うことなく、信頼性、スピード、コストを向上させるために、複数ターンのエージェントタスクのLLMをポストトレーニングすることができます。例、環境、報酬、ハイパーパラメーターなど、強化学習（RL）ループのキーとなる部分のコントローラを維持します。

インフラストラクチャーをお任せください。

GPU、メモリ、その他のインフラストラクチャーは、管理された伸縮性のあるCoreWeaveクラスター上で実行され、数十GPUまたはゼロGPUまでスケールします。推論とトレーニングを分割し、複数のrunに分散したトレーニングをオーケストレーションすることで、GPUの利用率を最大化し、コストを削減し、トレーニング時間を短縮します。

環境フリートレーニング（プレビュー）

RLにはシミュレート環境が必要だが、高価で時間がかかり、テストが難しく、正確なモデルを作成できないことが多い。環境フリートレーニング（EFT）は、シミュレーション環境を構築する必要性を完全に排除します。EFTは、実際のユーザーとのインタラクションから得られたプロダクション・トレースをRLトレーニングに使用します。プレビューへの参加を申し込む。

自動スケーリングによるGPUへのアクセス

GPUのキャパシティを確保するには、通常、数週間の予約と計画が必要です。サーバーレスRLなら、待つ必要はありません。パワフルなCoreWeave GPUに即座にアクセスできます。このサービスは、トレーニングに合わせて弾力的にスケールします：必要なときにアップし、必要でないときはゼロにします。アイドリングストップや「つけっぱなし」の頭痛の種を避けることができます。

インフラストラクチャーに悩まされない

トレーニングの仕事を一晩放置して、CUDAの「メモリ不足」やその他のランタイムエラーに遭遇したことはないだろうか？私たちが認めたくないほど、よくあることです。サーバーレスRLでは、インフラストラクチャーを完全に管理し、健全な状態に保つので、ジョブは回復力を維持し、GPUクラスターのお守りをせずにトレーニングに集中することができます。

1.4倍のトレーニングスピード、自主管理より40%低いコスト

RLトレーニングは、ロールアウトの完了を待つ間にGPUの時間を浪費し、コストを膨張させます。W&B TrainingのCoreWeaveクラウド上のサーバーレスRLバックエンドは、ジョブをパックして利用率を最大化し、コストを最大40%削減し、品質を損なうことなくトレーニングを〜1.4倍高速化します。ロールアウトは共有GPUクラスター上で実行され、トークンごとに課金されます。さらに、プロバイダーの評価やインフラスクリプトも不要です。Weights & BiasesのアカウントとAPIキーがあれば、数分でRLを開始できます。

より速いフィードバック・ループ

RLのトレーニングはファイア・アンド・フォーゲットではなく、エージェントの実行、デバッグ、ツールのチューニング、再トレーニングの繰り返しである。ローカルのインフラでは、このループは苦痛を伴います。再スタートするたびにトレーニングと推論が再初期化され、GPUメモリのスピンアップとモデルのロードに数分かかります。サーバーレスRLでは、トレーニングと推論は別々の常時稼働のCoreWeaveインスタンスで実行されるため、ロールアウトやループの編集は数分ではなく数秒で適用されます。

ユースケース

産業

サーバーレスRL

GPUやインフラストラクチャーを気にすることなく、RLのファインチューニングジョブを実行する。

インフラストラクチャーをお任せください。

1.4倍のトレーニングスピード、自主管理より40%低いコスト

より速いフィードバック・ループ

サーバーレスRLを始めよう

プラットフォーム

記事

リソース

会社

Use cases

Industries