Replicateはクラウドでオープンソースの機械学習モデルを実行するためのプラットフォームです。同社の課金モデルは、AI業界で最も純粋な使用量ベースの価格設定の一例です。月額サブスクリプション料金やモデル実行ごとの定額料金はありません。代わりに、利用された正確な計算時間を秒単位で課金し、基礎となるハードウェアに応じて料金が変動します。 このアプローチは、実行時間が予測できないAIワークロードに適しています。単一のユーザーが数秒の軽量モデルを実行することもあれば、数分かかる大規模な生成モデルを動かすこともあります。モデル自体ではなく計算リソースにコストを紐づけることで、Replicateは価格を透明かつスケーラブルに維持しています。Documentation Index
Fetch the complete documentation index at: https://docs.dodopayments.com/llms.txt
Use this file to discover all available pages before exploring further.
Replicateの請求方法
Replicateの価格設定は、実行する特定のモデルとは切り離されています。SDXLで画像を生成する場合も、Llama 3を実行する場合も、請求はハードウェア階層と実行時間によって決まります。これにより、各モデルごとに個別の料金プランを必要とせずに何千ものオープンソースモデルをホストできます。| ハードウェア | 1秒あたりの料金 | 1時間あたりの料金 |
|---|---|---|
| NVIDIA CPU | $0.000100 | $0.36 |
| NVIDIA T4 GPU | $0.000225 | $0.81 |
| NVIDIA A40 GPU | $0.000575 | $2.07 |
| NVIDIA A40 (Large) GPU | $0.000725 | $2.61 |
| NVIDIA A100 (40GB) GPU | $0.001150 | $4.14 |
| NVIDIA A100 (80GB) GPU | $0.001400 | $5.04 |
- ハードウェア別料金:1秒あたりのコストは必要な計算リソースによって変わります。各ハードウェア階層に異なる価格が設定されています。
- 純粋な使用量ベースモデル:月額料金も超過料金も制限もありません。「A100での12.4秒」といった正確な計算時間に対して請求され、1つの生成ごとではありません。
- 1秒単位の粒度:従来のクラウドプロバイダーは時間または分単位で課金するため、短時間のタスクでは無駄が発生します。1秒単位の課金は、小規模な実験にも大規模な本番ワークロードにも非効率を排除します。
コールドスタートも課金対象です。モデルの最初のリクエストでは通常10〜30秒かけてモデルをメモリに読み込みます。この読み込み時間も実行時間と同じ料金で請求されます。
特徴
- ハードウェア別メータリング: 同じモデルでもより高性能なハードウェアでは費用が高くなります。ユーザーは速度とコストを天秤にかけて選択できます。T4 GPUは時間に敏感でないタスクに、A100はリアルタイム用途に適しています。
- 1秒単位の粒度: 課金は秒単位で計算されるため、短時間のタスクでの過剰請求が発生しません。
- サブスクリプション不要: 始めるためのコミットメントはゼロです。使用量に応じて無限にスケールするので、複数のモデルを試すスタートアップや開発者に最適です。
- モデルに依存しない: 画像生成、テキスト処理、音声転写、動画合成などタスクの種類に関係なく、課金ロジックは同じです。これにより、複雑な料金表なしに広範なモデルエコシステムをサポートできます。
Dodo Paymentsで再現する
この課金モデルは、Dodo Paymentsの使用量ベース課金機能を使えば再現可能です。複数のメーターで異なるハードウェア階層をトラッキングし、それらを単一のプロダクトに紐づけることが鍵です。Create Usage Meters (One Per Hardware Class)
各ハードウェア階層ごとに個別のメーターを作成します。ハードウェアごとに1秒あたりのコストが異なるため、独立したメータリングを行うことでDodoが各階層の価格を別々に設定し、明細付きの請求を提供できます。
| メーター名 | イベント名 | 集計 | プロパティ |
|---|---|---|---|
| CPU Compute | compute.cpu | Sum | execution_seconds |
| GPU T4 Compute | compute.gpu_t4 | Sum | execution_seconds |
| GPU A40 Compute | compute.gpu_a40 | Sum | execution_seconds |
| GPU A40 Large Compute | compute.gpu_a40_large | Sum | execution_seconds |
| GPU A100 40GB Compute | compute.gpu_a100_40 | Sum | execution_seconds |
| GPU A100 80GB Compute | compute.gpu_a100_80 | Sum | execution_seconds |
Sum集計をexecution_secondsプロパティに対して用いることで、請求期間中のハードウェア階層ごとの総計算時間を算出できます。Create a Usage-Based Product
Dodo Paymentsのダッシュボードで新しいプロダクトを作成します:
すべてのメーターに対してFree Thresholdを0に設定します。実行の1秒ごとに課金対象となります。
- 価格タイプ: 使用量ベース課金
- ベース価格: $0/月(サブスクリプション料なし)
- 請求頻度: 月次
| メーター | 単位あたりの価格(1秒) |
|---|---|
| compute.cpu | $0.000100 |
| compute.gpu_t4 | $0.000225 |
| compute.gpu_a40 | $0.000575 |
| compute.gpu_a40_large | $0.000725 |
| compute.gpu_a100_40 | $0.001150 |
| compute.gpu_a100_80 | $0.001400 |
Time Range Ingestion Blueprintで加速
Time Range Ingestion Blueprintは、1秒単位の計算追跡を簡素化します。ハードウェア階層ごとに1つのインジェストインスタンスを作成し、イベント送信をより整然とするためにtrackTimeRangeを使用します。
ユーザー向けのコスト見積もり
使用量ベースの課金は予測が難しいため、モデル実行前にユーザーへコスト見積もりを提供しましょう。驚きの請求を防ぎ、信頼を築くことができます。コスト計算の例
| モデル | ハードウェア | 平均時間 | 実行あたりのコスト |
|---|---|---|---|
| SDXL(画像) | A100 80GB | 約8秒 | 約$0.0112 |
| Llama 3(テキスト) | A100 40GB | 約3秒 | 約$0.0035 |
| Whisper(音声) | GPU T4 | 約15秒 | 約$0.0034 |
コスト計算機の構築
エンタープライズ:予約キャパシティ
確実な可用性とコールドスタートなしを求めるエンタープライズ顧客には、Replicateは「Private Instances」を固定時間料金で提供しています。 Dodo Paymentsではこれをサブスクリプション型プロダクトとしてモデル化できます:- プロダクトタイプ: サブスクリプション
- 価格: 固定月額料金(例:「Reserved A100 Instance - $500/月」)
- 請求サイクル: 月次
上級:ハートビートメータリング
数分または数時間かかるタスクでは、終了時に1つだけイベントを送信するのはリスクがあります。プロセスがクラッシュすると使用量データが失われてしまいます。よりよい方法は、実行中に30〜60秒ごとに使用量イベントを送信することです。主なDodo機能
Usage-Based Billing
消費量に応じた課金を行うプロダクトを設定します。
Meters
トラッキングと課金対象のメトリクスを定義します。
Event Ingestion
リアルタイムでDodoに使用量データを送信します。
Subscriptions
予約キャパシティやエンタープライズプランの継続課金を管理します。
Time Range Blueprint
秒単位の計算追跡と期間補助機能。