Replicate의 청구 방식
Replicate의 가격 책정은 실행 중인 특정 모델과 분리되어 있습니다. SDXL로 이미지를 생성하든 Llama 3를 실행하든 청구는 하드웨어 계층과 실행 시간에 따라 결정됩니다. 이를 통해 각 모델마다 별도의 요금제를 만들 필요 없이 수천 개의 오픈 소스 모델을 호스팅할 수 있습니다.| Hardware | Price per Second | Price per Hour |
|---|---|---|
| NVIDIA CPU | $0.000100 | $0.36 |
| NVIDIA T4 GPU | $0.000225 | $0.81 |
| NVIDIA A40 GPU | $0.000575 | $2.07 |
| NVIDIA A40 (Large) GPU | $0.000725 | $2.61 |
| NVIDIA A100 (40GB) GPU | $0.001150 | $4.14 |
| NVIDIA A100 (80GB) GPU | $0.001400 | $5.04 |
- 하드웨어별 요율: 초당 비용은 필요한 컴퓨트 리소스에 따라 달라집니다. 각 하드웨어 계층마다 가격대가 다릅니다.
- 순수 사용량 기반 모델: 월간 요금이나 초과 요금, 제한이 없습니다. 사용자는 세대당이 아니라 “A100에서 12.4초”처럼 정확한 컴퓨트 시간에 대해 청구됩니다.
- 초 단위 세분화: 전통적인 클라우드 공급자는 시간이나 분 단위로 청구하여 짧은 작업에서 낭비가 발생합니다. 초 단위 청구는 소규모 실험과 대규모 프로덕션 워크로드 모두에 대해 이 비효율을 없애줍니다.
콜드 스타트도 청구 대상입니다. 모델에 대한 첫 요청은 모델을 메모리에 로드하는 데 10~30초가 걸리며, 이 로딩 시간은 실행 시간과 동일한 요율로 청구됩니다.
무엇이 독특한가
- 하드웨어별 측정: 동일한 모델이라도 더 나은 하드웨어에서는 비용이 더 높습니다. 사용자는 속도와 비용 중 원하는 것을 선택합니다. T4 GPU는 시간에 민감하지 않은 작업에 적합하고, A100은 실시간 애플리케이션을 처리합니다.
- 초 단위 세분화: 청구는 초 단위로 계산되므로 짧은 작업에 대해 과금되지 않습니다.
- 구독 없음: 시작에 대한 약정이 없습니다. 사용량에 따라 무한히 확장되어 스타트업과 다양한 모델을 실험 중인 개발자에게 이상적입니다.
- 모델에 무관: 청구 로직은 작업 유형(이미지 생성, 텍스트 처리, 오디오 전사, 비디오 합성)에 관계없이 동일합니다. 이를 통해 복잡한 가격표 없이 방대한 모델 생태계를 지원할 수 있습니다.
Dodo Payments로 구축하기
Dodo Payments의 사용량 기반 청구 기능을 사용하면 이 청구 모델을 복제할 수 있습니다. 핵심은 여러 메터를 사용하여 하드웨어 계층별로 추적하고 단일 제품에 연결하는 것입니다.Create Usage Meters (One Per Hardware Class)
각 하드웨어 계층에 대해 별도의 메터를 만드십시오. 하드웨어 유형마다 초당 비용이 다르기 때문에 독립적인 측정은 Dodo가 각 계층을 개별 가격으로 책정하고 세분화된 청구서를 제공할 수 있게 합니다.
| Meter Name | Event Name | Aggregation | Property |
|---|---|---|---|
| CPU Compute | compute.cpu | Sum | execution_seconds |
| GPU T4 Compute | compute.gpu_t4 | Sum | execution_seconds |
| GPU A40 Compute | compute.gpu_a40 | Sum | execution_seconds |
| GPU A40 Large Compute | compute.gpu_a40_large | Sum | execution_seconds |
| GPU A100 40GB Compute | compute.gpu_a100_40 | Sum | execution_seconds |
| GPU A100 80GB Compute | compute.gpu_a100_80 | Sum | execution_seconds |
Sum 집계는 execution_seconds 속성에 대해 청구 기간 동안 하드웨어 계층별 총 컴퓨트 시간을 계산합니다.Create a Usage-Based Product
Dodo Payments 대시보드에서 새 제품을 만드십시오:
모든 메터에 대해 무료 기준을 0으로 설정하십시오. 실행한 초 단위가 모두 청구 대상입니다.
- 가격 유형: 사용량 기반 청구
- 기본 가격: $0/월 (구독료 없음)
- 청구 주기: 월간
| Meter | Price Per Unit (per second) |
|---|---|
| compute.cpu | $0.000100 |
| compute.gpu_t4 | $0.000225 |
| compute.gpu_a40 | $0.000575 |
| compute.gpu_a40_large | $0.000725 |
| compute.gpu_a100_40 | $0.001150 |
| compute.gpu_a100_80 | $0.001400 |
Measure Execution Time Precisely
performance.now()을 사용해 모델 실행 시간을 정확히 측정하십시오. 청구를 위해 소수점 첫째 자리까지 반올림하십시오.시간 범위 인게스천 블루프린트로 가속화
Time Range Ingestion Blueprint는 초 단위 컴퓨트 추적을 간소화합니다. 하드웨어 계층마다 하나의 인게스천 인스턴스를 만들고,trackTimeRange를 사용하여 이벤트 제출을 깔끔하게 처리하십시오.
사용자 비용 추정
사용량 기반 청구는 예측이 어려우므로 사용자가 모델을 실행하기 전에 비용을 추정해주는 것이 좋습니다. 이는 예상치 못한 청구를 줄이고 신뢰를 쌓습니다.예시 비용 계산
| Model | Hardware | Avg Time | Cost Per Run |
|---|---|---|---|
| SDXL (image) | A100 80GB | ~8 sec | ~$0.0112 |
| Llama 3 (text) | A100 40GB | ~3 sec | ~$0.0035 |
| Whisper (audio) | GPU T4 | ~15 sec | ~$0.0034 |
비용 계산기 구축
엔터프라이즈: 예약 용량
예약된 가용성과 콜드 스타트 방지가 필요한 엔터프라이즈 고객을 위해 Replicate은 고정 시간당 요금의 “Private Instances”를 제공합니다. Dodo Payments에서는 이를 구독 제품으로 모델링할 수 있습니다:- 제품 유형: 구독
- 가격: 고정 월간 가격(예: “예약 A100 인스턴스 - $500/월”)
- 청구 주기: 월간
고급: 하트비트 측정
수 분 또는 수 시간이 걸리는 작업의 경우 종료 시점에 단일 이벤트를 보내는 것은 위험할 수 있습니다. 프로세스가 실패하면 사용량 데이터가 손실됩니다. 더 나은 접근 방식은 실행 중에 30~60초마다 사용량 이벤트를 보내는 것입니다.사용된 주요 Dodo 기능
Usage-Based Billing
소비 기반 청구 제품을 설정합니다.
Meters
추적하고 청구하려는 메트릭을 정의합니다.
Event Ingestion
실시간으로 Dodo에 사용량 데이터를 전송합니다.
Subscriptions
예약 용량 및 엔터프라이즈 플랜의 정기 청구를 관리합니다.
Time Range Blueprint
기간 도우미와 함께 초 단위 컴퓨트 추적.
Usage-Based Billing
Set up products that bill based on consumption.
Meters
Define the metrics you want to track and bill for.
Event Ingestion
Send usage data to Dodo in real-time.
Subscriptions
Manage recurring billing for reserved capacity and enterprise plans.
Time Range Blueprint
Per-second compute tracking with duration helpers.