Bagaimana Replicate Menagih
Harga Replicate tidak bergantung pada model spesifik yang dijalankan. Apakah Anda sedang membuat gambar dengan SDXL atau menjalankan Llama 3, penagihan ditentukan oleh tingkatan perangkat keras dan durasi eksekusi. Ini memungkinkan mereka untuk menghosting ribuan model sumber terbuka tanpa memerlukan rencana harga terpisah untuk masing-masing.| Perangkat Keras | Harga per Detik | Harga per Jam |
|---|---|---|
| NVIDIA CPU | $0.000100 | $0.36 |
| NVIDIA T4 GPU | $0.000225 | $0.81 |
| NVIDIA A40 GPU | $0.000575 | $2.07 |
| NVIDIA A40 (Besar) GPU | $0.000725 | $2.61 |
| NVIDIA A100 (40GB) GPU | $0.001150 | $4.14 |
| NVIDIA A100 (80GB) GPU | $0.001400 | $5.04 |
- Tarif Spesifik Perangkat Keras: Biaya per detik bervariasi berdasarkan sumber daya komputasi yang diperlukan. Setiap tingkatan perangkat keras memiliki titik harga yang berbeda.
- Model Berbasis Penggunaan Murni: Tidak ada biaya bulanan, tidak ada kelebihan, dan tidak ada batasan. Pengguna ditagih untuk waktu komputasi yang tepat (misalnya, “12,4 detik pada A100”) daripada per-generasi.
- Kelengkapan Per Detik: Penyedia cloud tradisional menagih per jam atau menit, mengakibatkan pemborosan pada tugas yang bersifat singkat. Penagihan per detik menghilangkan ketidakefisienan ini untuk eksperimen kecil maupun beban kerja produksi besar.
Waktu mulai dingin juga dapat ditagihkan. Permintaan pertama pada model sering kali memerlukan waktu 10-30 detik untuk memuat model ke dalam memori. Waktu pemuatan ini ditagih dengan tarif yang sama seperti waktu eksekusi.
Apa yang Membuatnya Unik
- Pengukuran spesifik perangkat keras: Model yang sama memiliki biaya lebih tinggi di perangkat keras yang lebih baik. Pengguna memilih antara kecepatan dan biaya. GPU T4 berguna untuk tugas yang tidak sensitif terhadap waktu, sementara A100 menangani aplikasi real-time.
- Kelengkapan per detik: Penagihan dihitung hingga ke detik, sehingga pengguna tidak pernah dikenakan biaya berlebihan untuk tugas singkat.
- Tidak ada langganan: Tidak ada komitmen untuk memulai. Dapat ditingkatkan tanpa batas dengan penggunaan, membuatnya ideal untuk startup dan pengembang yang bereksperimen dengan berbagai model.
- Model-agnostik: Logika penagihan tetap sama terlepas dari jenis tugas (pembuatan gambar, pemrosesan teks, transkripsi audio, atau sintesis video). Ini memungkinkan platform mendukung ekosistem model yang luas tanpa tabel harga yang rumit.
Bangun Ini dengan Dodo Payments
Anda dapat meniru model penagihan ini menggunakan fitur penagihan berbasis penggunaan Dodo Payments. Kuncinya adalah menggunakan beberapa meteran untuk melacak tingkatan perangkat keras yang berbeda dan menghubungkannya ke satu produk.Create Usage Meters (One Per Hardware Class)
Buat meteran terpisah untuk setiap tingkatan perangkat keras. Setiap jenis perangkat keras memiliki biaya per detik yang berbeda, sehingga pengukuran independen memungkinkan Dodo memberi harga berbeda untuk setiap tingkatan dan menyediakan penagihan mendetail.
Agregasi
| Nama Meteran | Nama Acara | Aggregation | Property |
|---|---|---|---|
| CPU Compute | compute.cpu | Sum | execution_seconds |
| GPU T4 Compute | compute.gpu_t4 | Sum | execution_seconds |
| GPU A40 Compute | compute.gpu_a40 | Sum | execution_seconds |
| GPU A40 Large Compute | compute.gpu_a40_large | Sum | execution_seconds |
| GPU A100 40GB Compute | compute.gpu_a100_40 | Sum | execution_seconds |
| GPU A100 80GB Compute | compute.gpu_a100_80 | Sum | execution_seconds |
Sum pada properti execution_seconds menghitung total waktu komputasi per tingkatan perangkat keras selama periode penagihan.Create a Usage-Based Product
Buat produk baru di dasbor Dodo Payments:
Tetapkan Ambang Batas Gratis ke 0 untuk semua meteran. Setiap detik eksekusi dapat ditagihkan.
- Jenis Penetapan Harga: Penggunaan Berdasarkan Penggunaan
- Harga Dasar: $0/bulan (tidak ada biaya langganan)
- Frekuensi Penagihan: Bulanan
| Meteran | Harga Per Unit (per detik) |
|---|---|
| compute.cpu | $0.000100 |
| compute.gpu_t4 | $0.000225 |
| compute.gpu_a40 | $0.000575 |
| compute.gpu_a40_large | $0.000725 |
| compute.gpu_a100_40 | $0.001150 |
| compute.gpu_a100_80 | $0.001400 |
Send Usage Events
Kirimkan acara penggunaan ke Dodo setiap kali eksekusi model selesai. Sertakan
event_id yang unik untuk setiap prediksi untuk memastikan idempotensi.Measure Execution Time Precisely
Bungkus eksekusi model Anda dengan penanganan penentuan waktu yang tepat menggunakan
performance.now(). Pembulatan hingga sepersepuluh detik terdekat untuk penagihan.Percepat dengan Blueprint Ingesti Rentang Waktu
Blueprint Ingesti Rentang Waktu menyederhanakan pelacakan komputasi per detik. Buat satu instance ingest per tingkatan perangkat keras dan gunakantrackTimeRange untuk pengiriman acara yang lebih bersih.
Estimasi Biaya untuk Pengguna
Karena penagihan berbasis penggunaan dapat tidak dapat diprediksi, berikan pengguna biaya perkiraan sebelum mereka menjalankan model. Ini mengurangi tagihan kejutan dan membangun kepercayaan.Contoh Perhitungan Biaya
| Model | Perangkat Keras | Rata-rata Waktu | Biaya Per Run |
|---|---|---|---|
| SDXL (gambar) | A100 80GB | ~8 detik | ~$0.0112 |
| Llama 3 (teks) | A100 40GB | ~3 detik | ~$0.0035 |
| Whisper (audio) | GPU T4 | ~15 detik | ~$0.0034 |
Membangun Kalkulator Biaya
Enterprise: Kapasitas Terbatas
Untuk pelanggan perusahaan yang memerlukan ketersediaan terjamin dan tidak ada waktu mulai dingin, Replicate menawarkan “Instansi Pribadi” dengan tarif per jam yang tetap. Dengan Dodo Payments, modelkan ini sebagai produk berlangganan:- Jenis Produk: Langganan
- Harga: Harga bulanan tetap (misalnya, “Instansi A100 Terbatas - $500/bulan”)
- Siklus Penagihan: Bulanan
Canggih: Pengukuran Heartbeat
Untuk tugas yang memakan waktu beberapa menit atau jam, mengirimkan satu acara di akhir adalah risiko. Jika proses mengalami crash, Anda kehilangan data penggunaan. Pendekatan yang lebih baik adalah mengirimkan acara penggunaan setiap 30-60 detik selama eksekusi.Fitur Utama Dodo yang Digunakan
Usage-Based Billing
Mengatur produk yang menagih berdasarkan konsumsi.
Meters
Mendefinisikan metrik yang ingin Anda lacak dan tagih.
Event Ingestion
Mengirimkan data penggunaan ke Dodo secara real-time.
Subscriptions
Mengelola penagihan berulang untuk kapasitas terbatas dan rencana perusahaan.
Time Range Blueprint
Pelacakan komputasi per detik dengan pembantu durasi.