रेप्लिकेट कैसे बिल करता है
रेप्लिकेट की मूल्य निर्धारण उस विशिष्ट मॉडल से अलग होती है जिसे चलाया जा रहा है। चाहे आप SDXL के साथ छवि जनरेट कर रहे हों या Llama 3 चला रहे हों, बिलिंग हार्डवेयर टियर और निष्पादन की अवधि द्वारा निर्धारित होती है। इससे वे हजारों ओपन-सोर्स मॉडल होस्ट कर सकते हैं बिना हर एक के लिए अलग मूल्य योजना की आवश्यकता के।| हार्डवेयर | प्रति सेकंड मूल्य | प्रति घंटा मूल्य |
|---|---|---|
| NVIDIA CPU | $0.000100 | $0.36 |
| NVIDIA T4 GPU | $0.000225 | $0.81 |
| NVIDIA A40 GPU | $0.000575 | $2.07 |
| NVIDIA A40 (Large) GPU | $0.000725 | $2.61 |
| NVIDIA A100 (40GB) GPU | $0.001150 | $4.14 |
| NVIDIA A100 (80GB) GPU | $0.001400 | $5.04 |
- हार्डवेयर-विशिष्ट दरें: प्रति सेकंड लागत उस कंप्यूट संसाधन पर आधारित होती है जिसकी आवश्यकता होती है। हर हार्डवेयर टियर का अलग मूल्य बिंदु होता है।
- शुद्ध उपयोग-आधारित मॉडल: कोई मासिक शुल्क नहीं, कोई ओवरएज नहीं और कोई सीमा नहीं। उपयोगकर्ताओं को सटीक कंप्यूट समय (जैसे “एक A100 पर 12.4 सेकंड”) के लिए बिल किया जाता है, न कि प्रति जनरेशन।
- प्रति-सेकंड सूक्ष्मता: पारंपरिक क्लाउड प्रदाता घंटे या मिनट के आधार पर बिल करते हैं, जिससे छोटे कार्यों में वेस्ट होता है। प्रति-सेकंड बिलिंग इस अक्षमता को छोटे प्रयोगों और बड़े प्रोडक्शन वर्कलोड्स दोनों के लिए समाप्त करती है।
कोल्ड स्टार्ट्स भी बिल करने योग्य होते हैं। किसी मॉडल के लिए पहली रिक्वेस्ट में अक्सर मॉडल को मेमोरी में लोड करने में 10-30 सेकंड लगते हैं। यह लोडिंग समय निष्पादन समय की समान दर पर बिल किया जाता है।
क्या इसे अलग बनाता है
- हार्डवेयर-विशिष्ट मीटरिंग: समान मॉडल बेहतर हार्डवेयर पर अधिक महंगा होता है। उपयोगकर्ता गति और लागत के बीच चुनाव करते हैं। गैर-समय-संवेदनशील कार्यों के लिए T4 GPU काम आता है, जबकि एक A100 वास्तविक-समय अनुप्रयोगों को संभालता है।
- प्रति-सेकंड सूक्ष्मता: बिलिंग सेकंड तक गणना की जाती है, इसलिए उपयोगकर्ताओं को छोटे कार्यों के लिए कभी अधिक शुल्क नहीं लिया जाता।
- कोई सदस्यता नहीं: शुरू करने के लिए शून्य प्रतिबद्धता। यह उपयोग के साथ अनंत रूप से स्केल करता है, जिससे यह स्टार्टअप्स और विभिन्न मॉडलों के साथ प्रयोग करने वाले डेवलपर्स के लिए आदर्श बनता है।
- मॉडल-एग्नोस्टिक: कार्य के प्रकार (छवि जनरेशन, टेक्स्ट प्रोसेसिंग, ऑडियो ट्रांसक्रिप्शन, या वीडियो सिंथेसिस) के बावजूद बिलिंग लॉजिक समान रहता है। इससे प्लेटफ़ॉर्म जटिल मूल्य तालिकाओं के बिना एक विशाल मॉडल इकोसिस्टम को सपोर्ट कर पाता है।
Dodo Payments के साथ इसे बनाएं
आप Dodo Payments की उपयोग-आधारित बिलिंग सुविधाओं का उपयोग करके इस बिलिंग मॉडल को दोहर सकते हैं। कुंजी यह है कि विभिन्न हार्डवेयर टियर्स को ट्रैक करने के लिए कई मीटरों का उपयोग करें और उन्हें एक ही उत्पाद से जोड़ें।Create Usage Meters (One Per Hardware Class)
प्रत्येक हार्डवेयर टियर के लिए अलग मीटर बनाएं। हर हार्डवेयर प्रकार का प्रति सेकंड अलग मूल्य होता है, इसलिए स्वतंत्र मीटरिंग Dodo को प्रत्येक टियर को अलग से मूल्य देने और वस्तुनिष्ठ बिलिंग प्रदान करने देती है।
| Meter Name | Event Name | Aggregation | Property |
|---|---|---|---|
| CPU Compute | compute.cpu | Sum | execution_seconds |
| GPU T4 Compute | compute.gpu_t4 | Sum | execution_seconds |
| GPU A40 Compute | compute.gpu_a40 | Sum | execution_seconds |
| GPU A40 Large Compute | compute.gpu_a40_large | Sum | execution_seconds |
| GPU A100 40GB Compute | compute.gpu_a100_40 | Sum | execution_seconds |
| GPU A100 80GB Compute | compute.gpu_a100_80 | Sum | execution_seconds |
Sum संग्रहण execution_seconds संपत्ति पर बिलिंग अवधि के दौरान प्रत्येक हार्डवेयर टियर के लिए कुल कंप्यूट समय की गणना करता है।Create a Usage-Based Product
Dodo Payments डैशबोर्ड में एक नया उत्पाद बनाएं:
सभी मीटरों के लिए फ्री थ्रेशोल्ड को 0 पर सेट करें। निष्पादन के हर सेकंड को बिल किया जाता है।
- मूल्य प्रकार: उपयोग-आधारित बिलिंग
- बेस प्राइस: $0/माह (कोई सदस्यता शुल्क नहीं)
- बिलिंग आवृत्ति: मासिक
| Meter | Price Per Unit (per second) |
|---|---|
| compute.cpu | $0.000100 |
| compute.gpu_t4 | $0.000225 |
| compute.gpu_a40 | $0.000575 |
| compute.gpu_a40_large | $0.000725 |
| compute.gpu_a100_40 | $0.001150 |
| compute.gpu_a100_80 | $0.001400 |
Send Usage Events
जब भी एक मॉडल निष्पादन पूरा हो, Dodo को उपयोग की घटनाएँ भेजें। प्रत्येक प्रेडिक्शन के लिए एक अद्वितीय
event_id शामिल करें ताकि आइडेम्पोटेंसी सुनिश्चित हो सके।Measure Execution Time Precisely
performance.now() का उपयोग करके अपने मॉडल निष्पादन को सटीक समय से लपेटें। बिलिंग के लिए निकटतम दसवें सेकंड तक राउंड करें।टाइम रेंज इनजेस्टन ब्लूप्रिंट के साथ गति बढ़ाएं
Time Range Ingestion Blueprint प्रति सेकंड कंप्यूट ट्रैकिंग को सरल बनाता है। प्रत्येक हार्डवेयर टियर के लिए एक इनजेस्टन इंस्टेंस बनाएं औरtrackTimeRange का उपयोग करें ताकि ईवेंट सबमिशन साफ रहे।
उपयोगकर्ताओं के लिए लागत अनुमान
चूंकि उपयोग-आधारित बिलिंग अप्रत्याशित हो सकती है, मॉडल चलाने से पहले उपयोगकर्ताओं को लागत अनुमान प्रदान करें। इससे आश्चर्यजनक बिल कम होते हैं और विश्वास बढ़ता है।उदाहरण लागत गणनाएँ
| मॉडल | हार्डवेयर | औसत समय | प्रति रन लागत |
|---|---|---|---|
| SDXL (छवि) | A100 80GB | ~8 सेकंड | ~$0.0112 |
| Llama 3 (टेक्स्ट) | A100 40GB | ~3 सेकंड | ~$0.0035 |
| Whisper (ऑडियो) | GPU T4 | ~15 सेकंड | ~$0.0034 |
लागत कैलकुलेटर बनाना
एंटर्प्राइज़: आरक्षित क्षमता
उन एंटर्प्राइज़ ग्राहकों के लिए जिन्हें गारंटीकृत उपलब्धता और कोई कोल्ड स्टार्ट नहीं चाहिए, रेप्लिकेट “प्राइवेट इंस्टेंस” एक निश्चित प्रति घंटे दर पर प्रदान करता है। Dodo Payments के साथ, इसे एक सब्सक्रिप्शन उत्पाद के रूप में मॉडल करें:- उत्पाद प्रकार: सब्सक्रिप्शन
- कीमत: निश्चित मासिक मूल्य (उदा., “आरक्षित A100 इंस्टेंस - $500/माह”)
- बिलिंग चक्र: मासिक
उन्नत: हार्टबीट मीटरिंग
ऐसे कार्यों के लिए जो कई मिनट या घंटे लगते हैं, केवल अंत में एक घटना भेजना जोखिम भरा होता है। अगर प्रक्रिया क्रैश हो जाए तो उपयोग डेटा खो जाता है। एक बेहतर तरीका यह है कि निष्पादन के दौरान हर 30-60 सेकंड पर उपयोग की घटनाएँ भेजी जाएँ।उपयोग किए गए प्रमुख Dodo फीचर्स
Usage-Based Billing
ऐसे उत्पाद सेट करें जो खपत के आधार पर बिल करते हैं।
Meters
उन मीट्रिक को परिभाषित करें जिन्हें आप ट्रैक और बिल करना चाहते हैं।
Event Ingestion
वास्तविक समय में Dodo को उपयोग डेटा भेजें।
Subscriptions
आरक्षित क्षमता और एंटरप्राइज़ योजनाओं के लिए आवर्ती बिलिंग प्रबंधित करें।
Time Range Blueprint
अवधि हेल्पर्स के साथ प्रति-सेकंड कंप्यूट ट्रैकिंग।
Key Dodo Features Used
Usage-Based Billing
Set up products that bill based on consumption.
Meters
Define the metrics you want to track and bill for.
Event Ingestion
Send usage data to Dodo in real-time.
Subscriptions
Manage recurring billing for reserved capacity and enterprise plans.
Time Range Blueprint
Per-second compute tracking with duration helpers.