NVIDIA ने Google, OpenAI को टक्कर दी, नया AI मॉडल Fugatto लॉन्च किया जो टेक्स्ट से ऑडियो बना सकता है – फ़र्स्टपोस्ट
&w=1200&resize=1200,0&ssl=1)
NVIDIA का फुगाट्टो संगीत, भाषा शिक्षा और खेल विकास जैसे क्षेत्रों में पेशेवरों के लिए अनुप्रयोगों की एक श्रृंखला प्रदान करता है। उदाहरण के लिए, संगीत निर्माता, शैलियों, आवाज़ों और वाद्ययंत्रों के साथ प्रयोग करते हुए, गीत के प्रोटोटाइप को शीघ्रता से तैयार करने के लिए एआई का उपयोग कर सकते हैं
और पढ़ें
NVIDIA ने फुगाट्टो लॉन्च किया है, जो एक अभूतपूर्व जेनेरिक एआई मॉडल है जो टेक्स्ट प्रॉम्प्ट को ऑडियो में बदलने में सक्षम है। आधिकारिक तौर पर फाउंडेशनल जेनरेटिव ऑडियो ट्रांसफॉर्मर ओपस 1 नाम दिया गया, इस प्रायोगिक मॉडल को संगीत बनाने से लेकर मौजूदा ध्वनियों को संशोधित करने तक विभिन्न प्रकार के ऑडियो-संबंधित कार्यों को संभालने के लिए डिज़ाइन किया गया है।
द्वारा वर्णित NVIDIA “ध्वनि के लिए स्विस आर्मी चाकू” के रूप में, फुगाटो उन्नत बहुभाषी और बहु-उच्चारण क्षमताओं को प्रदर्शित करता है, एआई शोधकर्ताओं की एक वैश्विक टीम द्वारा इसके विकास के लिए धन्यवाद।
पेशेवरों और उससे आगे के लिए ऑडियो निर्माण
फुगाट्टो संगीत, भाषा शिक्षा और खेल विकास जैसे क्षेत्रों में पेशेवरों के लिए अनुप्रयोगों की एक श्रृंखला प्रदान करता है। उदाहरण के लिए, संगीत निर्माता, शैलियों, आवाज़ों और वाद्ययंत्रों के साथ प्रयोग करते हुए, गीत के प्रोटोटाइप को शीघ्रता से तैयार करने के लिए एआई का उपयोग कर सकते हैं। शिक्षकों को भाषा-शिक्षण उपकरण बनाने, ऑडियो को विशिष्ट आवाज़ों या उच्चारणों के अनुरूप ढालने में यह उपयोगी लग सकता है। गेम डेवलपर्स के लिए, फुगाटो गेमप्ले परिवर्तनों के साथ संरेखित करने के लिए पूर्व-रिकॉर्ड किए गए ऑडियो को गतिशील रूप से समायोजित कर सकता है, जिससे खिलाड़ी का विसर्जन बढ़ जाता है।
इन प्रत्यक्ष अनुप्रयोगों के अलावा, फुगाटो जटिल कार्यों को भी संभाल सकता है जो इसके प्रशिक्षण डेटा से निर्देशों को जोड़ते हैं। उदाहरण के लिए, यह भाषण तैयार कर सकता है जो विशिष्ट भावनाओं को व्यक्त करता है, जैसे क्रोध, एक चुने हुए लहजे में, या शिल्प ध्वनियाँ जो समय के साथ विकसित होती हैं, जैसे कि एक परिदृश्य में बारिश का तूफ़ान। ये विशेषताएं ऑडियो पीढ़ी में एआई की अनुकूलनशीलता और रचनात्मक क्षमता को प्रदर्शित करती हैं।
ऑडियो के लिए जेनरेटिव एआई में एक प्रतिस्पर्धी स्थान
जबकि फुगाटो की क्षमताएं प्रभावशाली हैं, यह एआई-संचालित ऑडियो टूल के बढ़ते क्षेत्र में प्रवेश कर रहा है। मेटा ने पहले टेक्स्ट-टू-साउंड जनरेशन के लिए एक ओपन-सोर्स AI किट जारी किया है, और Google का MusicLM उपयोगकर्ताओं को अपने AI टेस्ट किचन प्लेटफॉर्म के माध्यम से टेक्स्ट प्रॉम्प्ट से संगीत बनाने की अनुमति देता है।
हालाँकि, NVIDIA का मॉडल प्राकृतिक, मानव-जैसी ध्वनि उत्पादन और मौजूदा ऑडियो फ़ाइलों को सटीकता के साथ संशोधित करने की क्षमता पर जोर देता है।
सार्वजनिक पहुंच की कोई योजना नहीं
NVIDIA फ़ुगाटो को सार्वजनिक रूप से उपलब्ध कराने की योजना का अभी तक खुलासा नहीं किया गया है। हालाँकि, ध्वनि डिज़ाइन में क्रांति लाने की मॉडल की क्षमता स्पष्ट है। पेशेवरों के लिए वर्कफ़्लो को सरल बनाने से लेकर अधिक वैयक्तिकृत ऑडियो अनुभवों को सक्षम करने तक, फ़ुगाटो एआई को रचनात्मक अभिव्यक्ति के साथ विलय करने की दिशा में एक और कदम है।
चाहे यह जनता के लिए सुलभ हो या नहीं, मॉडल ऑडियो नवाचार में जो संभव है उसे फिर से परिभाषित करने के लिए NVIDIA की महत्वाकांक्षा पर प्रकाश डालता है।