سایت خبری
famaserver
  • صفحه نخست
  • تکنولوژی
  • علم و دانش
  • بازی
  • فناوری
  • اینترنت
  • موبایل
سایت خبری
برترین عناوین خبری
  • خرید بیمه: سنتی یا آنلاین؟ کدامیک تجربه بهتری برای مشتریان ایجاد می‌کند؟

سرتیتر خبرها

با آیفون ۱۷ دیگر عکس‌های سلفی خراب نمی‌شود!

با آیفون ۱۷ دیگر عکس‌های سلفی خراب نمی‌شود!

2 ماه پیش
معیوب‌ترین گوشی‌های هوشمند جهان؛ آیفون و سامسونگ در میانه جدول خرابی

معیوب‌ترین گوشی‌های هوشمند جهان؛ آیفون و سامسونگ در میانه جدول خرابی

2 ماه پیش
جنجال خط و خش‌های آیفون ۱۷؛ اپل علت واقعی را توضیح داد

جنجال خط و خش‌های آیفون ۱۷؛ اپل علت واقعی را توضیح داد

2 ماه پیش
شارژ ۸۰ درصدی باتری: افسانه یا واقعیت؟ (تحلیل علمی)

شارژ ۸۰ درصدی باتری: افسانه یا واقعیت؟ (تحلیل علمی)

2 ماه پیش
آموزش: دلیل کند شدن و ری‌استارت مداوم گوشی‌های اندرویدی چیست؟

آموزش: دلیل کند شدن و ری‌استارت مداوم گوشی‌های اندرویدی چیست؟

2 ماه پیش
وان‌پلاس ۱۵: تاریخ عرضه جهانی و مشخصات فنی فاش شد

وان‌پلاس ۱۵: تاریخ عرضه جهانی و مشخصات فنی فاش شد

2 ماه پیش
قیمت مقرون به صرفه آیفون ۱۷ در آمریکا

قیمت مقرون به صرفه آیفون ۱۷ در آمریکا

2 ماه پیش
چرا باید حالت هواپیما را در گوشی فعال کنیم؟ مزایا و کاربردهای شگفت‌انگیز

چرا باید حالت هواپیما را در گوشی فعال کنیم؟ مزایا و کاربردهای شگفت‌انگیز

2 ماه پیش
کاهش 20 درصدی واردات تلفن همراه در 5 ماهه امسال

کاهش ۲۰ درصدی واردات تلفن همراه در ۵ ماهه امسال

2 ماه پیش
۵ عادت مخرب که گوشی هوشمند شما را نابود می‌کند

۵ عادت مخرب که گوشی هوشمند شما را نابود می‌کند

2 ماه پیش

شبیه‌سازی صدا با هوش مصنوعی تنها در ۳ ثانیه

زمان انتشار: 15 ژانویه 2023 ساعت 8:04

دسته بندی: فناوری

شناسه خبر: 493579

زمان مطالعه: 8 دقیقه

شبیه‌سازی صدا با هوش مصنوعی تنها در ۳ ثانیه

شبیه‌سازی صدا با هوش مصنوعی تنها در ۳ ثانیه

محققان مایکروسافت یک مدل جدید هوش مصنوعیتبدیل متن به گفتار به‌نام VALL-E معرفی کرده‌اند که می‌تواند صدای افراد را با نمونه‌ی صوتی سه‌ثانیه‌ای از صدای آن‌ها، شبیه‌سازی کنند. این مدل پس‌از یادگیری صدای خاص، می‌تواند آن را با هر چیزی که می‌گویید ترکیب کند و این‌کار را به‌نحوی انجام می‌دهد که لحن احساسی گوینده‌ی اصلی حفظ شود.

سازندگان VALL-E حدس می‌زنند این مدل هوش مصنوعی می‌تواند برای برنامه‌های کاربردی تبدیل متن به گفتار با کیفیت بالا یا برنامه‌های ویرایش گفتار که در آن صدای ضبط‌شده‌ی یک شخص می‌تواند ویرایش شود مورد استفاده قرار گیرد. این مدل همچنین می‌تواند با ترکیب سایر مدل‌های هوش مصنوعی مثل GPT-3 برای ایجاد محتوای صوتی استفاده شود.

مایکروسافت VALL-E را «مدل زبان کدک عصبی» می‌نامد و از کدهای کدک صوتی EnCodec که متا آن را در اکتبر ۲۰۲۲ معرفی کرد، استفاده می‌کند. این فناوری اساساً حالت صدای یک شخص را تجزیه‌وتحلیل و اطلاعات به‌دست آمده را به اجزای جداگانه که توکن نامیده می‌شوند تبدیل می‌کند. در مرحله‌ی بعد از داده‌های آموزشی برای مطابقت با آن‌چه درمورد صدای شخص می‌داند بهره می‌برد. مایکروسافت می‌گوید:

VALL-E برای ترکیب گفتار شخصی‌شده نشانه‌های صوتی را از صدای سه‌ثانیه‌ای شخص موردنظر ثبت می‌کند و درنهایت از آن‌ها برای سنتز شکل موج نهایی با رمزگشایی کدک عصبی مربوطه بهره می‌برد.

مایکروسافت قابلیت سنتز گفتار VALL-E را روی کتابخانه‌ی صوتی LibriLight متا آموزش داد. این فرآیند شامل ۶۰ هزار ساعت سخنرانی به زبان انگلیسی از بیش‌از هفت هزار سخنران است که عمدتاً از کتاب‌های صوتی عمومی LibriVox استخراج‌ شده‌اند. برای اینکه VALL-E نتیجه‌ی خوبی ایجاد کند صدای نمونه‌ی سه ثانیه‌ای باید دقیقاً با صدای داده‌های آموزشی مطابقت داشته باشد.

مایکروسافت در وب‌سایت نمونه‌ی VALL-E، ده‌ها نمونه‌ی صوتی از مدل هوش مصنوعی، ارائه‌ داده است. در میان نمونه‌ها، Speaker Prompt صدای سه‌ثانیه‌ای ارائه‌شده به VALL-E است که باید از آن تقلید کند. در این وب‌سایت صدای سه‌ثانیه‌ای نمونه مربوط به همان گوینده است که یک عبارت خاص را برای مقاصد آزمایشی بیان می‌کند. Baseline نمونه‌ای از سنتر است که با روش سنتز متن به‌ گفتار ارائه می‌شود و نمونه‌ی VALL-E خروجی ایجاد شده با هوش مصنوعی را ارائه می‌دهد.

به‌نوشته‌ی ArsTechnica، درحالی‌که از VALL-E برای ایجاد نتایج استفاده می‌شود، محققان فقط نمونه‌ی سه‌ ثانیه‌ای Speaker Prompt و یک رشته متن که می‌خواهند با آن صوت بیان شود را به VALL-E ارائه دادند. در برخی موارد، این دو نمونه بسیار نزدیک هستند. به‌نظر می‌رسد برخی از نتایج این هوش مصنوعی با رایانه ایجاد شده‌اند اما برخی دیگر به‌طور بالقوه می‌توانند با گفتار انسان اشتباه گرفته شوند که درواقع این مورد، هدف اصلی مدل هوش مصنوعی است.

VALL-E علاوه‌بر حفظ لحن صوتی و احساسی گوینده، می‌تواند از محیط آکوستیک نمونه‌ی صوتی نیز تقلید کند. به‌عنوان مثال، اگر نمونه از یک تماس تلفنی گرفته شده باشد، خروجی صدا ویژگی‌های صوتی و فرکانس یک تماس تلفنی را در خروجی سنتزشده‌ی خود شبیه‌سازی می‌کند و نمونه‌های مایکروسافت نشان می‌دهد VALL-E قادر است با تغییر دامنه‌ی تصادفی مورداستفاده در فرآیند تولید صدا، تغییراتی در تُن آن ایجاد کند.

شاید مایکروسافت به‌دلیل توانایی VALL-E در تحریک احتمالی شیطنت و فریب، کد آن را برای آزمایش به دیگران ارائه نداده است. بنابراین درحال‌حاضر نمی‌توان قابلیت‌های این هوش مصنوعی را آزمایش کرد. به‌نظر می‌رسد محققان از آسیب اجتماعی بالقوه‌ای که این فناوری می‌تواند به‌همراه داشته باشد آگاه هستند. در بخشی از نتیجه‌گیری این مقاله آمده است:

از آنجا که گفتار ایجاد شده با VALL-E می‌تواند هویت گوینده را حفظ کند، شاید خطرات بالقوه‌ای در استفاده‌ی نادرست از مدل وجود داشته باشد که از جمله می‌توان به جعل هویت صدا یا جعل هویت یک گوینده‌ی خاص اشاره کرد. برای کاهش چینین خطراتی می‌توان یک مدل تشخیص برای تمایز ایجاد کرد. بدین ترتیب مشخص می‌شود آیا کلید صوتی با VALL-E ایجاد شده است یا خیر. ما همچنین اصول هوش مصنوعی مایکروسافت را در توسعه‌ی بیشتر مدل‌های به‌کار خواهیم برد.

۲۲۷۲۲۷

حتما بخوانید : موتورسواری بدون ترس از زمین خوردن امکان‌پذیر شد / عکس

مجله خبری بیکینگ

برچسب ها
فناوری
اشتراک گذاری

اخبار مرتبط

  • انگشت حلقه و گوشی‌های هوشمند؛ عارضه‌ای پنهان که در حال فراگیر شدن است
    انگشت حلقه و گوشی‌های هوشمند؛ عارضه‌ای پنهان که در حال فراگیر شدن است 15 ساعت پیش
  • فسیل شدن مغز واقعیت دارد؟ هشدار پژوهشگران درباره خطرات ویدئوهای کوتاه
    فسیل شدن مغز واقعیت دارد؟ هشدار پژوهشگران درباره خطرات ویدئوهای کوتاه 15 ساعت پیش
  • نقطه عطف ۷۵ سالگی: وقتی تاب‌آوری بدن در پیری به پایان می‌رسد
    نقطه عطف ۷۵ سالگی: وقتی تاب‌آوری بدن در پیری به پایان می‌رسد 15 ساعت پیش
  • چرا Crater می‌تواند آینده خودروهای برقی آفرودی را تغییر دهد
    چرا Crater می‌تواند آینده خودروهای برقی آفرودی را تغییر دهد 15 ساعت پیش

دیدگاه ها

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دسته بندی موضوعات

  • ارتباطات 160
  • امنیت 293
  • اینترنت 3435
  • بازی 8814
  • برنامه نویسی 34
  • تبلیغات 21
  • تکنولوژی 29541
  • دانش‌بنیان 1
  • رمز ارز 1252
  • سیستم عامل 203
  • شبکه اجتماعی 622
  • علم و دانش 14927
  • فناوری 7413
  • کاریکاتور 556
  • کسب و کار 670
  • موبایل 724
  • میزبانی وب 40
  • نرم افزار - سخت افزار 413

جدیدترین مقالات

  • افزایش راندمان کاری با طراحی دکوراسیون اداری استاندارد
    افزایش راندمان کاری با طراحی دکوراسیون اداری استاندارد 17 ساعت پیش
  • بلیط اتوبوس تهران انزلی چطور در تعطیلات به موقع رزرو کنیم؟
    بلیط اتوبوس تهران انزلی چطور در تعطیلات به موقع رزرو کنیم؟ 17 ساعت پیش
  • کاربرد جت پرینتر لیزری در صنایع مختلف چیست؟
    کاربرد جت پرینتر لیزری در صنایع مختلف چیست؟ 17 ساعت پیش
  • چرا قیمت بک لینک‌ها متفاوت است و چه عواملی بر آن تاثیر می‌گذارند؟
    چرا قیمت بک لینک‌ها متفاوت است و چه عواملی بر آن تاثیر می‌گذارند؟ 17 ساعت پیش
  • بهترین گوشی‌های گیمینگ در قیمت‌های مختلف
    بهترین گوشی‌های گیمینگ در قیمت‌های مختلف 17 ساعت پیش

لینکهای پیشنهادی

سرور مجازی | خرید هاست | دانلود نرم افزار | کلاس آنلاین | رپورتاژ خارجی

میزبانی در هاست ویندوز فاماسرور