تبدیل متن به گفتار در حال تبدیل شدن به یک فرایند یا تکنولوژی هوشمندانه جدید در این عرضه تازه از زندگی است، اما یک مشکل نیز در همین حین وجود دارد: این فناوری هنوز هم می تواند مقدار زیادی از وقت و منابع آموزشی را برای تولید خروجی یک صدا طبیعی مصرف کند که بسیار پر هزینه و زمان بر است.
اما محققان چینی و شرکت مایکروسافت ممکن است راه موثرتری را در اختیار داشته باشند.
آنها یک هوش صنوعی AI متن به گفتار را ایجاد کرده اند که می توانند با استفاده از 200 نمونه صوتی (حدود 20 دقیقه ای)، یک صدای طبیعی و متناسب با رونوشتها متنی را تولید کنند.
این سیستم به طور جزئی بر روی ترانسفورماتور یا شبکه های عصبی عمیق قرار گرفته است که تقریبا شباهتی به نورون ها در مغز ما انسان ها دارند.
ترانسفورماتور هر ورودی و خروجی را در هنگام رفت و برگشت می سنجد، مانند لینک های synaptic در سر و نوک نورونها، و به آنها کمک می کند که حتی مسیرهای متوالی طولانی تر، مثلا یک مسیر پیچیده یا دستور های متوالی را بسیار موثرتر انجام دهند.
ترکیب آن دستورات با یک مولد رمزگذاری حذف نویز و هوش مصنوعی AI می تواند مقدار زیادی از عملکردها را با طور نسبی به پیش ببرد.
نتایج به دست آمده مانند یک صدا رباتیک صاف و یکدست است، اما با واضح بودن کلمه در 99.84 درصد از دفعات، این هوش مصنوعی AI بسیار دقیق نیز است.
مهمتر از همه، این می تواند متن را به بیان بهتر در دسترس کاربر قرار دهد.
همچنین شما نیازی ندارید تا برای کسب صدای واقع گرایانه تلاش زیادی بکنید، تا آن را در دسترس شرکت های کوچک و حتی علاقه مندان خود قرار دهید.
این برای آینده بسیار بهتر و پیشرفته تر خواهد شد.
محققان امیدوارند اطلاعاتی بی نظیر و بهتری را آموزش دهند، بنابراین ممکن است نیاز به کار کمتر برای ایجاد گفتگوی واقع بینانه توسط هوش مصنوعی داشته باشیم.
برا مطالعه بیشتر ببینید که AI نویسنده Alibaba می تواند متن های شما را خیلی سریع بنویسد، یا Move Mirror هوش مصنوعی جدید گوگل و تشخیص حرکات شما و یا هوش مصنوعی deepfake سامسونگ از یک عکس و تصویر شما ویدئو می سازد!