هوش مصنوعی deepfake سامسونگ

هوش مصنوعی deepfake سامسونگ از یک عکس و تصویر شما ویدئو می سازد!

هوش مصنوعی دیپ فیک (deepfake) می تواند از شما و حتی از یک پروفایل تصویری شما یک ویدیو بسازد. حتی تصویر مونا لیزا یا انیشتن، و یا حتی سالوادور دالی از گذشته، می تواند به یک ویدئو جعلی تبدیل شود. این هوش مصنوعی AI توسط یک آزمایشگاه سامسونگ در روسیه راه اندازی شده است و می تواند از یک تصویر واحد، از جمله یک نقاشی، ویدئوهایی خاص را تولید کند. اخیرا بحث ها در مورد دیپ فیک بسیار گسترده شده و بعد از ویدئوهایی جعلی از شخصیت های معروف و حتی دولتمردان آمریکایی، این توانایی حتی جنجالی تر و بحث بر انگیز تر نیز شده است.

تصور کنید که شخصی به راحتی با سرقت و دریافت عکس پروفایل فیس بوک و یا هر عکس پروفایل شبکه اجتماعی شما بتواند که یک ویدیوی جعلی دیپ فیک (deepfake) از شما را ایجاد کند.

خوشبختانه این تکنولوژی خاص هنوز به دستان افراد بد و نامشروع نیافتاده است، اما سامسونگ متوجه شده است که این تکنولوژی چگونه کار می کند.

این نرم افزار برای ایجاد ویدئو های جعلی deepfake، کلیپ هایی ساخته شده از عکس های مردم که به نظر می رسد کاری را انجام بدهند که هرگز نکرده اند و یا چیزی را بگویند که هرگز نگفته اند، معمولا به مجموعه های زیادی از داده های بزرگ تصاویر خاص نیاز دارند تا یک ویدئو جعلی واقعی را ایجاد کنند.

در حال حاضر سامسونگ این سیستم هوشمند جدید هوش مصنوعی را توسعه داده است که می تواند یک کلیپ جعلی را با کمی محتوای قبلی، و فقط یک عکس سوژه، تولید کند.

البته، هر چند که این تکنولوژی میتواند برای سرگرمی نیز استفاده شود، مانند ایجاد تصاویر زنده از یک تصویر یا نقاشی کلاسیک.

اما در کل بسیار جالب است.

چرا که، مونا لیزا، که تنها به عنوان یک تصویر و نقاشی ثابت از دوران بسیار قدیمی وجود دارد، در سه کلیپ مختلف برای نشان دادن این تکنولوژی جدید، به حرکت های مختلف در می آید و در نماهای مختلفی شروع به حرف زدن می کند.

آزمایشگاه هوش مصنوعی سامسونگ در روسیه این تکنولوژی را توسعه داده است، که در ابتدای این هفته در یک مقاله منتشر شد.

هانی فرید (Hany Farid)، یک محقق دانشگاه دارتموث، متخصص قانونی رسانه ای برای گسترش فرا افکنی های ویدئوهای دیپ فیک، می گوید: این نوع تکنیک ها و توسعه سریع آنها، همچینن خطرات غلط، سوء استفاده از اطلاعات و حتی ایجاد شایعات تقلبی را نیز گسترش می دهد.

او افزود: "هنگامی که حتی یک ویدیو معمولی از سخنرانی رئیس مجلس نمایندگان ایالات متحده در نانسی پلوسی آمریکا می تواند در رسانه های اجتماعی مانند ویروس پخش شود، یک ویدئو جعلی دیپ فیک می تواند حتی نگرانی ها را بسیار افزایش دهد، چرا که پیچیدگی آنها فریب دسته جمعی را آسان تر می کند، حتی از آن جا که در آینده تشخیص یک ویدئو دیپ فیک به نظر سخت تر نیز می شود.

هانی فرید در ادامه گفت: "به دنبال روند سال های گذشته، این تکنولوژی و تکنیک های مرتبط با آن در آینده، نیاز به اطلاعات کمتری پیدا می کنند و حتی محتویات پیچیده تر و محتاطانه تری را تولید می نمایند. با وجود این که سامسونگ می تواند جلوه های بصری و دیداری خاص خود را ایجاد کند، این نتایج گام دیگری در تکامل تکنیک های فناوری AI است ... و منجر به ایجاد محتوای چند رسانه ای می شود که در نهایت از واقعیت غیر قابل تشخیص است."

نرم افزار deepfake با استفاده از یادگیری ماشین AI برای جعل حرکات یک تصویر، عمل می کند.

اگر چه چندین دهه است که کارکنان کامپیوتری بر روی ویدیوها، مشتاق چنین تکنولوژی بوده اند، سیستم های دیپ فیک، نه تنها تولید و اجرا ویدئو را آسان تر می کنند، بلکه تشخیص آن از واقعیت را نیز سخت تر خواهند کرد، چرا که با یادگیری ماشینی هوش مصنوعی، بهبود می یابند.

در حال حاضر می توان آنها را به عنوان عروسک های عکاسی دیجیتالی واقعی در نظر گرفت.

بسیاری از ویدئو های deepfakes، مانند یک انیمیشن از مونا لیزا و یا از انیشتن، سرگرم کننده و بی ضرر هستند.

اما این تکنولوژی به قدرتی قدرتمند و عجیب است که ممکن است یک ژانر کامل از الگوهای رفتاری را ایجاد کند، از جمله این که می تواند مثلا صورت چهره نیکلاس کیج را در فیلم ها و سریال های تلویزیون هایی قرار دهد که او نمی تواند در آن ها حضور داشته باشد.

و حتی ویدئویی از دیپ فیک، که تام کروز را به جای داونی جونیور، به عنوان شخصیت مرد آهنین نشان می دهد!

اما فناوری دیپ فیک همچنین نیز می تواند موذیانه و مرموزتر باشد، مثلا زمانی که چهره یک فرد برای انتقام جویی در یک فیلم بزرگسال جعل شود، همانگونه که فتوشاپ نیز در گذشته مشکلاتی از قبیل این تکنیک، برای انتقام جویی در عکس های نامشروع را به همراه داشته است.

در مقاله آزمایشگاه هوش مصنوعی سامسونگ، این شرکت این اثر خود را به عنوان "realistic neural talking heads" نامگذاری کرد.

در ابتدا در مورد اصطلاح "talking heads" باید بگوئیم که اشاره به ژانر ویدئویی دارد که سیستم می تواند ایجاد کند.

آن شبیه به آن جعبه های ویدئویی است که شما در اخبار و در اطراف کادر مجری ها در تلویزیون می ببینید و کمی تصویر را نا هماهنگ می کند.

اما کلمه "neural" به یک گره در شبکه های عصبی اشاره دارد، نوعی یادگیری ماشینی که الگوها را همانند مغز انسان تقلید می کند.

محققان پیشرفته های خود را در بسیاری از برنامه های کاربردی از جمله بازی های ویدئویی، فیلم و تلویزیون مورد استفاده قرار داده اند.

آنها چنین نوشته اند: "چنین توانایی دارای کاربردهای عالی برای تلوزیون است، از جمله در بخش های ویدئو کنفرانس و بازی های چند نفره، و همچنین در صنعت جلوه های ویژه."

معمولا یک تصویر ژانر talking head ترکیب شده، نیاز به آموزش یک سیستم هوش مصنوعی دارد تا بر روی یک مجموعه داده های بزرگ از تصاویر و یک تصویر واحد از یک فرد تمرکز کند.

از آنجایی که این تکنولوژی به تنهایی نیاز به تعداد زیادی عکس از یک فرد مورد نظر دارد، اما اهداف دیپ فیک دقیق تر هستند، و می توانند به راحتی حتی شخصیت های عمومی مانند افراد مشهور و سیاستمداران را هدف قرار دهند.

سیستم سامسونگ با استفاده از یک ترفند، که درباره این است که آمادگی کلید موفقیت است، به نظر می رسد که از استناد و گفته های الکساندر گراهام بل استفاده می کنند.

سیستم با یک مرحله "فرا یادگیری" طولانی شروع می شود که در آن تعداد زیادی از فیلم ها را تماشا می کند تا بداند چهره های انسان چگونه حرکت می کند. پس یه مقدار زیادی دیتا و اطلاعات ویدئویی نیاز دارد.

پس از آن، آنچه را که یاد گرفته، با یک یا چند عدد عکس داده شده از قبل ترکیب می کند، و از آن بر روی یک عکس سوژه برای تولید کلیپ ویدئویی منطقی و واقعی استفاده می کند.

بر خلاف یک ویدیوی واقعی، دیپ فیک با نتایج حاصل از یک یا تعداد کمی از تصاویر، جزئیات عالی را به ما نشان میدهد.

به عنوان مثال، یک تصویر جعلی از مریلین مونرو در نسخه آزمایشی آزمایشگاه سامسونگ بسیار قابل توجه بوده است.

به گفته سایوی لیو (Siwei Lyu)، استاد علوم رایانه در دانشگاه آلبانی در نیویورک که در زمینه مدیا و یادگیری ماشینی متخصص است، این به گونه ای است که فیلم های ترکیب شده، برخی از ویژگی های هر کسی را که نقش یک عروسک دیجیتالی را بازی می کنند، را حفظ می کند.

به همین دلیل هر یک از تصاویر مونالیزا به نظر می رسد مانند یک فرد کمی متفاوت تر باشد.



اما به طور کلی، یک سیستم deepfake به هدف حذف این ضایعات بصری و دیداری نیاز دارد تا کاملا از واقعیت غیر قابل تشخیص باشد.

این به مقدار قابل توجهی از داده های آموزشی نیاز دارد که از هر دو، ویدئو های ورودی و تصویر فرد مورد نظر به دست می آیند.

لیو گفت، جنبه های چند منظوره از یک شات و عکس در یک رویکرد مفید است، زیرا به این معنی است که شبکه را می توان با تعداد زیادی از فیلم های بیشتر آموزش داد، که بخشی است که زمان بیشتری نیز طول می کشد.

وی گفت که این نوع سیستم پس از آن می تواند به سرعت با یک فرد جدید سازگار شود و تنها با استفاده از چند تصویر بدون آموزش بیشتر، به کار خود ادامه دهد. این موجب صرفه جویی در زمان می گردد، و باعث می شود مدل قابل اعتماد تر نیز باشد."

پیشرفت سریع این هوش مصنوعی به این معنی است که هرگاه یک محقق یک موفقیت خاص را به دست می آورد، بازیگران بد می توانند با استفاده از ابزارهای جنجالی خود به تقلید از آن بپردازند.

به نظر می رسد تکنیک های سامسونگ برای مدت دیگری به دست افراد بیشتری دسترسی پیدا کنند.

اشتباهات در فیلم های جعلی ساخته شده توسط رویکرد جدید سامسونگ ممکن است واضح و شفاف باشد.

اما آنها به راحتی می توانند بهتر شوند و هر کسی را که به طور فزاینده ای فریب دهند.

در صورت علاقه نیز در زیر می توانید ویدئویی از روش ها و چگونگی کارکرد این تکنولوژی جدید AI را مشاهده کنی( به زبان اصلی):



برای مطالعه بیشتر ببینید که هوش مصنوعی AI چگونه عکاسی با دوربین های موبایل را ارتقاء داده است، هوش مصنوعی AI اشیاء را در تاریکی شناسایی می کند و یا آزمایشگاه رباتیک هوش مصنوعی گوگل در حال ساخت ربات های انسانی.

... توضیحات کامل