آموزش تبدیل متن به تصویر با هوش مصنوعی DALL-E

چهارشنبه، ۲۲ شهریور ۱۴۰۲

آموزش تبدیل متن به تصویر با هوش مصنوعی DALL-E

DALL-E: ابزار محبوب تولید تصویر هوش مصنوعی

ما در عصر طلایی داده و هوش مصنوعی هستیم. سرعت بی‌نظیر اکتشافات هوش مصنوعی، بهبود مدل‌ها و محصولات جدید در بازار، داده‌ها و استراتژی هوش مصنوعی را در راس مکالمات همه سازمان‌ها در سراسر جهان قرار می‌دهد. نسل بعدی شرکت‌ها و مدیران برنده کسانی خواهند بود که هوش مصنوعی را درک کرده و از آن استفاده می‌کنند.با افزایش محبوبیت تولید تصویر هوش مصنوعی، بسیاری از مردم به دنبال راه‌های ساده برای دستیابی به آن هستند. وب‌سایت‌های محبوب تبدیل متن به هنر، کاربران را قادر می‌سازد تا با استفاده از کلمات خود به جای ابزارهای هنری معمول، تصاویری ایجاد کنند.

DALL-E - نامی که برای یادآوری فیلم پیکسار WALL-E و نقاش سوررئالیست سالوادور دالی است - یک مدل زبان هوش مصنوعی پیشرفته است که توسط OpenAI توسعه یافته است که قادر به تولید تصاویر با کیفیت بالا و متنوع از توضیحات متنی است.

OpenAI به طور رسمی DALL-E را در ژانویه 2021 معرفی کرد. این سیستم از ترکیب دو مدل قبلی برای تولید تصاویر واقعی - GPT-3 و شبکه های زایای رقابتی (GAN) استفاده می کند.پس از موفقیت اولیه DALL-E، OpenAI جانشین خود، DALL-E 2 را در آوریل 2022 معرفی کرد. DALL-E 2 با ایجاد تصاویر واقعی تر و ترکیب سبک های مختلف که قبلا غیرممکن بود، بر روی قابلیت های سیستم اصلی بنا شده است.

DALL-E اولین سیستم مجهز به هوش مصنوعی بود که امکان عملکرد متن به تصویر را برجسته کرد. کاربران می توانند عبارات کوتاهی را ارائه کنند که DALL-E آن ها را درک کند و تصاویری را که نشان دهنده اعلان است ایجاد کند. DALL-E همچنین دارای یک مکانیسم ارزیابی برای تعیین دقیق بودن تصویر نهایی است.

DALL-E چگونه کار می کند؟

مکانیسم عملکردی DALL-E برای افراد غیر متخصص بسیار پیچیده و چالش برانگیز است. با این حال، DALL-E چهار مرحله مهم را هنگام تولید تصاویر دنبال می کند:

1- پیش پردازش:

DALL-E پیام های متنی ارائه شده توسط کاربران را می گیرد و آنها را به بردار تبدیل می کند. سپس از یک مدل زبان( به عنوان مثال GPT-3) برای درک آنچه کاربر می خواهد به دست آورد استفاده می کند.

2- رمزگذاری:

بردارهای ایجاد شده در مرحله پیش پردازش برای ایجاد تصویری استفاده می شود که دقیقاً با درخواست متن ارائه شده توسط کاربر مطابقت داشته باشد.

3- رمزگشایی:

DALL-E تصویر را چندین بار اصلاح می کند تا از واقع گرایی در طول مرحله رمزگشایی اطمینان حاصل کند. پس از این، DALL-E نتیجه نهایی را از طریق شبکه تشخیص‌دهنده «ارزیابی» می‌کند – در صورت نیاز به تغییرات بیشتر، سیستم اصلاحات اضافی را تسهیل می‌کند.

4- خروجی:

پس از تکمیل تمام اصلاحات، تصویر نهایی به عنوان خروجی به کاربر ارائه می شود.

ایمنی محتوا در DALL-E

اگرچه DALL-E دارای مزایای فراوانی است، اما از زمان ظهور این تکنولوژی نگرانی های اخلاقی بسیاری نیز بوجود آمده است. برجسته‌ترین نگرانی مربوط به «دیپ‌فیک‌ها» است – تصاویر یا ویدیوهایی که توسط سیستم‌های هوش مصنوعی بدون هیچ مبنایی در دنیای واقعی ایجاد می‌شوند.

ظهور دیپ فیک ها یک نگرانی واقعی در سطح جهانی است، زیرا ممکن است پیامدهای گسترده ای داشته باشد. به عنوان مثال، شخصی می تواند از یک سیستم هوش مصنوعی مانند DALL-E برای ایجاد یک تصویر واقعی از یک سیاستمدار در یک موقعیت حساس استفاده کند. سپس رسانه‌ها می‌توانند این تصویر را به اشتراک بگذارند و به اعتبار سیاستمدار لطمه بزنند.

OpenAI، DALL-E را طوری طراحی کرده است که تصاویری از چهره های عمومی و افراد مشهور ایجاد نکند. در واقع، از تولید تصاویر حاوی چهره های واقعی یا افراد واقعی خودداری می کند. این گامی درست در جهت جلوگیری از سوء استفاده از برنامه است.

این شرکت به کار بر روی ویژگی های ایمنی و امنیتی در سیستم خود ادامه می دهد. DALL-E سیستم ایمنی خود را بهبود بخشیده‌ایست، فیلترهای نوشتاری را بهبود بخشیده و سیستم تشخیص و پاسخ خودکار را برای نقض خط‌مشی محتوا تنظیم کرده‌است. این پیشرفت‌ها همچنین به جلوگیری از ایجاد تصاویر خشونت‌آمیز یا مضر با حذف محتوا از مجموعه داده‌های یادگیری ماشینی کمک می‌کنند. DALL-E محدودیت هایی را برای تولید تصاویر خشونت آمیز، نفرت پراکن، هرزه نگاری یا محتوای بزرگسالان قرار داده است.

همچنین نگرانی هایی در مورد حقوق مالکیت در مورد خروجی های DALL-E وجود دارد. چه کسی صاحب این تصاویر است؟ آیا این کاربر است که دستور متن را ارائه می دهد یا DALL-E (OpenAI) است؟ در حال حاضر هیچ پاسخ روشنی برای این موضوع وجود ندارد، زیرا سوالاتی را در مورد مسائل کپی رایت و حقوق مالکیت معنوی ایجاد می کند.

چه تفاوتی بین DALL-E و DALL-E 2 وجود دارد؟

علی رغم اینکه DALL-E و DALL-E2، هر دو مدل هایی هستند که توسط مجموعه OpenAI معرفی شده اند، تفاوت بین آنها در تعداد پارامترهایی نهفته است که به DALL-E 2 اجازه می دهد تصاویر بهتری نسبت به DALL-E تولید کند. این کار با تولید تصاویر با وضوح بالاتر انجام می شود. DALL-E از 12 میلیارد پارامتر استفاده می کند، در حالی که DALL-E 2 روی 3.5 میلیارد پارامتر و با 1.5 میلیارد پارامتر اضافی برای افزایش وضوح کار می کند.

DALLE-2 تصاویری با وضوح بالاتر، هرچند کوچکتر از مدل قبلی خود ایجاد می کند. DALLE-2 همچنین رابطه بین تصاویر و متن مورد استفاده برای توصیف آنها را در فرآیندی که به نام انتشار نیز شناخته می شود، یاد گرفته است. DALL-E 2 می‌تواند تصاویر را فراتر از آنچه در عکس اصلی وجود دارد، گسترش دهد و ترکیب‌بندی‌های جدیدی از تصاویر قدیمی ایجاد کند. وضوح آن چهار برابر بیشتر از DALL-E است. به طور کلی، DALL-E 2 قدرتمند تر از DALL-E است و تصاویر واقعی تر و دقیق تری نسبت به پیش ساخته خود تولید می کند.

استفاده موثر و حداکثری از ظرفیت DALL-E

برای استفاده بهینه از DALL-E باید به یک سری از نکات توجه داشت. برخی از این نکات در زیر ذکر شده اند:

  • ارائه توضیحات واضح و دقیق از آنچه می خواهید بسیار حیاتی است، زیرا این امر بهDall-E کمک می کند تا بهتر بفهمد چه چیزی باید ایجاد شود.

  • اگر به دنبال سبک هنری خاصی هستید، در مورد نوع کاری که می‌خواهید صریح صحبت کنید، یا اگر به دنبال سبک عکاسی هستید، در مورد زوایای دوربین، ویژگی‌های نور، فاصله کانونی و حتی دوربین خاص توضیحات کامل دهید.

  • برای تجربه کردن طیف های متنوعی از تصاویر که Dall-E می تواند تولید کند، توضیحات متنی مختلف را آزمایش کنید. در تنظیم تصویر به دلخواه خود با آزمایش رنگ ها، روشنایی و تنظیمات دیگر تردید نکنید تا زمانی که به نتیجه دلخواه برسید.

  • گنجاندن جزئیات مکان، دقت تصویر را بهبود می بخشد. بنابراین، هنگام نوشتن درخواست‌های خود، مطمئن شوید که جزئیات کافی در مورد موضوع اصلی طرح و زمینه یا محیطی که می‌خواهید سوژه شما در آن باشد وجود داشته باشد.

  • هنگام نوشتن توضیحات، از عباراتی مانند "تصویر با جزئیات بالا" یا "تصویر با کیفیت بالا" استفاده کنید تا مطمئن شوید که تصاویری که تولید می‌کنید دقیق و با کیفیت هستند.

چگونه از DALL-E برای تولید تصویر استفاده کنیم؟

مرحله 1: ثبت نام

اولین کاری که باید انجام دهید ایجاد یک حساب کاربری در سایت labs.openai.com است.

برای این کار میتوانید از حساب گوگل یا فیس بوک خود استفاده کنید. در عیر این صورت باید بر روی قسمت ثبت نام کلیک کنید.

مراحل ثبت نام را دنبال کنید، که شامل تأیید ایمیل و احتمالاً شماره تلفن شما در صورت نیاز است.

مرحله 2: دریافت اعتبار

DALL-E کاملا رایگان نیست. این پلتفرم بر اساس یک سیستم اعتباری عمل می کند. شما هر چند هفته یکبار 15 اعتبار رایگان دریافت می کنید یا در صورت نیاز می توانید اعتبار اضافی خریداری کنید. هر اعتبار به شما امکان تولید یک اثر هنری می‌دهد (در هر اثر 4 تصویر متفاوت برای شما نمایش داده می شود که می توانید یکی از آنها را انتخاب کنید). بنابراین در استفاده از اعتبار های خود دقت کنید.

مرحله 3: نوشتن توضیحات

هنگامی که اعتبار خود را دریافت کردید و حساب شما آماده شد، می توانید شروع به تولید تصاویر کنید. از زبان طبیعی برای توصیف تصویر مورد نظر خود و تا حد امکان واضح استفاده کنید.

مرحله 4: تولید تصویر

هنگام نوشتن توضیحات، به یاد داشته باشید که محدودیت کاراکتر 400 کلمه ای دارید. پس از وارد کردن توضیحات، "Generate" را فشار دهید.

مرحله 4: ویرایش و دانلود

اگر از نتایج اولیه کاملاً راضی نیستید، نگران نباشید، DALL-E 2 به شما امکان می دهد تصاویر را ویرایش کنید و آنها را بیشتر اصلاح کنید تا به نتیجه دلخواه برسید.

ویرایش تصویر در DALL-E

اگر میخواهید تصویری را از ابتدا و بر اساس تخیلات شخصی خودتان خلق کنید مراحل بالا به شما کمک می کند. اما یکی دیگر از ویژگی های DALL-E ویرایش سایر تصاویر است. برای مثال اگر قبلا عکسی گرفته اید میتوانید با استفاده از این پلتفرم آن را ویرایش کرده و بهبود ببخشید. برای این کار مراحل زیر را باید انجام دهید:

مرحله 1: به صفحه اصلی خود بروید و روی گزینه "آپلود تصویر برای ویرایش" در زیر کادر توضیحات کلیک کنید و یک تصویر آپلود کنید.

مرحله 2: یک پنجره بازشو با دستورالعمل‌ها و قوانین Dall E 2 روی صفحه نمایش شما ظاهر می‌شود. تولیدکننده تصویر این دستورالعمل‌ها را می‌فرستد تا مشکلات ناخواسته را از بین ببرد و پلتفرم‌های خود را از افرادی که از آنها برای اهداف مضر استفاده می‌کنند مصون نگه دارد. پس از خواندن آن، روی ادامه کلیک کنید.

مرحله 3: در مرحله بعد، می توانید عکس را برش دهید یا انتخاب کنید که آن را همانطور که هست نگه دارید. برای مثال عکس غروب آفتاب را برای ویرایش آپلود کردیم و از گزینه برش صرفنظر کردیم. بر اساس نیاز خود انتخاب کنید.

مرحله 4: قسمت خاصی را با پاک کردن انتخاب کنید و توضیحات مورد نظر خود را در آنجا وارد کنید. به عنوان مثال، ما یک قسمت را پاک کردیم و توضیحی برای اضافه کردن یک ماه سه بعدی اضافه کردیم. نتیجه ویرایش!

تصویر اصلی:

تصویر ویرایش شده:

می توانید عناصر دیگری را به تصویر اضافه یا کم کنید.

گاهی اوقات، Dall E 2 عناصر دقیقی را ارائه می دهد که به خوبی با تصویر شما ترکیب می شود. اما ممکن است گاهی اوقات با تصویر موجود ناهمخوانی داشته باشد. به همین دلیل بسیار مهم است که بدانید دقیقاً چه چیزی با تصویر شما مطابقت دارد. هنگامی که بدانید چه عناصری به خوبی با تصویر شما مطابقت دارند، می توانید از آنها به بهترین شکل ممکن استفاده کنید!