چهارشنبه، ۲۲ شهریور ۱۴۰۲
ما در عصر طلایی داده و هوش مصنوعی هستیم. سرعت بینظیر اکتشافات هوش مصنوعی، بهبود مدلها و محصولات جدید در بازار، دادهها و استراتژی هوش مصنوعی را در راس مکالمات همه سازمانها در سراسر جهان قرار میدهد. نسل بعدی شرکتها و مدیران برنده کسانی خواهند بود که هوش مصنوعی را درک کرده و از آن استفاده میکنند.با افزایش محبوبیت تولید تصویر هوش مصنوعی، بسیاری از مردم به دنبال راههای ساده برای دستیابی به آن هستند. وبسایتهای محبوب تبدیل متن به هنر، کاربران را قادر میسازد تا با استفاده از کلمات خود به جای ابزارهای هنری معمول، تصاویری ایجاد کنند.
DALL-E - نامی که برای یادآوری فیلم پیکسار WALL-E و نقاش سوررئالیست سالوادور دالی است - یک مدل زبان هوش مصنوعی پیشرفته است که توسط OpenAI توسعه یافته است که قادر به تولید تصاویر با کیفیت بالا و متنوع از توضیحات متنی است.
OpenAI به طور رسمی DALL-E را در ژانویه 2021 معرفی کرد. این سیستم از ترکیب دو مدل قبلی برای تولید تصاویر واقعی - GPT-3 و شبکه های زایای رقابتی (GAN) استفاده می کند.پس از موفقیت اولیه DALL-E، OpenAI جانشین خود، DALL-E 2 را در آوریل 2022 معرفی کرد. DALL-E 2 با ایجاد تصاویر واقعی تر و ترکیب سبک های مختلف که قبلا غیرممکن بود، بر روی قابلیت های سیستم اصلی بنا شده است.
DALL-E اولین سیستم مجهز به هوش مصنوعی بود که امکان عملکرد متن به تصویر را برجسته کرد. کاربران می توانند عبارات کوتاهی را ارائه کنند که DALL-E آن ها را درک کند و تصاویری را که نشان دهنده اعلان است ایجاد کند. DALL-E همچنین دارای یک مکانیسم ارزیابی برای تعیین دقیق بودن تصویر نهایی است.
مکانیسم عملکردی DALL-E برای افراد غیر متخصص بسیار پیچیده و چالش برانگیز است. با این حال، DALL-E چهار مرحله مهم را هنگام تولید تصاویر دنبال می کند:
1- پیش پردازش:
DALL-E پیام های متنی ارائه شده توسط کاربران را می گیرد و آنها را به بردار تبدیل می کند. سپس از یک مدل زبان( به عنوان مثال GPT-3) برای درک آنچه کاربر می خواهد به دست آورد استفاده می کند.
2- رمزگذاری:
بردارهای ایجاد شده در مرحله پیش پردازش برای ایجاد تصویری استفاده می شود که دقیقاً با درخواست متن ارائه شده توسط کاربر مطابقت داشته باشد.
3- رمزگشایی:
DALL-E تصویر را چندین بار اصلاح می کند تا از واقع گرایی در طول مرحله رمزگشایی اطمینان حاصل کند. پس از این، DALL-E نتیجه نهایی را از طریق شبکه تشخیصدهنده «ارزیابی» میکند – در صورت نیاز به تغییرات بیشتر، سیستم اصلاحات اضافی را تسهیل میکند.
4- خروجی:
پس از تکمیل تمام اصلاحات، تصویر نهایی به عنوان خروجی به کاربر ارائه می شود.
اگرچه DALL-E دارای مزایای فراوانی است، اما از زمان ظهور این تکنولوژی نگرانی های اخلاقی بسیاری نیز بوجود آمده است. برجستهترین نگرانی مربوط به «دیپفیکها» است – تصاویر یا ویدیوهایی که توسط سیستمهای هوش مصنوعی بدون هیچ مبنایی در دنیای واقعی ایجاد میشوند.
ظهور دیپ فیک ها یک نگرانی واقعی در سطح جهانی است، زیرا ممکن است پیامدهای گسترده ای داشته باشد. به عنوان مثال، شخصی می تواند از یک سیستم هوش مصنوعی مانند DALL-E برای ایجاد یک تصویر واقعی از یک سیاستمدار در یک موقعیت حساس استفاده کند. سپس رسانهها میتوانند این تصویر را به اشتراک بگذارند و به اعتبار سیاستمدار لطمه بزنند.
OpenAI، DALL-E را طوری طراحی کرده است که تصاویری از چهره های عمومی و افراد مشهور ایجاد نکند. در واقع، از تولید تصاویر حاوی چهره های واقعی یا افراد واقعی خودداری می کند. این گامی درست در جهت جلوگیری از سوء استفاده از برنامه است.
این شرکت به کار بر روی ویژگی های ایمنی و امنیتی در سیستم خود ادامه می دهد. DALL-E سیستم ایمنی خود را بهبود بخشیدهایست، فیلترهای نوشتاری را بهبود بخشیده و سیستم تشخیص و پاسخ خودکار را برای نقض خطمشی محتوا تنظیم کردهاست. این پیشرفتها همچنین به جلوگیری از ایجاد تصاویر خشونتآمیز یا مضر با حذف محتوا از مجموعه دادههای یادگیری ماشینی کمک میکنند. DALL-E محدودیت هایی را برای تولید تصاویر خشونت آمیز، نفرت پراکن، هرزه نگاری یا محتوای بزرگسالان قرار داده است.
همچنین نگرانی هایی در مورد حقوق مالکیت در مورد خروجی های DALL-E وجود دارد. چه کسی صاحب این تصاویر است؟ آیا این کاربر است که دستور متن را ارائه می دهد یا DALL-E (OpenAI) است؟ در حال حاضر هیچ پاسخ روشنی برای این موضوع وجود ندارد، زیرا سوالاتی را در مورد مسائل کپی رایت و حقوق مالکیت معنوی ایجاد می کند.
علی رغم اینکه DALL-E و DALL-E2، هر دو مدل هایی هستند که توسط مجموعه OpenAI معرفی شده اند، تفاوت بین آنها در تعداد پارامترهایی نهفته است که به DALL-E 2 اجازه می دهد تصاویر بهتری نسبت به DALL-E تولید کند. این کار با تولید تصاویر با وضوح بالاتر انجام می شود. DALL-E از 12 میلیارد پارامتر استفاده می کند، در حالی که DALL-E 2 روی 3.5 میلیارد پارامتر و با 1.5 میلیارد پارامتر اضافی برای افزایش وضوح کار می کند.
DALLE-2 تصاویری با وضوح بالاتر، هرچند کوچکتر از مدل قبلی خود ایجاد می کند. DALLE-2 همچنین رابطه بین تصاویر و متن مورد استفاده برای توصیف آنها را در فرآیندی که به نام انتشار نیز شناخته می شود، یاد گرفته است. DALL-E 2 میتواند تصاویر را فراتر از آنچه در عکس اصلی وجود دارد، گسترش دهد و ترکیببندیهای جدیدی از تصاویر قدیمی ایجاد کند. وضوح آن چهار برابر بیشتر از DALL-E است. به طور کلی، DALL-E 2 قدرتمند تر از DALL-E است و تصاویر واقعی تر و دقیق تری نسبت به پیش ساخته خود تولید می کند.
برای استفاده بهینه از DALL-E باید به یک سری از نکات توجه داشت. برخی از این نکات در زیر ذکر شده اند:
ارائه توضیحات واضح و دقیق از آنچه می خواهید بسیار حیاتی است، زیرا این امر بهDall-E کمک می کند تا بهتر بفهمد چه چیزی باید ایجاد شود.
اگر به دنبال سبک هنری خاصی هستید، در مورد نوع کاری که میخواهید صریح صحبت کنید، یا اگر به دنبال سبک عکاسی هستید، در مورد زوایای دوربین، ویژگیهای نور، فاصله کانونی و حتی دوربین خاص توضیحات کامل دهید.
برای تجربه کردن طیف های متنوعی از تصاویر که Dall-E می تواند تولید کند، توضیحات متنی مختلف را آزمایش کنید. در تنظیم تصویر به دلخواه خود با آزمایش رنگ ها، روشنایی و تنظیمات دیگر تردید نکنید تا زمانی که به نتیجه دلخواه برسید.
گنجاندن جزئیات مکان، دقت تصویر را بهبود می بخشد. بنابراین، هنگام نوشتن درخواستهای خود، مطمئن شوید که جزئیات کافی در مورد موضوع اصلی طرح و زمینه یا محیطی که میخواهید سوژه شما در آن باشد وجود داشته باشد.
هنگام نوشتن توضیحات، از عباراتی مانند "تصویر با جزئیات بالا" یا "تصویر با کیفیت بالا" استفاده کنید تا مطمئن شوید که تصاویری که تولید میکنید دقیق و با کیفیت هستند.
مرحله 1: ثبت نام
اولین کاری که باید انجام دهید ایجاد یک حساب کاربری در سایت labs.openai.com است.
برای این کار میتوانید از حساب گوگل یا فیس بوک خود استفاده کنید. در عیر این صورت باید بر روی قسمت ثبت نام کلیک کنید.
مراحل ثبت نام را دنبال کنید، که شامل تأیید ایمیل و احتمالاً شماره تلفن شما در صورت نیاز است.
مرحله 2: دریافت اعتبار
DALL-E کاملا رایگان نیست. این پلتفرم بر اساس یک سیستم اعتباری عمل می کند. شما هر چند هفته یکبار 15 اعتبار رایگان دریافت می کنید یا در صورت نیاز می توانید اعتبار اضافی خریداری کنید. هر اعتبار به شما امکان تولید یک اثر هنری میدهد (در هر اثر 4 تصویر متفاوت برای شما نمایش داده می شود که می توانید یکی از آنها را انتخاب کنید). بنابراین در استفاده از اعتبار های خود دقت کنید.
مرحله 3: نوشتن توضیحات
هنگامی که اعتبار خود را دریافت کردید و حساب شما آماده شد، می توانید شروع به تولید تصاویر کنید. از زبان طبیعی برای توصیف تصویر مورد نظر خود و تا حد امکان واضح استفاده کنید.
مرحله 4: تولید تصویر
هنگام نوشتن توضیحات، به یاد داشته باشید که محدودیت کاراکتر 400 کلمه ای دارید. پس از وارد کردن توضیحات، "Generate" را فشار دهید.
مرحله 4: ویرایش و دانلود
اگر از نتایج اولیه کاملاً راضی نیستید، نگران نباشید، DALL-E 2 به شما امکان می دهد تصاویر را ویرایش کنید و آنها را بیشتر اصلاح کنید تا به نتیجه دلخواه برسید.
اگر میخواهید تصویری را از ابتدا و بر اساس تخیلات شخصی خودتان خلق کنید مراحل بالا به شما کمک می کند. اما یکی دیگر از ویژگی های DALL-E ویرایش سایر تصاویر است. برای مثال اگر قبلا عکسی گرفته اید میتوانید با استفاده از این پلتفرم آن را ویرایش کرده و بهبود ببخشید. برای این کار مراحل زیر را باید انجام دهید:
مرحله 1: به صفحه اصلی خود بروید و روی گزینه "آپلود تصویر برای ویرایش" در زیر کادر توضیحات کلیک کنید و یک تصویر آپلود کنید.
مرحله 2: یک پنجره بازشو با دستورالعملها و قوانین Dall E 2 روی صفحه نمایش شما ظاهر میشود. تولیدکننده تصویر این دستورالعملها را میفرستد تا مشکلات ناخواسته را از بین ببرد و پلتفرمهای خود را از افرادی که از آنها برای اهداف مضر استفاده میکنند مصون نگه دارد. پس از خواندن آن، روی ادامه کلیک کنید.
مرحله 3: در مرحله بعد، می توانید عکس را برش دهید یا انتخاب کنید که آن را همانطور که هست نگه دارید. برای مثال عکس غروب آفتاب را برای ویرایش آپلود کردیم و از گزینه برش صرفنظر کردیم. بر اساس نیاز خود انتخاب کنید.
مرحله 4: قسمت خاصی را با پاک کردن انتخاب کنید و توضیحات مورد نظر خود را در آنجا وارد کنید. به عنوان مثال، ما یک قسمت را پاک کردیم و توضیحی برای اضافه کردن یک ماه سه بعدی اضافه کردیم. نتیجه ویرایش!
تصویر اصلی:
تصویر ویرایش شده:
می توانید عناصر دیگری را به تصویر اضافه یا کم کنید.
گاهی اوقات، Dall E 2 عناصر دقیقی را ارائه می دهد که به خوبی با تصویر شما ترکیب می شود. اما ممکن است گاهی اوقات با تصویر موجود ناهمخوانی داشته باشد. به همین دلیل بسیار مهم است که بدانید دقیقاً چه چیزی با تصویر شما مطابقت دارد. هنگامی که بدانید چه عناصری به خوبی با تصویر شما مطابقت دارند، می توانید از آنها به بهترین شکل ممکن استفاده کنید!