ادعای متا در مورد مدل جدید هوش مصنوعی اش

به گزارش فیکس سرور، متا مدل جدید تولید تصویر با هوش مصنوعی با نام CM3leon را تبلیغ و ادعاهایی را در مورد آن مطرح کرده است.

به گزارش گروه علم و پیشرفت خبرگزاری فارس به نقل از تک کرانچ، متا مدل CM3Leon (آفت پرست پرست) را معرفی نمود، یک مدل هوش مصنوعی که این شرکت ادعا می کند عملکردی پیشرفته برای تولید متن به تصویر دارد.
این شرکت می گوید CM3Leon بعنوان یکی از نخستین تولیدکننده های تصویر قادر به تولید شرح تصاویر است و پایه ای را برای مدلهای با قابلیت درک تصویر در آینده بوجود می آورد.
متا در یک پست وبلاگی نوشت: «با قابلیت های CM3Leon، ابزارهای تولید تصویر می توانند تصاویر منسجم تری تولید کنند که از دستورات ورودی بهتر پیروی می کند. ما معتقدیم که عملکرد قوی CM3Leon در کارهای مختلف گامی به سمت تولید و درک تصویر باکیفیت بالاتر است.»
بیشتر تولیدکننده های تصویر مدرن، همچون دال-ای2، اپن ای آی و استیبل دفیوژن برای خلق هنر به فرآیندی به نام انتشار متکی هستند. مثلاً در دیفیوژن، یک مدل یاد می گیرد که چگونه به تدریج نویز را از یک تصویری که تماماً از نویز ساخته شده کم کرده و آنرا گام به گام به اعلان هدف نزدیک تر کند. نتایج خوب است اما انتشار از نظر محاسباتی فشرده است و کارکرد آنرا گران و آنقدر کند می کند که غیرعملی هستند.
در مقابل، CM3Leon یک مدل ترانسفورماتور است که از مکانیزمی به نام «توجه» برای سنجش ارتباط داده های ورودی مانند متن یا تصاویر استفاده می نماید. توجه و دیگر خصوصیت های معماری ترانسفورماتورها می تواند سرعت آموزش مدل را افزایش داده و آنها را آسان تر کند.
متا ادعا می کند که CM3Leon حتی از خیلی از ترانسفورماتورها کارآمدتر است، به 5 برابر محاسبات و مجموعه داده آموزشی کمتری نسبت به روش های قبلی نیاز دارد.
جالب اینجاست که شرکت اپن ای آی چندین سال پیش ترانسفورماتورها را بعنوان وسیله ای برای تولید تصویر با مدلی به نام Image GPT بررسی کرد. اما در نهایت این ایده را به نفع انتشار کنار گذاشت.
تنظیم دستورالعمل، عملکرد CM3Leon را نه تنها در تولید تصویر، بلکه در نوشتن شرح تصویر، بهبود بخشید و آنرا قادر می سازد تا با پیروی از دستورالعمل های متنی به سؤالات در ارتباط با تصاویر پاسخ دهد و تصاویر را ویرایش کند.
به گفته متا CM3leon یک مدل پایه چندوجهی برای ایجاد متن به تصویر و همینطور ایجاد تصویر به متن است که برای ایجاد خودکار شرح تصاویر مفید می باشد. این مدل می تواند دستورالعمل های ویرایش تصاویر موجود را درک کند و برخلاف دال-ای2، می تواند طیف وسیعی از اعلان ها را برای ایجاد زیرنویس های کوتاه یا طولانی و پاسخ به سؤالات در ارتباط با یک تصویر خاص دنبال کند. متا ادعا می کند که مدلش در این حوزه ها، حتی از مدلهای تخصصی شرح نویسی تصویر بهتر عمل کرد.
مدل های هوش مصنوعی مولد مانند دال-ای2، سوگیری های اجتماعی را تقویت می کنند و تصاویری از موقعیت های اقتدار ایجاد می کنند مانند تصاویری از مردان سفید پوست در نقش مدیرعاملی. متا این سوال را بدون پاسخ رها کرد و فقط اظهار داشت که CM3Leon می تواند هرگونه سوگیری موجود در داده های آموزشی را منعکس کند.
در حال حاضر CM3leon یک تلاش تحقیقاتی است و معلوم نیست متا چه زمانی این فناوری را در یکی از پلت فرم های خود به صورت عمومی در دسترس قرار خواهد داد.
از طرف دیگر فایننشال تایمز گزارش داد که متا آماده است تا نسخه تجاری مدل بزرگ زبانی منبع بازی را منتشر کند، که توسعه دهندگان و کسب و کارها را قادر می سازد تا برنامه های کاربردی را با استفاده از مدل پایه بسازند. این راه اندازی به این مفهوم است که متا به صورت مستقیم با اپن ای آی و گوگل تحت حمایت مایکروسافت رقابت می کند و این رقابت می تواند به معنای پیشرفت های قابل توجهی در زمینه هوش مصنوعی باشد. نرم افزار بسته یا اختصاصی، مانند چت جی پی تی انتقادهایی را در مورد شفافیت و امنیت به دنبال داشته است.

منبع: فیكس سرور

1402/04/25

13:26:55

0.0 / 5

1081

تگهای خبر: آموزش , فناوری , كاربر , كسب و كار

این پست فیکس سرور را پسندیدید؟

(0)

تازه ترین مطالب مرتبط

نظرات بینندگان فیکس سرور در مورد این مطلب

عقیده شما در مورد این مطلب فیکس سرور

نام:

ایمیل:

نظر:

سوال:

= ۵ بعلاوه ۳