درک محتوای تصاویر و حل پازل هوش مصنوعی جدید مایکروسافت

پژوهشگران هوش مصنوعی در مایکروسافت به‌تازگی از مدل جدیدی رونمایی کرده‌اند که می‌تواند محتوای تصاویر را بررسی و درک کند و قابلیت‌های دیگری مثل حل پازل، تشخیص متن و درک دستورات زبانی را هم به همراه دارد.

هوش مصنوعی Kosmos-1 مایکروسافت چه امکاناتی دارد؟

هوش مصنوعی جدید مایکروسافت که از چندین ماژول تشکیل شده است، Kosmos-1 نام دارد. سازندگان آن، معتقد هستند که این ابزار، یک گام کلیدی برای دستیابی به هوش جامع مصنوعی (AGI) محسوب می‌شود که قادر باشد وظایف عمومی را در سطح انسان به انجام برساند. نکته حائز اهمیت، این است که محصول آزمایشی جدید مایکروسافت می‌تواند از انواع ورودی‌های مختلف مثل متن، صدا، تصویر و حتی ویدئو برای دریافت دستورات استفاده نماید و از این لحاظ کمی با نمونه‌های فعلی شناخته شده، متفاوت است.

مثال‌های تصویری منتشر شده از هوش مصنوعی مذکور در مقاله پژوهشی مرتبط با آن، نشان می‌دهد که این ابزار امکان بررسی تصاویر و پاسخ به سوالات مرتبط با محتوای آنها را دارد. خواندن متن در عکس‌ها و نوشتن توضیحات پیرامون آنها از دیگر مواردی است که می‌تواند به انجام برساند. اگرچه درحال حاضر، توجه رسانه‌ای فراوانی روی مدل‌های زبانی عظیم (LLM) هوش مصنوعی وجود دارد؛ اما کارشناسان عقیده دارند که ابزارهای مبتنی بر چند ماژول می‌توانند پتانسیل بیشتری برای تبدیل شدن به هوش مصنوعی جامع باشند. دستیابی به چنین ابزاری، هدف نهایی بسیاری از شرکت‌های فعال در این زمینه، از جمله OpenAI سازنده ChatGPT، است که همکاری نزدیکی هم با مایکروسافت دارد.

البته به نظر می‌رسد که هوش مصنوعی جدید مایکروسافت، به شکل مستقل از OpenAI و تنها توسط ردموندی‌ها، توسعه یافته باشد. سازندگان آن، محصول خود را یک مدل چند ماژوله زبانی عظیم (MLLM) توصیف می‌کنند؛ زیرا با وجود پشتیبانی از ورودی‌های مختلف دستوری، باز هم پردازش‌های نهایی آن براساس مدل متن محور LLM و مشابه با ابزارهای کنونی مانند ChatGPT صورت می‌گیرد. به همین دلیل، کاملاً طبیعی است که برای درک تصاویر توسط این هوش مصنوعی، ابتدا محتوای آن‌ها باید به متن تبدیل شوند.

مایکروسافت از داده‌های موجود روی اینترنت برای تعلیم هوش مصنوعی جدید خود استفاده کرده است که از جمله منابع آن می‌توان به گزیده The Pile (مجموعه ۸۰۰ گیگابایتی از متون انگلیسی) و Common Crawl اشاره کرد. پس از تمرین‌های اولیه، عملکرد ابزار مورد بحث در آزمایش‌های مختلف مثل تست‌های درک زبانی، تشخیص کاراکترهای تصویری، نوشتن توضیحات برای عکس‌ها، پاسخ به سوالات از تصاویر یا صفحات اینترنتی و… مورد ارزیابی قرار گرفت. طبق ادعای مایکروسافت، این محصول در بسیاری از تست‌ها توانسته است تا مدل‌های فعلی مورد استفاده را پشت سر بگذارد.

یکی از تست‌های جالبی که Kosmos-1 توانسته در آن عملکرد قابل قبولی از خود نشان دهد، آزمون ریون (Raven) بوده است. ماتریس پیش‌رونده ریون برای ارزیابی IQ براساس پیش‌بینی توالی‌های تصویری طراحی شده است و در رده ازمون‌های گروهی غیر کلامی هوش قرار می‌گیرد که در اغلب اوقات داخل مراکز آموزشی، استفاده می‌شود. هوش مصنوعی مایکروسافت توانسته است در تلاش‌های خود، ۲۲ الی ۲۶ درصد از سوالات را با موفقیت پاسخ دهد؛ مقداری که اگرچه کم به نظر می‌رسد، ولی از حالت پاسخ تصادفی با نرخ ۱۷ درصد، فاصله محسوسی دارد.

محصول تازه مایکروسافت در مراحل اولیه قرار دارد و پیش‌بینی می‌شود که در آینده، با بهینه‌سازی‌های بیشتر، می‌تواند عملکرد بهتری را از خود نشان دهد. چنین مدل‌های هوش مصنوعی که می‌توانند از ورودی‌های گوناگونی پشتیبانی کنند، پتانسیل بالایی برای استفاده به عنوان دستیارهای مصنوعی توسط کاربران دارند. احتمال می‌رود که محققان مایکروسافت با گسترش ابداع خود، بتوانند ویژگی‌های دیگر از جمله تکلم را هم به آن اضافه نمایند. مایکروسافت اعلام کرده است که قصد دارد Kosmos-1 را در اختیار توسعه‌دهندگان قرار دهد؛ ولی هنوز تاریخ دقیقی برای انتشار کدها، اعلام نکرده است.

به این مطلب چه امتیازی می دهید ؟

[Total: ۰ Average: ۰]

۱۴۰۱-۱۲-۱۲

۰ زمان تقریبی مطالعه 2 دقیقه

نمایش بیشتر

درک محتوای تصاویر و حل پازل هوش مصنوعی جدید مایکروسافت

هوش مصنوعی جدید مایکروسافت قادر به نوشتن توضیح برای تصاویر، جواب به سوالات درباره محتوای آن‌ها و پاسخ به آزمون IQ است.

هوش مصنوعی Kosmos-1 مایکروسافت چه امکاناتی دارد؟

دیدگاهتان را بنویسید لغو پاسخ

میکروپیپ: پروتئین های آفت کش برای صنایع کشاورزی

هوش‌مصنوعی در مسیر دگرگونی صنعت مالی ایران: انتشار اولین گزارش وضعیت هوش‌مصنوعی در صنعت مالی ایران

معرفی آلما هوش مصنوعی حقوقی برای مهاجرت

معرفی استارتاپ Byway: هوش مصنوعی برای سفری جذاب تر

لیست استارتاپ های ایرانی که شکست خوردند + دلایل شکست در ایران

هوش مصنوعی در خودرو و تغییر قوانین رانندگی !

راهنمای دریافت درگاه پرداخت بانک ملت (مقایسه روش‌های مختلف دریافت به پرداخت ملت)

سرمایه گذاری هاب اصفهان بر استارتاپ سینوس

فراخوان جشنواره نانو و رسانه ۱۴۰۳

ارائه واحد هوش مصنوعی به دانشجویان از مهر جاری

نشست خدمات و سرویس های جدید تریگ آپ

تپسی فود، نام جدید افود

تمدید مهلت ارسال پروپوزال جشنواره ایده تا استارتاپ

گزارش سال ۱۴۰۲ بقراط منتشر شد

هوش مصنوعی Kosmos-1 مایکروسافت چه امکاناتی دارد؟

گزارش عملکرد یک ساله پرداخت الکترونیک سداد

چت بات ChatGPT به اپلیکیشن‌های مختلف اضافه می‌شود

نوشته های مشابه

سرمایه گذاری هاب اصفهان بر استارتاپ سینوس

ارائه واحد هوش مصنوعی به دانشجویان از مهر جاری

تمدید فراخوان آینده پژوهی هوش مصنوعی و کوانتوم

آغاز جایزه سالانه هوش مصنوعی ایران

دیدگاهتان را بنویسید لغو پاسخ