استریم متن با ورودی عکس در NodeJS با هوش مصنوعی
برخی از LLMها میتوانند تصاویر را همراه با پرامپتهای متنی تحلیل کنند تا پاسخهایی در مورد محتوای بصری تولید نمایند. این رویکرد Multimodal امکان تعاملات بهتری را فراهم میکند؛ جایی که میتوانید دربارهی تصاویر سؤال بپرسید، توصیف آنها را درخواست کنید یا جزئیات بصری را تحلیل نمایید. ترکیب ورودیهای تصویری و متنی، زمینه را برای کاربردهای پیشرفتهتر هوش مصنوعی مانند پاسخگویی به سؤالات بصری و تحلیل تصویر فراهم میسازد.
یک فایل به نام main.js در پوشه پروژه خود ایجاد کنید و کد زیر را در آن قرار دهید:
کپی
متغیرهای محیطی BASE_URL و LIARA_API_KEY همان baseUrl سرویس هوش مصنوعی لیارا و کلید API لیارا هستند که باید در بخش متغیرهای محیطی برنامه خود، آنها را تنظیم کنید.
پروژه فوق را میتوانید بهصورت کامل در گیتهاب لیارا، مشاهده کنید.