Първият в света модел за разбиране на фотореалистични 3D сцени вече е факт благодарение на INSAIT и СУ „Св. Климент Охридски“
23.07.2025 г.3 мин.
Изследователският институт INSAIT към СУ „Св. Климент Охридски“ представи GaussianVLM – първия генеративен модел, който комбинира компютърно зрение и езиково разбиране, за да анализира фотореалистично 3D съдържание без нужда от специализиран хардуер. Разработката привлече вниманието на световната научна общност само дни след публикуването ѝ, съобщиха за Борса.bg от INSAIT.
Научният институт INSAIT, базиран в София и работещ в партньорство с водещи университети като MIT и ETH Zurich, направи международен пробив с разработката на GaussianVLM – първия по рода си генеративен модел, който съчетава компютърно зрение с разбиране на естествен език за триизмерни фотореалистични сцени. Моделът е проектиран да може да функционира с обикновено потребителско видео, без необходимост от скъп или специализиран хардуер.
GaussianVLM позволява на изкуствен интелект да анализира мащабни 3D сцени и да отговаря на свободно формулирани въпроси, като например „Какво има на масата?“ или „Достатъчни ли са столовете за гостите?“. Това го отличава от всички досегашни системи, които разчитат на строго структурирани входни данни или предварително зададени езикови команди. Иновативният подход за компресиране на визуална информация – от над 40 000 елемента до едва 132 токена – осигурява съвместимост с големи езикови модели и ускорява значително обработката на данни.
Само седмица след публикуването си, научната статия за GaussianVLM вече се нарежда сред топ 10 на най-четените материали в света според Scholar Inbox. Това още веднъж доказва огромната стойност на модела за световната научна и технологична общност.
Разработката отваря и нови възможности пред роботиката, автономните системи и интелигентната автоматизация, позиционирайки България сред активните участници в новото поколение AI модели.

Източник на снимковия материал: INSAIT, ©Engineer BG via Canva.com
