INSAIT представи новия си супермощен чат с AI на български език – BgGPT
25.11.2024 г.3 мин.
На 19 ноември 2024 г. Институтът за компютърни науки, изкуствен интелект и технологии (INSAIT) към СУ „Св. Климент Охридски“ обяви пускането на три нови AI модела, насочени към българския език. Тези модели, с параметри от 2.6, 9 и 27 милиарда, демонстрират изключителна производителност, надминавайки по-големи модели, като Qwen-72B и Llama3-70B, като същевременно запазват солидни способности на английски език.
Моделът с 2.6 милиарда параметри значително превъзхожда други от същия размер в работата с български език. Всички три модела са свободно достъпни и могат да бъдат използвани от бизнеси и държавни институции за разработка на AI-базирани асистенти.
Двадесет и седем милиардният модел на INSAIT значително превъзхожда GPT-4o-mini (безплатната версия на GPT-4) и се доближава до GPT-4o (платената версия) в български чат приложения, според оценка на самия GPT-4o. Резултатите са сходни и при сравнение с моделите Haiku и Sonnet (large) на Anthropic.
Моделите на INSAIT са изградени върху базата на Google’s Gemma 2, с допълнителни подобрения, като продължително обучение върху около 100 милиарда български токена и нова схема за фина настройка, базирана на изследвания, представени на EMNLP’24. Тази нова Branch-and-Merge схема позволява подобрение на специфични умения, като разбиране и генериране на български език, без загуба на вече придобити способности.
На 23 ноември т.г. INSAIT стартира първата публична чат система – BgGPT, базирана на 27-милиардния модел, включваща допълнителни компоненти, като системи за извличане на информация и други. Това е първият случай в света, когато държавна институция пуска система от такъв мащаб.
Приложението е достъпно на bggpt.ai.
Източник на снимковия материал: INSAIT, ©Engineer BG via Canva.com