Жақында Үкіметтің кеңейтілген отырысында Мемлекет басшысы Қасым-Жомарт Тоқаев ұлттық жасанды интеллект жобасы KazLLM туралы арнайы сұрақ қойды. Премьер-Министрдің орынбасары – Жасанды интеллект және цифрлық даму министрі Жаслан Мәдиев жүйеге сұраныс жоғары екенін, пайдаланушылар саны артып келе жатқанын айтты. Алайда әлеуметтік желіде «KazLLM деген не», «қолданып көргендер бар ма», «біз неге білмейміз» деген сауалдар көбейді. Демек қоғамда бұл жоба туралы толық түсінік әлі қалыптаса қойған жоқ, деп жазады Ozgeris.info.
KazLLM – ChatGPT сияқты жеке чат-бағдарлама емес. Ол – үлкен тілдік модель. Яғни көлемді мәтін деректер негізінде оқытылған жасанды интеллект жүйесі. Мұндай модельдер мәтінді түсінеді, сұраққа жауап құрастырады, мазмұндайды, аударады, талдайды. Бірақ ол әзірге көпшілік еркін кіріп, тікелей сөйлесетін бөлек сервис ретінде ұсынылмаған.
Жоба Мемлекет басшысының тапсырмасымен әзірленген. Негізгі мақсат – отандық тілдік технологияны дамыту, шетелдік жасанды интеллект платформаларына тәуелділікті азайту. Яғни қазақ және орыс тіліндегі деректерге сүйенетін, мемлекеттік және салалық цифрлық жүйелерге енгізілетін ұлттық тіл моделін қалыптастыру.
Министрдің айтуынша, KazLLM қазірдің өзінде қолданыста. Мысалы, eGov порталындағы жасанды интеллект ассистенті пайдаланушы сұрақтарына жауапты осы модель негізінде құрастырады. Демек азаматтар кейбір мемлекеттік цифрлық сервистер арқылы KazLLM мүмкіндігін жанама түрде пайдаланып отыр. Министрлік атап өткен 40-тан астам ақпараттық жүйе – осындай ішкі интеграциялар.
Модель шамамен 150 млрд-тан астам токен көлеміндегі дерекпен оқытылған. Токен – модель үйренетін мәтін бірлігі. Бұл жоба үшін жаман көрсеткіш емес. Бірақ әлемдік ірі тілдік модельдермен салыстырғанда көлемі әлдеқайда аз. Сондықтан KazLLM кейде қазақ тілінің күрделі контексін, астарлы мағынасын, стильдік ерекшелігін толық түсіне бермейді. Жауап сапасы тұрақты бола бермейді, кей жағдайда үстірт немесе қате нәтиже беруі мүмкін.
Сарапшылардың пікірінше, тілдік модельдің сапасы тек дерек көлеміне байланысты емес. «Тілдік модельдің сапасы дерек көлеміне ғана емес, деректің сапасына, әртүрлілігіне, есептеу қуатына және тұрақты түрде қайта оқытылып отыруына байланысты. Бұл – бір реттік емес, ұзақ мерзімді жетілдіруді қажет ететін технология», дейді мамандар.

KazLLM жобасының стратегиялық маңызы – технологиялық дербестікке ұмтылыста. Ұлттық тілдік модель ішкі цифрлық платформаларға, мемлекеттік жүйелерге және қазақ тіліндегі сервистерге шетелдік ЖИ құралдарына толық тәуелді болмай жұмыс істеуге мүмкіндік береді. Бұл дерек қауіпсіздігі, тілдік бейімдеу және салалық шешімдерді жергілікті контекске икемдеу тұрғысынан аса маңызды.
Ұлттық тіл моделін Ақылды жүйелер және жасанды интеллект институты – ISSAI әзірлеген. Бұл орталық Назарбаев университеті базасында құрылған. Елдегі жетекші ЖИ-зерттеу алаңының бірі саналады. Жоба деректер қорын жинау, тіл корпусын қалыптастыру, модель архитектурасын бейімдеу және өндірістік деңгейде оқыту сияқты бірнеше кезеңнен тұрған.
Жобаны іске асыруға көпсалалы команда тартылған. Құрамында дата-сайентисттер, машиналық оқыту инженерлері, бағдарламашылар, лингвистер және ғылыми ассистенттер бар 70-ке жуық маман жұмыс істеген. Қазақ тілінің құрылымы, морфологиясы мен контекстік ерекшеліктерін модельге енгізу үшін лингвистикалық сараптама бөлек бағыт ретінде жүргізілген.
Модель жоғары өнімді есептеу инфрақұрылымында оқытылған. Көптүйінді бұлтты конфигурация қолданылып, 8 NVIDIA DGX H100 есептеу жүйесі пайдаланылған. Бұл – өндірістік деңгейдегі тілдік модельдерді үйретуге арналған қуатты техникалық база.
KazLLM бастапқы кезеңде мемлекеттік сектор мен коммерциялық емес зерттеулер үшін қолжетімді етіп шығарылған. Яғни ол ең алдымен мемлекеттік цифрлық сервистерге, зерттеу жобаларына және қолданбалы ЖИ шешімдеріне технологиялық негіз ретінде бағытталған.

Жоба барысында қиындықтар да болған. Қазақ тіліндегі сапалы әрі белгіленген деректер қорының тапшылығы, тілге бейімделген халықаралық тестілердің болмауы, ірі есептеу түйіндерінің шектеулігі секілді кедергілер кездескен. Соған қарамастан әзірлеушілер ашық көздерден дерек жинау, OCR арқылы мәтін тану, сұрақ-жауап форматындағы датасеттер құрастыру, синтетикалық дерек генерациялау сияқты арнайы стратегияларды қолданған.
Салыстырмалы тестілерде KazLLM кей көрсеткіштер бойынша Meta Llama 3.1 секілді ірі модельдермен деңгейлес нәтижеге жақындаған, кей бағытта сәл төмен нәтиже көрсеткен. Бұл – ресурсы шектеулі ортада жасалған модель үшін бастапқы бәсекеге қабілетті деңгей бар екенін білдіреді. Алайда әлі де жетілдіруді қажет етеді.
ISSAI KazLLM негізінде 5 түрлі отандық ЖИ бағдарламасын әзірлеген. Соның бірі – «Oylan 2.5». Бұл жүйе сұрақтарға жауап береді, аудио хабарламаларды қабылдап, өңдей алады. «MangiSoz 2.0» жүйесі сөйлеуді тану, дыбыстау және аудару қызметін атқарады. «TilSync» – ілеспе аударма жасайтын жүйе. Ол түрлі видеоконференцияларда тілдер арасында тікелей аударма жасап, ақпарат алмасуды жеңілдетеді. «Beynele» жасанды интеллекті қазақы нақышта сурет салады. Осы жүйелердің техникалық негізі – «Mangitas 02» атты отандық инференс сервері. Бұл шетелдік бұлттық жүйелерден тәуелсіз, қауіпсіз, жергілікті мәліметтермен жұмыс істейтін ЖИ сервер.