Компания VK выложила в открытый доступ ИИ-модель RuModernBERT, предназначенную для обработки естественного русского языка. Нейросеть понимает длинные и сложные тексты целиком. Кроме того, она работает локально, что снижает нагрузку на инфраструктуру.
Нейросеть была обучена на 2 триллионах токенов (данные на русском, английском языках и коде) с максимальной длиной контекста до 8192 токенов. Для всех этапов обучения использовались разные источники данных. Это позволяет ИИ работать со сложными современными текстами и учитывать разговорную речь.
RuModernBERT доступна в двух версиях: базовой на 150 млн параметров и облегчённой модель на 35 млн параметров. Инженеры могут выбрать вариант, отвечающий поставленным задачам, будь то извлечение информации из текста, анализ тональности, а также поиск и ранжирование в приложениях и сервисах.
Кроме того, были обновлены две дополнительные версии модели: USER и USER2. Они помогают специалистам лучше группировать и находить похожую информацию. Отдельно в версии USER2 есть специальная технология для сокращения объёма данных почти без потери точности.
По данным разработчиков VK, благодаря современной архитектуре RuModernBERT обрабатывает данные в 2–3 раза быстрее на длинных контекстах по сравнению с ModernBERT, а при оценке на валидационном датасете показывает лучшие результаты в области обработки естественного русского языка, чем существующие аналоги. RuModernBERT уже внедрена в продукты и сервисы VK. Найти все версии модели можно на Hugging Face.