Чтобы обработать любой язык, ИИ применяют токенизацию — процесс разбиения текста на отдельные элементы, такие как слова или подслова. В случае русского языка токенизация сталкивается с большими трудностями из-за сложной морфологии и большого количества окончаний.
Именно модель BERT лучше всего подходит при работе с русскоговорящими сервисами, потому что она использует продвинутые алгоритмы токенизации, которые позволяют эффективно обрабатывать русский текст.
Для обучения BERT на русском языке данные проходят этапы препроцессинга, включая очистку и нормализацию текста. Обучение модели на русском языке сталкивается с уникальными вызовами, такими как необходимость учитывать падежи, род и другие грамматические особенности.
Базовая версия модели долго предобучалась, читая миллионы текстов и постепенно осваивая язык. Взяв её за основу для написания Лии, мы самостоятельно дообучали её на собственных прикладных задачах, например, для создания интент-классификации обращений клиентов в чат-бот на основе BERT.
Интент-классификация — это процесс определения намерения пользователя на основе его текстового запроса. Например, в Лие вопрос клиента в чат-боте «Через сколько будет доставлена пицца?» будет классифицирован как запрос информации о доставке.
Модель BERT обучается на большом количестве примеров различных интентов. Лия собирается на основании данных конкретного бизнеса. У неё нет доступа к открытым источникам, которые могут содержать неверную информацию, поэтому все ответы, которые генерирует Лия, всегда проверены и достоверны. Мы контролируем то, какие данные она получает и какие данные выдаёт. Это возможно благодаря наполнению базы Лии заранее обработанными и структурированными данными, которые мы собираем вместе с нашими клиентами.
Например, для сервиса доставки продуктов «Самокат» мы предусмотрели следующие намерения:
- Доставка (вопросы о доставке).
- Акция (вопросы о любой действующей акции).
- Качество продуктов (вопросы о качестве продуктов).