Bing запускает масштабную коррекцию орфографии во всем мире

Microsoft Bing запускает свои масштабные модели коррекции орфографии по всему миру на более чем 100 языках.

Масштабные многоязычные модели исправления орфографии Microsoft Bing, под общим названием Speller100, с высокой точностью и высокой степенью запоминаемости внедряются во всем мире на более чем 100 языках.
Bing утверждает, что около 15% запросов, отправленных пользователями, содержат орфографические ошибки, которые могут привести к неправильным ответам и неоптимальным результатам поиска.
Чтобы решить эту проблему, Bing создал, по его словам, самую полную систему исправления орфографии из когда-либо созданных. В запросах A / B-тестирования с использованием Speller100 и без него Bing обнаружил следующие результаты:

  • Количество страниц без результатов уменьшено до 30%.
  • Количество раз, когда пользователям приходилось вручную переформулировать свой запрос, уменьшилось на 5%.
  • Количество раз, когда пользователи нажимали на вариант написания, увеличилось до 67%.
  • Количество раз, когда пользователи нажимали на любой элемент на странице, увеличилось до 70%.

Как Bing это удалось?

Исправление орфографии уже давно является приоритетом для Bing, и поисковая система делает еще один шаг вперед, добавляя больше языков со всего мира.

Чтобы сделать Bing более инклюзивным, мы решили расширить нашу текущую службу исправления орфографии до более чем 100 языков, установив ту же высокую планку качества, которую мы установили для исходных двух десятков языков.

Запуск Speller100 представляет собой значительный шаг вперед для Bing и стал возможным благодаря недавним достижениям в области ИИ. Технология, лежащая в основе Speller100, описана в недавнем сообщении в блоге компании. Вот некоторые ключевые детали новой технологии исправления орфографии Bing.

Коррекция орфографии не является обработкой естественного языка

Bing отмечает, что, хотя в обработке естественного языка были достигнуты значительные успехи, исправление орфографии – это совсем другая задача.

Все орфографические ошибки можно разделить на два типа:

  • Несловая ошибка (Non-word error): возникает, когда слово отсутствует в словаре для данного языка.
  • Ошибка реального слова (Real-word error): возникает, когда слово допустимо, но не подходит для более широкого контекста.

Bing разработал метод глубокого обучения для исправления орфографических ошибок, вдохновленный моделью BART Facebook. Однако он отличается от BART тем, что исправление орфографии рассматривается как проблема уровня персонажа.
Чтобы решить проблему на уровне персонажа, модель Bing Speller100 обучается с использованием мутаций на уровне персонажа, имитирующих орфографические ошибки.
Bing называет это «шумовые функции»:

Мы разработали функции шума для генерации типичных ошибок вращения, вставки, удаления и замены. Использование функции шума значительно снизило наш спрос на аннотации, помеченные людьми, которые часто требуются в машинном обучении. Это очень полезно для языков, для которых у нас мало или совсем нет данных для обучения.

Запуск Speller100 в Bing – это первый шаг в более масштабных усилиях по внедрению этой технологии в большее количество продуктов Microsoft.

Источники: исследовательский блог Microsoft, SearchEngineJournal.

Изображение по умолчанию
Агентство интернет-маркетинга
Агенство эффективного интернет-маркетинга предлагает услуги по созданию, оптимизации и продвижении вашего ресурса в интернете.
Статьи: 152
1 Комментарий
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии

А кто-то вообще пользуется бингом на територии СНГ?