Методы компьютерного распознавания РЖЯ​

Аннотация

Распознавание Русского жестового языка (РЖЯ) с использованием компьютерных технологий становится всё более актуальным в связи с необходимостью обеспечения доступности коммуникации для людей с нарушениями слуха. Современные методы основаны на применении машинного обучения, компьютерного зрения и нейронных сетей. В данной статье рассматриваются ключевые подходы и достижения в области автоматического распознавания РЖЯ, включая использование свёрточных нейронных сетей, рекуррентных сетей и мультимодальных моделей.

1. Введение

Русский жестовый язык (РЖЯ) является основным средством общения для людей с нарушениями слуха в России. Разработка систем автоматического распознавания РЖЯ направлена на преодоление коммуникационных барьеров между слышащими и неслышащими людьми. Современные технологии позволяют создавать модели, способные интерпретировать жесты в реальном времени с высокой точностью.

2. Датасеты и ресурсы

Качественные и разнообразные датасеты являются основой для обучения эффективных моделей распознавания жестов.​

2.1. TheRuSLan

Мультимедийная база данных «TheRuSLan» содержит 3D-записи 164 лексических единиц РЖЯ, собранные с использованием камеры Kinect 2.0. База данных включает данные от 13 информантов, каждый из которых исполнил жесты минимум в 5 итерациях, что обеспечивает разнообразие и точность данных.

2.2. Slovo

Проект Slovo от SberDevices представляет собой крупнейший открытый датасет РЖЯ, включающий 20 400 видеозаписей в FullHD-качестве, охватывающих 1 000 уникальных классов, включая дактильную азбуку. Данные были собраны с участием 194 носителей языка и экспертов, что обеспечивает высокое качество и разнообразие жестов.

2.3. Bukva

Датасет Bukva фокусируется на дактильной азбуке РЖЯ и содержит 3 757 видеозаписей, охватывающих все буквы алфавита, включая динамические жесты. Данные были собраны с участием 155 глухих и слабослышащих экспертов, что обеспечивает высокую достоверность и разнообразие жестов.

3. Методы распознавания

3.1. Свёрточные нейронные сети (CNN)

Свёрточные нейронные сети (CNN) широко применяются для обработки изображений и видео. Они эффективно извлекают пространственные признаки из входных данных, что делает их пригодными для распознавания жестов. Например, в исследовании, представленном на arXiv, описывается система, использующая CNN для классификации жестов, достигая высокой точности распознавания. ​

3.2. Рекуррентные нейронные сети (RNN) и GRU

Рекуррентные нейронные сети (RNN), включая их модификации, такие как GRU (Gated Recurrent Unit), эффективны для обработки последовательных данных, что делает их полезными для распознавания динамических жестов. Модель DeepGRU, использующая стек из GRU, продемонстрировала высокую точность распознавания жестов на различных датасетах.

3.3. Мультимодальные модели

Мультимодальные подходы объединяют различные источники информации, такие как RGB-изображения, глубинные данные и скелетные представления. Модель Skeleton Aware Multi-modal SLR (SAM-SLR) использует графовые свёрточные сети и пространственно-временные свёртки для обработки скелетных данных, достигая высокой точности в задачах распознавания изолированных жестов.

4. Применение в реальном времени

Реализация систем автоматического распознавания РЖЯ в реальном времени требует оптимизации моделей и использования эффективных алгоритмов.

5. Заключение

Современные методы компьютерного распознавания Русского жестового языка демонстрируют значительный прогресс благодаря применению глубокого обучения и мультимодальных подходов. Разработка эффективных и точных систем автоматического распознавания РЖЯ способствует улучшению коммуникации для людей с нарушениями слуха и расширяет возможности их интеграции в общество.

Список литературы

  1. Кагиров И. А., Рюмин Д. А., Аксёнов А. А., Карпов А. А. Мультимедийная база данных жестов русского жестового языка в трехмерном формате // Вопросы языкознания. 2020. №1. С. 104–123. ​vja.ruslang.ru+1I-US+1
  2. Slovo: Датасет русского жестового языка для распознавания жестов — Slovo. SberDevices. ​developers.sber.ru+1Habr+1
  3. Kvanchiani K., Surovtsev, Bukva

Прокрутить вверх