Современные методы компьютерного распознавания языков жестов (2)

Аннотация

Распознавание языков жестов с использованием компьютерных технологий становится всё более актуальным в связи с необходимостью обеспечения доступности коммуникации для людей с нарушениями слуха. Современные методы основаны на применении машинного обучения, компьютерного зрения и нейронных сетей. В данной статье рассматриваются ключевые подходы и достижения в области автоматического распознавания жестов, включая использование свёрточных нейронных сетей, трансформеров и мультимодальных моделей.

1. Введение

Языки жестов являются основным средством общения для людей с нарушениями слуха. Разработка систем автоматического распознавания жестов (АРЖ) направлена на преодоление коммуникационных барьеров между слышащими и неслышащими людьми. Современные технологии позволяют создавать модели, способные интерпретировать жесты в реальном времени с высокой точностью.

2. Подходы к распознаванию жестов

2.1. Свёрточные нейронные сети (CNN)

Свёрточные нейронные сети широко применяются для обработки изображений и видео. Они эффективно извлекают пространственные признаки из входных данных, что делает их пригодными для распознавания жестов. Например, в исследовании, представленном на arXiv, описывается система, использующая библиотеку Mediapipe для извлечения признаков и CNN для классификации жестов американского языка жестов (ASL), достигая точности 99.95%.

2.2. Трансформеры

Трансформеры, изначально разработанные для обработки последовательностей в задачах обработки естественного языка, находят применение и в распознавании жестов. Модель Sign Language Transformers объединяет задачи распознавания и перевода жестов в единую архитектуру, обучаемую в конце-конец, что позволяет достигать высоких результатов на датасетах, таких как PHOENIX14T.

2.3. Мультимодальные модели

Мультимодальные подходы объединяют различные источники информации, такие как RGB-изображения, глубинные данные и скелетные представления. Модель Skeleton Aware Multi-modal SLR (SAM-SLR) использует графовые свёрточные сети и пространственно-временные свёртки для обработки скелетных данных, достигая точности 98.53% в задачах распознавания изолированных жестов.

3. Применение в реальном времени

Реализация систем АРЖ в реальном времени требует оптимизации моделей и использования эффективных алгоритмов. В магистерской диссертации Григорьевой А. Е. разработана модель машинного обучения, способная с высокой точностью распознавать 10 слов русского жестового языка в реальном времени. Другой пример — инструмент, разработанный в Казанском федеральном университете, который распознаёт слова и буквы из видеопотока в реальном времени, используя нейронные сети и алгоритмы компьютерного зрения.

4. Заключение

Современные методы компьютерного распознавания языков жестов демонстрируют значительный прогресс благодаря применению глубокого обучения и мультимодальных подходов. Разработка эффективных и точных систем АРЖ способствует улучшению коммуникации для людей с нарушениями слуха и расширяет возможности их интеграции в общество.

Список литературы

  1. Григорьева А. Е. Анализ методов машинного обучения для распознавания языка жестов в режиме реального времени: магистерская диссертация. Екатеринбург, 2024.
  2. Rupesh Kumar, Ashutosh Bajpai, Ayush Sinha. Mediapipe and CNNs for Real-Time ASL Gesture Recognition. arXiv preprint arXiv:2305.05296, 2023.
  3. Necati Cihan Camgoz et al. Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation. arXiv preprint arXiv:2003.13830, 2020.
  4. Songyao Jiang et al. Skeleton Aware Multi-modal Sign Language Recognition. arXiv preprint arXiv:2103.08833, 2021.
  5. Закирьянов И. И. и др. Инструмент для распознавания языка жестов из видеопотока в режиме реального времени. Электронные библиотеки, 2023.

Прокрутить вверх