MoViNet-A2 cho bài toán nhận diện ký hiệu Tiếng Việt

Các tác giả

  • Trương Duy Việt
    Trường Cao đẳng Đà Lạt, Thành phố Đà Lạt, Việt Nam
  • Ngô Hữu Gia Huy
    Trường Cao đẳng Đà Lạt, Thành phố Đà Lạt, Việt Nam
  • Phạm Đăng Khôi
    Trường Cao đẳng Đà Lạt, Thành phố Đà Lạt, Việt Nam
  • Nguyễn Trần Thiên Phúc
    Trường Cao đẳng Đà Lạt, Thành phố Đà Lạt, Việt Nam

DOI:

10.46223/HCMCOUJS.tech.vi.20.2.4201.2025

Từ khóa:

học sâu; nhận dạng hành động; nhận diện ngôn ngữ ký hiệu; MoViNet-A2; tăng cường dữ liệu

Tóm tắt

Nhận diện ngôn ngữ ký hiệu từ video là một bài toán quan trọng nhằm hỗ trợ giao tiếp cho cộng đồng người khiếm thính. Tuy nhiên, sự đa dạng của cử chỉ, góc quay khác nhau và điều kiện môi trường biến thiên đặt ra nhiều thách thức cho các hệ thống nhận dạng truyền thống. Trong nghiên cứu này, chúng tôi đề xuất một phương pháp nhận diện ngôn ngữ ký hiệu tiếng Việt dựa trên MoViNet-A2, một mô hình tiên tiến được tối ưu hóa cho nhận dạng hành động trong video trên thiết bị di động. Bộ dữ liệu nghiên cứu bao gồm 98 từ hoặc cụm từ, được thực hiện bởi 18 học sinh từ Trường Khuyết tật Lâm Đồng - Đà Lạt, với tổng cộng 4,709 video từ ba góc quay khác nhau, đảm bảo tính đa dạng trong dữ liệu huấn luyện. Kết hợp với MoViNet-A2 là backbone được tiền huấn luyện trên tập Kinetics-600, kết hợp với các kỹ thuật tiền xử lý như cân bằng lớp, chuẩn hóa độ sáng và các phương pháp tăng cường dữ liệu nhằm nâng cao khả năng tổng quát hóa của mô hình. Kết quả thực nghiệm đạt độ chính xác Top-1 88.55% trên tập kiểm tra. Nghiên cứu cho thấy phương pháp đề xuất đạt hiệu suất cao trong việc phân loại và nhận diện các cử chỉ ký hiệu, đồng thời đảm bảo khả năng xử lý thời gian thực trên thiết bị di động. Nghiên cứu này không chỉ góp phần nâng cao độ chính xác của hệ thống nhận diện ngôn ngữ ký hiệu mà còn mở ra tiềm năng ứng dụng thực tế trong hỗ trợ giao tiếp cho cộng đồng người khiếm thính.

Tải xuống

Dữ liệu tải xuống chưa có sẵn.

Tài liệu tham khảo

Al-Qurishi, M., Khalid, T., & Souissi, R. (2021). Deep learning for sign language recognition: Current techniques, benchmarks, and open issues. IEEE Access, 9, 126917-126951. https://doi.org/10.1109/ACCESS.2021.3110912

Camgoz, N. C., Hadfield, S., Koller, O., & Bowden, R. (2017). SubUNets: End-to-end hand shape and continuous sign language recognition. https://doi.org/10.1109/ICCV.2017 .332

Camgoz, N. C., Hadfield, S., Koller, O., Ney, H., & Bowden, R. (2018). Neural sign language translation. https://doi.org/10.1109/CVPR.2018.00812

Camgoz, N. C., Koller, O., Hadfield, S., & Bowden, R. (2020). Sign language transformer: Joint end-to-end sign language recognition and translation. https://arxiv.org/abs/2003. 13830

Koller, O., Forster, J., & Ney, H. (2015). Continuous sign language recognition: Towards large-vocabulary statistical recognition systems handling multiple signers. Computer Vision and Image Understanding, 141, 108-125. https://doi.org/10.1016/j.cviu.2015. 09.013

Tải xuống

Ngày nộp: 06-03-2025
Ngày duyệt đăng: 26-05-2025
Ngày xuất bản: 20-07-2025

Thống kê truy cập

Trang tóm tắt: 582
PDF: 414

Cách trích dẫn

Việt, T. D., Huy, N. H. G., Khôi, P. Đăng, & Phúc, N. T. T. (2025). MoViNet-A2 cho bài toán nhận diện ký hiệu Tiếng Việt. TẠP CHÍ KHOA HỌC ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH - KỸ THUẬT VÀ CÔNG NGHỆ, 20(2), 3–14. https://doi.org/10.46223/HCMCOUJS.tech.vi.20.2.4201.2025