--

17 (1) 2022

Kỹ thuật làm tăng dữ liệu trong phân tích cảm xúc trên ngôn ngữ tiếng Việt


Tác giả - Nơi làm việc:
Hồ Hướng Thiên - Trường Đại học Đại học Mở Thành phố Hồ Chí Minh , Việt Nam
Tác giả liên hệ, Email: Hồ Hướng Thiên - thien.hh@ou.edu.vn
Ngày nộp: 04-03-2022
Ngày duyệt đăng: 18-04-2022
Ngày xuất bản: 26-04-2022

Tóm tắt
Những bình luận phản hồi trong các hệ thống trực tuyến là một nguồn dữ liệu mang nhiều thông tin, cảm xúc của khách hàng về những sản phẩm hoặc dịch vụ. Những thông tin này được khai thác nhằm đem lại những ích lợi trong việc hoạch định chiến lược, quản trị khách hàng. Để đạt được những kết quả tốt đối với mô hình phân tích cảm xúc, đòi hỏi một lượng lớn dữ liệu được gán nhãn. Chi phí cho việc gán nhãn dữ liệu huấn luyện bởi con người là rất lớn. Trong nghiên cứu này chúng tôi đề xuất một mô hình làm tăng dữ liệu văn bản dựa trên các câu bình luận áp dụng cho ngôn ngữ tiếng Việt. Một số kỹ thuật cơ bản được sử dụng nhằm sinh thêm số lượng bình luận như chèn từ, thay thế từ, xóa từ. Kết quả thực nghiệm đã cho thấy hiệu quả của mô hình này.

Từ khóa
đánh giá sản phẩm; khai thác văn bản; kỹ thuật tăng dữ liệu; phân tích cảm xúc; xử lý ngôn ngữ tự nhiên

Toàn văn:
PDF

Trích dẫn:

Ho, T. H. (2022). Kỹ thuật làm tăng dữ liệu trong phân tích cảm xúc trên ngôn ngữ tiếng Việt [Text data augmentation techniques for sentiment analysis based on Vietnamese language]. Tạp chí Khoa học Đại học Mở Thành phố Hồ Chí Minh – Kỹ thuật và Công nghệ, 17(1), 20-27. doi:10.46223/HCMCOUJS.tech.vi.17.1.2202.2022


Tài liệu tham khảo

Ahuja, R., Chug, A., Kohli, S., Gupta, S., & Ahuja, P. (2019). The impact of features extraction on the sentiment analysis. Procedia Computer Science, 152, 341-348. doi:10.1016/j.procs.2019.05.008


Bui, H. T. (2014). Nhóm hư từ mang ý nghĩa phủ định trong tiếng Việt [Function words of negation in Vietnamese]. Tạp chí Ngôn Ngữ & Đời Sống, 4(222), 12-20.


Chopra, R., & Sharma, G. (2021). Application of artificial intelligence in stock market forecasting: A critique, review, and research agenda. Journal of Risk and Financial Management, 14(11), Article 256. doi:10.3390/jrfm14110526


Costa, C., Aparicio, M., & Aparicio, J. (2021, October). Sentiment analysis of portuguese political parties communication. The 39th ACM International Conference on Design of Communication, 63-69. doi:10.1145/3472714.3473624


Drus, Z., & Khalid, H. (2019). Sentiment analysis in social media and its application: Systematic literature review. Procedia Computer Science, 161, 707-714. doi:10.1016/j.procs.2019.11.174


Duong, T. H., & Truong, V. H. (2019a). A survey on the multiple classifier for new benchmark dataset of Vietnamese news classification. 11th International Conference on Knowledge and Smart Technology (KST), 23-28. doi:10.1109/KST.2019.8687509


Duong, T. H., & Truong, V. H. (2019b). Data augmentation based on color features for limited training texture classification. 4th International Conference on Information Technology (InCIT), 208-211. doi:10.1109/INCIT.2019.8911934


Giridhara, P. K. B., Chinmaya, M., Reddy, K. M. V., Syed, S. B., & Andreas, R. D. (2019, February). A study of various text augmentation techniques for relation classification in free text. 8th International Conference on Pattern Recognition Applications and Methods, 360-367. doi:10.5220/0007311003600367


Lee, S., Lay, V., Gan, K. H., Tan, T. P., & Abdullah, R. (2019). Semi-supervised learning for sentiment classification using small number of labeled data. Procedia Computer Science, 161, 577-584. doi:10.1016/j.procs.2019.11.159


Lu, X., Zheng, B., Velivelli, A., & Zhai, C. (2006). Enhancing text categorization with semantic-enriched representation and training data augmentation. Journal of the American Medical Informatics Association: JAMIA, 13(5), 526-535. doi:10.1197/jamia.M2051


Matalon, Y., Magdaci, O., Almozlino, A., & Yarim, D. (2021). Using sentiment analysis to predict opinion inversion in tweets of political communication. Scientific Reports, 11(1), Article 7250. doi:10.1038/s41598-021-86510-w


Mikolov, T., Chen, K., Corrado, G., & Dean, Y. (2013). Efficient estimation of word representations in vector space. Truy cập ngày 10/10/2021 tại https://arxiv.org/pdf/1301.3781.pdf


Nguyen, K. N. D., & Duong, T. H. (2019). One-document training for Vietnamese sentiment analysis. Computational Data and Social Networks, 11917, 189-200. doi:10.1007/978-3-030-34980-6_21


Pang, B., & Lee, L. (2008). Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval, 2(1/2), 1-135. doi:10.1561/1500000011


Sayyed, J., & Samara, M. (2020). Sentiment analysis on large scale Amazon product reviews. International Journal of Scientific Research in Computer Science and Engineering, 8(1), 7-15.


Shakeel, M. H., Asim, K., & Imdadullah, K. (2020). A multi-cascaded model with data augmentation for enhanced paraphrase detection in short texts. Information Processing & Management, 57(3), Article 102204. doi:10.1016/j.ipm.2020.102204


Tun, W., Johnny, K. W. W., & Ling, S. H. (2021). Hybrid random forest and support vector machine modeling for HVAC fault detection and diagnosis. Sensors, 21(24), Article 8163. doi:10.3390/s21248163


Vu, S. (2016).  Pre-trained word2vec models for Vietnamese. Truy cập ngày 10/10/2021 tại https://github.com/sonvx/word2vecVN


Vu, S., & Park, S. B. (2014). Construction of Vietnamese sentiwordnet by using Vietnamese dictionary. The 40th Conference of the Korea Information Processing Society, 745-748. doi:10.48550/arXiv.1412.8010


Wang, J., & Perez, L. (2017). The effectiveness of data augmentation in image classification using deep learning. Truy cập ngày 10/10/2021 tại https://arxiv.org/pdf/1712.04621.pdf


Wei, J., & Kai, Z. (2019). EDA: Easy data augmentation techniques for boosting performance on text classification tasks. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 6381-6387. doi:10.48550/arXiv.1901.11196



Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.