Nghiên cứu các mô hình phân loại văn bản để xây dựng chatbot tư vấn tuyển sinh
##plugins.themes.academic_pro.article.main##
Author
-
Nguyễn Trí Bằng, Phan Trần Đăng Khoa, Tôn Quang Hoàng Nguyên
Từ khóa:
phân loại văn bản
support vector machine
naïve bayes
linear regression
Facebook chatbot
Tóm tắt
Trong bài toán phân loại văn bản, hầu hết các nghiên cứu trước đây đều so sánh đánh giá các mô hình huấn luyện trên một tập kiểm thử với kích thước nhất định, cũng như chưa làm rõ thời gian huấn luyện của các mô hình. Nghiên cứu này tập trung đánh giá độ chính xác của 3 mô hình phân loại văn bản: Support Vector Machine, Linear Regression, Naïve Bayes trên các tập kiểm thử với kích thước khác nhau; sau đó nêu rõ các thông số đánh giá của mô hình với một test set có kích thước 900 câu hỏi. Bên cạnh đó, thời gian huấn luyện của từng mô hình cũng được so sánh trên các tập huấn luyện có kích thước khác nhau. Kết quả chỉ ra Naïve Bayes đều có độ chính xác tốt và thời gian huấn luyện nhanh nổi trội so với 2 mô hình còn lại. Sau cùng, tác giả vận dụng kết quả nghiên cứu đề xuất giải pháp xây dựng một chatbot tư vấn tuyển sinh qua Facebook, cho kết quả thực nghiệm tốt và có thể ứng dụng tại các đơn vị giáo dục Việt Nam.
Tài liệu tham khảo
-
[1] Hakan Sundblad, Question Classification in Question Answering Systems, Submitted to Linköping Institute of Technology at Linköping University in partial fulfilment of the requirements for the degree of Licentiate of Philosophy, Linköping 2007.
[2] H. N. Io and C. B. Lee, "Chatbots and conversational agents: A bibliometric analysis," 2017 IEEE International Conference on Industrial Engineering and Engineering Management (IEEM), Singapore, 2017, pp. 215-219.
[3] Rainer Winkler, Matthias Sollner, Unleashing the Potential of Chatbots in Education: A State-Of-The-Art Analysis, 78th annual meeting of the academy of management, Chicago, Illinois, 3/2018.
[4] Ho Thao Hien, Pham-Nguyen Cuong, Le Nguyen Hoai Nam, Ho Le Thi Kim Nhung and Le Dinh Thang. 2018. Intelligent Assistants in HigherEducation Environments: The FIT-EBot, a Chatbot for Administrative and Learning Support. In SoICT’ 18: Ninth International Symposium on Information and Communication Technology, Da Nang City, Viet Nam. ACM, New York, NY, USA, 8 pages, December 6–7, 2018.
[5] Hussain S., Ameri Sianaki O., Ababneh N, A Survey on Conversational Agents/Chatbots Classification and Design Techniques. In: Barolli L., Takizawa M., Xhafa F., Enokido T. (eds) Web, Artificial Intelligence and Network Applications. WAINA 2019. Advances in Intelligent Systems and Computing, vol 927. Springer, Cham.
[6] Jagdish Singh, Minnu Helen Joesph and Khurshid Begum Abdul Jabbar, Rule-based chabot for student enquiries, Journal of Physics: Conference Series, et al 2019 J. Phys.: Conf. Ser. 1228 012060, 2019
[7] Daniel Jurafsky & James H. Martin Dialog, Systems and Chatbots, in Speech and Language Processing, Chapter 24, 2018.
[8] Yang and Xin Liu, “A re-examination of text categorization methods”, Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’99), 1999.
[9] Joachims, “Text Categorization with Support Vector Machines, Learning with Many Relevant Features”, European Conference on Machine Learning (ECML), 1998.
[10] Marina Sokolova, Guy Lapalme, “A systematic analysis of performance measures for classification tasks”, Information Processing & Management, Volume 45, Issue 4, p427-437, 07/2009.
[11] Bùi Khánh Linh, Nguyễn Thị Thu Hà, Nguyễn Thị Ngọc Tú, Đào Thanh Tĩnh, “Phân Loại Văn Bản Tiếng Việt Dựa Trên Mô Hình Chủ Đề”, Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX ―Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR'9), Cần Thơ, ngày 4-5/8/2016, 2016.
[12] Andrew Mccallum, Kamal Nigam, A Comparison of Event Models for Naive Bayes Text Classification, 5/2001.
[13] L Douglas Baker, Andrew Kachites McCallum, Distributional clustering of words for text classification, 1998.
[14] A Survey Report on Text Classification with Different Term Weighing Methods and Comparison between Classification Algorithms, International Journal of Computer Applications (0975 – 8887) Volume 75– No.7, August 2013.
[15] Vũ Hữu Tiệp, “Machine Learning Cơ Bản”, Chương 11: Naive Bayes Classifier, trang 128, 8/2018.
[16] Diab Shadi, “Optimizing Stochastic Gradient Descent in Text Classification Based on Fine-Tuning Hyper-Parameters Approach. A Case Study on Automatic Classification of Global Terrorist Attacks”, International Journal of Computer Science and Information Security (IJCSIS), 18/02/2019.
[17] “Application of Doc2vec and Stochastic Gradient Descent algorithms for Text Categorization”, Journal of Information Hiding and Multimedia Signal Processing, Volume 9, Number 5, 09/2018.
[18] Jupudi, Lakshmi, “Stochastic Gradient Descent using Linear Regression with Python”, International Journal of Advanced Research and Applications, (IJA-ERA), Volume 2, Issue 8, 12/01/2016.
[19] Helmi Setyawan, Muhammad Yusril, Awangga Rolly Maulana, Efendi Safif, “Comparison Of Multinomial Naive Bayes Algorithm And Logistic Regression For Intent Classification In Chatbot”, 01/10/2018.
[20] Moechammad Sarosa, Mochammad Junus, Mariana Ulfah Hoesny, Zamah Sari, Martin Fatnuriyah, Classification Technique of Interviewer-Bot Result using Naïve Bayes and Phrase Reinforcement Algorithms, International Journal of Emerging Technologies in Learning, Vol 13, No 02, 2018.
[21] Chaitrali S. Kulkarni, Amruta U. Bhavsar, Savita R. Pingale, Prof. Satish S. Kumbhar., Bank chatbot – An Intelligent Assistant System Using NLP and Machine Learning, International Research Journal of Engineering and Technology (IRJET), Volume: 04 Issue: 05, May -2017.
[22] Nguyễn Thành Thủy, Ứng dụng thuật toán học có giám sát multi-class SVM trong xây dựng hệ thống chatbot hỏi đáp tiếng Việt, The 7th conference on information technology and its applications, 2018
[23] Vũ Hữu Tiệp, Chương 11: Naïve Bayes Classifier, trang 129, Machine Learning Cơ Bản, 01/3/2018.
[24] E. Frank, and R. R. Bouckaert, Naive bayes for text classification with unbalanced classes, Knowledge Discovery in Databases: PKDD, pp 503-510, 2006.
[25] Vũ Thị Tuyến, Một số mô hình học máy trong phân loại câu hỏi. Luận văn thạc sĩ CNTT. Trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội, 2016.
[26] Natural Language Toolkit, [online] https://www.nltk.org/
[27] Scikit-learn: Machine Learning in Python, Pedregosa et al., JMLR 12, pp. 2825-2830, 2011.
[28] Marina Sokolova, Guy Lapalme, “A systematic analysis of performance measures for classification tasks”, Information Processing & Management, Volume 45, Issue 4, p427-437, 07/2009.
[29] Vũ Hữu Tiệp, bài 33: Các phương pháp đánh giá một hệ thống phân lớp, Machine Learning Cơ Bản, 01/3/2018.
[30] Duyetdev, https://github.com/duyetdev/node-vntokenizer, latest commit Aug 17, 2019.
Xem thêm
Ẩn bớt
##plugins.themes.academic_pro.article.sidebar##
Đã Xuất bản
Jul 31, 2020
Download
Cách trích dẫn
Nguyen Tri Bang, Phan Tran Dang Khoa, Ton Quang Hoang Nguyen. “Nghiên cứu các Mô hình phân loại văn bản để xây dựng Chatbot Tư vấn tuyển Sinh”. Tạp Chí Khoa học Và Công nghệ - Đại học Đà Nẵng, vol 18, số p.h 7, Tháng Bảy 2020, tr 40-46, https://jst-ud.vn/jst-ud/article/view/2820.