Chuyển đổi nhãn tự động trong thị giác máy tính cho bài toán đếm tôm giống
Tóm tắt: 203
|
PDF: 98
##plugins.themes.academic_pro.article.main##
Author
-
Can Thi PhuongNha Trang University, VietnamPham Thi Kim NgoanNha Trang University, VietnamBui Thi Hong MinhNha Trang University, VietnamMai Duc ThaoNha Trang University, VietnamThan Van HoanKhanh Hoa Center for Infomation and Apllication of Science and Technology, VietnamPham Quang ThuanNha Trang National College of Pedagogy, Vietnam
Từ khóa:
Tóm tắt
Trong lĩnh vực thị giác máy tính, các bài toán như phát hiện vật thể, phân đoạn đối tượng và phân lớp thường yêu cầu dữ liệu huấn luyện được gán nhãn theo các định dạng khác nhau. Việc gán nhãn thủ công thường tốn nhiều thời gian và công sức, đặc biệt khi cùng một tập dữ liệu ảnh cần được gán nhãn theo nhiều cách khác nhau để phục vụ cho các yêu cầu khác nhau. Thách thức này càng trở nên rõ rệt trong bài toán đếm tôm giống, nơi các đối tượng có kích thước nhỏ, mật độ cao và thường chồng lấn lên nhau. Nghiên cứu này đề xuất một phương pháp tự động chuyển đổi nhãn từ dạng đa giác sang dạng hộp giới hạn, nhằm tối ưu hóa quy trình xử lý dữ liệu và cải thiện hiệu suất mô hình. Kết quả thực nghiệm cho thấy mô hình huấn luyện trên tập dữ liệu chuyển đổi tự động đạt tỷ lệ lỗi MAPE 3,26% trong bài toán đếm tôm giống, chứng minh tính hiệu quả của phương pháp đề xuất trong việc xử lý bài toán chuyển đổi định dạng nhãn.
Tài liệu tham khảo
-
[1] C. T. Phuong, P. T. K. Ngoan, B. T. H. Minh, M. D. Thao, and T. V. Hoan, "Deep learning research and applications in computer vision: Experiments with shrimp counting problem", in Proc. 27th National Conference on Information and Communication Technology (VNICT 2024), Hanoi, Vietnam, 2024, pp. 410–422.
[2] H. Duan et al., “Shrimp Larvae Counting Based on Improved YOLOv5 Model with Regional Segmentation”, Sensors (Basel), vol. 24, no. 19, Sep. 2024, doi: 10.3390/s24196328.
[3] S. Armalivia, Z. Zainuddin, A. Achmad and M. A. Wicaksono, "Automatic Counting Shrimp Larvae Based You Only Look Once (YOLO)," in 2021 International Conference on Artificial Intelligence and Mechatronics Systems (AIMS), Bandung, Indonesia, 2021, pp. 1-4, doi: 10.1109/AIMS52415.2021.9466058.
[4] L. Zhang, X. Zhou, B. Li, H. Zhang, and Q. Duan, “Automatic shrimp counting method using local images and lightweight YOLOv4”, Biosyst Eng, vol. 220, pp. 39–54, 2022, doi: https://doi.org/10.1016/j.biosystemseng.2022.05.011.
[5] T. Rädsch et al., “Quality Assured: Rethinking Annotation Strategies in Imaging AI BT”, in A. Leonardis, E. Ricci, S. Roth, O. Russakovsky, T. Sattler, and G. Varol, Eds., Computer Vision – ECCV 2024, Cham: Springer Nature Switzerland, 2025, pp. 52–69. doi: https://doi.org/10.1007/978-3-031-73229-4_4.
[6] S. Nou, J.-S. Lee, N. Ohyama, and T. Obi, “The improvement of ground truth annotation in public datasets for human detection”, Mach Vis Appl, vol. 35, no. 3, p. 49, 2024, doi: 10.1007/s00138-024-01527-1.
[7] J. F. Mullen, F. R. Tanner, and P. A. Sallee, “Comparing the Effects of Annotation Type on Machine Learning Detection Performance”, in 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2019, pp. 855–861. doi: 10.1109/CVPRW.2019.00114.
[8] T.-Y. Lin et al., “Microsoft COCO: Common Objects in Context BT”, in D. Fleet, T. Pajdla, B. Schiele, and T. Tuytelaars, Eds., Computer Vision – ECCV 2014, Cham: Springer International Publishing, 2014, pp. 740–755, doi: 10.1007/978-3-319-10602-1_48.
[9] A. Gupta, P. Dollár, and R. Girshick, “LVIS: A Dataset for Large Vocabulary Instance Segmentation”, in 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA, 2019, pp. 5351-5359, doi: 10.1109/CVPR.2019.00550.
[10] M. Cordts et al., “The Cityscapes Dataset for Semantic Urban Scene Understanding,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, 2016, pp. 3213-3223, doi: 10.1109/CVPR.2016.350.
[11] C. Bukas et al., “Robust deep learning based shrimp counting in an industrial farm setting”, J Clean Prod, vol. 468, p. 143024, 2024, doi: https://doi.org/10.1016/j.jclepro.2024.143024.
[12] S. Asmak, D. Rizaldi, R. Saputra, A. Abseno, V. Hananto, and E. Oktarina, “A Mobile App for Counting Shrimp Larvae Based on the YOLO V5 Method”, Journal of Computer Electronic and Telecommunication, vol. 5, Dec. 2024, doi: 10.52435/complete.v5i2.647.
[13] R. Khanam and M. Hussain, “YOLOv11: An Overview of the Key Architectural Enhancements”, arXiv, 2024, [Online]. Available: https://arxiv.org/abs/2410.17725.
[14] C.-Y. Wang, H.-Y. M. Liao, I.-H. Yeh, Y.-H. Wu, P.-Y. Chen, and J.-W. Hsieh, “CSPNet: A New Backbone that can Enhance Learning Capability of CNN.”, in 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, [Online]. Available: https://arxiv.org/abs/1911.11929.
[15] R. Khanam and M. Hussain, “A Review of YOLOv12: Attention-Based Enhancements vs. Previous Versions”, arXiv, 2025, [Online]. Available: https://arxiv.org/abs/2504.11995.
[16] Z. Liu et al., “Swin Transformer: Hierarchical Vision Transformer using Shifted Windows,” in 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, QC, Canada, 2021, pp. 9992-10002, doi: 10.1109/ICCV48922.2021.00986.
[17] Z. Huang et al., “CCNet: Criss-Cross Attention for Semantic Segmentation”, IEEE Trans Pattern Anal Mach Intell, vol. 45, no. 6, pp. 6896–6908, 2023, doi: 10.1109/TPAMI.2020.3007032.
[18] X. Dong et al., “CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows”, in 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, LA, USA, 2022, pp. 12114-12124, doi: 10.1109/CVPR52688.2022.01181.
[19] Ultralytics, “Model Training with Ultralytics YOLO”, ultralytics.com, November, 12, 2023. [Online].Available: https://docs.ultralytics.com/modes/train/ [Accessed: Mar. 03, 2024].
[20] J. Hosang, R. Benenson, and B. Schiele, “Learning non-maximum suppression.”, in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, USA, 2017, pp. 6469-6477, doi: 10.1109/CVPR.2017.685.
[21] J. Gilg, T. Teepe, F. Herzog, P. Wolters, and G. Rigoll. “Do We Still Need Non-Maximum Suppression? Accurate Confidence Estimates and Implicit Duplication Modeling with IoU-Aware Calibration”, in IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2024 pp. 4838-4847. doi: 10.1109/WACV57701.2024.00478.

