Nghiên cứu mô phỏng dáng người trên không gian ba chiều từ hình ảnh hai chiều sử dụng phương pháp học sâu
##plugins.themes.academic_pro.article.main##
Author
-
Phạm Lê Minh HoàngTrường Đại học Bách khoa - Đại học Đà NẵngLê Thị Kim OanhTrường Đại học Bách khoa - Đại học Đà Nẵng
Từ khóa:
Tóm tắt
Nghiên cứu mô phỏng dáng người trong không gian ba chiều từ đơn ảnh đã có tiến triển đáng kể trong thời gian gần đây, nhờ tính toán bằng các mô hình có kiến trúc mạng tối ưu, kết hợp với các bộ dữ liệu quy mô lớn. Tuy nhiên, khi áp dụng vào điều kiện môi trường khác nhau trong thực tế, các phương pháp hiện có vẫn chưa đạt được độ chính xác so với kỳ vọng. Bài báo này đề xuất một giải pháp mới gồm hai mô hình kết hợp nhằm tăng độ chính xác dựa trên phương thức học sâu. Mô hình thứ nhất gọi là Squeeze-and-Excitation Network, được dùng để dựng lại dáng người hai chiều từ một ảnh đầu vào; Sau đó, sử dụng kết hợp giữa các lớp kết nối đầy đủ và mạng chập đồ thị để dựng thành dáng người ba chiều từ thông tin đầu ra của mô hình trước. Hiệu quả của phương pháp được chứng minh bằng cách so sánh với bộ dữ liệu chuẩn, và cho thấy độ chính xác được cải thiện đáng kể so với các phương pháp đã có trước.
Tài liệu tham khảo
-
[1] Connolly, I., Palmer, M., Barton, H., & Kirwan, An Introduction to Cyberpsychology, Routledge, 2016.
[2] Held, J. Krumm, P. Markel, and R. P. Schenke, “Intelligent video surveillance”, Computer, Vol. 45, 2012, 83–84.
[3] Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks”, Advances in Neural Information Processing Systems, Vol. 25, 2012, 1097-1105.
[4] Shih-En Wei, Varun Ramakrishna, Takeo Kanade, and Yaser Sheikh, “Convolutional Pose Machines”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, 4724-4732.
[5] Newell, K. Yang, and J. Deng, “Stacked hourglass networks for human pose estimation”, Computer Vision – ECCV 2016, 2016, 483-499.
[6] Pavlakos, X. Zhou, K. G. Derpanis, and K. Daniilidis, “Coarse-to-fine volumetric prediction for single-image 3D human pose”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, 7025-7034.
[7] Tome, C. Russell, and L. Agapito, “Lifting from the Deep: Convolutional 3D pose estimation from a single image”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, 2500-2509.
[8] Yasin, U. Iqbal, B. Kruger, A. Weber, and J. Gall, “A dual-source approach for 3D pose estimation from a single image”, Computer Vision and Image Understanding, Vol. 172, 2018, 37-49.
[9] Zhou, Q. Huang, X. Sun, X. Xue, and Y. Wei, “Towards 3D human pose estimation in the wild: a weakly-supervised approach”, Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017, 398-407.
[10] Yang, W. Ouyang, X. Wang, J. Ren, H. Li, and X. Wang, “3D human pose estimation in the wild by adversarial learning”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018, 5255-5264.
[11] Magnus Burenius, Josephine Sullivan, Stefan Carlsson, “3D Pictorial Structures for Multiple View Articulated Pose Estimation”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2013, 3618-3625.
[12] Catalin Ionescu, Liefeng Bo, Cristian Sminchisescu, “Structural SVM for visual localization and continuous state estimation”, Proceedings of 12th International Conference on Computer Vision (ICCV), 2009, 1157-1164.
[13] Bin Xiao, Haiping Wu, and Yichen Wei, “Simple Baselines for Human Pose Estimation and Tracking”, Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 466-481.
[14] Xiao Sun, Bin Xiao, Fangyin Wei, Shuang Liang, and Yichen Wei, “Integral human pose regression”, Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 529-545.
[15] Muhammed Kocabas, Salih Karagoz, Emre Akbas, “Self-Supervised Learning of 3D Human Pose using Multi-view Geometry”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, 1077-1086.
[16] Sergey Ioffe, Christian Szegedy, “Batch normalization: Accelerating deep network training by reducing internal co-variate shift”, Proceedings of the 32nd International Conference on Machine Learning, 2015, 448-456.
[17] Andrew L. Maas, Awni Y. Hannun, and Andrew Y. Ng., “Rectifier non-linearities improve neural network acoustic models”, Proceedings of the International Conference on Machine Learning, Vol. 28, 2013, 3-9.
[18] Jie Hu, Li Shen, Samuel Albanie, Gang Sun, Enhua Wu, “Squeeze-and-Excitation Networks”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018, 7132-7141.
[19] Mykhaylo Andriluka, Leonid Pishchulin, Peter Gehler, and Bernt Schiele, “2D human pose estimation: New benchmark and state of the art analysis”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014, 3686-3693.
[20] Catalin Ionescu, Dragos Papava, Vlad Olaru, and Cristian Sminchisescu, “Human3.6m: Large scale datasets and predictive methods for 3D human sensing in natural environments”, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, 2014, 1325-1339.
[21] Long Zhao, Xi Peng, Yu Tian. Mubbasir Kapadia, Dimitris N. Metaxas, “Semantic Graph Convolutional Networks for 3D Human Pose Regression”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, 3425-3435.
[22] Julieta Martinez, Rayat Hossain, Javier Romero, and James J. Little, “A Simple yet Effective Baseline for 3D Human Pose Estimation”, Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017, 2640-2649.
[23] Wen-Nung Lie, Lung-Sheng Shih, “3D Human Skeleton Estimation Based on 3D Heatmaps Generation and Regression by Deep Learning Techniques”, National Chung Cheng University Online Library, 2019, https://hdl.handle.net/11296/5z969r, 14/02/2020.
[24] C. Gower, “Generalized procrustes analysis”, Psychometrika, 1975, 33–51.
[25] Dario Pavllo, Christoph Feichtenhofer, David Grangier, and Michael Auli, “3D Human Pose Estimation in Video with Temporal Convolutions and Semi-Supervised Training”, Proceedings of IEEE Int'l Conf. on Computer Vision and Pattern Recognition (CVPR), 2019, 7753-7762.
[26] Xipeng Chen, Kwan-Yee Lin, Wentao Liu, Chen Qian, and Liang Lin, “Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation”. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, 10895-10904.
[27] Haoshu Fang, Yuanlu Xu, Wenguan Wang, Xiaobai Liu, and Song-Chun Zhu, “Learning pose grammar to encode humanbody configuration for 3D pose estimation”, Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 32, 2018, 6821–6828.
[28] Georgios Pavlakos, Xiaowei Zhou, and Kostas Daniilidis. “Ordinal depth supervision for 3D human pose estimation”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018, 7307-7316.