Multimedia Computing and Multimodal Intelligent----Visual Information Processing and Learning (VIPL)

Location：

Home > Research>Multimedia Computing and Multimodal Intelligent

Multimedia Computing and Multimodal Intelligent

Leader： Shuqiang Jiang (Professor)

Email： sqjiang [at] ict.ac.cn

Introduction of research group

Papers

Journal Papers

Haitao Zeng, Xinhang Song, Shuqiang Jiang. Goal-oriented Dynamic Weight Optimization for Multi-Object Navigation. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2026. (Accepted)
Dongjian Yu, Weiqing Min, Xin Jin, Qian Jiang, Ying Jin, Shuqiang Jiang. Diverse and High-Quality Food Image Generation from Only Food Names. ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), Vol. 21, No. 5, pp. 153:1–153:22, 2025.
Weiqing Min, Xingjian Hong, Yuxin Liu, Mingyu Huang, Ying Jin, Pengfei Zhou, Leyi Xu, Yilin Wang, Shuqiang Jiang, Yong Rui. Multimodal Food Learning. ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), Vol. 21, No. 7, pp. 196:1–196:15, July 2025.
Xinda Liu, Qinyu Zhang, Weiqing Min, Guohua Geng, Shuqiang Jiang. Solutions and challenges in AI-based pest and disease recognition. Computers and Electronics in Agriculture (CEA), 238: 110775, 2025.
Chengxu Liu, Weiqing Min, Jingru Song, Yancun Yang, Guorui Sheng, Tao Yao, Lili Wang, Shuqiang Jiang. Channel grouping vision transformer for lightweight fruit and vegetable recognition. Expert Systems with Applications (ESWA), 292: 128636, 2025.
Zhihui Feng, Hao Xiong, Weiqing Min, Sujuan Hou, Huichuan Duan, Zhonghua Liu, Shuqiang Jiang. Ingredient-Guided RGB-D Fusion Network for Nutritional Assessment. IEEE Transactions on AgriFood Electronics, Vol. 3, No. 1, pp. 156-166, March-April 2025.
Weiqing Min, Shuqiang Jiang, Petia Radeva, Vladimir Pavlovic, Chong-Wah Ngo, Kiyoharu Aizawa, Wanqing Li. Guest Editorial: When Multimedia Meets Food: Multimedia Computing for Food Data Analysis and Applications. IEEE Transactions on Multimedia (TMM), Vol. 27, pp. 2708–2712, 2025.
Sixian Zhang, Xinhang Song, Xinyao Yu, Yubing Bai, Xinlong Guo, Weijie Li, Shuqiang Jiang. HOZ++: Versatile Hierarchical Object-to-Zone Graph for Object Navigation. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), Vol. 47, No. 7, pp. 5958–5975, July 2025.
Ziqiang Chen, Dandan Wang, Liangliang Lou, Shiqing Zhang, Xiaoming Zhao, Shuqiang Jiang, Jun Yu, Jun Xiao. Text-guided multimodal depression detection via cross-modal feature reconstruction and decomposition. Information Fusion (IF), 117: 102861, 2025.
Pengfei Zhou, Weiqing Min, Chaoran Fu, Ying Jin, Mingyu Huang, Xiangyang Li, Shuhuan Mei, Shuqiang Jiang. FoodSky: A food-oriented large language model that can pass the chef and dietetic examinations. Patterns(Cell Press), Vol. 6, No. 5, May 2025.
Siyan Zhang, Xinhang Song, Xinyao Yu, Yubing Bai, Xinlong Guo, Weijie Li, Shuqiang Jiang. HOZ++: Versatile Hierarchical Object-to-Zone Graph for Object Navigation. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025. (Accepted)
Qizheng Wang, Meiyi Yao, Xinhang Song, Yandong Liu, Xiaoying Xing, Yongye Chen, Fangbo Zhao, Ke Liu, Xiaoguang Cheng, Shuqiang Jiang, Ning Lang. Automated Segmentation and Classification of Knee Synovitis Based on MRI Using Deep Learning. Academic Radiology, Vol. 31, No. 4, pp. 1518-1527, 2024.
Tianyu Zhang, Weiqing Min, Tao Liu, Shuqiang Jiang, Yong Rui. Toward Egocentric Compositional Action Anticipation with Adaptive Semantic Debiasing. ACM Transactions on Multimedia Computing, Communications and Applications (TOMM), Vol. 20, No. 5, pp. 1-21, 2024.
Yancun Yang, Weiqing Min, Jingru Song, Guorui Sheng, Lili Wang, Shuqiang Jiang. Lightweight Food Recognition via Aggregation Block and Feature Encoding. ACM Transactions on Multimedia Computing, Communications and Applications (TOMM), Vol. 20, No. 10, pp. 1-25, 2024.
Xinhang Song, Bohan Wang, Liye Dong, Gongwei Chen, Xinyun Hu, Shuqiang Jiang. Object-to-Manipulation Graph for Affordance Navigation. CAAI Artificial Intelligence Research, 3: 9150032, 2024.
Tingjing Zhang, Mingyu Huang, Liangkai Chen, Yang Xia, Weiqing Min, Shuqiang Jiang. Machine learning and statistical models to predict all-cause mortality in type 2 diabetes: Results from the UK Biobank study. Diabetes & Metabolic Syndrome: Clinical Research & Reviews, 18(9): 103135, 2024.
Guorui Sheng, Weiqing Min, Tao Yao, Jingru Song, Yancun Yang, Lili Wang, Shuqiang Jiang. Lightweight Food Image Recognition with Global Shuffle Convolution. IEEE Transactions on AgriFood Electronics (TAFE), Vol. 2, No. 2, pp. 392-402, 2024.
Pengfei Zhou, Weiqing Min, Jiajun Song, Yang Zhang, Shuqiang Jiang. Synthesizing knowledge-enhanced features for real-world zero-shot food detection. IEEE Transactions on Image Processing (TIP), Vol. 33, pp. 1285-1298, 2024.
Yuxin Liu, Weiqing Min, Shuqiang Jiang, Yong Rui. Convolution-Enhanced Bi-Branch Adaptive Transformer with Cross-Task Interaction for Food Category and Ingredient Recognition. IEEE Transactions on Image Processing (TIP), Vol. 33, pp. 2572-2586, 2024.
Qizheng Wang, Meiyi Yao, Xinhang Song, et al.. Automated Segmentation and Classification of Knee Synovitis Based on MRI Using Deep Learning. Academic Radiology, 2023.

Conference Papers

Yiyao Wang, Sixian Zhang, Keming Zhang, Xinhang Song, Songjie Du, Shuqiang Jiang. TrajRAG: Retrieving Geometric-Semantic Experience for Zero-Shot Object Navigation. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Denver, Colorado, USA, Jun. 3-7, 2026. (Accepted)
Sixian Zhang, Yiyao Wang, Xinhang Song, Keming Zhang, Zijian Xu, Shuqiang Jiang. Multi-Scale Gaussian-Language Map for Embodied Navigation and Reasoning. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Denver, Colorado, USA, Jun. 3-7, 2026. (Accepted)
Jiahao Yang, Zihan Wang, Xiangyang Li, Xing Zhu, Yujun Shen, Yinghao Xu, Shuqiang Jiang. GA-VLN: Geometry-Aware BEV Representation for Efficient Vision-Language Navigation. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Denver, Colorado, USA, Jun. 3-7, 2026. (Accepted)
Tianliang Qi, Xinhang Song, Yuyi Liu, Shuqiang Jiang. Rethinking Visual Rearrangement from A Diffusion Perspective. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Denver, Colorado, USA, Jun. 3-7, 2026. (Accepted)
Sixian Zhang, Xinyao Yu, Xinhang Song, Yiyao Wang, Shuqiang Jiang. Function-centric Bayesian Network for Zero-Shot Object Goal Navigation. IEEE/CVF International Conference on Computer Vision (ICCV), Honolulu, HI, USA, Oct. 19-23, 2025.
Xiaorong Qin, Xinhang Song, Sixian Zhang, Xinyao Yu, Xinmiao Zhang, Shuqiang Jiang. Learning on the Go: A Meta-learning Object Navigation Model. IEEE/CVF International Conference on Computer Vision (ICCV), Honolulu, HI, USA, Oct. 19-23, 2025.
Yuyi Liu, Xinhang Song, Tianliang Qi, Shuqiang Jiang. Trial-Oriented Visual Rearrangement. IEEE/CVF International Conference on Computer Vision (ICCV), Honolulu, HI, USA, Oct. 19-23, 2025.
Zihan Wang, Xiangyang Li, Jiahao Yang, Yeqi Liu, Shuqiang Jiang. Sim-to-Real Transfer via 3D Feature Fields for Vision-and-Language Navigation. Conference on Robot Learning (CRL), Munich, Germany, Nov. 6-9, 2024.
Xiaohan Wang, Yuehu Liu, Xinhang Song, Yuyi Liu, Sixian Zhang, Shuqiang Jiang. An Interactive Navigation Method with Effect-oriented Affordance. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 16446-16456, Seattle WA, USA, Jun. 17-21, 2024.
Zihan Wang, Xiangyang Li, Jiahao Yang, Yeqi Liu, Junjie Hu, Ming Jiang, Shuqiang Jiang. Lookahead Exploration with Neural Radiance Representation for Continuous Vision-Language Navigation. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 13753-13762, Seattle WA, USA, Jun. 17-21, 2024.
Sixian Zhang, Xinyao Yu, Xinhang Song, Xiaohan Wang, Shuqiang Jiang. Imagine Before Go: Self-Supervised Generative Map for Object Goal Navigation. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 16414-16425, Seattle WA, USA, Jun. 17-21, 2024.
Yuyi Liu, Xinhang Song, Weijie Li, Xiaohan Wang, Shuqiang Jiang. A Category Agnostic Model for Visual Rearrangement. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 16457-16466, Seattle WA, USA, Jun. 17-21, 2024.
Xinyao Yu, Sixian Zhang, Xinhang Song, Xiaorong Qin, Shuqiang Jiang. Trajectory Diffusion for ObjectGoal Navigation. Annual Conference on Neural Information Processing Systems (NeurIPS), Vancouver, Canada, Dec. 10-15, 2024.
Xiaohan Wang, Yuehu Liu, Xinhang Song, Beibei Wang, Shuqiang Jiang. CaMP: Causal Multi-policy Planning for Interactive Navigation in Multi-room Scenes. Annual Conference on Neural Information Processing Systems (NeurIPS), New Orleans, LA, Dec. 10-16, 2023.
Jiajun Song, Zhuo Li, Weiqing Min, Shuqiang Jiang. Towards Food Image Retrieval via Generalization-oriented Sampling and Loss Function Design, ACM Transactions on Multimedia Computing, Communications and Applications, Vol. 20, No. 1, pp. 1-19, 2023.
Sujuan Hou, Jiacheng Li, Weiqing Min, Qiang Hou, Yanna Zhao, Yuanjie Zheng, Shuqiang Jiang. Deep Learning for Logo Detection: A Survey, ACM Transactions on Multimedia Computing, Communications and Applications, Vol. 20, No. 3, pp. 1-23, 2023.
Tianyu Zhang, Weiqing Min, Xinyang Han, Shuqiang Jiang. A Survey on Future Action Anticipation in Videos. CHINESE JOURNAL OF COMPUTERS, Vol. 46, No. 6, pp: 1315-1338, 2023.
Weiqing Min, Zhiling Wang, Jiahao Yang, Chunlin Liu, Shuqiang Jiang. Vision-based fruit recognition via multi-scale attention CNN. Computers and Electronics in Agriculture, Vol. 210, 2023.
Wenjing Shao, Weiqing Min, Sujuan Hou, Mengjiang Luo, Tianhao Li and Yuanjie Zheng and Shuqiang Jiang. Vision-based Food Nutrition Estimation via RGB-D Fusion Network. Food Chemistry, Vol. 424, 2023.
Tianhao Li, Wensong Wei, Weiqing Min, Shujuan Xing, Chunjiang Zhang, Shuqiang Jiang. Deep Learning-based Near-infrared Hyperspedtral Imaging for Food Nutrition Estimation. Foods, Vol. 12, No 17, pp. 3145, 2023.