在中科院先导项目、科技部青年科学家、国自然等项目的支持下,围绕智能算法内生安全问题和衍生安全问题展开基础和应用研究。通过分析算法缺陷的内在机理,构建算法安全评估体系,探索缺陷与风险防护机制,突破智能算法“可信、可管、可控”的理论和技术瓶颈,为智能算法的应用安全保驾护航。
课题组围绕智能算法内生安全问题和衍生安全问题展开以下研究:
1. 对抗攻击与防御:
a) 对抗攻击:围绕如何提升对抗样本的迁移性展开研究
b) 对抗防御:从鲁棒结构设计、高效对抗训练等角度提升模型的对抗鲁棒性
2. 后门攻击与防御:
a) 后门攻击:围绕如何提升后门的攻击性、隐蔽性和稳定性展开研究
b) 后门防御:研究后门检测、后门定位和后门移除方法
3. 分布外泛化与检测:
研究可信域判定的理论分析方法、基于语义的域偏移衡量方法以及领域泛化方法等
4. 多模态大模型安全评估:评估多模态大模型的基础能力、公平性、隐私泄露风险、幻觉、价值观偏离等
5. 深伪与鉴伪、活体检测:
a) 数字世界:特定人语音生成、语音驱动、表情迁移等伪造方法以及图像视频鉴伪方法;
表情迁移
b) 物理世界:活体检测