Binyan Xu
AI 安全 · 视觉语言模型

徐彬琰

香港中文大学(CUHK)信息工程系博士生。我的研究关注在对抗环境下构建可信的智能系统, 尤其是利用 CLIP 等视觉语言模型以及具身智能体,在安全视角下同时作为 防御者攻击者 的双重角色。

深度神经网络安全
后门与对抗攻击 / 防御
视觉语言模型与具身智能安全
个人简介
我目前在香港中文大学信息工程系攻读博士学位,导师为张克环教授。 在此之前,我于西安交通大学钱学森班获得自动化荣誉学士学位, 并作为交换学生在加州大学伯克利分校 EECS 系学习一学期。 我的研究致力于在对抗环境中提升现代 AI 系统的可信度, 重点方向包括后门攻击与防御、通用对抗扰动,以及视觉语言模型与具身智能体的安全性。
研究兴趣
  • 深度神经网络后门攻击与防御
  • 通用与可迁移对抗攻击
  • 利用 CLIP / VLM / LLM 进行 AI 安全
  • 具身智能体与机器人系统的安全性

研究概览

Friend and Foe:视觉语言模型在 AI 安全中的双重角色。

Friend and Foe: Vision-Language Models as Both Attackers and Defenders
博士前资格论文提案 · 香港中文大学信息工程系
视觉语言模型(VLM)如 CLIP 具有强大的跨模态表征与推理能力, 但同时也引入了新的攻击面。我的研究从三个方向系统性地研究其在安全中的“友与敌”:
  1. UnivIntruder: 仅利用一个公开的 VLM 构造通用、可迁移、定向的对抗扰动, 在完全黑盒的图像分类模型上实现高效“劫持”。
  2. CLIP-Guided Defense: 将 CLIP 作为外部语义审计器,从训练数据中分离后门样本与干净样本, 并通过 CLIP logits 指导重新训练,提升多种后门攻击下的鲁棒性。
  3. 环境驱动的具身智能 Jailbreak(在研): 研究如何通过精心设计的物理环境,利用感知链路的脆弱性绕过具身智能体的安全机制。

代表论文

第一作者工作,聚焦 AI 安全、视觉语言模型与后门鲁棒性。

One Surrogate to Fool Them All: Universal, Transferable, and Targeted Adversarial Attacks with CLIP
ACM Conference on Computer and Communications Security (CCS) 2025 · Oral
Adversarial Attack
该工作表明,一个公开可用的视觉语言模型(CLIP)即可作为通用代理(surrogate), 生成面向多种黑盒视觉模型的定向通用对抗扰动;整个过程不依赖目标模型的结构、参数或训练数据。
Universal perturbation Transferability Black-box models CLIP
CLIP-Guided Backdoor Defense through Entropy-Based Poisoned Dataset Separation
ACM Multimedia (MM) 2025 · Oral
Backdoor Defense
提出 CLIP-Guided Defense(CGD):利用 CLIP 的语义预测对训练集样本进行熵值打分, 将可疑后门样本与干净样本自动分离,并以 CLIP logits 作为监督重训模型。 在多数据集、多种后门攻击(包括 clean-label 与 clean-image 设置)下, CGD 能在保持干净精度的同时,将攻击成功率压到约 1% 或更低。
Data separation Entropy-based scoring Clean-image backdoors Robust retraining
Breaking the Stealth–Potency Trade-off in Clean-Image Backdoors with Generative Trigger Optimization
AAAI Conference on Artificial Intelligence (AAAI) 2026 · Oral
Backdoor Attack
本工作提出一种针对 clean-image(图像不改,标签被投毒)的通用后门框架: 攻击者仅通过重新标注,便可在保持输入图像外观完全不变的前提下植入强后门。 通过在潜在触发空间中进行生成式优化,我们证明了“高隐蔽性”和“高攻击性”可以兼得, 并在分类、回归、分割等任务中系统分析其影响。
Clean-image backdoors Generative models InfoGAN

代表项目

在微软亚洲研究院(MSRA)的产业研究实习经历。

AI-Aided Ascetic Graphic Design Generation
微软亚洲研究院 · Stars of Tomorrow 实习
Industry collaboration
在 MSRA 实习期间,我参与共建了一个面向极简设计风格的 AI 辅助平面设计系统, 将:
  • 具约束感知的自回归视觉语言布局生成器,
  • 以及在保持布局语义的前提下进行风格与质感细化的扩散模型模块
有机结合。实验结果表明,该系统在美学质量与约束满足度上均优于现有方法, 展示了生成式模型在专业设计流程中的可控辅助能力。
Diffusion models Layout generation Vision-language Human–AI collaboration

教育背景与奖励

学术训练经历与部分荣誉。

教育背景
信息工程博士
香港中文大学 · 2023 年 9 月 – 2027 年 8 月(预计)
GPA:3.86。研究方向涵盖 AI 安全、后门攻击与防御、以及视觉语言 / 具身智能的安全性。
EECS 交换生
加州大学伯克利分校 · 2021 年 8 月 – 2021 年 12 月
GPA:4.0。修读计算机科学与人工智能相关课程并参与项目。
自动化专业荣誉学士
西安交通大学 · 2019 年 9 月 – 2023 年 7 月
GPA:3.92。钱学森班荣誉毕业生。
西安交大少年班
西安交通大学 · 2017 年 9 月 – 2019 年 7 月
GPA 位列前 10%。初中直升大学的预备课程培养计划。
部分奖励与资助
  • 美国大学生数学建模竞赛(MCM)Finalist Award
  • 钱学森班荣誉毕业生
  • 优秀毕业生奖学金
  • 钱学森学院出国深造一等资助(约人民币 10 万元)

联系与链接

如有合作意向或相关问题,欢迎邮件联系。

联系方式

我非常乐意讨论与 AI 安全、后门攻击 / 防御、视觉语言模型或具身智能相关的研究问题。 如果你对合作感兴趣,欢迎通过邮件简单介绍你的想法。

邮箱: binyxu@ie.cuhk.edu.hk

更多链接