声明
摘要
1.1研究背景及意义
1.2研究内容与贡献
1.2.1本文研究内容
1.2.2本文主要贡献
1.3本文组织结构
1.4本章小结
第2章文本对抗攻击与防御综述
2.1文本对抗攻击
2.1.1基于梯度的攻击
2.1.2基于置信度的攻击
2.1.3基于迁移性的攻击
2.1.4基于模型决策的攻击
2.2文本对抗防御
2.2.1对抗训练
2.2.2拼写纠错
2.3本章小结
3.1 引言
3.2攻击设计
3.2.1问题定义
3.2.2威肋模型
3.2.3 TextBugger攻盛防法
3.3攻击评估:情感分析
3.3.1数据集
3.3.2目标桢型
3.3.3基线算法
3.3.5实现细节
3.3.6攻击性能
3.3.7可用性分析
3.3.8讨论
3.4攻击评估:有害内容检测
3.4.1数据集
3.4.2目标模型及实现细带
3.4.3攻击性能
3.4.4可用性分析
3.4.5讨论
3.5深入分析
3.5.1对抗文本迁移性
3.5.2用户研究
3.6潜在防御策略
3.7讨论
3.8本章小结
4.1 引言
4.2攻击设计
4.2.1 问题定义
4.2.2威胁模型
4.2.3 CTBugger攻曲方法
4.3攻击评估
4.3.1实验设置
4.3.2定性评估
4.3.3攻击性能评估
4.3.4攻击收敛性分析
4.4用户研究
4.5本章小结
第5章基于多模态词嵌入和机器翻译的对抗防御
5.1引言
5.2问题定义及威胁模型
5.3 TextShield防御框架
5.3.1 TextShield防御榻述
5.3.2对抗性机器翻译
5.3.3多模态嵌入
5.3.4多模态融合
5.4实验设置与实现
5.4.1数据集
5.4.2 目标模型
5.4.3攻击方法
5.4.4基线方法
5.4.5评估指标
5.5防御评估
5.5.1模型性能评估
5.5.2有效性评估
5.5.3鲁棒性评估
5.5.4与在线检测平台对比
5.6讨论
5.7本章小结
6.1本文总结
6.2未来展望
参考文献
攻读硕士学位期间主要的研究成果
致谢
浙江大学;