摘要:根据现代战争的对抗格局,提出了空空导弹拦截高速大机动目标的智能制导律.这种制导律是采用基于Q-learning算法的.Q-learning的思想是直接优化一个可迭代计算的Q函数,并利用增强学习实现知识的自动获取,来扩展所能得到的知识资源.在Q-learning算法中,系统通过计算状态的值函数或者状态-动作对的值函数来控制导弹的飞行.根据环境的评价性回报函数来实现决策的优化,从而能够达到行为优化.这种制导规律只需要导弹和目标的位置、状态变量和法向过载的测量量,易于弹上实时实现,并且将这种制导律和传统制导相比较.结果表明:这种制导具有一定的智能行为,可以拦截大机动目标.这种智能制导方法有利于提高打击精度和载机的作战生存能力.