...
机译:非静止环境中多目标强力学习的强大策略自动启动算法
UNSW Canberra Sch Engn & Informat Technol Northcott Dr Canberra ACT 2612 Australia;
UNSW Canberra Sch Engn & Informat Technol Northcott Dr Canberra ACT 2612 Australia;
UNSW Canberra Sch Engn & Informat Technol Northcott Dr Canberra ACT 2612 Australia;
Multi-objective optimization; reinforcement learning; non-stationary; environment; dynamics; policy bootstrapping; Markov decision processes;
机译:非平稳多臂土匪问题的强化学习和进化算法
机译:通过多目标强化学习学习对抗性攻击政策
机译:固有的非平稳环境中基于预测的多智能体强化学习
机译:一种多目标强化学习和政策适应的广义算法
机译:关于用于增强学习的无模型策略迭代算法的收敛:不连续平均动力学下的随机逼近。
机译:基于进化算法的温室环境多目标控制优化
机译:用于非静止环境的加固学习算法