首页>外文会议>计算机、自动化>Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09

Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09

召开年：
召开地：
出版时间：-

会议文集：-

会议论文

热门论文

全部论文

最新会议

更多>>

全选（0）

1.Copyright

机译：版权
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
2.Table of contents

机译：目录
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
3.Welcome message

机译：欢迎留言
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
4.A unified framework for temporal difference methods

机译：时差方法的统一框架
- 作者：Bertsekas D.P.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
5.Iterative local dynamic programming

机译：迭代局部动态规划
- 作者：Todorov E.;Tassa Y.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
6.Adaptive computation of optimal nonrandomized policies in constrained average-reward MDPs

机译：约束平均奖励MDP中最优非随机策略的自适应计算
- 作者：Feinberg E.A.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
7.The QV family compared to other reinforcement learning algorithms

机译：QV系列与其他强化学习算法相比
- 作者：Wiering M.A.;van Hasselt H.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
- learning (artificial intelligence);
- QV- MAX2;
- QV-learning;
- QV2;
- QVMAX;
- R-learning;
- actor-critic;
- cart pole balancing problem;
- reinforcement learning algorithms;
8.Hierarchical optimal control of a 7-DOF arm model

机译：7自由度手臂模型的分层最优控制
- 作者：Dan Liu;Todorov E.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
9.Neural-network-based reinforcement learning controller for nonlinear systems with non-symmetric dead-zone inputs

机译：具有不对称死区输入的非线性系统的基于神经网络的强化学习控制器
- 作者：Xin Zhang;Huaguang Zhang;Derong Liu;Yongsu Kim
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
10.Basis function adaptation methods for cost approximation in MDP

机译：MDP中成本近似的基础函数自适应方法
- 作者：Huizhen Yu;Bertsekas D.P.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
11.Algorithms for variance reduction in a policy-gradient based actor-critic framework

机译：基于策略梯度的行为者批评框架中的方差减少算法
- 作者：Awate Y.P.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
12.Path integral-based stochastic optimal control for rigid body dynamics

机译：基于路径积分的刚体动力学随机最优控制
- 作者：Theodorou E.A.;Buchli J.;Schaal S.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
13.Policy search with cross-entropy optimization of basis functions

机译：具有基本功能的交叉熵优化的策略搜索
- 作者：Busoniu L.;Ernst D.;De Schutter B.;Babuska R.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
14.A theoretical and empirical analysis of Expected Sarsa

机译：对预期Sarsa的理论和实证分析
- 作者：van Seijen H.;van Hasselt H.;Whiteson S.;Wiering M.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
15.Kalman Temporal Differences: The deterministic case

机译：卡尔曼时间差异：确定性案例
- 作者：Geist M.;Pietquin O.;Fricout G.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
16.Adaptive Critic Designs-based autonomous unmanned vehicles navigation: Application to robotic farm vehicles

机译：基于自适应批判设计的自动无人驾驶导航：应用于机器人农用车
- 作者：Patino H.D.;Tosetti S.;Capraro F.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
17.Integrating sporadic imitation in Reinforcement Learning robots

机译：将零散模仿整合到强化学习机器人中
- 作者：Richert W.;Scheller U.;Koch M.;Kleinjohann B.;Stern C.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
18.Bounds of optimal learning

机译：最佳学习的界限
- 作者：Belavkin R.V.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
19.A convergent recursive least squares approximate policy iteration algorithm for multi-dimensional Markov decision process with continuous state and action spaces

机译：具有连续状态和动作空间的多维马尔可夫决策过程的收敛递归最小二乘近似策略迭代算法
- 作者：Jun Ma;Powell W.B.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
20.Online policy iteration based algorithms to solve the continuous-time infinite horizon optimal control problem

机译：基于在线策略迭代的算法来解决连续时间无限期最优控制问题
- 作者：Vamvoudakis K.;Vrabie D.;Lewis F.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
21.Feature discovery in approximate dynamic programming

机译：近似动态编程中的特征发现
- 作者：Preux P.;Girgin S.;Loth M.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
22.ADHDP(λ) strategies based coordinated ramps metering with queuing consideration

机译：考虑排队考虑的基于ADHDP（λ）策略的协调斜坡计量
- 作者：Xuerui Bai;Dongbin Zhao;Jianqiang Yi
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
23.Coupling perception and action using minimax optimal control

机译：使用minimax最佳控制耦合感知和动作
- 作者：Erez T.;Smart W.D.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
24.Inferring bounds on the performance of a control policy from a sample of trajectories

机译：从轨迹样本推断控制策略的执行范围
- 作者：Fonteneau R.;Murphy S.;Wehenkel L.;Ernst D.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
- continuous systems;
- optimal control;
- optimisation;
- polynomials;
- Lipschitz continuous;
- control policy;
- optimization horizon;
- polynomial algorithm;
- reward function;
- trajectories sample;
25.Executing concurrent actions with multiple Markov decision processes

机译：使用多个马尔可夫决策过程执行并发动作
- 作者：Corona-Xelhuantzi E.;Morales E.F.;Sucar E.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
26.The knowledge gradient algorithm for online subset selection

机译：在线子集选择的知识梯度算法
- 作者：Ryzhov I.O.;Powell W.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
27.Multiagent reinforcement learning in extensive form games with complete information

机译：在具有完整信息的广泛形式游戏中进行多主体强化学习
- 作者：Akramizadeh A.;Menhaj M.B.;Afshar A.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
28.Practical numerical methods for stochastic optimal control of biological systems in continuous time and space

机译：连续时间和空间随机最优控制生物系统的实用数值方法
- 作者：Simpkins A.;Todorov E.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
29.Using reward-weighted imitation for robot Reinforcement Learning

机译：使用奖励加权模仿进行机器人强化学习
- 作者：Peters J.;Kober J.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
30.Planning under uncertainty, ensembles of disturbance trees and kernelized discrete action spaces

机译：在不确定性下进行规划，扰动树的集合和核化的离散动作空间
- 作者：Defourny B.;Ernst D.;Wehenkel L.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
31.Eigenfunction approximation methods for linearly-solvable optimal control problems

机译：线性可解最优控制问题的特征函数逼近方法
- 作者：Todorov E.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
32.Neuro-controller of cement rotary kiln temperature with adaptive critic designs

机译：自适应批评家设计的水泥回转窑温度神经控制器
- 作者：Xiaofeng Lin;Tangbo Liu;Shaojian Song;Chunning Song
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
33.Author index

机译：作者索引
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
34.Learning continuous-action control policies

机译：学习持续控制策略
- 作者：Pazis J.;Lagoudakis M.G.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
35.Algorithm and stability of ATC receding horizon control

机译：ATC后退水平控制的算法和稳定性
- 作者：Hongwei Zhang;Jie Huang;Lewis F.L.
- 会议名称：《》 | 2009年
36.Real-time motor control using recurrent neural networks

机译：使用递归神经网络的实时电机控制
- 作者：Dongsung Huh;Todorov E.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
37.Efficient data reuse in value function approximation

机译：值函数近似中的有效数据重用
- 作者：Hachiya H.;Akiyama T.;Sugiyama M.;Peters J.
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年
38.Constrained optimal control of affine nonlinear discrete-time systems using GHJB method

机译：基于GHJB方法的仿射非线性离散系统的约束最优控制
- 作者：Lili Cui;Huaguang Zhang;Derong Liu;Yongsu Kim
- 会议名称：《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》 | 2009年