掌桥科研
一站式科研服务平台
科技查新
收录引用
专题文献代查
外文数据库(机构版)
更多产品
首页
成为会员
我要充值
退出
我的积分:
中文会员
开通
中文文献批量获取
外文会员
开通
外文文献批量获取
我的订单
会员中心
我的包量
我的余额
登录/注册
文献导航
中文期刊
>
中文会议
>
中文学位
>
中国专利
>
外文期刊
>
外文会议
>
外文学位
>
外国专利
>
外文OA文献
>
外文科技报告
>
中文图书
>
外文图书
>
工业技术
基础科学
医药卫生
农业科学
教科文艺
经济财政
社会科学
哲学政法
其他
工业技术
基础科学
医药卫生
农业科学
教科文艺
经济财政
社会科学
哲学政法
其他
自然科学总论
数学、物理、化学、力学
天文学、地球科学
生物科技
医学、药学、卫生
航空航天、军事
农林牧渔
机械、仪表工业
化工、能源
冶金矿业
电子学、通信
计算机、自动化
土木、建筑、水利
交通运输
轻工业技术
材料科学
电工技术
一般工业技术
环境科学、安全科学
图书馆学、情报学
社会科学
其他
马克思主义、列宁主义、毛泽东思想、邓小平理论
哲学、宗教
社会科学总论
政治、法律
军事
经济
文化、科学、教育、体育
语言、文字
文学
艺术
历史、地理
自然科学总论
数理科学和化学
天文学、地球科学
生物科学
医药、卫生
农业科学
工业技术
交通运输
航空、航天
环境科学、安全科学
综合性图书
自然科学总论
数学、物理、化学、力学
天文学、地球科学
生物科技
医学、药学、卫生
航空航天、军事
农林牧渔
机械、仪表工业
化工、能源
冶金矿业
电子学、通信
计算机、自动化
土木、建筑、水利
交通运输
轻工业技术
材料科学
电工技术
一般工业技术
环境科学、安全科学
图书馆学、情报学
社会科学
其他
自然科学总论
数学、物理、化学、力学
天文学、地球科学
生物科技
医学、药学、卫生
航空航天、军事
农林牧渔
机械、仪表工业
化工、能源
冶金矿业
电子学、通信
计算机、自动化
土木、建筑、水利
交通运输
轻工业技术
电工技术
一般工业技术
环境科学、安全科学
图书馆学、情报学
社会科学
其他
自然科学总论
数学、物理、化学、力学
天文学、地球科学
生物科技
医学、药学、卫生
航空航天、军事
农林牧渔
机械、仪表工业
化工、能源
冶金矿业
电子学、通信
计算机、自动化
土木、建筑、水利
交通运输
轻工业技术
材料科学
电工技术
一般工业技术
环境科学、安全科学
图书馆学、情报学
社会科学
其他
美国国防部AD报告
美国能源部DE报告
美国航空航天局NASA报告
美国商务部PB报告
外军国防科技报告
美国国防部
美国参联会主席指示
美国海军
美国空军
美国陆军
美国海军陆战队
美国国防技术信息中心(DTIC)
美军标
美国航空航天局(NASA)
战略与国际研究中心
美国国土安全数字图书馆
美国科学研究出版社
兰德公司
美国政府问责局
香港科技大学图书馆
美国海军研究生院图书馆
OALIB数据库
在线学术档案数据库
数字空间系统
剑桥大学机构知识库
欧洲核子研究中心机构库
美国密西根大学论文库
美国政府出版局(GPO)
加利福尼亚大学数字图书馆
美国国家学术出版社
美国国防大学出版社
美国能源部文献库
美国国防高级研究计划局
美国陆军协会
美国陆军研究实验室
英国空军
美国国家科学基金会
美国战略与国际研究中心-导弹威胁网
美国科学与国际安全研究所
法国国际关系战略研究院
法国国际关系研究所
国际宇航联合会
美国防务日报
国会研究处
美国海运司令部
北约
盟军快速反应部队
北约浅水行动卓越中心
北约盟军地面部队司令部
北约通信信息局
北约稳定政策卓越中心
美国国会研究服务处
美国国防预算办公室
美国陆军技术手册
一般OA
科技期刊论文
科技会议论文
图书
科技报告
科技专著
标准
其它
美国卫生研究院文献
分子生物学
神经科学
药学
外科
临床神经病学
肿瘤学
细胞生物学
遗传学
公共卫生&环境&职业病
应用微生物学
全科医学
免疫学
动物学
精神病学
兽医学
心血管
放射&核医学&医学影像学
儿科
医学进展
微生物学
护理学
生物学
牙科&口腔外科
毒理学
生理学
医院管理
妇产科学
病理学
生化技术
胃肠&肝脏病学
运动科学
心理学
营养学
血液学
泌尿科学&肾病学
生物医学工程
感染病
生物物理学
矫形
外周血管病
药物化学
皮肤病学
康复学
眼科学
行为科学
呼吸学
进化生物学
老年医学
耳鼻喉科学
发育生物学
寄生虫学
病毒学
医学实验室检查技术
生殖生物学
风湿病学
麻醉学
危重病护理
生物材料
移植
医学情报
其他学科
人类生活必需品
作业;运输
化学;冶金
纺织;造纸
固定建筑物
机械工程;照明;加热;武器;爆破
物理
电学
人类生活必需品
作业;运输
化学;冶金
纺织;造纸
固定建筑物
机械工程;照明;加热;武器;爆破
物理
电学
马克思主义、列宁主义、毛泽东思想、邓小平理论
哲学、宗教
社会科学总论
政治、法律
军事
经济
文化、科学、教育、体育
语言、文字
文学
艺术
历史、地理
自然科学总论
数理科学和化学
天文学、地球科学
生物科学
医药、卫生
农业科学
工业技术
交通运输
航空、航天
环境科学、安全科学
综合性图书
主题
主题
题名
作者
关键词
摘要
高级搜索 >
外文期刊
外文会议
外文学位
外国专利
外文图书
外文OA文献
中文期刊
中文会议
中文学位
中国专利
中文图书
外文科技报告
清除
历史搜索
清空历史
首页
>
外文会议
>
计算机、自动化
>
Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09
Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09
召开年:
召开地:
出版时间:
-
会议文集:
-
会议论文
热门论文
全部论文
相关中文期刊
微处理机
化学传感器
自动化与仪表
机器人
自动识别技术与应用
数码
计算机辅助设计与图形学学报
计算机工程与应用
办公自动化(综合版)
控制理论与应用
更多>>
相关外文期刊
EventDV
Acta Informatica
International Journal of Robotics & Automation
Communications law
The Computer journal
Formal Aspects of Computing
Open Systems & Information Dynamics
Displays
Behaviour & Information Technology
ACM Transactions on Computer-Human Interaction
更多>>
相关中文会议
中国计算机用户协会信息系统分会2004年信息技术交流大会
第三届中国系统建模与仿真技术高层论坛
2001全国软件技术研讨会
中国计算机用户协会网络应用分会2012年第十六届网络新技术与应用年会
中国计算机用户协会网络应用分会2005网络新技术与应用研讨会
2002办公自动化和信息安全学术研讨暨技术展示会
第七届仪表、自动化与先进集成技术大会暨第六届测控技术与仪器仪表学术大会
第二十一届全国计算机信息管理学术研讨会
中国计算机学会2004年信息保密专业委员会学术年会
第三届全国高等院校嵌入式系统教学研讨会
更多>>
相关外文会议
Second International Conference on Machine Learning and Computing (ICMLC 2010)
International Conference on Computer Aided Design and Computer Graphics; 20051207-10; Hong Kong(CN)
Information security and privacy
Public key cryptography
International Symposium on Advances in Spatial and Temporal Databases(SSTD 2007); 20070716-18; Boston,MA(US)
Software configuration management
Artificial intelligence applications and innovations
International Conference on Internet Computing (IC'03) Vol.2; Jun 23-26, 2003; Las Vegas, Nevada, USA
International Conference on Computational Science(ICCS 2006) pt.2; 20060528-31; Reading(GB)
14th SIGMORPHON workshop on computational research in phonetics, phonology, and morphology 2016
更多>>
热门会议
Meeting of the internet engineering task force;IETF
日本建築学会;日本建築学会大会
日本建築学会(Architectural Institute of Japan);日本建築学会年度大会
日本建築学会学術講演会;日本建築学会
日本建築学会2010年度大会(北陸)
Korean Society of Noise & Vibration Control;Institute of Noise Control Engineering;International congress and exposition on noise control engineering;ASME Noise Control & Acoustics Division
土木学会;土木学会全国大会年次学術講演会
応用物理学会秋季学術講演会;応用物理学会
総合大会;電子情報通信学会
The 4th International Conference on Wireless Communications, Networking and Mobile Computing(第四届IEEE无线通信、网络技术及移动计算国际会议)论文集
更多>>
最新会议
2011 IEEE Cool Chips XIV
International workshop on Java technologies for real-time and embedded systems
Supercomputing '88. [Vol.1]. Proceedings.
RILEM Proceedings PRO 40; International RILEM Conference on the Use of Recycled Materials in Buildings and Structures vol.1; 20041108-11; Barcelona(ES)
International Workshop on Hybrid Metaheuristics(HM 2007); 20071008-09; Dortmund(DE)
The 57th ARFTG(Automatic RF Techniques Group) Conference, May 25, 2001, Phoenix, AZ
Real Time Systems Symposium, 1989., Proceedings.
Conference on Chemical and Biological Sensing V; 20040412-20040413; Orlando,FL; US
American Filtration and Separations Society conference
Combined structures congress;North American steel construction conference;NASCC
更多>>
全选(
0
)
清除
导出
1.
Copyright
机译:
版权
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
2.
Table of contents
机译:
目录
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
3.
Welcome message
机译:
欢迎留言
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
4.
A unified framework for temporal difference methods
机译:
时差方法的统一框架
作者:
Bertsekas D.P.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
approximation theory;
dynamic programming;
approximate dynamic programming;
high-dimensional fixed point problem;
monotone variational inequalities;
temporal difference methods;
5.
Iterative local dynamic programming
机译:
迭代局部动态规划
作者:
Todorov E.
;
Tassa Y.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
Kalman filters;
Newton method;
covariance analysis;
dynamic programming;
optimal control;
stochastic systems;
action spaces;
collocation method;
continuous high-dimensional state;
differential dynamic programming;
explicit differentiation;
iterative local dynamic programming;
local function approximator;
optimal value function;
quasi-Newton methods;
state covariance;
stochastic optimal control problems;
swimmer dynamical system;
unscented Kalman filter;
6.
Adaptive computation of optimal nonrandomized policies in constrained average-reward MDPs
机译:
约束平均奖励MDP中最优非随机策略的自适应计算
作者:
Feinberg E.A.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
Markov processes;
action sets;
adaptive computation;
adaptive control problems;
average-reward Markov decision processes;
constrained average-reward MDP;
finite state;
mixed stationary policies;
optimal nonrandomized nonstationary policies;
unichain condition;
7.
The QV family compared to other reinforcement learning algorithms
机译:
QV系列与其他强化学习算法相比
作者:
Wiering M.A.
;
van Hasselt H.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
learning (artificial intelligence);
QV- MAX2;
QV-learning;
QV2;
QVMAX;
R-learning;
actor-critic;
cart pole balancing problem;
reinforcement learning algorithms;
8.
Hierarchical optimal control of a 7-DOF arm model
机译:
7自由度手臂模型的分层最优控制
作者:
Dan Liu
;
Todorov E.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
control system synthesis;
feedback;
manipulator dynamics;
nonlinear dynamical systems;
optimal control;
14-dimensional control space;
28-dimensional state space;
7-DOF arm model;
biological constraints;
complex nonlinear dynamics;
feedback controller;
hierarchical optimal control;
high-level controller;
realistic arm model;
9.
Neural-network-based reinforcement learning controller for nonlinear systems with non-symmetric dead-zone inputs
机译:
具有不对称死区输入的非线性系统的基于神经网络的强化学习控制器
作者:
Xin Zhang
;
Huaguang Zhang
;
Derong Liu
;
Yongsu Kim
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
Lyapunov methods;
adaptive control;
closed loop systems;
discrete time systems;
learning (artificial intelligence);
neurocontrollers;
nonlinear control systems;
Lyapunov method;
adaptive controller;
close-loop tracking error;
neural-network-based reinforcement learning controller;
non-symmetric dead-zone input;
nonlinear system;
strategic utility function;
10.
Basis function adaptation methods for cost approximation in MDP
机译:
MDP中成本近似的基础函数自适应方法
作者:
Huizhen Yu
;
Bertsekas D.P.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
Markov processes;
approximation theory;
decision theory;
gradient methods;
minimisation;
nonlinear programming;
MDP;
Markov decision process;
basis function adaptation method;
cost function approximation;
gradient method;
nonlinear optimal stopping problem;
objective function minimization;
temporal difference;
11.
Algorithms for variance reduction in a policy-gradient based actor-critic framework
机译:
基于策略梯度的行为者批评框架中的方差减少算法
作者:
Awate Y.P.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
covariance matrices;
function approximation;
gradient methods;
learning (artificial intelligence);
stochastic processes;
Garnet problems;
covariance matrix;
long-run average-reward criterion;
reinforcement-learning;
stochastic policy-gradient ascent;
temporal-difference algorithms;
two-timescale actor-critic algorithms;
value-function approximation;
variance reduction;
12.
Path integral-based stochastic optimal control for rigid body dynamics
机译:
基于路径积分的刚体动力学随机最优控制
作者:
Theodorou E.A.
;
Buchli J.
;
Schaal S.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
matrix algebra;
nonlinear control systems;
optimal control;
partial differential equations;
stochastic systems;
transforms;
Hamilton-Jacobi-Bellman equation;
logarithmic transformation;
nonlinear stochastic systems;
partial differential equation;
path integral stochastic optimal control;
rigid body dynamics;
state independent control transition matrix;
time invariant control transition matrix;
13.
Policy search with cross-entropy optimization of basis functions
机译:
具有基本功能的交叉熵优化的策略搜索
作者:
Busoniu L.
;
Ernst D.
;
De Schutter B.
;
Babuska R.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
Markov processes;
decision theory;
entropy;
function approximation;
optimisation;
search problems;
approximate policy search algorithm;
basis function;
closed-loop policy;
continuous-state discrete-action Markov decision process;
cross-entropy optimization;
flexible policy parameterization;
value function approximation;
14.
A theoretical and empirical analysis of Expected Sarsa
机译:
对预期Sarsa的理论和实证分析
作者:
van Seijen H.
;
van Hasselt H.
;
Whiteson S.
;
Wiering M.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
learning (artificial intelligence);
stochastic processes;
behavior policy;
deterministic environment;
expected Sarsa analysis;
model-free reinforcement learning;
on-policy temporal-difference method;
stochasticity;
zero variance;
15.
Kalman Temporal Differences: The deterministic case
机译:
卡尔曼时间差异:确定性案例
作者:
Geist M.
;
Pietquin O.
;
Fricout G.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
Kalman filters;
Markov processes;
approximation theory;
mean square error methods;
random processes;
temporal reasoning;
Kalman filtering paradigm;
Kalman temporal differences;
deterministic Markovian decision processes;
function approximation;
mean-squared error;
nonlinear parameterization;
random variable;
unscented transform;
16.
Adaptive Critic Designs-based autonomous unmanned vehicles navigation: Application to robotic farm vehicles
机译:
基于自适应批判设计的自动无人驾驶导航:应用于机器人农用车
作者:
Patino H.D.
;
Tosetti S.
;
Capraro F.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
adaptive control;
control system synthesis;
electric current control;
intelligent control;
mobile robots;
optimal control;
path planning;
position control;
remotely operated vehicles;
adaptive critic designs;
autonomous agriculture vehicles;
autonomous unmanned vehicles navigation;
current control decision;
energy consumption;
mobile robotics;
optimal control action sequence;
planning;
robotic farm vehicles;
time consumption;
vehicle orientation;
vehicle position;
17.
Integrating sporadic imitation in Reinforcement Learning robots
机译:
将零散模仿整合到强化学习机器人中
作者:
Richert W.
;
Scheller U.
;
Koch M.
;
Kleinjohann B.
;
Stern C.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
learning (artificial intelligence);
multi-robot systems;
SMDP context;
multi-robot scenario;
reinforcement learning robots;
sporadic imitation;
18.
Bounds of optimal learning
机译:
最佳学习的界限
作者:
Belavkin R.V.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
gradient methods;
learning systems;
statistical analysis;
Orlicz spaces;
gradient theorem;
information theory;
nonparametric information geometry;
online learning systems;
optimal learning trajectories;
statistical manifold;
19.
A convergent recursive least squares approximate policy iteration algorithm for multi-dimensional Markov decision process with continuous state and action spaces
机译:
具有连续状态和动作空间的多维马尔可夫决策过程的收敛递归最小二乘近似策略迭代算法
作者:
Jun Ma
;
Powell W.B.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
Markov processes;
approximation theory;
convergence of numerical methods;
decision theory;
iterative methods;
least squares approximations;
action space;
approximate policy value function;
continuous state space;
convergent recursive least square approximate policy iteration algorithm;
mean absolute deviation;
multidimensional Markov decision process;
optimal value function;
20.
Online policy iteration based algorithms to solve the continuous-time infinite horizon optimal control problem
机译:
基于在线策略迭代的算法来解决连续时间无限期最优控制问题
作者:
Vamvoudakis K.
;
Vrabie D.
;
Lewis F.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
continuous time systems;
infinite horizon;
neurocontrollers;
optimal control;
stability;
actor-critic structure;
continuous-time infinite horizon optimal control problem;
critic neural networks;
infinite horizon quadratic cost;
nonlinear systems;
online learning algorithm;
online policy iteration based algorithms;
21.
Feature discovery in approximate dynamic programming
机译:
近似动态编程中的特征发现
作者:
Preux P.
;
Girgin S.
;
Loth M.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
dynamic programming;
function approximation;
learning (artificial intelligence);
mathematics computing;
approximate dynamic programming;
data representation;
feature discovery;
machine learning;
reinforcement learning;
value function approximation;
22.
ADHDP(λ) strategies based coordinated ramps metering with queuing consideration
机译:
考虑排队考虑的基于ADHDP(λ)策略的协调斜坡计量
作者:
Xuerui Bai
;
Dongbin Zhao
;
Jianqiang Yi
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
dynamic programming;
queueing theory;
road traffic;
traffic control;
ADHDP strategies;
action-dependent heuristic dynamic programming;
local ramp metering problem;
queuing consideration;
traffic density;
traffic management strategy;
23.
Coupling perception and action using minimax optimal control
机译:
使用minimax最佳控制耦合感知和动作
作者:
Erez T.
;
Smart W.D.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
dynamic programming;
feedback;
minimax techniques;
optimal control;
state estimation;
uncertain systems;
coupling perception;
dimensionality curse;
feedback control;
minimax differential dynamic programming;
minimax optimal control;
partially-observable system;
state dynamics;
state uncertainty;
state-estimation filter;
24.
Inferring bounds on the performance of a control policy from a sample of trajectories
机译:
从轨迹样本推断控制策略的执行范围
作者:
Fonteneau R.
;
Murphy S.
;
Wehenkel L.
;
Ernst D.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
continuous systems;
optimal control;
optimisation;
polynomials;
Lipschitz continuous;
control policy;
optimization horizon;
polynomial algorithm;
reward function;
trajectories sample;
25.
Executing concurrent actions with multiple Markov decision processes
机译:
使用多个马尔可夫决策过程执行并发动作
作者:
Corona-Xelhuantzi E.
;
Morales E.F.
;
Sucar E.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
Markov processes;
path planning;
robots;
behavior conflicts;
concurrent actions;
functional decomposition;
message delivery task;
multiple Markov decision processes;
resource conflicts;
robot navigation;
Markov Decision Processes;
Service Robots;
26.
The knowledge gradient algorithm for online subset selection
机译:
在线子集选择的知识梯度算法
作者:
Ryzhov I.O.
;
Powell W.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
learning (artificial intelligence);
mathematical analysis;
knowledge gradient algorithm;
multiarmed bandit problem;
one-period look-ahead policy;
online learning policies;
online subset selection;
online subset selection problems;
27.
Multiagent reinforcement learning in extensive form games with complete information
机译:
在具有完整信息的广泛形式游戏中进行多主体强化学习
作者:
Akramizadeh A.
;
Menhaj M.B.
;
Afshar A.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
game theory;
learning (artificial intelligence);
mathematics computing;
multi-agent systems;
Q-learning;
associative Q-values;
multiagent reinforcement learning;
normal form games;
restrictive hierarchical form games;
subgame perfect equilibrium;
backward induction;
exploration strategies;
extensive form game;
28.
Practical numerical methods for stochastic optimal control of biological systems in continuous time and space
机译:
连续时间和空间随机最优控制生物系统的实用数值方法
作者:
Simpkins A.
;
Todorov E.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
biological techniques;
continuous time systems;
function approximation;
learning systems;
nonlinear control systems;
optimal control;
stochastic systems;
biological system;
continuous time-space;
cost functional;
nonlinear stochastic system;
numerical method;
stochastic optimal control;
unobservable parameter learning;
29.
Using reward-weighted imitation for robot Reinforcement Learning
机译:
使用奖励加权模仿进行机器人强化学习
作者:
Peters J.
;
Kober J.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
learning (artificial intelligence);
robots;
anthropomorphic robotics;
learning task-space control;
motor primitive learning;
reward-weighted imitation;
robot reinforcement learning;
30.
Planning under uncertainty, ensembles of disturbance trees and kernelized discrete action spaces
机译:
在不确定性下进行规划,扰动树的集合和核化的离散动作空间
作者:
Defourny B.
;
Ernst D.
;
Wehenkel L.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
decision making;
optimisation;
trees (mathematics);
Kernelized discrete action spaces;
disturbance trees ensembles;
incomplete disturbance trees;
kernel-based aggregation scheme;
large continuous action spaces;
model-based planning;
sensor network;
31.
Eigenfunction approximation methods for linearly-solvable optimal control problems
机译:
线性可解最优控制问题的特征函数逼近方法
作者:
Todorov E.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
convergence;
eigenvalues and eigenfunctions;
elliptic equations;
function approximation;
iterative methods;
minimisation;
multidimensional systems;
nonlinear control systems;
optimal control;
partial differential equations;
stochastic systems;
Levenberg-Marquardt minimization;
eigenfunction approximation methods;
finite-dimensional eigenvector problem;
function approximation methods;
general elliptic PDE;
guaranteed convergence;
linearly-solvable optimal control problems;
nonlinear stochastic optimal control prob;
32.
Neuro-controller of cement rotary kiln temperature with adaptive critic designs
机译:
自适应批评家设计的水泥回转窑温度神经控制器
作者:
Xiaofeng Lin
;
Tangbo Liu
;
Shaojian Song
;
Chunning Song
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
cements (building materials);
dynamic programming;
kilns;
neurocontrollers;
nonlinear control systems;
optimal control;
thermodynamics;
ADHDP neurocontroller;
action-dependant heuristic dynamic programming;
adaptive critic designs;
artificial neural networks;
cement clinker;
cement rotary kiln temperature;
control theory;
engineering thermodynamics;
fault tolerance;
nonlinear optimal neurocontroller;
production process;
action-dependant heuristic dynamic programming (ADHDP);
artificial neural network;
cement rotary;
33.
Author index
机译:
作者索引
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
34.
Learning continuous-action control policies
机译:
学习持续控制策略
作者:
Pazis J.
;
Lagoudakis M.G.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
continuous systems;
discrete systems;
iterative methods;
learning (artificial intelligence);
least squares approximations;
stochastic systems;
Q-learning;
adaptive action modification;
bicycle balancing;
bicycle riding;
coarse discretization;
computationally-efficient method;
continuous action variables;
continuous state spaces;
continuous state-action inverted pendulum;
continuous-action control policies;
data-efficient methods;
discrete action space;
discrete-action reinforcement learning algorithm;
fitted Q-ite;
35.
Algorithm and stability of ATC receding horizon control
机译:
ATC后退水平控制的算法和稳定性
作者:
Hongwei Zhang
;
Jie Huang
;
Lewis F.L.
会议名称:
《》
|
2009年
关键词:
closed loop systems;
dynamic programming;
open loop systems;
optimal control;
predictive control;
stability;
state feedback;
adaptive terminal cost;
closed-loop stability;
finite horizon open-loop optimal control problem;
heuristic dynamic programming;
infinite horizon optimal control problem;
model predictive control;
receding horizon control;
state feedback control law;
Adaptive terminal cost receding horizon control;
36.
Real-time motor control using recurrent neural networks
机译:
使用递归神经网络的实时电机控制
作者:
Dongsung Huh
;
Todorov E.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
conjugate gradient methods;
maximum principle;
neurocontrollers;
optimisation;
recurrent neural nets;
sampling methods;
sensory aids;
Pontryagin maximum principle;
conjugate gradient descent method;
maximum optimization;
neural network training methods;
real-time motor control;
recurrent neural networks;
sensory-motor neuroscience;
step response sampling method;
stochastic optimal control;
attractor dynamics;
network (RNN);
risk sensitive control;
step response;
37.
Efficient data reuse in value function approximation
机译:
值函数近似中的有效数据重用
作者:
Hachiya H.
;
Akiyama T.
;
Sugiyama M.
;
Peters J.
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
function approximation;
learning (artificial intelligence);
sampling methods;
adaptive importance sampling technique;
cross-validation variant;
data reuse;
data-sampling policy;
off-policy reinforcement learning;
target policy;
trade-off parameter;
value function approximation;
value function estimator;
38.
Constrained optimal control of affine nonlinear discrete-time systems using GHJB method
机译:
基于GHJB方法的仿射非线性离散系统的约束最优控制
作者:
Lili Cui
;
Huaguang Zhang
;
Derong Liu
;
Yongsu Kim
会议名称:
《Adaptive Dynamic Programming and Reinforcement Learning, 2009. ADPRL '09》
|
2009年
关键词:
discrete time systems;
infinite horizon;
iterative methods;
neurocontrollers;
nonlinear control systems;
optimal control;
actuator saturation;
affine nonlinear discrete-time systems;
constrained Generalized Hamilton-Jacobi-Bellman equation;
constrained optimal control;
infinite-horizon optimal control problem;
iterative algorithm;
neural network;
nonquadratic functional;
意见反馈
回到顶部
回到首页