输入要查询的单词:
Least squares policy iteration
网络释义
最小二乘策略迭代
... 高当前策略的性能,并收敛到最优策略,这一特性 是策略迭代法的主要优点.最小二乘策略迭代(least squares policy iteration,LSPI)是一类典型的近似策 略迭代方法.它结合了时间差分学习、最小二乘方 法和Q 学习,能够在模型未知的情况...
正在查询...
{error}
你是不是想查找:
- {typos}
{word}
{phones} {trans} {trans_ee} {exam_types}{web_trans} {variants} {phrases} {synonyms} {rels} {discriminations} 查词链接:
{link}
复制链接{phones}
{text}:[{value}]
{trans}
{trans}
{pos}
{tran}
{tran}
查看英英释义
{trans}
{pos}
{list} {tran}
{words}{word}同义词: {words}
{pos}
{words}
{exam_types}
单词变体
- {variants}
常用短语
- {phrases}
网络释义
{web_trans}
{tran}
{detail}
近义词
{synonyms}
{pos} {tran}
{words}
同根词
{rels}
{pos}
{words}
{word}{tran}
词语辨析
{discriminations}
{num}、{title}
{description}- {usages}
{description}