17、不需要建模环境,等待真实反馈再进行接下来的动作,这是哪种强化学习算法

A.Model-free方法 B.Model-based 方法 C.Policy-based 方法 D.Value-based 方法

时间:2024-04-26 09:46:23

相似题目