对策略步骤加减值成了就加不成就减，最后找到期望的最优。这和我说的有啥矛盾的？

对策略步骤加减值成了就加不成就减，最后找到期望的最优。这和我说的有啥矛盾的？

所有跟贴·加跟贴·新语丝读书论坛

送交者: bluesea 于 2016-03-14, 15:00:17:

回答: 你知道什么叫Reinforcement Learning吗？由 tony123 于 2016-03-14, 14:46:38: