“我这辈子是打败不了AI了”

回复1

  • 靠学习策略,采用深度强化学习,结合了深度学习的感知能力和强化学习的决策能力,通过训练的模型或者在线实时训练的模型不停的根据当前的state采用一定的策略去选择action,然后根据反馈的reward不停地更新参数,从而使得自己的选择越来越趋于最优解,当然,目前还有很多问题它无法解决,或者说得出的结果还比不上一些传统的启发式算法,最最重要的是这是一个黑盒模型,中间的神经网络到底是怎么训练的,目前人类还不知道,所以很多人对AI算法和模型持否定态度。
返回文章

站务

全部专栏