diverge,机器学习理论发展到了什么程度?

deep learning那些老套就不说了cnn rnn还算了解一些也是reduce成了很多graphical model来理解diverge。主要说reinforcement learning,这东西也是老概念,最早出名的就是88年的sutton的td了。使用bootstrap可以大幅增加学习速度,但是结果就是很不稳定,毕竟是用estimation做update target。最近最有名的无非就是bootstrap套上deep learning那套了,那套支持一塌糊涂,基本靠emperical intuition来强行控制target的variance。其实也有一些method是有很好的理论支持的,各种idea都有,有改改gradient让他去适应error,有把非线性的reduce到线性 on policy的。但是他们也有他们自己的问题。所以从理论的角度,现在的情况就是,现在都在用的method你可以prove他diverge,不diverge的没什么人用。可以说整个rl领域还是非常emperical。一直到现在分析他们还用的老的那套stochastic approx的theory。

diverge,机器学习理论发展到了什么程度?

版权声明:本站部分文章来源互联网,主要目的在于分享信息,版权归原作者所有,本站不拥有所有权,不承担相关法律责任,如有侵权请联系我们,本站将立刻删除。
(0)
上一篇 2022年5月25日 上午6:02
下一篇 2022年5月25日 上午6:02

相关推荐