Autor der Publikation

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Um zwischen Personen mit demselben Namen zu unterscheiden, wird der akademische Grad und der Titel einer wichtigen Publikation angezeigt. Zudem lassen sich über den Button neben dem Namen einige der Person bereits zugeordnete Publikationen anzeigen.

 

Weitere Publikationen von Autoren mit dem selben Namen

X-Armed Bandits, , , und . Journal of Machine Learning Research, (Juni 2011)Submitted on 21/1/2010.Tuning Bandit Algorithms in Stochastic Environments, , und . ALT, Seite 150--165. Springer, (2007)See audibert2009 for a longer, updated version.Learning near-optimal policies with Bellman-residual minimization based fitted policy iteration and a single sample path, , und . Machine Learning, 71 (1): 89--129 (April 2008)Published Online First: 14 Nov, 2007.Online Optimization in X-armed Bandits, , , und . NIPS, Seite 201--208. MIT Press, (2008)Finite Time Bounds for Fitted Value Iteration, und . JMLR, (2008)Fitted Q-iteration in Continuous Action-space MDPs, , und . NIPS, Seite 9--16. (2007)Value-iteration Based Fitted Policy Iteration: Learning with a Single Trajectory, , und . 2007 IEEE Symposium on Approximate Dynamic Programming and Reinforcement Learning (ADPRL 2007), Seite 330--337. IEEE, (2007)(Honolulu, Hawaii, Apr 1--5, 2007.).Finite Time Bounds for Sampling Based Fitted Value Iteration, und . ICML, Seite 881---886. (2005)Reinforcement Learning for Continuous Stochastic Control Problems, und . Advances in Neural Information Processing Systems - 10, Seite 1029--1035. MIT Press, (1998)Influence and Variance of a Markov Chain : Application to Adaptive Discretization in Optimal Control, und . Proceedings of the 38th IEEE Conference on Decision and Control (CDC-99), 2, Seite 1464 -- 1469. (Dezember 1999)