,

Policy Evaluation for Reinforcement Learning from Human Feedback: A Sample Complexity Analysis.

, , , и .
AISTATS, том 238 из Proceedings of Machine Learning Research, стр. 2737-2745. PMLR, (2024)

Метаданные

тэги

Пользователи данного ресурса

  • @dblp

Комментарии и рецензии