Artikel,

COPR: Continual Human Preference Learning via Optimal Policy Regularization.

H. Zhang, L. Gui, Y. Lei, Y. Zhai, Y. Zhang, Y. He, H. Wang, Y. Yu, K. Wong, B. Liang, und R. Xu.
CoRR, (2024)

Metadaten

BibTeX-Schlüssel: journals/corr/abs-2402-14228
Eintragstyp: article
Jahr: 2024
Zeitschrift: CoRR
Band: abs/2402.14228
ee: https://doi.org/10.48550/arXiv.2402.14228
URL: http://dblp.uni-trier.de/db/journals/corr/corr2402.html#abs-2402-14228

Tags

dblp

Nutzer

Kommentare und Rezensionenanzeigen / verbergen

Bitte melden Sie sich an um selbst Rezensionen oder Kommentare zu erstellen.

Zitieren Sie diese Publikation

Suchen auf