Autor der Publikation

Kopieren Löschen Diese Publikation zur Ablage hinzufügen
Community-Eintrag
Versionsverlauf dieses Eintrags
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

COPR: Continual Human Preference Learning via Optimal Policy Regularization.

H. Zhang, L. Gui, Y. Lei, Y. Zhai, Y. Zhang, Y. He, H. Wang, Y. Yu, K. Wong, B. Liang, und R. Xu. CoRR, (2024)

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Um zwischen Personen mit demselben Namen zu unterscheiden, wird der akademische Grad und der Titel einer wichtigen Publikation angezeigt. Zudem lassen sich über den Button neben dem Namen einige der Person bereits zugeordnete Publikationen anzeigen.

Ke Zhai

Hongchen Zhai

Can Zhai

Wei Zhai

Junnai Zhai

Weitere Publikationen von Autoren mit dem selben Namen

Pseudo Reward and Action Importance Classification for Sparse Reward Problem.Q. Wu, D. Feng, Y. Zhai, B. Ding, und J. Luo. ICMLC, Seite 51-58. ACM, (2022)Progressive Diversifying Policy for Multi-Agent Reinforcement Learning.S. Sun, Y. Zhai, K. Xu, D. Feng, und B. Ding. ICASSP, Seite 1-5. IEEE, (2023)Iterative Regularized Policy Optimization with Imperfect Demonstrations.X. Gong, D. Feng, K. Xu, Y. Zhai, C. Yao, W. Wang, B. Ding, und H. Wang. ICML, OpenReview.net, (2024)Diversifying Message Aggregation in Multi-Agent Communication via Normalized Tensor Nuclear Norm Regularization.Y. Zhai, K. Xu, B. Ding, D. Feng, Z. Gao, und H. Wang. CoRR, (2022)Optimistic Model Rollouts for Pessimistic Offline Policy Optimization.Y. Zhai, Y. Li, Z. Gao, X. Gong, K. Xu, D. Feng, B. Ding, und H. Wang. AAAI, Seite 16678-16686. AAAI Press, (2024)Online Self-Preferring Language Models.Y. Zhai, Z. Zhang, K. Xu, H. Peng, Y. Yu, D. Feng, C. Yang, B. Ding, und H. Wang. CoRR, (2024)Accelerating Robot Reinforcement Learning with Samples of Different Simulation Precision.Y. Zhao, Y. Zhai, J. Luo, D. Feng, B. Ding, und Z. Li. HPCC/DSS/SmartCity/DependSys, Seite 423-430. IEEE, (2021)COPF: Continual Learning Human Preference through Optimal Policy Fitting.H. Zhang, L. Gui, Y. Zhai, H. Wang, Y. Lei, und R. Xu. CoRR, (2023)Exploring Policy Diversity in Parallel Actor-Critic Learning.Y. Zhang, Y. Zhai, G. Zhou, B. Ding, D. Feng, und S. Liu. ICTAI, Seite 1196-1203. IEEE, (2022)Self-Supervised Exploration via Temporal Inconsistency in Reinforcement Learning.Z. Gao, K. Xu, H. Cai, Y. Zhai, D. Feng, B. Ding, X. Mao, und H. Wang. CoRR, (2022)

BibSonomy

Disambiguierung von "Zhai, Yuanzhao"

Kopieren Löschen Diese Publikation zur Ablage hinzufügen
Community-Eintrag
Versionsverlauf dieses Eintrags
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

COPR: Continual Human Preference Learning via Optimal Policy Regularization.

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Ke Zhai

Hongchen Zhai

Can Zhai

Wei Zhai

Junnai Zhai

Weitere Publikationen von Autoren mit dem selben Namen

Disambiguierung

BibSonomy

Disambiguierung von "Zhai, Yuanzhao"

KopierenLöschenDiese Publikation zur Ablage hinzufügenCommunity-EintragVersionsverlauf dieses EintragsURLDOIBibTeXEndNoteAPAChicagoDIN 1505HarvardMSOffice XML COPR: Continual Human Preference Learning via Optimal Policy Regularization.

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Ke Zhai

Hongchen Zhai

Can Zhai

Wei Zhai

Junnai Zhai

Weitere Publikationen von Autoren mit dem selben Namen

Disambiguierung

Kopieren Löschen Diese Publikation zur Ablage hinzufügen
Community-Eintrag
Versionsverlauf dieses Eintrags
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

COPR: Continual Human Preference Learning via Optimal Policy Regularization.