From post

копировать удалить добавить публикацию в буфер
Запись сообщества
посмотреть историю данной записи
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

Preconditioned temporal difference learning.

H. Yao, и Z. Liu. ICML, том 307 из ACM International Conference Proceeding Series, стр. 1208-1215. ACM, (2008)

Please choose a person to relate this publication to

To differ between persons with the same name, the academic degree and the title of an important publication will be displayed.

Yao Yao

Hongmei Yao

Haimin Yao

Yefeng Yao

Ning Yao

Другие публикации лиц с тем же именем

The Sufficiency of Off-Policyness and Soft Clipping: PPO Is Still Insufficient according to an Off-Policy Measure.X. Chen, D. Diao, H. Chen, H. Yao, H. Piao, Z. Sun, Z. Yang, R. Goebel, B. Jiang, и Y. Chang. AAAI, стр. 7078-7086. AAAI Press, (2023)Reinforcing Classical Planning for Adversary Driving Scenarios.N. Sakib, H. Yao, и H. Zhang. CoRR, (2019)Universal Option Models.H. Yao, C. Szepesvári, R. Sutton, J. Modayil, и S. Bhatnagar. NIPS, стр. 990-998. (2014)Pseudo-MDPs and factored linear action models.H. Yao, C. Szepesvári, B. Pires, и X. Zhang. ADPRL, стр. 1-9. IEEE, (2014)Understanding and mitigating the limitations of prioritized experience replay.Y. Pan, J. Mei, A. massoud Farahmand, M. White, H. Yao, M. Rohani, и J. Luo. UAI, том 180 из Proceedings of Machine Learning Research, стр. 1561-1571. PMLR, (2022)Multi-Step Dyna Planning for Policy Evaluation and Control.H. Yao, R. Sutton, S. Bhatnagar, D. Dongcui, и C. Szepesvári. NIPS, стр. 2187-2195. Curran Associates, Inc., (2009)Provably Convergent Two-Timescale Off-Policy Actor-Critic with Function Approximation.S. Zhang, B. Liu, H. Yao, и S. Whiteson. ICML, том 119 из Proceedings of Machine Learning Research, стр. 11204-11213. PMLR, (2020)Breaking the Deadly Triad with a Target Network.S. Zhang, H. Yao, и S. Whiteson. ICML, том 139 из Proceedings of Machine Learning Research, стр. 12621-12631. PMLR, (2021)Minimal Residual Approaches for Policy Evaluation in Large Sparse Markov Chains.H. Yao, и Z. Liu. ISAIM, (2008)Weakly Supervised Few-shot Object Segmentation using Co-Attention with Visual and Semantic Embeddings.M. Siam, N. Doraiswamy, B. Oreshkin, H. Yao, и M. Jägersand. IJCAI, стр. 860-867. ijcai.org, (2020)Scheduled for July 2020, Yokohama, Japan, postponed due to the Corona pandemic..

BibSonomy

Disambiguation

копировать удалить добавить публикацию в буфер
Запись сообщества
посмотреть историю данной записи
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

Preconditioned temporal difference learning.

Please choose a person to relate this publication to

Yao Yao

Hongmei Yao

Haimin Yao

Yefeng Yao

Ning Yao

Другие публикации лиц с тем же именем

Disambiguation

BibSonomy

Disambiguation

копироватьудалитьдобавить публикацию в буферЗапись сообществапосмотреть историю данной записиURLDOIBibTeXEndNoteAPAChicagoDIN 1505HarvardMSOffice XML Preconditioned temporal difference learning.

Please choose a person to relate this publication to

Yao Yao

Hongmei Yao

Haimin Yao

Yefeng Yao

Ning Yao

Другие публикации лиц с тем же именем

Disambiguation

копировать удалить добавить публикацию в буфер
Запись сообщества
посмотреть историю данной записи
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

Preconditioned temporal difference learning.