Difference between revisions of "Proximal Policy Optimization (PPO)"

Revision as of 09:16, 26 February 2023

@@ Line 8: / Line 8: @@
 [http://www.google.com/search?q=Proximal+Policy+Optimization+PPO+machine+learning+ML+artificial+intelligence ...Google search]
+* [https://arxiv.org/abs/1707.06347 Proximal policy optimization algorithms | J. Schulman, F. Wolski, P. Dhariwal, A. Radford & O. Klimov  2017]
 * [[Deep Reinforcement Learning (DRL)]]
 * [[Policy Gradient (PG)]]
@@ Line 25: / Line 26: @@
 ** [[Hierarchical Reinforcement Learning (HRL)]]
 * [[Assistants]] ... [[Hybrid Assistants]]  ... [[Agents]]  ... [[Negotiation]]
+* [[Natural Language Processing (NLP)]]  ...[[Natural Language Generation (NLG)|Generation]]  ...[[Large Language Model (LLM)|LLM]]  ...[[Natural Language Tools & Services|Tools & Services]]
 * [https://www.technologyreview.com/2023/02/08/1068068/chatgpt-is-everywhere-heres-where-it-came-from/ ChatGPT is everywhere. Here’s where it came from | Will Douglas Heaven - MIT Technology Review]
 ** [[Sequence to Sequence (Seq2Seq)]]