Difference between revisions of "Proximal Policy Optimization (PPO)"

Revision as of 16:24, 16 April 2023

@@ Line 11: / Line 11: @@
 [https://www.bing.com/news/search?q=ai+Proximal+Policy+Optimization+PPO&qft=interval%3d%228%22 ...Bing News]
+* [[Policy]]   ... [[Policy vs Plan]] ... [[Constitutional AI]] ... [[Trust Region Policy Optimization (TRPO)]] ... [[Policy Gradient (PG)]] ... [[Proximal Policy Optimization (PPO)]]
 * [https://arxiv.org/abs/1707.06347 Proximal policy optimization algorithms | J. Schulman, F. Wolski, P. Dhariwal, A. Radford & O. Klimov  2017]
-* [[Generative AI]]  ... [[Conversational AI]] ... [[OpenAI]]'s [[ChatGPT]] ... [[Perplexity]]  ... [[Microsoft]]'s [[Bing]] ... [[You]] ...[[Google]]'s [[Bard]] ... [[Baidu]]'s [[Ernie]]
-* [[Policy]]
 * [[Deep Reinforcement Learning (DRL)]]
 * [[Policy Gradient (PG)]]
@@ Line 31: / Line 29: @@
 *** [[Lifelong Latent Actor-Critic (LILAC)]]
 ** [[Hierarchical Reinforcement Learning (HRL)]]
+* [[Generative AI]]  ... [[Conversational AI]] ... [[OpenAI]]'s [[ChatGPT]] ... [[Perplexity]]  ... [[Microsoft]]'s [[Bing]] ... [[You]] ...[[Google]]'s [[Bard]] ... [[Baidu]]'s [[Ernie]]
 * [[Assistants]] ... [[Hybrid Assistants]]  ... [[Agents]]  ... [[Negotiation]] ... [[Hugging_Face#HuggingGPT|HuggingGPT]] ... [[LangChain]]
 * [[Natural Language Processing (NLP)]]  ...[[Natural Language Generation (NLG)|Generation]]  ...[[Large Language Model (LLM)|LLM]]  ...[[Natural Language Tools & Services|Tools & Services]]