Difference between revisions of "Policy Gradient (PG)"

Revision as of 16:23, 16 April 2023

@@ Line 8: / Line 8: @@
 [http://www.google.com/search?q=Deep+Deterministic+Policy+Gradient+DDPG+machine+learning+ML+artificial+intelligence ...Google search]
-* [[Policy vs Plan]]
+* [[Policy]]   ... [[Policy vs Plan]] ... [[Constitutional AI]] ... [[Trust Region Policy Optimization (TRPO)]] ... [[Policy Gradient (PG)]] ... [[Proximal Policy Optimization (PPO)]]
-* [[Trust Region Policy Optimization (TRPO)]]
-* [[Proximal Policy Optimization (PPO)]]
 * [[Reinforcement Learning (RL)]]
 * [[Gradient Descent Optimization & Challenges]]
-* [[Policy]]
 * [[Assistants]] ... [[Hybrid Assistants]]  ... [[Agents]]  ... [[Negotiation]] ... [[Hugging_Face#HuggingGPT|HuggingGPT]] ... [[LangChain]]
 * [[Generative AI]]  ... [[Conversational AI]] ... [[OpenAI]]'s [[ChatGPT]] ... [[Perplexity]]  ... [[Microsoft]]'s [[Bing]] ... [[You]] ...[[Google]]'s [[Bard]] ... [[Baidu]]'s [[Ernie]]