Difference between revisions of "Policy"

@@ Line 12: / Line 12: @@
-* [https://arxiv.org/abs/1707.06347 Proximal policy optimization algorithms | J. Schulman, F. Wolski, P. Dhariwal, A. Radford & O. Klimov  2017]
 * [[Generative AI]]  ... [[OpenAI]]'s [[ChatGPT]] ... [[Perplexity]]  ... [[Microsoft]]'s [[BingAI]] ... [[You]] ...[[Google]]'s [[Bard]] ... [[Baidu]]'s [[Ernie]]
-* [[Deep Reinforcement Learning (DRL)]]
+* [[Policy vs Plan]]
 * [[Policy Gradient (PG)]]
-* [[Reinforcement Learning (RL)]]:
+* [[Trust Region Policy Optimization (TRPO)]]
-** [[Monte Carlo]] (MC) Method - Model Free Reinforcement Learning
+* [[Proximal Policy Optimization (PPO)]]
-** [[Markov Decision Process (MDP)]]
+* [[Privacy]] ... [[Privacy policy]]
-** [[Q Learning]]
+* [[Apprenticeship Learning - Inverse Reinforcement Learning (IRL)]]
-** [[State-Action-Reward-State-Action (SARSA)]]
+* [[Government Services]]
-** [[Deep Reinforcement Learning (DRL)]] DeepRL
+* [[Gaming]]
-** [[Distributed Deep Reinforcement Learning (DDRL)]]
-** [[Deep Q Network (DQN)]]
-** [[Evolutionary Computation / Genetic Algorithms]]
-** [[Actor Critic]]
-*** [[Advanced Actor Critic (A2C)]]
-*** [[Asynchronous Advantage Actor Critic (A3C)]]
-*** [[Lifelong Latent Actor-Critic (LILAC)]]
-** [[Hierarchical Reinforcement Learning (HRL)]]
-* [[Assistants]] ... [[Hybrid Assistants]]  ... [[Agents]]  ... [[Negotiation]] ... [[LangChain]]
-* [[Natural Language Processing (NLP)]]  ...[[Natural Language Generation (NLG)|Generation]]  ...[[Large Language Model (LLM)|LLM]]  ...[[Natural Language Tools & Services|Tools & Services]]
 <youtube>PO8-fegV4X0</youtube>

Difference between revisions of "Policy"

Revision as of 11:43, 26 March 2023

Navigation menu

Personal tools

Namespaces

Variants

Views

More

Search

Navigation

Tools