Proximal Policy Optimization (PPO)

From

Revision as of 07:33, 13 August 2023 by BPeat (talk | contribs)

(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Jump to: navigation, search

YouTube ... Quora ...Google search ...Google News ...Bing News

Policy ... Policy vs Plan ... Constitutional AI ... Trust Region Policy Optimization (TRPO) ... Policy Gradient (PG) ... Proximal Policy Optimization (PPO)
Proximal policy optimization algorithms | J. Schulman, F. Wolski, P. Dhariwal, A. Radford & O. Klimov 2017
Deep Reinforcement Learning (DRL)
Reinforcement Learning (RL):
- Monte Carlo (MC) Method - Model Free Reinforcement Learning
- Markov Decision Process (MDP)
- Q Learning
- State-Action-Reward-State-Action (SARSA)
- Deep Reinforcement Learning (DRL) DeepRL
- Distributed Deep Reinforcement Learning (DDRL)
- Deep Q Network (DQN)
- Symbiotic Intelligence ... Bio-inspired Computing ... Neuroscience ... Connecting Brains ... Nanobots ... Molecular ... Neuromorphic ... Evolutionary/Genetic
- Actor Critic
- Hierarchical Reinforcement Learning (HRL)
Generative AI ... Conversational AI ... ChatGPT | OpenAI ... Bing | Microsoft ... Bard | Google ... Claude | Anthropic ... Perplexity ... You ... Ernie | Baidu
Assistants ... Personal Companions ... Agents ... Negotiation ... LangChain
Large Language Model (LLM) ... Natural Language Processing (NLP) ...Generation ... Classification ... Understanding ... Translation ... Tools & Services

Proximal Policy Optimization with Imitation Learning (PPO-IL)

[[Imitation Learning}}

a Reinforcement Learning (RL) algorithm that can be used for Imitation Learning. PPO-IL learns a policy that is close to the expert's policy, while also ensuring that the policy is still able to learn from its own experience.

Retrieved from "https://primo.ai/index.php?title=Proximal_Policy_Optimization_(PPO)&oldid=32919"