Difference between revisions of "Proximal Policy Optimization (PPO)"

From

Jump to: navigation, search

Revision as of 16:25, 16 April 2023

YouTube ... Quora ...Google search ...Google News ...Bing News

Policy ... Policy vs Plan ... Constitutional AI ... Trust Region Policy Optimization (TRPO) ... Policy Gradient (PG) ... Proximal Policy Optimization (PPO)
Proximal policy optimization algorithms | J. Schulman, F. Wolski, P. Dhariwal, A. Radford & O. Klimov 2017
Deep Reinforcement Learning (DRL)
Reinforcement Learning (RL):
- Monte Carlo (MC) Method - Model Free Reinforcement Learning
- Markov Decision Process (MDP)
- Q Learning
- State-Action-Reward-State-Action (SARSA)
- Deep Reinforcement Learning (DRL) DeepRL
- Distributed Deep Reinforcement Learning (DDRL)
- Deep Q Network (DQN)
- Evolutionary Computation / Genetic Algorithms
- Actor Critic
- Hierarchical Reinforcement Learning (HRL)
Generative AI ... Conversational AI ... OpenAI's ChatGPT ... Perplexity ... Microsoft's Bing ... You ...Google's Bard ... Baidu's Ernie
Assistants ... Hybrid Assistants ... Agents ... Negotiation ... HuggingGPT ... LangChain
Natural Language Processing (NLP) ...Generation ...LLM ...Tools & Services

Retrieved from "https://primo.ai/index.php?title=Proximal_Policy_Optimization_(PPO)&oldid=25681"