Difference between revisions of "Large Language Model (LLM)"

Revision as of 09:06, 25 February 2023

YouTube search... ...Google search

Models:
- Alpa ... serving large models like GPT-3 simple, affordable, accessible
- Bidirectional Encoder Representations from Transformers (BERT)
- BioGPT ... Microsoft language model trained for biomedical tasks
- BLOOM ... Big Science Language Open-science Open-access Multilingual ... 176B
- Cedille ... open-source French language model
- ChatGPT | OpenAI
  - ChatGPT is everywhere. Here’s where it came from | Will Douglas Heaven - MIT Technology Review
    - Transformer / Attention Mechanism
    - Generative Pre-trained Transformer (GPT)
    - Reinforcement Learning (RL) from Human Feedback (RLHF)
    - Supervised Learning
    - Proximal Policy Optimization (PPO)
- Chinchilla | DeepMind 70B parameters
- ctrl ... a Conditional Transformer Language Model for Controllable Generation | Salesforce
- Codex | OpenAI ... translates natural language into code
- Dataflow-as-a-Service | SambaNova
- DialogGPT ...Microsoft Releases DialogGPT AI Conversation Model | Anthony Alford - InfoQ - trained on over 147M dialogs
- GLM-130B ... Open Bilingual Pre-Trained Model
- Gopher | DeepMind
- GLaM | Google
- GShard | Google ... Scaling Giant Models with Conditional Computation and Automatic Sharding
- GPT-2 | OpenAI ... Generative Pre-trained Transformer 2 by OpenAI
- GPT-Neo ... Open-source GPT-3 by EleutherAI
- InstructGPT ... OpenAI 1.3B InstructGPT model over outputs from a 175B GPT-3 model
- Jurassic-1 Language Model ... huge 178B language model to rival OpenAI's GPT-3]
- LaMDA | Google ... experimental language model
- LLaMA ... Large Language Model Meta AI, 13B and 65B parameter versions
- Macaw | AI2
- Med-PaLM ... aligned to the medical domain
- minGPT | Andrej Karpathy - GitHub
- Megatron NLG ... Monolithic Transformer Language NLP Model Triple the Size of OpenAI’s GPT-3
- Muse ... VLM-4, a set of natively trained large Language Models in French, Italian, Spanish, German, and English
- nanoGPT ... for training/finetuning medium-sized GPTs
- OpenGPT-X ... model for Europe
- OPT-175B...Facebook-owner Meta opens access to AI large language model | Elizabeth Culliford - Reuters ... Facebook 175-billion-parameter language model - Open Pretrained Transformer ... BlenderBot
- Palmyra | Hugging Face ... a privacy-first LLM for enterprises
- Pathways Language Model (PaLM) 540B parameters
- PLATO-XL | Baidu ... 11B parameter chatbot
- RETRO | DeepMind
- Switch Transformers | Google Brain ... trillion parameters
- Textless NLP ... Generating expressive speech from raw audio
- T0pp | Hugging Face
- Toolformer | Meta ... models can teach themselves to use tools and APIs
- Turing-NLG | Microsoft
- UnifiedQA ... single QA system
- WebGPT ... GPT-3 version that can search the web
- Wu Dao 1.0 (Enlightment 1.0) ... China’s first homegrown super-scale intelligent model
- YaLM 100B ... Yandex YaLM 100B parameters
- Yuan 1.0 | Inspur ... 245B parameters
OpenAI Blog | OpenAI
Attention Mechanism/Transformer Model
Generative Pre-trained Transformer (GPT)
SambaNova Systems ... Dataflow-as-a-Service GPT

@@ Line 21: / Line 21: @@
 **** [[Supervised]] Learning
 **** [[Proximal Policy Optimization (PPO)]]
-** [https://www.deepmind.com/publications/an-empirical-analysis-of-compute-optimal-large-language-model-training Chinchilla |] [[Google | DeepMind]]
+** [https://www.deepmind.com/publications/an-empirical-analysis-of-compute-optimal-large-language-model-training Chinchilla |] [[Google | DeepMind]]   70B parameters
 ** [https://arxiv.org/abs/2203.15556 ctrl] ... a Conditional Transformer Language Model for Controllable Generation | Salesforce
 ** [https://openai.com/ Codex |] [[OpenAI]] ... translates natural language into code
@@ Line 35: / Line 35: @@
 ** [https://uploads-ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf  Jurassic-1 Language Model] ... huge 178B language model to rival [[OpenAI]]'s GPT-3]
 ** [https://www.blog.google/technology/ai/lamda/ LaMDA |] [[Google]]  ... experimental language model
-** [https://www.reuters.com/technology/meta-launch-ai-language-model-llama-2023-02-24/ LLaMA] ... Large Language Model [[Meta]] AI
+** [https://www.reuters.com/technology/meta-launch-ai-language-model-llama-2023-02-24/ LLaMA] ... Large Language Model [[Meta]] AI, 13B and 65B parameter versions
 ** [https://github.com/allenai/macaw Macaw | AI2]
 ** [https://arxiv.org/pdf/2212.13138.pdf Med-PaLM]  ... aligned to the medical domain
@@ Line 43: / Line 43: @@
 ** [https://github.com/karpathy/nanoGPT nanoGPT] ... for training/finetuning medium-sized GPTs
 ** [https://idw-online.de/en/news786967 OpenGPT-X]  ... model for Europe
-** [https://www.reuters.com/technology/facebook-owner-meta-opens-access-ai-large-language-model-2022-05-03/ OPT-175B]...[[Meta|Facebook]]-owner Meta opens access to AI large language model | Elizabeth Culliford - Reuters ... [[Meta|Facebook]] 175-billion-parameter language model - Open Pretrained Transformer
+** [https://www.reuters.com/technology/facebook-owner-meta-opens-access-ai-large-language-model-2022-05-03/ OPT-175B]...[[Meta|Facebook]]-owner Meta opens access to AI large language model | Elizabeth Culliford - Reuters ... [[Meta|Facebook]] 175-billion-parameter language model - Open Pretrained Transformer  ... BlenderBot
 ** [https://huggingface.co/Writer/palmyra-base  Palmyra |] [[Hugging Face]] ... a privacy-first LLM for enterprises
-** [https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html Pathways Language Model (PaLM)]  ...scaling to 540 Billion Parameters
+** [https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html Pathways Language Model (PaLM)]   540B parameters
-** [http://research.baidu.com/Blog/index-view?id=163 PLATO-XL | Baidu]  ... 11B Parameter Chatbot
+** [http://research.baidu.com/Blog/index-view?id=163 PLATO-XL | Baidu]  ... 11B parameter chatbot
 ** [https://www.deepmind.com/publications/improving-language-models-by-retrieving-from-trillions-of-tokens RETRO |] [[Google | DeepMind]]
 ** [https://arxiv.org/abs/2101.03961 Switch Transformers |] [[Google]] Brain  ... trillion parameters

Difference between revisions of "Large Language Model (LLM)"

Revision as of 09:06, 25 February 2023

Navigation menu

Personal tools

Namespaces

Variants

Views

More

Search

Navigation

Tools