模型 | hidden_size | num_heads | size_per_head | max_seqlen | vocab_size | num_layers |
---|---|---|---|---|---|---|
bert | 768 | 12 | 64 | 512 | 30522 | 12/24 |
chatGLM-6B | 4096 | 32 | 128 | 2048 | 130528 | 28 |
chatGLM2-6B | 4096 | 32 | 128 | 32768 | 65024 | 28 |
LLAMA-7B | 4096 | 32 | 128 | 2048 | 32 | |
LLAMA-13B | 5120 | 40 | 128 | 40 | ||
LLAMA-33B | 6656 | 52 | 128 | 60 | ||
LLAMA-65B | 8192 | 64 | 128 | 80 | ||
GPT-3 175B | 12288 | 96 | 128 | 2048 |