常见大模型参数统计

 
模型 hidden_size num_heads size_per_head max_seqlen vocab_size num_layers
bert 768 12 64 512 30522 12/24
chatGLM-6B 4096 32 128 2048 130528 28
chatGLM2-6B 4096 32 128 32768 65024 28
LLAMA-7B 4096 32 128 2048   32
LLAMA-13B 5120 40 128     40
LLAMA-33B 6656 52 128     60
LLAMA-65B 8192 64 128     80
GPT-3 175B 12288 96 128 2048