854 lines
15 KiB
JSON
854 lines
15 KiB
JSON
|
{
|
||
|
"transformer": {
|
||
|
"h": {
|
||
|
"0": {
|
||
|
"attn": {
|
||
|
"attention": {
|
||
|
"k_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"out_proj": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"q_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"v_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
}
|
||
|
}
|
||
|
},
|
||
|
"ln_1": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"scale": [
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"ln_2": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"scale": [
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"mlp": {
|
||
|
"c_fc": {
|
||
|
"bias": [
|
||
|
3072
|
||
|
],
|
||
|
"kernel": [
|
||
|
768,
|
||
|
3072
|
||
|
]
|
||
|
},
|
||
|
"c_proj": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"kernel": [
|
||
|
3072,
|
||
|
768
|
||
|
]
|
||
|
}
|
||
|
}
|
||
|
},
|
||
|
"1": {
|
||
|
"attn": {
|
||
|
"attention": {
|
||
|
"k_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"out_proj": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"q_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"v_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
}
|
||
|
}
|
||
|
},
|
||
|
"ln_1": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"scale": [
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"ln_2": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"scale": [
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"mlp": {
|
||
|
"c_fc": {
|
||
|
"bias": [
|
||
|
3072
|
||
|
],
|
||
|
"kernel": [
|
||
|
768,
|
||
|
3072
|
||
|
]
|
||
|
},
|
||
|
"c_proj": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"kernel": [
|
||
|
3072,
|
||
|
768
|
||
|
]
|
||
|
}
|
||
|
}
|
||
|
},
|
||
|
"10": {
|
||
|
"attn": {
|
||
|
"attention": {
|
||
|
"k_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"out_proj": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"q_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"v_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
}
|
||
|
}
|
||
|
},
|
||
|
"ln_1": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"scale": [
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"ln_2": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"scale": [
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"mlp": {
|
||
|
"c_fc": {
|
||
|
"bias": [
|
||
|
3072
|
||
|
],
|
||
|
"kernel": [
|
||
|
768,
|
||
|
3072
|
||
|
]
|
||
|
},
|
||
|
"c_proj": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"kernel": [
|
||
|
3072,
|
||
|
768
|
||
|
]
|
||
|
}
|
||
|
}
|
||
|
},
|
||
|
"11": {
|
||
|
"attn": {
|
||
|
"attention": {
|
||
|
"k_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"out_proj": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"q_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"v_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
}
|
||
|
}
|
||
|
},
|
||
|
"ln_1": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"scale": [
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"ln_2": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"scale": [
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"mlp": {
|
||
|
"c_fc": {
|
||
|
"bias": [
|
||
|
3072
|
||
|
],
|
||
|
"kernel": [
|
||
|
768,
|
||
|
3072
|
||
|
]
|
||
|
},
|
||
|
"c_proj": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"kernel": [
|
||
|
3072,
|
||
|
768
|
||
|
]
|
||
|
}
|
||
|
}
|
||
|
},
|
||
|
"2": {
|
||
|
"attn": {
|
||
|
"attention": {
|
||
|
"k_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"out_proj": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"q_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"v_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
}
|
||
|
}
|
||
|
},
|
||
|
"ln_1": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"scale": [
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"ln_2": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"scale": [
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"mlp": {
|
||
|
"c_fc": {
|
||
|
"bias": [
|
||
|
3072
|
||
|
],
|
||
|
"kernel": [
|
||
|
768,
|
||
|
3072
|
||
|
]
|
||
|
},
|
||
|
"c_proj": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"kernel": [
|
||
|
3072,
|
||
|
768
|
||
|
]
|
||
|
}
|
||
|
}
|
||
|
},
|
||
|
"3": {
|
||
|
"attn": {
|
||
|
"attention": {
|
||
|
"k_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"out_proj": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"q_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"v_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
}
|
||
|
}
|
||
|
},
|
||
|
"ln_1": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"scale": [
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"ln_2": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"scale": [
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"mlp": {
|
||
|
"c_fc": {
|
||
|
"bias": [
|
||
|
3072
|
||
|
],
|
||
|
"kernel": [
|
||
|
768,
|
||
|
3072
|
||
|
]
|
||
|
},
|
||
|
"c_proj": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"kernel": [
|
||
|
3072,
|
||
|
768
|
||
|
]
|
||
|
}
|
||
|
}
|
||
|
},
|
||
|
"4": {
|
||
|
"attn": {
|
||
|
"attention": {
|
||
|
"k_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"out_proj": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"q_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"v_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
}
|
||
|
}
|
||
|
},
|
||
|
"ln_1": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"scale": [
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"ln_2": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"scale": [
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"mlp": {
|
||
|
"c_fc": {
|
||
|
"bias": [
|
||
|
3072
|
||
|
],
|
||
|
"kernel": [
|
||
|
768,
|
||
|
3072
|
||
|
]
|
||
|
},
|
||
|
"c_proj": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"kernel": [
|
||
|
3072,
|
||
|
768
|
||
|
]
|
||
|
}
|
||
|
}
|
||
|
},
|
||
|
"5": {
|
||
|
"attn": {
|
||
|
"attention": {
|
||
|
"k_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"out_proj": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"q_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"v_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
}
|
||
|
}
|
||
|
},
|
||
|
"ln_1": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"scale": [
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"ln_2": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"scale": [
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"mlp": {
|
||
|
"c_fc": {
|
||
|
"bias": [
|
||
|
3072
|
||
|
],
|
||
|
"kernel": [
|
||
|
768,
|
||
|
3072
|
||
|
]
|
||
|
},
|
||
|
"c_proj": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"kernel": [
|
||
|
3072,
|
||
|
768
|
||
|
]
|
||
|
}
|
||
|
}
|
||
|
},
|
||
|
"6": {
|
||
|
"attn": {
|
||
|
"attention": {
|
||
|
"k_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"out_proj": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"q_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"v_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
}
|
||
|
}
|
||
|
},
|
||
|
"ln_1": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"scale": [
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"ln_2": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"scale": [
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"mlp": {
|
||
|
"c_fc": {
|
||
|
"bias": [
|
||
|
3072
|
||
|
],
|
||
|
"kernel": [
|
||
|
768,
|
||
|
3072
|
||
|
]
|
||
|
},
|
||
|
"c_proj": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"kernel": [
|
||
|
3072,
|
||
|
768
|
||
|
]
|
||
|
}
|
||
|
}
|
||
|
},
|
||
|
"7": {
|
||
|
"attn": {
|
||
|
"attention": {
|
||
|
"k_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"out_proj": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"q_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"v_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
}
|
||
|
}
|
||
|
},
|
||
|
"ln_1": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"scale": [
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"ln_2": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"scale": [
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"mlp": {
|
||
|
"c_fc": {
|
||
|
"bias": [
|
||
|
3072
|
||
|
],
|
||
|
"kernel": [
|
||
|
768,
|
||
|
3072
|
||
|
]
|
||
|
},
|
||
|
"c_proj": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"kernel": [
|
||
|
3072,
|
||
|
768
|
||
|
]
|
||
|
}
|
||
|
}
|
||
|
},
|
||
|
"8": {
|
||
|
"attn": {
|
||
|
"attention": {
|
||
|
"k_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"out_proj": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"q_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"v_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
}
|
||
|
}
|
||
|
},
|
||
|
"ln_1": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"scale": [
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"ln_2": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"scale": [
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"mlp": {
|
||
|
"c_fc": {
|
||
|
"bias": [
|
||
|
3072
|
||
|
],
|
||
|
"kernel": [
|
||
|
768,
|
||
|
3072
|
||
|
]
|
||
|
},
|
||
|
"c_proj": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"kernel": [
|
||
|
3072,
|
||
|
768
|
||
|
]
|
||
|
}
|
||
|
}
|
||
|
},
|
||
|
"9": {
|
||
|
"attn": {
|
||
|
"attention": {
|
||
|
"k_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"out_proj": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"q_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"v_proj": {
|
||
|
"kernel": [
|
||
|
768,
|
||
|
768
|
||
|
]
|
||
|
}
|
||
|
}
|
||
|
},
|
||
|
"ln_1": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"scale": [
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"ln_2": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"scale": [
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"mlp": {
|
||
|
"c_fc": {
|
||
|
"bias": [
|
||
|
3072
|
||
|
],
|
||
|
"kernel": [
|
||
|
768,
|
||
|
3072
|
||
|
]
|
||
|
},
|
||
|
"c_proj": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"kernel": [
|
||
|
3072,
|
||
|
768
|
||
|
]
|
||
|
}
|
||
|
}
|
||
|
}
|
||
|
},
|
||
|
"ln_f": {
|
||
|
"bias": [
|
||
|
768
|
||
|
],
|
||
|
"scale": [
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"wpe": {
|
||
|
"embedding": [
|
||
|
2048,
|
||
|
768
|
||
|
]
|
||
|
},
|
||
|
"wte": {
|
||
|
"embedding": [
|
||
|
50257,
|
||
|
768
|
||
|
]
|
||
|
}
|
||
|
}
|
||
|
}
|