{ "decoder": { "block": { "0": { "layer": { "0": { "SelfAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "relative_attention_bias": { "embedding": [ 32, 12 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "1": { "EncDecAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "2": { "DenseReluDense": { "wi": { "kernel": [ 768, 3072 ] }, "wo": { "kernel": [ 3072, 768 ] } }, "layer_norm": { "weight": [ 768 ] } } } }, "1": { "layer": { "0": { "SelfAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "1": { "EncDecAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "2": { "DenseReluDense": { "wi": { "kernel": [ 768, 3072 ] }, "wo": { "kernel": [ 3072, 768 ] } }, "layer_norm": { "weight": [ 768 ] } } } }, "10": { "layer": { "0": { "SelfAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "1": { "EncDecAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "2": { "DenseReluDense": { "wi": { "kernel": [ 768, 3072 ] }, "wo": { "kernel": [ 3072, 768 ] } }, "layer_norm": { "weight": [ 768 ] } } } }, "11": { "layer": { "0": { "SelfAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "1": { "EncDecAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "2": { "DenseReluDense": { "wi": { "kernel": [ 768, 3072 ] }, "wo": { "kernel": [ 3072, 768 ] } }, "layer_norm": { "weight": [ 768 ] } } } }, "2": { "layer": { "0": { "SelfAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "1": { "EncDecAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "2": { "DenseReluDense": { "wi": { "kernel": [ 768, 3072 ] }, "wo": { "kernel": [ 3072, 768 ] } }, "layer_norm": { "weight": [ 768 ] } } } }, "3": { "layer": { "0": { "SelfAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "1": { "EncDecAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "2": { "DenseReluDense": { "wi": { "kernel": [ 768, 3072 ] }, "wo": { "kernel": [ 3072, 768 ] } }, "layer_norm": { "weight": [ 768 ] } } } }, "4": { "layer": { "0": { "SelfAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "1": { "EncDecAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "2": { "DenseReluDense": { "wi": { "kernel": [ 768, 3072 ] }, "wo": { "kernel": [ 3072, 768 ] } }, "layer_norm": { "weight": [ 768 ] } } } }, "5": { "layer": { "0": { "SelfAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "1": { "EncDecAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "2": { "DenseReluDense": { "wi": { "kernel": [ 768, 3072 ] }, "wo": { "kernel": [ 3072, 768 ] } }, "layer_norm": { "weight": [ 768 ] } } } }, "6": { "layer": { "0": { "SelfAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "1": { "EncDecAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "2": { "DenseReluDense": { "wi": { "kernel": [ 768, 3072 ] }, "wo": { "kernel": [ 3072, 768 ] } }, "layer_norm": { "weight": [ 768 ] } } } }, "7": { "layer": { "0": { "SelfAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "1": { "EncDecAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "2": { "DenseReluDense": { "wi": { "kernel": [ 768, 3072 ] }, "wo": { "kernel": [ 3072, 768 ] } }, "layer_norm": { "weight": [ 768 ] } } } }, "8": { "layer": { "0": { "SelfAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "1": { "EncDecAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "2": { "DenseReluDense": { "wi": { "kernel": [ 768, 3072 ] }, "wo": { "kernel": [ 3072, 768 ] } }, "layer_norm": { "weight": [ 768 ] } } } }, "9": { "layer": { "0": { "SelfAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "1": { "EncDecAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "2": { "DenseReluDense": { "wi": { "kernel": [ 768, 3072 ] }, "wo": { "kernel": [ 3072, 768 ] } }, "layer_norm": { "weight": [ 768 ] } } } } }, "final_layer_norm": { "weight": [ 768 ] } }, "encoder": { "block": { "0": { "layer": { "0": { "SelfAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "relative_attention_bias": { "embedding": [ 32, 12 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "1": { "DenseReluDense": { "wi": { "kernel": [ 768, 3072 ] }, "wo": { "kernel": [ 3072, 768 ] } }, "layer_norm": { "weight": [ 768 ] } } } }, "1": { "layer": { "0": { "SelfAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "1": { "DenseReluDense": { "wi": { "kernel": [ 768, 3072 ] }, "wo": { "kernel": [ 3072, 768 ] } }, "layer_norm": { "weight": [ 768 ] } } } }, "10": { "layer": { "0": { "SelfAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "1": { "DenseReluDense": { "wi": { "kernel": [ 768, 3072 ] }, "wo": { "kernel": [ 3072, 768 ] } }, "layer_norm": { "weight": [ 768 ] } } } }, "11": { "layer": { "0": { "SelfAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "1": { "DenseReluDense": { "wi": { "kernel": [ 768, 3072 ] }, "wo": { "kernel": [ 3072, 768 ] } }, "layer_norm": { "weight": [ 768 ] } } } }, "2": { "layer": { "0": { "SelfAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "1": { "DenseReluDense": { "wi": { "kernel": [ 768, 3072 ] }, "wo": { "kernel": [ 3072, 768 ] } }, "layer_norm": { "weight": [ 768 ] } } } }, "3": { "layer": { "0": { "SelfAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "1": { "DenseReluDense": { "wi": { "kernel": [ 768, 3072 ] }, "wo": { "kernel": [ 3072, 768 ] } }, "layer_norm": { "weight": [ 768 ] } } } }, "4": { "layer": { "0": { "SelfAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "1": { "DenseReluDense": { "wi": { "kernel": [ 768, 3072 ] }, "wo": { "kernel": [ 3072, 768 ] } }, "layer_norm": { "weight": [ 768 ] } } } }, "5": { "layer": { "0": { "SelfAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "1": { "DenseReluDense": { "wi": { "kernel": [ 768, 3072 ] }, "wo": { "kernel": [ 3072, 768 ] } }, "layer_norm": { "weight": [ 768 ] } } } }, "6": { "layer": { "0": { "SelfAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "1": { "DenseReluDense": { "wi": { "kernel": [ 768, 3072 ] }, "wo": { "kernel": [ 3072, 768 ] } }, "layer_norm": { "weight": [ 768 ] } } } }, "7": { "layer": { "0": { "SelfAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "1": { "DenseReluDense": { "wi": { "kernel": [ 768, 3072 ] }, "wo": { "kernel": [ 3072, 768 ] } }, "layer_norm": { "weight": [ 768 ] } } } }, "8": { "layer": { "0": { "SelfAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "1": { "DenseReluDense": { "wi": { "kernel": [ 768, 3072 ] }, "wo": { "kernel": [ 3072, 768 ] } }, "layer_norm": { "weight": [ 768 ] } } } }, "9": { "layer": { "0": { "SelfAttention": { "k": { "kernel": [ 768, 768 ] }, "o": { "kernel": [ 768, 768 ] }, "q": { "kernel": [ 768, 768 ] }, "v": { "kernel": [ 768, 768 ] } }, "layer_norm": { "weight": [ 768 ] } }, "1": { "DenseReluDense": { "wi": { "kernel": [ 768, 3072 ] }, "wo": { "kernel": [ 3072, 768 ] } }, "layer_norm": { "weight": [ 768 ] } } } } }, "final_layer_norm": { "weight": [ 768 ] } }, "shared": { "embedding": [ 32128, 768 ] } }