llama.cpp/kompute-shaders/op_mul_mv_q_n_pre.comp

layout(local_size_x_id = 0) in;
layout(local_size_y = 1) in;
layout(local_size_z = 1) in;

layout (binding = 0) readonly buffer tensorInA { uint8_t inA[]; };
layout (binding = 1) readonly buffer tensorInB { float inB[]; };
layout (binding = 2) writeonly buffer tensorOut { float out_[]; };

layout (push_constant) uniform parameter {
    uint inAOff;
    uint inBOff;
    uint outOff;
    int  ne00;
    int  ne01;
    int  ne02;
    int  ne10;
    int  ne12;
    int  ne0;
    int  ne1;
    uint r2;
    uint r3;
} pcs;