server : fix speculative decoding with context shift

ggml-ci
2025-01-12 13:27:21 +01:00 · 2024-12-03 22:44:19 +02:00 · 2024-12-03 22:44:19 +02:00 · a5a915b51e
commit a5a915b51e
parent cc98896db8
1 changed files with 1 additions and 1 deletions
--- a/examples/server/server.cpp
+++ b/examples/server/server.cpp
@ -2325,7 +2325,7 @@ struct server_context {
                llama_token id = slot.sampled;

                struct common_speculative_params params_spec;
-                params_spec.n_draft   = slot.params.speculative.n_max;
+                params_spec.n_draft   = std::min(slot.params.speculative.n_max, slot.n_ctx - slot.n_past - 1);
                params_spec.n_reuse   = llama_n_ctx(slot.ctx_dft) - slot.params.speculative.n_max;
                params_spec.p_min     = slot.params.speculative.p_min;