server : some style changes

2025-01-04 01:57:53 +01:00 · 2023-11-24 10:49:08 +02:00 · 2023-11-24 10:49:08 +02:00 · f25308be5c
commit f25308be5c
parent e1516709f2
1 changed files with 53 additions and 57 deletions
--- a/examples/server/server.cpp
+++ b/examples/server/server.cpp
@ -385,7 +385,7 @@ struct llama_client_slot
    bool stopped_limit = false;

    bool oaicompat = false;
-    std::string oaicompat_model = "";
+    std::string oaicompat_model;

    std::string stopping_word;

@ -486,7 +486,7 @@ struct llama_client_slot
        };
    }

-    void print_timings() {
+    void print_timings() const {
        LOG_TEE("\n");
        LOG_TEE("%s: prompt eval time = %10.2f ms / %5d tokens (%8.2f ms per token, %8.2f tokens per second)\n",
            __func__, t_prompt_processing, num_prompt_tokens_processed, t_prompt_processing / num_prompt_tokens_processed, 1e3 / t_prompt_processing * num_prompt_tokens_processed);
@ -1284,7 +1284,7 @@ struct llama_server_context
        std::lock_guard<std::mutex> lock(mutex_tasks);
        task_server task;
        task.id = id_gen++;
-        task.data = data;
+        task.data = std::move(data);
        task.infill_mode = infill;
        task.embedding_mode = embedding;
        task.type = COMPLETION_TASK;
@ -2252,29 +2252,27 @@ json oaicompat_completion_params_parse(
    llama_params["__oaicompat"] = true;

    // Map OpenAI parameters to llama.cpp parameters
-    llama_params["prompt"] = format_chatml(body["messages"]); // OpenAI 'messages' to llama.cpp 'prompt'
-    llama_params["temperature"] = json_value(body, "temperature", 0.8);
-    llama_params["top_k"] = json_value(body, "max_tokens", 40);
-    llama_params["top_p"] = json_value(body, "top_p", 0.95);
-    llama_params["n_predict"] = json_value(body, "max_tokens", -1);
-    llama_params["logit_bias"] = json_value(body, "logit_bias",json::object());
+    llama_params["prompt"]            = format_chatml(body["messages"]); // OpenAI 'messages' to llama.cpp 'prompt'
+    llama_params["temperature"]       = json_value(body, "temperature", 0.8);
+    llama_params["top_k"]             = json_value(body, "top_k", 40);
+    llama_params["top_p"]             = json_value(body, "top_p", 0.95);
+    llama_params["n_predict"]         = json_value(body, "max_tokens", -1);
+    llama_params["logit_bias"]        = json_value(body, "logit_bias",json::object());
    llama_params["frequency_penalty"] = json_value(body, "frequency_penalty", 0.0);
-    llama_params["presence_penalty"] = json_value(body, "presence_penalty", 0.0);
-    llama_params["seed"] = json_value(body, "seed", 0);
-    llama_params["stream"] =json_value(body, "stream", false);
-    llama_params["mirostat"] = json_value(body, "mirostat", false);
-    llama_params["mirostat_tau"] = json_value(body, "mirostat_tau", 0.0);
-    llama_params["mirostat_eta"] = json_value(body, "mirostat_eta", 0.0);
-    llama_params["penalize_nl"] = json_value(body, "penalize_nl", false);
-    llama_params["typical_p"] = json_value(body, "typical_p", 0.0);
-    llama_params["repeat_last_n"] = json_value(body, "repeat_last_n", 0);
-    llama_params["ignore_eos"] = json_value(body, "ignore_eos", false);
-    llama_params["tfs_z"] = json_value(body, "tfs_z", 0.0);
+    llama_params["presence_penalty"]  = json_value(body, "presence_penalty", 0.0);
+    llama_params["seed"]              = json_value(body, "seed", 0);
+    llama_params["stream"]            = json_value(body, "stream", false);
+    llama_params["mirostat"]          = json_value(body, "mirostat", false);
+    llama_params["mirostat_tau"]      = json_value(body, "mirostat_tau", 0.0);
+    llama_params["mirostat_eta"]      = json_value(body, "mirostat_eta", 0.0);
+    llama_params["penalize_nl"]       = json_value(body, "penalize_nl", false);
+    llama_params["typical_p"]         = json_value(body, "typical_p", 0.0);
+    llama_params["repeat_last_n"]     = json_value(body, "repeat_last_n", 0);
+    llama_params["ignore_eos"]        = json_value(body, "ignore_eos", false);
+    llama_params["tfs_z"]             = json_value(body, "tfs_z", 0.0);

    if (llama_params.count("grammar") != 0) {
-        llama_params["grammar"] = json_value(
-            body, "grammar",
-            json::object());
+        llama_params["grammar"] = json_value(body, "grammar", json::object());
    }

    // Handle 'stop' field
@ -2294,16 +2292,15 @@ json oaicompat_completion_params_parse(
    return llama_params;
 }

-static json format_final_response_oaicompat(json request, task_result response,
-                                            bool streaming = false)
+static json format_final_response_oaicompat(const json &request, const task_result &response, bool streaming = false)
 {
    json result = response.result_json;

-    bool stopped_word = result.count("stopped_word") != 0;
-    bool stopped_eos = json_value(result, "stopped_eos", false);
+    bool stopped_word        = result.count("stopped_word") != 0;
+    bool stopped_eos         = json_value(result, "stopped_eos", false);
    int num_tokens_predicted = json_value(result, "tokens_predicted", 0);
-    int num_prompt_tokens = json_value(result, "tokens_evaluated", 0);
-    std::string content = json_value(result, "content", std::string(""));
+    int num_prompt_tokens    = json_value(result, "tokens_evaluated", 0);
+    std::string content      = json_value(result, "content", std::string(""));

    std::string finish_reason = "length";
    if (stopped_word || stopped_eos) {
@ -2314,10 +2311,10 @@ static json format_final_response_oaicompat(json request, task_result response,
        streaming ? json::array({json{{"finish_reason", finish_reason},
                                        {"index", 0},
                                        {"delta", json::object()}}})
-                    : json::array({json{{"finish_reason", finish_reason},
+                  : json::array({json{{"finish_reason", finish_reason},
                                        {"index", 0},
                                        {"message", json{{"content", content},
-                                                        {"role", "assistant"}}}}});
+                                                         {"role", "assistant"}}}}});

    std::time_t t = std::time(0);

@ -2345,7 +2342,7 @@ static json format_final_response_oaicompat(json request, task_result response,
 }

 // return value is vector as there is one case where we might need to generate two responses
-static std::vector<json> format_partial_response_oaicompat(task_result response) {
+static std::vector<json> format_partial_response_oaicompat(const task_result &response) {
    json result = response.result_json;

    if (!result.contains("model") || !result.contains("oaicompat_token_ctr")) {
@ -2353,15 +2350,14 @@ static std::vector<json> format_partial_response_oaicompat(task_result response)
    }

    bool first = json_value(result, "oaicompat_token_ctr", 0) == 0;
-    std::string modelname =
-        json_value(result, "model", std::string(DEFAULT_OAICOMPAT_MODEL));
+    std::string modelname = json_value(result, "model", std::string(DEFAULT_OAICOMPAT_MODEL));

-    bool stopped_word = json_value(result, "stopped_word", false);
-    bool stopped_eos = json_value(result, "stopped_eos", false);
-    bool stopped_limit = json_value(result, "stopped_limit", false);
+    bool stopped_word   = json_value(result, "stopped_word", false);
+    bool stopped_eos    = json_value(result, "stopped_eos", false);
+    bool stopped_limit  = json_value(result, "stopped_limit", false);
    std::string content = json_value(result, "content", std::string(""));

-    std::string finish_reason = "";
+    std::string finish_reason;
    if (stopped_word || stopped_eos) {
        finish_reason = "stop";
    }
@ -2612,9 +2608,9 @@ int main(int argc, char **argv)
                            task_result result = llama.next_result(task_id);
                            if (!result.error) {
                                const std::string str =
-                                "data: " +
-                                result.result_json.dump(-1, ' ', false, json::error_handler_t::replace) +
-                                "\n\n";
+                                    "data: " +
+                                    result.result_json.dump(-1, ' ', false, json::error_handler_t::replace) +
+                                    "\n\n";
                                LOG_VERBOSE("data stream", {
                                    { "to_send", str }
                                });
@ -2627,9 +2623,9 @@ int main(int argc, char **argv)
                                }
                            } else {
                                const std::string str =
-                                "error: " +
-                                result.result_json.dump(-1, ' ', false, json::error_handler_t::replace) +
-                                "\n\n";
+                                    "error: " +
+                                    result.result_json.dump(-1, ' ', false, json::error_handler_t::replace) +
+                                    "\n\n";
                                LOG_VERBOSE("data stream", {
                                    { "to_send", str }
                                });
@ -2655,8 +2651,8 @@ int main(int argc, char **argv)
            });


-    svr.Post("/v1/chat/completions", [&llama](const httplib::Request &req,
-                                            httplib::Response &res)
+    // TODO: add mount point without "/v1" prefix -- how?
+    svr.Post("/v1/chat/completions", [&llama](const httplib::Request &req, httplib::Response &res)
            {
                json data = oaicompat_completion_params_parse(json::parse(req.body));