Added model load logic for chat Completions

2024-11-23 08:28:21 +01:00 · 2024-11-18 17:12:41 +01:00 · 2024-11-18 17:12:41 +01:00 · 768124c4b0
commit 768124c4b0
parent cc8c7ed209
1 changed files with 12 additions and 0 deletions
--- a/extensions/openai/script.py
+++ b/extensions/openai/script.py
@ -119,6 +119,18 @@ async def openai_completions(request: Request, request_data: CompletionRequest):

@app.post('/v1/chat/completions', response_model=ChatCompletionResponse, dependencies=check_key)
 async def openai_chat_completions(request: Request, request_data: ChatCompletionRequest):
+    requested_model = request_data.model
+    payload = OAImodels.get_current_model_info()
+    current_model = payload["model_name"]
+    if not current_model == requested_model:
+        requested_model_dict = {"model_name": requested_model}
+        try:
+            OAImodels._load_model(requested_model_dict)
+        except:
+            traceback.print_exc()
+            return HTTPException(status_code=400, detail="Failed to load the model.")
+
+
    path = request.url.path
    is_legacy = "/generate" in path