Added UnicodeDecodeError workaround for modules/llamacpp_model.py (#6040)

--------- Co-authored-by: oobabooga <112222186+oobabooga@users.noreply.github.com>
2025-01-09 12:09:04 +01:00 · 2025-01-09 09:17:31 +09:00 · 2025-01-09 09:17:31 +09:00 · b9e2ded6d4
commit b9e2ded6d4
parent 91a8a87887
1 changed files with 8 additions and 1 deletions
--- a/modules/llamacpp_model.py
+++ b/modules/llamacpp_model.py
@ -122,7 +122,14 @@ class LlamaCppModel:
        return self.model.tokenize(string)

    def decode(self, ids, **kwargs):
-        return self.model.detokenize(ids).decode('utf-8')
+        detokenized = self.model.detokenize(ids)
+        try:
+            # Attempt strict UTF-8 decoding first
+            return detokenized.decode('utf-8', 'strict')
+        except UnicodeDecodeError as e:
+            # Log the error and fall back to UTF-8 with replacement
+            logger.warning(f"Invalid UTF-8 in detokenized output. Using replacement characters.\n{e}")
+            return detokenized.decode('utf-8', 'replace')

    def get_logits(self, tokens):
        self.model.reset()