Connect XTC, DRY, smoothing_factor, and dynatemp to ExLlamaV2 loader (non-HF)

2025-01-09 12:09:04 +01:00 · 2025-01-04 16:22:59 -08:00 · 2025-01-04 16:22:59 -08:00 · 3967520e71
commit 3967520e71
parent d56b500568
3 changed files with 43 additions and 3 deletions
--- a/modules/exllamav2.py
+++ b/modules/exllamav2.py
@ -1,8 +1,8 @@
+import json
 import traceback
 from pathlib import Path

 import torch
-
 from exllamav2 import (
    ExLlamaV2,
    ExLlamaV2Cache,
@ -15,6 +15,7 @@ from exllamav2 import (
    ExLlamaV2Tokenizer
 )
 from exllamav2.generator import ExLlamaV2Sampler, ExLlamaV2StreamingGenerator
+
 from modules import shared
 from modules.logging_colors import logger
 from modules.text_generation import get_max_prompt_length
@ -122,6 +123,10 @@ class Exllamav2Model:
        settings.token_presence_penalty = state['presence_penalty']

        settings.temperature = state['temperature']
+        settings.smoothing_factor = state['smoothing_factor']
+        settings.min_temp = state['dynatemp_low'] if state['dynamic_temperature'] else 0
+        settings.max_temp = state['dynatemp_high'] if state['dynamic_temperature'] else 0
+        settings.temp_exponent = state['dynatemp_exponent']
        settings.top_k = state['top_k']
        settings.top_p = state['top_p']
        settings.top_a = state['top_a']
@ -143,6 +148,29 @@ class Exllamav2Model:
            if len(to_ban) > 0:
                settings.disallow_tokens(self.tokenizer, to_ban)

+        settings.dry_allowed_length = state['dry_allowed_length']
+        settings.dry_base = state['dry_base']
+        settings.dry_multiplier = state['dry_multiplier']
+
+        # Dry sequence breakers processing
+        if state['dry_multiplier'] > 0 and state['dry_sequence_breakers']:
+            dry_sequence_breakers = state['dry_sequence_breakers']
+
+            # Support both JSON array notation and comma-separated strings.
+            if not dry_sequence_breakers.startswith("["):
+                dry_sequence_breakers = "[" + dry_sequence_breakers + "]"
+
+            sequence_breaker_strings = json.loads(dry_sequence_breakers)
+            # Prefix with 'a' to get the correct encoding of the token at the end of a text.
+            sequence_breakers = {
+                self.encode(f"a{s}")[0, -1].item() for s in sequence_breaker_strings
+            }
+
+            settings.dry_sequence_breakers = sequence_breakers
+
+        settings.xtc_probability = state['xtc_probability']
+        settings.xtc_threshold = state['xtc_threshold']
+
        ids = self.tokenizer.encode(prompt, add_bos=state['add_bos_token'], encode_special_tokens=True)
        ids = ids[:, -get_max_prompt_length(state):]

--- a/modules/loaders.py
+++ b/modules/loaders.py
@ -194,6 +194,10 @@ loaders_samplers = {
    'ExLlamav2': {
        'temperature',
        'temperature_last',
+        'smoothing_factor',
+        'dynatemp_low',
+        'dynatemp_high',
+        'dynatemp_exponent',
        'top_p',
        'min_p',
        'top_k',
@ -204,10 +208,16 @@ loaders_samplers = {
        'presence_penalty',
        'frequency_penalty',
        'repetition_penalty_range',
-        'seed',
        'mirostat_mode',
        'mirostat_tau',
        'mirostat_eta',
+        'dry_multiplier',
+        'dry_base',
+        'dry_allowed_length',
+        'dry_sequence_breakers',
+        'xtc_threshold',
+        'xtc_probability',
+        'seed',
        'ban_eos_token',
        'add_bos_token',
        'custom_token_bans',
--- a/modules/sampler_hijack.py
+++ b/modules/sampler_hijack.py
@ -495,7 +495,9 @@ def get_logits_processor_patch(self, **kwargs):

        sequence_breaker_strings = json.loads(dry_sequence_breakers)
        # Prefix with 'a' to get the correct encoding of the token at the end of a text.
-        sequence_breakers = {shared.tokenizer.encode(f'a{s}')[-1] for s in sequence_breaker_strings}
+        sequence_breakers = {
+            shared.tokenizer.encode(f'a{s}')[-1] for s in sequence_breaker_strings
+        }

        warpers.append(
            DRYLogitsProcessor(