text-generation-webui/modules/bot_picture.py

import torch
from transformers import BlipForConditionalGeneration
from transformers import BlipProcessor

processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base", torch_dtype=torch.float32).to("cpu")

def caption_image(raw_image):
    inputs = processor(raw_image.convert('RGB'), return_tensors="pt").to("cpu", torch.float32)
    out = model.generate(**inputs, max_new_tokens=100)
    return processor.decode(out[0], skip_special_tokens=True)
Use BLIP directly + some simplifications 2023-02-15 03:55:46 +01:00			`import torch`
			`from transformers import BlipForConditionalGeneration`
			`from transformers import BlipProcessor`
Use BLIP to send a picture to model 2023-02-15 00:38:21 +01:00
Use BLIP directly + some simplifications 2023-02-15 03:55:46 +01:00			`processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")`
Move BLIP to the CPU It's just as fast 2023-02-15 04:03:19 +01:00			`model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base", torch_dtype=torch.float32).to("cpu")`
Use BLIP directly + some simplifications 2023-02-15 03:55:46 +01:00
			`def caption_image(raw_image):`
Move BLIP to the CPU It's just as fast 2023-02-15 04:03:19 +01:00			`inputs = processor(raw_image.convert('RGB'), return_tensors="pt").to("cpu", torch.float32)`
Use BLIP directly + some simplifications 2023-02-15 03:55:46 +01:00			`out = model.generate(**inputs, max_new_tokens=100)`
			`return processor.decode(out[0], skip_special_tokens=True)`