llama.cpp

mirror of https://github.com/ggerganov/llama.cpp.git synced 2025-01-14 06:19:02 +01:00

master

504af20ee4 · server : (UI) Improve messages bubble shape in RTL (#11220) · Updated 2025-01-13 20:23:31 +01:00

ik/imatrix_legacy_quants bb9abb5cd8 · imatrix: guard Q4_0/Q5_0 against ffn_down craziness · Updated 2024-01-16 08:56:05 +01:00	2597 2	ZIP TAR.GZ
gg/add-phixtral 9998ecd191 · llama : add phixtral support (wip) · Updated 2024-01-13 13:24:07 +01:00	2627 1	ZIP TAR.GZ
gg/update-phi2-convert 1fb563ebdc · py : try to fix flake stuff · Updated 2024-01-13 12:42:35 +01:00	2628 2	ZIP TAR.GZ
ik/iq2_2.31bpw 9bfcb16fd3 · Add llama enum for IQ2_XS · Updated 2024-01-11 17:24:12 +01:00	2677 11	ZIP TAR.GZ
gg/server-infill-empty-prompt-4027 24096933b0 · server : try to fix infill when prompt is empty · Updated 2024-01-09 10:27:29 +01:00	2679 1	ZIP TAR.GZ
gg/fix-vld1q_s8_x4-4872 7216af5c09 · ggml : fix 32-bit ARM compat (cont) · Updated 2024-01-09 09:33:16 +01:00	2682 2	ZIP TAR.GZ
passkey d57cb9c294 · passkey : add readme · Updated 2024-01-08 10:13:44 +01:00	2692 7	ZIP TAR.GZ
gg/remove-gqa-check-4657 7cfde78190 · llama : remove redundant GQA check · Updated 2024-01-06 15:04:20 +01:00 Mirrors	2700 1	ZIP TAR.GZ
gg/metal-opt-mul-mat-id 9f51f3e695 · metal : opt mul_mm_id · Updated 2024-01-02 19:50:18 +01:00 Mirrors	2726 17	ZIP TAR.GZ
cuda-cublas-opts 4cc78d3873 · ggml : force F32 precision for ggml_mul_mat · Updated 2024-01-02 16:54:56 +01:00 Mirrors	2725 1	ZIP TAR.GZ
gg/avoid-mutex b5af7ad84f · llama : refactor quantization to avoid <mutex> header · Updated 2024-01-02 14:56:57 +01:00 Mirrors	2728 1	ZIP TAR.GZ
gg/hf-auto-dl 120a1a5515 · llama : auto download HF models if URL provided · Updated 2024-01-02 12:29:06 +01:00 Mirrors	2729 1	ZIP TAR.GZ
gg/gpu-prec-tests f64e4f04e7 · ggml : testing GPU FP precision via quantized CPY · Updated 2023-12-30 18:11:40 +01:00 Mirrors	2747 1	ZIP TAR.GZ
gg/test-arm f32f30bc57 · test · Updated 2023-12-26 16:52:42 +01:00 Mirrors	2777 1	ZIP TAR.GZ
gg/ggml_scale ab1b75166f · Merge branch 'master' into gg/ggml_scale · Updated 2023-12-21 21:35:11 +01:00 Mirrors	2800 4	ZIP TAR.GZ
ceb/fix-draft-model-default 7c87353e61 · common : remove incorrect --model-draft default · Updated 2023-12-21 18:17:12 +01:00 Mirrors	2808 1	ZIP TAR.GZ
gg/cublas-f32 a40f6110f0 · ggml : force F32 precision for ggml_mul_mat · Updated 2023-12-19 15:34:59 +01:00 Mirrors	2815 1	ZIP TAR.GZ
gg/plamo-test 3c734f4941 · plamo : testing · Updated 2023-12-18 16:06:05 +01:00 Mirrors	2820 13	ZIP TAR.GZ
gg/phi-2-2 a462159c43 · cuda : ggml_cuda_op_mul_mat_cublas support F32 precision · Updated 2023-12-18 13:24:29 +01:00 Mirrors	2820 16	ZIP TAR.GZ
ceb/fix-logit-check 1b05817112 · decode : fix logits_valid for old API · Updated 2023-12-18 00:49:21 +01:00 Mirrors	2821 1	ZIP TAR.GZ

... 11 12 13 14 15 ...

Default Branch

Branches