标签

大模型量化 LLM 论文解读大模型推理投机解码模型架构 llama.cpp HuggingFace 量化

评论

Rainlin

专注于大模型系统、推理优化与高性能计算。

最新文章

GGUF vs SafeTensors：两种模型存储格式对比2026-06-17

llama.cpp（一）：K-Quant 与 I-Quant — GGUF 量化格式全解2026-06-17

DFlash：块扩散 + KV 注入，让投机解码的草稿不再串行2026-06-16

Qwen3.5 架构解析：Gated DeltaNet + Full Attention 混合架构2026-06-15

大模型投机解码（三）：Multi-token Prediction — 让模型自己当 Draft2026-06-15

分类

llama.cpp1
投机解码5
模型架构1
模型格式1
量化4

标签

LLM llama.cpp 投机解码大模型推理量化论文解读模型架构 HuggingFace 大模型量化

归档

六月 2026 12

网站信息

文章数目 :

12

本站访客数 :

本站总浏览量 :

最后更新时间 :

© 2025 - 2026 By Rainlin