大模型部署

模型支持列表

进迭时空目前已支持以下大模型在进迭时空 k1 平台上运行：

模型名称	级别	是否支持
Qwen1.5	4B	✔
Qwen2	0.5B	✔
Qwen2	1.5B	✔
Lamma3	8B	✔
Lamma3.1	8B	✔
tinyllama	1.1B	✔
minicpm	1B	✔
minicpm	2B	✔
phi3	3.8B	✔
chatglm3	6B	✔

大模型 release 地址：https://archive.spacemit.com/spacemit-ai/ModelZoo/llm/

使用说明

Cpp demo

运行 cpp demo，您需要使用进迭时空提供的 spacemit-ort 工具包，运行 demo 可参考以下工程。

Python demo

运行 python demo，您需要安装并使用进迭时空提供的以下 python 包：

spacemit-ort
onnxruntime-genai

运行 demo 可参考以下文件。

Spacemit-ort release 地址：https://archive.spacemit.com/spacemit-ai/onnxruntime/spacemit-ort.riscv64.1.2.2.tar.gz

注：demo 和 pip whl 都在 release 的压缩包里

模型构建（如需）

如果您想自己进行模型转换，可以使用进迭时空提供的模型转换工具，将 huggingface 或者 modelscope 上提供的大模型转换成受支持的模型格式，以达到最优的适配效果。

python builder.py
-i huggingface_model_path / modelscope_model_path //输入模型地址
-o output_model_path //输出模型地址
-e cpu
-p int4
-c model_cache //模型cache存放地址
--extra_options int4_accuracy_level=4 int4_block_size=64 _# use_spacemit_ep=1 # 可选打开_

大模型性能数据

k1 芯片端，基于 spacemit-ort 1.2.2：

模型	级别	首字延迟/S（prompt=64t）	性能数据/TPS（context=1024, prompt=64）
qwen2	0.5B	1.75	12.52
qwen2	1.5B	7.747	5.38
qwen2.5	0.5B	1.83@67t	13.62
qwen2.5	1.5B	5.42	5.38
qwen2.5	3B	12.01@69t	2.85
qwen2.5	7B	31.25	1.39
phi3	3.8B	15.92	2.14
tinyllama	1.1B	7.84@95t	7.38
llama3	8B	36.26@69t	1.18
llama3.2	1B	4.28	7.18
llama3.2	3B	13.14	2.6
minicpm-1b	1B	5.28@68t	5.14
minicpm-2b	2B	14.34@67t	2.79
minicpm3	4B	20.17s@65t	0.92
chatglm3	6B	25.61@58t	1.66579
gemma2	2B	24.58	3.39

大模型部署

模型支持列表​

使用说明​

Cpp demo​

Python demo​

模型构建（如需）​

大模型性能数据​