跳到主要内容

大模型部署

模型支持列表

进迭时空目前已支持以下大模型在进迭时空 k1 平台上运行:

模型名称级别是否支持
Qwen1.54B
Qwen20.5B
Qwen21.5B
Lamma38B
Lamma3.18B
tinyllama1.1B
minicpm1B
minicpm2B
phi33.8B
chatglm36B

大模型 release 地址:https://archive.spacemit.com/spacemit-ai/ModelZoo/llm/

使用说明

Cpp demo

运行 cpp demo,您需要使用进迭时空提供的 spacemit-ort 工具包,运行 demo 可参考以下工程。

Python demo

运行 python demo,您需要安装并使用进迭时空提供的以下 python 包:

spacemit-ort
onnxruntime-genai

运行 demo 可参考以下文件。

Spacemit-ort release 地址:https://archive.spacemit.com/spacemit-ai/onnxruntime/spacemit-ort.riscv64.1.2.2.tar.gz

注:demo 和 pip whl 都在 release 的压缩包里

模型构建(如需)

如果您想自己进行模型转换,可以使用进迭时空提供的模型转换工具,将 huggingface 或者 modelscope 上提供的大模型转换成受支持的模型格式,以达到最优的适配效果。

python builder.py
-i huggingface_model_path / modelscope_model_path //输入模型地址
-o output_model_path //输出模型地址
-e cpu
-p int4
-c model_cache //模型cache存放地址
--extra_options int4_accuracy_level=4 int4_block_size=64 _# use_spacemit_ep=1 # 可选打开_

大模型性能数据

k1 芯片端,基于 spacemit-ort 1.2.2:

模型级别首字延迟/S(prompt=64t)性能数据/TPS(context=1024, prompt=64)
qwen20.5B1.7512.52
qwen21.5B7.7475.38
qwen2.50.5B1.83@67t13.62
qwen2.51.5B5.425.38
qwen2.53B12.01@69t2.85
qwen2.57B31.251.39
phi33.8B15.922.14
tinyllama1.1B7.84@95t7.38
llama38B36.26@69t1.18
llama3.21B4.287.18
llama3.23B13.142.6
minicpm-1b1B5.28@68t5.14
minicpm-2b2B14.34@67t2.79
minicpm34B20.17s@65t0.92
chatglm36B25.61@58t1.66579
gemma22B24.583.39