当YY3588遇上DeepSeek：边缘端大模型部署|Jetson Orin nano 5大横评

风火轮又出新品啦——YY3588

YY3588是风火轮打造的一款高性能AIoT开发板，AIoT即Artificial Intelligence of Things，指的是人工智能技术与物联网的融合应用，以实现万物智联。

随着大模型轻量化技术的突破，边缘设备运行百亿参数级模型成为可能。本文以瑞芯微RK3588旗舰开发板YY3588为硬件平台，实测其在部署深度求索（DeepSeek）系列模型的性能表现，探索大模型在边缘计算场景的落地潜力。

一、硬件与软件环境配置

1.1 YY3588开发板基础配置

1.1.1 核心硬件

NPU：6TOPS算力（INT8） + Mali-G610 GPU
内存与存储：
-16GB LPDDR4X（实测带宽68GB/s）

-NVMe SSD 512GB（扩展至PCIe 3.0×4接口）

开发板提供了灵活的内存和存储配置选项。内存方面，支持多种规格的LPDDR4内存，最高可达16GB，满足了不同应用场景的需求。存储方面，则提供了eMMC、SATA SSD以及MicroSD卡槽等多种选择，最大可支持256GB的eMMC存储，确保了足够的数据存储空间。

丰富的外设接口

1.1.2 软件栈

系统：Ubuntu 22.04 LTS（RK3588定制内核5.10）
推理框架：ONNX Runtime 1.16 + RKNN-Toolkit2 1.6
优化工具：DeepSeek官方量化工具链v0.3

二、DeepSeek模型部署

2.1 模型选择与优化

测试模型：DeepSeek-MoE-16B（稀疏化后4.3GB）
量化方案：
```bash
python quantize.py --model deepseek-16b-fp32.onnx \
--output deepseek-16b-int8.rknn \
--dataset calibration_data/ \
--quant_type hybrid
```
优化成果：

- 模型体积缩减至1.2GB（压缩率72%）

- 内存占用量从12GB降至3.8GB

2.2 Deepseek-R1 1.5b 大模型部署关键步骤

2.2.1 ubuntu22.04 主机环境搭建

# 下载rknn-llm
 git clone https://github.com/airockchip/rknn-llm.git

# 安装 miniforge3 和 conda
wget -c https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-Linux-x86_64.sh
chmod 777 Miniforge3-Linux-x86_64.sh
./Miniforge3-Linux-x86_64.sh

## 确认是否安装成功
conda -V

2.2.2 创建 RKLLM-Toolkit Conda 环境

source ~/miniforge3/bin/activate
conda create -n RKLLM-Toolkit python=3.8
conda activate RKLLM-Toolkit
pip3 install rkllm-toolkit/packages/rkllm_toolkit-1.1.4-cp38-cp38-linux_x86_64.whl
# 检查是否安装成功(无报错则安装成功)
python

2.2.3 DeepSeek-R1-1.5B HunggingFace转换成RKLLM模型

2.2.3.1 下载模型及转换模型

cd examples/DeepSeek-R1-Distill-Qwen-1.5B_Demo/export/
python export_rkllm.py

转换之后的模型为：
DeepSeek-R1-Distill-Qwen-1.5B.rkllm

2.2.3.2 编译库和demo

下载交叉编译链（如果已经下载了完整的SDK，那么可以使用SDK中的交叉编译链）
# 修改编译器路径
vim examples/DeepSeek-R1-Distill-Qwen-1.5B_Demo/deploy/build-linux.sh

开始编译

cd examples/DeepSeek-R1-Distill-Qwen-1.5B_Demo/deploy/
bash build-linux.sh

生成库和demo

rknn-llm/examples/DeepSeek-R1-Distill-Qwen-1.5B_Demo/deploy/install/demo_Linux_aarch64$ ls
lib  llm_demo

2.2.4 在板端运行模型

将库、demo和转换模型推送到板端

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:./lib
export RKLLM_LOG_LEVEL=1
./llm_demo DeepSeek-R1-Distill-Qwen-1.5B.rkllm 10000 10000

2.2.4.1 相关资料下载

2.2.4.2 运行过程截图及视频链接

三、性能实测对比

3.1 推理速度测试（输入长度256 tokens）

运行模式	首token延迟	吞吐量 (tokens/s)	功耗
CPU（A76四核）	850ms	4.2	8.1
GPU（Mali-G610）	420ms	9.8	6.5
NPU（INT8量化）	220ms	18.5	4.3

3.2 极限压力测试

多任务并发：同时运行问答+摘要生成+情感分析

- 资源占用：NPU 85% / 内存 12GB / 温度72℃

- 响应延迟波动：±15%（优于Xavier NX表现）

长文本处理：输入4096 tokens法律文档

- 显存管理：通过mmap实现分块加载，避免OOM

四、典型应用场景验证

4.1. 智能客服系统

测试用例：电商售后咨询场景
实测效果：

- 响应时间：平均1.2秒/轮（含网络传输）

- 准确率：88.7%（对比云端API的92.1%）

- 断网环境下仍可维持基础服务

4.2 本地化知识库检索

4.2.1 架构设计：

```mermaid

graph LR

A[用户提问] --> B(Embedding模型)

B --> C[FAISS向量库]

C --> D[DeepSeek生成答案]

D --> E[输出响应]

```

4.2.2 性能表现：

- 百万级文档检索延迟：<300ms

- 支持RAG增强生成模式

五、横向对比与场景建议

对比项	YY3588+DeepSeek	树莓派5+Llama 2-7B	Jetson Orin+DeepSeek
单次推理功耗	4.3W	7.8W	12.3W
tokens/￥能耗比	428	196	315
典型适用场景	企业级边缘推理网关	教育/轻量级实验	高性能机器人主控

六、总结

YY3588与DeepSeek的组合验证了边缘端大模型部署的可行性，其NPU与软件栈的深度协同优化展现了国产芯片生态的进步。尽管在超长文本处理和超大规模模型支持上仍有局限，但已足够打开智能终端设备的新想象空间。

展开阅读全文

更新时间：2025-06-28

标签：数码模型边缘场景内存环境风火轮性能硬件功耗测试

1 2 3 4 5

当YY3588遇上DeepSeek：边缘端大模型部署|Jetson Orin nano 5大横评

小米就SU7 Ultra碳纤维双风道前舱盖争议致歉

鸿蒙电脑正式亮相，国产操作系统在PC领域重要突破

华为首款鸿蒙电脑正式亮相已支持超1000款外设连接

华为鸿蒙电脑发布！操作系统界面首次亮相比Windows更快、更漂亮

华为鸿蒙电脑正式亮相：历经五年布局，投入10000多名工程师，积累2700项核心专利！从内核开始重构操作系统

任天堂Switch全球累计销量1亿5212万台，畅销游戏排行榜公布

鸿蒙电脑即将上市，它拿什么和Windows竞争？

有一种痛苦叫安装了“投影仪”！入住大半年，我又换回了电视机

无人机穿越大理崇圣寺千年古塔时“炸机”，事件还在调查中，各方回应

敏昂莱携手夫人抵达俄罗斯！夫人穿绿裙系围巾美翻，还长得有福相

不是！你们买裤子不看这些细节肯定要踩雷

这跟不穿有啥区别？肯豆大露事业线，Lisa下身失踪，吉娜妆容怪异

浙江理工大学举办服装毕业作品展示高校里上演时尚秀

澳门这晚成“见光死”现场，高清镜头暴露真颜，刘嘉玲丑得没眼看

45岁胡杏儿澳门太敢穿了，不转身还挺好一转身是不是有点尴尬？

华谊兄弟：与阿里ideaLAB合作短剧AI场景制作

视频生成速度飙升30倍！Lightricks推新模型，消费级GPU也

抓住阿尔茨海默病干预黄金窗口期：中国专家成功构建MCI

中电智能申请主控机架相关专利，以解决现有技术中控制系

一加Ace5升级实测：旁路供电斩断90%充电焦虑，场景卡片集

李想详解VLA：像人类的司机一样去工作的一个模型

科学家使用AI模型发现44个可能存在类地行星的恒星系

真我 10000mAh 概念机亮相：别管性能了，先续上命！

第二代骁龙8至尊版：Oryon架构再进化，AI性能飙升背后藏着

牙膏挤爆！联发科这次真的“杀疯了”，性能功耗赢得双杀