风火轮又出新品啦——YY3588
YY3588是风火轮打造的一款高性能AIoT开发板,AIoT即Artificial Intelligence of Things,指的是人工智能技术与物联网的融合应用,以实现万物智联。
随着大模型轻量化技术的突破,边缘设备运行百亿参数级模型成为可能。本文以瑞芯微RK3588旗舰开发板YY3588为硬件平台,实测其在部署深度求索(DeepSeek)系列模型的性能表现,探索大模型在边缘计算场景的落地潜力。
一、硬件与软件环境配置
1.1 YY3588开发板基础配置
1.1.1 核心硬件
-NVMe SSD 512GB(扩展至PCIe 3.0×4接口)
开发板提供了灵活的内存和存储配置选项。内存方面,支持多种规格的LPDDR4内存,最高可达16GB,满足了不同应用场景的需求。存储方面,则提供了eMMC、SATA SSD以及MicroSD卡槽等多种选择,最大可支持256GB的eMMC存储,确保了足够的数据存储空间。
1.1.2 软件栈
二、DeepSeek模型部署
2.1 模型选择与优化
- 模型体积缩减至1.2GB(压缩率72%)
- 内存占用量从12GB降至3.8GB
2.2 Deepseek-R1 1.5b 大模型部署关键步骤
2.2.1 ubuntu22.04 主机环境搭建
# 下载rknn-llm
git clone https://github.com/airockchip/rknn-llm.git
# 安装 miniforge3 和 conda
wget -c https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-Linux-x86_64.sh
chmod 777 Miniforge3-Linux-x86_64.sh
./Miniforge3-Linux-x86_64.sh
## 确认是否安装成功
conda -V
2.2.2 创建 RKLLM-Toolkit Conda 环境
source ~/miniforge3/bin/activate
conda create -n RKLLM-Toolkit python=3.8
conda activate RKLLM-Toolkit
pip3 install rkllm-toolkit/packages/rkllm_toolkit-1.1.4-cp38-cp38-linux_x86_64.whl
# 检查是否安装成功(无报错则安装成功)
python
2.2.3 DeepSeek-R1-1.5B HunggingFace转换成RKLLM模型
2.2.3.1 下载模型及转换模型
cd examples/DeepSeek-R1-Distill-Qwen-1.5B_Demo/export/
python export_rkllm.py
转换之后的模型为:
DeepSeek-R1-Distill-Qwen-1.5B.rkllm
2.2.3.2 编译库和demo
cd examples/DeepSeek-R1-Distill-Qwen-1.5B_Demo/deploy/
bash build-linux.sh
rknn-llm/examples/DeepSeek-R1-Distill-Qwen-1.5B_Demo/deploy/install/demo_Linux_aarch64$ ls
lib llm_demo
2.2.4 在板端运行模型
将库、demo和转换模型推送到板端
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:./lib
export RKLLM_LOG_LEVEL=1
./llm_demo DeepSeek-R1-Distill-Qwen-1.5B.rkllm 10000 10000
2.2.4.1 相关资料下载
2.2.4.2 运行过程截图及视频链接
三、性能实测对比
3.1 推理速度测试(输入长度256 tokens)
运行模式 | 首token延迟 | 吞吐量 (tokens/s) | 功耗 |
CPU(A76四核) | 850ms | 4.2 | 8.1 |
GPU(Mali-G610) | 420ms | 9.8 | 6.5 |
NPU(INT8量化) | 220ms | 18.5 | 4.3 |
3.2 极限压力测试
- 资源占用:NPU 85% / 内存 12GB / 温度72℃
- 响应延迟波动:±15%(优于Xavier NX表现)
- 显存管理:通过mmap实现分块加载,避免OOM
四、典型应用场景验证
4.1. 智能客服系统
- 响应时间:平均1.2秒/轮(含网络传输)
- 准确率:88.7%(对比云端API的92.1%)
- 断网环境下仍可维持基础服务
4.2 本地化知识库检索
4.2.1 架构设计:
```mermaid
graph LR
A[用户提问] --> B(Embedding模型)
B --> C[FAISS向量库]
C --> D[DeepSeek生成答案]
D --> E[输出响应]
```
4.2.2 性能表现:
- 百万级文档检索延迟:<300ms
- 支持RAG增强生成模式
五、横向对比与场景建议
对比项 | YY3588+DeepSeek | 树莓派5+Llama 2-7B | Jetson Orin+DeepSeek |
单次推理功耗 | 4.3W | 7.8W | 12.3W |
tokens/¥能耗比 | 428 | 196 | 315 |
典型适用场景 | 企业级边缘推理网关 | 教育/轻量级实验 | 高性能机器人主控 |
六、总结
YY3588与DeepSeek的组合验证了边缘端大模型部署的可行性,其NPU与软件栈的深度协同优化展现了国产芯片生态的进步。尽管在超长文本处理和超大规模模型支持上仍有局限,但已足够打开智能终端设备的新想象空间。
更新时间:2025-05-09
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号