什么是 电鱼智能 EFISH-SBC-RK3576?
电鱼智能 EFISH-SBC-RK3576是一款专为 AIoT 边缘计算打造的中高端嵌入式平台。它搭载Rockchip RK3576SoC(8nm 工艺),集成了4×Cortex-A72 + 4×Cortex-A53处理器。
对于互动橱窗场景,它最大的亮点在于其 NPU 性能实现了“越级”:拥有与旗舰 RK3588 同架构的6 TOPS NPU,但整机成本大幅降低。此外,它内置的RGA (2D 硬件加速引擎)能够独立处理图像的缩放、裁剪和格式转换,彻底解放 CPU。
![电鱼智能 EFISH-SBC-RK3576 主板:NPU 标识与 RGA 硬件架构示意图]
为什么 互动橱窗会出现“高并发延迟”?(瓶颈分析)
当摄像头画面中只有 1 个人时,大多数芯片都能流畅运行。但当人数增加到 10 人时,系统负载呈指数级上升:
CPU 预处理瓶颈:从 4K 画面中裁剪出 10 张人脸小图并缩放到 112x112,如果用 CPU (OpenCV) 做,会消耗大量时间。
NPU 串行推理瓶颈:如果检测到 10 张人脸,NPU 逐个运行 10 次推理,排队等待时间过长。
内存带宽瓶颈:图像数据在 CPU 和 NPU 之间反复拷贝,导致总线拥堵。
RK3576 的破局之道:
RGA 加速:用硬件 RGA 替代 CPU 做图像裁剪缩放,速度快 10 倍。
NPU 并行:6 TOPS 算力支持多路模型并发,或大 Batch 吞吐。
系统架构与优化链路 (System Architecture)
本方案构建了一个“硬件加速全链路”的视觉处理管道。
优化前 vs 优化后
| 步骤 | 传统方案 (RK3568 / OpenCV) | 电鱼 RK3576 优化方案 | 耗时对比 (10人场景) |
| 图像预处理 | CPU 软件缩放 (Resize) | RGA 硬件零拷贝缩放 | 50ms ->5ms |
| 人脸检测 | 小模型 (320x320) | 高精度模型 (640x640) | 准确率提升 |
| 特征提取 | 串行推理 (Loop 10次) | Batch 推理 (一次处理10张) | 200ms ->40ms |
| 特效渲染 | CPU 渲染 | GPU (G52) 渲染 | 流畅 60fps |
| 总延迟 | > 300ms (卡顿) | < 60ms (无感) | 5倍提升 |
关键技术实现 (Implementation)
1. 利用 RGA 实现“零拷贝”预处理 (C++)
在将图像送入 NPU 之前,使用 Rockchip 专有的 RGA 库进行硬件裁剪和缩放,不占用 CPU。
C++
#include "im2d.h" #include "rga.h" // src_buf: 摄像头原始 4K 数据 // dst_buf: NPU 需要的 640x640 数据 rga_buffer_t src = wrapbuffer_virtualaddr(src_ptr, 3840, 2160, RK_FORMAT_RGB_888); rga_buffer_t dst = wrapbuffer_virtualaddr(dst_ptr, 640, 640, RK_FORMAT_RGB_888); // 初始化 RGA imresize(src, dst); // 说明:此操作在 RK3576 上仅耗时约 2-3ms,且 CPU 占用率为 0%。2. NPU 批量推理 (Batch Inference)
在人脸识别(特征提取)阶段,不要一张一张跑,而是将多张人脸拼成一个 Batch 一次性送入 NPU。
Python
from rknnlite.api import RKNNLite import numpy as np # 假设检测到了 8 张人脸 faces = [face1, face2, ..., face8] # 每个 face 是预处理好的 112x112 图片 # 补齐到 Batch Size (例如 8) input_data = np.stack(faces, axis=0) # NPU 一次性推理 # RK3576 的 6TOPS 算力足以支撑多 Batch 并行 outputs = rknn.inference(inputs=[input_data]) # outputs 包含 8 个人脸的特征向量,直接用于比对场景实测:高并发表现
在电鱼智能 EFISH-SBC-RK3576平台上,运行RetinaFace (检测) + MobileFaceNet (识别)算法组合:
1 人场景:端到端延迟 < 30ms,特效如影随形。
5 人场景:端到端延迟 < 45ms,所有人的头顶特效(如虚拟猫耳朵)紧贴头部,无漂移。
10 人场景:端到端延迟 < 80ms。虽然略有增加,但依然低于人眼感知的卡顿阈值(100ms),互动体验依然流畅。
对比测试:同场景下,使用 1 TOPS 的 RK3568,5 人以上延迟即超过 200ms,出现明显的“慢半拍”现象。
常见问题 (FAQ)
Q1: 6 TOPS 算力如果跑满了,会影响广告视频播放吗?
A: 不会。RK3576 采用了优秀的异构架构。
AI 计算跑在 NPU 上。
视频解码跑在 VPU (视频处理单元) 上。
UI/特效跑在 GPU 上。
业务逻辑 跑在 CPU 上。
四者各司其职,互不抢占资源。即使 AI 满载,背景的 4K 视频依然可以 60fps 流畅播放。
Q2: 摄像头推荐使用 USB 还是 MIPI?
A: 对于高并发场景,推荐使用 MIPI CSI 摄像头。
MIPI 数据直接进入 ISP 和内存,延迟最低。
USB 摄像头需要经过 USB 控制器和 CPU 拆包,会增加约 30-50ms 的系统延迟,且占用 CPU 资源。电鱼 RK3576 主板板载了双路 MIPI 接口。
Q3: 如何处理过热降频问题?
A: RK3576 采用 8nm 工艺,能效比极高。在 10 人并发的高负载下,核心温度通常在 60-70°C。电鱼智能主板配备了专用的铝合金散热片,足以保证长期稳定运行,无需担心降频导致卡顿。