GTE中文嵌入模型开源大模型:MIT协议+完整代码+离线部署能力
2026/4/7 11:46:12
在瑞芯微的RK3576上实现TTS(文本转语音)功能,使用CPU实现时,几乎把CPU资源全部耗尽,没有实用价值。通过将MeloTTS转为onnx,再转为RKNN,来使用RK3576的NPU硬件加速,成功实现TTS
tokenizers 专门用于将“原始自然语言文本”转换为“AI 模型可理解的数字格式”的工具集;
它是 NLP(自然语言处理)领域模型训练和推理的“前置必备工具”。
因为 AI 模型(如 BERT、GPT)无法直接理解文字,只能处理数字张量,tokenizers就是完成 “文本→数字” 转换的核心桥梁。
1)Token(词元):文本的最小处理单元
在 NLP 中,Token是对原始文本进行拆分后得到的最小有效单元,不同场景下拆分方式不同,常见类型有: