minimind系统学习教程-预训练(pretrain)
2026/6/30 23:23:59 网站建设 项目流程

文章目录

        • 分词器 tokenizer
分词器 tokenizer

00:00:23] Pre-processing sequences ███████████████████████████████████████████████████████████████ 0 / 0
[00:00:41] Tokenize words ███████████████████████████████████████████████████████████████ 21766615 / 21766615
[00:01:35] Count pairs ███████████████████████████████████████████████████████████████ 21766615 / 21766615
[01:00:30] Compute merges ███████████████████████████████████████████████████████████████ 6141 / 6141
Tokenizer training completed and saved.
<|im_start|>system
你是一个优秀的聊天机器人,总是给我正确的回应!<|im_end|>
<|im_start|>user
你来自哪里?<|im_end|>
<|im_start|>assistant
我来自地球<|im_end|>

tokenizer实际词表长度: 6400
encoder长度: 38
decoder和原始文本是否一致: Tr

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询