Triton模型服务化实战:从Jupyter到高可用生产部署
2026/6/6 5:53:08
Arabic News Translation Text Part 1(LDC2004T15)是 LDC 发布的阿拉伯语 - 英语新闻翻译平行文本语料库,以阿拉伯语新闻专线文本为源语、人工翻译的英语文本为目标语,提供句级对齐的高质量双语文本,适配机器翻译、双语对齐、阿拉伯语 NLP 模型训练等任务,是早期阿拉伯语 - 英语翻译资源的重要基准。以下是详细介绍:
| 项目 | 详情 |
|---|---|
| 发布机构 | LDC(Linguistic Data Consortium) |
| 发布时间 | 2004 年 |
| 数据集编号 | LDC2004T15 |
| 数据规模 | 约 18,000 句阿拉伯语新闻文本 + 对应人工翻译英语句,覆盖政治、经济、国际事件等新闻主题 |
| 文本类型 | 阿拉伯语新闻专线文本(Newswire) |
| 标注体系 | 句级对齐、人工翻译质量控制(符合 LDC 阿拉伯语 - 英语翻译规范) |
| 应用场景 | 机器翻译(阿拉伯语 - 英语)模型训练与评测、双语词典构建、跨语言句法分析、命名实体对齐 |
| 配套资源 | 翻译规范文档、句对齐工具、文本格式转换脚本 |