French Gigaword First Edition数据集介绍,官网编号LDC2006T17
2026/6/6 13:29:30 网站建设 项目流程

French Gigaword First Edition(LDC2006T17)是 LDC 于 2006 年发布的大规模法语单语新闻语料库,为法语 NLP 提供十亿词级无标注基础数据,核心用于语言模型预训练、机器翻译与文本理解任务,是法语大规模无标注语料的早期标杆资源。以下从核心信息、内容构成、数据特性、应用价值与局限展开说明。

一、核心基础信息

信息类别详情
数据集全称French Gigaword First Edition
官网编号LDC2006T17
发布机构美国语言数据联盟(LDC)
发布时间2006 年
语料规模约 7.7 亿词,超 100 万个文档,以新闻专线文本为主
语料来源法新社(AFP)等权威新闻机构的法语新闻专线,覆盖政治、经济、体育等多领域
核心用途法语语言模型预训练、法英机器翻译、文本分类、信息检索等
ISBN1-58563-389-5
数据格式SGML,遵循 Gigaword 系列统一 DTD 规范,含标题、发布时间、来源、正文等字段

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询