网页失效严重,互联网档案馆时光机拯救15%失效网页,网络存档仍任重道远
2026/7/4 18:47:32 网站建设 项目流程

虽已消逝,但未被遗忘:拯救逝去的网络

皮尤研究中心的一项研究发现,十年前38%的网页以及过去十年间抽样的网页中约25%如今已无法访问;互联网档案馆的时光机(Wayback Machine)拯救了大约15%原本已失效的网页。

多项研究揭示网页链接失效现状

2024年,皮尤研究中心发布《当在线内容消失时》,指出2013年存在的网页中,38%在十年后无法访问,2013 - 2023年间曾存在的网页中,四分之一已无法访问。同年,SEO公司Ahrefs报告称,过去九年中,至少66.5%的网站链接已失效。2021年,乔纳森·齐特林团队分析《纽约时报》文章约200万个外部链接,发现25%的深层链接已失效,1998年的旧链接中72%已无法使用。老自治领大学近期研究分析时光机自1996年以来的2730万个URL样本,2023年检查时,约65%的抽样URL在实时网络上已失效。互联网档案馆创始人布鲁斯特·卡勒指出网页平均寿命在40至100天之间。2026年出版的《消逝的文化:关于我们脆弱文化记录的报告》强调文化数字内容流失原因及图书馆和档案馆的关键作用。

时光机拯救失效网页情况

不同研究抽样的已失效和被拯救网页情况如下:皮尤(全量)2024年研究,2013 - 2023年,样本540万,失效比例26%,拯救比例16%;皮尤(通用)2024年研究,2013 - 2023年,样本100万,失效比例27%,拯救比例13%;齐特林《纽约时报》2021年研究,2013 - 2013年,样本8.8万,失效比例40%,拯救比例38%;ODU纽约公共网页2024年研究,1996 - 2021年,样本2730万,失效比例65%,拯救比例65%。

皮尤研究中心研究详情

皮尤研究中心与互联网档案馆分享数据集,该数据集含540万个唯一URL。若不考虑网络档案馆,约四分之一抽样URL无法访问或已失效;利用时光机后,无法访问或已消失的URL比例从四分之一降至十分之一。时光机已存档约72%的数据集,其中56%是实时网络上仍存活的URL,16%是从失效URL中拯救出来的。样本中18%的URL仍存活但未在时光机中存档,为濒危URL。皮尤数据集中约100万个URL的子集是过去十年通用网页样本,2023年约四分之一的URL已失效,2013年的链接失效比例高达38%,其中约38%(总数约15%)被时光机拯救,通用样本中被视为失效的累积URL中,约四分之一的一半被时光机拯救。

齐特林研究及老自治领大学研究情况

互联网档案馆未获取齐特林关于《纽约时报》外部链接研究的数据集,自行创建约8.8万个URL的数据集。发现2013年《纽约时报》页面的外部链接中,40%在实时网络上已失效,但96%的URL已在时光机中存档,样本中约2%的URL已消失。老自治领大学研究分析时光机索引中2730万个URL,1996 - 2021年抽样的URL中,约65%在2023年已失效,所有已失效的URL都被时光机拯救,无法给出濒危或已消失URL的比例。

网络存档任重道远

所有关于链接失效的研究表明网络脆弱,随着时间推移,失效网络资源增多。时光机等网络档案馆在拯救失效网络内容、减少网络知识图谱断裂方面作用重要,但仍有许多工作要做。如“让所有引用变蓝”(TARB)项目已修复数百个维基上超过3000万个失效链接。互联网档案馆通过多种方式减少文化遗产潜在损失,如引入新数据、加入IndexNow倡议、提供“立即保存页面”服务等,还呼吁大家“看到即保存”。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询