收藏!小白程序员必看:揭秘 Anthropic、OpenAI 等大模型构建核心——智能体脚手架工程
2026/4/21 8:13:21
在网页聚类中,除了常见的链接分析方法外,网页图的链接结构也可用于网页聚类。其基本假设是,通过超链接相连的两个网页比没有链接的网页更可能属于同一主题。因此,链接的质量和数量可以作为聚类过程中的距离度量。
ROCK(Robust Clustering using linKs)算法最初由Guha等人在2000年为分类数据聚类而创建,因其数据表示方式特别适合超链接。该算法区分了点的邻居和链接,为避免与超链接混淆,这些链接被称为ROCK - 链接。
如果相似函数sim : X × Y → R+的值超过某个阈值sim(x, y) ≥ θ (0 ≤ θ < 1),则两点x和y被定义为邻居。不过在处理网页图时,后续会用适合网页图的不同定义来替代与阈值的相似度比较,因此不再需要sim函数。两点x和y的共同邻居数量被称为ROCK - 链接ro