35、Elasticsearch 近似聚合与显著词分析
2026/5/10 4:09:55 网站建设 项目流程

Elasticsearch 近似聚合与显著词分析

1. 基数度量(Cardinality Metric)

基数度量是一种近似算法,基于 HyperLogLog++(HLL)算法。HLL 通过对输入进行哈希处理,并利用哈希值的位来对基数进行概率估计。

1.1 算法特性
  • 可配置精度:精度控制内存使用,精度越高,内存使用越多。
  • 低基数集的高精度:在低基数集合上具有出色的准确性。
  • 固定内存使用:无论唯一值是数千还是数十亿,内存使用仅取决于配置的精度。
1.2 精度配置

要配置精度,需指定precision_threshold参数。该阈值定义了基数预计非常接近准确值的点。例如:

GET /cars/transactions/_search?search_type=count { "aggs" : { "distinct_colors" : { "cardinality" : { "field" : "color", "precision_threshold" : 100 } } } }

precision_threshold接受 0 -

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询