Hadoop新手别慌！手把手教你读懂HDFS和YARN的Web管理界面（附端口号与关键指标解读）-酒店常州论坛

Hadoop新手别慌！手把手教你读懂HDFS和YARN的Web管理界面（附端口号与关键指标解读）

第一次登录Hadoop集群的Web管理界面时，那些密密麻麻的数字和图表确实容易让人头晕。记得我刚开始接触时，盯着8088端口那个不断跳动的资源使用率图表看了半小时，愣是没搞明白它想告诉我什么。后来才发现，理解这些界面其实有章可循——关键是要知道每个页面上哪些指标真正值得关注。

1. 从HDFS开始：你的数据管家

HDFS的Web界面通常运行在50070端口（新版本可能是9870），这是整个分布式文件系统的控制中心。别被那些复杂的术语吓到，我们只需要关注几个核心区域。

1.1 Overview页面：集群健康体检表

打开首页，你会看到这样几个关键指标：

指标名称	正常范围	异常处理建议
Configured Capacity	应与物理磁盘总容量匹配	若显著偏小，检查DataNode连接
DFS Used%	<70%	超过阈值需考虑扩容或清理数据
Under replicated blocks	应为0	出现数值需检查网络或存储故障
Missing blocks	必须为0	立即检查磁盘损坏或节点宕机

小技巧：我习惯把Overview页面设为浏览器首页，每天早上一打开就能对集群状态有个整体把握。

1.2 DataNodes页面：工人状态监控

这个页面列出了所有工作节点，重点关注以下列：

Last Contact：超过5分钟未上报的节点可能已经失联
Used%：单个节点使用率超过90%会影响数据均衡
Failed Volumes：出现故障的磁盘会降低数据可靠性

# 快速检查异常节点（适用于命令行） hdfs dfsadmin -report | grep -E 'Live|Dead'

注意：如果发现某个节点反复出现"Decommissioning"状态，很可能是网络不稳定导致的通信中断。

2. YARN界面：资源调度指挥官

YARN的Web UI默认在8088端口，这里掌控着所有计算资源的分配。与HDFS不同，YARN的界面更关注动态变化的作业状态。

2.1 Cluster Metrics：资源大盘

页面顶部的集群指标就像汽车的仪表盘，需要特别留意：

Memory TotalvsMemory Used：如果持续高于80%，考虑增加节点或优化作业
VCores TotalvsVCores Used：CPU资源的紧张程度
Active Nodes：突然减少可能预示节点故障

真实案例：曾遇到一个Spark作业突然变慢，检查发现是某个节点的内存使用长期处于95%以上，导致该节点上的容器频繁被杀死重启。

2.2 Applications页面：作业追踪器

这里可以看到所有运行中和历史作业，关键操作包括：

使用Filters快速定位问题作业：
- 状态筛选：FAILED、KILLED状态的作业需要优先检查
- 用户筛选：当多人共用集群时特别有用
点击具体作业ID后，重点关注：
- Attempts标签页：查看失败尝试的日志
- Counters标签页：Map/Reduce阶段的详细统计

# 获取正在运行的应用列表 yarn application -list -appStates RUNNING

3. 故障排查黄金路线图

当收到集群告警时，按照这个顺序检查效率最高：

HDFS Overview：确认存储系统是否健康
DataNodes：检查是否有节点掉线
YARN Cluster Metrics：查看资源使用峰值
Applications：定位异常作业

提示：养成定期截图记录正常状态的习惯，异常时对比更容易发现问题。

4. 高级技巧：自定义监控视图

对于需要长期观察的指标，可以：

使用浏览器书签保存特定过滤条件的URL
配合Grafana等工具将关键指标可视化
设置Chrome自动刷新插件（每30秒）

个人经验：我把集群的Overview页面和关键作业页面分别放在两个显示器上，运维时一目了然。

5. 安全警示与最佳实践

修改默认端口号（50070/8088）以增强安全性
定期清理Completed Applications列表（超过1000条会影响性能）

重要操作前先做快照：

# 创建HDFS快照 hdfs dfsadmin -allowSnapshot /important_data hdfs dfs -createSnapshot /important_data backup_$(date +%Y%m%d)

记住，这些界面不只是监控工具，更是理解集群行为的窗口。有次发现某个作业总是卡在75%，查看Application Attempts才发现是某个Reduce任务处理的数据量异常大——这就是界面数据带给我们的洞察力。

企业官网建设流程全解析