Skip to content

监控系统和应用状态

Olares 的仪表盘应用为系统状态提供集中且直观的视图,无需复杂的技术背景即可获取系统实时状态信息。通过仪表盘,你可以监控关键资源使用情况,并查看集群的实时详细指标。

访问监控仪表板

通过以下专业仪表板查看系统状态:

  • 概览:显示当前资源使用情况和系统健康状态。
  • 应用:显示运行中的应用及其状态。

概览

概览页面提供了一个全面、一目了然的视图,用于查看 Olares 系统健康状况和资源利用率。它分为以下几个关键部分:

  • 集群物理资源
  • 用户资源使用情况
  • 使用率排名

查看集群物理资源

你可以直接从集群物理资源仪表盘监控以下基本资源的当前状态:

  • CPU 利用率
  • 内存消耗
  • 磁盘使用率
  • Pod 状态
  • GPU 使用率
  • 网络状态

集群物理资源

访问详细资源面板

要对任何资源进行更深入的分析,只需点击集群物理资源仪表板上的相应卡片以进入对应的详细面板,获取全面的监控数据和指标。

CPU 面板

CPU 面板提供了 Olares 集群 CPU 性能和健康状况的细节视图。要访问它,请点击集群物理资源仪表盘上的 CPU卡片。

CPU 面板

此面板显示:

  • 实时 CPU 利用率图。
  • 节点 CPU 规格(型号、核心数、线程数)。
  • 利用率明细(用户、系统、I/O 等待)。
  • 当前 CPU 温度。
  • 1、5 和 15 分钟的平均负载。

内存面板

内存面板提供了 Olares 集群内存使用和分配的清晰视图。要访问它,请点击集群物理资源仪表盘上的内存卡片。

内存面板

你可以使用下拉菜单在物理内存交换空间视图之间切换。

  • 选择物理内存时,它显示:

    • 实时内存利用率图。
    • 内存使用明细,包括预留、已用、缓冲、缓存和可用内存,以及总内存和利用率。
  • 选择交换空间时,它显示:

    • 实时交换空间使用图。
    • 交换空间进/出速率。
    • 交换空间概要(总计、已用和利用率)。

磁盘面板

磁盘面板提供了 Olares 存储设备的全面视图,可监控 Olares 集群中的磁盘健康状况、追踪存储消耗并分析空间分配。

要访问它,请点击集群物理资源仪表盘上的磁盘卡片。

此面板显示:

  • 整体存储状态:磁盘名称、存储状态以及显示已用和可用空间的用量条。
  • 详细信息:关键设备规格,如总容量、型号、序列号、接口协议、温度、通电时长和写入量。

点击右上角的占用分析,可获得特定存储设备的用量明细:

占用分析

  • 磁盘上的文件系统(分区)列表。
  • 对于每个文件系统,你可以查看存储指标,如总容量、已用空间、可用空间、用量和挂载点。

Pods 面板

Pods 面板提供了应用程序部署状态的动态视图。Pod 数量实时图表,可显示集群中不同节点上随时间变化的活跃 Pod 数量。

Pods 面板

要访问它,请点击集群物理资源仪表盘上的 Pods 卡片。

GPU 面板

GPU 面板提供了集群中所有 GPU 设备的信息。使用此面板可有效监控集群中的 GPU 健康状况、资源分配和性能。

要访问它,请点击集群物理资源仪表盘上的 GPU 卡片。

GPU 面板

此面板包含两个选项卡:

  • GPU 管理:查看所有检测到的 GPU 列表,包括其 GPU ID、型号、GPU 模式(如显存切片)、主机节点、健康状态、计算功耗、显存使用率和功耗。

    要查看某块 GPU 的详细信息,请点击其条目右侧的查看详情

  • 任务管理:监控当前正在使用 GPU 的任务。它提供对任务名称、状态、GPU 模式、主机节点、计算功耗和已用显存的洞察,以及可用的操作。

网络面板

网络面板提供了 Olares 所连接的网络接口信息,可用于监控网络连接、流量和配置,确保网络性能稳定。

网络面板

要访问它,请点击集群物理资源仪表盘上的网络卡片。

该面板显示:

  • 网络端口信息:每个网络端口的详细信息(例如,wlo1),包括其使用状态、实时上传和下载速度以及连接状态。

  • IP 配置:IP 获取方法(例如,DHCP)、所属节点和网络配置的信息。

  • IPv4 和 IPv6 详细信息:IPv4 和 IPv6 的全面详细信息,包括地址、子网掩码、网关地址、DNS 和网络状态。

查看详细资源指标

点击详情,可查看特定时间段的动态监控数据。

使用右上角的下拉菜单更改时间范围,或点击 refresh 更新监控数据。

以下指标帮助你保持系统的最佳性能:

指标描述影响
CPU 用量CPU 资源的使用百分比持续高峰会导致系统变慢
内存用量内存的使用百分比影响应用性能和稳定性
CPU 平均负载活跃进程的平均数量高负载表明系统过载
磁盘用量磁盘空间的使用百分比对数据可靠性至关重要,需防止过度使用
Inode 用量Inode 的使用百分比耗尽将阻止新文件的创建
磁盘吞吐数据传输速率(MB/s)对大文件传输非常重要
IOPS每秒输入/输出操作数对小文件或随机数据访问至关重要
网络流量网络使用情况(Mbps)反映网络速度和质量
容器组状态按状态划分的 Pod 数量反映应用的健康状态

Physical resource monitoring

查看用户资源配额

你可以查看 Olares 管理员分配的资源配额。

Resource quota

警告

当资源配额不足时,可能会出现以下问题:

  • 系统性能下降。
  • 无法安装新应用。
  • 资源密集型应用会自动暂停。

追踪应用性能

使用排名面板显示 CPU 和内存资源消耗最高的前 5 个应用。要查看完整的应用资源使用列表,点击更多

Usage ranking

应用

应用仪表面板帮助你通过多种排序和筛选选项监控应用的资源使用模式。

使用右上角的下拉菜单,根据以下资源消耗指标排序应用:

  • CPU 使用率
  • 内存使用率
  • 入站流量
  • 出站流量

Applications

在升序和降序之间切换,找出资源消耗最高或最低的应用。

对于支持多入口的应用(如 WordPress),你可以点击图标切换不同入口类型,并查看其对应的资源指标。

提示

  • 当应用列表较长时,可通过页面顶部的搜索框快速定位特定应用。
  • 定期检查资源消耗模式可帮助你识别可能需要优化或关注的应用。