Tera Total Management

서버와 GPU 성능을 모니터링하고 관리하는 통합 도구

서버 등록 자동화

Discovery 기능으로 서버를 자동 검색하고 등록

대시보드 관리

서버와 GPU 지표를 구성하고 대시보드를 관리 할 수 있음

지표 & 로그 분석

메트릭과 이벤트 로그를 저장하여 문제를 쉽게 파악

사후 분석

다양한 지표를 시간별로 확인하고 문제 요소를 식별하여 디바이스 상태를 정확하게 파악

device Monitoring Management

서버와 GPU 성능을 모니터링하고 관리하는 통합 도구로, IP대역 자동 등록, 개인화 대시보드, 메트릭과 로그 분석, 시계열 자료 분석 기능을 제공합니다.

모니터링 서버 등록 자동화

Discovery 기능을 활용하여 IP 대역 내 모니터링할 서버를 자동으로 검색 및 등록함.

모니터링 서버 등록 자동화

Flexible 대시보드

사용자는 모니터링할 서버와 GPU의 주요 지표를 구성하여 저장 및 관리할 수 있으며, 생성한 대시보드를 다른 사용자와 쉽게 공유하고 재사용할 수 있음.

모니터링 서버 등록 자동화

메트릭 지표와 로그 연계 분석

디바이스의 메트릭 지표와 Linux SysLog 이벤트 로그를 체계적으로 저장하여, 사용자가 한눈에 확인하고 문제를 쉽게 파악가능.

메트릭 지표와 로그 연계 분석

사후 분석

시간 축을 기반으로 다양한 지표를 한 번에 확인할 수 있으며, CPU 사용률, CPU 온도, 트래픽 패킷 처리량 등의 높은 시간대를 특정하여 문제 요소를 식별하고 디바이스 현황을 정확하게 파악할 수 있음.

사후 분석

간편한 서버 관리, 효율적인 성과 분석

Server와 GPU 성능을 시각적으로 분석하여 문제 발생 구간을 즉시 식별하고 빠르게 대응할 수 있습니다.

1st Approach We Follow

Flexible 대시보드 및 개인화

사용자는 개인이 확인하고자 하는 서버와 GPU의 주요 지표를 구성하여 저장하고 관리할 수 있으며, 다른 사용자와 함께 생성한 대시보드를 쉽게 공유하고 재사용할 수 있는 기능도 제공합니다.

2nd Approach We Follow

Server 모니터링

모니터링할 서버를 Discovery 기능을 통해 IP 대역에서 자동으로 검색하고 등록하며, 등록된 서버의 모니터링 지표를 실시간 및 기간별로 조회할 수 있는 기능과 실행 중인 프로세스에 대한 모니터링 기능을 제공합니다.

3rd Approach We Follow

GPU 모니터링

Intel GPU에 대한 모니터링 및 설정 기능을 제공하며, NVIDIA GPU의 주요 지표를 모니터링하는 기능도 지원합니다.

4rd Approach We Follow

이상 탐지 Alarm / Event

임계치 관리에서 설정한 모니터링 대상 서버의 주요 지표가 지정된 구간을 초과할 경우, 실시간으로 알람을 제공하며, 해당 내용을 관리자의 이메일로 발송합니다. 또한, Linux SysLog에서 발생한 이벤트 로그를 체계적으로 저장하여 한눈에 확인할 수 있는 기능도 제공합니다.

System Requirement

TTM 모니터링을 하기 위해서는 필수적으로 Manager Server가 필요합니다. 아래 표는 Manager Server에 대한 H/W, S/W Requirement 입니다.

Hardware Requirement (Data 저장 일수 – 15 day 기준)	CPU 8 Core 이상	Memory 16 GB 이상	Disk 64 GB 이상
Software Requirement	종류	Type	내용
TTM	OS	Linux	Ubuntu 20.04 이상	Rocky Linux 8 이상
		Windows	Windows Server 이상
	BMC 모듈	Redfish	BMC 모듈 탑제
Agent	OS	Linux	Ubuntu 20.04 이상	Rocky Linux 8 이상
		Windows	Windows Server 2016 이상
	GPU	Intel	xpumanager
		Nvidia	dcgm-exporter

COMPANY

PRODUCTS

SOLUTIONS

Services

Implementation Case

OPEN LAB

Open Lab

Tera Total Management

서버 등록 자동화

대시보드 관리

지표 & 로그 분석

사후 분석

device Monitoring Management

모니터링 서버 등록 자동화

Flexible 대시보드

메트릭 지표와 로그 연계 분석

사후 분석

간편한 서버 관리, 효율적인 성과 분석

Flexible 대시보드 및 개인화

Server 모니터링

GPU 모니터링

이상 탐지 Alarm / Event

System Requirement

TGM 으로 Slurm 클러스터를 경험해 보세요!

TGM 으로 Slurm 클러스터를 경험해 보세요!

Total HPC System, All-in-One Packages – tailored to your needs !

Products

Solutions

OpenLab

navigation

HPC Cluster 컨설팅

HPC Cluster 구축

HPC Cluster 통합관리

기술 지원 커스터마이징

Total HPC System, All-in-One Packages
– tailored to your needs !

HPC Cluster
컨설팅

HPC Cluster
구축

HPC Cluster
통합관리

기술 지원

커스터마이징