Hardware Monitoring
다양한 서버 및 GPU 제품군의 하드웨어 관리 지표를 모니터링하고 관리하는 데 필요한 서비스를 제공합니다.
서버 모니터링
CPU, 메모리, IO 사용량을 초 단위로 수집해 순간적으로 발생하는 과부하 및 성능 저하를 실시간으로 분석하고 알려줄 수 있습니다. TTM은 시스템 서비스 관리, 모니터링, 유지보수 및 제어를 위해 Redfish 및 BMC를 사용합니다.
Redfish
Redfish는 DMTF (Distributed Management Task Force)에서 정의한 RESTful API 기반의 하드웨어 관리 표준으로, 서버, 스토리지, 네트워크 장비를 안전하고 효율적으로 제어합니다.

Baseboard Management Controller
BMC
BMC (Baseboard Management Controller)는 컴퓨터 시스템에 장착된 서로 다른 종류의 센서들을 통해 온도, 팬 속도, OS 상태 등 하드웨어 장치의 물리적 상태를 모니터링 할 수 있습니다.
GPU 모니터링
GPU의 사용률, 온도, 전력 소비, 메모리 사용량 등을 지속적으로 확인하고 분석하여 과부하로 인한 성능 저하나 시스템 불안정 문제를 예방하고, 연산 작업의 병목현상을 해결하며 최적의 성능을 유지할 수 있습니다.
Intel® XPU Manager
Intel® XPU Manager는 인텔 데이터 센터 GPU를 로컬 및 원격으로 모니터링하고 관리하기 위한 무료 오픈 소스 솔루션입니다. 이 도구는 관리 작업을 단순화하고, 시스템의 신뢰성과 가동 시간을 최대화하며, 성능을 최적화하는 데 중점을 두고 설계되었습니다.


DCGM
DCGM(Data Center GPU Manager)은 NVIDIA GPU를 사용하는 데이터센터에서 GPU의 상태를 모니터링하고, 성능을 최적화하며, 자동으로 장애를 감지·예방하는 데 사용되는 강력한 관리 도구입니다.
주요 기능
서버 및 GPU 모니터링을 위한 유연한 대시보드, 자동 검색·등록, 실시간 알람 및 이벤트 관리, 보고서 기능을 제공하는 성능 관리 솔루션입니다.
장치 정보 제공
시스템에 설치된 GPU 장치의 세부 정보 확인 지원
GPU 펌웨어 업데이트
GPU의 GFX 및 GFX_DATA 펌웨어 업데이트 지원
GPU 설정 관리
전력 제한, 메모리 ECC 설정, 주파수 범위 등 다양한 GPU 설정을 조회·변경 지원
실시간 통계 모니터링
GPU 활용도, 전력 소비, 온도, 주파수, 메모리 사용량 등 실시간 통계 모니터링 지원
데이터 덤프
GPU의 통계 데이터를 CSV 형식으로 내보내기 지원
자동화된 GPU 진단
GPU 하드웨어 문제를 조기에 감지하여 오류 보고서 생성 및 알림 기능 지원
TTM(Tera Total Management)
서버 및 GPU의 성능과 상태를 모니터링하고 자동 경보 및 문제 분석 기능을 제공합니다.
온프레미스 성능 모니터링 소프트웨어
TTM은 Teratec의 서버 및 GPU 제품군의 하드웨어 지표를
모니터링하는 성능 관리 소프트웨어입니다.
시스템 및 애플리케이션 관리자는 네트워크 내 모든 서비스와
하드웨어 상태를 자동으로 모니터링할 수 있습니다.
인프라 담당자는 검색, 가용성, 성능, 오류 관리 기능을 통해
효율적인 인프라 운영이 가능합니다.
경보 기능을 통해 임계치를 초과하면 이메일 알림을 받을 수 있으며, 클릭 몇 번으로 문제의 원인을 분석할 수 있습니다.


TTM 솔루션의 특징
서버 및 GPU 모니터링을 위한 유연한 대시보드, 자동 검색·등록,
실시간 알람 및 이벤트 관리, 보고서 기능을 지원합니다.
유연한 대시보드 및 개인화
사용자가 원하는 서버 및 GPU 지표를 설정·저장 지원
대시보드 공유·재사용 지원
서버 모니터링
Discovery 기능을 활용해 서버 자동 등록 지원
CPU, 전력, 온도, 네트워크 등 주요 지표를 실시간·기간별 조회 지원
GPU 모니터링
Intel GPU의 설정·모니터링 지원
NVIDIA GPU의 주요 지표 모니터링을 지원
알람 및 이벤트 관리
임계치 초과 시 실시간 Toast 알람 및 이메일 알림 지원
Linux SysLog 이벤트 로그의 체계적인 저장 지원
보고서 기능
일일 종합 보고서를 조회·PDF 저장·인쇄 지원
설정 기능
사용자 관리, 서버·GPU 그룹 관리, 임계치 설정, Intel GPU 설정 관리 지원
System Requirement
TTM 모니터링을 하기 위해서는 필수적으로 Manager Server가 필요합니다. 아래 표는 Manager Server에 대한 H/W, S/W Requirement 입니다.
Hardware Requirement (Data 저장 일수 – 15 day 기준) |
CPU 8 Core 이상 |
Memory 16 GB 이상 |
Disk 64 GB 이상 |
|
Software Requirement |
종류 | Type | 내용 | |
TTM |
OS | Linux | Ubuntu 20.04 이상 | Rocky Linux 8 이상 |
Windows | Windows Server 이상 | |||
BMC 모듈 | Redfish | BMC 모듈 탑제 | ||
Agent |
OS | Linux | Ubuntu 20.04 이상 | Rocky Linux 8 이상 |
Windows | Windows Server 2016 이상 | |||
GPU | Intel | xpumanager | ||
Nvidia | dcgm-exporter |