Hardware Monitoring

다양한 서버 및 GPU 제품군의 하드웨어 관리 지표를 모니터링하고 관리하는 데 필요한 서비스를 제공합니다.

서버 모니터링

CPU, 메모리, IO 사용량을 초 단위로 수집해 순간적으로 발생하는 과부하 및 성능 저하를 실시간으로 분석하고 알려줄 수 있습니다. TTM은 시스템 서비스 관리, 모니터링, 유지보수 및 제어를 위해 Redfish 및 BMC를 사용합니다.

Redfish

Redfish는 DMTF (Distributed Management Task Force)에서 정의한 RESTful API 기반의 하드웨어 관리 표준으로, 서버, 스토리지, 네트워크 장비를 안전하고 효율적으로 제어합니다.

BMC

Baseboard Management Controller

BMC

BMC (Baseboard Management Controller)는 컴퓨터 시스템에 장착된 서로 다른 종류의 센서들을 통해 온도, 팬 속도, OS 상태 등 하드웨어 장치의 물리적 상태를 모니터링 할 수 있습니다.

GPU 모니터링

GPU의 사용률, 온도, 전력 소비, 메모리 사용량 등을 지속적으로 확인하고 분석하여 과부하로 인한 성능 저하나 시스템 불안정 문제를 예방하고, 연산 작업의 병목현상을 해결하며 최적의 성능을 유지할 수 있습니다.

Intel® XPU Manager

Intel® XPU Manager는 인텔 데이터 센터 GPU를 로컬 및 원격으로 모니터링하고 관리하기 위한 무료 오픈 소스 솔루션입니다. 이 도구는 관리 작업을 단순화하고, 시스템의 신뢰성과 가동 시간을 최대화하며, 성능을 최적화하는 데 중점을 두고 설계되었습니다.

DCGM

DCGM(Data Center GPU Manager)은 NVIDIA GPU를 사용하는 데이터센터에서 GPU의 상태를 모니터링하고, 성능을 최적화하며, 자동으로 장애를 감지·예방하는 데 사용되는 강력한 관리 도구입니다.

주요 기능

서버 및 GPU 모니터링을 위한 유연한 대시보드, 자동 검색·등록, 실시간 알람 및 이벤트 관리, 보고서 기능을 제공하는 성능 관리 솔루션입니다.

장치 정보 제공

시스템에 설치된 GPU 장치의 세부 정보 확인 지원

GPU 펌웨어 업데이트

GPU의 GFX 및 GFX_DATA 펌웨어 업데이트 지원

GPU 설정 관리

전력 제한, 메모리 ECC 설정, 주파수 범위 등 다양한 GPU 설정을 조회·변경 지원

실시간 통계 모니터링

GPU 활용도, 전력 소비, 온도, 주파수, 메모리 사용량 등 실시간 통계 모니터링 지원

데이터 덤프

GPU의 통계 데이터를 CSV 형식으로 내보내기 지원

자동화된 GPU 진단

GPU 하드웨어 문제를 조기에 감지하여 오류 보고서 생성 및 알림 기능 지원

TTM(Tera Total Management)

서버 및 GPU의 성능과 상태를 모니터링하고 자동 경보 및 문제 분석 기능을 제공합니다.

온프레미스 성능 모니터링 소프트웨어

TTM은 Teratec의 서버 및 GPU 제품군의 하드웨어 지표를
모니터링하는 성능 관리 소프트웨어입니다.

시스템 및 애플리케이션 관리자는 네트워크 내 모든 서비스와
하드웨어 상태를 자동으로 모니터링할 수 있습니다.

인프라 담당자는 검색, 가용성, 성능, 오류 관리 기능을 통해
효율적인 인프라 운영이 가능합니다.

경보 기능을 통해 임계치를 초과하면 이메일 알림을 받을 수 있으며, 클릭 몇 번으로 문제의 원인을 분석할 수 있습니다.

TTM 솔루션의 특징

서버 및 GPU 모니터링을 위한 유연한 대시보드, 자동 검색·등록,
실시간 알람 및 이벤트 관리, 보고서 기능을 지원합니다.

유연한 대시보드 및 개인화

사용자가 원하는 서버 및 GPU 지표를 설정·저장 지원

대시보드 공유·재사용 지원

서버 모니터링

Discovery 기능을 활용해 서버 자동 등록 지원

CPU, 전력, 온도, 네트워크 등 주요 지표를 실시간·기간별 조회 지원

GPU 모니터링

Intel GPU의 설정·모니터링 지원

NVIDIA GPU의 주요 지표 모니터링을 지원

알람 및 이벤트 관리

임계치 초과 시 실시간 Toast 알람 및 이메일 알림 지원

Linux SysLog 이벤트 로그의 체계적인 저장 지원

보고서 기능

일일 종합 보고서를 조회·PDF 저장·인쇄 지원

설정 기능

사용자 관리, 서버·GPU 그룹 관리, 임계치 설정, Intel GPU 설정 관리 지원

System Requirement

TTM 모니터링을 하기 위해서는 필수적으로 Manager Server가 필요합니다. 아래 표는 Manager Server에 대한 H/W, S/W Requirement 입니다.

Hardware Requirement

(Data 저장 일수 – 15 day 기준)

CPU

8 Core 이상

Memory

16 GB 이상

Disk

64 GB 이상

Software Requirement

종류 Type 내용

TTM

OS Linux Ubuntu 20.04 이상 Rocky Linux 8 이상
Windows Windows Server 이상
BMC 모듈 Redfish BMC 모듈 탑제

Agent

OS Linux Ubuntu 20.04 이상 Rocky Linux 8 이상
Windows Windows Server 2016 이상
GPU Intel xpumanager
Nvidia dcgm-exporter