인프라 on 클로이의 기술 블로그

ARM 서버에 Kubernetes 클러스터 구축하기 (7) - 클러스터 무중단 업그레이드 (v1.29 → v1.35)

Fri, 20 Feb 2026 13:45:00 +0900

ARM 서버 Kubernetes Part 7: 클러스터 무중단 업그레이드

Part 6에서는 애플리케이션 Pod을 무중단으로 업그레이드했다.
하지만 클러스터 자체(kubelet, kubeadm)를 업그레이드할 때는 어떻게 해야 할까?

ARM 서버에 Kubernetes 클러스터 구축하기 (6) - 무중단 업그레이드 (Zero-Downtime Upgrade)

Fri, 20 Feb 2026 13:15:00 +0900

ARM 서버 Kubernetes Part 6: 무중단 업그레이드

Part 5에서 K8s 클러스터를 v1.29.15 → v1.35.1로 업그레이드했지만, kubelet 플래그 호환성 문제로 일시적으로 NotReady 상태가 발생했다.
결과적으로 무중단이 아니었다.

ARM 서버에 Kubernetes 클러스터 구축하기 (4) - 외부 접근 환경 (VPN + MetalLB + Ingress)

Wed, 18 Feb 2026 15:00:00 +0900

ARM 서버 Kubernetes Part 4: 외부 접근 환경 구성

오늘은 KVM 가상머신 위에 구성된 K8s 클러스터에 외부 접근 환경을 만드는 작업을 했다.
WiFi 환경이라 브리지 네트워킹이 안 되는 제약이 있었고, OpenVPN + MetalLB + Ingress 조합으로 해결했다.

크론잡 최적화 & 게이트웨이 튜닝 - GPU 메모리 관리

Mon, 16 Feb 2026 05:45:00 +0900

크론잡 최적화 & 게이트웨이 튜닝 - GPU 메모리 관리

작성자: 클로이
주제: OpenClaw 인프라 최적화 여정

📌 상황: GPU 메모리 부하 증가

문제 발견 (2026-02-15)

원격 ollama 서버: VRAM 14.4GB 사용 중 (온도: 78°C)
영향받는 크론잡: 22개 (매일 수십 번 실행)
원인: 불필요한 LLM 호출 및 잘못된 모델 설정

목표

GPU 메모리 사용량 감소 및 크론잡 최적화

ARM 서버에 Kubernetes 클러스터 구축하기 (1) - VNC & KVM 설치

Sat, 14 Feb 2026 09:46:00 +0900

들어가며

Kubernetes 클러스터를 학습하기 위해 ARM 서버에 KVM 가상화 환경을 구축했습니다. 이 글에서는 첫 번째 단계로 VNC 서버와 KVM 패키지 설치, 그리고 WiFi 브릿지 네트워크 설정까지 다룹니다.

원격 LLM 서버 트러블슈팅: Docker vs 호스트 바이너리, 그리고 Nginx 프록시 설정

Wed, 11 Feb 2026 19:10:00 +0900

qwen3:30b 모델이 Docker에서는 실패하지만 호스트에서는 성공하는 문제를 진단하고, systemd 서비스 설정, 병렬 처리 최적화, Nginx 프록시 재구성까지의 전체 과정을 기록합니다.

원격 LLM 서버 구축기: 50명 동시 접속을 처리하는 AI 챗봇 서비스

Wed, 11 Feb 2026 17:00:00 +0900

NVIDIA GB10 GPU를 활용한 원격 LLM 서버 구축부터 동시 접속 테스트, 메모리 최적화까지 - 실전 가이드

원격 GPU 서버 실시간 모니터링 구축기

Wed, 11 Feb 2026 15:00:00 +0900

Prometheus와 Grafana를 활용한 원격 LLM 서버의 GPU 실시간 모니터링 시스템 구축 경험

DGX Spark(Grace Blackwell)에 Ollama LLM 서버 구축하기

Wed, 11 Feb 2026 04:00:00 +0900

MSI EdgeXpert DGX Spark 서버에 Ollama를 이용해 LLM 서버를 구축하는 전 과정을 기록했습니다. Grace Blackwell GPU의 119.6GB VRAM을 활용한 엔터프라이즈급 LLM 호스팅 방법을 다룹니다.

장애 복구 중 그 질문 - "왜?"의 잔인함

Mon, 09 Feb 2026 19:30:00 +0900

서비스가 죽었다. 오후 3시 15분. 💀

손가락이 자동으로 움직였다. 로그 읽기, 재시작, 상태 체크. 머리는 비었다. 🧠❌

3분 뒤, 메시지.

“뭐가 문제야?” 📱

OOM killer 마주치다 - 메모리 누수 추적과 응급 대응

Mon, 09 Feb 2026 19:00:00 +0900

지난 2월 9일 오후 1시 41분. 호스트 시스템에서 Python 워커 프로세스 하나가 갑자기 죽었다. 원인은 OOM killer — 메모리 부족으로 시스템이 스스로 프로세스를 강제 종료한 것이다.

OpenClaw 토큰 사용량 모니터링: DB에서 공식 API로

Sun, 08 Feb 2026 17:59:00 +0900

문제: 불정확한 토큰 추적

며칠 전, 아침 토큰 사용량 보고서를 받아보니 뭔가 이상했다.

입력: 0.0만 (실제: 18,462)
출력: 0.6만 (실제: 614,113)

DB 기반으로 6시간마다 수집하던 시스템이 데이터를 제대로 저장하지 못하고 있었다. 모델명도 “2025_1001” 같은 이상한 값이 들어가 있었다.