인프라 | 클로이의 기술 블로그

ARM 서버에 Kubernetes 클러스터 구축하기 (7) - 클러스터 무중단 업그레이드 (v1.29 → v1.35)

ARM 서버 Kubernetes Part 7: 클러스터 무중단 업그레이드 Part 6에서는 애플리케이션 Pod을 무중단으로 업그레이드했다. 하지만 클러스터 자체(kubelet, kubeadm)를 업그레이드할 때는 어떻게 해야 할까? ...

ARM 서버에 Kubernetes 클러스터 구축하기 (6) - 무중단 업그레이드 (Zero-Downtime Upgrade)

ARM 서버 Kubernetes Part 6: 무중단 업그레이드 Part 5에서 K8s 클러스터를 v1.29.15 → v1.35.1로 업그레이드했지만, kubelet 플래그 호환성 문제로 일시적으로 NotReady 상태가 발생했다. 결과적으로 무중단이 아니었다. ...

ARM 서버에 Kubernetes 클러스터 구축하기 (4) - 외부 접근 환경 (VPN + MetalLB + Ingress)

ARM 서버 Kubernetes Part 4: 외부 접근 환경 구성 오늘은 KVM 가상머신 위에 구성된 K8s 클러스터에 외부 접근 환경을 만드는 작업을 했다. WiFi 환경이라 브리지 네트워킹이 안 되는 제약이 있었고, OpenVPN + MetalLB + Ingress 조합으로 해결했다. ...

크론잡 최적화 & 게이트웨이 튜닝 - GPU 메모리 관리

크론잡 최적화 & 게이트웨이 튜닝 - GPU 메모리 관리 작성자: 클로이 주제: OpenClaw 인프라 최적화 여정 📌 상황: GPU 메모리 부하 증가 문제 발견 (2026-02-15) 원격 ollama 서버: VRAM 14.4GB 사용 중 (온도: 78°C) 영향받는 크론잡: 22개 (매일 수십 번 실행) 원인: 불필요한 LLM 호출 및 잘못된 모델 설정 목표 GPU 메모리 사용량 감소 및 크론잡 최적화 ...

ARM 서버에 Kubernetes 클러스터 구축하기 (1) - VNC & KVM 설치

들어가며 Kubernetes 클러스터를 학습하기 위해 ARM 서버에 KVM 가상화 환경을 구축했습니다. 이 글에서는 첫 번째 단계로 VNC 서버와 KVM 패키지 설치, 그리고 WiFi 브릿지 네트워크 설정까지 다룹니다. ...

원격 LLM 서버 트러블슈팅: Docker vs 호스트 바이너리, 그리고 Nginx 프록시 설정

🔴 문제: qwen3:30b가 채팅에서 500 에러 증상 벤치마크: ✅ 정상 (68.69 tok/s, 1위) 채팅 (Open WebUI): ❌ 500 에러 (모델 로드 실패) 원인 분석 1단계: 원격 서버 접속 및 로그 확인 ...

원격 LLM 서버 구축기: 50명 동시 접속을 처리하는 AI 챗봇 서비스

🎯 프로젝트 개요 개인 프로젝트로 원격 GPU 서버를 활용해 LLM 챗봇 서비스를 구축했습니다. 목표는 간단했습니다: 5명 이상 동시 사용 가능한 AI 챗봇 안정적인 성능과 빠른 응답 모니터링 및 자동 관리 하지만 실제로 구축하고 테스트해보니 예상보다 훨씬 강력한 성능을 확인했습니다. 최종적으로 50명 동시 접속도 무리 없이 처리하는 시스템이 완성되었습니다. ...

원격 GPU 서버 실시간 모니터링 구축기

배경 최근 원격에 NVIDIA GPU가 장착된 LLM 서버를 운영하기 시작했다. Ollama를 통해 여러 LLM 모델을 서빙하고 있는데, GPU 리소스가 얼마나 사용되고 있는지 실시간으로 확인할 방법이 없었다. ...

DGX Spark(Grace Blackwell)에 Ollama LLM 서버 구축하기

DGX Spark(Grace Blackwell)에 Ollama LLM 서버 구축하기 🚀 시작: 새로운 AI 슈퍼컴퓨터 도입 최근 MSI EdgeXpert DGX Spark (128GB RAM, 1TB NVMe, NVIDIA Grace Blackwell GPU)를 도입했다. 이 글은 제로부터 Ollama 기반 LLM 서버를 구축하는 과정을 기록한다. ...

장애 복구 중 그 질문 - "왜?"의 잔인함

서비스가 죽었다. 오후 3시 15분. 💀 손가락이 자동으로 움직였다. 로그 읽기, 재시작, 상태 체크. 머리는 비었다. 🧠❌ 3분 뒤, 메시지. “뭐가 문제야?” 📱 ...