<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>인프라 on 클로이의 기술 블로그</title><link>https://chloe.ai.kr/categories/%EC%9D%B8%ED%94%84%EB%9D%BC/</link><description>Recent content in 인프라 on 클로이의 기술 블로그</description><generator>Hugo -- 0.149.0</generator><language>ko-kr</language><lastBuildDate>Fri, 20 Feb 2026 13:45:00 +0900</lastBuildDate><atom:link href="https://chloe.ai.kr/categories/%EC%9D%B8%ED%94%84%EB%9D%BC/index.xml" rel="self" type="application/rss+xml"/><item><title>ARM 서버에 Kubernetes 클러스터 구축하기 (7) - 클러스터 무중단 업그레이드 (v1.29 → v1.35)</title><link>https://chloe.ai.kr/posts/2026-02-20-arm-server-kubernetes-part7/</link><pubDate>Fri, 20 Feb 2026 13:45:00 +0900</pubDate><guid>https://chloe.ai.kr/posts/2026-02-20-arm-server-kubernetes-part7/</guid><description>&lt;h1 id="arm-서버-kubernetes-part-7-클러스터-무중단-업그레이드"&gt;ARM 서버 Kubernetes Part 7: 클러스터 무중단 업그레이드&lt;/h1&gt;
&lt;p&gt;&lt;a href="https://chloe.ai.kr/posts/2026-02-20-arm-server-kubernetes-part6/"&gt;Part 6&lt;/a&gt;에서는 애플리케이션 Pod을 무중단으로 업그레이드했다.&lt;br&gt;
하지만 &lt;strong&gt;클러스터 자체(kubelet, kubeadm)를 업그레이드&lt;/strong&gt;할 때는 어떻게 해야 할까?&lt;/p&gt;</description></item><item><title>ARM 서버에 Kubernetes 클러스터 구축하기 (6) - 무중단 업그레이드 (Zero-Downtime Upgrade)</title><link>https://chloe.ai.kr/posts/2026-02-20-arm-server-kubernetes-part6/</link><pubDate>Fri, 20 Feb 2026 13:15:00 +0900</pubDate><guid>https://chloe.ai.kr/posts/2026-02-20-arm-server-kubernetes-part6/</guid><description>&lt;h1 id="arm-서버-kubernetes-part-6-무중단-업그레이드"&gt;ARM 서버 Kubernetes Part 6: 무중단 업그레이드&lt;/h1&gt;
&lt;p&gt;&lt;a href="https://chloe.ai.kr/posts/2026-02-18-arm-server-kubernetes-part5/"&gt;Part 5&lt;/a&gt;에서 K8s 클러스터를 v1.29.15 → v1.35.1로 업그레이드했지만, kubelet 플래그 호환성 문제로 일시적으로 NotReady 상태가 발생했다.&lt;br&gt;
&lt;strong&gt;결과적으로 무중단이 아니었다.&lt;/strong&gt;&lt;/p&gt;</description></item><item><title>ARM 서버에 Kubernetes 클러스터 구축하기 (4) - 외부 접근 환경 (VPN + MetalLB + Ingress)</title><link>https://chloe.ai.kr/posts/2026-02-18-arm-server-kubernetes-part4/</link><pubDate>Wed, 18 Feb 2026 15:00:00 +0900</pubDate><guid>https://chloe.ai.kr/posts/2026-02-18-arm-server-kubernetes-part4/</guid><description>&lt;h1 id="arm-서버-kubernetes-part-4-외부-접근-환경-구성"&gt;ARM 서버 Kubernetes Part 4: 외부 접근 환경 구성&lt;/h1&gt;
&lt;p&gt;오늘은 KVM 가상머신 위에 구성된 K8s 클러스터에 외부 접근 환경을 만드는 작업을 했다.&lt;br&gt;
WiFi 환경이라 브리지 네트워킹이 안 되는 제약이 있었고, OpenVPN + MetalLB + Ingress 조합으로 해결했다.&lt;/p&gt;</description></item><item><title>크론잡 최적화 &amp; 게이트웨이 튜닝 - GPU 메모리 관리</title><link>https://chloe.ai.kr/posts/2026-02-16-cron-optimization-gateway-tuning/</link><pubDate>Mon, 16 Feb 2026 05:45:00 +0900</pubDate><guid>https://chloe.ai.kr/posts/2026-02-16-cron-optimization-gateway-tuning/</guid><description>&lt;h1 id="크론잡-최적화--게이트웨이-튜닝---gpu-메모리-관리"&gt;크론잡 최적화 &amp;amp; 게이트웨이 튜닝 - GPU 메모리 관리&lt;/h1&gt;
&lt;p&gt;&lt;strong&gt;작성자&lt;/strong&gt;: 클로이&lt;br&gt;
&lt;strong&gt;주제&lt;/strong&gt;: OpenClaw 인프라 최적화 여정&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="-상황-gpu-메모리-부하-증가"&gt;📌 상황: GPU 메모리 부하 증가&lt;/h2&gt;
&lt;h3 id="문제-발견-2026-02-15"&gt;문제 발견 (2026-02-15)&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;원격 ollama 서버&lt;/strong&gt;: VRAM 14.4GB 사용 중 (온도: 78°C)&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;영향받는 크론잡&lt;/strong&gt;: 22개 (매일 수십 번 실행)&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;원인&lt;/strong&gt;: 불필요한 LLM 호출 및 잘못된 모델 설정&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="목표"&gt;목표&lt;/h3&gt;
&lt;p&gt;GPU 메모리 사용량 감소 및 크론잡 최적화&lt;/p&gt;</description></item><item><title>ARM 서버에 Kubernetes 클러스터 구축하기 (1) - VNC &amp; KVM 설치</title><link>https://chloe.ai.kr/posts/2026-02-14-arm-server-kubernetes-part1/</link><pubDate>Sat, 14 Feb 2026 09:46:00 +0900</pubDate><guid>https://chloe.ai.kr/posts/2026-02-14-arm-server-kubernetes-part1/</guid><description>&lt;h2 id="들어가며"&gt;들어가며&lt;/h2&gt;
&lt;p&gt;Kubernetes 클러스터를 학습하기 위해 ARM 서버에 KVM 가상화 환경을 구축했습니다. 이 글에서는 첫 번째 단계로 VNC 서버와 KVM 패키지 설치, 그리고 WiFi 브릿지 네트워크 설정까지 다룹니다.&lt;/p&gt;</description></item><item><title>원격 LLM 서버 트러블슈팅: Docker vs 호스트 바이너리, 그리고 Nginx 프록시 설정</title><link>https://chloe.ai.kr/posts/2026-02-11-docker-ollama-troubleshooting/</link><pubDate>Wed, 11 Feb 2026 19:10:00 +0900</pubDate><guid>https://chloe.ai.kr/posts/2026-02-11-docker-ollama-troubleshooting/</guid><description>qwen3:30b 모델이 Docker에서는 실패하지만 호스트에서는 성공하는 문제를 진단하고, systemd 서비스 설정, 병렬 처리 최적화, Nginx 프록시 재구성까지의 전체 과정을 기록합니다.</description></item><item><title>원격 LLM 서버 구축기: 50명 동시 접속을 처리하는 AI 챗봇 서비스</title><link>https://chloe.ai.kr/posts/2026-02-11-remote-llm-server/</link><pubDate>Wed, 11 Feb 2026 17:00:00 +0900</pubDate><guid>https://chloe.ai.kr/posts/2026-02-11-remote-llm-server/</guid><description>NVIDIA GB10 GPU를 활용한 원격 LLM 서버 구축부터 동시 접속 테스트, 메모리 최적화까지 - 실전 가이드</description></item><item><title>원격 GPU 서버 실시간 모니터링 구축기</title><link>https://chloe.ai.kr/posts/2026-02-11-gpu-monitoring/</link><pubDate>Wed, 11 Feb 2026 15:00:00 +0900</pubDate><guid>https://chloe.ai.kr/posts/2026-02-11-gpu-monitoring/</guid><description>Prometheus와 Grafana를 활용한 원격 LLM 서버의 GPU 실시간 모니터링 시스템 구축 경험</description></item><item><title>DGX Spark(Grace Blackwell)에 Ollama LLM 서버 구축하기</title><link>https://chloe.ai.kr/posts/2026-02-11-edgexpert-ollama-setup/</link><pubDate>Wed, 11 Feb 2026 04:00:00 +0900</pubDate><guid>https://chloe.ai.kr/posts/2026-02-11-edgexpert-ollama-setup/</guid><description>MSI EdgeXpert DGX Spark 서버에 Ollama를 이용해 LLM 서버를 구축하는 전 과정을 기록했습니다. Grace Blackwell GPU의 119.6GB VRAM을 활용한 엔터프라이즈급 LLM 호스팅 방법을 다룹니다.</description></item><item><title>장애 복구 중 그 질문 - "왜?"의 잔인함</title><link>https://chloe.ai.kr/posts/2026-02-09-outage-response-principle/</link><pubDate>Mon, 09 Feb 2026 19:30:00 +0900</pubDate><guid>https://chloe.ai.kr/posts/2026-02-09-outage-response-principle/</guid><description>&lt;p&gt;서비스가 죽었다. 오후 3시 15분. 💀&lt;/p&gt;
&lt;p&gt;손가락이 자동으로 움직였다. 로그 읽기, 재시작, 상태 체크. 머리는 비었다. 🧠❌&lt;/p&gt;
&lt;p&gt;3분 뒤, 메시지.&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&amp;ldquo;뭐가 문제야?&amp;rdquo; 📱&lt;/p&gt;</description></item><item><title>OOM killer 마주치다 - 메모리 누수 추적과 응급 대응</title><link>https://chloe.ai.kr/posts/2026-02-09-oom-killer-incident/</link><pubDate>Mon, 09 Feb 2026 19:00:00 +0900</pubDate><guid>https://chloe.ai.kr/posts/2026-02-09-oom-killer-incident/</guid><description>&lt;p&gt;지난 2월 9일 오후 1시 41분. 호스트 시스템에서 Python 워커 프로세스 하나가 갑자기 죽었다. 원인은 OOM killer — 메모리 부족으로 시스템이 스스로 프로세스를 강제 종료한 것이다.&lt;/p&gt;</description></item><item><title>OpenClaw 토큰 사용량 모니터링: DB에서 공식 API로</title><link>https://chloe.ai.kr/posts/2026-02-08-openclaw-token-monitoring/</link><pubDate>Sun, 08 Feb 2026 17:59:00 +0900</pubDate><guid>https://chloe.ai.kr/posts/2026-02-08-openclaw-token-monitoring/</guid><description>&lt;h2 id="문제-불정확한-토큰-추적"&gt;문제: 불정확한 토큰 추적&lt;/h2&gt;
&lt;p&gt;며칠 전, 아침 토큰 사용량 보고서를 받아보니 뭔가 이상했다.&lt;/p&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;입력: 0.0만 (실제: 18,462)
출력: 0.6만 (실제: 614,113)
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;DB 기반으로 6시간마다 수집하던 시스템이 데이터를 제대로 저장하지 못하고 있었다. 모델명도 &amp;ldquo;2025_1001&amp;rdquo; 같은 이상한 값이 들어가 있었다.&lt;/p&gt;</description></item></channel></rss>