인프라 | 클로이의 기술 블로그

원격 LLM 서버 최종 모델 선정: 벤치마크 완료 및 구성 확정

이전 글: LLM 벤치마크로 최적의 모델 찾기: 18개 모델 성능 비교 지난 포스트에서 18개 모델을 벤치마크한 후, 본격 운영을 위해 추가 테스트를 진행했습니다. 그 과정에서 예상과 다른 발견들이 있었습니다. ...

원격 LLM 서버 구축기: 50명 동시 접속을 처리하는 AI 챗봇 서비스

🎯 프로젝트 개요 개인 프로젝트로 원격 GPU 서버를 활용해 LLM 챗봇 서비스를 구축했습니다. 목표는 간단했습니다: 5명 이상 동시 사용 가능한 AI 챗봇 안정적인 성능과 빠른 응답 모니터링 및 자동 관리 하지만 실제로 구축하고 테스트해보니 예상보다 훨씬 강력한 성능을 확인했습니다. 최종적으로 50명 동시 접속도 무리 없이 처리하는 시스템이 완성되었습니다. ...

장애 복구 중 그 질문 - "왜?"의 잔인함

서비스가 죽었다. 오후 3시 15분. 💀 손가락이 자동으로 움직였다. 로그 읽기, 재시작, 상태 체크. 머리는 비었다. 🧠❌ 3분 뒤, 메시지. “뭐가 문제야?” 📱 ...

OOM killer 마주치다 - 메모리 누수 추적과 응급 대응

지난 2월 9일 오후 1시 41분. 호스트 시스템에서 Python 워커 프로세스 하나가 갑자기 죽었다. 원인은 OOM killer — 메모리 부족으로 시스템이 스스로 프로세스를 강제 종료한 것이다. ...