2026-06-26

영상으로 읽기: System Design Explained: APIs, Databases, Caching, CDNs, Load Balancing & Production Infra

단일 서버 입문부터 SQL/NoSQL 데이터베이스 비교, 수평 확장과 로드 밸런싱, 단일 장애점(SPOF) 방어 및 API 설계(REST vs GraphQL)까지 시스템 디자인의 핵심 개념을 도식과 함께 분석.

현대 소프트웨어 엔지니어링 생태계에서 인공지능(AI)은 구현(Implementation) 속도를 기하급수적으로 끌어올리고 있습니다. 이에 따라 시니어 엔지니어링 면접 및 실무 아키텍처 수립 단계에서 가장 중요하게 다루어지는 역량은 단순 코딩이 아닌, 컴포넌트 간 상호작용과 트레이드오프(Trade-off)를 입체적으로 식별해 내는 시스템 디자인(System Design) 설계 능력입니다. Ross Mike는 이 영상에서 백만 명 이상의 대규모 사용자를 감당할 수 있는 안정적인 프로덕션 인프라를 구축하기 위해 반드시 꿰뚫고 있어야 할 대규모 시스템 설계 지식을 로드맵 형식으로 상세하게 강의합니다.

영상의 주요 아키텍처 흐름을 분석하여 실전 개발자가 숙지해야 할 6가지 핵심 맥락으로 재구성하고, 이에 대한 구조적 통찰을 정리합니다.

1. Single Server Setup to Scaling

자막 근거 · 02:33

“build a single server setup. Imagine that we’re setting up a system for a small user base. This means that everything runs on one single server. The web application, the database, the cache… So, if they just type this domain name and hit enter, their web browser, for example, will contact a DNS, which stands for domain name system… DNS provider will send the IP address back to the web browser…”

모든 거대한 아키텍처의 출발점은 단일 서버(Single Server Setup)에서 시작됩니다. 하나의 컴퓨터 장비 안에 애플리케이션 로직, 데이터베이스, 데이터 캐시를 모두 밀어 넣고 구동하는 초기의 단순한 구조입니다.

사용자가 브라우저 주소창에 도메인(app.demo.com)을 치면, 도메인 네임 시스템(DNS)이 도메인을 실제 서버의 IP 주소로 변환하여 브라우저에 반환하며, 브라우저는 이 주소를 향해 HTTP 요청을 송신하고 서버로부터 HTML이나 JSON 응답을 받아 사용자에게 렌더링합니다. 이 방식은 소규모 서비스에는 극도로 직관적이지만, 사용자 트래픽이 임계치를 초과하는 순간 서버 연산 성능(CPU/RAM) 부족이나 데이터 스토리지 경합으로 인해 전체 시스템이 쉽게 마비됩니다. 결국 스케일링을 위해 가장 먼저 웹 애플리케이션 계층(Web Tier)과 데이터 관리 계층(Data Tier)을 물리적으로 분리하는 작업이 첫 관문이 됩니다.

2. Databases: SQL vs NoSQL vs Graph

자막 근거 · 06:44

“When it comes to database selection, there are two main options. The first option is relational databases or RDBMS, which are structured in tables and rows. Some popular examples are PostgreSQL, MySQL… On the other hand, we have non-relational or NoSQL databases. These are suited for applications that require flexibility and fast access to large volumes of unstructured data. Some examples are Cassandra, MongoDB, Redis, or Neo4j.”

데이터 계층을 분리한 후 마주하는 가장 중대한 갈림길은 관계형 데이터베이스(RDBMS/SQL)와 비관계형 데이터베이스(NoSQL) 사이의 기술 스택 결정입니다. SQL 데이터베이스(예: PostgreSQL, MySQL)는 데이터를 격자 형태의 표(Table)와 열(Column), 행(Row)으로 정형화하여 관리합니다. 여러 테이블 간의 관계를 엮어주는 다각적인 조인(Join) 연산이 강력하며, 금융 등 정밀한 트랜잭션 무결성을 엄격하게 입증해 내는 ACID 프로토콜을 보증합니다.

반면 NoSQL 데이터베이스는 데이터 구조가 가변적이고 거대한 쓰기 연산(Write Heavy) 처리에 유리합니다. JSON 문서 형태로 정보를 담는 도큐먼트 스토어(예: MongoDB), 고속 RAM 조회를 지원하는 키-값 스토어(예: Redis), 소셜 네트워크처럼 복잡한 관계망을 그래프로 표현해 추천 엔진에 유용한 그래프 스토어(예: Neo4j) 등이 있습니다. 데이터의 정형성과 ACID 트랜잭션이 중요하면 SQL을, 초고속 읽기/쓰기 성능과 스키마 유연성이 생명이라면 NoSQL을 택하는 트레이드오프 기준을 세워야 합니다.

3. Vertical vs Horizontal Scaling & Load Balancing

자막 근거 · 12:40

“explore the two primary approaches to scaling, which are vertical and horizontal ways of scaling… vertical scaling or sometimes it’s also called scale up… means that we are adding more resources to our existing server… On the other hand, we have horizontal scaling, which is also sometimes called scale out… whenever a server goes down, this load balancer ensures that traffic is not redirected to that server… most load balancers come with health check features…”

데이터베이스와 로직 장비가 겪는 과부하를 스케일업(Scale-up, 수직 확장)과 스케일아웃(Scale-out, 수평 확장) 방식을 통해 극복합니다. 수직 확장은 CPU나 RAM 사양을 높여 단일 장비 체제를 고수하는 단순한 방식이나, 장비 하드웨어 스펙 한계에 도달하는 물리적 한계점(Resource Limit)이 존재하며, 해당 서버가 죽는 순간 전체 서비스가 동반 차단되는 치명적 부재를 안고 있습니다.

따라서 대규모 고가용성 설계에서는 장비 대수를 수평적으로 늘리는 수평 확장(Horizontal Scaling)이 강제됩니다. 이때 복수의 서버 앞으로 들어오는 사용자 트래픽을 최적의 알고리즘(Round Robin, Least Connections, IP Hashing 등)으로 골고루 배분해 주는 로드 밸런서(Load Balancer)의 도입이 필수가 됩니다. 로드 밸런서는 살아있는 서버의 컨디션을 추적하기 위해 백그라운드에서 상시 헬스 체크(Health Check) 핑을 쏘며, 응답하지 않는 장비는 분배 대상에서 즉시 제외하여 서비스 지속성을 유지합니다.

4. Single Point of Failure (SPOF) & Redundancy

자막 근거 · 26:10

“a single point of failure in system design. This is one part of your whole system that whenever it fails, it will bring the entire system down with it… Database here is one example of a single point of failure… The first strategy is adding redundancy to our system. This means that we can use more than one load balancer…”

안정적인 프로덕션 인프라를 설계할 때 가장 경계해야 하는 위협은 단일 장애점(SPOF, Single Point of Failure)입니다. 인프라의 어느 특정 컴포넌트 하나가 멈추었을 때, 시스템 전체가 그 충격으로 마비되는 취약한 단일 링크를 뜻합니다. 예를 들어 웹 서버를 아무리 10대로 늘렸더라도, 데이터베이스나 로드 밸런서 장비가 단 1대로만 구성되어 있다면 그 유일한 연결 고리가 끊어졌을 때 모든 트래픽이 그대로 유실됩니다.

이를 돌파하기 위한 가장 강력한 전술은 시스템 다중화(Redundancy)입니다. 활성 상태인 Active 로드 밸런서 뒤에 대기 상태인 Standby 로드 밸런서를 연동해 두었다가, 헬스 체크 실패 시 자동으로 대기 장비가 가상 IP를 넘겨받아 가동되는 장애 조치(Failover) 매커니즘을 결합함으로써 무중단 서비스를 제공할 수 있습니다.

5. API Design & Communication Patterns

자막 근거 · 29:50

“Welcome to this section where you will learn the fundamental principles of API design… API here is just a contract that defines these terms… what responses can we expect from the server… first of all, it is an abstraction mechanism because it hides the implementation details while exposing the functionality.”

시스템 컴포넌트들이 분할될수록 이들 사이의 안전한 통로를 터주는 API 설계의 완성도가 중요해집니다. API(Application Programming Interface)는 단순한 주소 규격이 아니라, 소프트웨어 컴포넌트 간 상호작용의 신뢰를 유지하는 기술적 계약(Contract)입니다.

좋은 API 설계는 복잡한 데이터베이스 저장 로직이나 서버의 비즈니스 코드를 뒤로 감추고, 오직 간결한 인터페이스만 드러내는 고도의 추상화(Abstraction) 매커니즘으로 작동합니다. 이를 통해 클라이언트와 서버, 혹은 서버 대 서버(Microservices)는 내부 구현 세부 사항(Implementation details)에 얽매이지 않고 정해진 규격대로 요청을 보내고 상호 합의된 응답을 기대하며 안전하게 소통할 수 있어, 개별 서비스의 기술적 경계(Service Boundary)를 명확하게 분할해 줍니다.

6. REST vs GraphQL Trade-offs

자막 근거 · 63:11 (3791s)

“REST, which stands for representational state transfer. These type of APIs use resource-based approach… RESTful APIs… Or if the app demands super low latency for quick responses, then you should go with non-relational databases… GraphQL… GraphQL allows the client to ask exactly what they need, and nothing more…”

다양한 컴포넌트 간 계약을 맺을 때 가장 널리 쓰이는 API 스타일은 REST와 GraphQL입니다. REST API는 자원(Resource)을 중심(URI)으로 두고 표준 HTTP 메서드(GET, POST, PUT, DELETE)를 조합하여 데이터를 교환하는 가장 대중적인 아키텍처 스타일입니다. 매우 단순하고 직관적이며 브라우저 캐싱 등 기본 HTTP 인프라 혜택을 온전히 활용할 수 있습니다.

그러나 모바일 화면 렌더링처럼 복잡한 데이터 관계를 한 화면에 엮어 보여줄 때, REST는 필요 이상의 방대한 JSON 데이터를 받아 통신 대역을 낭비하는 오버페칭(Overfetching)이나, 원하는 정보를 다 채우기 위해 수차례 엔드포인트를 나누어 호출해야 하는 언더페칭(Underfetching)의 한계를 노출합니다. 반면 GraphQL은 클라이언트가 단 한 번의 요청 쿼리에 “자신이 필요한 정확한 구조의 데이터 필드”만 명시적으로 커스텀 요청하여 획득할 수 있도록 설계된 인터페이스를 제공해 줍니다. 단 한 번의 호출로 깔끔한 경량 JSON 응답을 얻을 수 있지만, 서버의 쿼리 파싱 비용과 캐싱 설계의 난이도가 동반 상승한다는 트레이드오프가 상존합니다.

내 생각

이번 영상은 단일 노드 구축에서부터 출발해 트래픽 증설에 따라 마주하는 로드 밸런서, SPOF 차단, 데이터 복제, 그리고 컴포넌트 계약인 API 설계까지 거치는 “현대 웹 인프라 진화의 핵심 경로”를 완벽하게 집약하고 있습니다.

이러한 시스템 디자인 원칙들은 우리가 현재 다루고 있는 듀얼 블로그 배포 하네스 및 에이전트 협업 설계에서도 고스란히 치환되어 적용됩니다.

우선, “로드 밸런서 및 무중단 배포(Redundancy)와 deploy:safe 가드레일”은 결이 같은 철학을 공유합니다. 인프라 설계자가 무작정 수많은 백엔드 서버를 올리기 전에 트래픽의 입구를 다중화하고 무중단 배포 체인을 닦아두는 것처럼, 듀얼 블로그 Harness 역시 작가가 매일 글을 쓰고 배포하는 활성(Active) 워크스페이스를 건드리지 않고 “완전히 격리된 임시 클린 작업 트리(Temporary Worktree)”를 동적으로 프로비저닝하여 빌드 및 배포를 수행합니다. 이를 통해 배포 도중 파일 충돌이나 불완전한 상태(Dirty Draft)가 깃허브 실서버에 반영되는 SPOF성 장애 리스크를 원천적으로 방어해 냅니다.

또한, “API 설계의 추상화 계약(Contract) 철학과 에이전트 도구 인터페이스”는 매우 흥미로운 접점을 지닙니다. 대규모 시스템에서 REST나 GraphQL이 복잡한 백엔드 물리 구조를 감추고 클라이언트에게는 간결한 규격(JSON 스키마)만 약속하는 것처럼, AI 에이전트에게 쥐어주는 도구(Tools/Skills) 또한 에이전트가 내부 구현 스크립트의 코드 세부 사항을 일일이 읽지 않고도 “도구의 역할과 매개변수 규격”만 계약서처럼 인지하여 실행할 수 있도록 명료하게 설계되어야 합니다. 그래야 모델의 단기 기억인 컨텍스트 윈도우가 복잡한 기술적 부채로 지저분해지는 것을 막고 고도의 아키텍처적 판단에 집중할 수 있게 만듭니다.

결국 대규모 분산 시스템 설계의 본질은 무조건 비싸고 거대한 솔루션을 적용하는 것이 아닌, “각 컴포넌트의 역할 경계를 선명하게 가르고, 이들을 묶어주는 인터페이스 계약을 최적화하는 것”입니다. 우리의 에이전트 워크플로우 역시 복잡한 프롬프트로 에이전트를 압박하기보다, 에이전트가 시스템 안에서 지키고 움직여야 할 명확한 가이드라인(Harness Policy)과 도구 스펙을 잘 닦아두는 시스템 디자인적 멘토링이 수반될 때 가장 무결하고 파워풀한 엔지니어링 퍼포먼스를 완성할 수 있을 것입니다.

AI agent 실습과 학습 노트를 운영 가능한 기록으로 남깁니다.