영상으로 읽기: Karpathy — GPT를 바닥부터 만들며 이해하기

Let's build GPT: from scratch, in code를 7개 클립으로 나누어, 토큰화, 배치, loss, self-attention, Transformer block, nanoGPT까지 정리합니다.

원본 영상은 Karpathy가 GPT를 코드로 직접 구현하는 대표 강의입니다. 이 영상은 이론 설명보다 더 강합니다. 작은 Shakespeare 모델을 만들며, ChatGPT 같은 시스템의 뼈대를 손으로 만지게 합니다.

원본 영상 thumbnail YouTube 원본 영상
읽는 법

영상이 한 말은 클립과 짧은 자막 근거로 남기고, 해석내 생각은 분리했습니다.

한눈에 보기

  • MECE 위치: 구현 튜토리얼 / GPT 구조를 손으로 확인하는 축.
  • 핵심 질문: GPT는 어떤 코드 조각들이 쌓여 만들어지는가?
  • 블로그 연결: AI Coding, 학습용 코드 읽기, 에이전트에게 맡기기 전의 이해.

핵심 클립과 해석

1. [0:51] ChatGPT는 확률적 시스템이다

자막 근거 · 0:51

“probabilistic system”

출발점은 단순하다. 같은 질문에도 다른 답이 나오는 이유는 모델이 확률 분포에서 다음 토큰을 샘플링하기 때문이다. 이 감각을 갖고 있어야 LLM의 창의성과 불안정성을 동시에 이해할 수 있다.

2. [2:18] Attention is all you need

자막 근거 · 2:18

“attention is all”

GPT의 핵심은 Transformer다. 이 영상은 논문 제목을 암기시키지 않고, 왜 attention이 필요한지 코드로 보여준다. 긴 문맥에서 어떤 토큰이 어떤 토큰을 참고해야 하는지 계산하는 장치가 모델의 중심으로 들어온다.

3. [9:31] 텍스트를 토큰으로 바꾸기

자막 근거 · 9:31

“tokenize”

모델은 문자열을 바로 먹지 않는다. 텍스트를 토큰 ID로 바꿔야 한다. 이 영상에서는 복잡한 BPE 대신 문자 단위 토크나이저로 시작한다. 단순화가 좋다. 핵심 구조를 배우려면 처음부터 산업용 복잡도를 다 들고 오면 안 된다.

4. [15:06] block size와 배치

자막 근거 · 15:06

“block size”

컨텍스트 길이는 추상 개념이 아니라 코드의 block_size로 나타난다. 모델은 한 번에 볼 수 있는 범위 안에서 다음 토큰을 배운다. 그래서 컨텍스트 엔지니어링은 제품 기능이 아니라 모델 구조의 현실적인 제약 위에 서 있다.

5. [23:03] embedding table

자막 근거 · 23:03

“embedding table”

토큰 ID는 숫자일 뿐이다. embedding table을 지나면서 모델이 다룰 수 있는 벡터가 된다. 이 변환을 보면 LLM의 “이해”가 신비한 내면이 아니라, 학습된 표현 공간에서 이루어지는 계산임을 감각적으로 이해하게 된다.

6. [1:36:16] self-attention과 Transformer block

자막 근거 · 1:36:16

“self attention”

작은 부품들이 Transformer block으로 묶인다. self-attention, feed-forward, residual, layer norm이 쌓이면서 모델은 단순한 bigram 예측기를 넘어선다. 이 구간은 “AI가 코드를 대신 써준다” 이전에, 우리가 무엇을 쓰고 있는지 이해해야 하는 이유를 보여준다.

7. [1:46:22] nanoGPT로 이어지는 다리

자막 근거 · 1:46:24

“nanoGPT”

마지막에는 학습용 구현이 nanoGPT와 연결된다. 장난감 모델을 만든 뒤 산업용 구조의 축약판으로 넘어간다. 좋은 튜토리얼은 이 다리를 놓는다. 너무 쉬운 예제에서 끝나지 않고, 실제 코드베이스로 넘어갈 수 있게 한다.

내 생각

이 영상은 에이전트 시대에도 여전히 필요한 공부 방식이다. Codex에게 “GPT를 설명해줘”라고 물을 수는 있다. 하지만 한 번은 직접 토큰화하고, loss를 보고, attention을 연결해야 한다. 그래야 에이전트가 만든 설명을 검증할 수 있다.

내 블로그의 /book/youtube도 같은 원칙을 가져야 한다. 자동화가 이해를 대체하면 위험하다. 자동화는 반복을 줄이고, 이해는 사람이 책임진다.

Comments

댓글

GitHub 계정으로 의견을 남길 수 있습니다. 댓글은 GitHub Discussions에 저장됩니다.