며칠 전에 DeepSeek 가 발표한 R1 모델 관련 글을 썼고, 오픈소스와 연관 지어서 앞으로 AI 업계의 미래를 예측해 보았는데 내 생각보다 너무나 빠른 속도로 충격파가 발생하고 있다.
오늘 DeepSeek 에서 이미지 생성 및 분석이 가능한 또다른 오픈소스 AI 모델인 Janus-pro 를 공개하였고 역시나 OpenAI 의 DALL-E 를 능가하는 성능을 보여주었다. 그리고 엔비디아의 주가가 17% 폭락했다.
이와 같은 성능이 가능한 이유, 그리고 엔비디아가 폭락하는 이유가 무엇일까.
먼저 배경부터 설명하자면, 현재 최첨단 AI 모델을 훈련시키는 비용은 엄청나게 비싼 상황이다.
OpenAI, Anthropic 같은 회사들은 계산에만 1억 달러 이상을 쓰며, 4만 달러짜리 GPU 수천 대가 필요한 대규모 데이터 센터를 운영하고 있다. 마치 공장 하나를 돌리기 위해 원자력 발전소 전체가 필요한 상황 이라고나 할까.
그런데 DeepSeek 가 나타나서 이렇게 말했다.
“음, 우리라면 이걸 500만 달러로 할 수 있을걸?”
그리고 말로만 한 것이 아니라 실제로 해냈는데, 그들의 모델은 GPT-4와 Claude 를 많은 작업에서 능가하거나 대등한 퍼포먼스를 보여줌으로써 AI 업계에 충격을 가져다 주었다.
이러한 퍼포먼스가 가능한 이유가 무엇일까.
첫 번째로 전통적인 AI 모델은 마치 모든 숫자를 소수점 32자리까지 기록하는 방식을 사용하고 있는데, DeepSeek 는 “8자리로만 기록해도 충분히 정확하지 않을까?”라는 문제의식을 가지고 접근했고, 결과적으로 메모리 사용량을 75% 감소 시켰다.
그리고 그들의 “멀티 토큰” 시스템도 주목할 만하다. 일반적인 AI 는 초등학생이 글을 읽듯이 “The… cat… sat…” 처럼 읽는 반면, DeepSeek은 문장 전체를 한 번에 읽어낸다. 결과적으로 2배 더 빠르고 90% 수준의 정확도를 갖게 된 것인데, 수십억 개의 단어를 처리할 때 이런 효율성은 매우 중요한 역할을 하게 된다.
하지만 진짜 기발한 점은 “전문가 시스템”을 구축 했다는 것이다.
거대한 AI 가 모든 것을 다 알도록 만드는 대신 (예: 한 사람이 의사, 변호사, 엔지니어 역할을 모두 하는 것처럼), DeepSeek은 필요한 경우에만 전문가들을 호출하도록 설계되었다.
이에 따라 기존 AI 모델은 1.8조 개의 파라미터가 항상 활성화되어야 서비스가 가능한데, DeepSeek은 6710억 개의 파라미터 중 단지 370억 개만 활성화된다. 유저가 질문할 때마다 가지고 있는 모든 역량을 총동원하는 것이 아닌, 유저의 질문에 따라서 그때 그때 필요한 전문가를 호출하는 방식인 것이다.
이 모든 것이 반영된 결과는 아래와 같다:
• 훈련 비용: 1억 달러 → 500만 달러
• 필요한 GPU 수: 100,000대 → 2,000대
• API 비용: 95% 절감
• 데이터 센터 하드웨어 대신 게이밍 GPU에서도 실행 가능
거기에 더해 놀라운 점은, 지난번에 언급 했듯이 모든 것이 오픈 소스라는 것이다.
누구나 그들의 작업을 검증할 수 있도록 코드는 공개 되어 있고, 기술 논문은 모든 과정을 설명하고 있다. 이로 인해 “대형 기술 기업만이 AI 를 다룰 수 있다”는 기존의 고정관념이 완전히 깨진 상황이다. 이제 수십억 달러 규모의 데이터 센터 대신에 좋은 GPU 몇 대만 있으면 누구나 일정 수준 이상의 AI 퍼포먼스 구현이 가능해졌다.
바로 이 점이 엔비디아 에게는 치명적인 리스크를 안겨주었다. 그들의 비즈니스 모델은 초고가 GPU를 90% 마진으로 판매하는 데 기반을 두고 있는데, 이제 모두가 일반 게이밍 GPU로 AI를 돌릴 수 있게 된다면… 문제는 명확해진다.
그리고 또 하나 중요한 점은 DeepSeek 팀이 이를 200명 이하의 인원으로 해냈다는 것이다. Meta의 팀은 DeepSeek 전체 훈련 예산보다 더 많은 연봉을 받으며 작업을 하고 있지만, 그들의 모델은 DeepSeek 만큼 좋은 퍼포먼스를 내지 못한다.
이는 전형적인 파괴적 혁신의 이야기이다. 기존 기업들은 기존 프로세스를 최적화하는 데 초점을 맞추는 반면, 파괴적인 혁신 기업들은 근본적인 접근 방식을 다시 생각한다. DeepSeek 는 “더 많은 하드웨어를 투입 하기보다 더 똑똑하게 접근하면 어떨까?”라고 생각한 것이다.
물론, OpenAI 와 같은 대기업들이 가만히 있지는 않을 것이다. 그러나 이 업계에서 효율성이라는 기준이 본격적으로 링 위로 올라선 이상, 더 많은 데이터센터를 짓고 비싼 칩을 때려박는 접근 방식으로 돌아갈 수는 없다고 본다. (이것이 엔비디아에게는 치명타겠지.)
그리고 또 하나, 틱톡이 서비스 중단의 위기를 맞았듯이 DeepSeek 또한 메이드 인 차이나라는 리스크를 항상 가지고 있다고 봐야한다. 특히나 AI 서비스는 필수적으로 유저의 데이터 확보가 중요한데, 중국발 개인정보보안 이슈는 언제나 민감하기 때문이다. (물론 13억이나 되는 자국의 인구만 가지고도 충분한 학습이 가능하지 않을까 싶다만.)
그러나 솔직히 기술 업계에서 개인정보 이슈로 태클을 거는 건 마치 운동 경기에서 도저히 내 실력으로 이기기 힘드니 심판에게 상대방 꼬투리를 잡아서 어떻게든 게임 자체를 망가뜨리려는 속좁은 대응이라고 밖에 보기 힘들다. 아무리 뭐라뭐라 해도 미국인들은 페이스북을 쓰지 않고 틱톡을 쓴다. 심지어 DeepSeek 또한 앱스토어 다운로드 1위로 올라섰다.
어쨌든 훗날 우리가 지금 이 시기를 뒤돌아보면, 역사적인 순간으로 기억될 것은 분명하다. 나는 아이폰이나 클라우드 급의 게임체인저가 등장했다고 본다. 확실한 것은 앞으로 AI는 훨씬 더 보편화되고 가격 또한 훨씬 저렴해질 것이다. 이 변화가 앞으로 우리들에게 어떤 영향을 미칠지는 분명해 보인다.
'Stg' 카테고리의 다른 글
Working in public : 오픈소스의 미래 (0) | 2025.01.25 |
---|---|
NVIDIA 가 공개한 월드모델? Cosmos 그게 뭐죠? (0) | 2025.01.14 |
Squid (0) | 2024.03.20 |
LDAP (Lightweight Directory Access Protocol) (0) | 2024.03.19 |
합의 알고리즘 (0) | 2024.03.15 |
댓글