본문 바로가기
주간기술동향

2078호(230208)_초거대 AI 모델 연구 동향

by StoryTeller. 2023. 2. 8.

1. 초거대 AI 모델의 출현과 크기 경쟁

  • 초거대 AI 모델의 크기를 늘리면, 담을 수 있는 신경망의 크기에 따라 더 많은 데이터를 받아들일 수 있기에 많은 데이터가 더 정확한 예측을 할 수 있다는 전제하에 다양한 시도 진행
  • 규모의 경제가 적용되는 AI 연구로의 몰입은 GPU 컴퓨팅에 종속되는 현상 발생
  • 초거대 AI 크기 경쟁은 학습의 효율성 측면에서는 우려되는 현상이지만, 모델의 크기가 커짐에 따라 다양한 태스크에 보다 쉽게 접근 가능하므로 거스를 수 없는 추세

 

2. 초거대 AI 모델의 탈바꿈

1) 효율적인 AI

  • 기존 언어 모델은 수천억 개의 파라미터를 활용해 토큰의 분포, 의미 등을 모델링했다면,
  • 최근에는 외부 지식의 접근을 통해 필요한 지식을 활용하거나 기존의 지식으로 부족한 부분을 채울 수 있는 초거대 언어모델 등장

2) 멀티모달 AI

  • 기존의 언어[텍스트] 기반의 사전 학습 방식 입력에서 벗어나
  • [텍스트, 이미지] 쌍을 적용한 멀티모달 사전학습 모델들 다수 발표, 점차 사전학습 모델 활용 폭발적 증가
  • 멀티모달에 기반한 사전학습 모델에서 언어는 기존의 임베딩 방식으로 표현할 수 있지만, 이미지는 RGB 형태로 픽셀 단위이고 직접 임베팅하기 어렵기 때문에 이미지를 패치 단위로 나누어서 각 패치 단위를 임베딩하여 적용하는 방식이 주를 이룸
  • 또한, 대조학습(contrastive learning) 기반의 이미지와 텍스트 간의 상호 연관성을 사전에 학습해 놓은 모델 연구

3) 창작 AI

  • 초거대 AI 연구가 점차 언어 모델 위주에서 멀티모달로 확장되고, 각각의 모달리티별로 자유로운 변화가 가능한 크로스모달 연구인 창작 AI 가능
  • 단순한 텍스트의 생성에서부터 코드를 생성하거나, 이미지/음성/비디오/3D로 확장
  • 창작 AI의 선구자인 OpenAI의 DALL-E 1은 벡터 양자화된 가변 오토인코더(VQ-VAE)를 활용한 코드북 방식 활용, 
  • DALL-E 2에서는 디퓨전 모델을 활용한 디코더를 점차 활용
  • 이후 연구에서는 텍스트-이미지 디퓨전 모델을 통해 보다 사실적인 묘사가 가능한 모델 출현

 

3. 초거대 AI 모델의 또 다른 활용

  • 언어와 시작이 결합하는 단계를 넘어 점차 오디오, 3D, 로보틱스와 같은 개별 분야에까지 파급력 확장
  • 기반이 되는 단순한 언어(텍스트) 중심에서 설명문 형태로 확장, 오디오의 효과음을 만들거나 기존 NeFR(2D 이미지에서 3D 장면으로 전환이 가능한 뉴럴 렌더링 모델)에 텍스트가 결합되는 방식, 로봇 팔의 활용에서 단순한 언어적 지시어를 보다 풍성한 하위 지시어 셋트로 분할하고 행동 계획을 수립하는 방식으로 발전

 

4. 결론

  • GPT-4는 파라미터의 크기를 증가시키는 것보다는 효율적인 구조를 만드는데 방점
  • 기존 언어 모델만을 위한 GPT-3가 아닌 텍스트, 오디오, 이미지(비디오)와 같은 멀티모달 성격을 띄고 있고, 기존 GPT-3가 밀집 모델(dense model)이었다면, GPT-4는 희소 모델(sparse model)로 접근 방식을 전환
  • 결국, 인간의 두뇌와 유사한 희소성을 가진 뉴런 형태, 다중 감각을 인지하는 형태의 접근이 향수 초거대 AI의 접근 방식이 될 것으로 예측
  • 또한, 인간의 지적 능력을 인공지능에 주입하고 학습의 한계를 극복한 범용 인공지능(AGI)에 대한 기대 존재