“The true art of memory is the art of attention!"
Transformer에서 context window가 커지면 커질수록 기억을 상실하는 문제를 해결해보자.
Transformer에서 context window가 커지면 커질수록 기억을 상실하는 문제를 해결해보자.
Transforme 핵심
. Short-term memory
. Long-term memory
. Short-term memory
. Long-term memory
Titans은?
. Short-term memory
- 현재 작업과 직접적으로 연관된 데이터 저장
- 최신정보 저장, 빠른 검색 기능
- 긴 문맥을 처리하는 어텐션 메커니즘
. Long-term memory
- 반복적이거나 중요한 데이터 저장
- 새로운 정보와 과거 데이터를 융합하도록 지원
- 중요도가 낮은 데이터는 제거히는 망각 메커니즘
. Persistent memory
- 중요한 데이터는 영구적으로 저장
- 새로운 데이터를 학습할때 영구 데이터를 참조
. Surprise matrix
- 새로운 데이터가 기존과 얼마나 다른지 계산
- 차이가 클수록 저장 가치가 높다고 판단
Transformers의 한계점
. 벡터와 행렬 연산
. 병렬 처리 단위 context window 클수록 gpu 기하급수적이고 long-term memory 상실함
. 복잡성 문제 커짐
. gpu 하드웨어간 연결성을 만족하되 메모리 데이터 처리에 문제 발생함
. 어텐션 메커니즘이란 토큰(단어)간의 연결성으로 소수의 정보에만 집중
. Context window 안에서 뭐든 해결하려고 했지만 크기가 커질수록 장기 기억 상실 발생
. neural memory는 ai 학습괴 테스트 중 벡터를 넣어서 중요한 것들을 기억하는 모듈안에 저장하는 역할
. 즉 테스트 과정(Test-time learning)에서도 계속해서 long-term memory를 저장
. 병렬 처리 단위 context window 클수록 gpu 기하급수적이고 long-term memory 상실함
. 복잡성 문제 커짐
. gpu 하드웨어간 연결성을 만족하되 메모리 데이터 처리에 문제 발생함
. 어텐션 메커니즘이란 토큰(단어)간의 연결성으로 소수의 정보에만 집중
. Context window 안에서 뭐든 해결하려고 했지만 크기가 커질수록 장기 기억 상실 발생
그래서 Titans은?
. Titans은 transforms 의 단점인 long-term memory를 장기 기억하기 위해 따로 독립적으로 neural memory로 구성. neural memory는 ai 학습괴 테스트 중 벡터를 넣어서 중요한 것들을 기억하는 모듈안에 저장하는 역할
. 즉 테스트 과정(Test-time learning)에서도 계속해서 long-term memory를 저장
- (핵심) 모델이 추론하는 단계에서 새로운 정보를 학습하고 기억할 수 있더록 설계된 메커니즘
. 굉장히 단순화된 기억을 장기 기억에 저장하는 것임
. Transforms 는 2천억개의 Weight 가중치가 고정된 갑값으로 계산
. 어떤것을 기억해야하는거냐? - surprise memory
. 예상 밖의 일들, 신경망의 예측과 기존과 너무 다른 것들을 저장 - 기억의 질응 향상시키는 방법
. neural memory는 신경망 구조의 장기 기억 보관, 과게 데이터를 저장하고 필요할때마나 가져와서 사용
. Persistent memory는 학습없이 영구적으로 기억하는 메모리, 학습하는 건 상관없이 미리 저장되어 있는 지식을 보관해 놓고 갖다 쓰는것
. Titans은 neural / persistent 합쳐서 코어에호 attention 메커니즘을 쓰면 기억의 제한 없이 쓸수있는 아키텍처(context window에 한정적)
. 굉장히 단순화된 기억을 장기 기억에 저장하는 것임
. Transforms 는 2천억개의 Weight 가중치가 고정된 갑값으로 계산
. 어떤것을 기억해야하는거냐? - surprise memory
. 예상 밖의 일들, 신경망의 예측과 기존과 너무 다른 것들을 저장 - 기억의 질응 향상시키는 방법
. neural memory는 신경망 구조의 장기 기억 보관, 과게 데이터를 저장하고 필요할때마나 가져와서 사용
. Persistent memory는 학습없이 영구적으로 기억하는 메모리, 학습하는 건 상관없이 미리 저장되어 있는 지식을 보관해 놓고 갖다 쓰는것
. Titans은 neural / persistent 합쳐서 코어에호 attention 메커니즘을 쓰면 기억의 제한 없이 쓸수있는 아키텍처(context window에 한정적)
. 적응형 학습: 새로운 정보가 들어오면, 기존 메모리와 유사성을 계산하여 중복된 정보는 결합, 중요도 낮은 정보는 제거하는 밍각 메커니즘 수행
3가지 구조의 활용 방법을 3가지 방법으로 소개
. MAC (Memory As Context)
과거데이터를 일단 저장해놓고 필요할 땨미다 데이터를 가져와서 attention 메커니즘을 수행하는 단계, 즉 transformer의 단점을 바로 보완
. MAG (Memory As Gating)
과거 데이터를 새로운 데이터와 결합했을때 얼마나 중요한지를 판단하는 gate 메커니즘
. MAL (Memory As Layer)
신경망의 하나의 층, 기존 transform 신경망 층에 하나 추가하는 메커니즘
. 결과를 보면 일반 상식 문제가 해결됨
. 파라미터 수가 굉장히 작은 범위에서도 혼란도다 낮다. 더 정확한 예측이 가능하다. 더 큰 context window로도 성능이 높음
. 향후 주가 정보 등 context windwo가 짧은 기술분야 혹는 학문 분야에서 잘 활용되지 않을까?
. Titans 기억을 효율적으로 잘 보관하기 때문에 적은 gpu 자원으로 좋은 성능을 뽑아낼 수 있을듯
. Transformer는 학습되면 파라미터가 고정되지만 Titans은 학습 과정중 파라미터가 변함
한계점
. Babilog
. RAG
. Service (전력 사용량 등)
. 저전력 고효율 AI chip 또는 Nvidia CUDA 호환성
참고자료
3가지 구조의 활용 방법을 3가지 방법으로 소개
. MAC (Memory As Context)
과거데이터를 일단 저장해놓고 필요할 땨미다 데이터를 가져와서 attention 메커니즘을 수행하는 단계, 즉 transformer의 단점을 바로 보완
. MAG (Memory As Gating)
과거 데이터를 새로운 데이터와 결합했을때 얼마나 중요한지를 판단하는 gate 메커니즘
. MAL (Memory As Layer)
신경망의 하나의 층, 기존 transform 신경망 층에 하나 추가하는 메커니즘
. 결과를 보면 일반 상식 문제가 해결됨
. 파라미터 수가 굉장히 작은 범위에서도 혼란도다 낮다. 더 정확한 예측이 가능하다. 더 큰 context window로도 성능이 높음
. 향후 주가 정보 등 context windwo가 짧은 기술분야 혹는 학문 분야에서 잘 활용되지 않을까?
. Titans 기억을 효율적으로 잘 보관하기 때문에 적은 gpu 자원으로 좋은 성능을 뽑아낼 수 있을듯
. Transformer는 학습되면 파라미터가 고정되지만 Titans은 학습 과정중 파라미터가 변함
한계점
. Babilog
. RAG
. Service (전력 사용량 등)
. 저전력 고효율 AI chip 또는 Nvidia CUDA 호환성
참고자료



댓글
댓글 쓰기