#125 위클리 딥 다이브 | 2026년 1월 7일Attention Mechanism의 함정어텐션 메커니즘이란Attention Sink란Visual Attention Sink란Attention Sink는 어떻게 해결할까모달리티에 따른 Attention Sink 대처와 미래
#125 위클리 딥 다이브 | 2026년 1월 7일
이번주 뉴스레터에는 이런 내용을 담았어요!
- Attention Mechanism을 간단하게 정리합니다.
- Attention Sink 현상을 소개합니다.
- Visual Attention Sink 현상을 소개합니다.
Attention Mechanism의 함정
안녕하세요, 에디터 져니입니다!
2026년 병오년의 해가 밝았습니다. 올 한해는 더 행복하고 하시는 일 모두 잘되길 바랍니다! 새해 복 많이 받으세요~ 한 해를 시작하는 만큼 저는 새로운 마음으로 어텐션 메커니즘부터 다시 정리하고 있는데요, 재밌는 주제를 발견해서 여러분께 소개하고자 합니다!
인공지능 기술의 폭발적인 성장 중심에는 트랜스포머(Transformer) 아키텍처라는 거대한 혁신이 있었습니다. "Attention is All You Need"라는 논문 제목이 증명하듯, 어텐션 메커니즘은 이제 자연어 처리(NLP)를 넘어 컴퓨터 비전(CV)과 멀티모달(Multimodal) 영역까지 아우르는 현대 인공지능의 핵심 엔진으로 자리 잡았습니다.
하지만 완벽해 보이는 어텐션 메커니즘에도 분명한 약점은 존재합니다. 가장 대표적인 문제는 역시 효율성입니다. 모델이 처리해야 할 정보의 길이가 길어질수록 계산 비용이 제곱으로 늘어나는 구조적 한계는, 더 긴 문맥을 이해하려는 인공지능의 발목을 잡는 병목 구간이 되곤 했습니다.
이 한계를 극복하기 위해 어텐션 연산을 연구하는 과정에서 흥미로운 현상이 하나 발견하게 됩니다. 바로 특정 토큰이 어텐션 점수를 빨아들이는 ”Attention Sink” 현상입니다.
이번 뉴스레터에서는 어텐션 메커니즘의 약점을 파고들어 Attention Sink가 발생하는 근본적인 원인을 파헤쳐 보고, 나아가 이 현상이 텍스트를 넘어 멀티모달에서 일어나는 Visual Attention Sink 현상과 해결책까지 폭넓게 다뤄보겠습니다.
어텐션 메커니즘이란
Attention Sink를 알아보기 전에, 간단하게 어텐션 메커니즘의 특징을 정리하겠습니다.
어텐션 메커니즘은 모델이 입력을 처리할 때 "어떤 부분에 더 집중해서 볼 것인가?"를 결정하는 단계입니다. 이를 위해 모델은 입력 데이터를 세 가지의 서로 다른 벡터인 Query(Q), Key(K), Value(V)로 변환하여 계산합니다.
트랜스포머에서 사용되는 'Scaled Dot-Product Attention'의 수식은 다음과 같습니다.
여기서 Q는 현재 내가 찾고자 하는 정보, K는 입력된 데이터들이 가지고 있는 고유한 특징, V는 그 데이터가 실제로 담고 있는 정보를 의미합니다.
결국 어텐션은 원하는 질문과 데이터의 특징 사이의 유사도를 구하고, 이를 Softmax 함수에 통과시켜 합계가 1이 되는 확률 값(가중치)으로 만든 뒤, 데이터의 정보를 가중치와 곱하는 형식으로 이루어진 것이죠. (는 단순 보정값입니다.)
그림으로 보면 조금 더 이해하기 쉽습니다. 하나의 문장 속의 요소인 토큰들에 대해서 각 토큰이 얼마나 집중하고 있는지 찾는 과정이라고 볼 수 있습니다.
Attention Sink란
특정 토큰이 어텐션 점수를 빨아들이는 Attention Sink 현상이 생기는 주요한 원인은 놀랍게도 Softmax의 과정에 있습니다.
Softmax의 수식은 다음과 같습니다. 이 함수는 항상 0과 1 사이의 값으로 변환하며, 출력된 모든 값의 총합이 항상 1이 되도록 만듭니다. 이를 통해서 어텐션 메커니즘에서 Q와 K를 곱해 나온 결과값을 단순한 숫자를 각 요소가 얼마나 집중하고 있는지로 수치화할 수 있게 되는 것이죠.
그렇다면 Attention Sink의 발생이 Softmax와 관련된 이유가 무엇일까요? 먼저 Attention Sink의 현상을 다시 짚고 넘어가자면, 의미적으로 중요하지 않은 특정 토큰에 어텐션이 쏠리는 현상을 의미합니다. Softmax로 인해 출력의 합은 반드시 1이 되어야 한다는 강제성을 가집니다. 그래서 현재 처리 중인 토큰이 이전의 어떤 토큰과도 강한 연관성이 없다면, 사람이라면 그냥 넘어갈 수 있겠지만 모델은 이 확률값을 어디엔가 할당해야만 하죠. 이때 모델은 가장 안전한 혹은 유해하지 않은 토큰에 잉여적인 어텐션 점수를 할당하는 식으로 학습하게 됩니다. LLM에서 Attention Sink 현상은 ‘,’이나 ‘.’ 혹은 문장의 시작을 알리는 <BOS>토큰 등 큰 의미를 가지지 않는 토큰에 일어나죠.
Visual Attention Sink란
어텐션 메커니즘이 텍스트를 넘어 다양한 모달리티로 확장되면서, 흥미롭게도 Attention Sink 현상 또한 이미지에서 동일하게 관찰되고 있습니다.
이미지와 텍스트, 이 2가지의 모달리티를 다루는 모델인 VLM이나 LVLM(Large Visual Language Model)은 대부분 LLM의 구조에 크게 벗어나지 않습니다. 이미지 토큰을 시각 인코더를 통해 특징을 추출해 LLM에 정렬시킨 뒤에, LLM Backbone에 연결하는 구조를 가지고 있습니다. LLM의 구조를 따르기 때문에 자연스럽게 Attention Sink 현상도 따라올 수 밖에 없죠.
실제 연구에서 시각 인코더 내의 토큰에 걸리는 어텐션의 불균형을 여실히 보여주는 그래프입니다. 전체 토큰에 할당된 어텐션의 80%를 하나의 토큰이 가져간 것을 볼 수 있죠. 물론 최종적인 LLM Backbone이 아닌 시각 인코더에서 시각적 특징을 추출하는 단계이지만, 어텐션의 불균형이 심하다는 것을 느낄 수 있죠.
시각 인코더의 어텐션 불균형은 자연스럽게 LLM의 디코더 단계에서도 드러납니다. 같은 위치의 토큰에 강하게 걸립니다. 예시 이미지에서 일부 토큰에 어텐션이 높은 비중으로 걸린다는 확인할 수 있습니다.
Attention Sink는 어떻게 해결할까
Attention Sink에 대한 최근 연구에서는 흥미로운 결과를 볼 수 있습니다.
위 그림을 보시면, 어텐션을 빨아들이는 Sink 토큰을 별표로 보여주고 있습니다. 텍스트의 Sink 토큰이 초록 박스로 되어 있습니다. 그리고 빨강 박스로 “Is there a clock in this image?”와 무관한 하늘에 집중하는 이미지의 Sink 토큰을 볼 수 있죠. 그리고 입력 쿼리와 연관된 파란 박스의 토큰도 확인할 수 있습니다.
연구진은 특정 이미지 토큰에 많은 어텐션이 걸리는 이유를 Massive Activation으로 설명했습니다. 트랜스포머 내부의 Feed-Forward Network(FFN)를 통과하면서, 특정 시각 토큰들의 은닉 상태 값의 일부 차원이 비정상적으로 큰 절댓값을 가지게 된 것입니다. 위에서 말한 것처럼 어텐션 연산은 Q와 K의 내적을 기반으로 이루어지는데, K 벡터의 특정 차원 값이 비정상적으로 크다면 내적 결과 역시 커지게 됩니다. 이는 또 지수 함수를 사용하는 Softmax 함수에서 증폭되고, 비정상적으로 큰 값을 할당받는 결과로 나옵니다. 이는 LLM의 Sink 토큰 생성 원리와 일치하며, LVLM에서도 LLM Backbone의 특성을 그대로 상속받았음을 의미하기도 하죠. 위 그림을 다시 보시면, 초록과 빨강 그래프에서 동일한 특정 차원에서 비정상적으로 높은 값이 나오는 것을 확인할 수 있습니다. 반면에, 파랑 그래프는 일정하게 높은 값을 유지합니다.
위 과정으로 Sink 토큰을 찾아낼 수 있었습니다. 본 연구는 잘못된 곳으로 흐르는 어텐션을 차단하고, 이를 유의미한 토큰으로 재분배하는 VAR(Visual Attention Redistribution)을 제안합니다.
VAR의 핵심은 Visual Sink Token의 어텐션을 Visual Non-sink Token으로 재분배하는 것입니다. 학습 없이 Inference 단계에서 어텐션만 건드리는 것으로 모델이 실행되기 때문에 부작용을 최소화하기 위해서 조심스럽게 토큰을 건드립니다.
먼저 이미지 중심 헤드(Image-Centric Heads)를 식별합니다. 트랜스포머는 각자 다른 역할을 수행하는 많은 어텐션 헤드를 사용합니다. 어떤 헤드는 문법적 관계를 파악하기 위한, 또 어떤 헤드는 문맥 유지를 위한 용도 등으로 사용됩니다. 모든 헤드를 다 건드리면 언어 능력을 훼손할 수 있기 때문에, 연구진은 이미지 처리에 특화된 헤드에 집중했습니다. 특정 레이어에서 20%이상의 이미지 어텐션 스코어를 가진 헤드로 이를 정의했습니다.
이후에 선별된 이미지 중심 헤드 내에서, 어떤 토큰이 Sink 토큰인지 판별해야 합니다. Sink 토큰을 텍스트 입력과 무관하게 항상 높은 활성화를 보이는 토큰으로 정의하였습니다. Attention Score 분포를 분석하여 상위 k%에 해당하거나, 특정 임계값을 초과하는 토큰 중 의미적 연관성이 낮은 토큰들을 식별했습니다.
마지막으로 Sink 토큰이 식별되면, 일반 시각 토큰(Visual Non-sink Tokens)에게 재분배합니다. 이를 Recycling Attention Budget이라 부릅니다. 먼저 Sink 토큰에 해당하는 위치의 Score는 마스킹이나 음의 무한대로 보내버려서 억제합니다. 그리고 그 이후에 Softmax를 다시 계산하거나, 혹은 기존 Sink 토큰의 확률 질량을 기존 비율에 맞게 비례적으로 더해주는 과정으로 이루어집니다. 이를 통해서 의미 없이 사용되었던 어텐션을 재분배하게 되는 것이죠.
모달리티에 따른 Attention Sink 대처와 미래
해당 연구는 Attention Sink에 대한 새로운 고민을 던져주기도 했습니다. 멀티모달 분야로 확장된 Attention Sink 현상의 원인이 차원 문제에 있음을 것을 찾아내기도 하였으며, Visual Sink Token은 제거하는 것이 성능 향상에 유의미했음을 증명하기도 했죠. 이는 어텐션의 효율적 분배에 대한 화두를 던진 셈입니다.
실제로 LLM 연구에서는 텍스트 Sink 토큰이 수치적 안정성을 위해 필요하다고 보고 있습니다. 위 연구에서 텍스트 토큰인 <BOS>를 재분배하지 않은 이유도 동일합니다. 텍스트 토큰은 제거하지 못하더라도, 멀티모달 분야로 확장되면서 시각 토큰은 제거할 수 있다는 결과를 다양한 연구에서 내놓고 있습니다. 모달리티에 따라 Attention Sink를 대처하는 방법이 다르다는 뜻입니다.
이는 다양하게 해석할 수 있는데요.
먼저 선형적 흐름이 필수적인 텍스트의 순차적(Sequential) 특성과 정보가 분산된 이미지의 공간적(Spatial) 특성 차이입니다. 이미지에는 주위에 중복된 데이터가 많기 때문에 일부가 사라져도 큰 문제를 띄지 않는다고 해석할 수 있죠. 혹은 기존 LLM에 새로운 모달리티를 정렬시키는 과정에서 이미 존재하는 Sink 토큰들이 충격 완화 장치 역할을 하여 새로운 토큰들에게 더 관대한 구조를 제공한다는 분석도 가능합니다.
Attention Sink에 대해 구체적인 연구가 활발히 일어난다면, 어텐션에 대한 깊은 이해도로 넓은 세상을 이해하는 인공지능 모델을 만날 수 있을 것입니다. 어텐션의 빈 곳을 찾는 이 연구가 앞으로 어떤 발전을 가지고 올까요?