Multiplicative Interaction
Multiplicative Interaction이란 입력 간의 상호작용(이것을 곱셈으로 사용)을 이용해 모델링 하는 방법을 의미한다. 예컨대 2개의 입력에 대한 가법적(additive) 모델이 다음과 같이 정의된다고 하자.
여기서 는 가중치이고 는 편향이다. 이것은 과 가 독립적으로 에 영향을 미친다는 가정에 기반한 것이다. 위 모델에 대해 multiplicative interaction이 추가된 식은 다음과 같다.
이런 식으로 입력 간의 곱셈 상호작용을 이용하여 더 복잡한 패턴을 모델링할 수 있다.
단순 곱을 로 표현 하는 것과 달리 Multiplication은 와 같이 표현된다. Attention은 다음과 같이 정의되는 Multiplicative Interaction이다.
일반적으로 많이 사용되는 query , key , value 를 이용한 Attention은 다음처럼 정의할 수 있다.
Example
입력 에 따라 가중치 가 조정되도록 곱셈 상호작용 을 다음과 같이 계산할 수 있다. 우선 입력 와 query와 key에 대한 가중치 행렬 가 각각 다음과 같다고 하자.
이에 대해 query 와 key 를 각각 다음과 같이 구할 수 있다.
이 와 를 이용하여 을 계산할 수 있다. 일반적인 attention에서 많이 사용되는 것과 같이 내적을 사용한다면 다음과 같다.
이 결과는 각 입력 벡터가 다른 입력 벡터에 얼마나 attention 해야 하는지를 나타내는 가중치 행렬이 된다. 일반적인 attention에서 이 결과를 softmax 함수에 통과시킨 후에 다시 value 와 곱해 출력 를 계산한다.