A Proofs
A.1 Notations
를 에 의해 파라미터화 된 consistency 모델이라 표기하고 를 방정식 3의 경험적 PF ODE의 consistency 함수라고 표기한다. 여기서 는 pre-trained score 모델 에 대한 의존성을 상징한다. 방정식 2에서 PF ODE의 consistency 함수에 대해 로 표기한다. multi-variate 함수 가 주어지면 를 에 대한 의 야코비안으로 표기하고 유사하게 를 에 대한 의 야코비안이라 표기한다. 별다른 언급이 없는 한 는 데이터 분포 에서 샘플된 확률 변수이고, 은 에서 랜덤으로 균등하게 샘플되고, 은 에서 샘플된다. 여기서 는 정수 집합 을 나타낸다. 또한 다음을 정의한 것을 떠올려라.
이것이 역방향에 대한 식임에 유의 을 이용해서 를 예측한다. 예측값이기 때문에 라 표기하는 것. 이므로 는 음수가 된다.
여기서 는 score 모델 에 의해 정의된 경험적 PF ODE에 대한 one-step ODE solver의 업데이트 함수를 표기한다. 기본적으로 는 해당식에 표현된 모든 관련 확률 변수에 대한 기대를 표기한다.
A.2 Consistency Distillation
Theorem 1.
방정식 3의 경험적 PF ODE의 consistency 함수를 와 라고 하자. 가 Lipschitz condition을 만족한다고 가정하면, 모든 과 와 에 대해 를 만족하는 이 존재한다. 또한 모든 에 대해 에서 호출된 ODE solver의 local error가 일 때 로 uniformly bounded라고 가정하자. 그러면 이면 다음이 성립한다.
여기서 는 ODE solver의 local error를 의미한다. 는 local error가 제곱에 비례한다는 의미. 이 일반적으로 매우 작은 값이기 때문에 가 커질 수록 값은 빠르게 작아진다. 여기서 는 사용자가 선택한 ODE solver의 차수에 의해 결정되며 Euler 방법을 사용하면 이고, Runge-Kutta 방법에서는 가 됨.
위 식은 consistency 모델의 예측값 이 diffusion 모델의 예측값 에 가까워지도록 학습된다는 것을 의미하며, 시간 에서 두 모델의 예측 값 사이의 최대 차이가 의 비율로 감소한다는 뜻이다.
증명.
에서 다음이 성립한다.
은 consistency 모델의 예측 값이고, 는 diffusion 모델의 예측값이다. 다시 말해 위 식은 시점의 consistency 모델의 예측 값이 시점의 diffusion 모델의 예측값과 일치해야 한다는 의미다.
정의에 따라 가 성립한다. 여기서 . 각 에 대해 이고 이다. 그러므로 방정식 11은 다음을 수반한다.
이고 이므로 추가로 다음을 암시한다.
이제 이 에서 다음처럼 정의되는 에러 벡터를 나타낸다고 하자.
다음의 재귀적 관계를 쉽게 유도할 수 있다.
두 번째 줄에서 세번 째 줄로 넘어가는 것은 를 이용하면 된다.
여기서 는 방정식 13과 때문이다. 이 Lipschitz 상수 을 갖기 때문에 다음이 성립한다.
첫 번재 줄은 에서 유도된 결과이다. 아래 참조. 마지막에 상수 이 사라진 것은 표기법의 특성 때문이다. 빅오 표기법에 포함된 상수는 생략가능하다.
여기서 는 ODE solver가 에 의해 local error bounded이기 때문에 성립한다. 또한 을 관찰할 수 있다. 왜냐하면
여기서 는 consistency 모델이 와 같이 파라미터화 되고 는 의 정의에 의해 수반되므로 참이다.
이것은 초기 조건에서 consistency model과 diffusion model이 일치하도록 설정되었기 때문에 성립하는 것으로 같은 논리를 확장해서 이 되지는 않는다.
이를 통해 재귀 공식 방정식 14에 대한 유도를 수행하여 다음을 얻을 수 있다.
이것으로 증명은 완료 되었다.
위 식에서 첫 번째 줄은 을 이용해서 재귀적으로 구성한 식이다. 첫 번째에서 두 번째로 넘어갈 때는 을 따름. 세 번째에서 네 번째로 넘어갈 때는 정의에 있는 를 따름. 마지막 줄에서 이 사라지는 것은 빅오의 표기법상 상수를 생략할 수 있기 때문
A.3 Consistency Training
다음 lemma는 score 함수에 대한 비편향 추정량을 제공한다. 이것은 Theorem 2에 대한 증명의 핵심이다.
Lemma 1.
라 하자. 가 성립한다.
증명.
의 정의에 따라 가 성립한다. (는 convolution의 정의에 따른 것이다.)
여기서 . 이 표현식은 더 단순화 되어 산출될 수 있다.
은 베이지안 룰 때문이다.
첫 번째 줄은 log 미분과 chain rule을 사용하여 의해 유도된다. 그 후에 를 적분 안으로 밀어 넣는다. 두 번째 줄에서는 를 다시 변형해서 형태로 만들어서 유도한다. 마지막 2번째 줄은 확률 함수의 조건부 기대값 에서 유도된다. 마지막 줄은 가 가우시안 분포 를 따르고 그에 대한 결과가 로 주어진된다는 것에서 유도된다.
Theorem 2.
라 하자. 와 가 모두 2번 연속 미분가능하고 bounded 2차 도함수를 가지며, 가중치 함수 가 bounded이고 이다. 또한 Euler ODE solver를 사용하고 pre-trained score 모델이 ground truth와 일치한다고 가정하자. 즉 . 그러면
여기서 기대는 에 관해 취해지고 이고 이다. 라 표기되는 consistency training(CT) 목적은 다음과 같이 정의된다.
여기서 이다. 또한 이면 이다.
위 식에서 는 에서의 결과인데, 이 결과는 에 영향 받고, 은 에 영향 받고,…를 반복해서 결국 에서부터 까지의 결과가 재귀적으로 합산된 값이다. 결과적으로 CT에서 은 그 결과와 일치하도록 학습된다.
증명.
테일러 전개를 사용하여 다음이 성립한다.
3번째 줄은 를 따른다. 여기서 이며, 이것은 score 모델 의 역확산 단계 를 의미한다. 참고로 역확산에 대한 score 함수는 일반적으로 다음처럼 정의 됨.
함수 에 대해 에서의 테일러 전개는 다음과 같이 주어진다.
여기서 는 의 헤시안이고, 는 2차 이상의 항을 나타낸다. 이 값은 매우 빠르게 0으로 수렴하므로 아예 없애고 아래처럼 근사 표현으로 작성할 수도 있다.
일반적으로 다변수 함수 에 대한 테일러 전개 식은 다음처럼 항을 이용하여 가능하다.
여기서 . 이전 항을 기준으로 이전 항에 대해 각 변수로 편미분을 구한 값을 더하는 식으로 구성된다. higher order term에는 2차 이상의 항이 추가되고 미분을 2번, 3번 한 값이 들어간다. 해당 값은 빠르게 0으로 수렴하므로 생략하고 전체 식을 근사 형태로 사용함. 경우에 따라 2차 편미분한 값까지 추가하기도 한다.
4번째 줄의 테일러 전개는 다음과 같다.
여기서 이고 역방향이므로 이다. 이므로 이 테일러 전개 식은 에 각 변수의 1차 편미분 값을 더해 을 근사하는 식이 된다. 마지막 은 고차항에 대한 근사값으로 취급되며 0으로 수렴한다.
5번째 줄은 다음의 테일러 전개에서 유도된다. 위 식에서 이다. 다만 이 추가됨
그러면 Lemma 1을 방정식 15에 적용하고 역 방향에서 테일러 전개를 사용하여 다음을 얻을 수 있다.
여기서 는 total expectation의 법칙 때문이고 이다. 이것은 를 암시하고 따라서 방정식 9에 대한 증명을 완성한다. 게다가 일 때마다 가 성립한다. 그렇지 않으면 이고 따라서 이다. 이것은 분명 에 모순이다.
Remark 1.
와 같이 이 만족되지 않을 때도 Theorem 6에서 증명된 결과를 참조하여 consistency 모델에 대한 학습 목적으로써 의 유효성을 여전히 정당화 할 수 있다.
위 식에서 은 함수가 조건부의 종속일 때 조건부 기대값이 함수값이 되는 법칙을 따른다.
3번째 식은 기대값의 선형성을 따른다.
3번째 식의 마지막 부분에 은 4번째 식에서 테일러 전개를 역으로 돌리기 위한 용도로 보임. 3-4번째 식은 방정식 15의 3, 4번째 테일러 전개를 한번에 역방향으로 되돌린다. 다시 말해 4번째 식에 방정식 15의 3, 4번째 테일러 전개를 차례로 적용하면 3번째 식이 됨.
6번째 식은 에서 유도된다. 자리에 위 식을 대입하면 됨. 이 식은 의 가 입력에 대해 의 노이즈 가 더해진 값으로 정의된다는 것이다. 고로 의 를 한 번에 구할음
마지막에서 2번째 줄은 가 상수이기 때문에 성립한다.
마지막 줄은 consistency training의 목적 함수 정의를 따른다.
B Continuous-Time Extensions
consistency distillation(CD)과 consistency training(CT) 목적은 적합한 조건 아래 무한 시간 단계 () 에 대해 유지되도록 일반화 될 수 있다.
B.1 Consistency Distillation in Continuous Time
또는 (을 설정하여) 여부에 따라 consistency distillation 목적 에 대한 2가지 가능한 continuous-time 확장이 존재한다. 2번 연속적으로 미분 가능한 메트릭 함수 가 주어지면, 를 -번째 항목이 다음처럼 주어지는 행렬로 정의한다.
위 식에서 는 일종의 제약조건으로 편미분 결과를 특정한 점에서 평가하는 것을 의미한다. 이것은 특정 점에서의 성질을 분석하거나 미분 결과를 단순화하는데 사용함. 위 식의 경우 를 와 로 2번 편미분한 후에 를 로 둔 결과를 행렬 로 둔다는 의미이다.
유사하게 를 다음과 같이 정의한다.
행렬 와 는 consistency distillation에 대한 continuous-time 목적을 형식화하는데 결정적인 역할을 수행한다. 게다가 에 관한 의 야코비안을 라 표기한다.
일 때(stopgrad 연산자 없이), 다음의 이론적인 결과를 얻는다.
Theorem 3.
이라 하자. 여기서 이고 은 과 와 함께 strictly monotonic 함수이다. 가 에서 연속으로 미분가능하고 는 3번 연속적으로 미분 가능하며 bounded 3번째 미분값을 갖는다고 하자. 는 2번 연속 미분 가능하며 bounded 첫 번째와 두 번째 미분 값을 갖는다. 또한 가중치 함수 이 bounded이고 라 하자. 그러면 consistency distillation에서 Euler solver를 사용하여 다음을 갖는다.
이것은 이 18의 식과 같을 때 이 로 수렴한다는 얘기
여기서 는 다음과 같이 정의된다.
여기서 위의 기대는 에 대해 취해지고, 이고 이고 이다.
증명.
이고 이라 하자. 우선 테일러 전개를 사용하여 다음의 방정식을 유도할 수 있다.
위 식의 2번째 줄은 에 의한 것인데, 원래 정의상 이므로 가 된 것에 따른다.
그에 대한 유도는 다음과 같다. 정리의 정의상 이므로 이다. 가 strictly monotonic이므로 테일러 급수를 이용하여 근사할 수 있고, 의 입력에서의 한 단계 변위량이 이므로 가 되고 이를 과 으로 치환하면 가 되고, 이 식을 변환하면 가 된다.
3번째 줄은 테일러 전개에 따른 것이다. 라 표기하면 2번째 줄은 로 나타낼 수 있고, 를 를 이용해서 테일러 전개를 하면 다음과 같다.
이 식을 2번째 식에 대입하면 아래와 같고
나머지 식에 와 를 대입하고 고차항을 로 대체하면 된다.
임에 유의하라. 그러면 consistency distillation loss에 대해 테일러 전개를 적용하여 다음을 얻는다.
여기서 은 을 2차까지 전개하고 과 를 관찰하여 얻을 수 있고, 는 방정식 19를 사용하여 얻을 수 있다. 양 변에 또는 동등하게 에 대한 극한을 취함으로 방정식 20에서 방정식 17에 도달하게 되고 증명이 완료 된다.
에서 에 대해 테일러 전개를 하라는 말은 를 기준으로 에 대한 근사를 구하라는 뜻이다. 이것은 함수 를 이용해서 함수 를 근사하는 아래의 테일러 전개를 따른다.
위 식을 따라 식을 전개한다. 그러나 우선 식이 길기 때문에 식을 다음과 같이 치환한다. 를 제외한 나머지는 0이 됨에 주의
위의 치환을 이용해서 다음과 같이 전개한다. 아래 식에서 부분은 헤시안을 의미한다.
위 식의 마지막에 3차 이상의 합이 으로 표현되는 이유는 의 변위량이 가 되고 이것은 에 비례하기 때문이다.
위의 마지막 식의 를 다시 원래의 식 으로 치환하고 를 기대값 밖으로 빼면 3번째 식과 같은 식이 나오는데, 딱 하나 다른게 3번째 식에는 이 추가로 곱해지는데 이게 어디서 나온건지 모르겠다. 오타가 아닌가 싶은데 3번째 식에서는 가 나올 부분이 없는데 4번째 식에서 가 나오기 때문.
4번째 식에서는 방정식 19의 를 로 정리한 후에 는 작은 값이라 무시하고 대입하여 다음처럼 정리한다.
마지막 식은 를 이용해서 정리하면 됨
Remark 2.
Theorem 3이 기술적 단순성을 위해 오일러 ODE solver를 가정하지만 모든 ODE solver가 에 대해 유사하게 작동해야 하므로 더 일반적인 solver에 대해 유사한 결과를 유도할 수 있다고 믿는다. Theorem 3의 더 일반적인 버전은 향후 과제로 남긴다.
Remark 3.
Theorem 3이 consistency 모델이 를 최소화하여 학습될 수 있음을 암시한다. 특히 일 때 다음이 성립한다.
그러나 이 continuous-time 목적은 loss 함수를 평가하기 위해 서브루틴으로 야코비안-벡터 곱을 계산해야 한다. 이것은 forward-mode 자동 미분을 지원하지 않는 딥 러닝 프레임워크에서 구현하기 느리고 laborious(힘드는) 수 있다.
Remark 4.
가 의 경험적 PF ODE에 대한 ground truth consistency 함수와 일치하면 다음이 된다.
그러므로 . 이것은 모든 에 대해 임을 유의하여, 이 항등식의 time 도함수를 취하여 증명될 수 있다.
위의 관찰은 이것이 최소화되면 consistency model이 ground truth consistency 함수와 일치하고 그 역도 성립하기(iff) 때문에 에 대한 또 다른 동기를 제공한다.
노름 같은 어떤 메트릭 함수의 경우 헤시안 는 0이고 따라서 Theorem 3은 vacuous(무의미)이다. 아래에서 Theorem 3에 대한 증명을 약간 수정 하여 노름에 대한 non-vacuous 명제가 성립함을 보인다.
Theorem 4.
이라 하자. 여기서 이고 은 과 와 함께 strictly monotonic 함수이다. 가 에서 연속으로 미분가능하고 는 3번 연속적으로 미분 가능하며 bounded 3번째 미분값을 갖는다고 하자. 는 2번 연속 미분 가능하며 bounded 첫 번째와 두 번째 미분 값을 갖는다. 또한 가중치 함수 이 bounded이고 라 하자. consistency distillation에서 Euler ODE solver를 사용하고 을 설정한다고 가정하자. 그러면 다음을 얻는다.
이것은 이 아래 식과 같을 때 이 로 수렴한다는 얘기
여기서
여기서 위의 기대는 에 관해 취해지고 이고 이고 이다.
증명.
이고 이라 하자. 다음이 성립한다.
여기서 는 방정식 19를 이전 방정식에 연결하여 얻을 수 있다. 방정식 23의 양변에 대해 이나 동등하게 로 극한을 취하면 방정식 22로 이어진다. 이것으로 증명은 완료된다.
방정식 20에서는 에 대해 거리 메트릭 을 사용했지만 여기서는 으로 한정한다. 3번째 식은 방정식 19에서 증명한 것이고 마지막 식은 를 따름.
Remark 5.
Theorem 4에 따라 consistency 모델은 를 최소화하여 학습될 수 있다. 또한 Remark 4에서 동일한 추론을 적용하여 모든 와 에 대해 이면 이고 그 역도 성립함(iff)임을 보이도록 적용할 수 있다.
인 두 번째 경우 ‘pseudo-objective’라 부르는 것을 유도할 수 있다. 이것은 의 극한에서 의 gradient와 일치한다. gradient descent를 이용하여 이 pseudo 목적을 최소화하면 distillation을 통해 consistency 모델을 학습하는 또 다른 방법이 된다. 이 pseudo-목적은 아래 theorem으로 제시된다.
Theorem 5.
이라 하자. 여기서 이고 은 과 와 함께 strictly monotonic 함수이다. 가 에서 연속으로 미분가능하고 는 3번 연속적으로 미분 가능하며 bounded 3번째 미분값을 갖는다고 하자. 는 2번 연속 미분 가능하며 bounded 첫 번째와 두 번째 미분 값을 갖는다. 또한 가중치 함수 이 bounded이고 이고 라 하자. consistency distillation에서 Euler ODE solver와 를 사용한다고 가정하자. 그러면 다음을 얻는다.
이것은 이 식 25와 같을 때 이 로 수렴한다는 내용
여기서
여기서 위의 기대는 에 관해 취해지고 이고 이고 이다.
증명.
이고 이라 하자. 우선 테일러 급수 전개를 활용하여 다음을 얻는다.
여기서 는 을 2차까지 확장하고 과 을 활용하여 유도될 수 있다.
의 상세한 유도는 부분 참조
다음으로 에 대해 방정식 26의 gradient를 계산하고 결과를 단순화하여 다음을 얻는다.
여기서 는 체인룰의 규칙에 의한 것이고 는 이므로 방정식 19와 를 따른다. 방정식 28의 양변에 (또는 )로써 극한을 취하면 방정식 24를 산출할 수 있다. 이것으로 증명을 완료한다.
식 26에 대해 gradient를 취한다.
의 식을 이해하기 위해 우선 2차 형식에 대해 다음의 미분 규칙을 보자. 여기서 는 파라미터 의 함수 이고, 전체 식을 로 미분한다.
작성의 편의를 위해 우선 로 치환하여 2번째 식의 2차형식을 기술하면 다음과 같다. 이 식은 가 헤시안이므로 2차 형식이 된다.
위의 미분 규칙을 이용하여 위 식을 에 대해 미분한다.
마지막 줄은 그 전의 결과가 대칭이기 때문이다. 마지막 결과를 다시 치환하면 의 식을 복구할 수 있다. 마지막의 상수 2는 기대값 밖으로 나가서 을 로 만든다.
의 식은 방정식 19를 따른다.
6번째 식에서 가 기대값 밖으로 나갈 수 있는 이유는 외의 나머지는 모두 에 독립이기 때문이다.
마지막 식은 를 따름.
Remark 6.
일 때 pseudo 목적 는 다음과 같이 단순화 된다.
Remark 7.
Theorem 5에서 정의된 목적 는 gradient의 측면에서만 의미가 있다. 의 값을 추적하여 학습의 진행 상황을 측정할 수 없지만, 이 목적에 gradient descent을 적용하여 pre-trained diffusion 모델에서 consistency model을 distill 할 수 있다. 이 목적이 일반적인 손실 함수가 아니므로 이것을 consistency distillation을 위한 ‘pseudo 목적’이라 부른다.
Remark 8.
Remark 4와 같은 추론에 따라 가 를 포함하는 경험적 PF ODE에 대한 ground truth consistency 함수와 일치하면 과 을 쉽게 유도할 수 있다. 그러나 일반적으로 converse(역)은 성립하지 않는다. 이것은 실제 loss 함수인 에서 를 구별한다.
B.2 Consistency Training in Continuous Time
놀라운 관찰은 Theorem 5에서 pseudo-목적이 pre-trained diffusion 모델이 없이 추정될 수 있다는 것이다. 이것은 consistency 모델을 직접 consistency 학습을 할 수 있다는 것이다. 더 적용화게 다음 결과가 성립한다.
Theorem 6.
이라 하자. 여기서 이고 은 과 와 함께 strictly monotonic 함수이다. 가 에서 연속으로 미분가능하고 는 3번 연속적으로 미분 가능하며 bounded 3번째 미분값을 갖는다고 하자. 는 2번 연속 미분 가능하며 bounded 첫 번째와 두 번째 미분 값을 갖는다. 또한 가중치 함수 이 bounded이고, 이고 이고 이 를 만족하는 diffusion 모델 파라미터를 나타낸다고 하자. 그러면 이면 다음이 성립한다.
이 식 30과 같을 때 가 에 수렴한다는 내용. 또한 이것은 Theorem 5의 consistency distillation과도 연결된다.
여기서 는 Euler ODE solver를 사용한다. 그리고
여기서 위의 기대는 에 관해 취해지고 이고 이고 이다.
증명.
증명은 대부분 Theorem 5의 것을 따른다. 우선 테일러 급수 전개를 활용하여 다음을 얻는다.
여기서 이다. 는 을 2차까지 확장한 다음에 과 임에 유의하여 유도될 수 있다.
위 식은 방정식 26을 따른다.
다음으로 에 대하여 방정식 31의 gradient를 계산하고 그 결과를 단순화하여 다음을 얻을 수 있다.
여기서 의 결과는 체인룰에서 오고, 는 테일러 전개에서 온다. 방정식 33의 양변에 또는 와 같이 극한을 취하면 방정식 28의 두 번째 등식을 산출한다.
은 방정식 27의 과 동일하다
에서 우선 를 다음과 같이 테일러 전개 하여 대입한다. 여기서 마지막 줄은 식 19에 대한 설명 중 를 따른다.
마지막 전은 정의 상 를 따르고, 이를 에 대해 정리한 를 따름.
마지막 식은 를 따름.
이제 첫 번째 등식을 증명한다. 테일러 전개를 다시 적용해서 다음을 얻는다.
여기서 은 이고 때문이다. 이 방정식 32와 일치하므로 방정식 32에서 방정식 33으로 동일한 절차를 사용할 수 있고 라고 결론 내릴 수 있다. 증명이 완료되었다.
위의 4, 5번째 식을 유도하기 위해 일단 다음과 같이 대체한다.
4번째 식을 이 표기로 작성하면 아래와 같은 식이 되는데 이게 어떻게 이렇게 유도되는지 알 수 없다. 오타일 것으로 보임. 일단 패스
위의 5번째 식은 를 로 1차 테일러 근사할 때 다음과 같이 되는 것을 따른다.
이에 따라 5번째 식을 전개하면 다음과 같다. (이것은 위 예시에서 를 로 근사하는 경우다)
위 식에서 는 2번 미분한 것이므로 헤시안이 되고, 치환을 되돌리면 5번째 식이 복구된다.
Remark 9.
가 diffusion model 파라미터 에 의존하지 않는다는 것에 유의하라. 따라서 pre-trained diffusion 모델 없이 최적화 될 수 있다.
Remark 10.
일 때 continuous-time consistency training(CT) 목적은 다음이 된다.
Remark 11.
Theorem 5에서 와 유사하게 는 pseudo-objective이다. 의 값을 모니터링 하여 학습을 추적할 수 없지만 이 loss 함수에 대해 gradient descent를 적용하여 데이터에서 consistency 모델 를 직접 학습할 수 있다. 게다가 Remark 8의 동일한 관찰이 참이다. 이 PF ODE에 대한 ground truth consistency 함수와 일치하면 이고 이다.