Problem Analysis #2

4.91s

1,796 toks

Problem Statement

다음 글을 읽고 물음에 답하시오.문장이나 영상, 음성을 만들어 내는 인공 지능 생성 모델 중 확산 모델은 영상의 복원, 생성 및 변환에 뛰어난 성능을 보인다. 확산 모델의 기본 발상은, 원본 이미지에 노이즈를 점진적으로 추가하였다가 그 노이즈를 다시 제거해 나가면 원본 이미지를 복원할 수 있다는 것이다. 노이즈는 불필요하거나 원하지 않는 값을 의미한다. 원하는 값만 들어 있는 원본 이미지에 노이즈를 단계별로 더하면 노이즈가 포함된 확산 이미지가 되고, 여러 단계를 거치면 결국 원본 이미지가 어떤 이미지였는지 전혀 알아볼 수 없는 노이즈 이미지가 된다. 역으로, 단계별로 더해진 노이즈를 알 수 있다면 노이즈 이미지에서 원본 이미지를 복원할 수 있다. 확산 모델은 노이즈 생성기, 이미지 연산기, 노이즈 예측기로 구성되며, 순확산 과정과 역확산 과정 순으로 작동한다. 순확산 과정은 이미지에 노이즈를 추가하면서 노이즈 예측기를 학습시키는 과정이다. 첫 단계에서는, 노이즈 생성기에서 노이즈를 만든 후 이미지 연산기가 이 노이즈를 원본 이미지에 더해서 노이즈가 포함된 확산 이미지를 출력한다. 다음 단계부터는 노이즈 생성기에서 만든 노이즈를 이전 단계에서 출력된 확산 이미지에 더한다. 이러한 단계를 충분히 반복하면 최종적으로 노이즈 이미지가 출력된다. 이때 더해지는 노이즈는 크기나 분포 양상 등 그 특성이 단계별로 다르다. 따라서 노이즈 예측기는 단계별로 확산 이미지를 입력받아 이미지에 포함된 노이즈의 특성을 추출하여 수치들로 표현하고, 이 수치들을 바탕으로 노이즈를 예측한다. 노이즈 예측기 내부의 이러한 수치들을 잠재 표현 이라고 한다. 노이즈 예측기는 잠재 표현을 구하고 노이즈를 예측하는 방식을 학습한다. 노이즈 예측기의 학습 방법은 기계 학습 중에서 지도 학습에 해당한다. 지도 학습은 학습 데이터에 정답이 주어져 출력과 정답의 차이가 작아지도록 모델을 학습시키는 방법이다. 노이즈 예측기를 학습시킬 때는 노이즈 생성기에서 만들어 넣어 준 노이즈가 정답에 해당하며 이 노이즈와 예측된 노이즈 사이의 차이가 작아지도록 학습시킨다.역확산 과정은 노이즈 이미지에서 노이즈를 제거하여 원본 이미지를 복원하는 과정이다. 노이즈를 제거하려면 이미지에 단계별로 어떤 특성의 노이즈가 더해졌는지 알아야 하는데 노이즈 예측기가 이 역할을 한다. 노이즈 이미지 또는 중간 단계에서의 확산 이미지를 노이즈 예측기에 입력하면 이미지에 포함된 노이즈의 특성을 추출하여 잠재 표현을 구하고 이를 바탕으로 노이즈를 예측한다. 이미지 연산기는 입력된 확산 이미지로부터 이 노이즈를 빼서 현 단계의 노이즈를 제거한 확산 이미지를 출력한다. 확산 이미지에 이런 단계를 반복하면 결국 노이즈가 대부분 제거되어 원본 이미지에 가까운 이미지만 남게 된다.한편, 많은 종류의 이미지를 학습시킨 후 학습된 이미지의 잠재 표현에 고유 번호를 붙이면 역확산 과정에서 이미지를 선택하여 생성할 수 있다. 또한 잠재 표현의 수치들을 조정하면 다른 특성의 노이즈가 생성되어 여러 이미지를 혼합하거나 실재하지 않는 이미지를 만들어 낼 수도 있다.

윗글을 바탕으로 <보기>를 이해한 내용으로 적절하지 않은 것은? [3점] <보 기> A 단계는 확산 모델 과정 중 한 단계이다. ㉠은 원본 이미지이고, ㉡은 확산 이미지 중의 하나이며, ㉢은 노이즈 이미지이다. (가)는 이미지가 A 단계로 입력되는 부분이고, (나)는 이미지가 A 단계에서 출력되는 부분이다. (가) ⇨ A 단계 ⇨ (나) ㉠㉡㉢

① (가)에 ㉠이 입력된다면, A 단계의 이미지 연산기에서는 ㉠에 노이즈를 더하겠군. ② (나)에 ㉢이 출력된다면, A 단계의 노이즈 생성기에서 생성된 노이즈가 이미지 연산기에서 확산 이미지에 더해졌겠군. ③ 순확산 과정에서 (가)에 ㉡이 입력된다면, A 단계의 노이즈 예측기에서 예측한 노이즈가 이미지 연산기에 입력되겠군. ④ 역확산 과정에서 (가)에 ㉢이 입력된다면, A 단계의 이미지 연산기에서는 ㉢에서 노이즈를 빼겠군. ⑤ 역확산 과정에서 (나)에 ㉡이 출력된다면, A 단계의 노이즈 예측기에서 예측한 노이즈가 이미지 연산기에 입력되었겠군.

Ground Truth

③

Execution Trace

Reasoning Process

[THOUGHT]

주어진 글과 <보기>를 바탕으로 각 선택지를 분석해 보겠습니다.

확산 모델의 과정 이해:
- 순확산 과정: 원본 이미지(㉠)에 노이즈를 점진적으로 추가하여 확산 이미지(㉡)를 생성하고, 최종적으로 노이즈 이미지(㉢)에 도달합니다. 이 과정에서 노이즈 예측기는 노이즈의 특성을 학습합니다.
- 역확산 과정: 노이즈 이미지(㉢)에서 노이즈를 점진적으로 제거하여 원본 이미지에 가까운 이미지를 복원합니다.
<보기>의 구조:
- (가)는 A 단계의 입력, (나)는 A 단계의 출력입니다.
- ㉠(원본 이미지) → ㉡(확산 이미지) → ㉢(노이즈 이미지)의 순서로 진행됩니다.
선택지 분석:
- ①: 순확산 과정에서 (가)에 ㉠이 입력되면 이미지 연산기는 ㉠에 노이즈를 더해 ㉡을 출력합니다. 이는 설명과 일치합니다. (적절함)
- ②: 순확산 과정에서 (나)에 ㉢이 출력되려면, A 단계에서 노이즈 생성기가 만든 노이즈가 이미지 연산기에서 확산 이미지에 더해져야 합니다. 이는 설명과 일치합니다. (적절함)
- ③: 순확산 과정에서 (가)에 ㉡이 입력된다는 것은 잘못된 설명입니다. 순확산 과정의 입력은 ㉠(원본 이미지)이어야 합니다. 만약 ㉡이 입력되면 이는 이미 노이즈가 추가된 이미지이므로, 노이즈 예측기는 ㉡의 노이즈를 예측하지만, 이 예측된 노이즈가 이미지 연산기에 입력되는 것은 역확산 과정의 설명이 잘못 적용된 것입니다. (적절하지 않음)
- ④: 역확산 과정에서 (가)에 ㉢이 입력되면 이미지 연산기는 ㉢에서 노이즈를 빼서 ㉡을 출력합니다. 이는 설명과 일치합니다. (적절함)
- ⑤: 역확산 과정에서 (나)에 ㉡이 출력되려면, 노이즈 예측기가 ㉢에서 노이즈를 예측하고, 이미지 연산기가 이를 빼서 ㉡을 출력합니다. 이는 설명과 일치합니다. (적절함)
결론:
- ③은 순확산 과정에서 ㉡이 입력되는 경우를 설명하고 있지만, 이는 순확산 과정의 입력으로 적절하지 않습니다. 순확산 과정의 입력은 원본 이미지(㉠)이어야 하므로, ③이 적절하지 않은 설명입니다.

[THOUGHT]

따라서 정답은 (\boxed{③})입니다.

Final Model Output

③

Comparative Analysis (P2) (Average across runs)

Avg Time Taken

K-EXAONE-236B-A23B

106.4

Gemini-3-Pro-Preview

28.8

GPT-5.2 (high)

15.0

Kanana-2-30B-Thinking-2601

13.9

EXAONE-4.0.1-32B (high)

4.4

Avg Token Usage

K-EXAONE-236B-A23B

11022.7

Gemini-3-Pro-Preview

4091.0

Kanana-2-30B-Thinking-2601

3582.3

GPT-5.2 (high)

1903.0

EXAONE-4.0.1-32B (high)

1707.0