[쿠키과학] KAIST-네이버 '창의적으로 그리는 AI' 개발

[쿠키과학] KAIST-네이버 '창의적으로 그리는 AI' 개발

인공지능 생성모델 창의적 생성 강화
학습 없이 기존 자료만으로 창의적
상품디자인 등 다양한 분야 활용 기대

기사승인 2025-06-19 09:03:10
다양한 Stable Diffusion 모델에서 기존 생성 대비 생성 대상의 의미를 유지하면서도 참신한 이미지를 생성한 사례. KAIST

최근 ‘스테이블 디퓨전(Stable Diffusion) 모델’ 등 자연어로 제공된 설명만으로도 고해상도 고품질 이미지를 자동 생성하는 인공지능(AI)가 널리 활용되고 있다. 그러나 여기에 ‘창의적’이라는 문자를 입력할 경우에 대한 이미지 생성은 아직 제한적이다.

KAIST 김재철AI대학원 최재식 교수팀이 네이버 AI Lab과 공동연구로 텍스트 기반 이미지생성 모델에 별도 학습 없이 창의성을 강화하는 기술을 개발했다.

연구팀은 텍스트 기반 이미지 생성 모델의 내부 특징 맵을 증폭해 창의적 생성을 강화하는 기술을 개발하고, 모델 내부 얕은 블록들이 창의적 생성에 중요한 역할을 한다는 것을 발견했다.

아울러 특징 맵을 주파수 영역으로 변환 후 높은 주파수 영역에 해당하는 부분의 값을 증폭하면 노이즈나 작게 조각난 색 패턴의 형태를 유발하는 것을 확인했다. 

이에 따라 얕은 블록의 낮은 주파수 영역을 증폭함으로써 효과적으로 창의적 생성을 강화할 수 있음을 입증했다.

연구팀은 창의성을 정의하는 두 가지 핵심 요소인 독창성과 유용성을 모두 고려, 생성모델 내부의 각 블록 별 최적의 증폭값을 자동 선택하는 알고리즘을 제시했다.

개발된 알고리즘을 통해 사전 학습된 스테이블 디퓨전 모델의 내부 특징 맵을 적절히 증폭해 추가적인 분류 데이터나 학습 없이 창의적 생성을 강화했다.

사전 학습된 생성 모델의 내부 특징맵을 고속푸리에변환을 통해 주파수 영역으로 변환 후, 낮은 주파수 영역의 특징맵을 증폭, 다시 고속푸리에역변환을 통해 특징공간으로 재변환하여 이미지를 생성한다. KAIST

이 알고리즘을 사용하면 기존 모델 대비 더욱 참신하면서도 유용성이 크게 저하되지 않은 이미지를 생성할 수 있음을 다양한 측정치를 활용해 정량적으로 입증했다. 

특히 스테이블 디퓨전 XL(SDXL) 모델의 이미지생성 속도를 대폭 향상하기 위해 개발된 SDXL-Turbo 모델에서 발생하는 모드붕괴 문제를 완화함으로써 이미지 다양성이 증가한 것을 확인했다. 

이에 더해 사용자 연구를 통해 사람이 직접 평가했을 때도 기존 방법에 비해 유용성 대비 참신성이 크게 향상됨을 입증했다. 

이번 연구의 공동 제1저자인 KAIST 한지연·권다희 박사과정은 "생성 모델을 새로 학습하거나 미세조정 학습하지 않고 생성 모델의 창의적인 생성을 강화하는 최초의 방법론ˮ이라며 "학습된 인공지능 생성 모델 내부에 잠재된 창의성을 특징 맵 조작을 통해 강화할 수 있음을 보였다ˮ 고 설명했다.

이어 “이번 연구는 기존 학습된 모델에서도 텍스트만으로 창의적 이미지를 손쉽게 생성할 수 있게 됐으며, 이를 통해 창의적인 상품 디자인 등 다양한 분야에서 새로운 영감을 제공하고, 인공지능 모델이 창의적 생태계에서 실질적으로 유용하게 활용될 수 있도록 기여할 것으로 기대된다”고 덧붙였다.

한편, 이번 연구결과는 지난 15일 국제학술지 `국제 컴퓨터 비전 및 패턴인식 학술대회(IEEE Conference on Computer Vision and Pattern Recognition, CVPR)’에 발표됐다.
(논문명 : Enhancing Creative Generation on Stable Diffusion-based Models /※DOI: https://doi.org/10.48550/arXiv.2503.23538)

(왼쪽부터)NAVER AI Lab 이가영 연구원, KAIST 김재철AI대학원 권다희 박사과정, 한지연 박사과정
이재형 기자