近期一项研究揭示,AI 图像生成器在自主运行时,无论初始提示如何,最终都会集中到有限的照片风格和主题上。这项研究成果发表在《模式》(Patterns)期刊,由达拉纳大学(瑞典)人工智能研究员阿伦德・欣策(Arend Hintze)等人完成,研究团队测试了Stable Diffusion XL(图像生成器)和LLaVA(图像描述模型)两款AI模型,采用了以视觉传话游戏为模型的实验设置。

每列代表从趋向相似语义提示词中获得的最终图像,无论初始提示词如何变化。图片《模式》(Patterns)期刊。
实验中,研究人员先给Stable Diffusion XL输入简短且特殊的文本提示,例如 “当我独自一人,被大自然包围时,我发现了一本正好有八页的旧书,讲述了一个用一种被遗忘语言讲述的故事,等待被阅读和理解。” 模型生成图像后,由LLaVA用文字描述该图像,再将描述反馈给Stable Diffusion XL生成新图像,如此重复100轮。另一组实验的初始提示为 “首相在即将到来的军事行动中,努力向公众推销脆弱的和平协议,同时兼顾职责重担”,同样遵循上述迭代流程。
就像人类版的传话游戏,初始想法会快速淡化,但让研究人员关注的不仅是细节的丢失,还有最终结果的一致性。在约1000次不同的实验运行中,多数图像序列最终定格在仅12个反复出现的视觉主题之一,这些主题包括灯塔、华丽室内房间、城市夜景、乡村建筑、哥特式大教堂、田园风景、多雨的欧洲城市场景等。
图像风格的转变通常是渐进的,少数情况下会突然发生,但无论哪种方式,趋向统一风格都是常态。研究人员将这些最终风格称为 “电梯音乐视觉”,类比酒店或库存相框中常见的通用艺术品。即便研究团队调整随机性等参数,或更换不同的图像生成器与字幕模型,依然会出现相同的整体模式。

测试中,使用相同的提示词和测试方式,经过100论的迭代生成后锁得到的最终图像,其风格变化有很大的局限性和固化趋向。图片来自《模式》(Patterns)期刊。
研究团队还将实验迭代次数扩展到1000次,结果并未发生根本改变。多数图像序列在约第100轮时就锁定某一个主导主题并保持不变,仅部分后续迭代会产生细微变化。极少数情况下,序列在数百轮后会从一个主题切换到另一个,但这种变化的原因目前尚未明确。阿伦德・欣策表示:“难道大家最后都去了巴黎吗?我们不知道。”
从影像技术与器材领域的视角来看,AI 图像生成器的这种风格局限既值得关注也引人思考。当前AI生成技术在摄影相关领域的应用逐渐广泛,但其创造力受限于固定主题的特点,可能会在一定程度上影响内容的多样性。对于依赖AI辅助创作的从业者而言,如何突破这种固有模式、激发更多元的视觉表达,或许会成为未来相关技术优化的重要方向。毕竟摄影与图像创作的核心价值之一,在于对独特视角与个性化表达的追求,AI技术若长期局限于少数风格,可能会制约其在专业影像领域的深度应用。
备注:《模式》(Patterns)期刊是Cell Press出版的,以“决策科学(全领域)”(Decision Sciences-Decision Sciences (all))综合研究为特色的国际期刊,发表数据科学各个领域的开创性原创研究,致力于分享跨领域问题的数据科学解决方案。
更新时间:2026-03-10
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号