人的大脑擅长识别画面里的人脸、物体等大轮廓,却不擅长还原毛发的纤细纹理、皮肤的细腻质感这些细节,而图像复原技术恰好能填补这个空白。在图像复原领域,人工智能可以比人完成得更为出色。无论是模糊不清的低分辨率图像还是布满瑕疵的老照片,人工智能都可以通过“神奇魔法”让其变成高清图像。
图像复原技术的发展就像一场不断升级的接力赛,已经出现了3次重要革新:2014年的深度卷积网络技术,让图像有了清晰的轮廓;2017年的对抗生成网络技术,让画面观感更自然;2023年的扩散生成模型技术,为图像增添了逼真的细节。到了2025年,对抗生成网络和扩散生成模型这两项技术的融合,诞生了全新的智能复原大模型HYPIR,图像复原领域有了新成果。
这个智能复原大模型主要有3个亮点。第一,它集对抗生成网络和扩散生成模型的优点于一身,处理速度比第三代技术快了十几倍,修复效果更出色,稳定性也更强。第二,它搭上了文生图大模型的“快车”,能生成8K级别的超高清细节,还能根据用户输入的提示词进行个性化智能修复。第三,它适应性强,能轻松应对多种场景和不同损坏类型的图像。
那么,大模型是如何施展“修复魔法”的呢?
第一步,得先给图像“大扫除”,去除图像拍摄时的抖动、模糊,图像压缩留下的痕迹等“小毛病”,这样才能保留图像的真实信息,避免其他干扰。科研人员设计了一个专门的深度学习编码器,让它“吃进”有瑕疵的图像,“吐出”没有缺憾的图像;还通过人为制造各种图像瑕疵的方式,构建了几亿组“瑕疵—完好”的图像对来训练这个编码器。经过多轮训练,编码器就能熟练掌握去除图像瑕疵的技能。
不过,这时候的图像虽然干净了,但看起来会比较平滑,缺乏自然的细节。所以第二步就是给图像“添细节”。这里就要用到文生图大模型了,它能根据文字描述生成自然图像。这一步需要输入两个信息:一个是已经去除瑕疵的图像,一个是对图像的内容描述。此时,多模态大模型就派上用场了,它能“看懂”图像内容,并输出相应的文字描述,作为文生图大模型的“创作指南”。有了这两个大模型的配合,就能精准理解图像并生成丰富细节。
最后,也是最关键的一步,是训练这个模型,让它成为图像复原的“高手”。这需要用到一种名为“对抗生成训练”的方法:让文生图大模型扮演“生成器”,负责生成修复后的图像;再选一个图像分类网络当“判别器”,专门判断生成的图像是不是自然真实的。生成和判别这两个步骤交替进行,双方不断提升自己的能力——生成器让图像越来越逼真,判别器的判断越来越精准,直到两者达到平衡。
图像复原技术已逐渐融入手机摄影、电视播放、高清屏幕显示、历史影像修复、科学研究中的图像处理等领域,成为一项与生活密切相关实用技术。期待随着科技迭代革新的不断推进,这项技术能更好造福社会,让更多时光里的画面重焕光彩。
(作者为中国科学院深圳先进技术研究院数字所研究员)