AI作图这么久,你知道它的原理吗?

扩散模型是用于从随机噪点生成图片的工具(如Midjourney)。以下是它们的工作方式的简单解释:
1. 从随机噪声开始
这些模型以静态或随机噪点为起点进行图片的创作。
2. 理解添加噪声的过程
想象一下你有一张清晰的图片,比如一张猫的照片。如果你向这张图片中添加越来越多的噪点,它就会变得越来越不清晰。这个过程被称为扩散。
3. 反转过程以创建图片
扩散模型的核心在于反转上述过程:
a. 模型观察噪点图片,然后找出如何使其稍微清晰一点。
b. 它重复这个步骤,直到形成一个可以识别的图像。
4. 训练模型
为了让模型能够将噪点转化为图片,需要对模型进行训练。这是通过给模型展示大量的图片来帮助它学习模式,并使用高级数学方法生成相似的图片。
5. 生成不同的图片
由于初始噪点是随机的,所以模型生成的图片每次都会有所不同。 另外,模型在每一步都会基于这种噪点做出预测,引导图片的生成。这 就好比每次构建物体时都有独特的建筑材料和新的蓝图。
因此,扩散模型不是像拼贴从样本图像中工作;相反,它严重依赖于数学。