图像采集 - 计算机视觉算法与实践-从入门到精通

人类视觉：生物学原型¶

要理解数字图像的采集，首先研究其生物学原型——人眼，是很有启发性的。如 Figure 1 中的简化横截面图所示，眼睛的功能就像一个精密的光学仪器。

光线通过角膜进入眼睛，角膜是一个透明的外层，负责进行初步的固定聚焦。然后，光线穿过晶状体，晶状体能动态改变形状——这个过程称为调节——以精细地调整光线在视网膜上的焦点。视网膜是位于眼后部的感光层，光学图像在这里被转换成神经信号。

视网膜包含两种类型的感光细胞：视杆细胞和视锥细胞。

视杆细胞对低光照水平（夜间视觉）高度敏感，负责我们的夜视能力。它们不介导颜色视觉，主要密集分布在视网膜的周边区域。
视锥细胞负责在光照充足的条件下（明视觉）实现高敏锐度的颜色视觉。它们密集地排列在视网膜中心一个称为中央凹的区域。

视锥细胞有三种类型，每种含有不同的感光色素，使它们对不同波长范围的光敏感，如 Figure 2 所示：

S-视锥细胞（短波长），峰值敏感度约在420纳米（蓝色）。
M-视锥细胞（中波长），峰值敏感度约在534纳米（绿色）。
L-视锥细胞（长波长），峰值敏感度约在564纳米（红色）。

根据视觉三色理论，这三种视锥细胞的组合响应使大脑能够感知到广阔的光谱颜色。这些感光信号随后由视网膜其他神经元网络处理，然后通过视神经传输到大脑，进行更高级别的图像分析和解释。

图像采集模式¶

当传感器捕捉到物体辐射或反射的能量时，图像就形成了。这种能量的性质定义了成像模式。虽然传统摄影捕捉的是可见光，但还存在许多其他模式，每种模式都提供了一种观察和测量世界的独特方式。

电磁波谱成像¶

我们最熟悉的图像大多是通过感应电磁波谱的辐射形成的。成像模式由所捕捉辐射的波长决定：

伽马射线: 用于核医学和天文观测，以探测高能现象。
X射线: 用于医学放射成像、工业检测和天文学。其成像原理是基于不同密度材料对X射线的差异性吸收。
紫外线 (UV): 用于工业检测和显微镜检查，适用于在紫外光下会发出荧光的材料。
可见光: 是摄影和人类视觉的基础。这也是本课程的主要焦点。
红外线 (IR): 用于热成像技术，以可视化温度分布，因为物体会根据其温度发射红外辐射。也用于夜视和遥感。
微波: 是雷达（RAdio Detection And Ranging）技术的基础，能够穿透云层，用于地球表面的遥感。
无线电波: 用于磁共振成像（MRI）和射电天文学。

其他成像模式¶

除了电磁波谱，图像也可以由其他类型的能量形成：

声学成像: 利用声波创建图像。应用包括医学超声检查（回声成像）、海洋应用中的声纳以及地质学中的地震成像。
电子显微镜: 使用电子束照射样本，产生高度放大的图像，从而能够观察细胞或分子水平的结构。
合成成像: 这类图像不是由真实世界的传感器采集，而是通过计算机算法生成。例子包括三维模型的渲染图和数据可视化。

接下来，我们主要关注电磁成像，特别是通过可见光成像。

用于电磁成像的图像传感器¶

数字图像由传感器阵列捕获，这些传感器将电磁辐射（光子）转换为电信号（电子）。现代数字图像传感器的基本组件是光电二极管。

光电二极管是一种半导体器件，它能产生与照射其上的光强度成正比的电流或电压。当具有足够能量的光子撞击硅时，会产生一个电子-空穴对，从而形成电信号。累积的总电荷与光强度和曝光时间的乘积成正比。

为了形成二维图像，单个光电二极管被排列成一个网格。主要挑战是如何有效地读取每个光电二极管的电荷。两种主要技术主导了这一领域：CCD和CMOS。

CCD（电荷耦合器件）: 在CCD传感器中，每个光电二极管累积的电荷会逐个像素地顺序传输到传感器上的一个高质量的模数转换器（ADC）。这个过程类似于“桶链传递”。虽然这种架构提供了高灵敏度和低噪声，但电荷传输过程相对较慢且功耗较大。CCD通常采用全局快门，意味着所有像素在相同的曝光时间内同时捕捉光线。
CMOS（互补金属氧化物半导体）: 在CMOS传感器中，每个像素都有自己的放大器和ADC电路。这种并行读出方式比CCD的串行过程快得多，也更节能。然而，这种像素级电路会减少感光面积并引入更多噪声。许多CMOS传感器使用卷帘快门，即逐行曝光和读出像素。对于快速移动的物体，这可能导致几何失真，如歪斜或摆动。

由于成本更低、速度更快、集成能力更强，CMOS传感器已在大多数消费级和许多科学应用中基本取代了CCD。

彩色成像：拜耳滤镜¶

为了捕捉模仿人类视锥细胞响应的颜色信息，一个彩色滤光阵列（CFA）被放置在传感器网格之上。最常见的CFA是拜耳滤镜（Figure 12）。这种滤镜在每个像素上放置一个红色、绿色或蓝色的滤光片，并按特定模式排列。

为什么拜耳滤镜有两个绿色感光元件?¶

拜耳模式包含50%的绿色、25%的红色和25%的蓝色滤光片。由于每个像素只记录一种颜色的强度，因此每个像素的完整RGB颜色必须根据其相邻像素的值来估算。这个过程称为去马赛克或去拜耳。

采样与量化：数字化¶

来自图像传感器的模拟电信号必须转换为数字表示。这个称为数字化的过程，涉及两个基本步骤：采样和量化。

采样：空间离散化¶

采样是将图像平面上的连续空间坐标 $(x,y)$ 转换为离散像素网格 $(m,n)$ 的过程。这在物理上是通过传感器中的光电二极管网格实现的。

采样的核心挑战是避免混叠，这是一种在采样后，连续场景中的高频分量被错误地表示为低频分量的效应。当场景中精细、重复的细节与像素网格相互作用时，通常会表现为摩尔纹，如 Figure 14 所示。

Figure 14:摩尔效应的一个例子。原始高分辨率图像（左，1000×1000）正确显示了衬衫的精细图案。下采样后（右，595×595），出现了虚假的大尺度图案。

为防止混叠，必须满足奈奎斯特-香农采样定理。该定理指出，采样频率必须至少是信号中存在的最高频率的两倍 ( $f_s > 2f_{max}$ )。在成像中，这意味着像素密度必须足够高，以捕捉场景的最精细细节。在实践中，大多数相机都包含一个光学低通滤波器（或抗混叠滤波器），它会在图像到达传感器之前对其进行轻微模糊，从而有效去除可能导致混叠的高频信息。

量化：强度离散化¶

量化是将每个像素的连续模拟强度值转换为离散整数的过程。离散级别的数量由图像的位深度 ( $k$ ) 决定。可用强度级别的数量 $L$ 由下式给出：

L = 2^k

(1)

对于典型的8位灰度图像， $k=8$ ，因此有 $L = 2^8 = 256$ 个可能的强度值，范围从0（黑色）到255（白色）。虽然这对于消费级摄影已经足够，但对于需要捕捉微小强度变化的科学应用来说，可能就不够了。

Figure 16:以不同位深度量化的图像。从左到右：8位（256级）、4位（16级）、2位（4级）和1位（2级，二值）。

量化不可避免地会引入误差，称为量化误差或噪声。对于级别间步长为 $\Delta$ 的均匀量化器，任何给定像素的误差范围为 $\pm \Delta/2$ 。当位深度过低时，这种误差会表现为色调分离或等高线效应，如上图所示。

对于大多数常见应用，8位表示是可以接受的。然而，诸如医学成像或天文学等应用通常使用12位 ( $k=12, L=4096$ ) 或16位 ( $k=16, L=65536$ ) 的表示，以捕捉更高的动态范围强度，而不会产生显著的量化误差 [Jähne 2005, p. 243]。

图像失真¶

理想的成像系统会完美地再现场景。实际上，采集过程是不完美的，会引入各种失真。最常见的是噪声和模糊。

噪声¶

噪声是指像素强度中不存在于原始场景中的随机变化。数字图像中噪声的主要来源包括：

光子散粒噪声： 源于光的量子性质。光子到达像素是一个随机过程，可以用泊松分布来建模。这种噪声是信号相关的，意味着图像中较亮的区域噪声更大。
热噪声： 由传感器电路中电子的热骚动引起。它与信号水平无关，可以用高斯分布来建模。Figure 17 中的噪声就是一种热噪声。
椒盐噪声： 表现为零星的白色和黑色像素，由传感器缺陷或数据传输错误引起。

这些以及其他的噪声模型将在去噪一节中更详细地描述。

Figure 17:在黑暗环境中长时间曝光拍摄的照片中的噪声。这通常被称为“暗电流噪声”，是传感器中热效应的结果。

模糊：点扩展函数¶

模糊是由于光学系统不完美导致理想图像带宽减少的一种形式。理想的镜头会将场景中的一个单点光聚焦到传感器上的一个单点。实际上，它被成像为一个小的、模糊的光斑。描述这个光斑形状的函数称为点扩展函数（Point Spread Function, PSF）。

模糊的常见来源包括：

运动模糊： 由相机或主体在曝光期间的移动引起（见 Figure 18）。
失焦模糊： 当镜头未正确对焦于主体时发生。
衍射： 由于光波通过镜头光圈时产生的基本物理限制。

如果PSF，记为 $h(x,y)$ ，对于图像中的所有点都是相同的（这一特性称为位移不变性），那么模糊过程可以建模为卷积。理想的清晰图像 $f(x,y)$ 与采集到的退化图像 $g(x,y)$ 之间的关系可以表示为：

g(x,y) = (f * h)(x,y) + n(x,y)

(2)

其中 $*$ 表示卷积运算， $n(x,y)$ 表示加性噪声。这个退化模型是图像复原领域的基础。

在频域中，卷积变成了乘法。PSF的傅里叶变换被称为光学传递函数（Optical Transfer Function, OTF），它描述了光学系统如何影响不同的空间频率。