直方图 - 计算机视觉算法与实践-从入门到精通

定义¶

直方图是图像处理中的一个基本工具，它提供了图像中强度值的统计摘要。它是一个量化像素强度分布的离散函数。

对于一个具有 $L$ 个可能强度级别（例如，对于8位灰度图像， $L=256$ ）的图像，直方图 $h(i)$ 定义为：

h(i) = n_i

(1)

其中 $i$ 是在 $[0, L-1]$ 范围内的强度级别，而 $n_i$ 是图像中具有该强度的像素数量。

在视觉上，直方图通常表示为条形图，其中每个条的高度对应于特定强度 $i$ 的像素计数 $n_i$ 。出于可视化目的，特别是对于高位深图像，强度通常被分组为一组称为**箱子（bins）**的离散区间。箱子的数量是用户选择的参数；较少的箱子提供了分布的更概括的概览，而更多的箱子则提供了更丰富的细节。

下面的代码显示了一幅图像及由其计算出的两个直方图，分别使用了128和16个箱子。直方图清晰地显示了图像在[0, 255]范围内的像素强度分布。

import numpy as np
import skimage.io as io
import matplotlib.pyplot as plt

# Load the image
img = io.imread("../_static/figs/daisy.png", as_gray=True) * 255

# Display the image
fig, ax = plt.subplots(1, 1, figsize=(5,5))
ax.imshow(img, cmap="gray")
plt.show()

# Prepare the figure for the histograms
fig, axs = plt.subplots(1, 2, figsize=(12,4))

# Plot the first histogram
axs[0].hist(
    img.ravel(),           # The image must be flattened to use function hist
    bins=range(0,256,2)    # Define 128 bins (of width 2) between 0 and 255
)
axs[0].set_xlabel("Intensities")
axs[0].set_ylabel("Number")

# Plot the second histogram
axs[1].hist(
    img.ravel(),           # The image must be flattened to use function hist
    bins=range(0,256,16)   # Define 16 bins (of width 16) between 0 and 255
)
axs[1].set_xlabel("Intensities")
axs[1].set_ylabel("Number")

# Show the figure
plt.show()

解读直方图¶

直方图的形状为了解图像的色调特征提供了宝贵的见解。一个具有明显峰值或模式的直方图表明，图像由具有主导强度范围的区域组成。

在上面的例子中，直方图明显是双峰的。

第一个峰值，中心强度约在75左右，对应于构成图像背景的较暗像素。
第二个峰值，中心强度约在180左右，对应于花瓣和花蕊的较亮像素。

这种模式特征是一个关键特性，可以在各种图像处理任务中加以利用，最著名的是图像分割。

直方图的性质¶

归一化直方图作为概率分布： 如果将每个箱的值 $h(i)$ 除以图像的总像素数 $M \times N$ ，直方图就变为归一化直方图，记为 $p(i)$ ：
$p(i) = \frac{n_i}{M \times N}$
(2)
归一化直方图满足 $\sum_{i=0}^{L-1} p(i) = 1$ 。因此可以将其解释为离散的概率质量函数（PMF），其中 $p(i)$ 表示随机选取一个像素其强度为 $i$ 的概率。
空间信息的丢失： 直方图的一个关键性质是它仅包含强度分布的统计信息，舍弃了所有空间信息。这意味着两幅在视觉上明显不同的图像也可能拥有完全相同的直方图，如 Figure 1 所示。

Figure 1:这两幅图像具有相同的直方图。右图是通过按强度值对左图的像素进行排序得到的。

直方图变换¶

直方图变换，也称为点处理或点算子，是一种通过对每个像素的强度值应用映射函数来修改图像的函数，该过程与其邻域无关。这些变换主要用于对比度增强，是图像预处理的基础。

变换 $T$ 将原始图像中的输入强度 $i$ 映射到一个新的输出强度 $j$ ：

j = T(i)

(3)

此操作会改变图像的直方图。在以下示例中，我们将假定像素强度已被归一化到范围 $[0, 1]$ 。

反色¶

反色变换反转图像的强度级别：

T(i) = 1 - i

(4)

这对于增强嵌入在图像暗区的白色或灰色细节很有用。

伽马校正¶

伽马校正是一种用于控制图像整体亮度的非线性变换：

T(i) = i^\gamma

(5)

如果 $\gamma < 1$ ，映射会偏向更亮的输出值，从而增强暗区的细节。
如果 $\gamma > 1$ ，映射会偏向更暗的输出值，增强亮区的细节。

这种变换对于显示系统至关重要，因为它有助于补偿显示器中输入电压和输出亮度之间的非线性关系。它也模拟了人类视觉的非线性响应。

伽马校正示例，\gamma=0.4，这会使图像变亮并增强阴影部分的细节。 — Figure 3:伽马校正示例， $\gamma=0.4$ ，这会使图像变亮并增强阴影部分的细节。

对比度拉伸（归一化）¶

对比度拉伸，也称为归一化，是一种线性变换，它扩展图像的动态范围以填充整个可用的强度范围。

T(i) = \frac{i-i_\text{min}}{i_\text{max}-i_\text{min}}

(6)

其中 $i_\text{min}$ 和 $i_\text{max}$ 是原始图像中的最小和最大强度值。这是一种简单而有效的方法，用于改善未使用全部强度谱的图像的对比度。

对比度拉伸通过将原始强度范围线性映射到完整的 [0, 1] 范围来增强对比度。 — Figure 4:对比度拉伸通过将原始强度范围线性映射到完整的 $[0, 1]$ 范围来增强对比度。

直方图均衡化¶

直方图均衡化是一种强大的非线性技术，它重新分配像素强度以实现更均匀的分布。其目标是生成一个具有平坦直方图的输出图像。

该变换基于图像归一化直方图的累积分布函数（CDF）。对于强度级别 $i$ 的变换由下式给出：

T(i) = \text{CDF}(i) = \sum_{k=0}^i p(k) = \frac{1}{MN} \sum_{k=0}^i n_k

(7)

其中 $p(k)$ 是归一化直方图， $n_k$ 是强度为 $k$ 的原始直方图计数，而 $MN$ 是总像素数。这种变换拉伸了像素密集的强度范围，并压缩了像素稀疏的范围。结果通常是全局对比度的显著增加，使细节更清晰可见。这是一种无需参数的全自动方法。详细的推导可以在 [Gonzalez 2010, section 3.3.1] 中找到。

直方图均衡化的分步计算¶

定义强度范围和级别：
- 对于8位灰度图像，强度在 $[0, L-1]$ 范围内，其中 $L = 256$ 。
- 设图像尺寸为 $M \times N$ ， $i \in \{0, \dots, L-1\}$ 表示一个灰度级。
计算直方图 $h(i)$ ：强度为 $i$ 的像素数。
归一化为概率质量函数 (pmf)：
$p(i) = \frac{h(i)}{MN}.$
(8)
计算累积分布函数 (cdf)：
$c(i) = \sum_{k=0}^{i} p(k).$
(9)
cdf 是非递减的，且 $c(L-1)=1$ 。
构建均衡化映射（查找表）：
$T(i) = \left\lfloor (L-1)\, c(i) \right\rfloor$
(10)
（或使用四舍五入）。 $T$ 将输入灰度级映射到 $[0, L-1]$ 范围内的输出灰度级。
将映射应用于图像：对于每个值为 $i$ 的像素，设置 $j = T(i)$ 。
（可选，彩色图像）转换到亮度空间（例如 $Y'C_bC_r/HSV$ ），仅对亮度（ $Y/V$ ）进行均衡化，然后转换回 RGB 以避免色相偏移。

注释和实用技巧：

如果图像仅使用狭窄的强度范围，均衡化会将其拉伸以占据更多的 $[0, L-1]$ 范围，从而增加全局对比度。
对于非常小的图像或稀疏的直方图，优先使用四舍五入而非向下取整，以减少条带效应。
均衡化可能会过度放大平坦区域的噪声；对比度受限的自适应直方图均衡化（CLAHE）是一种常见的替代方法。

计算示例（3位, 64×64）¶

一个3位图像（L=8, M \times N=4096）的设置，具有给定的直方图。 — Figure 8:一个3位图像（ $L=8, M \times N=4096$ ）的设置，具有给定的直方图。

分步均衡化 ( $L-1 = 7$ ):

计数和 pmf $p(r_k)$ :
- $n = [790, 1023, 850, 656, 329, 245, 122, 81]$
- $p = [0.19, 0.25, 0.21, 0.16, 0.08, 0.06, 0.03, 0.02]$
Cdf $c(r_k)$ = $p$ 的累积和:
- $c = [0.19, 0.44, 0.65, 0.81, 0.89, 0.95, 0.98, 1.00]$
缩放: $s_k = (L-1) c(r_k) = 7 c(r_k)$ :
- $s$ (实数) $= [1.33, 3.08, 4.55, 5.67, 6.23, 6.65, 6.86, 7.00]$
使用四舍五入进行映射: $T(r_k) = \mathrm{round}(s_k)$ :
- $T = [1, 3, 5, 6, 6, 7, 7, 7]$

计算的紧凑视图：

$k$	$r_k$	$n_k$	$p(r_k)$	$c(r_k)$	$s_k = 7 \cdot c(r_k)$	$T(r_k)$
0	0	790	0.19	0.19	1.33	1
1	1	1023	0.25	0.44	3.08	3
2	2	850	0.21	0.65	4.55	5
3	3	656	0.16	0.81	5.67	6
4	4	329	0.08	0.89	6.23	6
5	5	245	0.06	0.95	6.65	7
6	6	122	0.03	0.98	6.86	7
7	7	81	0.02	1.00	7.00	7

按输出级别 $j$ 的均衡化直方图质量：

$j=1$ : 0.19 (来自 $r=0$ )
$j=3$ : 0.25 (来自 $r=1$ )
$j=5$ : 0.21 (来自 $r=2$ )
$j=6$ : $0.16+0.08 = 0.24$ (来自 $r=3,4$ )
$j=7$ : $0.06+0.03+0.02 = 0.11$ (来自 $r=5,6,7$ )
$j \in \{0,2,4\}$ : 0

直方图规定化¶

与直方图均衡化类似，直方图规定化（或称直方图匹配）也是对图像进行变换，使其直方图与一个指定参考直方图相匹配（均衡化是参考直方图为均匀分布的特例）。

直方图规定化的分步计算¶

定义强度范围和数据集：
- 强度范围为 $[0, L-1]$ ；对于8位图像， $L = 256$ 。
- 设源图像尺寸为 $M \times N$ ，灰度级为 $i \in \{0, \dots, L-1\}$ 。
- 设参考图像（或目标直方图）定义了所需的灰度级统计数据。
计算源和参考的直方图：
- 源计数： $h_s(i)$ = 源中值为 $i$ 的像素数。
- 参考计数： $h_r(j)$ = 参考中值为 $j$ 的像素数（或提供的目标直方图）。
归一化为pmf：
$p_s(i) = \frac{h_s(i)}{MN}, \qquad p_r(j) = \frac{h_r(j)}{M_r N_r}.$
(11)
计算累积分布函数（cdf）：
$c_s(i) = \sum_{k=0}^{i} p_s(k), \qquad c_r(j) = \sum_{k=0}^{j} p_r(k).$
(12)
两个cdf在 $[0, L-1]$ 上都是非递减的，并以1结束。
构建规定化映射（查找表）：
- 概念上，将每个源级别 $i$ 映射到其cdf值最接近的参考级别 $j$ ：
  $T(i) = \arg\min_{j \in \{0,\dots,L-1\}} \big| c_s(i) - c_r(j) \big|.$
  (13)
- 等价地，使用逆cdf视图（如果需要，可进行插值）：
  $T(i) = c_r^{-1}\big(c_s(i)\big).$
  (14)
将映射应用于源图像：对每个像素值 $i$ ，设置 $j = T(i)$ 。
（可选，彩色图像）转换为亮度空间（例如 $Y'C_bC_r/HSV$ ），仅对亮度通道进行规定化，然后转换回RGB以保持色相。

注释和实用技巧：

当 $c_r$ 有平坦区域或离散跳跃时，对 $c_r^{-1}$ 使用插值以减少条带效应。
确保 $T$ 是非递减的（单调的）以避免伪影；对LUT强制执行单调性可以帮助解决此问题。
对每个通道进行多通道规定化可能会改变颜色；仅亮度或联合方法可以缓解此问题。
像scikit-image这样的库提供了match_histograms来实现这些步骤。

计算示例（3位, 64×64）¶

源直方图（与均衡化示例相同）：

源3位直方图（L=8, M \times N=4096）。 — Figure 12:源3位直方图（ $L=8, M \times N=4096$ ）。

目标直方图（给定）：

分步规定化 ( $L-1 = 7$ ):

源 pmf $p_s$ 和 cdf $c_s$ :
- $p_s = [0.19, 0.25, 0.21, 0.16, 0.08, 0.06, 0.03, 0.02]$
- $c_s = [0.19, 0.44, 0.65, 0.81, 0.89, 0.95, 0.98, 1.00]$
从给定表格得到目标 pmf $p_r$ 和 cdf $c_r$ :
- $p_r = [0.00, 0.00, 0.00, 0.15, 0.20, 0.30, 0.20, 0.15]$
- $c_r = [0.00, 0.00, 0.00, 0.15, 0.35, 0.65, 0.85, 1.00]$
通过最近cdf（逆cdf）匹配构建映射：
- 对于每个 $i$ ，选择最小化 $|c_s(i) - c_r(j)|$ 的 $j$ 。

计算的紧凑视图：

$k$	$r_k$	$c_s(r_k)$	最近的 $c_r(j)$	$j$	备注
0	0	0.19	0.15 (j=3) vs 0.35 (j=4) → 0.15	3	$
1	1	0.44	0.35 (j=4) vs 0.65 (j=5) → 0.35	4	$
2	2	0.65	0.65 (j=5)	5	完全匹配
3	3	0.81	0.85 (j=6) vs 0.65 (j=5) → 0.85	6	$
4	4	0.89	0.85 (j=6) vs 1.00 (j=7) → 0.85	6	$
5	5	0.95	1.00 (j=7) vs 0.85 (j=6) → 1.00	7	$
6	6	0.98	1.00 (j=7)	7
7	7	1.00	1.00 (j=7)	7

因此，规定化查找表为 $T = [3, 4, 5, 6, 6, 7, 7, 7]$ 。

按输出级别 $j$ 的结果质量（将映射到 $j$ 的源概率分组）：

$j=3$ : 0.19 (来自 $r=0$ )
$j=4$ : 0.25 (来自 $r=1$ )
$j=5$ : 0.21 (来自 $r=2$ )
$j=6$ : $0.16+0.08 = 0.24$ (来自 $r=3,4$ )
$j=7$ : $0.06+0.03+0.02 = 0.11$ (来自 $r=5,6,7$ )

计算示例（离散匹配）¶

我们通过将源3位直方图与目标3位直方图匹配来说明规定化（ $L=8$ ）。

步骤 ( $L-1 = 7$ ):

读取源计数 $n_s$ 并归一化为 $p_s$ ；读取目标计数 $n_r$ 并归一化为 $p_r$ 。
累积分布：
- $c_s(i) = \sum_{k \le i} p_s(k)$
- $c_r(j) = \sum_{k \le j} p_r(j)$
通过最近cdf匹配构建映射 $T$ ：
- $T(i) = \text{argmin}_j | c_s(i) - c_r(j) |$
将LUT $T$ 应用于图像。

数值映射（本例）：

$p_s = [0.19, 0.25, 0.21, 0.16, 0.08, 0.06, 0.03, 0.02]$
$c_s = [0.19, 0.44, 0.65, 0.81, 0.89, 0.95, 0.98, 1.00]$
$p_r = [0.00, 0.00, 0.00, 0.15, 0.20, 0.30, 0.20, 0.15]$
$c_r = [0.00, 0.00, 0.00, 0.15, 0.35, 0.65, 0.85, 1.00]$

$i$	$c_s(i)$	$j^* = T(i)$ 通过最近 cdf	累加到输出箱
0	0.19	3	0.19 → 箱 3
1	0.44	4	0.25 → 箱 4
2	0.65	5	0.21 → 箱 5
3	0.81	6	0.16 → 箱 6
4	0.89	6	0.08 → 箱 6
5	0.95	7	0.06 → 箱 7
6	0.98	7	0.03 → 箱 7
7	1.00	7	0.02 → 箱 7

LUT: $T = [3, 4, 5, 6, 6, 7, 7, 7]$

输出质量总计: $j=3: 0.19; j=4: 0.25; j=5: 0.21; j=6: 0.24; j=7: 0.11$ .

阈值处理¶

直方图有时对于将图像分割成两个类别非常有用，即根据灰度级区分图像中的对象。实际上，如果直方图清晰地显示出两种模式（即两个“峰”），可以在这两种模式之间定义一个阈值 $T$ ，然后对像素应用阈值处理，使得：

如果像素级别低于 $T$ ，则该像素属于类别0（在 Figure 18 中显示为黑色），
否则，该像素属于类别1（在 Figure 18 中显示为白色）。

这样的阈值处理会产生一个二值图像，其像素只有两个值。有几种方法可以自动计算阈值，例如Otsu方法。