计算机视觉-绪言

目录¶

01 课程安排
02 基于神经网络的计算机视觉
03 计算机视觉开发环境

01 课程安排¶

个人介绍¶

吕轶凡，博士，副教授

研究方向：计算机视觉、图像处理、计算机图形学人体数字化：人体姿态估计、高保真人体建模基于云的多媒体交互应用

办公室：石麟611 邮箱：yifan.lu@nit.zju.edu.cn

课程安排¶

考核方式¶

最终成绩基于您整个学期表现的综合评估，包括：

课堂参与与讨论 (10%): 积极参与课堂讨论、出勤率和准时情况。
作业 (40%): 完成指定的家庭作业，包括理论问题解决和编程练习。
期末项目 (50%): 一个为期4周的创意性和挑战性计算机视觉任务。

课程安排¶

教材与参考文献¶

Gonzalez, Rafael, Woods, Richard — 数字图像处理

Gonzalez, Woods — 数字图像处理 (Pearson): 全面介绍基础图像处理技术和算法的教科书。 https://www.pearson.com/en-us/subject-catalog/p/digital-image-processing/P200000003224/9780137848560

E.R. Davies — 计算机视觉 (Elsevier): 图像处理和机器视觉的实用入门。 https://shop.elsevier.com/books/computer-vision/davies/978-0-12-809284-2

Richard Szeliski — 计算机视觉：算法与应用: 从图像形成到3D重建的全面覆盖。 https://szeliski.org/Book/

张量、Lipton、李沐、Smola — 动手学深度学习: 带有交互式笔记本和代码的实践性深度学习。 https://d2l.ai/

邱锡鹏 — 神经网络与深度学习: 神经网络和深度学习基础的直观介绍。 https://nndl.github.io/

顶级会议论文¶

NeurIPS/NIPS, ICLR, ICML, AAAI, IJCAI 机器学习、人工智能

CVPR, ICCV, ECCV 计算机视觉三大顶会 http://openaccess.thecvf.com/menu.py

学术机构/学术领袖¶

深度学习先驱¶

Geoffrey Hinton (多伦多大学) - 通常被称为“深度学习教父”，Hinton在反向传播和神经网络方面的工作为现代人工智能奠定了基础。爱丁堡大学博士。

Yann LeCun (纽约大学，前Meta) - 卷积神经网络（CNN）和计算机视觉的先驱。开发了LeNet，这是CNN最早的成功应用之一。前Hinton博士后。

Yoshua Bengio (蒙特利尔大学) - 与Hinton和LeCun共同获得2018年图灵奖。深度学习和神经语言处理领域的领军研究员。前Michael Jordan博士后。

斯坦福大学领袖¶

Andrew Ng - Coursera联合创始人，前斯坦福人工智能实验室主任，谷歌大脑创始人。加州大学伯克利分校博士，师从Michael Jordan。开创了在线机器学习教育。

李飞飞 - 前斯坦福人工智能实验室主任，谷歌云首席科学家。计算机视觉和ImageNet数据集创建的先驱。加州理工学院博士。

其他著名人物¶

Jürgen Schmidhuber (IDSIA, 瑞士) - 长短期记忆（LSTM）网络和循环神经网络的先驱。以其在人工好奇心和元学习方面的工作而闻名。

课程内容¶

基础概览
- 数字图像
- 二值图像
- 分割
- 变换与滤波
- 压缩
- 特征检测
高级主题
- 相机标定
- 立体视觉
- 深度生成模型
- 卷积神经网络
- 扩散模型
- ...

02 基于神经网络的计算机视觉¶

计算机视觉知识结构图¶

深度学习知识结构图¶

计算机视觉相关学科¶

图像工程¶

表示学习与深度学习¶

“深度”模型¶

让模型自动学习好的特征表示（从低级特征到中级特征，再到高级特征），从而最终提高预测或识别的准确性。

深度学习¶

深度学习的数学描述¶

人工神经元¶

人工神经网络¶

人工神经网络主要由大量的神经元及其有向连接构成。因此，考虑三个方面：

神经元的激活规则：主要指神经元的输入与输出之间的映射关系，一般为非线性函数。
网络拓扑：不同神经元之间的连接关系。
学习算法：通过训练数据来学习神经网络的参数。

基于神经网络的计算机视觉¶

\begin{aligned} y &= f^{3}\!\left(f^{2}\!\left(f^{1}(x)\right)\right) \\ f^{\ell}(x) &= \sigma\!\left(W^{\ell}\, f^{\ell-1}(\cdot)\right) \end{aligned}

(1)

基于神经网络的计算机视觉¶

计算机视觉广义上是图像处理和人工智能的一个分支。

以下是最基本的计算机视觉任务：

单实例：分类问题，分类和定位问题
多实例：目标检测问题，实例分割问题

基于神经网络的计算机视觉¶

基本计算机视觉任务 (左上)
无监督学习 (右上)
3D视觉 (左下)
基于文本的图像生成 (右下)

基于神经网络的计算机视觉¶

图像分类
目标检测
图像分割
目标跟踪
OCR文字识别
图像滤波与去噪
图像增强
风格迁移
3D重建
图像检索
图像生成

高级处理¶

验证：验证获取的数据是否符合前提要求，估计特定系数，并对目标进行分类。
检测/分割：分割图像，提取有价值的内容供后续处理，如筛选特征点，分割包含特定目标的区域。
特征提取：从图像中提取各种复杂度的特征，如线条、边缘提取和脊检测、角点检测、斑点检测以及其他局部特征点检测。
预处理：对图像进行一步或多步预处理，以满足后续处理的要求，如下采样以确保图像坐标正确、平滑、去噪等。
图像采集：提取2D图像、3D图像组、图像序列或相关的物理数据，如声波、电磁波或核磁共振的深度、吸收或反射率。

图像分类/目标识别¶

图像分类/目标识别基本流程¶

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, 2016¶

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, 2020¶

人脸识别¶

图 19.1 图 19.2

图像分割¶

图像风格迁移¶

03 计算机视觉开发环境¶

常用的计算机视觉深度学习框架¶

简单快速的原型设计
自动梯度计算
CPU和GPU无缝切换

计算机视觉硬件¶

计算机视觉硬件¶

TPU (张量处理单元)¶

硬件架构	NVIDIA H100	TPU v2	TPU v3
内存	80GB	64GB	128GB
FLOPS	双精度: 34 TFLOPS 单精度: 67 TFLOPS DL: 1979 TFLOPS	180 TFLOPS	420 TFLOPS

昇腾NPU. https://doc.hcs.huawei.com/usermanual/cce/cce_10_0239.html 谷歌云TPU. https://cloud.google.com/tpu

计算机视觉硬件¶

数据决定一切¶

此图显示，当输入数据达到一定水平时，各种算法都能实现相似的高精度。这导致了机器学习界一句名言：

成功的深度学习应用不在于拥有最好的算法，而在于拥有最多的数据！

总结¶

01 课程安排
02 基于神经网络的计算机视觉
03 计算机视觉开发环境

目录¶

01 课程安排¶

个人介绍¶

课程安排¶

考核方式¶

课程安排¶

教材与参考文献¶

推荐资源¶

顶级会议论文¶

学术机构/学术领袖¶

深度学习先驱¶

斯坦福大学领袖¶

其他著名人物¶

课程内容¶

02 基于神经网络的计算机视觉¶

计算机视觉知识结构图¶

深度学习知识结构图¶

计算机视觉相关学科¶

图像工程¶

表示学习与深度学习¶

“深度”模型¶

深度学习¶

深度学习的数学描述¶

人工神经元¶

人工神经网络¶

基于神经网络的计算机视觉¶

基于神经网络的计算机视觉¶

基于神经网络的计算机视觉¶

基于神经网络的计算机视觉¶

高级处理¶

图像分类/目标识别¶

图像分类/目标识别基本流程¶

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, 2016¶

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, 2020¶

人脸识别¶

图像分割¶

图像风格迁移¶

03 计算机视觉开发环境¶

常用的计算机视觉深度学习框架¶

计算机视觉硬件¶

计算机视觉硬件¶

TPU (张量处理单元)¶

计算机视觉硬件¶

数据决定一切¶

总结¶