计算机视觉-绪言
目录¶
01 课程安排
02 基于神经网络的计算机视觉
03 计算机视觉开发环境
01 课程安排¶
个人介绍¶
吕轶凡,博士,副教授
研究方向: 计算机视觉、图像处理、计算机图形学 人体数字化:人体姿态估计、高保真人体建模 基于云的多媒体交互应用
办公室:石麟611 邮箱:yifan.lu@nit.zju.edu.cn
课程安排¶
考核方式¶

最终成绩基于您整个学期表现的综合评估,包括:
课堂参与与讨论 (10%): 积极参与课堂讨论、出勤率和准时情况。
作业 (40%): 完成指定的家庭作业,包括理论问题解决和编程练习。
期末项目 (50%): 一个为期4周的创意性和挑战性计算机视觉任务。
课程安排¶
教材与参考文献¶

Gonzalez, Woods — 数字图像处理 (Pearson): 全面介绍基础图像处理技术和算法的教科书。 https://

E.R. Davies — 计算机视觉 (Elsevier): 图像处理和机器视觉的实用入门。 https://

Richard Szeliski — 计算机视觉:算法与应用: 从图像形成到3D重建的全面覆盖。 https://

张量、Lipton、李沐、Smola — 动手学深度学习: 带有交互式笔记本和代码的实践性深度学习。 https://d2l.ai/

邱锡鹏 — 神经网络与深度学习: 神经网络和深度学习基础的直观介绍。 https://
推荐资源¶
斯坦福大学 CS231n: 深度学习与计算机视觉 http://
cs231n .stanford .edu/ 李飞飞、Moo Jin Kim 主要讲解深度学习在计算机视觉中的应用。 https://
www .deeplearning .ai/ Andrew Ng 等。 MIT 6.S191 深度学习导论 http://
introtodeeplearning .com/ 机器学习,深度学习,李宏毅,李沐,Bilibili
顶级会议论文¶
NeurIPS/NIPS, ICLR, ICML, AAAI, IJCAI 机器学习、人工智能

CVPR, ICCV, ECCV 计算机视觉三大顶会 http://
openaccess .thecvf .com /menu .py

学术机构/学术领袖¶
深度学习先驱¶

Geoffrey Hinton (多伦多大学) - 通常被称为“深度学习教父”,Hinton在反向传播和神经网络方面的工作为现代人工智能奠定了基础。爱丁堡大学博士。
Yann LeCun (纽约大学,前Meta) - 卷积神经网络(CNN)和计算机视觉的先驱。开发了LeNet,这是CNN最早的成功应用之一。前Hinton博士后。
Yoshua Bengio (蒙特利尔大学) - 与Hinton和LeCun共同获得2018年图灵奖。深度学习和神经语言处理领域的领军研究员。前Michael Jordan博士后。
斯坦福大学领袖¶

Andrew Ng - Coursera联合创始人,前斯坦福人工智能实验室主任,谷歌大脑创始人。加州大学伯克利分校博士,师从Michael Jordan。开创了在线机器学习教育。

李飞飞 - 前斯坦福人工智能实验室主任,谷歌云首席科学家。计算机视觉和ImageNet数据集创建的先驱。加州理工学院博士。
其他著名人物¶

Jürgen Schmidhuber (IDSIA, 瑞士) - 长短期记忆(LSTM)网络和循环神经网络的先驱。以其在人工好奇心和元学习方面的工作而闻名。
课程内容¶
基础概览
数字图像
二值图像
分割
变换与滤波
压缩
特征检测
高级主题
相机标定
立体视觉
深度生成模型
卷积神经网络
扩散模型
...
02 基于神经网络的计算机视觉¶
计算机视觉知识结构图¶

深度学习知识结构图¶

计算机视觉相关学科¶
图像工程¶
表示学习与深度学习¶
“深度”模型¶
让模型自动学习好的特征表示(从低级特征到中级特征,再到高级特征),从而最终提高预测或识别的准确性。
深度学习¶

深度学习的数学描述¶
人工神经元¶

人工神经网络¶
人工神经网络主要由大量的神经元及其有向连接构成。因此,考虑三个方面:
神经元的激活规则:主要指神经元的输入与输出之间的映射关系,一般为非线性函数。
网络拓扑:不同神经元之间的连接关系。
学习算法:通过训练数据来学习神经网络的参数。

基于神经网络的计算机视觉¶
基于神经网络的计算机视觉¶
计算机视觉广义上是图像处理和人工智能的一个分支。
以下是最基本的计算机视觉任务:
单实例:分类问题,分类和定位问题
多实例:目标检测问题,实例分割问题

基于神经网络的计算机视觉¶
基本计算机视觉任务 (左上)
无监督学习 (右上)
3D视觉 (左下)
基于文本的图像生成 (右下)
基于神经网络的计算机视觉¶
图像分类
目标检测
图像分割
目标跟踪
OCR文字识别
图像滤波与去噪
图像增强
风格迁移
3D重建
图像检索
图像生成
高级处理¶
验证:验证获取的数据是否符合前提要求,估计特定系数,并对目标进行分类。
检测/分割:分割图像,提取有价值的内容供后续处理,如筛选特征点,分割包含特定目标的区域。
特征提取:从图像中提取各种复杂度的特征,如线条、边缘提取和脊检测、角点检测、斑点检测以及其他局部特征点检测。
预处理:对图像进行一步或多步预处理,以满足后续处理的要求,如下采样以确保图像坐标正确、平滑、去噪等。
图像采集:提取2D图像、3D图像组、图像序列或相关的物理数据,如声波、电磁波或核磁共振的深度、吸收或反射率。
图像分类/目标识别¶

图像分类/目标识别基本流程¶
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, 2016¶

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, 2020¶
人脸识别¶

图像分割¶

图像风格迁移¶

03 计算机视觉开发环境¶
常用的计算机视觉深度学习框架¶
简单快速的原型设计
自动梯度计算
CPU和GPU无缝切换

计算机视觉硬件¶

计算机视觉硬件¶
TPU (张量处理单元)¶
| 硬件架构 | NVIDIA H100 | TPU v2 | TPU v3 |
|---|---|---|---|
| 内存 | 80GB | 64GB | 128GB |
| FLOPS | 双精度: 34 TFLOPS 单精度: 67 TFLOPS DL: 1979 TFLOPS | 180 TFLOPS | 420 TFLOPS |

昇腾NPU. https://
计算机视觉硬件¶


数据决定一切¶
此图显示,当输入数据达到一定水平时,各种算法都能实现相似的高精度。这导致了机器学习界一句名言:

成功的深度学习应用不在于拥有最好的算法,而在于拥有最多的数据!
总结¶
01 课程安排
02 基于神经网络的计算机视觉
03 计算机视觉开发环境