Skip to article frontmatterSkip to article content
Site not loading correctly?

This may be due to an incorrect BASE_URL configuration. See the MyST Documentation for reference.

计算机视觉-绪言

目录

01 课程安排

个人介绍

吕轶凡,博士,副教授

研究方向: 计算机视觉、图像处理、计算机图形学 人体数字化:人体姿态估计、高保真人体建模 基于云的多媒体交互应用

办公室:石麟611 邮箱:yifan.lu@nit.zju.edu.cn

课程安排

考核方式

考核方式

最终成绩基于您整个学期表现的综合评估,包括:

课程安排

教材与参考文献

Gonzalez, Rafael, Woods, Richard — 数字图像处理

Gonzalez, Woods — 数字图像处理 (Pearson): 全面介绍基础图像处理技术和算法的教科书。 https://www.pearson.com/en-us/subject-catalog/p/digital-image-processing/P200000003224/9780137848560

E.R. Davies — 计算机视觉

E.R. Davies — 计算机视觉 (Elsevier): 图像处理和机器视觉的实用入门。 https://shop.elsevier.com/books/computer-vision/davies/978-0-12-809284-2

计算机视觉:算法与应用

Richard Szeliski — 计算机视觉:算法与应用: 从图像形成到3D重建的全面覆盖。 https://szeliski.org/Book/

动手学深度学习

张量、Lipton、李沐、Smola — 动手学深度学习: 带有交互式笔记本和代码的实践性深度学习。 https://d2l.ai/

神经网络与深度学习

邱锡鹏 — 神经网络与深度学习: 神经网络和深度学习基础的直观介绍。 https://nndl.github.io/

推荐资源

顶级会议论文

NeurIPS Logo ICLR LogoCVPR Logo ICCV Logo

学术机构/学术领袖

深度学习先驱

Bengio, Hinton, and LeCun

Geoffrey Hinton (多伦多大学) - 通常被称为“深度学习教父”,Hinton在反向传播和神经网络方面的工作为现代人工智能奠定了基础。爱丁堡大学博士。

Yann LeCun (纽约大学,前Meta) - 卷积神经网络(CNN)和计算机视觉的先驱。开发了LeNet,这是CNN最早的成功应用之一。前Hinton博士后。

Yoshua Bengio (蒙特利尔大学) - 与Hinton和LeCun共同获得2018年图灵奖。深度学习和神经语言处理领域的领军研究员。前Michael Jordan博士后。

斯坦福大学领袖

Andrew Ng

Andrew Ng - Coursera联合创始人,前斯坦福人工智能实验室主任,谷歌大脑创始人。加州大学伯克利分校博士,师从Michael Jordan。开创了在线机器学习教育。

Fei-Fei Li

李飞飞 - 前斯坦福人工智能实验室主任,谷歌云首席科学家。计算机视觉和ImageNet数据集创建的先驱。加州理工学院博士。

其他著名人物

Jürgen Schmidhuber

Jürgen Schmidhuber (IDSIA, 瑞士) - 长短期记忆(LSTM)网络和循环神经网络的先驱。以其在人工好奇心和元学习方面的工作而闻名。

课程内容

02 基于神经网络的计算机视觉

计算机视觉知识结构图

图 4

深度学习知识结构图

图 5

计算机视觉相关学科

图 5.1

图像工程

图 6

表示学习与深度学习

“深度”模型

让模型自动学习好的特征表示(从低级特征到中级特征,再到高级特征),从而最终提高预测或识别的准确性。

图 7

深度学习

图 9

深度学习的数学描述

图 7

人工神经元

图 10

人工神经网络

人工神经网络主要由大量的神经元及其有向连接构成。因此,考虑三个方面:

  1. 神经元的激活规则:主要指神经元的输入与输出之间的映射关系,一般为非线性函数。

  2. 网络拓扑:不同神经元之间的连接关系。

  3. 学习算法:通过训练数据来学习神经网络的参数。

图 11

基于神经网络的计算机视觉

y=f3 ⁣(f2 ⁣(f1(x)))f(x)=σ ⁣(Wf1())\begin{aligned} y &= f^{3}\!\left(f^{2}\!\left(f^{1}(x)\right)\right) \\ f^{\ell}(x) &= \sigma\!\left(W^{\ell}\, f^{\ell-1}(\cdot)\right) \end{aligned}
图 12 图 13

基于神经网络的计算机视觉

计算机视觉广义上是图像处理和人工智能的一个分支。

以下是最基本的计算机视觉任务:

图 14

基于神经网络的计算机视觉

图 15

基于神经网络的计算机视觉

高级处理

图像分类/目标识别

图 17

图像分类/目标识别基本流程

图 18.1

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, 2016

图 18.2

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, 2020

人脸识别

图 19.1 图 19.2

图像分割

图 20

图像风格迁移

图 20

03 计算机视觉开发环境

常用的计算机视觉深度学习框架

图 21

计算机视觉硬件

图 22

计算机视觉硬件

TPU (张量处理单元)

硬件架构NVIDIA H100TPU v2TPU v3
内存80GB64GB128GB
FLOPS双精度: 34 TFLOPS 单精度: 67 TFLOPS DL: 1979 TFLOPS180 TFLOPS420 TFLOPS
图 23

昇腾NPU. https://doc.hcs.huawei.com/usermanual/cce/cce_10_0239.html 谷歌云TPU. https://cloud.google.com/tpu

计算机视觉硬件

图 24图 25

数据决定一切

此图显示,当输入数据达到一定水平时,各种算法都能实现相似的高精度。这导致了机器学习界一句名言:

图 25

成功的深度学习应用不在于拥有最好的算法,而在于拥有最多的数据!

总结

🤖