Skip to content

Commit

Permalink
Update AI视频基础知识.md;新增AI视频下子方向模块!
Browse files Browse the repository at this point in the history
  • Loading branch information
AI-mzq committed Sep 28, 2024
1 parent 7c1ad7c commit 94ec436
Show file tree
Hide file tree
Showing 8 changed files with 124 additions and 0 deletions.
65 changes: 65 additions & 0 deletions AI视频基础/AI视频基础知识.md
Original file line number Diff line number Diff line change
Expand Up @@ -6,6 +6,11 @@
- [4.请介绍下视频生成技术的应用场景?](#4.请介绍下视频生成技术的应用场景?)
- [5.什么DiT模型?](#5.什么DiT模型?)
- [6.简要解释下什么是扩散模型?](#6.简要解释下什么是扩散模型?)
- [7.简要介绍下GAN网络?并分析为什么视频生成模型很少采用GAN网络?](#7.简要介绍下GAN网络?并分析为什么视频生成模型很少采用GAN网络?)
- [8.请简要介绍下什么是VAE网络,及其在视频生成与分析中的应用?](#8.请简要介绍下什么是VAE网络,及其在视频生成与分析中的应用?)
- [9.生成对抗网络(GAN)和变分自动编码器(VAE)主要有哪些区别?](#9.生成对抗网络(GAN)和变分自动编码器(VAE)主要有哪些区别?)
- [10.生成对抗网络(GAN)和变分自动编码器(VAE)的训练过程有哪些挑战?](#10.生成对抗网络(GAN)和变分自动编码器(VAE)的训练过程有哪些挑战?)


<h2 id="1.说一下什么是AI视频,包括哪些关键技术?">1.说一下什么是AI视频,包括哪些关键技术?</h2>

Expand Down Expand Up @@ -70,4 +75,64 @@ AI视频是指利用人工智能技术对视频进行智能处理和分析,包
![](imgs/扩散模型核心思想.png)


<h2 id="7.简要介绍下GAN网络?并分析为什么视频生成模型很少采用GAN网络?">7.简要介绍下GAN网络?并分析为什么视频生成模型很少采用GAN网络?</h2>

**GAN**(Generative Adversarial Networks)是一种生成模型,由Ian Goodfellow等人于2014年提出,由两个神经网络组成:生成器(Generator)和判别器(Discriminator)。
生成器负责生成与训练数据相似的数据,而判别器则负责判断生成器生成的数据是否真实。

**GAN网络的核心思想:**

**GAN网络的核心思想是**通过对抗训练来学习生成器,使其生成的数据越来越接近真实数据。
生成器和判别器之间进行对抗训练,生成器不断优化生成数据,而判别器则不断优化判断生成数据的能力。

<div align="center">
<img src="imgs/GAN整体思路图.jpg" alt="GAN网络整体思路图" >
</div>

**GAN的特点:**

相较于其他模型,GAN的模型参数量小,较轻便,所以更加擅长对单个或多个对象类进行建模。但由于其训练过程的不稳定性,针对复杂数据集则极具挑战性,
稳定性较差、生成图像缺乏多样性。这也导致其终被自回归模型和扩散模型所替代。

**GAN网络在视频生成中的应用:**

在扩散模型前,GAN网络在视频生成中的应用比较广泛,如视频生成、视频修复、视频超分辨率等。
但是,由于视频数据量较大,计算复杂度较高,GAN网络在视频生成中的应用相对较少。


<h2 id="8.请简要介绍下什么是VAE网络,及其在视频生成与分析中的应用?">8.请简要介绍下什么是VAE网络,及其在视频生成与分析中的应用?</h2>

**VAE**(Variational Autoencoders)是一种结合了深度学习和概率图模型思想的生成式模型,
最早由Diederik P. Kingma和Max Welling在2013年的论文《Auto-Encoding Variational Bayes》中提出。

**VAE网络的核心思想:**

**VAE网络的核心思想是**通过最大化潜在空间中的概率分布来学习生成模型,从而生成与训练数据相似的数据。
![](imgs/VAE网络整体思路图.png)

**VAE由编码器和解码器两部分组成**,编码器将输入数据映射到潜在空间,解码器将潜在空间中的数据映射回原始数据空间。
- 编码器:将输入数据映射到潜在空间中的概率分布,通常是高斯分布。
- 解码器:将潜在空间中的样本重构为原始数据。

**在训练过程中,VAE试图最大化数据的边际对数似然**,同时最小化潜在表示与先验分布之间的KL散度(Kullback-Leibler divergence),
这样可以确保学习到的潜在表示更加连续和有意义。
通过VAE学习到的潜在表示可以用于数据压缩、降维、生成新样本等任务。

**VAE技术在视频生成与分析中的应用包括:**

- **视频内容分析**‌:VAE技术可以对音视频数据进行深入的分析,以获得更丰富的信息。
- **数据压缩‌**:VAE技术可以有效地对音视频数据进行压缩,以获得更小的文件大小。
- **生成质量**‌:VAE技术可以生成高质量音视频内容,使得视频内容更加丰富、生动。


<h2 id="9.生成对抗网络(GAN)和变分自动编码器(VAE)主要有哪些区别?">9.生成对抗网络(GAN)和变分自动编码器(VAE)主要有哪些区别?</h2>

**GAN和VAE理论和实践上有一些区别:**
GAN通过竞争的方式实现数据生成和分类,而VAE通过概率模型的学习实现数据生成和表示。


<h2 id="10.生成对抗网络(GAN)和变分自动编码器(VAE)的训练过程有哪些挑战?">10.生成对抗网络(GAN)和变分自动编码器(VAE)的训练过程有哪些挑战?</h2>

GAN和VAE在训练过程面临挑战,如训练稳定性、模型解释性、数据生成质量等。未来的研究应该关注如何解决这些挑战,以便更好地应用这两种模型。
比如提高训练稳定性、提高模型解释性、提高数据生成质量、拓展到多模态和多任务学习等。这些研究方向和挑战将有助于更广泛地应用GAN和VAE。

Binary file added AI视频基础/imgs/GAN整体思路图.jpg
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added AI视频基础/imgs/VAE网络整体思路图.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
57 changes: 57 additions & 0 deletions AI视频基础/视频理解高频知识点.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,57 @@
# 目录

- [1.VideoLLaMB的递归记忆桥接层是如何设计的?其主要优势是什么?](#1.VideoLLaMB的递归记忆桥接层是如何设计的?其主要优势是什么?)
- [2.VideoLLaMB的 SceneTilling 算法是如何工作的?它在视频分割和流式字幕生成中有何优势?](#2.VideoLLaMB的SceneTilling算法是如何工作的?它在视频分割和流式字幕生成中有何优势?)
- [3.VideoLLaMB在NIAVH基准上的表现如何?其独特之处体现在哪些方面?](#3.VideoLLaMB在NIAVH基准上的表现如何?其独特之处体现在哪些方面?)


<h2 id="1.VideoLLaMB的递归记忆桥接层是如何设计的?其主要优势是什么?">1.VideoLLaMB的递归记忆桥接层是如何设计的?其主要优势是什么?</h2>

**VideoLLaMB**是一种新颖的长视频理解框架,利用带有递归内存 token 的内存桥接层对 100% 的视频内容进行编码,而不会丢弃关键的视觉提示。

VideoLLaMB的递归记忆桥接层通过在桥接层内集成递归记忆令牌来增强线性层的记忆能力。具体设计如下:

- **记忆token**:在每个视频段前缀固定数量的记忆令牌,表示为[mi;si],其中mi表示记忆令牌,si表示视频段。

- **自注意力操作**:对包含记忆令牌的视频段应用标准的自注意力操作,生成更新后的记忆令牌和视觉表示,公式如下:
![](imgs/VideoLLaMB的自注意力操作.png)

- **递归处理**:这个过程递归进行,遍历语义视频段的同时更新记忆 token,最终生成视频序列的压缩视觉摘要。

**其主要优势包括:**

- **增强记忆能力**:通过递归记忆令牌,桥接层能够增强对视频内容的记忆能力。
- **信息压缩**:记忆令牌能够在保留当前视频场景的同时压缩过去视频的信息,提高计算效率。
- **缓解梯度消失**:通过记忆缓存和检索机制,能够有效缓解梯度消失问题,保留长期依赖信息。


<h2 id="2.VideoLLaMB的 SceneTilling 算法是如何工作的?它在视频分割和流式字幕生成中有何优势?">2.VideoLLaMB的 SceneTilling 算法是如何工作的?它在视频分割和流式字幕生成中有何优势?</h2>

SceneTilling算法通过以下步骤实现视频分割:

- 余弦相似度计算:计算相邻帧对之间的余弦相似度,生成相似度分数序列。
- 深度分数计算:根据相似度分数计算每个点的深度分数,公式为:
![](imgs/VideoLLaMB的深度分数计算公式.png)

- **分割阈值设置**:根据深度分数的分位数设置分割阈值,选择超过阈值的深度分数对应的分割点,将视频分割成多个语义段。

**在流式字幕生成中,SceneTilling算法的优势包括:**

- **自动字幕结束点预测**:无需特殊训练令牌即可自动识别流式视频的字幕结束点。
- **场景变化检测**:能够有效检测视频中的场景变化,并生成相应的事件字幕。
- **无需额外训练**:利用视频的语义分割结果,无需额外的训练数据即可实现流式字幕生成。


<h2 id="3.VideoLLaMB在NIAVH基准上的表现如何?其独特之处体现在哪些方面?">3.VideoLLaMB在NIAVH基准上的表现如何?其独特之处体现在哪些方面?</h2>

**在NIAVH基准上,VideoLLaMB表现出色,主要得益于其独特的设计和多模态查询能力:**

- 多模态查询支持:NIAVH支持文本、图像和视频等多种模态的查询,能够全面评估模型在长视频中识别特定内容的能力。
- 高效的视频理解:VideoLLaMB 通过递归记忆桥接层和SceneTilling算法,能够在各种视频长度下准确检索到正确的图像针。
- 对比其他方法:与现有的自适应池化、位置外推结合采样等方法相比,VideoLLaMB在处理长视频时表现出更高的效率和更低的成本。

**其独特之处体现在:**

- **记忆缓存与检索**:通过记忆缓存和检索机制,VideoLLaMB 能够有效保留先前的状态记忆,缓解梯度消失问题。
- **语义分割**:SceneTilling 算法将视频分割成独立的语义单元,确保语义完整性和场景变化的准确性。
- **综合性能**:在长视频问答、自我中心规划和帧检索等多个任务上,VideoLLaMB 均表现出显著优于现有方法的性能。
1 change: 1 addition & 0 deletions AI视频基础/视频生成高频知识点.md
Original file line number Diff line number Diff line change
@@ -0,0 +1 @@
# 目录
1 change: 1 addition & 0 deletions AI视频基础/视频编辑高频知识点.md
Original file line number Diff line number Diff line change
@@ -0,0 +1 @@
# 目录

0 comments on commit 94ec436

Please sign in to comment.