视频分割软件
视频分割是指对图像或视频序列按一定的标准分割成区域,目的是为了从视频序列中分离出有一定意义的实体。视频分割软件可以帮助您很简单的完成视频分割步骤,西西软件园提供最好用的视频分割软件下载大全!
视频分割软件哪个好?
西西自己使用的是Ultra Video Splitter 这款软件,在视频分割的过程中又很好地表现,并且分割后不会损坏原视频。另外Boilsoft Video Splitter等视频分割软件也不错!
视频分割原理:(文章较长,想了解的可以认真看看)
1.基于内容检索索引方法
在基于内容检索系统中,快速索引技术是影响系统速度的关键。由于媒体对象的特征描述一般都是高维的,而特征空间中的相近意味着较大的相似度,因此问题的 关键就在于如何在高维空间点集中寻找与给定点距离最近的一组点。在计算机科学中,在点集中寻找与给定点距离最近的点的问题叫做最近邻搜索(nearest -neighbor-search)问题,记作NN-Search问题。基于内容检索的索引问题要求寻找与给定点距离最近的一组点(不妨设为k个),常记 作k-NN-Search问题。
在一维空间下,最近邻搜索可采用对顺序表进行简单的折半查找来完成,但在高维空间这种算法就难以直接应用了。 最早的最近邻查找算法是所谓的桶算法(bucketing algo-rithm)。这种算法将数据集空间进行规则划分(如成格状),每个划分中的数据点存于一个桶中(bucket)。这样,最近邻搜索就转化为在 所有的桶中寻找与给定点最近的桶。由于桶算法对数据集空间进行规则划分,因此其对于均匀分布的数据集十分有效。
对于主存中的最近邻搜索来说, 一种比较实用的索引方法是k-d-树方法,其思想是按照一定的准则选择某一坐标轴方向作为切分方向,将数据集切分为两个子数据集,再对此两个子数据集递归 切分,形成一棵检索树。优先k-d树(priority k-d tree),这种索引结构不仅检索速度快,适用于k-NN-Search问题,而且其空间复杂度与数据集的维数成线性关系,且与二级存储器实现相容,因此 是目前解决k-NN-Search问题最有效的一种索引算法。近似最近邻搜索(approximate nearest neighbor search)也是基于内容检索索引研究的一个热点。由于在多数应用中,用户只要求检索结果中有一个或几个满意媒体对象即可,而并不要求查询结果一定是信 息库中满足相似度和检索结果集合大小限制的所有对象。相反地,在多数情况下用户希望牺牲检索的精确度以换取更高的检索速度,这就导致了近似最近邻搜索技术 的产生。而大量的实验表明,对于高维数据集来说,即使允许极小的近似(检索误差),也会对检索速度带来很大的提高。
在基于内容检索系统 中,为加快检索速度而经常使用的另一个技术是分层索引技术。对于许多检索操作(如二次型距离的直方图匹配)而言,特征间距离的计算往往需要很大的计算量。 在这种情况下,可采用一种计算量较小(cheap)的距离度量先对信息库进行检索,得到一组候选的媒体对象集,再对此候选媒体对象集采用原距离度量,以此 来降低计算量。
2.内容描述技术
媒体分割和 特征提取用来在基于内容检索系统中建立媒体对象的内容描述,其方法和技术直接来源于图像处理与理解和计算机视觉等媒体理解研究的成果。由于目前的媒体理解 技术尚难建立通用的系统,因此在基于内容检索系统的实现中引入与领域有关的高层知识将是有益的(即图像/视频库涉及的内容),这将直接影响到系统所采用的 媒体理解技术。以静止图像库为例,对于医疗图像库的检索,无疑需要结合专门领域的医学图像理解技术来进行图像的描述和组织。而面孔图像库或新闻人物照片的 检索,结合面孔识别技术无疑可大大提高检索的准确率。像这样的专用基于内容检索系统,往往都需要针对系统的要求,专门设计用于检索和描述的特征。
也 有一些图像检索系统由于其包含内容十分广泛(如QBIC系统和Virage系统),促使其选择更为普遍的特征来进行内容的描述、组织和检索。目前,对于通 用的静止图像检索,用于检索的特征主要有颜色(color)、纹理(texture)、草图(sketch)、形状(shape)等,其中颜色、形状、纹 理应用得尤为普遍。
对于视频信息检索,一般说来,领域知识的作用更为明显。除了底层的片段检测(shotdetection)、图像拼接 (mosaicing)等不需要语义信息的技术外,要进一步对视频片断进行组织,则需要充分利用领域的知识。如对于新闻节目的检索来说,利用视频信号的某 些特点(电视台的台标)可有效地进行信号区分,从而大大简化检索难度。而利用先验知识,可更有效地完成对监控系统视频信号中被触动过物体的检索。
尽管由于不同的应用背景,不同的基于内容检索系统在底层描述中采用的技术也各有侧重,但一般都能在传统的计算机视觉和图像处理技术中找到其出处。可以说,媒体分割和特征抽取所使用的技术是图像处理和计算机视觉各种技术应用的综合。
(1)图像的特征描述
对于通用图像库的检索来说,最常用的特征就是颜色、形状和纹理。
①颜色特征的提取
在传统的注重几何特征的计算机视觉研究中,颜色未得到充分的重视,人们普遍认为颜色不是刻划一个物体的关键特征。然而,相对于几何特征而言,颜色具有一 定的稳定性,其对大小、方向都不敏感,表现出相当强的鲁棒性。同时,在许多情况下(特别是对于自然景物来说),颜色是描述一幅图像最简便而有效的特征。例 如;在需要检索海滨景物图像时,指定图像中的主要颜色(如蓝色,对应海水;黄色,对应海滩)的大致比例后即可以此为依据查找与此颜色分布类似的图像,而此 时其他检索特征往往难以奏效。所有这些,都促使颜色成为基于内容检所采用的主要手段之一。在QBIC和Virage系统中,颜色分别是最有效和权重最大的 检索特征。
一种常用的颜色特征是图像的颜色直方图。在颜色检索算法中,采用了互补颜色(opponent color)空间直方图来描述物体,并通过定义在直方图的相交(intersection)及反投影算法(backprojection algorithm)来完成物体的识别(检索)和在图像中的定位。通过直方图相交算法,给定图像直方图后,颜色检索就变为在模型库中查找具有最大匹配度的 图像。
颜色直方图反映的是图像的整体特征,而在许多情况下我们希望在检索中只对图像中的部分颜色加以指定(如检索出现蓝天的图像,而不管图像中出 现的其他景物)。在这种情况下,若把颜色直方图作为特征直接进行比较难以满足检索的要求,而描述图像主要颜色组成的主颜色(dominant color)却十分有效。一般情况下,可通过图像分割或在颜色直方图空间聚类来对主颜色加以计算。
②形状特征的提取
形状是传统计 算机视觉刻划物体的本质特征之一,但对于通用图像库的检索而言,利用形状特征进行检索存在一定的困难。这是因为实际场景中物体的形状会发生很大的变化,而 且从复杂场景中提取物体形状本身也并不是一件简单的事情。但针对某些特定应用(如QBIC中针对可明显分割为背景和前景的图像),利用形状可以提高检索的 准确性和效率。
对于基于形状的检索来说,形状的表示和匹配无疑是需要解决的重要问题。传统的计算机视觉中,曾先后用Freeman链码、Y-s曲线、Fourier描述子、二次曲线及B样条等来描述平面曲线。
对于形状匹配来说,Hough变换是最经典的方法,而且对于噪声和遮挡具有良好的抗干扰性。但Hough变换仅能解决形状的平移、旋转和缩放所带来的匹配问题,而对实际应用中广泛的变形匹配问题无能为力。
在实际应用中,出于对算法时间和空间复杂性的考虑,形状的表达和匹配往往采用更为简单的方法,如形状参数(shape factor)--关于形状的一些定量测度(如面积、周长等)常用来描述形状并进行形状的匹配。
③纹理特征的提取
作为物体的一个重要特征,纹理也是基于内容检索的一条主要线索。纹理检索和纹理分类技术有着密不可分的关系,针对不同系统的应用要求在纹理检索的实现中往往采用不同的纹理识别技术。
早期的纹理识别技术可分为三类:统计方法、结构方法和频谱分析方法。结构方法主要对规则的结构纹理,采用句法分析方法识别。从20世纪70年代开始,基于二阶灰度统计特征的统计方法得到了广泛的研究。
进入80年代后,随机场模型也用于纹理的分类和识别。采用了高斯马尔可夫随机场GMRF(Gaussian Markov Random Field)模型后,对 9种自然纹理的识别正确率达到了99%~100%。
3.视频检索
与图像检索相比较,视频检索含有更丰富的内容,但与图像数据一样,原始的视频数据也是非结构化的,在检索前要对其结构化。为此,首要工作是将此连续的视 频流划分为具有特定语义的视频片段来作为检索的基本单元,在此基础上才能作进一步的描述和组织。这样,视频检索就包括视频分割和描述建立两部分内容。
①视频信号的结构化
视频信号的结构化主要包括视频分割和镜头组织两部分,其中前者用于将连续的视频流分割为可供检索的视频基元(镜头),而后者则用于对分割产生的大量镜头建立更高层的组织结构,以便于浏览检索。
a.视频分割
如上所述,视频分割即将连续的视频流分割为相对独立的视频片段。根据应用背景的不同,对视频流的分割可以采用不同的标准,比如可以把某一物体在图像中的 出现和消失定义为片段的头和尾。但根据视频信号的产生原理,我们知道一般的视频信号本身是由多段镜头(摄像机上从记录 RECORD到停止 STOP期间所获得的一段连续视频信号)通过拼接编辑而成,而每个镜头本身具有一定的独立性和完整性。因此,在实际应用中多是以视频流中的自然分界--镜 头场景的切换作为视频流的分割依据。从这个意义上说,视频分割即对视频流中帧图像内容连续性中断的检测。
根据视频编辑特性的不同,镜头切 换可分为不同的类型。对最简单的直接切换来说,由于视频流由两镜头不加编辑直接拼接而成,帧图像特性在拼接发生突变,因此可通过帧间特性的比较进行检测。 通过对不同图像度量的比较得出,采用子窗口直方图比较的方法对于切换检测性能最佳。窗口的选择是影响性能的一个主要因素,大窗口算法对运动具有较好的鲁棒 性,但在景物改变且具有类似颜色或灰度分布时可能漏检,而小窗口算法则对于运动过于敏感,因此在实现中往往需要将二者结合使用。
另一种常见的 较为复杂的镜头切换是渐变(dissolves),即使一段视频镜头在镜头转换处在一段时间内渐渐转变为后续视频镜头。淡入(fade-In)淡出 (fade-out)可视为渐变的特殊情况。对于渐变,由于帧图像特性逐渐改变,相邻帧变化很小,就不能仅依靠相邻帧特性的比较,而需要在更大的窗口范围 内进行检测。
由于大量视频信号都以压缩形式存储,对压缩视频流的直接片段检测也是人们感兴趣的研究内容。通过对视频编码中DCT变换系数性质的分析,可以对压缩视频信号直接进行片段检测的算法。以此为基础,人们对MPEG视频流又提出了许多改进的算法。
b.镜头组织
通过视频分割,连续的视频流被切分为可供检索的镜头。但对于许多视频信号来说,其所含的镜头数可多到上百上千,使得用户难于直接检索。以电影为例,有多 于500镜头的影片并不少见,而现代动作片中镜头数则更多(如在"终结者II"中,15分钟的影片就有300个片段)。在电视节目的新闻报导中,也有大量 的关于同一报导内容的镜头。在这种情况下,就需要对镜头进行组织,生成一种更高级、更具有语义性的结构(如场景scene或幕act),以便于用户的检 索。
场景转换图 STG(scene transition graph)是一种常用的镜头组织方法。该方法根据语义信息对镜头进行组织,从而对整个视频流进行建立一种层次化的表示。首先根据镜头间的相似性(主要利 用颜色、形状及图像间相关等)对在内容描述空间对镜头进行聚类,再根据聚类结果利用时间轴上的约束生成场景转换图。
②描述建立
与 图像检索有所不同,视频检索的描述建立除了特征提取外,还包括镜头的代表帧生成。特征提取用于对分割得到的镜头建立描述,常用的镜头特征是镜头的主运动, 这个特征适用于景物中有一个大背景的镜头。在此条件下不能得到满足(如景物中存在多个较大运动物体的情况)时,就需要对镜头根据运动特性对不同景物分层并 对分层建立描述。代表帧生成用于对镜头生成一个或多个可代表内容的图像,可在浏览检索用来代表镜头的内容。
a.主运动估计(dominant motion estimation)
在多数视频图像中,往往有一个相对固定的背景,背景前面是运动的物体。此背景占据了大部分图像,其在图像平面中的变化是摄像机操作和运动(如聚焦、平移、追踪等)的结果。在这种情况下,主运动(即此背景的运动)估计无疑对图像的对准和拼接效果起着重要的作用。
不同算法所依据的运动模型不同。在背景景深变化不大的情况下,可以把整个背景作为二维平面来考虑,这样就得到了摄像机的二维运动模型。
对于背景景深变化较大的情况,此时单个二维运动模型已不能描述背景的运动,而必须考虑景深的影响。针对校准过的摄像机,提出了三维运动结构模型。
在模型参数的计算方面,为了去除前景运动的影响,在参数估计时一般不采用最小均方差(least squares)方法。而采用了 M估计(M-Estimation)方法。
b.层描述(layered representation)
在许多情况下,景物由多个具有不同运动特性的较大物体组成,很难指定哪一个运动是主运动。在这种情况下,就需要采用层描述方法,根据运动特性的不同对景 物进行分割,将其划分为不同的"层",并分别对每层建立相应的描述。层描述一般包括三个部分:a一个运动描述符的集合;b对每个运动描述符在图像序列中与 之对应即满足其约束关系的"层";c根据a和b及原始视频图像建立的对每个"层"建立的描述。
层描述所要解决的问题是:a需要多少个运动模型来描述景物中的运动;b运动模型参数的计算;c每个运动模型支撑"层"的计算。为了对运动模型的数目加以限制,算法一般都采用 MDL(minimum discription length)准则来进行计算。
在QBIC的实现中,就是根据2D运动模型,通过不同物体(由于在景物中远近不同所引起)的仿射变换的参数的不同,将景物划分为不同的层 (layer),每一层具有自己的2D仿射运动参数以及在每一帧中的对应区域,这样,就对整个片段建立了一个运动的分层表述(layerd representation),供检索时使用。
c.镜头代表帧生成
在许多视频检索应用中,浏览检索是一种十分重要的检索手段。 在这种检索方式中,镜头的内容用一幅或多幅能够代表镜头内容的图像(称为代表帧representative frame,简记为r-frame)来表示。系统通过在检索界面上提供各镜头的代表帧,使得用户可通过浏览来选择相应的镜头。这样,如何生成代表帧,使其 更好地表现镜头的内容,就成为一个需要解决的问题。
最简单的办法是直接从镜头的帧序列选择一幅或多幅图像作为代表帧。常用的方法是选择图像的首帧、中间帧或末帧,但这种方法的缺点是缺乏灵活性,不能根据镜头的内容变化选择代表帧,还可以采用根据对帧相关差(对应像素差)设阈值来选择代表帧的方法。
另一种常用的代表帧生成方法是图像拼接(mosaicing),即对分割得到的镜头融合镜头中多帧的背景信息生成一个全景的拼接图像(mosaic)来代表镜头内容。