首页> 中国专利> 基于图像内容和元数据的天文海量观测数据混合检索方法

基于图像内容和元数据的天文海量观测数据混合检索方法

摘要

本申请公开的基于图像内容和元数据的天文海量观测数据混合检索方法,与现有技术相比,包括以下步骤:获取待检索的观测图像;从所述待检索图像文件头中提取图像文件头,得到元数据A1;对所述待检索图像进行图像特征提取处理,得到图像特征矢量数据A2;根据所述元数据A1,利用元数据索引从元数据数据库中,检索得到第一命中数据集D1;根据所述图像特征矢量数据A2,利用图像特征索引从图像特征数据库中,检索得到第二命中数据集D2;对命中数据集进行命中数据集交集处理,得到最终检出图像数据集,相较于现有技术而言,其能够提高对海量天文图像数据的检索准确度,提高检索质量和效果,降低海量数据查询成本,进而提高天文工作者的工作效率。

著录项

  • 公开/公告号CN112182276A

    专利类型发明专利

  • 公开/公告日2021-01-05

    原文格式PDF

  • 申请/专利权人 云南财经大学;

    申请/专利号CN202011082714.3

  • 发明设计人 刘应波;吴瑕;邹恒;王锋;杨磊;

    申请日2020-10-12

  • 分类号G06F16/583(20190101);G06F16/58(20190101);G06F16/56(20190101);G06F16/51(20190101);

  • 代理机构11390 北京和信华成知识产权代理事务所(普通合伙);

  • 代理人颜思文

  • 地址 650221 云南省昆明市龙泉路237号

  • 入库时间 2023-06-19 09:27:35

说明书

技术领域

本申请涉及天文图像处理技术领域,更具体地说,尤其涉及一种基于图像内容和元数据的天文海量观测数据混合检索方法。

背景技术

我国目前建立了各种大型的望远镜设备,如内蒙古的射电望远镜MUSER,云南的1米光学望远镜NVST,贵州的射电望远镜FAST等,这些望远镜可以产生海量、高速的观测数据,1天可以生成TB甚至几十TB的数据。如何快速、高效检索这些观测数据是目前该领域遇到的最大的问题。

天文观测数据的高效检索是数据分析、处理、管理、发布和共享环节的关键。直接关系着后续天文研究科学工作的开展,更是大数据背景下天文研究的基础。因其独特的“海量”和“非结构化”数据特征,导致传统的关系型数据库难以胜任数据检索需要。在海量的观测数据的背景下,数据检索问题为各个观测台站带来了巨大挑战。

在我国当前的天文领域内,还没有基于元信息和图像内容混合检索的系统研究工作,尤其基于图像内容的天文数据检索技术的研究和应用于国际先进水平具有明显的差距。目前国内的数据获取过程中,虽然能够解决大数据的存储问题,但是对于如何高效检索数据依然停留在人工和传统的检索思路上。对于所需要的数据,要不断去翻阅历史数据,按照日期、时间来查找,不仅速度慢,而且成本高,面对PB量级的数据,这种方式已经严重制约了科学的产出。

因此,如何提供一种基于图像内容和元数据的天文海量观测数据混合检索方法,其能够降低海量数据查询成本,提高对海量天文图像数据的检索速度及准确度,提高检索质量和效果,进而提高天文工作者的工作效率,已经成为本领域技术人员亟待解决的技术问题。

发明内容

为解决上述技术问题,本申请提供一种基于图像内容和元数据的天文海量观测数据混合检索方法,其能够提高对海量天文图像数据的速度和检索准确度,提高检索质量和效果,降低海量数据查询成本,进而提高天文工作者的工作效率。

本申请提供的技术方案如下:

本申请提供一种基于图像内容和元数据的天文海量观测数据混合检索方法,包括以下步骤:获取待检索的观测图像;从所述待检索图像文件头中提取图像文件头,得到元数据A1;对所述待检索图像进行图像特征提取处理,得到图像特征矢量数据A2;根据所述元数据A1,利用元数据索引从元数据数据库中,索引得到第一命中数据集D1检索;根据所述图像特征矢量数据A2,利用图像特征索引从图像特征数据库中,检索得到第二命中数据集D2;对命中数据集进行命中数据集交集处理,得到最终检出图像数据集。

进一步地,在本发明一种优选的方式中,包括以下步骤:对所述待检索图像进行图像压缩映射处理,得到散列值A3;根据所述散列值A3,利用散列值索引从散列值数据库中,索引得到第三命中数据集D3。

进一步地,在本发明一种优选的方式中,所述“进行命中数据集交集处理”的步骤具体为:对所述第一命中数据集D1和所述第二命中数据集D2进行命中数据集交集处理。

进一步地,在本发明一种优选的方式中,对所述第一命中数据集D1、所述第二命中数据集D2和第三命中数据集D3进行命中数据集交集处理。

进一步地,在本发明一种优选的方式中,所述元数据数据库的构建方法为:获取天文图像;对所述天文图像进行元数据提取处理,得到基础元数据;将基础元数据存入数据库中得到元数据数据库。

进一步地,在本发明一种优选的方式中,所述图像特征数据库的构建方法为:获取天文图像;对所述天文图像进行图像特征提取处理,得到基础图像特征矢量数据;将基础图像特征矢量数据存入数据库中得到图像特征数据库。

进一步地,在本发明一种优选的方式中,获取天文图像;对所述天文图像进行图像压缩映射处理,得到基础散列值;将基础散列值存入数据库中得到散列值数据库。

进一步地,在本发明一种优选的方式中,所述图像特征提取处理的图像特征包括:泛化特征、天文特征;所述泛化特征包括图像纹理、色彩饱和度、对比度;所述天文特征包括太阳黑子、日冕;所述图像特征提取处理包括以下步骤:识别所述待检索图像的所述泛化特征和所述天文特征;标记所述泛化特征和所述天文特征的位置信息;构建所述泛化特征和所述天文特征的矢量数据,得到图像特征矢量数据。

进一步地,在本发明一种优选的方式中,所述图像压缩映射处理包括以下步骤:对所述待检索图像进行rescale处理,调节所述待检索图像的灰度值;对所述待检索图像进行图像形态规划处理,得到标准长度化待检索图像;对所述标准长度化待检索图像的像素点灰度进行梯度差分处理,得到规范化待映射图像;对所述规范化待映射图像进行压缩映射计算,得到散列值。

进一步地,在本发明一种优选的方式中,所述压缩映射计算具体为hash函数计算,所述散列值为hash值。

进一步地,在本发明一种优选的方式中,所述“将基础散列值存入数据库中得到散列值数据库”的步骤具体为:根据散列值,利用VPTree构建基于散列值的索引结构树,将所述索引结构树存入数据库中,得到散列值数据库。

本发明提供的一种基于图像内容和元数据的天文海量观测数据混合检索方法,与现有技术相比,包括以下步骤:获取待检索的观测图像;从所述待检索图像文件头中提取图像文件头,得到元数据A1;对所述待检索图像进行图像特征提取处理,得到图像特征矢量数据A2;根据所述元数据A1,利用元数据索引从元数据数据库中,索引得到第一命中数据集D1检索;根据所述图像特征矢量数据A2,利用图像特征索引从图像特征数据库中,检索得到第二命中数据集D2;对命中数据集进行命中数据集交集处理,得到最终检出图像数据集,相较于现有技术而言,其能够提高对海量天文图像数据的速度和检索准确度,提高检索质量和效果,降低海量数据查询成本,进而提高天文工作者的工作效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的天文观测图像数据采集流程框图;

图2为本发明实施例提供的天文观测图像数据检索过程示意图。

具体实施方式

为了使本领域的技术人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

需要说明的是,当元件被称为“固定于”或“设置于”另一个元件上,它可以直接在另一个元件上或者间接设置在另一个元件上;当一个元件被称为是“连接于”另一个元件,它可以是直接连接到另一个元件或间接连接至另一个元件上。

需要理解的是,术语“长度”、“宽度”、“上”、下”、“前”、“后”、“第一”、“第二”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”、“若干个”的含义是两个或两个以上,除非另有明确具体的限定。

须知,本说明书附图所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本申请可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本申请所能产生的功效及所能达成的目的下,均应仍落在本申请所揭示的技术内容得能涵盖的范围内。

请如图1-2所示,本申请实施例提供的基于图像内容和元数据的天文海量观测数据混合检索方法,包括以下步骤:获取待检索的观测图像;从所述待检索图像文件头中提取图像文件头,得到元数据A1;对所述待检索图像进行图像特征提取处理,得到图像特征矢量数据A2;根据所述元数据A1,利用元数据索引从元数据数据库中,索引得到第一命中数据集D1检索;根据所述图像特征矢量数据A2,利用图像特征索引从图像特征数据库中,检索得到第二命中数据集D2;对命中数据集进行命中数据集交集处理,得到最终检出图像数据集。

本发明实施例提供一种基于图像内容和元数据的天文海量观测数据混合检索方法,具体包括以下步骤:获取待检索的观测图像;从所述待检索图像文件头中提取图像文件头,得到元数据A1;对所述待检索图像进行图像特征提取处理,得到图像特征矢量数据A2;根据所述元数据A1,利用元数据索引从元数据数据库中,索引得到第一命中数据集D1检索;根据所述图像特征矢量数据A2,利用图像特征索引从图像特征数据库中,检索得到第二命中数据集D2;对命中数据集进行命中数据集交集处理,得到最终检出图像数据集。本申请提供的技术方案,同时利用元数据索引和图像特征矢量数据索引的方式,对同一待检索图像进行检索;通过元数据索引得到第一命中数据集D1检索,通过图像特征矢量数据检索得到第二命中数据集D2,对第一命中数据集和第二命中数据集进行交集处理,即可得到最终检出的图像数据集,即得到所需的图像数据;相较于现有技术而言,利用元数据和图像特征矢量数据进行索引得到的交集结果,综合了元数据检索的快捷性和图像特征矢量数据检索的准确性,其能够提高对海量天文图像数据的速度和检索准确度,提高检索质量和效果,降低海量数据查询成本,进而提高天文工作者的工作效率。

需要说明的是,本发明针对日益增长的观测数据,结合当前天文领域内的数据检索需求和未来动态的数据发展趋势,发明了基于元数据信息和图像内容检索方法。本方法可直接应用到我国的各种天文观测台站中,具有共性需求,有良好的推广价值与科学研究前瞻性。

具体地,在本发明实施例中,包括以下步骤:对所述待检索图像进行图像压缩映射处理,得到散列值A3;根据所述散列值A3,利用散列值索引从散列值数据库中,索引得到第三命中数据集D3。

需要说明的是,本申请的技术方案的实施例中,具体还可以利用压缩映射函数的原理来对海量的图像数据进行索引,从而提高检索效率。

需要说明的是,压缩映射函数,能够将长串数据压缩为位数固定的散列值,长串数据的些许改动调整,将导致散列值的完全变化,即变为无任何数值联系的散列值,将散列值导入散列值数据库中,即可查找到对应的图像数据,即天文图像数据。

具体地,在本发明实施例中,所述“进行命中数据集交集处理”的步骤具体为:对所述第一命中数据集D1和所述第二命中数据集D2进行命中数据集交集处理。

具体地,在本发明实施例中,对所述第一命中数据集D1、所述第二命中数据集D2和第三命中数据集D3进行命中数据集交集处理。

具体地,在本发明实施例中,所述元数据数据库的构建方法为:获取天文图像;对所述天文图像进行元数据提取处理,得到基础元数据;将基础元数据存入数据库中得到元数据数据库。

需要说明的是,进行元数据提取处理首先得到头元数据,并按照关键字-值的方式从头元数据中提取得到关键字信息,所述的关键字信息即为基础元数据。

具体地,在本发明实施例中,所述图像特征数据库的构建方法为:获取天文图像;对所述天文图像进行图像特征提取处理,得到基础图像特征矢量数据;将基础图像特征矢量数据存入数据库中得到图像特征数据库。

具体地,在本发明实施例中,获取天文图像;对所述天文图像进行图像压缩映射处理,得到基础散列值;将基础散列值存入数据库中得到散列值数据库。

具体地,在本发明实施例中,所述图像特征提取处理的图像特征包括:泛化特征、天文特征;所述泛化特征包括图像纹理、色彩饱和度、对比度;所述天文特征包括太阳黑子、日冕;所述图像特征提取处理包括以下步骤:识别所述待检索图像的所述泛化特征和所述天文特征;标记所述泛化特征和所述天文特征的位置信息;构建所述泛化特征和所述天文特征的矢量数据,得到图像特征矢量数据。

需要说明的是,由于图像比较大,在图像载入的过程中,是按照顺序一个区域接着一个区域进行读取,在连续读取图像的过程中,每读取一个图像,即对该图像进行元数据提取处理、图像特征提取处理和图像压缩映射处理;图像特征提取处理完后,即可得到关于图像特征的矢量数据,利用矢量出具

具体地,在本发明实施例中,所述图像压缩映射处理包括以下步骤:对所述待检索图像进行rescale(重调尺寸)处理,调节所述待检索图像的灰度值;对所述待检索图像进行图像形态规划处理,得到标准化的待检索图像;对所述标准化的待检索图像的像素点灰度进行梯度差分处理,得到规范化待映射图像;对所述规范化待映射图像进行压缩映射计算,得到散列值。

需要说明的是,在具体实施例的操作中,首先,把FITS图像(天文图像)进行rescale处理,例如直方图均衡技术(由于FITS图像的灰度值范围0-65536,普通的灰度图像为:0-255);

其次,图像大小规范化,忽略图像长宽比,统一规范到(N+1)行,N列大小,N的典型值如8,16,32,64,128,256。

然后,对图像N列数据相邻的像素点进行水平梯度差分,给定P个像素集,如果第P[i]的灰度值大于P[i-1]列,设置为1,否则为0.

最后,在差分Hash的基础上进行规范化,得到Hash值(散列值)。

具体地,在本发明实施例中,所述压缩映射计算具体为hash函数计算,所述散列值为hash值。

具体地,在本发明实施例中,所述“将基础散列值存入数据库中得到散列值数据库”的步骤具体为:根据散列值,利用VPTree构建基于散列值的索引结构树,将所述索引结构树存入数据库中,得到散列值数据库。

需要补充说明的是:

对于天文观测图像数据的检索方式,常规的方法就是提取FITS图像的元数据信息,然后在元数据上面建立倒排索引对图像进行搜索。这种方式就需要对FITS头进行人工的标注,在写入FITS头时,也需要规划好哪些内容是需要用于检索目的,通常来说,赤经、赤纬、观测日期、时间、观测对象这些都是常用的,如果需要刻意标注该文件具有其他特征,例如太阳FITS图像的黑子、日冕等事件,就要进行专门的标记。这种方式的检索只能够得到文本信息的,当有多个结果的时候,还需要人工进行筛选查找,因此,这种检索方式的问题是,1)检索不够精确,只能根据关键字检索;2)无法实现以图搜图的方式。在应用中,经常会存在对于某个天文事件感兴趣,就需要找到与该内容相关的图像,特别对于未知图像的时候,这种关键字检索无能为力。

本发明中重点会用到如下几个概念:

元数据:描述数据的信息,在天文领域主要是FITS头信息较多,因为FITS头可以看成是描述原始观测数据的数据,具有描述功能。因此目前各种应用几乎都针对FITS头来做检索,例如归档系统,检索系统。

图像内容检索:ContentBasedImageRetrieval(CBIR),是较为先进的图像检索技术,通过提取图像的特征信息,例如图像的纹理、颜色、对比对等,通过计算不同图片之间的“距离”进行检索的方式。但是这种方式对于大型文件来说,效率极低。因为FITS图像,单个最大可以为GB甚至几个GB。单个图像的信息提取需要花大量的实际,也会为计算带来巨大的压力,因此并不实用。

图像检索方法包括如下几个步骤:

步骤1:FITS图像导入模块,加载一副FITS图像(待检索图像);

步骤2:FITS元数据提取模块从FITS图像中提取FITS头元数据信息,并按照关键字-值的方式提取关键字信息(基础元数据);

步骤3:利用元数据检索模块,按照关键字方式从元数据检索库(元数据数据库)中检索信息,此时会得到第一个命中数据集D1;

步骤4:该步骤可以与步骤2并行,FITS图像内容特征提取模块,根据图像信息提取图像特征;

步骤5:量化图像特征为特征矢量(图像特征矢量数据);

步骤6:根据量化特征检索图像数据集(图像特征数据库),此时会得到第二个命中数据集D2;

步骤7:该步骤可以和步骤3和步骤5并行。对图像进行哈希标记(图像压缩映射处理),标记过程包括如下几个子步骤:

步骤7.1:把FITS图像进行rescale处理,例如直方图均衡技术(由于FITS图像的灰度值范围:0-65536,普通的灰度图像为:0-255);

步骤7.2:图像大小规范化,忽略图像长宽比,统一规范到(N+1)行,N列大小。

步骤7.3:对图像N列数据相邻的像素点进行水平梯度差分,给定P个像素集,如果第P[i]的灰度值大于P[i-1]列,设置为1,否则为0;

步骤9.4:规范化图像Hash值;

步骤10:根据计算出的Hash值,在VPTree中进行检索,此时会得到第三个命中数据集D3;

步骤11:根据需要对数据集D1,D2,D3进行合并,通常利用交集的方式求精准度,利用并集的方式求覆盖度;

步骤12:输出最终图像数据集。

另外,所述图像索引构建具体包括如下几个步骤,如图1所示:

步骤1:FITS图像导入模块负责打开管理FITS图像,例如,加载一副FITS图像;

步骤2:FITS元数据提取模块从FITS图像中提取FITS头元数据信息,并按照关键字-值的方式提取关键字信息;

步骤3:元数据存储模块提取的关键字信息存入数据库(元数据数据库)(这里的数据库可以是关系型数据库或者非关系型数据库);

步骤4:基于元数据构建图像的元数据索引;

步骤5:该步骤可以与步骤3并行,FITS图像内容特征提取模块,根据图像信息提取图像特征,图像特征不限于图像纹理、色彩饱和度、对比度等(该步骤可叫做泛化特征提取),特别地,对于天文图像,尤其是太阳黑子,日冕等领域特征,有专门的图像特征提取算法可以使用;

步骤6:量化图像特征为特征矢量;

步骤7:存储量化图像特征,量化后的图像特征矢量可以利用现有的数据库技术进行存储;

步骤8:在存储后的图像特征数据库上构建图像特征索引;

步骤9:该步骤可以和步骤3和步骤5并行。对图像进行哈希标记,标记过程包括如下几个子步骤:

步骤9.1:把FITS图像进行rescale处理,例如直方图均衡技术(由于FITS图像的灰度值范围0-65536,普通的灰度图像为:0-255);

步骤9.2:图像大小规范化,忽略图像长宽比,统一规范到(N+1)行,N列大小,N的典型值如8,16,32,64,128,256。

步骤9.3:对图像N列数据相邻的像素点进行水平梯度差分,给定P个像素集,如果第P[i]的灰度值大于P[i-1]列,设置为1,否则为0。

步骤9.4:在差分Hash的基础上进行规范化,得到Hash值,散列值。

步骤10:存储图像Hash值,这个步骤可选,但是对于数据量大的天文观测数据来说,构建后续索引结构过程中,可以作为一个缓冲。

步骤11:根据抽取图像Hash值,利用VPTree构建基于Hash的索引结构树(散列值索引);

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号