首页> 中国专利> 历史遥感产品数据支持下的作物种植面积测量高效抽样方法

历史遥感产品数据支持下的作物种植面积测量高效抽样方法

摘要

本发明涉及一种以历史遥感产品数据建立抽样框和设计辅助变量实现作物面积测量的高效的抽样方法。CACVM和Mean分别代表抽样单元内多年作物种植面积的变化率和平均规模。将此两个指标分别用做一个两阶段分层抽样方法的一阶段和二阶段分层的分层标志。以北京市冬小麦种植面积最集中的大兴、房山、顺义和通州四区县作为研究区进行试验,对本发明方法的有效性进行评价。

著录项

  • 公开/公告号CN102175209A

    专利类型发明专利

  • 公开/公告日2011-09-07

    原文格式PDF

  • 申请/专利权人 北京师范大学;

    申请/专利号CN201010576757.7

  • 申请日2010-12-07

  • 分类号G01B21/28(20060101);

  • 代理机构

  • 代理人

  • 地址 100875 北京市新街口外大街19号

  • 入库时间 2023-12-18 03:08:57

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-01-23

    授权

    授权

  • 2011-11-16

    实质审查的生效 IPC(主分类):G01B21/28 申请日:20101207

    实质审查的生效

  • 2011-09-07

    公开

    公开

说明书

技术领域

本发明涉及一种以历史遥感产品数据建立抽样框和设计分层抽样辅助变量实现作物种植面积测量的高效抽样方法。

背景技术

及时准确的统计农作物种植面积对国家和区域的粮食生产、贸易及粮食安全预警有重要意义。遥感信息具有覆盖范围大、探测周期短、资料丰富、现势性强、费用低等优势,成为了农作物种植面积测量的一项重要手段。然而,直接用遥感识别的方法进行农作物种植面积提取,存在分类器、操作人员经验、样本选择、遥感影像质量等众多因素的影响,致使作物种植面积提取的区域精度难以保障,分类结果错入错出导致区域面积无法量化。当前单纯采用遥感技术进行农作物种植面积识别难以支撑作物种植面积的业务化测量,因此,采用科学合理的抽样方法是业务化运行的作物种植面积监测的关键因素。

使用遥感技术结合统计抽样方法的数据收集方式,以卫星、航空照片、专题地图等材料为面积框。对研究区域按照相似性原则进行分层或分区,以规则网格或者不规则的行政区划数据(乡镇、村)为抽样单元,采用一定的抽样方法(分层抽样、整群抽样、系统抽样等)进行采样,结合收集的田间数据进行估算的方式,这种方式可以客观的反映数据的真实性,具有空间属性,维护更新方便。该种面积框抽样的方法已在多个国家得到广泛认可和应用,成为了政府以及统计部门在大面积农作物面积估算中使用的方法。如美国国家航空航天局(NASA)、国家海洋大气局(NOAA)、农业部(USDA)联合制定了“大面积作物清查试验”即LACIE计划(Large Area Crop Inventory Experiment)和“利用空间遥感技术进行农业和资源调查”即AgRISTARS计划(Agricultural and Resources Inventory Surveys Through Aerospace Remote Sensing),完成了对世界主要小麦产区的面积、产量和总产量的估算实验,其中作物种植面积的估算主要利用陆地卫星资料。欧盟MARS(Monitoring Agriculture with Remote Sensing)计划是一项遥感技术应用于农业统计的十年研究项目。该项目研究目的是利用遥感技术开发出能够改善欧洲共同体内部农业统计体系的新方法。我国学者在应用抽样技术估算作物种植面积方面也进行了有益探索。周华茂借鉴和吸取了欧盟农业遥感研究项目(MARS)的有关农作物面积抽样调查方法的经验,结合我国水稻生产的实际情况,建立了一套适合我国南方稻区水稻播种面积抽 样调查的技术体系和地面面积取样框图。谢鸿光等研究了中比例尺度遥感调查中建立基于土地利用类型和土地利用结构的采样区划,布设多重采样框架;王延颐等利用TM影像进行成数抽样对江苏省兴化县的水稻种植面积进行监测;陈仲新和刘海启采用分层抽样方法分别实现了全国冬小麦面积变化遥感监测的外推以及大尺度耕地变化监测。焦险峰等使用1∶2.5万比例尺地形图标准分幅建立抽样框架,完成了新疆棉花种植面积监测,吴炳方和李强子提出了基于农作物种植结构区划,采用整群抽样和样条采样技术相结合的测量办法,进行了大区域农作物种植面积的估算。

综观大范围农作物种植面积调查方法的发展,面积框抽样调查逐步取代了传统的抽样方法,已经为世界许多国家和组织所采纳。但是,传统采用面积框多利用统计数据进行分层,难以获得与目标作物相关性高的分层标志,无法满足高效的抽样效率。利用遥感识别的方式获取的遥感产品作为分层标志已证实与目标作物有着非常高的相关性,可以提高抽样效率。但采用现势遥感测量结果作为辅助变量仍存在不可避免的问题,主要是:获取关键期遥感影像进行作物识别虽得到作物面积高精度的保证,但遥感数据的获取易受到天气、重返周期以及作物物候(例:作物播种初期,由于未出苗无法获取影像)等因素的影响无法保证现势的全覆盖预分类结果的稳定获取,从而限制了空间抽样方案的设计和应用,这也是当前采用遥感建立抽样框进行农作物种植面积测量的瓶颈所在。

我国作为农业大国,作物种植习惯的规律是普遍存在的,如在历年种植冬小麦概率高的地块内,现势种植小麦的种植概率也会高。因此,可以做一个假设:在一个地块内,作物种植具有一定的稳定性,多年种植概率高的地块,来年种植该作物的概率也高。虽然遥感数据源的不断获取,历史遥感数据源已经积累了丰富的历史产品,因此,充分利用历史遥感产品数据,依据历史遥感产品反映现势农作物的种植规律,为抽样调查提供准确的入样总体和辅助信息,提高抽样效率,构建一套适于农作物抽样的统计遥感调查方案,满足农作物种植面积调查的业务化测量。

发明内容

本发明要解决的技术问题在于,针对现有遥感与抽样调查作物种植面积调查中存在的问题,利用历史遥感产品数据为分层标志构建适用于农作物种植面积测量的抽样调查方案,提高抽样调查的效率,以解决无现势遥感数据下农作物种植面积的测量。

本发明采用的技术方案为:以历史遥感作物产品数据建立分层标志,抽样时采用两阶段分层的抽样方法(Two-stage stratified sampling,TSS)。

变化率可以用来定量描述农作物多年的种植变化规律,变化率又称为“标准差率”, 是衡量观测值变异程度的一个统计量。当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位和(或)平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。其可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。

变化率已经被许多学者用来描述数据集的分散程度。薛丽香等使用变化率对边界点进行检索,首先计算出数据对象到它的k-距离邻居距离之和的平均值,然后用平均值的倒数作为每个点的密度,通过变异系数刻画数据对象密度分布特征寻找边界点,Sushil Pradha使用变化率作为面积估计值与地面调查值之间无偏程度的度量指标。

对于每个抽样单元来说,多年历史种植面积变化率(Crop Acreage Coefficient of Variance in Multi-years,CACVM)表述如下:

Mean=Σi=nmS0i/(m-n+1)=Σi=nmS0i/t=S

CACVM=SDMean=Σi=nm(S0i-S)2/t/S=Σi=nm(S0i-S)2/tS

其中,Soi是抽样单元第i年的农作物种植面积,Mean表示单个抽样单元内多年农作物种植面积平均值,SD是单个抽样单元内多年农作物种植面积的标准差。可见,当一年的农作物种植面积不为0而其他年份种植面积均为0时,CV最大大值为 t表示历史遥感数据的总年数,当每年的种植面积均相等时,变化率最小为0,所以CV的取值范围为 

据研究表明,相对于随机抽样,系统抽样等抽样方法,分层抽样具有样本数少、抽样精度高、费用低等优点,是大规模统计抽样调查中有效的方法。对于农作物面积估计来说,分层抽样可以有效地提高估计的效率和精度,因此,在设计面积框抽样时,本发明根据分层抽样思想设计了两阶段分层的抽样方法。因此,在使用分层抽样时,首先要确定三个基本要素,即抽样框,分层标志以及抽样单元。

由于历史习惯的存在,绝大部分农作物都分布在历年种植农作物的区域,但为了防止较少农作物落在区域之外,保证包含当年所有的冬小麦范围,因此将所有耕地范围均入样建立抽样框。任何合理的单元均可作为抽样单元来构造抽样框,其中包括自然边界构成的地块数据,乡、村等行政边界数据或者规则几何形状的格网数据。

CACVM可以用来定量地描述农作物种植面积的多年波动情况,本研究将历史的CACVM用作一阶段分层的分层标志,这样会保证一阶段分层后层内各抽样单元农作物种植面积在多年历史年份中具有相似的波动性。图1是历史数据的模拟值,如Y1、Y2、Y3分别代表抽样单元在历史年份Y1、Y2与Y3年的农作物种植面积,Mean代表多年种植面 积的平均值,即种植面积的平均规模,CACVM代表种植面积的变化率。R1、R2、…RL分别代表一阶段分层的各层层数,L为一阶段分层的层数,这里L=3,总体为一阶段分层后各层的并集

R=R1∪R2∪...∪Rl

图2为图1数据的分层示意图,图2(a)可以看出历史年份中种植面积波动性相似的抽样单元被划分为一层。从图上可以看出,层内各单元的面积规模仍存在较大的波动性,因此,在每个一阶段分层结果内以面积规模为分层标志进行二阶段分层,Ri1,Ri2...Rim分别代表一阶段分层结果中第i层的二阶段分层结果,m为每个一阶段分层内二阶段分层的层数,这里m=3,每个一次分层结果为其内部二次分层结果的并集,则:

Ri=Ri1∪Ri2∪...∪Rij(i=1,2…l,j=m)

从图2(b)可以得到二阶段分层的层内各单元不仅具有相似的种植面积并且多年的种植规模波动性也相似,可显著提高样本对总体的代表性。

本发明的两阶段分层均采用累计平方根法确定各层的分点,该方法可以使得分层结果较优,层内各方差较小。根据分层标志y的密度函数f(y)开方累计计算分层。将抽样单元按照分层标志分组,计算各组的频率(f)、频率累加值和频率开方 累加,得到分层界线,若一阶段分层个数为L,一阶段分层内部的各个二阶段分层个数为m1,m2...mL,则两阶段分层结束后,总体被划分为 层。

本发明按照比例分配的方法计算各层的样本量,假设将入样总体分成了L层,则各层抽样比计算方法如下:

Σh=1Lnh=n

nhNh=nN=f

其中,N为入样总体的总数,nh为第h层样本量;n为样本总量;Nh为第h层的抽样单元总数;f为抽样比例。

本发明中两阶段分层方法的思想是在一阶段分层的结果的基础上,进一步二阶段抽样,在二阶段分层内进行分层随机抽样。比率估计是一种常见的间接估计方法,与一般的简单估计相比,比率估计法利用了与调查变量相关的辅助变量的有效信息,以达到提高估计的精度的目的。本发明也将比率估计的思想和技术应用于分层随机抽样,用面积 规模作为辅助变量。一般有两种可行的办法,一种是对分层样本分别考虑比估计量,然后对各层的比估计量进行加权平均,此时得到的估计量称为分别估计量;另一种可行的办法是对两个指标分别计算出总体均值或总体总量的分层估计,然后再利用它们的分层估计量来构造比估计,这时所得的估计量称为联合比估计。因为比率估计量是有偏估计量,只有在大样本的情况下,偏倚才趋向于零,所以对于分层随机抽样来说,如果想要采用分别比估计,则同时要求各层的样本量都比较大。由于各层的样本量数量差异较大,不能满足分别比估计的要求,所以试验采用了联合比估计的方法。利用二阶段分层后抽选的样本,计算辅助变量与主变量的比率估计量以及一阶段分层的每层总量,最终总体总量是通过对一阶段分层的每层作物总量求和得到的。

对于分层随机抽样,总体总量的联合比估计计算公式为:

Y^RC=R^CX=ystxstX=Σh=1lWhyhΣh=1lWhxhX

其中:fh为各层抽样比例, Wh为各层权重, 和 分别为总体均值 和辅助变量均值 的分层简单估计量。

附图说明

附图1为两次分层方法模拟值——两阶段分层方法模拟值;

附图2为两次分层抽样方法的示意图——两阶段分层抽样方法的示意图;

附图3为研究区及研究数据类型;

附图4为方法流程图;

附图5为精度评价;

附图6为冬小麦面积的多年统计数据及遥感分类结果;

附图7为冬小麦历史区域统计分析表;

附图8为一次分层结果——两阶段分层结果;

附图9为层内09年与其余年份相关系数表;

附图10为09年种植面积与其余年份相关性;

附图11为精度比较——抽样精度分析。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。

本发明采用的研究数据为:北京市,其位于北纬39°56′,东经116°20′,西北毗邻山西、内蒙古高原,南与华北大平原相接,冬近渤海;总面积为16800km2,其中山区面积10400km2,平原面积6400km2。北京区一共包括有18个区县,其中东南部的通州区,大兴区,顺义区和房山区是四个重要的粮食主产区,也是冬小麦主要的分布地区。本实验以此四个粮食主产区作为实验区,以冬小麦为主要研究对象。本发明所用数据包括,遥感数据、矢量数据、统计数据。具体数据如图3。

本发明的方法流程主要包括以下几个步骤:(1).数据预处理(2).中分辨率遥感影像冬小麦种植面积提取,获得辅助变量的高质量的总体总值;(3).分层标志计算;(4).历史遥感产品用作入样总体和抽样框的合理性研究;(5).分层标志的有效性研究。其具体流程图如图4:

研究使用的遥感数据分别提供2006、2007、2008、2009年的冬小麦种植面积及分布区域。根据冬小麦的物候特点,以及实验区的种植结构,11月至第二年的5月为冬小麦的生长期,因此在次期间的遥感影像可用来准确提取冬小麦种植面积及空间分布。遥感影像都将进行以下预处理:首先,采用ENVI4.4将遥感器获得的辐射亮度DN值转换为反射率值,得到反射率值的TM图像,同样采用ENVI4.4软件对得到的图像进行大气辐射纠正和几何纠正。对得到的所有TM数据和地块数据进行相对配准,TM像元标准误差控制在一个像元之内。

地块数据是根据0.4米高分辨率的航片数据矢量化得到自然边界的耕地地块数据,其大小控制在500*500左右。为了保证入样总体的完备性,本发明根据研究区内耕地地块数据的空间分布,选择所有包含耕地地块的所有地块数据作为入样总体,共计11540个,并以地块数据为抽样单元,构造抽样框。

历年冬小麦种植面积专题数据是本研究的基础,为整个抽样设计提供了入样总体和辅助变量。因此,冬小麦遥感分类越准确,越能真实反映四年间研究区内冬小麦种植的情况。而基于此的历史数据间的相关性分析也越可靠,抽样结果也就越符合研究区的情况。在此,介绍下历史冬小麦种植面积测量结果的生产流程,主要包括2个步骤:首先使用SVM分类法提取冬小麦初步范围,剔除水体、城镇、裸地、林地等典型非小麦区域;然后,根据多年野外调查数据建立解译标志,对以上结果中可能出现的明显错分以及地块边缘破碎部分进行手工修正,得到冬小麦种植范围的最终提取结果。根据以上冬小麦种植面积提取规则分别利用2006年4月,2006年12月2008年3月以及2009年4月四期TM遥感影像,结合耕地地块数据以及统计数据等信息,提取出了2006年、2007年2008以及2009年连续4年的冬小麦种植范围,并对其结果进行了精度评价,如图5。四年的遥感影像均在同样的标准和规则下进行处 理,并且具有相同的分辨率,这样保证了四年分类结果的相对准确性;同时由图3可见各年的冬小麦提取范围的绝对准确性。因此,可以认为提取结果基本满足抽样方法对总体的要求。

图6为北京市冬小麦种植面积的多年历史统计数据和遥感分类结果表,由图6(a)可以看出从1999年到2002年冬小麦种植面积有了较大幅度的下降,之后,其种植面积围绕5万公顷上下波动。研究区冬小麦种植面积占了北京市冬小麦种植面积的80%以上,故北京市冬小麦种植情况可以用来反映研究区冬小麦的情况。另外,分类得到的冬小麦面积如图6(b)中的遥感分类结果表所示。从分类结果看,06、07、08、09年的种植面积呈现出了上升、下降、再上升的波动状态,这与统计数据所表现出来的规律是一致的。由以上分析知,最近5年内,无论从统计数据还是从分类结果来说,北京地区冬小麦的种植情况均发生了比较强烈的变化。本发明以历史遥感数据作为现势抽样的基础,利用多年抽样单元冬小麦种植面积变化率为分层标志,在应用此方法之前,要对此规律进行验证。对四年内种植了冬小麦的地块进行统计,分别以06、07、08和09年为目标,计算各年种植冬小麦的地块在其余年份的冬小麦种植情况,见图7。

由图7可以看出,在种植过冬小麦的地块中,绝大部分的种植概率是相对稳定的,即多年来一直持续种植冬小麦。这些地块的个数分别在2006年、2007年、2008年和2009年占了总数的70.66%,83.45%,75.49%和66.00%,并且这些地块种植的冬小麦的面积分别占各年总面积的87.55%、93.46%,88.68%和82.03%,这说明虽然每年种植冬小麦的总面积值会有所变动,但是种植空间分布是相对稳定的,同时这些稳定的种植区域也是冬小麦的主产区。这不仅进一步表明了历史种植的相关性是存在的,同时也证明了以历史种植范围作为现实的种植范围的参考是可行的。但是,也应该注意到每年都会有小部分的冬小麦种植在往年不种植的地块内,这些地块在4年的比例分别是0.58%,0.21%,0.25%和2.06%。这就要求在利用历史数据进行抽样设计时,必须考虑抽样的完备性特点,将可能种植冬小麦的地块全部包括进来。

本发明以2006、2007和2008年的历史遥感产品数据得到的冬小麦种植面积作为历史数据来估计2009年的冬小麦种植面积,这里使用了3年的历史数据所以CACVM的变化范围为[1,1.414]。在阶段分层中采用累计平方根法分层将抽样层数定为6层,其分层结果如图8。由图可知,分层后历年冬小麦种植面积波动性相近的被划分为一层,即冬小麦种植面积相对稳定并且每年均种的被分为一层,历史多年冬小麦种植面积波动性较大的被分为另外一层如图7,这保证了分层后层内各单元多年种植冬小麦的概率相似。同时,同层内冬小麦种植面积仍然存在较大的波动性,由此可以考虑采用种植面积规模用作分层标志继续分层。

种植面积规模在先前的研究中用作分层标志,已取得较高的分层效率,接下来研究一阶 段分层后各层内2009冬小麦种植面积与其余3年及其3年平均值之间的相关性,其相关性的分析是通过计算泊松相关系数得到的,如图10。由图知,现势冬小麦种植面积与历史种植面积之间在前三层内存在比较强烈的相关性并且前三层的冬小麦种植面积占了总量的70%左右,这为以历史种植面积规模作为分层标志的抽样提供了科学的证明。此外,分析结果还显示出3年的种植面积平均值与第四年的种植面积的相关性要优于某一年与第四年的相关性的特点。虽然也存在个别情况,但是绝大部分情况下均值的表现要好于单个年份的表现。这说明使用历史种植面积的均值(Mean)作为二阶段分层的分层标志比单一年更合理,即便是相邻的两年,它们的相关性也是不稳定的,这也与北京地区的种植面积变化率大的实际情况符合。在每个一次分层结果中,同样采用累计平方根法将Mean作为分层标志进行二阶段分层,同样将层数定为6层,分层结束总体被分为36层。

本发明使用效度来衡量结果的正确性程度,即反映测量的有效性;效度的大小通过估计值与09年真值的差来表示,计算得到的精度为实际精度;实际精度越高则表示效度越高。具体计算过程如下。根据估计值与真值计算抽样的实际精度d,实际精度的计算公式为:

d=1-|Y-Y|Y

式中, 为冬小麦种植面积估计值;Y为09年冬小麦种植面积真值。

为了验证本文TSS方法对面积估计精度提高的有效性,首先将其与无辅助信息下的简单随机(Simple Random,SRS)抽样简单估计进行对比研究,为保证研究结果的有效性,对比所有方法均采用相同的抽样框和入样总体。根据上述抽样设计方案,本发明采用二阶段分层抽样方法对2009年的冬小麦种植面积进行估计,每次抽取样本量分别为1%,2%,3%,4%...10%,对每一种抽样比例下进行了30次抽样实验,并以2009年的遥感冬小麦分类结果作为真值,与每种方案的估计结果进行对比分析。选择每个抽样百分比下的30组实验结果的平均值和标准差与相同实验条件下不采用辅助变量的简单随机抽样对比生成图11(a),由图可以看出发明方法与简单随机抽样相比精度有了明显提高,当抽样比达到4%时,其平均估计精度维持在98%左右,标准差维持在0.01左右。

一阶段分层后各层内的历史种植面积规模与当年种植面积存在较强相关性,现在我们来研究一阶段分层前总体的种植面积规模相关性,同样以地块数据为统计单元,分别将2009年的种植面积与其余三年以及三年的平均值进行回归,计算两者之间的相关系数,得到结果图9。由图可知现势冬小麦种植面积与历史种植面积之间总体便存在较强相关性,由此可以直接用作分层标志。为证明本发明提出的分层指标CACVM对精度提高的贡献性,用TSS抽样结果精度与仅使用Mean一个辅助变量对总体进行分层(Mean stratified sampling,MSS)的结 果精度进行对比分析,得到图11(b),为了保证结果的有效性,两种方法最终被分层数及使用的估计方法均保持一致,由图知,两个辅助变量分层的方法较比仅单使用Mean的分层方法平均精度有了较明显的提高,尤其在抽样比例相对较小时(<4%),抽样比例大于5%后由于样本量已足够大,抽样精度已达到一定程度,精度虽有一定程度提高但不是特别明显。以上分析说明CACVM作为分层标志度抽样效率的提高具有一定的贡献率。

由统计数据以及历史遥感产品数据分类结果可知相对于2007年的冬小麦种植面积,2006年和2008年的冬小麦种植面积与2009年冬小麦种植面积的相似性更强,变化率相对较小。为研究变化率对实验结果的影响,采用与2009年种植面积变化率相对较小的2006年和2008年的历史遥感影像作为辅助变量来估计2009年冬小麦种植面积,得到结果与前面用2006、2007和2008年三年的遥感影像做辅助变量的结果进行比较得到图11(c),图中实线部分代表两年历史遥感影像做辅助变量得到的结果,虚线代表用3年历史遥感影像做辅助变量得到的结果。可见,用种植面积变化率小的历史遥感影像作为辅助变量,能够取得更好的精度。这一方面启示当使用TSS进行农作物种植面积估计时,首先对现势农作物种植状况有一个掌握,根据经验选择与当年种植面积规模相似的历史年份的遥感产品数据作为辅助变量,另一方面也说明,TSS方法若用于农作物种植面积相对稳定的地区时能够取得更好的结果。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号