王驰:用时空大数据解决农业大问题

互联网
阅读:
2019-07-03 16:29:23

6月14日至15日,由泰伯网主办的第七届全球地理信息开发者大会(WGDC 2018),以“空间智能驱动万物互联”为主题,在北京的国家会议中心召开。来自测绘地理信息、人工智能、空间大数据的专家学者、企业代表、高校师生、行业从业者等参加了本次大会,现场人次过万。大会举办了多场行业峰会,展现了大数据与人工智能在地理空间上的各项应用。大会期间还颁发了Best of WGDC奖项。

在本次大会中,大地量子凭借产品“空间数据引擎”,在14日下午获得了Best of WGDC奖的“2018年年度最佳口碑产品奖”。

获奖奖杯

领奖合照,左起第二位是大地量子创始人兼COO吕童博士。大地量子从参与评选的数百家企业中脱颖而出,成为46家获奖企业之一。图片来源:泰伯网

同时,大地量子出席了15日下午的智慧农业峰会,并为大家带来了精彩的演讲,分享了关于目前时空大数据在基于农业又广于农业上的各类应用前景和存在问题。

以下是演讲全文。

  王驰:

尊敬的汪院士、各位前辈、各位专家,大家好!我是王驰,是大地量子的创始人。我们公司是成立于去年年初的创业公司,现在主要做空间大数据应用。公司位于成都,目前是十几个人的规模,其中有5位博士,而我自己在博士期间是做量子计算的。以上是我们公司基本的情况。

今天想在此作一些关于时空大数据结合农业大问题的分享。时空大数据是关于时间和空间的大数据,在座都是专家,我就不再班门弄斧,只是分享一下自己对于这个问题的感受。

  时空大数据最大的问题是“大”

相比于其它大数据比起来,特点是大。例如遥感行业的朋友们会了解到,它每天的新增数据量是20T,每年新增数据量是7PB。7PB是是什么样的概念呢?以家用的100M带宽,要连续下载19年,才把这些数据下载完。然而,这样大的数据并没有很好地利用起来,利用率非常低,这就是时空大数据很大的挑战。光是为了储存这些数据,每年都要买上1000张左右的硬盘。

演讲中的王驰(赵盈 摄)

回顾全球人造卫星,总共发射了963颗。随着美国政策的不断开放,美国FAA预计在未来十年,再发射2619颗卫星,差不多是过去十年的三倍。这意味着,数据质量会不断上升,数据成本会不断下降,也意味着数据总量会大幅度增加。

我们拿着这些数据干什么?怎么做我们想做的事情?

我认为有两点至关重要:

1、算法;好比系统的大脑

2、算力;好比肌肉

算法的创新可以带来更多的应用,比如说可以去监测海浪的能量来帮助潮汐发电站正确的选址;算力则可以让应用得到更好的发展。

  关于算力

在实际应用过程中,会发现算力的提升比算法的创新更困难,且并不意味着多买一些CPU、一些硬盘,就可以提高算力,实际上整个过程相当复杂,而有些时候量变会导致质变。对于我们来讲,要两手抓两手硬——既要在算法上创新,也要在算力上提升,这样才可以拓宽应用面。

举例,我们拿着一个玉米的模型,想要去计算北京周边种了多少玉米,可这样的数据谁会关心?似乎没有人关心北京周边种了多少玉米。但如果把数据扩展到全球或者是中国,像中国种了多少的玉米,或是全球种了多少玉米,这样的问题就有很多公司关心,例如期货、基金、农粮公司。不断提高算力,会带来更大的应用面,而这些应用面在小范围内是无法挖掘到的,这就是量变到质变。

  关于算法

在遥感卫星数据的基础上能开发出很多的算法,有些算法甚至是以前从来没想过的。例如滑雪——通过遥感卫星监测雪的厚度,并把这个数据交给滑雪爱好者,让他们在滑雪前可以先看一下雪场的雪有多厚,帮助他们做出正确的决策。这说起来挺简单的,而实际做起来时,不仅有商业模式的问题,也有技术上的问题。而目前,更多的是技术问题。

庞大的数据量(赵盈 摄)

  从农业延伸更广阔的应用

我们回到农业大问题。遥感在农业中的应用,其实在美国已经做得比较成熟了,特别是美国比较代表性的公司Farmlogs ,基于NDVI指数,在农田领域做得比较成熟,在美国拥有三分之一以上的市场。

而这样的应用场景,中国是否可以复制?从卫星遥感、卫星时空大数据角度而言,它的优势在于大范围地监测、大范围地去回答一些比较大的问题。在农场级别,能做,但不是一个优势点。

可能一提到农业,大家就想到农场,实际上农业并不仅仅停留在农场,农业有很多的产业。

比如,作为一个农场,要采购农药、化肥和种子。我们是否可以把宏观的数据,比如说作物分类的数据提供给这样的农资公司,让他们进行市场决策?买了农资之后,他可能会去贷款,找农村金融、农村信贷,或者是流转土地。而偏金融的行业(在拿到农业相关的宏观数据后)是否可以做一些跟风控相关的东西?比如查看一个农户若干年的种植情况,判断他是否认真种地,从而推断他的信用。

再比如,农场发生灾害之后。大多数农户都购买了农业保险,而农业保险公司要去定损。现在的方法是派人到地里面去,拿着GPS在地里测。那么,这个定损过程能否(通过卫星遥感大数据产品来)减少保险公司的人力?是否可以通过更大范围的数据洞察,帮助再保险更好的服务于农业保险,从而更好的服务农户?

(以上)这些是农场的上游。在(农业)下游,东西种出来之后得卖,卖到哪里去?期货市场就是比较好的利用领域。通过对产量的预测,比如说对全美玉米的产量或大豆产量进行预测,可以很好地帮助期货、基金来预判一些风险。同样,对于大宗贸易商或饲料厂商等会从期货市场购买很多农产品的公司,通过产量预测或者是作物的种植面积,能帮助他们减少一些风险。

比如种植面积,这是我们的一个案例:

作物分类识别案例

通过底层技术结合一些业务逻辑,可以开发出比较有意思的模块。其中一个底层技术是,针对地球上面每一个像素来判断它上面种的是什么作物。这个技术没有我现在说的这么成熟,但它是现在我们研发的方向。如果可以把所有的像素点全部加起来的话,就可以得到美国全国的玉米种植面积。这个种植面积如果可以比美国农业部USDA(United States Department of Agriculture)提前发布的话,那就是对市场而言很有价值的信息。

那么,通过作物识别和作物分类模块,是否也可以结合其它的模块(拓展新的应用领域)?比如通过作物识别,结合卫星来监测洪水。

如果可以把水稻的种植分布和洪水结合起来的话,(这些价值数据)可以提供给农资企业,让他们知道这里水稻受灾之后可能需要补种,是不是要往这些地方销售一些产品;或者提供给保险公司,(让他们)在这些方面进行比较精准的洪水定保。

这是我们想要做的方向和创新,通过底层技术和其它技术结合起来,然后结合业务逻辑,做有意思的事情。

关于算力方面,也有两个比较简单的案例。这是我们处理的10m分辨率的全国耕地分布图:

耕地分布图

在这上面可以在10m分辨率下清楚地看到乡间的小路。中国有19亿亩耕地,每个像素是100平方米,有兴趣可以简单算下需要对多少像素进行计算才可以得到这样一张图。

这是美国地区产量的预测:

做这张图差不多需要处理60亿个像素。即使在里面用到AI的模型,如果一秒钟可以计算一个像素今年的产量是多少,那么对于20多亿个像素,计算时间也会超过60年,这是算力的问题。很多时候,会忽略了算力对于整个空间大数据产业在应用时的重要性。

  归根结底都是技术的问题

回归到时空大数据的应用,我们认为,和用户业务场景、业务逻辑结合过程中,要深入的理解(用户所在的)这个行业——(如何深入另一个行业)这是很大的问题。同样,算法和算力的创新,也是很大的问题。但归根到底,在目前阶段,用户的需求其实是相对比较清晰的。往往很多时候是技术上的无法实现——要么是因为算法做不到,要么因为算力不行,无法做到大规模的实现。目前遇到的问题,归根到底都是技术问题。经常有朋友跟我说,在这个行业市场是需要被教育的,但我并不是这样认为的。我觉得需要被教育的我们自己,我们需要更深入了解行业,以更虔心的研发技术。比如用户提出要95%的精度,我们不可能教育用户说你其实需要90%就行了,(反而是)我们要力争做到95%以上。要在这个行业建立认知,在技术上不停发展的话,我们是为整个行业提供基于时空大数据的基础数据,为其它行业进行赋能,而不是取代其它的行业去做(那些行业)它们本身做的事情。要么帮助他们(其它行业的从业者)做市场的决策,要么增加一种新特性吸引更多的C端用户,要么提供市场的洞察,获取更多的leads。这是时空大数据产业,去做的事情。

以上就是一些不成熟的分享意见,希望各位专家多多指正。