Ming Guo:巨数据和隐私计算是下一代区块链的蓝海应用(二)| 火星技术帖

Cross-Domain 跨域数据是一种很“优质”的多维度价值载体,可以用SSDE里的“可编程价值体”来表达。“巨数据”模式带来的价值会远远超越“大数据”模式所带来的价值。

【摘要】在“大数据”模式下,数据和价值是向心式地向大数据厂商积聚,这是一种中心化的趋势,也是大数据领域垄断现象的根源。数据使用者只为“数据”付费 一次 ;而“巨数据”模式下的数据消费者要为 每次 “隐私计算”付费,数据消费者永远不能得到数据本身,只能获得数据的计算结果,计算是在数据拥有者的计算平台上进行。显然,“巨数据”模式下,数据交易产生的价值至少是N x N这个量级的,个体数据拥有者会获得数量级上更多的价值,从而使得“巨数据”模式可以在经济上有充分的自持力。Cross-Domain 跨域数据是一种很“优质”的多维度价值载体,可以用SSDE里的“可编程价值体”来表达。“巨数据”模式带来的价值会远远超越“大数据”模式所带来的价值。

我们继续讨论。

我们简单回顾一下。什么是“巨数据”呢?它和“大数据”的本质区别是什么? 上回在『巨数据与隐私计算(一)』里我们提到,顾名思义,“巨数据”是比“大数据”多得多的数据,但是也不仅仅是“数据更多”这么简单。这里,我们继续展开,详细探究一下“巨数据”与“大数据”的区别。

首先, 巨数据的来源,不再仅仅是来自于比如剁手电商这些传统网页、APP的离散行为数据,而主要是采集于传感器的,特别是接近人的传感器,例如各种物联网的传感器的连续采样数据。数据流和数据量都在数量级上远远超过现在的“大数据”。 因为在这样巨量的数据和不一样(相较于传统互联网数据)来源的数据面前,传统的“大数据”商业模式和技术架构,已经不能适应了,但这种不适应对创新者来说则是个机会,因为“巨数据”的应用,可以不用去趟“大数据”的护城河。

其实 “巨数据” 除了直观地比”大数据“所处理的数据更多这一点外,还有很重要的一点就是 “本地化” 。这里的“本地化”不仅仅是单纯地指巨数据存储和处理不在传统的数据中心里 例如,数据存储和处理都在数据采集的地方:家居、汽车等;这里说的“本地化”主要是指数据的所有权是本地化的,也就是数据所有权属于个人,而不是互联网巨头。

巨数据的“本地化”场景常常是倒逼出来的,有这么几种情况:

一是 隐私保护需求。由于“巨数据”的数据来源于比“大数据”更接近人的物联网传感器,它们通常都是比传统大数据更加隐私的数据 —— 比如医疗和健康以及更隐私的行为数据。 你也许可以不介意“大数据”厂商收集你的网页浏览或电商数据来变现(并且不分给你),但是你一定会介意、甚至恐惧你的医疗和健康数据被收割。再有, 智能家居和物联网结合产生的数据对你的家庭行为的全天候无死角的实时扫描和观测,比如亚马逊Alexa所收集的声音数据, 你真的不介意被第三方储存甚至分享吗?只要数据上传到数据中心,隐私保护就做不到。 根据墨菲定律,只要数据有泄漏可能,那就一定会有泄漏的那一天,早晚而已。

从这几年的各种数据泄漏案例来看,无论是数据的收集者,处理者和管理者,都无一例外地处于数据泄漏的风险之中,看不出有改善的迹象。其中很多互联网大厂的数据泄漏和滥用事件,只能用前所未有的丑闻这样的语言来形容。他们对用户数据以及用户隐私的肆意滥用,已经到了触目惊心、人神共愤的地步。为什么会这样?从我们之前的讨论大家可以了解到,大数据霸权的生存和商业变现模式就是收割隐私数据,要他们来保护你的隐私,那不就是与虎谋皮,让狼来看守羊群吗?这个问题涉及到和“巨数据”有关的一个重要概念,就是“个人数据主权”,我们随后还会深入讨论。

二是,正是由于 “巨数据”采集的数据量巨大,这些数据的传输和处理通常超出了目前的中心化数据中心的处理能力。例如来自于自动驾驶所需要实时处理的机器学习数据,采集于自动驾驶汽车的各种传感器上,例如实时三维光雷达点阵数据,多摄像头视觉采集数据等 “实时性“的硬要求,给本来已经巨量的数据又加入了一个维度,使得对数据处理的延迟要求非常苛刻,当前的数据中心的数据处理架构不是为处理这种类型的巨量数据  —— ”巨数据“ 所设计的,所以处理这类“巨数据”的数据处理计算设施,只能放置在数据产生的现场,也就是比如自动驾驶汽车上。在这个”巨数据“应用场景里,”巨数据“处理的本地化是由数据处理技术本身的限制(软件、硬件)所达成的。

对比了“巨数据”和现有“大数据”的不同后,我们可以发现,“巨数据”必须采用和“大数据”完全不同甚至相反的应用模式。

“大数据”应用模式通过前端的APP(或网页)提供便利或资源入口,然后通过这个前端吸取用户隐私数据,后端的数据中心里的数据分析引擎加工这些用户的隐私数据,再卖给第三方获取价值收益。以上就是简化版的“大数据加万维网”的应用模式以及基本商业模式,不同的互联网巨头(或准巨头)们不过就是在这个大框架下修改自己的配方参数而已,然后万变不离其宗,就是靠隐私数据来赚钱。在这个商业回路里,用户个人是没有份的,自己的隐私数据被拿走以后,也是没有钱分的。

我们 为“巨数据”所设计的应用和商业模式,也是一个大的总体框架和一些可以带动的mega patterns . 目的在于抛砖引玉,引起大家对这个新兴产业的思考 —— 我们在这里所做的,是范式转移的探索。我们随后还会讨论“巨数据”带来的范式转移的商业和应用模式,以及需要怎样的技术路线(技术路线的讨论估计要放到下一次了)。

前面已经阐释过,在“大数据”应用和商业模式里,我们个人是被多巴胺驱动的产生数据的小白鼠。“大数据”厂商/互联网巨头们的商业模式能否成功的一个重要指标就是看能否高效低成本地聚合大量多巴胺“小白鼠”们的隐私数据 —— 这个指标被称为“流量”。获取流量通常是有成本的,但是这个成本并没有“花在”小白鼠们身上。“大数据”厂商们把流量和加工过的隐私数据卖给第三方,完成商业价值的循环。

在这个商业价值循环圈里,我们发现自然的价值交易发生在个人用户(小白鼠)和购买了流量的第三方商家之间,比如我们剁手时找到的心仪网上店铺。在互联网变成大数据模式的这些年里,很多创业者尝试过建立一个直接跳过“流量平台”把网上直接交易方(剁手网购只是一个例子,交易其实也不一定是网购)联系在一起的“平台”,结果无一例外:要么自己变成和“大数据”厂商一样的大平台,也做起数据生意,要么也加入流量平台贡献流量(没准还有隐私数据)来维持,总之不加入“大数据”体系的一定非常难以自持式地生存下去。曾经流行过的“打赏”模式,在内容分发领域做过很多尝试,但是最后都生存不下去。曾经也有很多区块链项目在这个方面有尝试,把“打赏”变成token,但是token带来的流量是虚假的,因为很多人是冲着token带来的炒作“上车”的“钱”景来的,而不是对内容感兴趣产生的自然价值交换。

所以“巨数据”如果要打破“大数据”的商业价值循环,就要从隐私数据的价值攫取链条入手。

首先要 根据“个人数据主权”来建立个人对隐私数据的所有权。 在数字/虚拟世界里,我们必须明白“隐私权”即“所有权”这个概念。没有隐私就没有一切。特别是没有隐私就没法获取价值。我在之前的直播里说过,数据一旦离开你的个人领域(手机,台式机,家庭网络),除非你能保证数据永远不能被第三方读取,你就实质上失去对该数据的所有权了。所以目前我们被大数据厂商从我们这里拿走的数据,其实已经不属于我们了。很多人呼吁大数据厂商“保护”好用户的隐私数据,那其实是一个伪命题了。因为他们的数据已经脱离用户——即数据的原始生产者和原初拥有者实质上已经不再能控制他(她)们的数据了。这当然不是一个法律问题,因为法律规定数据聚合者要保护用户隐私,但是互联网上,黑客是不受法律制约的。而在高度自动化的数字/虚拟世界里,线下的法律保证是没有工程价值的,如果设计的系统一定会泄漏隐私数据,那么很多应用就跑不起来了,法律保证对此无能为力。

数据所有权的“作用域”是这样定义的:数据的隐私存在于一个“通道”或通道组成的网络里,通道可以有多个节点,这些节点都是数据的共同拥有者。通道或通道网络节点只有一个的特殊情况,就是我们完全个人拥有数据(个人隐私数据)。对隐私的保护,就是对通道或通道网络的隐私保护。例如,两个节点的通道的隐私保护,就是对点对点通信的通道隐私保护。拥有隐私保护的通道或通道网络,就是数据所有者,可以成为价值输送(包括交易)的单位和对象。

在“巨数据”商业应用模式里,我们关心的是价值从哪里来,到哪里去,因为这个问题关系到“巨数据”模式的存亡。我们来看看,“巨数据”在这个方面是如何与“大数据”的多巴胺盗割用户隐私数据牟利不同的:在“大数据”模式下,数据从用户到大数据厂商,价值从第三方到大数据厂商,但是数据产生的价值不会回返给用户。我们看到,价值是向心式地向大数据厂商积聚,这是一种中心化的趋势,这也是大数据领域垄断现象的根源。当然,这也是我们所在的“资源绑定信用经济体”时代的普遍现象。

那么“巨数据”的价值流向呢?数据的第三方需要到拥有数据的所有者那里直接购买数据,而且用一次就要买一次。很明显,在这个体系里,大数据厂商基本上没有存在的必要了,整个网络的价值流向也是去中心化的,没有明显的价值聚合中心。这个模式可以自持的一个原因是,数据的价值被充分利用了:原先的“大数据”网路的价值是近乎一次性的N(一个大数据中心从N个数据拥有者采集数据,所以全部数据的价值~N),因为没有隐私保护的数据也就只能卖一次,所以我们可以看出,大数据对数据价值的挖掘是非常浪费和低效的。在“大数据”模式下,即使大数据厂商愿意给提供数据的用户们“分红”,每个人又能分到多少呢?所以在这个“资源绑定”的中心化的大数据模式下,即使把数据产生的价值再分配给个体数据产生者,也不能产生足够的经济激励让这个“社会主义”的大数据模式持续下去。

然而“巨数据”的价值模式下,个人或隐私通道或隐私通道网络的数据可以卖很多次,因为数据消费者必须为每一次的数据请求API调用付费。这里还有一个重要区分就是,大数据模式下,数据使用者是为“数据”付费,那么得到数据以后就不必为同样的数据付费了(数据只能卖一次);而“巨数据”模式下的数据消费者是为一次“隐私计算”付费,数据消费者永远不能得到数据本身(这是“个人数据主权”要求的),只能获得数据的计算结果,计算本身也不是在数据消费者(请求者)的计算中心里进行,而是在数据拥有者的计算平台上进行的。显然,“巨数据”模式下,数据交易产生的价值至少是N x N这个量级的,所以在“巨数据”模式下,个体数据拥有者会获得数量级上更多的价值,从而使得“巨数据”模式可以在经济上有充分的自持力。

细心的朋友们可能发现了,这里有一个caveat,就是简单的“巨数据”隐私保护机制杜绝了“大数据”模式下因为没有数据的隐私保护从而使得数据只能在全网卖一次的情况(这个“卖一次”是一种概念上的描述,是全网信息交换充分情况下发生的;但是一般全网信息交换是不充分的,所以“大数据”的无隐私保护数据也是可以卖多于一次的;但是我们的推论仍然成立,就是“巨数据”模式下隐私保护数据的价值远远大于“大数据”模式下非隐私保护数据的价值),然而同一个数据买家对同一个有隐私保护的数据进行的“隐私计算”请求毕竟是有限的,所以我们的“巨数据”模式下同一个被隐私保护的数据可以通过“隐私计算”请求获取的价值也是有一个上限的。

上面这个情况,即“巨数据”模式下隐私保护数据的价值远远大于“大数据”模式下非隐私保护数据的价值,隐私保护的数据可以卖很多次的现象,可以做为我们从“大数据”模式转向“巨数据”模式的一个“红利”吧。

但是“红利”之后,“巨数据”模式仍然还有巨大的发展潜力!如果“巨数据”模式只是带来对现有数据的深度挖掘而不是释放出“大数据”模式完全没有的新的数据应用模式,那我们做为“创新者”是不会满足的。

这个在原来的“大数据”模式下没有的(或者极弱的)新的数据应用模式就是—— Cross-domain 跨域数据应用 。 这是一种 只有在“巨数据”模式下才能充分发展的数据应用模式。简单地说,就是聚合不同领域的数据一起进行计算所引导的商业应用。当然,这里所说的计算也必须是“隐私计算“。

我来举个例子。

比如你想从“饿了么”或者“美团”订购一个蛋糕。但是你有糖尿病,希望蛋糕无糖并且能选择自己喜欢的无糖口味,但是你又不想让商家知道你有糖尿病。经过我们前面有关数据隐私保护的讨论,我们知道,数据一旦没有隐私保护,泄漏就是几乎一定会发生的事(保险公司很容易买到你的无隐私保护数据)。然后还有一点,如果这一切都能自动化多好啊,如果有一个应用可以从你的医疗数据里拿到你的准确的糖尿病以及其他健康信息,然后自动在外卖点单的时候对食物和烹饪进行调整(比如除了糖以外,你还有乳酸不耐,那么奶油也要换成植物奶油),这会产生多么强大的应用!但是现在我们知道,这样的应用基本上在“大数据”模式下是不可能的。“大数据”模式下各个大数据厂商就是一座座漂浮在无数护城河之间的“数据”孤岛,因为“数据”就是钱,没有人有动力去拆除自己的护城河。不仅如此,大数据厂商有很大动力加深他们的“护城河”以及“数据黑洞”,典型的例子比如推特这些年来逐渐关闭限制外部开发商对自己数据的访问。这不仅仅是“大数据”模式的问题,也是整个我们现在的“资源绑定信用经济体”的问题。

然而 “巨数据”加“隐私计算”的数据应用模式非常适合做cross-domain跨域数据应用。“隐私计算”带来的数据隐私保护模式下,上述所有的数据请求者(购买者)都不知道具体的隐私数据, 所以上述的蛋糕你可以得到,并且你的隐私也不会泄漏。当然了,这个“巨数据”商业模式里也有很多创新需要完成,比如外卖蛋糕生产者的生产过程也应该是有隐私保护的。但不管怎么说,“隐私计算”可以助力很多现在不存在的cross-domain跨域数据应用。

我们前面讲过, 仅仅把现有的数据应用模式从“大数据”转向“巨数据”和“隐私计算”我们就可以获得加倍的数据价值“红利”,现在cross-domain跨域应用更可以带来前所未有的指数级的数据应用价值增长! 且听我来分析。之前讲到过,同一个数据在“巨数据”模式下可以被卖很多次,不过总是有限的。 在cross-domain跨域应用里,用一个数据可以和更多的跨域数据进行“隐私计算”,由于加入了新的跨域数据一起参与计算,同一个数据的可隐私计算的次数将会大的增加,那么每次隐私计算产生的价值也会大大的增加 这也是为什么“巨数据”模式带来的价值会远远超越“大数据”模式所带来的价值的原因。 (补充说明一下,非跨域的“隐私计算”也是可以有很多其他参数参与计算的,但是都来自于一个领域,比如数据计算请求者的领域)

我们可以看到,“巨数据”cross-domain跨域“隐私计算”可以带来比“大数据”模式下更多的价值。然而这里还有一个问题,就是我们现在这个时代 —— “资源绑定信用经济体”对“价值”的定义是很狭隘的, 更多的数据计算的“价值”,显然包含了很多资源绑定信用价值之外的维度的“价值”,而这些价值如何成为真正的价值,是我们必须考虑的问题 否则,我么的“巨数据”模式的增长会被我们现在这个落后的经济体所限制住,不能发挥出它的潜能。

那么怎么样来“抓住”上面说的“巨数据”cross-domain跨域所产生的“价值”呢?我们发现 cross-domain跨域数据是一种很“优质”的多维度价值载体,可以用SSDE里的“可编程价值体”来表达。 这样一来,我们可以很方便地 把“巨数据”数据应用模式直接升级成SSDE的新价值模式, 那么我们之前所分析的 “巨数据”模式产生的比“大数据”多得多的价值就可以直接在一个新的经济体里体现出来,由于SSDE可以被认为是下一代的升级版“区块链”经济体,我们也就可以说,“巨数据”可以承载起下一代区块链的蓝海应用。

让我们扬帆出发吧!

本次直播到此结束。今天主要讨论的是经济、商业应用的范畴,下一次我们会进一步讨论 “巨数据”+“隐私计算”+SSDE+“可编程价值体”的技术路线和架构, 敬请关注。

(未完待续)

特别鸣谢赞助和主办机构【Soteria社区】、【金色财经】、【魔笛手技术开发社区】、以下参与本次直播的社群 (排名不分先后) 和所有参与讨论及关注的群友。

- Soteria SSDE 开发社区(主播群)

- Soteria 硬核科技社区

- 魔笛手技术开发社区

- 数字万物讨论群

- 盗火者区块链应用联盟

- 7月线下线上交流学习社群

- 美加中区块链研讨会blockchain

- 加密数字货币与区块链生态系统

- 清华校友区块链技术探索者

- 区块链那些事

- Defi 研究院 成都

- 龙珠区块链社区

- 世界区块链经济共同体总群

- 区块链TIX&TXT道场

- 区块链精英研习社

- HIT数字经济&区块链技术研究院

- Metamask中文社区

- 思宇认可和欣赏的朋友群

- 行链官方总群

- 港漂數字貨幣興趣愛好群

- 区块链世界 BlockchainPlus

- 量子计算 人工智能 区块链 00003

- 西电区块链兴趣组

我来评几句
登录后评论

已发表评论数()

相关站点

+订阅
热门文章