记者 商灏 北京报道
从IT到DT,技术的发展使人类真正有了预测未来的基础能力。中国数据分析技术的市场据预测将从2015年的45亿美元增长到2022年的368.6亿美元。在行业应用分布上,政府、银行、零售业是大数据分析市场最大的用户 。
在互联网和大数据时代,人类所有行为包括思想都会被记录下来并存储成数据,它是真实世界和虚拟世界之间的映射,构成了另一个世界,而且根据国家统计局信息,诺贝尔经济学奖获得者均有深厚统计学分析背景——即大数据分析背景。
数据是灵性和理性的结合,在当今世界海量数据是第一位资源,对于数据的发展和规划,反映出国家、行业和思想界的路径方法。从中央政府最近发布的《促进大数据发展行动纲要》来看,大数据的发展战略已被纳入到国家级和经济策略级的发展中,也被看做以市场作为资源配置的决定性因素,数据技术、产业发展必将促进中国从IT到DT的发展,加速中国经济转型的过程。
全球科技创新趋势正在发生巨变。大数据是人类社会的第一资源,对这一资源的有效利用和加工再生产,必将会对社会经济发展起到极大的推动作用,进而使人类可以更理性地分析世界、预知世界、应对未来,中国已经在大数据领域以后发优势的态势走到世界的前列,继续坚持下去,中国将会执世界经济发展之牛耳!那么大数据又将如何帮助改变企业、国家间的竞争格局?中国在基础领域及数据库研发领域最主要问题是什么?政策层面应如何加以引导解决这些问题?
《华夏时报》记者新近约请柏睿数据科技有限公司董事长兼CTO刘睿民接受专访,深入阐述相关问题。
曾任多家世界级跨国IT公司大中国区及亚太高管的柏睿数据公司创始人刘睿民,曾在国内上市公司华胜天成担任CTO,归国前在硅谷Tandem公司师从图灵奖大神级得主Jim Gray,共同参与过Tandem NonStop SQL/MP的内核编写。据业界权威人士介绍,Tandem公司的MPP分布式数据库迄今为止依然在欧美的高端市场傲视群雄。
刘睿民认为,大数据时代的国家竞争发展优势,就是对海量数据进行分析,让数据变成对社会有价值的产品。目前中国虽初步具有这种能力,但空间还很巨大,因此刘睿民建议,政府决策部门应紧急设立首席数据官,这将有助于国家宏观战略决策中,各种数据不协调造成的应用管理中诸多问题获得解决。
大数据VS人与社会与国家
《华夏时报》:学术界有句话叫“透过数据看本质”,我们看到,包括您在内,当今海内外的学者正在以空前的热情投入用大数据研究和解决中国问题的事业中来,这一趋势所反映的本质是什么?
刘睿民:大数据产业其实是国家软实力的重要体现,记得我们从事大数据研究项目最早的一个案子,来自于传统制造业,时间大概在一年半以前。当时我们觉得很奇怪,制造业为何对大数据如此感兴趣?尽管那时大家都觉得制造业似乎在走下坡路,但制造业是真正的实业,由于其利润薄、生产效率相对较低,因此需要考虑如何从中国制造转向中国智造的产业转型问题。而所有产业转型都必须建立在对各类数据的精确管理上,数据最后会体现出产业增长和精细化管理的整体面貌。
从工厂管理到城市管理再到国家管理,都要靠数据来说话,都要根据数据所说的话来加以调整。比如国家统计局依据传统统计科学统计各种经济增长数据,如果与大数据管理方法结合起来,则其统计结果就能帮助人们更深入、更实时交互地了解或判断当前经济真实状况,甚至帮助人们预测未来的经济变化趋势。
再比如过去一向很保守的传统金融业,在遭受了互联网金融的刺激之后,其数据量开始变得很庞大,这引发了监管难题。尤其对于P2P,其所有交易都是多点对多点交易,监管难度很大。所以,一个需要清晰认识的问题是,如何通过数据管理这些经营活动?
在国家治理层面,决策者所看到的,可能是如何通过数据管理国家的问题。
透过数据看本质,我们所看到的都是从宏观到微观的一系列需要以数据来支持和帮助人们解决的问题。
《华夏时报》:大数据将如何改变人和社会的思维?改变企业、国家间的竞争格局?
刘睿民:上世纪90年代我在美国从事大数据研究工作,有机会接触到技术上通常比较超前的美国军方的一些项目,这包括无人自动驾驶技术、舆情监控技术、欺诈检测技术等。当互联网数据爆发之后,许多原先属于军用的技术渐渐变成了普通的民用技术,被运用于企业或国家间的经济发展竞争之中。最早出现的舆情监控技术,现在就已被许多地方政府普遍运用,并且下一步,舆情监控技术将会有进一步发展,变得可以引导舆情走向。较早被银行使用的欺诈检测技术,现在已经在制造业得到广泛使用。
数据可能会泄露,也可能会透过某种方式渗透进入网络中,可以通过排序、机器学习,通过人工干预的半监督学习、深度学习,拼凑出某种完整图景,以探索出并固定住某种经验。人类过去从没做到这一点。机器累积的这种认知能力,将大为提升人类使用知识的能力。
比如天气APP与地理APP的整合,就可能精确地告诉人类在某种天气形势下某些地区的某些状况会出现什么样的变化几率。这也就是说,过去靠人的经验判断的变化,今后可以由机器帮助人类做出更精确判断。这可能将从根本上改变人类的思维习惯。
《华夏时报》:如果大数据的核心就是预测,它能预测些什么?
刘睿民:所谓预测,正如刚才所言,只是将不同的人对一些特别环境的感受、判断等数字化之后,通过各种APP加以搜集并放入数据库,再进行检索、分类,以及监督学习算法、学习处理模板,和通过半监督学习对监督学习模板进行校正——大约就是这样的一种原理。但其所有的步骤都涉及到不同算法,比如排序、分类、聚类,以及深度学习算法等。这些算法在上世纪八十年代都已出现,但至今并未有突破性进展,并未发生质变,而只是量变,是在广度上发生了变化。不同维度上的数据量的增加,产生了不同的聚合,现在很多深度学习的算法与高性能计算中所用到的算法并无二致。而高性能计算中所用到的数据过去就已经很大。所不同的是,一个用在科研上,一个用在生活中。
大数据的预测,并非是指其能准确的看到未来,而是指其判断结果可能更接近实际值。
《华夏时报》:通过大数据管理有无可能看到竞争的对方将来的预定发展策略?
刘睿民:完全有这种可能。在算法不变的前提下,收集的竞争对手行为特征如果从10个扩大到10万个,且具备分析这10万个行为特征的计算能力,则分析的结果就可能很接近实际的情况。据此,就可做些推演,设想将会出现的变化,再根据算法做些调优,就确实有可能预料到对方所出的牌。但这更多只能算是一种推演,而不能算是预测。预测是按照某种路径推论,而推演则可能有若干个路径。但二者导致的结果都尚不具备唯一性。
美国大数据管理在算法、计算能力、模式创新等方面都要比中国走得快许多,这首先是因为美国在数据库方面已有很多年积累,中国的大数据积累只是从上世纪九十年代才开始启动,这两年才真正热起来。像Hadoop、spark等一些关键技术,我在2005年的时候才听到国内有提起。
《华夏时报》:中国在大数据管理方面如此落后,会否在国际竞争战略上有所体现?
刘睿民:现在我们的竞争战略可能更多的是靠人、靠传统智慧来做分析判断和设计,靠数据说话的程度可能并不很多。但这方面应该只比美国差,比俄日、比英法德应该并不差。
《华夏时报》:由此来看,是否可以说,在中国人还没出招的时候,美国人已经知道中国人大约会出什么招?
刘睿民:这种危险性可能真的存在,却可能未必被真正清醒意识到。仅从经济学角度看,美国获得诺奖的几位计量经济学家,包括他们的学生,这些人当中很多原来都是学数学的,之后形成芝加哥学派,其中一些人去了华尔街做对冲基金,也有的去美国财政部任职,参与政策制定。这些人长期被数据所熏陶。
美联储采取加息之类的政策之前,相信更多会采取计量经济学上的一些方法论并结合大数据再做出判断。
《华夏时报》:根据IDC的预测,经济高速发展下的中国产生全球21%的数据,其比重已远超中国人口占全球的比重,这是些什么样的数据?对其应用价值可以做怎样的评估?
刘睿民:这一数据似乎有些保守。中国是个跳跃式发展的国家,而且一步就跳跃到互联网发展时代。所以,中国巨大的人口基数使得中国产生的数据量可能占全球的25%到30%。
这些数据专业术语称之为结构化数据或非结构化数据,通常以字节有无规律可循来划分。从这些数据中可以判断出各种行为取向,据此可以发现各种商业价值。从国家间竞争或社会治理角度看,甚至据此可以对某个人建立一个有关其行为习惯的数据信息库,从而推演出其行为的倾向性特征。
《华夏时报》:大数据的另一面是什么?比如对数据的垄断,形成某种监控,它会否造成严重的社会问题甚至国家治理层面的问题?大数据最终会否成为人类的敌人?
刘睿民:软件业的人都知道,没有人写软件没有bug。这个bug到底会出现在哪里?如果只是通过数据去启动软件,并与武器结合,确实不太容易控制,也确实对人类很有危险,但目前还没有到危害人类的阶段。大数据更多的只是一种算法的判断,并停留在有点接近于人类思维的模板上面,并没有跨越到自己去思维的程度。
至于超算,它是一种更高级的计算,但在超算的竞争层面,这么多年也尚未出现实质性突破,尚未出现一种能够颠覆整个游戏规则的算法。大数据的深度学习算法,应该与超算结合起来。我们正在与一些研究机构建立这样的联合实验室,试图将深度学习上的一些研究成果与实际案例中的问题结合起来,使深度学习的一些算法更加实用。
比如对于最近人民币汇率的急剧变动,国内采用了一些非常手段加以控制,以传统智慧见招拆招,而非通过大数据管理提出应对举措。
大数据的商业价值
及其应用技术竞争
《华夏时报》:大数据现在热得发烫,大数据运用业已上升为国家战略,这被认为是大数据企业难得的战略机遇,大数据产业将大繁荣、大发展,中国社会将进入大数据时代。但实际很多企业尚未找到利用大数据创新、创业的“门道”。大数据在中国究竟如何真正产生巨大商业价值?
刘睿民:对于大数据,现在出现一众围观的现象,所有的人都在谈大数据,好像连云计算都不太谈了。这一方面是由于云计算竞争比较激烈,另一方面我们也看到,很多原来做软件的人,都给自己戴上大数据的头冠。
但在数据领域中国落后很多的原因,是企业也好政府也好往往都被话题引导,而没有扎扎实实做一些事情。所以我们一上来就做基础软件。2014年我拿出了第一个大数据的国产数据库。
大数据创新更多体现在基础软件层面,体现在数据处理和深度学习方面。而中国与美国的差距正体现在这些领域。
差距还体现在大学教育方面。美国很多著名大学开设数据库专业课程,中国在这方面很欠缺。
中国在大数据方面存在的欠缺,恰是一种价值洼地,能产生巨大的商业价值。
长远来看,政府和企业今后更多的是要做一些基础性工作。热潮总是要退却,到一定程度,还要去伪存真,最终看基础是否扎实,因此要多借助开源的东西,但开源的东西并不能解决所有的问题。比如中国大陆之前做linux没能成功,因为开源更多的是一种生态,围绕其周边有很多深入开发商业软件的公司。甲骨文公司最早的数据库软件也吸收了开源很多东西,最终它成为了商业数据库软件巨头。这值得我们借鉴。
如何在当今数据大爆发时代使自己有一个好的定位,政府如何引导开发大数据商业价值,都是值得深入思考的问题。
《华夏时报》:柏睿数据在国内首创的MPP内存数据仓库被认为是中国数据仓库领域的“诺曼底反攻”,并且最近完成接近千万美元级融资。柏睿数据前不久还获得“2015年度中国软件和信息服务大数据领域最佳产品奖”,并且据悉柏睿数据被授权撰写了数据库国家级标准。为什么柏睿数据这么“火”?
刘睿民:媒体所称中国数据仓库领域的“诺曼底反攻”,并不算夸张。中国大陆做分布式数据库的人很少,而做内存式数据库的几乎根本就没有。上世纪九十年代中期以后,中国大陆数据库行业一直为美、德等国外厂商所垄断。当时中国本土众多软件公司所追求的,可能更多的是短期效益,而不愿挣数据库这样的慢钱。再加上数据库本身技术标准严苛,对算法稳定性要求很高,实现难度较大,是一种慢工出细活的领域,中国公司如果起步晚,积累少,肯定就会显得落后,所以这种支撑大数据核心发展的基础技术需要国家的大力支持。
现在大数据时代到来,数据大暴涨,人们对数据的要求也越来越高,势不可挡。甚至房地产商做所谓场景消费也需要用到大数据,这是以前所无法想象。当今人的互联、物的互联正在不断加强,而工业4.0,中国智造,也都是充分条件,大数据即将时势造英雄,也是柏睿数据的流数据库走上台面的良好时机。
两年之前我即开始启动流数据库的研究,那时国内还没有人提这项研究。因为时势都未到,但它所发生的必要条件均已具备。今后将要充分发挥这些必要条件。中美专家包括中国工信部专家都对于流数据库在中国国内出现感到惊讶。柏睿数据撰写的数据库标准已被认定为中国国家级标准,受到国内外同行的充分肯定。