DT 时代“数据即资产”的概念深入人心,拥有高价值数据源的企业在大数据产业链中占有至关重要的核心地位。“巧妇难为无米之炊”,大数据产业链发展后期,当整个产业链条逐渐打通拓宽,成熟的大数据生态形成之后,拥有数据源的企业将掌控数据链上游核心资源,并有望通过数据直接变现迎来历史发展机遇。
中国大数据资源丰富,挑战和机遇并存
发达国家认识到大数据的重要意义,纷纷将开发运用大数据作为 夺取新一轮互联网信息化竞争制高点的重要抓手。美国 2012 年出台《大数据的研究和发展计划》,将大数据上升为事关国家核心竞争力的国家战略,这是继“信息高速公路计划”之后在信息科学领域的又一重大计划,投资 2 亿多美元启动该计划。
中国拥有全球第一的人口数、互联网用户数和移动互联网用户数,大数据应用前景广阔,成为全球最重要的大数据市场之一,已经成为名副其实的“世界数据中心”,中国大数据“金矿”的价值和规模都是其它国家所不能比的。
首先,巨大的数据资源带来黄金发展机遇( Opportunities)意味着巨大的财富,变现潜力巨大。我国信息产业目前依然维持高增长,大数据商业价值日益深入人心,大数据资源的变现能在民生、生产、生活等众多领域造福国民,创造巨大价值。
其次,我国目前的大数据数据资源依然存在诸多不足( Weaknesses)。由于我国大数据相较于美国等西方发达国家起步较晚,大数据基础设施建设依然处于初级阶段,因此数据的收集、存储以及即时性分析都还存在着诸多不足。我国的数据资源丰富,但分布比较分散,往往跨行业跨区域存在。如何将各种分散的数据资源整合起来, 避免有价值数据的丢弃,让它们得到充分、有效的利用,这是大数据市场发展的重要问题。
第三,我国大数据资源上存在巨大优势。首先,我国大数据资源丰富,已经成为全球最重要大数据市场之一,创造的数据规模远超其他国家,为中国大数据产业提供了丰富资源。另外,目前为止中国的企业信息化建设时间不长,IT 架构相对简单,便于新技术、新解决方案的推广和应用。随着云计算建设的深入,用户会逐渐看到新技术给他们带来的价值,这有利于大数据理念的推广,更有利于及早地完善大数据采集阶段,避免有价值的数据流失。
最后,海量的数据管理难度巨大,也给数据安全提出了更高的要求。 大数据孕育着很多商机,如何在商业化的过程中既保证个性化,又保护隐私这是一个对立的问题,给开发者提出很大挑战。利用大数据获取商机显然十分重要,但如何防止这些数据被过度泛滥、被公开和被不法分子利用,则是大数据发展过程中必须思考的新课题。
大数据资源获取难度不一,与价值密度成正比
数据资源随着互联网以及信息化的快速发展而继续高歌猛进,数据量和数据类型都继续高速增长。 DT 时代,基本上所有的企业、机构甚至每个个体都在不断的产生有价值数据。但是,需要注意的是数据资源所蕴含的价值不尽相同。同时,根据我们前期的调研结果来看,数据资源的获取程度与数据本身所蕴含的价值密度成正比。我们选取互联网数据、运营商数据和社保数据来进行具体分析说明。
互联网大数据:互联网厂商数据基本上是目前最容易获取到的数据,我们调研了解到一般互联网厂商已经开始意识到大数据所能带来的巨大价值,同时由于处于信息技术前沿,因此对于数据交换、共享、合作持非常开放的合作态度。但是,由于互联网数据分散、用户多样以及存在一定的匿名性等原因,互联网数据的数据价值较低,目前来看最主流的应用依然主要集中在大数据营销上面。
同时,由于数据密度较低,只有大型互联网企业拥有相当体量的数据量才能引领互联网大数据,其中我们熟知的 BAT 都是凭借多年海量数据积累才因此具备大数据资源对内对外应用实力。
运营商大数据:运营商凭借所处的数据交换中心地位,能搜集到与用户息息相关的最有价值、更为准确的数据,包括:地理位臵、商业活动、搜索历史、社交网络等,其 DT 时代的战略地位是 BAT 等互联网巨头所无法企及的。
再者,电信大数据天然具有用户最为相关的信息,在国家力推用户实名制后,电信数据更准确的涵盖了用户方方面面真实且完整的信息。受益于移动终端数量的快速普及以及移动用户数量的大幅增长,运营商多年来已形成有效的用户大数据。虽然目前运营商为摆脱“增量不增收” 以及在互联网厂商进军 OTT而被管道化困境,大数据的出现为电信行业带来了新一轮的技术革命。
有关大数据在技术、应用和商业模式的讨论在多个层面展开,大数据已经成为电信行业未来发展的重要支撑之一。但是,运营商的数据所有权界定不明,同时基于用户隐私保护等原因,运营商的数据在应用上特别是对外合作上面困难重重,运营商非敏感数据获取据调研需要平均花费半年到一年的审批时间。
数据的开放共享是大势所趋,我们已经看到了运营商大数据在不涉及具体用户隐私的应用实例,以中国联通为例:
截止到 2015 年底,联通大数据体系共涵盖了 3,000 余个用户标签,能够轻松识别 3.8 亿条 URL、 6 万个互联网产品、约 3,000 个手机品牌、 8.2 万个终端型号,并已逐步在风险控制、金融服务、快消品、终端、汽车、旅游等细分领域实现了行业的创新应用。
2015 年高通通过联通提供的数据量化分析,不但能够更准确的了解手机市场的发展规律,将各种数据、指标和信息的不同指数进行量化,还能够找出数据背后的信息,并构建有效的量化分析体系,将数据真正变为对企业决策有用的信息,让他们对移动终端市场的发展不仅做到了知其然,也做到了知其所以然。
36 氪则是通过中国联通提供的用户的画像数据,用户的活跃数据,统一的用标准化处理的方式,处理成人工能够直接理解,通过机器能够处理的纬度,再输入到机器学习的模型中去,最终得到用于判断一个公司的发展趋势和爆发力的指数,来帮助他们完成潜力公司的挖掘,也帮助投资者更好的量化评估一个企业。
作为大数据的拥有者,运营商更应该承担其相应的责任,在确保客户信息安全的条件下,通过开放共享的方式,积极参与大数据生态体系的建立,通过创造大数据价值应用,有效地连接个人,企业和政府,让大数据真正服务于社会。
社保大数据:关系每一个个体,不仅具有实名的特点,更是涵盖了个人在社会上面的几乎所有有价值的信息,社保卡涵盖持卡人姓名、性别、公民身份证号码、相片等基本信息,卡内还标识了持卡人个人状态,可以记录持卡人社会保险缴费情况、养老保险个人账户信息、医疗保险个人账户信息、职业资格和技能、就业经历、工伤及职业病伤残程度等。
社保信息在金融、营销、医疗、保险等行业的巨大价值不言而喻,但是由于这些信息过于敏感同时归属于国家和个人,如何获取信息并在不触碰个人隐私的情况下用好这些数据依然是个难题。
由于我国的社会保障制度建立时间不长,制度本身又是采取分人群设计、分部门管理、分地区实施,同时各部门大多实行封闭监管模式,彼此之间管理信息不能有效共享,数据、凭证传递不及时,各方账目、数据常有出入,造成社会保障信息管理协调难度加大。
另外,我国现在的社保数据依然是各个省市分而治之,信息孤岛的情况依然存在,如果一个企业希望获得覆盖足够广的社保数据,就必须和每一个省市的相关单位机关进行沟通,这一公关成本将会非常巨大,获取信息的难度也是极高。但是,我们看到相关的政策已经在推进社保等民生数据的开放共享上面的努力。
2015 年,国务院通过通过《关于促进大数据发展的行动纲要》,要推动政府信息系统和公共数据互联共享,消除信息孤岛,加快整合各类政府信息平台,避免重复建设和数据“打架” ,增强政府公信力,促进社会信用体系建设。优先推动交通、医疗、就业、社保等民生领域政府数据向社会开放,在城市建设、社会救助、质量安全、社区服务等方面开展大数据应用示范,提高社会治理水平。
数据价值的提现不经在于数据量“大” 更需要数据覆盖范围大,只有将足够多的来自于各方面的数据集中到一起才能更彻底的发挥大数据的威力,才能更精准的进行用户画像。各类大数据的聚集不仅能带来大数据量的增加,更重要的是全面的数据将会带来质变,将大数据挖掘过程放到更大的处理环境,新的洞察数量/质量都将呈指数级增长,从而会进一步巩固大数据的核心价值。
因此,我们认为在数据变现通道打通,大数据应用加速的情况下,大数据资源所占据的行业制高点的位臵将得以巩固和加强。同时,全面数据的的共享、共通将会有助大数据资源价值的急剧增加。同时,掌握数据资源的企业和机构将面临日益降低的数据变现门槛,同时随着技术的进步,数据价值的挖掘将会变得更加彻底,届时大数据资源所有者将真正掌握产业链价值流动。
我们认为,大数据工具和分析方法的完善和演进在大数据产业链发展初期建设阶段十分重要。类比于电信网络的发展,同样网络硬件的铺设以及通信技术的发展在早期占据着产业链核心位臵。但是,随着网络覆盖接近完成,通信带宽的进一步增加,硬件网络及通信的价值却不见明显增长却直接带来了移动互联网及网络相关应用的大繁荣时代。
我们判断在目前大数据产业的建设阶段,大数据底层设施到数据分析作为信息变现通道将继续加强建设得到拓宽,因此依然具有较大价值。随着大数据生态的逐渐成熟,大数据底层分析将会向着工具化、管道化的角色发展,从而引导产业链价值加速流动到数据源以及数据应用端,数据源以及数据应用将会在不远的未来迎来繁荣时代。
正视产业发展问题领先布局,抓住大数据应用爆发新机遇
虽然大数据变现通道已经初步形成,大数据生态在经过几年飞速建设之后依然处于初级阶段。我们认为,在大数据产业继续完善这一阶段,产业发展依然存在许多痛点。目前, 市场上近乎所有大数据企业和客户都面临一个难题,由于外部数据质量、企业用户数据敏感度、企业管理方式、商业数据人才等问题,数据解决方案同客户业务结合的深度不够,数据对业务整体推动效果不如期望。大大数据企业如果想发展壮大并成为行业领先的企业,其必须放弃短期利益,深入到客户的运营中去,了解客户的数据、业务、商业需求。
再者, 数据和业务深度结合的核心是掌握正确的数据、正确的方法、正确的工具。业务人员要懂数据,技术人员要懂业务。复合型数据人才是数据生意的关键, 业务人员掌握数据技术的门槛较高,但是技术人员了解业务的门槛很低,复合性人才倾向于从技术人才培养开始。
企业内部的数据人才和大数据企业的数据人才需要互相学习,了解对方环境和需求,在同一个平台上进行对话和沟通。数据团队需要深入了解业务场景和背后的规律,从业务出发,从场景出发,从数据出发,将大数据解决方案同业务深度结合,利用数据推动业务发展,发挥大数据预测规律的核心价值。
在大数据应用加速爆发前夜,大数据资源战略资产地位将确立之前,阻碍大数据生态良性发展的痛点需要先得到解决。 因此, 市场需求反过来为大数据产业带来新机遇,解决行业痛点助力大数据产业的加速发展,有望迎大数据产业爆发前最后一波机会。 我们下面结合行业的几大痛点或缺陷,重点分析大数据产业链未来依然存在的巨大机遇。
垂直化行业应用相对缺失,大数据+行业理解开创新机遇
大数据发展至今,大数据软件和分析的发展目标一直都是为了尽量支持多的需求,所以主要集中在大数据分析和底层技术层面。纵观目前的大数据产业,产业佼佼者依然以传统软件商如 IBM、 Oracle 和普适化行业软件商如 Tableau、Splunk 为主。
数据之所以成为新商业经济社会的必争之物,在于它实际场景中的应用 价值。数据只有被应用到具体的商业场景和产业生产中才具有价值和意义,企业之所以将建立的交易数据库、客户数据库等视为企业核心竞争力,是因为得数据者得用户、得用户者得天下。
企业之间的激烈竞争是商业社会优胜劣汰的必经之路,如何利用好数据,将之转化为有价值的数据财富应用到产业化场景中,是当下企业建立竞争壁垒的首要问题。我们认为,底层软件+数据分析发展到现在已经足以支撑起行业应用,但是技术方面与具体行业方面存在较大脱节,导致垂直化大数据应用的缺失。
从这个角度上来说,做垂直化的大数据才能最有效的最彻底的挖掘单一行业的大数据价值。在完全渗透某一行业之后,也有望凭借行业发展经验辐射周边行业,进而以小博大实现在大数据发展上的弯道超车。
垂直化应用的前提和必要条件是拥有过硬的大数据综合实力以及对某一垂直行业的深入了解。然后,着手建设行业应用生态并逐步扩张,且形成可持续且盈利的商业模式。最后,在大数据行业应用生态形成之后可以创建以自身大数据技术以及对行业上下游的把控为基础数字标准,从而最终占据行业细分龙头地位。
DataEye 专注于泛娱乐领域的大数据分析和挖掘获 5,000 万 A 轮投资
DataEye 成立于 2013 年 9 月 9 日,发布了 D-OAP 游戏分析平台、 D-OAP 渠道分析平台、 D-HAPHTML5 游戏分析平台和 D-EAP 游戏体验分析平台。截止目前,DataEye 合作企业超过 600 家,如小米金山云、乐视、人人游戏、中国手游、乐逗、网易游戏、谷得游戏等企业,合作游戏六千多款。
DataEye 认为,能持续保持对游戏专注的数据服务,正是移动游戏行业所缺少的,更是移动游戏行业所需要的。 DataEye 还是 HTML5 游戏分析平台的数据服务商, 未来战略主要方向是对前端累积到数据仓库的大量数据进行深度挖掘,助力移动游戏产业链各个环节的运营优化和利润提升。
DataEye 对行业高度的持续聚焦与专注赢得了业内知名厂商的青睐,与中国移动、网易、腾讯、阿里巴巴、中手游、乐逗、 TCL、酷派、 360 等建立广泛而深度的合作关系,服务 8,000 多家厂商。目前已经形成泛娱乐全方位大数据生态。
阿里巴巴成立新公司“友盟+” 打造全域数据服务平台
2016 年 1 月 ,移动开发者服务平台友盟、中文网站统计分析平台 cnzz 及互联网数据服务平台缔元信网络数据宣布合并,成立新公司 “友盟+” ,致力于打造全域数据服务平台。
三家公司的共同出资方都是阿里巴巴集团。新公司成立后,三家公司现有的产品、功能、联系方式及沟通渠道可以正常使用,不会受新公司成立所影响;同时,新公司友盟+将聚合强大数据资源和能力,从数据采集、数据资产、数据产品及数据应用四个层面,为广大客户提供全域( PC、无线、线下&IOT)数据一体化服务,让多端数据连接,服务更加流畅,实现 1+1+1 > 3 的聚合效应,帮助企业快速成长,共享数据时代的福利。
我们认为,三家公司选择合并符合阿里巴巴集团在大数据垂直化服务方面的布局,新公司 “友盟+” 的成立将极大增加数据覆盖能力并形成从数据采集、挖掘、分析、应用的完整生态链。
数据流通存在壁垒,第三方数据运营企业有望占据产业链上游有利位臵
数据即资源的概念已经形成共识,数据资源一直占据着大数据产业的核心位臵。同时,数据资源由于不具备实体,因此可以多次复制并多次交易。另 外,大数据相对于传统的战略储备资源如石油等,具有持续可再生的特性,大数据对数据时效性的要求帮助数据资源方实现不断的变现,数据财富可以说是取之不尽用之不竭。
但是,大数据资源的共享共同流通等交易依然存在问题,大部分的数据交易以传统的以物换物等较原始的方式进行。很多大数据企业拥的数据都是片段的数据,很难形成完整的,具有商业价值的数据。大数据市场的数据质量和企业的数据需求有较大的差距。
外部数据大多处于孤岛状态,数据之间很少流动和整合; 孤立、不流动、没有整合的数据很难帮到企业,很多需要数据的企业不得不从多个大数据企业采购数据,效率很低,采购来的数据价值不高,数据整合的难度较大,数据采购的整体费用过高。数据与数据之间的碰撞会产生一个核聚变的过程,可引爆大数据产业发展,推动大数据应用的真正加速,数据源这一产业原始燃料交易和流通的问题必须得以解决。
国家正加大对大数据开放共享的政策支持和引导
2015 年 8 月 19 日国务院发布《关于促进大数据发展的行动纲要》指出要加快政府数据开放共享,推动资源整合,提升治理能力。这一方面将推动政府数据资源共享,从而形成政府数据统一共享平台。另一方面,政府也通过这一行动以身作则推动数据共享,消除信息孤岛,其示范作用巨大。针对具体开放的领域,会议指出,优先推动交通、医疗、就业、社保等民生领域政府数据向社会开放,在城市建设、社会救助、质量安全、社区服务等方面开展大数据应用示范,提高社会治理水平。
具有海量数据资源企业内部数据流通闭环是数据流通主流构成
目前来看,大部分数据流动发生在企业内部,也就是说企业内部的数据流动闭环已经逐步成型。在企业内部形成数据流通闭环的前提是企业自身掌控海量数据资源,同时本身具有丰富的应用需求以及过硬的大数据技术。其中的代表企业主要有 BAT 三家互联网领军企业,其内部本身数据资源充足,技术行业领先,可以支撑自身的众多需求。同时,正如我们第一部分分析, BAT 都纷纷开始完成开发基于自身技术和数据资源的大数据服务平台并开始对接外部服务,实现变相的数据流通。
打造开放大数据交易平台的第三方数据资源交易公司迎来新发展机遇
“数据堂” 开创数据银行享万亿数据交易市场
数据堂成立于 2011 年,为国内上市的大数据资源服务龙头企业,致力于成为全球最大的数据服务商,旨在盘活和融合各类大数据资源,挖掘数据价值,为客户产品和服务增值,为社会发展和进步献策。通过获取线下大数据、行业大数据以及政府大数据,数据堂整合了涵盖科技、信用、交通、医疗、卫生、通信、天气、地理、质监、环境、商户、电力等数十大领域的大规模数据。
以此为基础,为客户提供专业数据采集处理、共享交易及数据云服务。当前数据堂已为百度、腾讯、阿里巴巴、平安、 Microsoft、 Facebook、 Intel、 NEC、Canon、 Samsung 等国内外知名企业,以及众多国内外创新创业公司提供数据服务。
大数据交易所打造数据流通交易平台
在贵阳国际大数据产业博览会暨全球大数据贵阳峰会召开的一个月前,中国首家大数据交易所落户贵阳,贵阳众筹金融交易所、贵阳大数据征信中心、贵阳大数据资产评估中心也在数博会期间挂牌运营。该大数据交易所以电子交易为主要形式,通过线上大数据交易系统,撮合客户进行大数据的交易,为大数据交易提供一个公平、可靠的环境交易系统。此后,多家大数据交易所在国内如雨后春笋般建立,大数据交易所的运作以及数据交易也开始步入正轨并呈快速上升趋势。
未来的 5 到 10 年内,随着物联网、工业 4.0 等新兴概念的发展和应用,大数据将起到信息工业化的依托作用。届时数据交易将成为常态,作为全国第一个数据交易所,数据交易量年达 1 万 PB,相当 100 个阿里,日均交易金额突破100 亿元,年总额 3 万亿。交易所旗下的做市商至少 200 家,围绕交易所平台的创业公司超过 1 万家。
很明显,中国质量最好的数据在金融行业、 BAT、电信运营商,这些企业比较谨慎,很难向外部输出数据。这三大行业自身的主营业务也不在数据,其数据产品生产和输出的愿望也不强烈。政府的数据正在逐步开放,但是其数据质量、集中度、输出方式等多存在很大挑战。挑战意味机遇,第三方公司作为数据中立方如果能打通各个数据孤岛,引导数据向需求方流动,不仅能解决这一限制大数据发展的问题,更能通过交易平台尽享大数据流通所带来的巨大盈利空间。
大数据安全、隐私保护、数据交易定价三大遗留问题亟待解决
正如我们前面分析提到 ,大数据资源将继续呈现爆发式和多样化增长,这一方面为大数据产业链提供了丰富的燃料,而另一方面大数据引发的个人、机构甚至国家的信息安全问题也逐渐显露出来。首先,海量数据将难以统一管理,数据泄漏已经成为威胁企业发展和生存的主要隐患之一。
大数据安全由大数据技术守护
从下图中,我们看到 2015 年信息安全事件频发,以数据泄漏、数据盗取为主。在大数据时代,企业数据安全问题尤其突出,越来越多的黑客正在“商业化” ,愈发成熟的黑色产业链一次次的证明数据的价值。
首先,企业数据自身是宝贵的数据资产,数据泄漏不仅有害公司声誉,也使得公司的数据资产流失,甚至威胁公司的生死存亡;另外,企业安全架构日趋复杂,各种类型的安全设备、安全数据越来越多,传统的分析能力明显力不从心;最后,大数据技术发展本身也助长了黑客发现和盗取的能力,传统数据防护技术在当下面对日益严峻的安全威胁之下显得捉襟见肘。
2012 年 3 月, Gartner 发表了一份题为《Information Security Is Becoming a Big DataAnalytics Problem》 的报告,表示信息安全问题正在变成一个大数据分析问题,大规模的安全数据需要被有效地关联、分析和挖掘,并预测未来将出现安全分析平台,以及部分企业在未来五年将出现一个新的岗位——“安全分析师” 或“安全数据分析师” 。
大数据技术的发展给黑客升级了“矛”, 同时大数据技术也给数据安全防护行业带来了新的更强大的防护技术升级。传统以防御为核心( Signature Based)的安全策略已经过时,信息安全正在变成一个大数据分析问题,大规模的安全数据需要被有效地关联、分析和挖掘。
DT 时代已经有众多基于大数据的防护技术帮助保护企业的数据安全,让安全黑洞无处遁形。企业需要更安全、更强大全分析平台,不仅可以搜集和管理这些和安全相关的海量资源,还可以更快、更准确地调查安全事件,生成合规报告以及清楚地了如何改进现有的安全流程和系统。
瀚思安信:大数据时代的安全专家
瀚思安信拥是国内最早实践 Hadoop 开发与运维的企业,成员多来自国内外知名安全公司。瀚思基于大数据框架对企业的系统、应用和用户访问行为数据进行存储与分析,并采用机器学习和算法来检测异常行为,是业界公认的抵御新型外部攻击( APT, Advanced Persistent Threat)和内部人员恶意窃取核心数据( Insider Attacks)的最有效方式,可以最大限度的保护企业信息资产安全。瀚思坚信唯有通过海量数据的深度挖掘与学习,才能使企业适应千变万化的安全威胁,并实现由“被动防御”到“主动智能” 的信息安全战略升级。
未来,瀚思还会将产品和服务模式逐步向 SAAS 模式、云化以及向中型企业进行迁移。瀚思成立至今,凭借自身在信息安全与企业软件产品领域的经验建立了独有的安全理念和长远的战略目标, 而在大数据安全分析领域的内在价值也已被企业用户和投资者认可。不到两年的时间,瀚思已经成为 Hadoop 领导者美国 Hortonworks 公司在华的技术合作伙伴,并迅速获得光速中国创投( LightSpeed)首轮千万融资。
隐私保护机制落后大数据技术,仍需技术+立法双管齐下
目前,在大数据价值日益凸显的刺激之下,数据收集受到了史无前例的关注,人们在享受大数据带来的进步和便利之时也无时无刻不在通过产生个人数据的方式为大叔发展添加数据燃料。
消费者受惠于海量数据:更低的价格、更符合消费者需要的商品以及从改善健康状况到提高社会互动顺畅度等。同时,随着个人购买偏好、健康和财务情况的海量数据被收集,人们对隐私的担忧也在增大。“棱镜门”事件爆发后,尴尬的美国总统奥巴马辩解道:“你不能在拥有 100%安全的情况下,同时拥有 100%隐私和 100%便利。”
不论愿意与否,我们日常的个人行为、内容等数据正在不间断地被企业、个人搜集和使用。个人数据的网络化和透明化已经成为不可阻挡的大趋势,掌控大量公民数据的机构不再限定于政府机构,许多企业如 BAT 甚至个人都已经拥有海量数据,同时数据收集能力帮助他们可持续性地获取更多数据。
大数据时代,关联图谱挖掘技术进展迅猛使得元数据中能挖掘的隐私越来越多,个人信息在网上泄漏已经成了不可避免的难题。如上图所示,利用一个QQ 号码在不需要密码的情况就能通过大数据找全所有的群组关系。
我们认为,隐私保护机制的缺失以及对个人隐私的不断侵害,最终会导致人们讳疾忌医,过于谨慎而不再分享数据,同时畏惧大数据技术本身,这都将最终影响大数据产业的发展和进步。因此,如何保护个人数据隐私将成为大数据产业发展必须要面临的问题。为了解决这一问题,政府尽快完善相关立法的同时,企业自身也必须设定相关规则实现自律,如 IBM、微软、柯达、花旗、 Facebook、宝洁、 360 等都已经设有“首席隐私官” 。
数据脱敏——在保存数据原始特征的同时改变它的数值,从而保护敏感数据免于未经授权的访问,同时又可以进行相关的数据处理。您可以在保留数据意义和有效性的同时保持数据的安全性并遵从数据隐私规范。借助数据脱敏,信息依旧可以被使用并与业务相关联,不会违反相关规定,而且也避免了数据泄露的风险。
Gartner 分析师在《数据脱敏技术魔力象限》报告中就指出:“有越来越多的企业在通过战略方法进行数据脱敏。目前,全新的数据脱敏应用案例也在快速的涌现出来。 ” 报告还建议企业应将数据脱敏技术及其最佳实践集成为软件生命周期 (SLC)和数据管理过程中不可缺少的组成部分。数据脱敏不只是另一种的数据操作,它正在成为软件生命周期和数据管理的核心内容。
Informatica 数据脱敏领导者估值超 50 亿美金
Informatica, 1993 年创立于美国加利福尼亚州,并于 1999 年 4 月在纳斯达克上市。作为全球领先的独立企业数据集成软件提供商, Informatica 帮助世界各地的组织为其首要业务提供及时、相关和可信的数据,从而在当今全球信息经济中获得竞争优势。借助 Informatica 全面、统一、开放且经济的数据集成平台,组织可以在改进数据质量的同时,访问、发现、清洗、集成并交付数据,以提高运营效率并降低运营成本。
在业内领先的 IT 研究与咨询公司 Gartner 于 2015 年 11 月刚刚发布的客户数据解决方案主数据管理魔力象限报告中, Informatica 凭借卓越的执行能力和前瞻性位居领导者象限。 Informatica 已连续六年位居领导者象限,在 2015 年的报告中, Informatica 同时在“执行能力 ” 和“前瞻性” 两个方面获得最高分。
我们认为,对大数据隐私的愈加重视不仅需要政府加大监督力度并完善相关立法,更对企业自律提出了较高要求。同时,数据脱敏作为保护隐私的最佳手段在大数据产业爆发期间也必将迎来爆发式的发展机遇。
数据交易定价困难限制数据流动共享
为了解决数据流通困境,各大省市大数据交易所相继设立,九次方、数据堂等企业开始凭借交易平台实现新的可盈利商业模式。但是,大数据大量、多样、高速的基本特征,加上其价值的不确定性、稀缺性和多样性,导致了大数据定价中传统定价模式和定价策略难以解决的双向不确定性问题。
目前看来,数据交易定价依然存在诸多困难,也极大的限制了各大数据交易平台对数据流通共享的促进实力。首先,由于数据应用场景不一,数据的商品化交易需要先完善相关数据标准。其次,市场缺乏行之有效的数据交易市场机制,数据流通尚不成熟。第三,数据商品定价和资产估值困难,买卖双方存在信息不对称。第四,数据隐私保护和数据安全机制不够完善,导致数据交易受限。
新一轮技术革命在酝酿,基于大数据的数据挖掘重新定义人工智能
过去一年,大数据分析特别是随着深度学习相关技术迈向成熟后,业界正愈加注重大数据在人工智能方向上面的应用和拓展,各种形式的应用和接口都慢慢被开发出来了 。
“深度学习”是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。虽然神经网络在几十年前就有了,直到最近才形势明朗, 主要因为前期大量“训练” 缺失导致神经网络无法有效地发现矩阵中的数字价值。
对早期研究者来说,想要获得不错效果的最小量训练都远远超过计算能力和能提供的数据的大小。得益于互联网、移动互联网和越发廉价且变得无处不在的传感器,这个世界产生的数据量急剧增加,最近几年一些能获取海量资源的团队重现挖掘神经网络,就是通过“大数据”技术来高效训练。
人工智能的概念由来已久,人工智能所能带来的未来世界已经多次被人们所畅想,各种各样的人工智能几乎成了以未来为题材的科幻电影的标配。得益于基于大数据的数据挖掘、机器学习以及深度学习技术的发展,我们第一次如此近距离的接近那个原本只存在电脑中的人工智能技术。 2015 年,不仅是大数据应用的元年,同时也是大数据帮助人工智能提升从研究转化实际应用的一个新的良好开端。
目前的人工智能主要应用 还实在在游戏、电商、广告等较为传统商业模式上的。 但是, 这些对于整个人工智能的发展来说只是冰山一角, 人工智能的巨大潜在价值还有待进一步挖掘。 我们认为, 人工智能之于人类的价值不亚于人类的再一次进化,将有望通过人工的方式解决限制人类发展的智力瓶颈。
过去的一年里,人工智能领域风起云涌,大大小小的初创公司频繁被 Google、Apple 等传统互联网企业收购从而引入人才和技术,构筑人工智能时代的领先技术。同时,中国的初创公司也开始凭借技术和广阔的市场空间吸引越来越多注意。
苹果频繁收购人工智能公司,打造苹果智能生态
2015 年 10 月 4 日, 苹果收购了英国的人工智能创业公司 VocalIQ,意在打造更加“善解人意” 的 Siri 智能助理。 VocalIQ 利用人工智能技术来提升人机交互中的自然语言处理能力,使得机器能不断学习并提高对人类自然语言的理解能力。 VocalIQ 的主要业务是向 APP 开发者提供自然语言处理数据库服务,通过汇集处理海量的 APP 用户的人机会话, VocalIQ 能不断提升其人机自然语言处理服务的智能化水平。
目前,苹果公司正在越来越多的产品中整合 Siri 个人助理技术,尤其是那些不方便手指输入命令的产品,例如 Apple Watch 智能手表和最新发布的 Apple TV,都将非常依赖 Siri 的语音控制。
两天后,苹果公司再度出手收购专注图像辨识的小型初创公司 Perception。该公司的技术,能帮助企业客户在智能手机上运行先进的人工智能系统,同时不必分享大量的用户数据。
Perceptio 的创始人 Nicholas Pinto 和 Zak Stone 分别是哈佛大学和麻省理工学院的人工智能专业博士,研究领域为基于深度学习技术的图像识别系统。 Perceptio 的目标是开发智能手机端的人工智能图像分类系统,同时无需大量的外部数据。这符合苹果的策略,即对用户数据的利用最小化,并将尽可能多的技术放在手机端。
2016 年 1 月 8 日, Apple 再接再厉宣布已收购致力于通过面部表情分析来判定人的情绪人工智能技术公司 Emotient。视频显示, Emotient 利用人工智能扫描人脸,然后可在数秒钟内解读出他们的面部表情所代表的意义,这种技术过去主要是帮助广告商和销售人员判断消费者对广告或产品的反应。
Emotient 曾在视频中介绍这种技术可被用于各种领域。广告主可利用其评估人们对广告或新产品的反应,媒体公司可利用其评估观众对电影或电视剧的看法,零售商则可利用其衡量人们对某种“零售体验” 的感想等。此外,这种技术还可被用于医疗领域,用于判断病人的感受。 Emotient 技术的关键是能够扫描人脸识别表情,但不会储存有关这些人的任何个人身份信息。对于许多初创企业来说,面部扫描技术的使用很容易引发隐私担忧。
Google 收购 DeepMind 布局人工智能
DeepMind 是位于伦敦一家成立仅三年的人工智能初创公司,该公司专注于机器学习和神经精神科学的研究,将算法应用到电子商务推荐系统的各种电子产品中去,主要涉及模拟程序、电子商务和游戏等领域。
DeepMind 拥有一个约 50 人的团队,并已获得超过 5,000 万美元的融资, DeepMind 的投资方包括Founders Fund,以及李嘉诚旗下维港投资。这家公司引得 Google、 Facebook 等互联网巨头竞相追逐,最终 Google 在 2014 年以约 4 亿美元完成收购。
通过开发尖端的自主学习软件, DeepMind 已经通过旗下名为 AlphaGo 的人工智能在没有任何让子的情况下以 5:0 完胜欧洲冠军、职业围棋二段樊麾,为自己建立起了声誉。同时, DeepMind 正努力向医疗技术领域推进,希望把自己的技术能够应用于医疗保健领域。
人工智能初创公司 “出门问问” 获谷歌 5,000 万美元投资,估值达 3 亿美金
2015 年 10 月 20 日, 成立仅三年的人工智能创业公司出门问问宣布获得谷歌投资约 5,000 万美元,目前公司估值已达 3 亿美金。出门问问团队成员 80%均是工程师,公司的强大研发团队不仅由 Google 前科学家、人工智能专家领衔,组成成员也均为来自斯坦福、剑桥、清华等名校或雅虎北京、 BAT、诺基亚的顶尖软硬件工程师。
迄今为止,出门问问依然是中国市场上唯一一家拥有自主语音识别、语义分析、垂直搜索技术的创业公司。出门问问的语义分析应用了深度学习,依赖于大数据,有非常好的可扩展性。 出门问问利用大数据来理解各种场景和口音,进行智能化判断。 此外,用户利用 GPS 传感器搜索、导航、收听音乐都能产业巨大数据流量,服务器能对这些流量进行收集和分析从而增强公司人工智能实力,未来可为用户提供更智能、快捷服务。
我们认为,在机器学习、深度学习等技术发展的推动之下,人工智能已经成为大数据应用的一大主要方向。人工智能有望彻底解放人类在智力上束缚,目前能看到甚至想象到的人工智能应用依然还只是其未来应用的冰山一角。
大数据技术作为重燃人工智能希望的核心技术,其未来应用空间也将随着人工智能的普及应用而继续扩大。 因此,在相当长的一段时间里面,大数据和人工智能将形成有效的相会推动。
总之,大数据变现通道已初步打通,大数据应用一触即发,大数据资源将占据核心位臵,此时我们需要着手未来继续探索人工智能给大数据发展带来的全新机遇和巨大市场空间,也需要正视限制大数据产业发展的诸多困难和产业存在,如数据保护、隐私保护、信息孤岛等。
解决这些问题不仅将释放大数据的生产力促进大数据更好更快发展, 同时行业痛点的存在也以为产业发展机遇,数据清洗、隐私保护、安全防护这些都是新的发展领域且有较大成长空间。
结论:
2015 年是大数据应用启动元年,虽然大数据产业链还没有迎来预期的爆发,但是我们调研中发现大数据产业链依然在高速成长,未来一到两年内实现大数据应用的全面爆发确定度较高。目前,大数据底层软件到数据分析技术发展已经趋于成熟,大数据生态逐渐形成,大数据产业变现通道已经打通。产业价值将加速向产业链两端即数据源和数据应用跃迁,大数据底层到数据分析将向着工具化、管道化发展,依然存在较大拓宽空间。
大数据产业向生产力平台方向演进,产业链价值从底层设施加速向产业上下游跃迁: 近几年大数据行业迎来了高速发展,大数据挖掘、强化、分析这些中间技术环节由于构成产业必要工具而一直是产业的发展重点,也已率先走向成熟并打通大数据变现通道。我们认为,随着大数据变现通道的打通以及后期拓宽,产业链价值正由数据分析工具加速向数据源以及数据应用两个具备巨大可持续变现的产业链上下游跃迁。目前,整个生态依然处于初级阶段, 继续解决行业痛点将助力产业加速发展也隐藏着大数据产业发展新机遇。
大数据底层软件和分析逐渐工具化/产业化,需求上升带来产业发展空间: 大数据底层工具以及分析处理市场随着分析需求数量和种类的增多而迎来更广阔的市场并催发新一轮技术创新。大数据分析作为大数据应用的必经之路,由于数据源以及数据应用的不同存在两个主要发展方向: 1 、向普适化软件发展; 2、结合具体行业向咨询、管理工具发展。我们认为, 大数据应用集中爆发将导致数据分析需求多样化和定制化,结合具体场景深入行业分析将更具优势。
应用层作为变现最终阶段将迎来加速发展,拥有数据源将在大数据生态形成后占据产业链制高点: 数据源到应用变现通道加速形成,大数据应用模式创新加速在精准营销、征信金融、影视娱乐、医疗健康等行业崭露头角,并开始从线上走向线下帮助传统行业如房产、汽车、零售等打造闭环生态。单纯以大数据技术为主业的业务创新模式开始抬头并迅速被各行业接受,如大数据安全、咨询等。随着大数据产业链条逐渐打通拓宽,成熟大数据生态形成后拥有关键数据源的企业将掌握数据链上游核心资源,将迎来数据直接变现带来的发展机遇。
产业价值爆发将继续促进大数据基础设施建设从而拓宽变现通道:传统行业如医疗健康、工业等在本身数据管理等硬需求推动下加强基础设施建设,为大数据底层软件、云计算企业带来成长机遇。
“大数据+行业”垂直化应用将快速发展,数据拥有者掌控产业链上游:大数据应用开始从线上走向线下,行业数据价值挖掘最有效手段的垂直一体化应用将有望颠覆传统行业带来发展机遇。大数据生态渐成,数据本身价值将得到更充分的挖掘,拥有数据源的公司将有望掌控核心资源。
行业痛点指引发展,技术革新与大数据产业相互促进:大数据诸多问题,需要基于大数据的解决方案,因此也预示着产业未来机遇。人工智能已经成为大数据应用一大方向,也将引发大数据新的投资机会。