欧宝体育官网登录:CCF大专委最新研判:大数据技能的四大应战、十大趋势!

发表时间:2023-06-04 06:21:23

来源:欧宝官方体育下载 作者:欧宝娱乐app在线登录

  梅宏1,杜小勇2,金海3,程学旗4,5,柴云鹏2,石宣化3,靳小龙4,5,王亚沙1,刘驰6

  摘要:世界首要国家高度重视大数据展开,我国也将展开大数据作为国家战略,展开大数据技能具有重要意义。大数据技能触及从收集、传输到办理、处理、剖析、运用的全生命周期以及生命周期各阶段的数据办理。选取数据生命周期中的办理、处理和剖析技能以及大数据办理技能来整理国内外技能展开现状,特别是研判我国大数据技能展开与世界先进技能之间的距离。别的,在大数据运用需求的驱动下,核算技能体系正面对重构,从“以核算为中心”向“以数据为中心”转型,在新的核算技能体系下,一系列根底理论和中心技能问题亟待破解,新式大数据体系技能成为重要展开方向。在核算体系重构的布景下,提出大数据技能展开的四大技能应战和十大展开趋势。

  世界首要国家高度重视大数据展开,我国也将展开大数据作为国家战略。2015年8月,国务院印发了《促进大数据展开举动大纲》(国发〔2015〕50号),明确提出数据已成为国家根底性战略资源。2016年3月,《中华人民共和国国民经济和社会展开第十三个五年规划大纲》正式提出“施行国家大数据战略。2017年10月,党的十九大陈述中提出加速推进大数据与实体经济深度交融展开。2017年12月8日,在中央政治局第2次团体学习时,习宣布说话,做出了“大数据是信息化展开的新阶段”这一重要结论,要求“审时度势精心策划超前布局力求主动,施行国家大数据战略,加速建造数字我国。党的二十大陈述指出数字技能与实体经济深度交融具有重大意义。

  大数据技能链条长,从收集、传输到办理、处理、剖析、运用,构成一个完好的数据生命周期,一起在多个阶段触及数据办理。因为数据收集用到的传感器技能和数据传输依靠的通讯技能别离归于根底器材和通讯学科范畴,本文不触及这两类技能。一起,大数据运用面比较广,运用展开状况不是技能问题,故本文也不触及。别的,尽管大数据的展开现已阅历了10多个年初,在一些运用范畴(特别是互联网范畴)获得了较好的成效,可是全体而言,大数据根底理论和中心技能仍不老练,大数据办理体系远未树立,大数据展开依然处于初级阶段。因而,为了更好地展开大数据技能,本文聚集数据生命周期中大数据办理、处理、剖析和办理4类技能,整理国内外技能展开现状,特别是亟须清楚研判我国大数据技能展开与世界先进技能之间的距离。此外,信息技能展开的干流一向是以核算为中心的,数据仅作为输入和输出环绕着核算使命安排,信息体系规划和优化的中心方针是核算效能的进步。跟着数据体量的快速增加,以核算为中心的技能体系开端显现出坏处,算力增加难以跟上数据规划的增加,构成“剪刀差”。近年来,一种以数据为中心的新技能体系日益遭到重视,有望成为缩小剪刀差的打破点。一些具有潜力的立异技能现已呈现了,包含:在算法理论体系上,从由多项式准确算法主导演化为由亚线性概率近似算法主导;在大数据办法体系上,从阅历沉积驱动演化为数据模型驱动,从单纯依靠机器展开到“人在回路”的协作核算办法;在大数据体系结构上,经过以数据为中心的泛在操作体系,环绕着数据间的互操作,高效安排广域核算资源等。因而,在大数据运用需求的驱动下,核算技能体系正面对重构,从“以核算为中心”向“以数据为中心转型。在新的核算技能体系下,一些根底理论和中心技能问题亟待破解,新式大数据体系技能成为重要展开方向,一起面对以下四大应战。

  应战一:怎么构建以数据为中心的核算体系。全球大数据规划增加快速。2020年全球新增数据规划为64 ZB,是2016年的400%,估计2035年新增数据将高达2 140 ZB,数据量呈现指数级增加。跟着数字经济的展开和数字化转型的深化,愈来愈多的数据资源正以数据要素的形状独立存在,并参加数字经济活动的全进程。因而需求构建以数据为中心的新式核算体系,以习惯新的运用环境。怎么安排和办理超大规划的数据要素现已成为一项难题,如大数据办理面对着数据跨域拜访带来的各种问题、体系规划继续增大带来的可用性下降、维护大规划数据带来的本钱和能耗继续增高级严峻应战。

  应战二:怎么满意大数据高效处理的需求。数据规划呈指数级增加,数据动态歪斜、稀少相关、运用杂乱,传统大数据处理架构处理本钱高、时效性差,怎么满意规划海量、格局杂乱、需求多变的大数据高效处理需求是大数据处理面对的重要应战。

  应战三:怎么完结多源异构大数据的可解释性剖析。跟着数据量继续地爆破式增加和各类运用的不断拓宽与深化,根据深度学习的干流办法因其仅重视单源单模态数据且模型只知其然不知其所以然的特性,已无法满意展开需求。怎么打破数据多源异构构成的隔膜,交融多域乃至全域数据中包含的常识,完结剖析作用的可解释,然后进步其可用性,是其时大数据剖析面对的首要应战。

  应战四:怎么构成体系化大数据办理结构与要害技能。针对大数据运用进程中的对数据会聚交融、质量确保、敞开流转、规范化和生态体系建造的需求,大数据办理技能逐步成为展开热门。可是其时体系化的大数据办理结构没有构成,敞开同享、质量评价、价值猜测等要害技能远未老练,这成为限制大数据展开的首要瓶颈。

  本文在核算体系重构的布景下,对大数据办理、处理、剖析和办理4个方面的首要技能应战、国内外研讨现状与距离做出研判,并提出大数据技能展开的十大趋势。

  大数据办理是大数据生命周期中的重要环节。大数据办理技能首要包含大数据的安排、存储、核算与拜访等相关技能。尽管数据办理技能与体系现已阅历了近60年的展开,但因为大数据具有超大规划、高速增加、类型多样、高杂乱性等特色,大数据办理依然面对许多严峻应战,特别体现在以下3个方面。

  一向以来,寻求数据拜访的高功用是数据库体系的中心问题。跟着摩尔定律挨近完结,传统硬件功用进步乏力。在数据规划高速增加的状况下,大数据办理遇到的高功用应战愈加杰出,迫切需求寻觅功用进步的新驱动力,特别是要充沛使用近年来展开敏捷的各种新硬件和人工智能技能,最大极限发挥异构架构带来的时机。

  数据办理体系是大数据工业的中心根底设施,因而其可用性至关重要。大数据规划呈现指数级高速增加,大数据事务环境也十分杂乱,大数据办理体系往往规划极大且具有很高的杂乱度,因而各类过错发生的概率显着进步,或许导致服务中止、无法确保正确性,乃至或许存在歹意节点引发虚伪音讯或数据篡改等严重问题。这给大数据办理体系的可用性带来更大的应战。

  现在维护和办理超大规划数据的能耗占比现已很高。现有技能往往以功用进步为导向,能效不高,因而面向快速增加的大数据,迫切需求展开和运用高能效大数据办理技能。

  新一代大数据办理技能的立异展开首要环绕高功用、高可用、高能效3个方面打开。

  在高功用大数据办理范畴,新的功用进步动力首要包含新硬件和人工智能驱动两个途径。在新硬件方面,美国在内存数据库并发操控、非易失存储器(nonvolatile memory,NVM)数据办理、GPU数据库、异构核算数据库等方面的技能和产品均处于抢先位置,德国的SAPHANA是高功用数据库的代表之一。我国在NVM、长途直接内存拜访(remote direct memory access,RDMA)、超文本符号言语(hyper text mark-up language,HTM)等新硬件数据办理技能方面也提出一系列先进的立异作用,如上海交通大学的RMDA和HTM结合计划,以及我国科学院核算技能研讨所的NVM日志与康复办法等。在人工智能驱动的高功用大数据办理方面,美国首要提出学习索引、Self-Design等技能,微软、甲骨文、亚马逊等企业已在数据库产品中运用智能驱动技能。我国在学习索引、主动调优、智能查询优化、智能数据分区等范畴的立异也十分活泼,如阿里巴巴、华为、腾讯等企业的数据库产品加入了数据主动调优、主动运维等自治技能,清华大学等高校提出一系列AI4DB立异技能。

  在高可用大数据办理范畴,数据冗余是应对软硬件过错的首要手法,中心技能是散布式一致和散布式事务处理,难点在于一起完结高可用和高功用。美国是该方向的引领者,中心算法和最早的体系都来自美国。国内阿里巴巴、清华大学、上海交通大学、我国人民大学等在中心的散布式事务和一致协同优化技能等方面获得了系列立异作用。国产数据库PolarDB、TiDB等可用性水平已到达世界一流水准。另一类可用性问题是网络中部分节点存在歹意,如发送虚伪音讯或篡改数据等。现在世界干流应对技能是区块链,首要展开趋势是经过公链和联盟链彼此交融、适度下降安全性要求等办法进步区块链的功用。我国的区块链大数据办理技能展开和运用已挨近世界一流水平,国产联盟链体系(蚂蚁链、腾讯区块链和百度超级链等)每秒买卖量均逾越1万,并在区块链发票、区块链司法存证、区块链物流溯源等范畴广泛运用。

  在高能效大数据办理范畴,云数据办理技能经过资源同享、资源调度来显着削减硬件资源和动力的耗费,并运用低功耗硬件和数据紧缩等软件办法进一步下降能耗。美国的亚马逊和Snowflake别离是联机事务处理(on-line transaction processing,OLTP)和联机剖析处理(on-line analysis processing,OLAP)范畴云数据库的全球引领者;美国亚马逊、谷歌、微软、Meta等公司首要探求根据异构硬件和紧缩的低功耗数据办理技能。而国内的高能效云数据库技能展开十分快,已与美国技能水平挨近,如阿里云的PolarDB 首要提出别离内存技能,我国人民大学等高校也经过异构核算和紧缩数据直接核算办法构建了新式高能效数据办理引擎。近年来,国内外在云数据办理的根底上探求国家规划内的一体化高能效数据办理,例如美国苹果、谷歌等公司经过智能编列,将数据智能地在多个数据中心进行散布和核算,下降全体能耗。我国提出了算力网络的概念和世界规范,正式发动“东数西算”工程,充沛使用中西部区域的气候、动力等优势,在全国布局算力网络国家纽带节点,并逐步在人工智能、图画烘托、金融和政企事务等范畴运用。我国在高能效一体化数据办理技能方面走在世界前列。

  综上所述,近年来我国大数据办理技能和产品的展开都十分快,如在联机事务处理基准测验TPC-C排行榜中,OceanBase以707 351 007 tpmC的功用排名世界榜首,打破了甲骨文等国外公司长时刻独占的局势。我国大数据办理技能与国外顶尖水平(绝大部分状况指美国)尽管存在必定距离,但大部分范畴的距离并不大,具有赶超的时机;在高能效一体化大数据办理等范畴,乃至有部分抢先。

  美国在新一代大数据办理技能方面仍处于全球抢先和主导位置;欧盟在部分范畴的产品和立异技能上有必定优势;日本、俄罗斯等其他国家相对而言在技能、产品和生态上均缺少优势。而我国大数据办理技能进步十分快,在我国大规划商场的培养下,头部企业的产品才能和顶尖高校的立异才能现已到达或挨近世界一流水准,显着逾越日本、俄罗斯等国家一些范畴的技能立异也抢先于欧洲,与美国的距离在敏捷减小;特别是在高能效一体化大数据办理等范畴,我国现已在世界上抢先一步展开。

  大数据办理是大数据生命周期中的重要环节。大数据办理技能首要包含大数据的安排、存储、核算与拜访等相关技能。尽管数据办理技能与体系现已阅历了近60年的展开,但因为大数据具有超大规划、高速增加、类型多样、高杂乱性等特色,大数据办理依然面对许多严峻应战,特别体现在以下3个方面。

  曩昔10年,数据规划呈指数级增加,数据处理的时效性问题成为大数据处理体系面对的 中心问题。一起数据运用繁荣展开,数据深度价值发掘、数据实时处理等新式处理需求进一步进步了数据处理杂乱度,大规划数据处理体系中数据动态歪斜、稀少相关、超大容量等特征给体系带来资源功率低、时空开支大、扩展困难等严重问题。作为大数据范畴典型相相联系的图数据,因为其不规矩数据拜访、核算-访存比小、依靠联系杂乱等特色,给现有大数据处理架构带来了并行流水履行功率低、访存部分性低、内外存通道使用率低和锁同步开支大等技能应战。

  大数据处理一般有两种办法,一种为离线处理办法,另一种为在线处理办法,与之对应的体系为批处理体系和流处理体系。一起作为互联网以及科学核算范畴重要的数据形状,图数据因其结构特别,多选用专用体系处理。本节将从批处理、流处理以及图核算3个方面进行比较。

  作为最早的大数据处理办法,从谷歌公司提出MapReduce模型开端,美国一向引领该范畴的展开。近10年,从开源Apache Hadoop到美国加州大学伯克利分校的AMPLab研发的Spark体系,在技能生态上彻底诠释了大数据处理从“扩展性优先”规划到“功用优先”规划的过渡,大幅进步了大数据的处理功用,一起也为更多类型的大数据处理事务(如数据发掘、机器学习等)供给了支撑。为了更好地支撑散布式AI运用,相同由美国加州大学伯克利分校领导的AnyScale公司提出了Ray结构,经过动态定制核算依靠,获得了比Spark更优异的核算功用。别的,异构核算成为大数据处理体系时效性进步的重要手法。美国NVIDIA公司牵头针对不同运用范畴,开源了RAPIDS GPU数据科学库,内存核算之类的近数据处理办法在体系结构范畴获得广泛重视。

  我国曩昔10年在大数据处理体系范畴也获得了巨大展开,特别以大型互联网企业为代表,如阿里巴巴自研的MaxComput引擎可供给高效的数据处理功用,在大型互联网企业的数据库房和BI剖析、网站的日志剖析、电子商务网站的买卖剖析、用户特征和爱好发掘等范畴获得较好运用。此外,阿里云根据Flink开发了Blin体系,完结了流处理和批处理的一致,在批流交融相关技能指标方面到达了世界抢先水平。在学术界,国内涵大数据处理的单点技能打破上也获得了系列展开,如上海交通大学的EspressoBe、华中科技大学的Deca体系功用大幅抢先世界同类体系。现在我国的大都大数据批处理体系仍是树立在世界开源的根底之上的,自研体系世界占有率十分有限,全体技能水平仍有较大距离,生态距离更大。

  世界上现有流处理体系按体系结构区分首要可分为并行流处理体系、散布式流处理体系。选用散布式集群架构的散布式流处理体系成为其时世界上流处理体系的干流,近年来展开出环绕Storm、Flink、Spark Streaming等开源体系的软件生态。为了进步散布式流处理体系的功用,现有作业首要选用数据并行、流水线并行等技能进步体系功用。数据并行首要充沛使用单个核算节点上的多核并行资源,对布置到某个核算节点的详细的核算阶段进行多实例并行化,然后充沛发挥多核资源的并行性,进步体系的吞吐率。数据并行优化方面的代表性作业是Nasir M A U等人提出的PKG(partial key grouping)数据区分战略,该战略处理了体系由动态歪斜性带来的负载不均问题,进步了体系的资源功率,并被Apache的Storm开源项目选用集成。流水线并行的首要思维是将流处理的核算逻辑分解为多个阶段,将不同的核算阶段布置到散布式集群中的不同核算节点上,经过流水线技能进步体系资源并行功率,然后进步体系的全体功用。流水线并行方面的代表性作业是Abdelhamid A S等人提出的Prompt体系。

  国内流处理体系方面首要根据现有世界开源的相关作业进行优化改善。阿里巴巴经过收买德国创业公司Data Artisans,购入了Apache Flink,并进行了若干优化改善,现在绝大部分阿里巴巴的事务跑在流处理渠道上。数据并行方面的典型体系作业是PStream,该体系根据Apache Storm渠道对高频的键值运用轮询区分的办法平衡负载,一起对低频的键值运用哈希区分的办法防止额定的数据聚合开支。比较于世界上最新的PKG体系,PStream 将体系吞吐率进步了2.3倍,处理时延缩短了64%。PStream在华为公司有所运用,但在开源社区的推行方面不及PKG体系。在流水线并行方面,现在国内研讨较少。一起,因为现有体系多根据世界开源软件架构,国内的流处理体系研讨也秉承了现有世界开源结构的坏处,如难以针对多语义查询进行灵敏布置等。

  图核算技能是由谷歌公司初次提出的。为了支撑散布式图核算,谷歌公司规划了世界上首个散布式图核算体系Pregel。该体系将迭代图算法表明为简略编程的屡次迭代,以简化散布式图核算运用的开发和在底层散布式渠道上的高效履行。后续国外研讨团队也提出了许多软件和硬件优化技能来进步图核算功用。例如,为了支撑PC上的图核算,国外研讨团队研发了首个单机图核算系GraphChi,其选用并行滑动窗口技能,大幅下降外存的乱序拜访次数。普林斯顿大学的研讨人员研发了首个面向图核算的专用加速器Graphicionado,其将以极点为中心的编程模型中的功用模块笼统为相应的流水线阶段,在确保通用性的一起,显着进步了图核算指令功率。

  比较而言,国内研讨团队在图核算范畴起步略晚,但跟着国内互联网职业和技能的迅猛展开,国内图核算商场需求日益高涨。“十三五”期间,我国科技部发动了“面向图核算的通用核算机技能与体系”项目。国内一批研讨人员在图核算范畴进行了深化研讨和许多攻关作业,提出了多种高功用图核算体系和图核算硬件加速器。清华大学研讨团队开发的根据威风·太湖之光的超大规划图核算体系“神图”体系入围世界超算大会戈登贝尔奖。华中科技大学研发的DepGraph斩获2021年11月世界Green Graph 500和Graph 500榜单两项全球榜首,根据鹏城云脑II体系研发的图核算体系再次获得2022年11月Graph 500 SSSP功用榜首。跟着国内图核算技能的迅猛展开,国内图核算研发才能在图核算的理论研讨、体系研发和体系结构规划方面均已到达世界前列。

  作为大数据技能生态的重要一环,大数据处理技能在曩昔10年飞速展开,特别因为其巨大的工业需求,世界、国内大型企业均投入了许多人力、物力参加研发,技能生态上仍旧繁荣。我国在该范畴展开敏捷,但后发特征显着,单点技能打破较好,全体生态与欧美距离较大,缺少生态引领体系呈现。在批处理体系、流处理体系上,我国根本以国外开源盯梢改善为主,图处理技能因为与世界展开时刻根本同步,国内有部分体系与世界同类体系处于同一技能水平。

  大数据剖析技能旨在完结从数据到信息再到常识乃至到决议计划的价值转化。近年来,大数据剖析技能迅猛展开,功用和功率均获得了显着的进步,并促进了相关职业或工业的智能化展开。例如,根据深度学习的蛋白质折叠剖析技能协助生物学获得了重大展开;金融数据剖析技能协助银职业大幅下降了金融诈骗的危险。可是,广泛深化的运用在给大数据剖析技能的展开带来更高的需求的一起,也使其面对着更深层的应战。首要,大数据剖析的方针逐步从相对小规划、单模态的数据转变为大体量、多模态的数据,怎么对大规划异构多模态数据进行交融剖析?其次,单一来历的数据往往体量较小或核算散布的代表性不行,相应剖析模型的功用遭到限制,怎么在维护数据安全与隐私的前提下进行多方数据的联合学习与剖析然后完结数据价值的最大化?最终,许多运用不再满意于对大数据相关性的简略建模与剖析,更等待能够发掘现象背面的因果规矩,怎么经过因果揣度满意剖析技能在可解释性、安稳性、公平性以及可回溯性等方面的更高需求?

  针对前述3个方面的应战,本节对国内外相应的研讨现状进行了整理,并比较了距离。

  跟着信息技能的飞速展开,多模态数据已成为数据资源的首要办法,国内外研讨者近些年对多模态数据交融剖析给予了高度重视,也获得了显着研讨成效。其时,世界上多模态技能的顶尖研讨团队有卡内基梅隆大学的MultiComp Lab和麻省理工学院的Synthetic Intelligence Lab等。这些团队在AAAI、ICLR等相关范畴的世界顶会上宣布了许多打破性作用。除此之外,微软2022年提出通用多模态根底模型BEiT-3 它在视觉和视觉-言语使命上都完结了其时最先进的搬迁功用。同年,谷歌提出了多模态大模型PaLI,在多言语图文数据上进行练习,作用逾越了BEiT-3。现在,多模态技能已在军事、交通等范畴得到了越来越深化的运用。例如,美国桑迪亚国家实验室提出了多模态的军事概念配备。紧跟国外研讨的脚步,国内研讨团队也加速了对多模态数据剖析技能的攻关,并获得了一些打破性作用。例如,2021年,我国科学院主动化研讨所研发了全球首个三模态大模型“紫东太初,并在2022年的世界人工智能大会上获得最高奖项。在运用方面,国内将多模态技能与商业、医疗等范畴进行了有用结合。例如,地平线年长安UNI-T车型上完结大规划量产,是全球首个能够在端上实时猜测并完结大规划量产的团队。归纳来看,国内的多模态技能在根底理论和中心技能方面与世界先进水平还存在着必定的距离,可是与详细运用范畴结合较好,有用完结了科技作用的落地转化。

  跟着信息化进程的展开,各个企业或同一企业的不同部分出产并存储了许多运用数据,跨部分、跨安排的数据流转与同享能够更大程度地发掘数据的潜在价值。可是,数据的流转同享遭到数据安全、商业秘要、个人隐私等多方面的严厉束缚。为了应对上述问题,2016年谷歌提出联邦学习(federated learning)的概念,用于处理多方数据联合学习与剖析的应战,并推出TensorFlow Federated联邦学习开源结构,引起学术界和工业界的激烈重视。除此之外,Open Mind推出的Pysyft联邦学习结构能够与干流深度学习结构兼容,热度居高不下。现在,联邦学习现已得到必定程度的范畴运用。苹果公司将联邦学习运用在IOS 13跨设备QuickType键盘Hey Siri的人声分类上;NVIDIA公司推出了NVIDIA Clara医疗学习渠道,将联邦学习技能运用在医疗范畴。在国内,微众银行AI团队2018年体系性地论述了联邦学习理论,其能够确保各企业在自有数据不出本地、不违规的前提下进行联合建模,大幅进步了机器学习建模的作用,之后微众银行AI团队又于2019年开源了首个工业级联邦学习技能结构FATE,遭到广泛重视。此外,近几年,百度推出了开源联邦学习结构PaddleFL,阿里巴巴使用联邦学习等隐私核算技能推出了DataTrust渠道,二者均在自然言语处理和引荐算法等范畴进行了落地实践。归纳来看,我国相关团队与企业已成为联邦学习技能的重要贡献者,活跃参加到联邦学习技能的研发与规范的拟定中。

  现有大数据剖析技能在安稳性、可解释性、公平性、可回溯性等方面存在着天然缺少,首要原因是现有技能往往只重视变量核算意义上的相关性剖析与建模,而这其间必然存在不符合变量因果规矩的伪相关。因果揣度技能旨在发现变量之间的因果规矩。现有最干流的因果模型为潜在作用结构和结构因果模型,两个模型别离由美国科学家Rubin和美国以色列裔科学家Pearl J等人提出。他们都认为因果联系指的是两个事物之间改动一个是否能够影响另一个的联系。Pearl J等人提出了“因果之梯”的概念,自下而大将问题区分为相关、干涉和反现实3个层次,别离对应于调查、举动和幻想3类活动。而答复因果问题需求凭借干涉或许反现实。根据这两个干流的因果模型,微软等外国公司在活跃探求因果相关的研讨。国内因果相关研讨起步较晚,但展开较快。清华大学Cui P等人提出了安稳学习的概念,在传统机器学习结构下经过引进因果揣度技能,寻求数据中的“不变性机制”。我国科学技能大学Zhang Y等人重视因果引荐体系相关的研讨,测验发掘用户与产品之间的因果联系。南京大学Zhu Z M等人则重视因果强化学习的相关研讨。归纳来看,因果揣度技能国外起步较早,并创始了奠基性的结构。国内研讨尽管起步较晚,但相关研讨的展开呈杰出态势。

  从上述剖析能够看出,面向大数据剖析前沿需求,以美国为代表的西方国家起步较早,在多模态数据交融技能、联邦学习技能以及因果揣度技能的根底理论和中心技能上现已构成了比较完善的剖析和运用生态,且在许多范畴得到了广泛运用。国内大数据剖析技能在根底理论和中心技能等方面不断挨近世界先进水平,坚持着快速展开的杰出气势。

  在运用繁荣展开的进程中,大数据面对数据产权、买卖流转、收益分配等一系列问题,然后使大数据办理逐步成为各国重视的热门,相关技能也展开敏捷。大数据办理是以数据为方针,以最大极限开释数据价值为意图,在确保数据安全的前提下,贯穿于数据全生命周期的由多方主体参加的共建同享共治的数据价值开释的进程。大数据办理技能面对的首要应战包含5个方面:一是会聚交融,怎么将海量、多源、涣散、异构的数据会聚交融成便于剖析使用的数据资源;二是质量确保,怎么评价大数据的质量、检测及批改其间存在的讹夺,进步数据质量;三是敞开流转,怎么打通数据孤岛,使数据能够打破原生信息体系的鸿沟,经过敞开流转构成更大规划、更高价值的数据资源;四是数据安全与隐私维护,怎么在开释数据价值的一起确保数据不被损坏、走漏和乱用;五是规范化与生态体系建造,怎么和谐各利益方的诉求,树立一起遵从的数据规范体系,并促进构成大数据软硬件生态体系等。

  在大数据会聚交融方面,图灵奖获得者Michael Stonebraker教授的研讨最具代表性,其将大数据交融处理相关研讨分为3代,别离处理传统数据库房场景(十余个数据源)、跨安排数据同享场景(数十个数据源)和数据湖场景(数百个数据源)的数据交融问题。相应的技能道路也存在显着的差异,从榜首代根据规矩的ETL体系,到第二代根据机器学习的Data Curation体系,再展开到第三代机器驱动、人在回路的智能交融体系。清华大学环绕物联网场景,主导研发了Apache IoTDB,在国内外发生了必定的影响力;阿里巴巴、华为、京东等企业提出了建造“数据中台,大数据会聚交融作为数据中台的中心技能才能,在实践中得到了立异展开。

  在大数据质量确保方面,ACM/IEEE Fellow加拿大滑铁卢大学教授Ihab Ilyas 研发了HoloClean体系,该体系首要处理联系数据的过错检测和修正问题,在城市、医疗等范畴的实在数据集大将数据质量进步了1~2倍。谷歌公司构建了Knowledge Vault体系,提出了常识交融办法,处理了万维网现实抽取进程中的数据质量问题,构建了规划远大于现有开源常识图谱的结构化常识库173。清华大学的相关学者提出了人在回路的数据质量进步办法,提出在算法的回路中优化地引进人的辨认与推理才能,在进步数据质量的一起,有用地操控人工参加的本钱。哈尔滨工业大学的相关学者提出了一系列的数据清洗办法,处理了工业时序数据场景下的过错检测与修正问题,显着地进步了数据质量。在工业界,阿里巴巴公司推出了DataWorks全链路数据办理东西,华为公司推出数智交融体系,这些体系首要针对企业数据库房和数据湖的实在场景,经过数据建模、数据集成、数据血缘等技能手法,支撑面向数据全生命周期的质量确保才能。

  在大数据敞开流转方面,数联网成为互联网之上完结可信可管可控的数据互联互通和大数据运用的中心技能。数联网是根据软件界说的,将各种异构数据渠道和体系连接起来,在物理/机器互联网之上构成的虚拟/数据网络,它正在世界规划内展开成为大数据年代的一种新式信息根底设施。其时最有影响力的数联网技能道路是互联网发明人、图灵奖得主Robert Kahn提出的数字方针架构(digital object architecture,DOA),美国、英国、德国、俄罗斯、我国等国是DOA标识解析体系Handle全球根节点的参加者。北京大学自主研发的黑盒式互操作技能及燕云DaaS体系,提出推翻式的数据互操作技能途径——“黑盒”思路,消除了体系源码、数据库表、后台权限、原开发团队等白盒依靠,信息孤岛敞开功率得到大幅进步。在此根底上,2018—2021年,北京大学、清华大学、我国科学院等,在科技部“云核算与大数据”国家要点研发计划专项的支撑下提出了数联网我国云计划。我国信息通讯研讨院于2018年开端建造兼容DOA的国家工业互联网标识解析体系。我国以DOA为代表的数联网体系软件方面获得了世界先进的技能作用。

  在大数据安全与隐私维护方面,同态加密答应数据剖析处理进程中,直接在密文数据上进行核算而无须事前解密,很好地处理了大数据价值使用与数据安全和隐私维护的对立,近年来遭到各界高度重视,从学术研讨逐步进入实践运用。2017年IBM、微软、Intel、NIST的研讨者主导创立了同态加密标示化委员会,致力于研发同态加密安全性、API和运用的规范。安全多方核算在坚持各方数据隐私的一起,使多方能够协作完结某个一起的核算方针。此项技能是密码学的分支范畴,在大数据运用的推进下逐步成为热门,特别是针对机器学习场景,谷歌首要提出联邦学习概念,近年来得到快速展开。2020年美国Meta、日本NTT、我国阿里巴巴等许多企业一起创建了安全多方核算联盟MPC Alliance,旨在推进安全多方核算的认知、承受和选用。

  其时谷歌、OpenMind、LatticeX基金会,以及我国的百度、字节跳动等公司推出了各自的开源联邦学习结构,该范畴呈现出百家争鸣的态势。

  在规范化与生态体系建造方面,ISO/IEC JTC 1、ITU-T、IEEE等世界各大规范安排活跃拟定大数据相关规范,已构成包含参阅模型、要害技能、安全隐私、范畴运用等在内的比较全面的规范体系。我国成立了大数据规范作业组与大数据安全规范特别作业组,现已发布35项国家规范,并活跃参加世界规范的拟定。一起,环绕大数据的开源软硬件社区繁荣展开,全球最大的代码保管渠道GitHub到2020 年选用交际化办法会聚了全球约1亿代码仓,以及近6 000万名开发者,成为科技立异的强壮引擎。开源硬件方面,OpenCores现已成为全世界最大的免费开源硬件IP核线上社区。在大数据开源软件范畴,到2020年木兰社区保管的代码库房量逾越1 500万。在开源硬件方面,2007年美国赛灵思公司的大学计划赞助创建了我国首个开源硬件社区OpenHW。我国科学院的科学数据银行、上海交通大学推进白玉兰敞开数据集社区做了很好的测验,现已发生影响力。

  大数据办理技能全体上尚不老练,许多技能依然处于探求阶段。在大数据会聚交融方面,对比美欧日俄,我国的优势在于数据资源丰厚、政府推进有力、职业运用广泛,这些为技能的立异展开奠定了杰出的根底。可是,我国也显示出单点研讨居多、全体性的体系立异缺少、研讨比较涣散、缺少有影响力的干流体系、缺少运用演示效应等缺少。在大数据质量确保方面,我国处于追逐状况,距离首要体现为根底理论单薄、缺少面向大数据全生命周期的一致的质量办理模型;缺少可完结数据质量、办理本钱、办理时延的一致优化的通用数据质量确保体系;缺少尚无打破多安排跨辖域环境下的全链路数据质量追寻与办理体系。在大数据敞开流转方面,我国的“黑盒”互操作技能和燕云DaaS体系已成为打破数据孤岛的“撒手锏”技能,到达世界抢先水平;在此我国已提出了数联网我国云计划,拟定了DOIP新版规范,全体与国外处于技能并跑的阶段。一批职业级和区域级数联网根底设施正在展开建造,使得我国在数联网运用方面获得世界抢先位置。在大数据安全与隐私维护方面,我国运用较多,根底性、原创性作用缺少,还有待大力展开;在规范化与生态体系建造方面,我国紧跟世界展开前沿,大数据规范体系规划已根本构成,并在稳步推进中。我国开源生态建造方面近年来尽管有所展开,但全体处于跟跑阶段,部分我国企业主导的开源项目(如华为CarbonData)锋芒毕露,可是我国主导的生态体系没有树立。全体上我国数据办理技能展开较晚,体系远未成形,技能产品生态仍由外国主导,一起在以数联网为代表的数据敞开流转技能方面与世界先进水平适当。

  在大数据运用需求的驱动下,核算技能体系正在重构,从“以核算为中心”向“以数据为中心”转型,在新的核算技能体系下,一些根底理论和中心技能问题亟待破解。本文提出新式大数据体系技能展开的十大趋势。

  趋势一:数据与运用进一步别离,完结数据要素化。数据一开端是依附于详细运用的。数据库技能的呈现使得数据与运用完结了榜首次别离。数据存储在数据库中,不再依靠详细的运用而存在。数据要素化的需求将推进数据与运用进一步别离,数据不再依靠于详细的事务场景,数据以独立的形状存在于数据库中,并经过数据服务为不同的事务场景供给服务。例如,人口数据库能够为悉数的触及人口信息的事务场景供给服务。

  趋势二:数联网成为数字化年代的新式信息根底设施。将构成一套完好的数联网根底软件理论、体系软件架构、要害技能体系,包含:针对数联网软件以数据为中心的特色,需求从杂乱网络和杂乱体系等杂乱性理论动身,研讨数联网软件的结构组成、行为办法和外在性质;针对数联网软件的数据传存算一体化需求,需求选用数据互操作技能和软件界说思维,研讨数联网软件运转机理、体系结构与要害机制;针对数联网软件跨层级、跨地域、跨体系运转带来的可靠性、可用性、安全性等质量应战,需求以数据驱动为手法,研讨数联网环境下确保服务质量与维护质量的原理、机制与办法。

  趋势三:从单域到跨域数据办理,促进数据要素的同享与协同。以数据为中心的核算的中心方针是数据价值的最大化,要害要打破数据孤岛,完结数据要素的高效同享与协同。传统数据办理限制在单一企业、事务、数据中心等内部,未来大数据办理将从传统的单域办法展开到跨域办法,跨过空间域、统辖域和信赖域。但跨空间域会构成网络时延较高且不安稳;跨统辖域会构成数据与运用异构,数据办理杂乱度大大进步;跨信赖域则要求具有忍受各类歹意过错的才能。跨域带来的这些改变将为大数据技能带来新的机会和应战。

  趋势四:大数据办理与处理体系体系结构异构化日趋显着。体系结构立异进入黄金十年,环绕不同数据处理特征的新式加速器(GPU、TPU、APU等各种xPU)层出不穷,存储器材快速展开,高速固态硬盘(solid state disk,SSD)、新式非易失内存、新式核算网络等成为大数据处理体系的重要硬件装备,核算与存储的交融趋势显着。为了最大极限地发挥数据办理才能,大数据办理体系在存储、网络、核算等硬件上最大化发掘新式硬件的处理才能。在处理上针对不同数据处理需求,装备不同核算与存储硬件成为大数据处理体系的干流架构。数据驱动的核算架构快速展开,以数据流为中心的体系结构成为重要的体系规划理念。

  趋势五:扩展性优先规划到功用优先规划。数据规划急剧增加,大数据处理需求越来越走向深度价值发掘,数据处理核算益发密布,数据办理与处理的本钱成为大数据办理与处理体系的重要考量要素,传统“扩展性优先”的大数据处理体系规划将会被“以功用优先”的体系规划替代。Spark、Flink等体系在大数据处理生态体系中的占有率显着体现了这一趋势,图核算(图加速器、图核算结构等)、深度学习结构(Tensorflow、PyTorch等)等范畴专用大数据处理体系的兴起也是这一体系规划理念在技能生态上的体现。智能化数据办理、近似核算等新式办理和处理办法成为功用优先规划的重要技能手法。

  趋势六:近数处理成为打破大数据处理体系功用瓶颈的重要途径。存算一体类体系结构技能快速展开,新式SSD等新式存储赢家功用益发丰厚,散布式核算体系边际才能敏捷展开。以上3种体系结构技能展开为大数据近数处理供给了杰出的展开要害。近数处理体现在“存储上移”(如在GPU、现场可编程门阵列(field-programmable gate array,FPGA)等核算设备上集成HBM)、算力下沉(如在DRAM内存或许SSD存储设备上集成处理才能)、“散布扩展”(如在云、边、端散布式处理数据,下降数据处理中心压力)3个方面。

  趋势七:从单域单模态剖析到多域多模态交融,完结广谱相关核算。传统大数据剖析技能大多仅聚集于单一来历、单一模态的数据,而实践运用中往往要对来自不同来历、不同模态(如文本、图画、音视频等)的数据进行联合剖析,然后完结不同来历与不同模态数据之间的信息互补。此外,许多范畴的大数据具有重要的时空特点,其时研讨对这类信息的使用还不行充沛。因而,探求能够跨模态相关、跨时空相关的广谱相关技能是大数据剖析处理的一个重要趋势。

  趋势八:从聚集相关到探求因果,完结剖析作用可解释。怎么让大数据剖析模型愈加安稳且具有可解释性,然后使其剖析作用关于用户而言变得愈加可信、愈加可用最好还能具有必定的可回溯性,是大数据剖析面对的巨大应战。尽管因果揣度与可解释性剖析技能获得了必定展开,但全体来说尚处于起步阶段,离实践运用还有很长一段距离。因而,从相关到因果也是未来大数据剖析技能的重要研讨方向。

  趋势九:高能效大数据技能是可继续展开的要害。全球大数据量的继续高速增加,以及“碳达峰、碳中和”方针的提出,要求大数据技能栈有必要走低碳高效、可继续展开的道路。例如云数据办理体系以资源同享、节能高效为首要特色,将是未来大数据办理的首要根底形状;在云数据办理根底上的全国一体化高能效大数据办理,因为算力和数据要素的大规划调度与流转,能够进一步成为未来大数据办理的首要方向,构成低碳展开新格局。

  趋势十:大数据规范规范和以开源社区为中心的软硬件生态体系将成为展开的要点。 跟着大数据在各个范畴运用的敏捷遍及,规范化需求将不断增加,与大数据活动交融、质量评价,以及与职业、范畴运用密切相关的大数据规范将成为展开要点。开源社区在大数据软硬件生态建造中的位置不断加强,对开源社区的主导权抢夺将成为各国技能、产品和商场竞争的要点。

  在大数据运用需求的驱动下,核算技能体系正在重构,从“以核算为中心”向“以数据为中心”转型,在新的核算技能体系下,一些根底理论和中心技能问题亟待破解。本文提出新式大数据体系技能展开的十大趋势。

  回忆国内外大数据技能在办理、处理、剖析与办理4个方面近10年的展开,能够看出:数据规划高速增加,现有处理核算才能现已成为瓶颈;数据成为出产要素,但数据价值开释不充沛;从工业生态要点的变迁看,呈现出“运用先于理论技能,商场先于规范法规”的现象。尽管大数据现已在一些运用范畴(特别是互联网范畴)获得了较好的成效,可是大数据根底理论和运用技能不老练,大数据办理体系远未树立。全体上,大数据展开依然处于初级阶段。

  我国在大数据展开方面获得了活跃展开,但全体上较世界先进水平,仍存在距离。详细地,大数据办理技能大部分范畴与国外顶尖水平根本相同或挨近,其间高能效一体化大数据办理范畴处于世界抢先水平;大数据处理技能大都范畴与国外顶尖水平尚存在技能距离,在资源和互联网运用范畴大数据处理技能运用较好,与世界最高水平根本相等;大数据剖析的根底理论与中心技能方面与世界先进水平还存在着必定距离,在商业等范畴运用方面已逾越国外;大数据办理技能全体上展开较晚,体系远未成形,技能产品生态仍由国外主导,一起在以数联网为代表的数据敞开流转技能方面与世界先进水平适当。面向未来,在大数据运用需求的驱动下,核算技能体系有必要进行重构,以数据为中心的新式大数据体系技能成为重要方向,信息技能体系将从“以核算为中心”向“以数据为中心”转型,新的根底理论和中心技能问题仍有待探求和破解。以大数据办理、处理、剖析和办理为中心的大数据技能在原有通用核算体系上的继续优化仍有展开空间,以数据为中心的新技能体系将成为缩小大数据规划指数级增加与大数据核算需求和才能之间“剪刀差”的打破点。

  梅宏,博士,北京大学教授、高可信软件技能教育部要点实验室(北京大学)主任,我国科学院院士,展开我国家科学院院士,欧洲科学院外籍院士,我国核算机学会理事长。首要研讨方向为软件工程与体系软件。

  杜小勇,博士,我国人民大学教授、校长助理,我国核算机学会大数据专家委员会主任,首要研讨方向为数据库与大数据。

  金海,博士,华中科技大学核算机科学与技能学院教授,我国核算机学会副理事长,首要研讨方向为核算机体系结构、并行与散布式核算。

  程学旗,博士,我国科学院核算技能研讨所研讨员、副所长,首要研讨方向为大数据剖析体系、Web信息检索与数据发掘等。

  柴云鹏,博士,我国人民大学信息学院教授、核算机系主任,首要研讨方向为数据库体系、云核算、存储体系等。

  石宣化,博士,华中科技大学核算机科学与技能学院教授,首要研讨方向为并行与散布式核算、异构核算。

  靳小龙,博士,我国科学院核算技能研讨所研讨员,首要研讨方向为常识图谱、常识工程、社会核算、交际网络等。

  王亚沙,博士,高可信软件技能教育部要点实验室(北京大学)教授,首要研讨方向为大数据剖析、普适核算、城市核算。

  刘驰,博士,北京理工大学核算机学院教授、副院长,首要研讨方向为大数据剖析、智能物联网。