戴万阳

教授 (博导、重要学科岗)
单位:南京大学数学系
返回:戴万阳中文版主页
量子计算区块链国际工业革命论坛 理事长
江苏大数据区块链与智能信息专委会 主任
江苏省概率 统计学会    理事长
江苏金融科技研究中心 特邀专家
国际《人工智能、机器学习与数据科学》  主审
国际《无线电工程与技术》 主审


数据“局”与大数据大模型



        编辑按语:   时值当前数据“局”,无论是迷局、困局、还是布局,我们已面对
激烈的颠覆性技术的竞争。刚刚结束的2023年两会顺应时代地宣布成立国家层面
上的数据局来协调数据的各种关系。业内有实之士认为数字经济本质就是利用大
数据来协调供给侧与需求侧之间关系;而当今出现的影响世界发展的智能系统也
直接由大数据大模型所致。碰巧,戴万阳教授于2017年在其国家自然科学基金立
项项目中最早设计了有关系统与技术, 在此公布部分内容与大家共享。                  


             当今,我们正处在悄然而至的第四次工业革命与大数据信息时代(参见文Schwab [31], Editorial [19]和Mauro et al. [26]), 核心智能新技术、新方法、新理论的发明与发展广受世界科学、学术与实业界的关注,众多相关的研究与发展已成为国家战略并 演化为国家“十三五”发展规划中的重点领域,同时,这些主题与议题也是近年国际达沃斯经济论坛与美军智库(见文Office [28]) 新技术预测的主要内容。
             第四次工业革命也称为智能工业革命,它的核心内容是处理“机器”与“物理环境”的智能交互问题(参见文Schwab [31]),即从“物 理环境”以数据或大数据信息方式产生需求并由“机器”提供基于多种类区块链(参见文Iansiti and Lakehani [25])的智能服务。 这种智能供需系统是一种新的复杂综合智能系统,它与传统的类似系统有着本质上的差别,比如:无论是物理环境产生的信息还是 机器的智能服务都可能以大数据(或更时尚地称海量大数据)的方式出现(可参见文Economist [18]中对2014年因特网数据流量的 预测,年传输量可达667E以上,这里E是数据流量单位:1E=1000000000G),而这些大数据的本质特征就是数据的瞬时容量大、流速 快、数据种类多、智能服务速率与质量要求高(参见文Editorial [19]和Mauro et al. [26])。除了系统中这种复杂的服务与需求 关系外,这里所涉及的机器与物理环境自身也与传统的概念有着很大的差别。为叙述方便,我们将借用与经济学及国家层面上流行 的术语“供应侧”(参见文Dwivedi [17])和“需求侧”(参见文Harvey [23])相类似的术语“机器侧-物理侧”来刻画这种系统,但与 经济学研究中主要注重探讨单方“供应侧”或单方“需求侧”的不同之处在于:我们更注重“机器侧-物理侧”两侧混合网络之间的智能 交互问题,此时,我们这里新引进的这种广义“机器侧-物理侧”混合网络智能交互系统可理解为是当今世界上所关注的物联网(参 见文Santucci [30])、甚至人联网(参见文Dai [8])及“美国陆军智库”于2016年4月在2016-2045年新科技趋势中所预测的物联网 (见文Office [28])的最近的一般形式。对于此系统,我们这里的研究目标是在一般意义下为这种系统建立起合适的(随机或排 队)动力学模型及得到系统的有关多目标整体Pareto最优动态博弈均衡策略并发展相应的归一化数学论证理论和方法体系。
             值得指出的是,尽管第四工业革命与智能大数据等新理念新科技有着强烈的时代特征与现实意义,但它们也明显地标刻着科技发展 的历史印迹并与我们自身在该领域卓有成效的前期研究成果密不可分,比如:我们基于资源共享排队网络及无线移动通信中第四代 (4G)与第五代(5G)及相关将来网中多进多出(MIMO)信道资源最优调度控制这方面的工作(见文Dai [10])于2013年12月发表 在国际公认的顶尖杂志《Operations Research》上并得到世界顶尖科学实验室(美国贝尔实验室(Bell Labs))著名科学家与无线 通信领域权威杂志论文的引用,而相关成果Dai [11]也发表在国际权威杂志上并获得了2015年Taylor & Francis数学与统计学读者奖 的提名,另外,其成果Dai [7]与Dai and Dai [14]等已受到包括1位美国科学院院士、2位美国工程院院士、1位美国科学与艺术院院 士、3位INFORMS John von Neumann奖得主、1位INFORMS Lanchaster奖得主、1位INFORMS Erlang奖得主、4位INFORMS应用概率最佳论 文得主等众多著名学者的突破性论文、1位IEEE会士(IEEE Fellow)与INFORMS应用概率最佳论文得主的有关复杂网络控制技术的专 著《Control Techniques for Complex Networks》及数学界中最具权威最有影响的世界数学家大会概率统计方面45分钟特邀报告者 会议论文的引用与发展。
             机器侧的服务及可用于服务的资源容量很大程度上取决于机器的构成,我们将之定义为“机器侧结构”,它可为实体的单台机器也可为 由多种多台机器组成的复杂智能网络结构。在具体的实际系统中,它可以是提供虚拟数据服务与数据处理云中心(参见文Hassan [24] 与Dai [12])的高性能计算机或由它们组成的网络的结构,也可以是各种提供实体服务的机器系统(比如:能源与电力系统、有线或 无线通信系统、自动化机器生产线等)的结构。同时,与“机器侧结构”相应的“物理侧结构”也可理解为是单个终端智能装置或为由多 种多台装置组成的复杂终端智能网络的结构,但它的定义可随“机器侧结构”的定义变化而有所变化。
             在“机器侧”为云中心或由多个云中心组成的网络(参见文Hassan [24]和Dai [12])时,该系统相应的“物理侧”可直接理解为通信系统、 能源与电力系统、机器生产线、供应链、金融科技系统、医疗保健系统等它们自身或由这些系统组成的多系统交互的复合网络系统, 每个实体系统可由单独的云中心实行区块链智能控制并在云中心之间组网,也可由统一的云中心网直接实施多类区块链智能服务并调 度控制各类实体系统。对于这种系统,如何有效地处理“机器侧-物理侧”两侧的资源配置问题尤为令人关注,而与之相关的大数据、分 布式区块链(见文Iansiti and Lakehani [25])存储处理、金融科技FinTech(见文Bayer et al. [4], Dai [9], Dai and Jiang [15], Munch [27])、移动云计算(见文Dinh et al. [16])和能源及电力系统(见文Shah [32])等诸多虚拟经济与实体运营中出现的新技 术新趋势也是广受国际关注的热点,它们近期已被列为多项国家“十三五”发展规划中的重点领域。
             当云中心退化为“机器侧”的辅助智能系统时,其“机器侧”的主体可仅为单个实体机器系统,比如:能源与电力系统、有线或无线通信 系统、机器生产线、供应链、金融科技系统等,此时,相应“物理侧”可理解为实际用户或其智能装置(比如,无人机)及传感网(参 见文Akyildiz and Kasimoglu [2])等。对于这类系统,如何有效地处理“机器侧”单侧实体机器系统的资源配置问题很令人关注,第五 代(5G)无线移动通信系统、金融科技系统、能源与电力系统的相关议题均已被列入国家“十三五”发展规划中的重点领域,而本项目 申请人自己也应邀将于2017年11月在加拿大多仑多举行的国际能源与电力系统国际会议上作特邀大会主旨报告、2017年4月召开的国际 工程与技术大会上作特邀大会主旨报告、并被聘任为2017年1月6日刚刚成立的江苏金融科技研究中心特邀专家。
             对于这种“机器侧-物理侧”交互系统,其关键问题就在于如何智能地处理系统内部的各种动态资源使得系统中产生的各种需求以最优或 合理的方式得以满足与服务。“物理侧”产生的需求可抽象地用“顾客”标识之,它可代表数据信息中的字节或更一般的由字节组成的数 据包、金融中的货币单位、实体系统中的真实用户等,当然,也可以把它们理解为物理学中的基本粒子。“机器侧”所拥有的资源则是指 系统在特定时刻能向“顾客”提供服务的系统容量,比如:数据处理的速率与瞬时能提供服务的货币、能源及电力容量等。所谓的最优或 合理的服务方式则由各种效用函数、成本函数与收益函数等准则函数来衡量,一方面,这些函数可由系统自身的性能决定,而另一方面, 它们可代表资源提供者之间、客户之间、资源提供者与客户之间利益的分成关系,常可通过多方磋商合约而定。在这些函数被设定以后, 为了最优或合理地达到准则函数所需的指标,如何选取或设计系统的相应的智能资源配置和运营策略是最令人关注的地方。然而,对于 一个现代或未来复杂的“机器侧-物理侧”动态交互系统,由于大数据的存在及系统自身网络系统结构的复杂性,设计一个最优或有效的智 能资源配置与运营策略的难度是可想而知的。
             为克服这种困难,近些年,我们建立起高维随机系统模型(包括一般性带Levy跳的随机(常或偏)微分方程)来捕捉大数据瞬时大容量 的跳跃(比如:批量数据)、快流速及多种类的本质特征,并进一步发展出有关随机最优控制与随机微分博弈系统及相关的数学理论, 这些成果部分地已发表在国际权威杂志(比如:Dai [9])上,同时,也部分地在线公开在arXiv上并正在接收国际权威杂志的评审。值 得指出的是:我们发展的这些随机系统模型在不少情况下可直接应用于求解时空大数据(包括时空纵向大数据)和一些实际物理问题。 为此,本申请者应美国数学科学会的邀请分别于2014年与2016年在西班牙马德里与美国佛罗里达组织了有关的特邀分会并作了相关的特 邀报告。在本申请者组织这两次邀请分会的过程中,我们的邀请得到了包括美国院士在内的众多世界著名学者的响应、出席并作了有关 的特邀报告。令人感兴趣的是:在组织2016美国佛罗里达特邀分会的同时,美国院士Williams也在组织相关的国际会议,除了国际著名 学者之外,他们还特邀了包括IBM公司、微软公司等实业界重要研发中心的多名著名科学家作特邀报告并将随机系统与云计算大数据列 为最主要的特邀论坛议题。由于美国院士Williams是本申请人学科领域最为相近的美国重要科学家之一,又加之我们两个会议的会期相 差无几,我们组织的这两次国际邀请会议形成了很有意思的人才竞争现象。显然,这种竞争对本申请人正在完成之中的利用反射扩散逼 近及渐近Pareto最优纳什均衡方法处理大数据智能云的课题产生了紧迫感,而此时恰巧中国运筹学会也发来正式函件让本申请人在中国 运筹学会第十届年会上作有关的特邀主题报告,于是,在2016年7月初从美国回来以后,本申请人便与时间赛跑完成了一篇利用反射扩散 逼近及全新的渐近Pareto最优动态博弈纳什均衡方法处理大数据智能云的45页的较长论文(参见文Dai [13]及本申请人主持的今年将结题 的国家自然科学基金面上项目2016年进展报告)并将之提交到了国际权威杂志上接受评审,另外,该文同时也被特邀为2017世界工程与技 术大会(SCET 2017)的大会主旨报告。下面,为了便于阐明我们正在申请的新项目的创新之处,我们在此对在审的该文作一些总结。
             在此文中, 我们首次提出三随机更新报酬过程的概念并用此来刻画实际中可能出现的一种不具马氏性的大数据流,它不仅允许瞬时大容量 数据的到达而且还允许瞬时到达速率的随机性与时变性,因而,该过程比现存的Levy过程及更新报酬过程更为一般。基于此,我们发展出 具有多个智能云计算服务池与多个并行存储队列的博弈平台用于调度控制多用户(多博弈者)参与的速率、能源等资源竞争与配制的大数据 系统,它将现存的多种无线与有线通信网络、云计算与区块链服务等系统与成果(参见文Acampora et al. [1], Bhardwaj and Williams [5], Dai [10], Harrison [21,22], Ye and Yao [35])归纳在统一的平台系统与数学框架及理论体系下进行探讨。在该系统中,每个参与 博弈的用户可同时接受多个云服务池的服务;同时,每个云服务池也可在同一时刻为多个用户提供服务。我们平台系统中每个时刻的资源 调度策略由一静态博弈问题的Pareto效用最大纳什均衡点来确定,而我们的主要理论成果是证明了所设计的基于每个时刻点的近视策略是 整个时间轴上一随机动态博弈问题的Pareto最小对偶成本纳什均衡策略,即证明了我们所设计的策略不仅最优地利用了整个系统的资源, 同时对每个参与博弈的用户而言也是公平的。另外,基于三随机报酬更新过程,我们建立并证明了有关的泛函中心极限定理并将之用到了 有关渐近Pareto最优动态博弈纳什均衡的泛函极限定理的证明中,其极限为前面提及的一类高维反射随机微分方程,同时,我们也首次创 新性地发展了该随机微分方程的模拟算法,并以此从数值上证明了上述所设计调度控制策略的优越性。
             相比于我们的上述研究,我们新引进的“机器侧-物理侧”交互系统将是更广泛意义下的智能物联网。它不仅存在虚拟智能网络处理大数据的 资源配置问题,而且还存在实体网络自身实际生产与运营的资源调配问题,它们都同时存在节点内部与节点之间的资源调度与路由问题并 存在系统容许控制问题,更进一步地,它们还存在当今国际上最为人关心的资源整合分解与机器处理器共享问题,比如:无线或有线通信 系统阵列天线等技术的多进多出光束波束资源整合分解问题(见文Goldsmith et al. [20]、Dai [10]和Ye and Yao [35])、多种类多客户 基于分布式技术的能源与电力系统资源整合分解问题(见文Shah [32])、生产线与物流中的定单组装与定单制造资源整合分解问题(见 文Dai and Jiang [15]和Plambeck and Ward [29])、区块链技术中分布式存储管理资源整合分解问题(见文Iansiti and Lakehani [25]) 等。因而,在这种更广泛意义下的“机器侧-物理侧” 智能交互物联网中,如何同时以Pareto最优动态博弈纳什均衡方式有效地调度控制两 侧的资源配置问题便成了极具实际意义又非常具有数学挑战的问题,这也是我们在该新项目中准备攻克的难点之一。
             另外,由于受到器材装置性能的影响,许多系统的存储容量会受到局限,比如:实体能源与电力系统中瞬时进行大规模存储是不可能的、 智能自动化生产线节点中的存储通常是有限的;进一步地,由于出于各种性能的考虑,在许多系统(比如:无线与有线通信系统)的设计 中,常将系统的存储容量设为有限或为零;而当今流行的金融科技与投资组合区块链系统中也会出现这种实际的设计或限制。因而,这种 多网络混合的交互系统便将排队论中典型的无限缓存(见文Dai [10])、有限缓存(见文Dai [7]和Dai and Dai [14])与零缓存损失(见 文Dai [11])等存储机制集于一体,形成了复杂的存储处理网络系统,也进一步增加了系统调度控制与性能评估的难度,而这些正是本项 目力图建立起归一化的随机动态框架体系并发展相应的数学理论与Pareto最优动态博弈纳什均衡方法加以攻克之的另一创新点。
             最后,在该项目中,所有涉及的大数据流都将用一般性的三随机更新报酬或Levy过程刻画之,同时,在此基础上,我们将设计出可用于系 统资源调度、路由与控制的多目标整体Pareto最优(或渐近Pareto最优)动态博弈纳什均衡策略并发展出完整的数学论证理论与方法 (点击这里查看相关发表论文)。

参考文献:

  • 1. A. S. Acampora, S. Bhardwaj, and R. M. Tamari, “On best-case throughput of cellular data networks with cooperating base stations”, Proc. of the Allerton Conference on Communication, Control, and Computing, Monticello, IL. 2006.
  • 2. I. F. Akyildiz and I. H. Kasimoglu, “Wireless sensor and actor networks: research challenges”, Ad Hoc Networks, Vol. 2, No. 4, pp. 351-367, 2004.
  • 3. R. Atar, “Scheduling control for queueing systems with many servers: Asymptotic optimality in heavy traffic”, Annals of Applied Probability, Vol. 15, No. 4, pp. 2606-2650, 2005.
  • 4. C. Bayer, U. Horst, and J. Qiu, “A functional limit theorem for limit order books with state dependent price dynamics”, Annals of Applied Probability, 2017 (to appear).
  • 5. S. Bhardwaj and R. J. Williams, “Diffusion approximation for a heavily loaded multi-user wireless communication system with Coorperation”, Queueing Systems, Vol. 62, No. 4, pp. 345-382, 2009.
  • 6. M. Bramson, “State space collapse with application to heavy traffic limits for multiclass queueing networks”, Queueing Systems, Vol. 30, pp. 89-148, 1998.
  • 7. W. Dai, “Brownian approximations for queueing networks with finite buffers: modeling, heavy traffic analysis and numerical implementations”, UMI Dissertation Service (Publishing Number, UMI Number 9714724), A Bell & Howell Company, 300 N. Zeeb Road, Ann Arbor, Michigan 48106, U.S.A., 1997.
  • 8. W. Dai, “On the traveling neuron nets (human brains) controlled by a satellite communication system”, Proceedings of International Conference on Bioinformatics and Biomedical Engineering (ICBBE 2009), pp. 1-4, IEEE Computer Society Press, 2009.
  • 9. W. Dai, “Mean-variance portfolio selection based on a generalized BNS stochastic volatility model”, International Journal of Computer Mathematics, Vol. 88, No. 16, pp. 3521-3534, 2011.
  • 10. W. Dai, “Optimal rate scheduling via utility-maximization for J-user MIMO Markov fading wireless channels with cooperation”, Operations Research, Vol. 61, No. 6, pp. 1450-1462 (with 26 pages online e-companion ( Supplemental)), 2013.
  • 11. W. Dai, “Optimal control with monotonicity constraints for a parallel-server loss channel serving multi-class jobs”, Mathematical and Computer Modeling of Dynamical Systems, Vol. 20, No. 3, pp. 284-315, 2014.
  • 12. W. Dai, “Product-form solutions for integrated services packet networks and cloud computing systems”, Mathematical Problems in Engineering, Volume 2014 (Regular Issue), Article ID 767651, 16 pages, 2014.
  • 13. W. Dai, “Scheduling Game with Intelligent Cloud-Computing Pools for Real or Virtue Big Data: Fairness and Pareto Optimality”, 56 pages, Preprint (Invited Talk of 10th Annual Conference of ORSC).
  • 14. J. G. Dai and W. Dai, “A heavy traffic limit theorem for a class of open queueing networks with finite buffers”, Queueing Systems 32, pp. 5-40, 1999.
  • 15. W. Dai and Q. Jiang, “Stochastic optimal control of ATO systems with batch arrivals via diffusion approximation”, Probability in the Engineering and Informational Sciences, Vol. 21, pp. 477-495, 2007.
  • 16. H. T. Dinh, C. Lee, D. Niyato, P. Wang, “A survey of mobile cloud computing: Architecture, Applications, and Approaches”, Wireless Communications and Mobile Computing, vol. 13, No. 18, pp. 1587-1611, 2013.
  • 17. Dwivedi, “Macroeconomics, 3E: The supply-side economics is the most recent macroeconomic thought”, Tata Mcgraw-Hill Education, ISBN 978-0-07-009145-0, 2010.
  • 18. Economist, “Data, data everywhere”, The Economist, 2011.
  • 19. Editorial, “Community cleverness required”, Nature, Vol. 455, No. 1, 2008.
  • 20. A. Goldsmith, S. A. Jafar, N. Jindal, N. Vishwanath, “Capacity limits of MIMO channels”, IEEE J. Selected Areas Comm., Vol. 21, No. 5, pp. 684-702, 2003.
  • 21. J. M. Harrison, “Brownian models of open processing networks: canonical representation of workload”, Annals of Applied Probability, Vol. 10, No. 1, pp. 75-103, 2000, Correction, Vol. 16, No. 3, pp. 390-393, 2003.
  • 22. J. M. Harrison, “A broader view of Brownian networks. Annals of Applied Probability”, Vol. 13, No. 3, pp. 1119-1150, 2003.
  • 23. A. Harvey, “Demand Side Economics: Demand Side Minds”, CreateSpace Independent Publishing Platform, ISBN 1478205806, 2012.
  • 24. Q. Hassan, “Demystifying cloud computing”, The Journal of Defense Software Engineering, CrossTalk, 2011 (Jan/Feb): pp. 16-21, 2011.
  • 25. M. Iansiti, K. R. Lakehani, “The truth about Blockchain”, Harvard Business Review, January, 2017.
  • 26. A. De Mauro, M. Greco, M. Grimaldi, “A formal definition of Big Data based on its essential features”, Library Review, Vol. 65, pp. 122-135, 2016.
  • 27. J. Munch, “What is FinTech and why does it matter to all entreprenurs?” Hot Topics, December 9, 2014.
  • 28. Office, “Emerging Science and Technology Trends: 2016-2045”, Office of the Deputy Assistant Secretary of the Army (Research & Technology), April, 2016.
  • 29. E. L. Plambeck and A. R. Ward, “Optimal control of a high-volume assemble-to-order system”, Mathematics of Operations Research, Vol. 31, pp. 453-477, 2006.
  • 30. G. Santucci, “The Internet of Things: Between the Revolution of the Internet and the Metamorphosis of Objects”, European Commission Community Research and Development Information Service, 2016.
  • 31. K. Schwab, “The Fourth Industrial Revolution”, World Economic Forum, Cologny, Switzerland, 2016.
  • 32. K. K. Shah, A. S. Mundata, J. M. Pearce, “Performance of U.S. hybrid distributed energy systems: Solar photovoltaic, battery and combined heat and power”, Energy Conversion and Management, Vol. 105, pp. 71-80, 2015.
  • 33. R. J. Williams, “An invariance principle for semimartingale reflecting Brownian motions in an orthant”, Queueing Systems, Vol. 30, pp. 5-25, 1998.
  • 34. R. J. Williams, “Diffusion approximations for open multiclass queueing networks: sufficient conditions involving state space collapse”, Queueing Systems, Vol. 30, pp. 27-88, 1998.
  • 35. H. Ye and D. D. Yao, “Heavy traffic optimality of a stochastic network under utility-maximizing resource control”, Operations Research, Vol. 56, No. 2, pp. 453-470, 2008.

戴万阳、国家自然科学基金共同享有著作权与版权