来源:阿里研究院
文 | 何大安
浙江工商大学人文社会科学资深教授,阿里巴巴集团第三届学术委员会委员,浙江工商大学应用经济学一级学科博士点学术委员会主任,浙江工商大学学术委员会副主任,浙江工商大学经济学部主任,享受国务院特殊津贴,浙江省有突出贡献的中青年专家。
摘要
金融大数据和大数据金融,是两个具有不同内涵的概念,我们有必要在区分各自内涵的基础上,通过分析金融大数据构成来说明用于金融决策的信息来源,通过分析大数据金融这一动态过程来论证大数据、互联网和人工智能等的融合对金融决策行为的重塑。对于大数据金融,无论是分析它的操作过程还是应用场景,都必须对大数据金融实施平台和技术条件配置作出分析的同时,对云计算、机器学习等人工智能手段作用于大数据金融发展的过程进行分析。本文在考察金融大数据构成的基础上,力图通过大数据金融的研究来揭示将来人类金融决策行为有可能产生的一般机理。
1
金融大数据构成及内涵考察
金融运行和金融发展是人类经济文明的一个重要组成部分。从反映人类文明的人文主义看,大数据问世前后的人文主义是不同的。在大数据问世前的农业化社会直至工业化社会的初期和中期,尽管出现了各种风靡一时的人文主义,但科技因素对人文主义的影响通常是从属于文化因素的;大数据问世后,科技人文主义有着逐步取代历史上各种人文主义的趋势。推崇大数据的未来学家是科技人文主义的信奉者,他们认为将来一切都由大数据主宰,人类所有活动和自然界所有现象都将会成为一种“算法”。世界的未来大势果真如此吗?对此,经济学家可能不敢贸然下结论,但在大数据、互联网和人工智能等相融合的今天,金融运行和金融发展作为人类经济活动的重要领域,有许多可通过现象捕捉和把握的机理,需要经济学家去研究。事实上,大数据是自有人类就存在但直到工业化后期才出现的概念,该概念既包括数字化数据,也包括非数字化数据;既包括人类社会活动留下的所有痕迹,也包括自然界所有现象的痕迹。同时,它不仅包括已发生事件的历史数据,而且包括正在发生事件的现期数据和将会发生事件的未来数据。我们现今描述和论证的大数据,主要是针对人类活动而言的,如工业大数据、农业大数据、消费大数据、金融大数据、投资大数据、社交媒体大数据以及人们衣食住行各种分类的大数据等。就金融大数据而论,它主要由金融机构、厂商、个人和政府当局在投资、储蓄、利率、股票、期货、债券、资金拆借、货币发行量、期票贴现和再贴现等构成。大数据构成的分类权重很复杂,需要我们利用云平台和运用云计算、人工智能技术来处理,而不是简单加总就可以作为决策依据的数据。换言之,理解金融大数据的构成并不难,困难主要发生在如何搜集、整合和分类大数据的分类权重,以及如何对这些经常变动的金融大数据进行挖掘、加工和处理。
金融大数据内涵,可以理解为大数据中蕴含的反映人们金融交易行为互动的基本信息,这是一种依据“信息来源于大数据”的认知而得出的理论考量。比较金融大数据内涵与金融大数据构成,两者之间存在关联;前者会在一定程度上规定后者,这主要体现在大数据分类构成及其权重变化会导致金融运行有可能出现的机遇、风险或危机等方面;金融大数据内涵并不等价于金融大数据构成,这是因为,金融大数据内涵在一定程度和范围内要受到政府宏观调控政策及其制度安排的影响,以至于人们难以依据金融大数据构成进行决策。这个问题会涉及金融大数据外延,以及人们根据金融大数据进行决策会不会出现偏差等的讨论。不过,我们在一般理论层面上讨论金融大数据内涵,把聚焦点放在金融大数据构成上,应该说抓住了问题分析的症结。
金融大数据内涵具有极大量、多维度和完备性等特征,人们根据金融大数据进行决策,需要有处理这些特征的新科技手段。在现已运用的新科技中,云平台是搜集和分类极大量和完备性之大数据的基础,集约化云计算是加工和处理极大量和完备性之大数据的主要技术手段,机器学习、物联网、区块链等其他人工智能技术则是对多维度大数据进行甄别、判断和预测的主要分析工具。人类运用新科技手段对金融大数据的挖掘、搜集、整合、分类、加工和处理,存在着效用函数的评估问题。从正确把握金融大数据内涵从而消除金融活动不确定性来考察,该效用函数要取得最大值,关键是人们不仅要能加工和处理历史数据,而且要能加工和处理现期数据和未来数据,并且能够从历史数据、现期数据和未来数据中获得准确信息。金融大数据内涵既可以从静态上理解,也可以从动态过程解释。显然,经济学家分析现期数据和未来数据是对金融大数据内涵的动态研究,它是我们解说金融大数据内涵的分析基点。
社会物理学认为人们面对未来决策存在“想法流”(彭特兰,2015),这个想法流与人们行为之间有着可靠数量关系,它会改变人的选择并能够推动创新。这个观点的启示是,我们可以把金融领域已经发生事件的行为数据,定义为金融机构、政府当局、厂商和个人的“行为数据流”,把金融领域尚未发生但即将会发生事件的行为数据,解说为金融机构、政府当局、厂商和个人的“想法数据流”。在结合金融大数据是数字化数据与非数字化数据之和的规定下,我们可得到以下等式:金融大数据 = 行为数据流 + 想法数据流 = 历史数据 + 现期数据 + 未来数据 = 数字化数据 + 非数字化数据。这个系列等式非常重要,它在很大程度和范围内揭示了金融大数据内涵,给我们提供了一幅研究正在兴起的大数据金融的分析图景。
大数据金融,主要是指运用大数据分析方法从事金融活动的方法和过程,即厂商、个人和政府通过云计算、机器学习、物联网、区块链等人工智能技术来匹配金融大数据的方法和过程。大数据金融反映的是,金融机构、政府当局、厂商和个人正在进行决策的具体过程。较之于金融大数据,大数据金融关注大数据工具的选择和运用,强调金融活动主体在互联网扩张过程中掌握和运用云平台、云计算、机器学习、物联网、区块链等人工智能手段的技术层级,注重金融活动的效用函数。从数字经济运行角度看,大数据金融的落地过程伴随着互联网、大数据和人工智能等相互融合的运行过程。
2
大数据金融的实施平台和技术配置分析
大数据在各行各业广泛运用的背景是互联网扩张,信息互联网由PC互联网发展到了移动互联网,物体互联网由物联网和人工智能两大块构筑,价值互联网通过区块链开始崭露头角。互联网扩张的直接后果产生了以互联网为平台、以大数据为基本要素、以云计算和机器学习等人工智能为手段的数字经济。数字经济涉猎范围很广,大数据金融便在其中,换言之,互联网扩张是大数据金融的实施背景。(一)互联网扩张为大数据金融提供平台,大数据金融会借助这个平台得以纵深发展
在数字经济开始渗透宏观和微观经济领域的当今世界,厂商与厂商、厂商与政府、厂商与消费者之间的行为互动,已充分反映出互联网扩张态势。随着5G通讯、社交媒体、传感器、定位系统等的覆盖面越来越宽广,信息互联网、物体互联网和价值互联网会提供海量数据,这些海量数据为从事大数据金融的金融机构、政府当局、厂商和个人提供了操作依据,这主要体现在以下几方面:(1)利用新科技手段对大数据进行搜集、整合、分类、加工和处理,以获取用于决策的准确信息;(2)利用互联网与5G通讯、社交媒体、传感器、定位系统等的关联,建立金融大数据平台;(3)通过金融大数据平台实现数据智能化和网络协同化。就互联网扩张与数据智能化、网络协同化的联系而论,大数据金融在要求极高的数据智能化的同时,也要求协同交易的网络协同化,但这两项要求都离不开互联网扩张。
从金融交易行为互动看,从事大数据金融的各主体借助互联网扩张,能否取得效用函数的满意值,主要看能不能实现数据智能化和网络协同化,以及能不能实现网络协同效应。以上表述或许夹带着经济和技术参半之意境的“形而上”,但不管怎么说,从事大数据金融的各主体要取得满意的效用函数,必须提升对金融大数据的挖掘、加工和处理的技术层级,必须在面对投资、储蓄、利率、股票、期货、债券、资金拆借、法定准备率、期票贴现率和再贴现率、货币发行量等金融大数据时,能够甄别和判断出扭曲信息和虚假信息,从而在较高数据智能化水平上实现网络协同效应。事实上,如果从事大数据金融的主体能实现网络协同效应,不仅意味着他们的数据智能化能力达到了与客户协同的知己知彼水准,而且也意味着他们借助互联网扩张取得了很大的成功。但在现实中,不同主体的数据智能化和网络协同化水平是不同的,追溯其源,是因为他们具有的技术条件配置不同。互联网扩张为大数据金融提供了数据智能化平台是一回事,各决策主体能在多大程度上利用这个平台从而达到一定的技术层级却是另一回事。
(二)大数据金融要求一定水准的技术条件配置,各金融主体达到这一水准后,才有可能实现网络协同效应
这里所说的技术条件配置,是指挖掘、搜集、加工和处理大数据的云平台、云计算、机器学习等人工智能技术及其组合。为分析方便计,我们把能够搜集、整理和分类大数据,但不独立拥有云平台和不具有云计算能力的金融运作者,界定为低技术条件配置者;把既能够搜集、整理和分类大数据也能够加工和处理大数据,并且拥有云平台和具有云计算能力的金融运作者,界定为中等技术条件配置者;把完全具备以上技术条件配置并且还能够挖掘大数据的金融运作者,界定为高技术条件配置者。显然,这样的划分主要是针对未来情形而言的,这样的划分对大数据金融的运行有以下推论:不同技术条件配置者由于技术层级的差异,他们对金融大数据及其构成的加工和处理能力便存在差异,高技术条件配置者要比中低技术条件配置者能更加准确地开发、设置和运营金融品种,能够在高层级数据智能化基础上达到网络协同化,能够在取得满意效用函数值的同时实现网络协同效应。
网络协同效应是以网络协同化为基础的。与实体经济中厂商之间以及厂商与消费者之间的网络协同化一样,大数据金融中的网络协同化所面临的经营场景,也可划分为简单和复杂两种类型;对于具备新科技条件配置的金融运作者来讲,要实现网络协同效应,只是具备驾驭简单运营场景是不够的,而是必须具有驾驭复杂运营场景的势力。例如,一个从事多元化经营的金融机构通常要比单一经营国债或单一经营股票或单一经营期货的金融机构,具有应对复杂场景的网络协同化能力。联系技术条件配置看问题,由于高技术条件配置的金融机构可以通过云平台搜集、整合和分类诸如投资、储蓄、利率、股票、期货、债券、资金拆借、法定准备率、期票贴现率和再贴现率、货币发行量等的大数据构成及其变动,他们在加工、处理和匹配这些大数据时可得到高水准的云计算和机器学习等人工智能技术的支持,因此,这样的金融机构一定会远超低技术条件配置的金融机构而取得网络协同化,从而实现网络协同效应。
当我们再此论及网络协同效应时,问题的分析画面开始转向清晰。高技术条件配置的金融机构之所以能够在网络交易平台上对复杂金融产品有协同效应,是因为高层级的数据智能化给他们提供了加工、处理和匹配金融大数据的支持,对于那些受政策或制度安排变化干扰的金融产品,他们利用云计算、机器学习、物联网、区块链等人工智能技术匹配金融大数据的优势就显示出来。例如,像债券、资金拆借、期票贴现及股市或期市等衍生金融产品,往往会成为高技术条件配置金融机构的经营专利,而那些中低技术条件配置的金融机构,便很难通过匹配金融大数据将这些金融产品作为经营对象。于是,在高技术条件配置的金融机构经营这类属性的金融产品的过程中,大数据金融会形成因网络协同效应而引发的进入壁垒。大数据金融引发进入壁垒这种现象,现阶段还只是处于端倪状态,它何时会成为常态呢?这个问题仍然可以从技术条件配置的变化得到说明。
(三)新科技条件配置的顶级状态是人工智能可以匹配现期数据和未来数据,这种状态预示着大数据金融的未来
如上所述,金融大数据主要是正在发生事件的现期数据与尚未发生事件的未来数据之和,这两类数据的共同特征是它们都具有极强的不确定性,都需要挖掘才能获得。然则,挖掘大数据与搜集大数据不是一回事。大数据的搜集,是以发生了的历史数据为对象的,它可以通过互联网搜索引擎和程序的较成熟的人工智能来完成;大数据的挖掘,是以还没有发生的未来数据为对象的,现有的各种人工智能技术还没有发展到能成功地挖掘大数据的水平。大数据金融运行中尚未发生的待挖掘数据,是人类经济活动中最不确定性的数据。就人类挖掘和匹配金融大数据的新科技条件配置而论,如果能够挖掘和匹配还没有发生的金融大数据,应该说人类新科技条件配置达到了顶级状态。
在信息不完全的工业化时代,经济学从未停止对经济活动的假设、判断和预测的研究,经济学家从关注预测、估计和假设检验的统计学,到注重因果关系分析的计量经济学,再到几乎单一强调预测的机器学习,十分清楚地体现了经济学追求数据匹配以实现准确预测经济事件的思想轨迹。在大数据和互联网时代,随着机器学习方法正在逐步解决计量经济学因样本小和维度低之处理数据的局限,原先计量经济学和机器学习之间不相容甚或相悖的地方出现了交集, 并开始出现交集增大的融合。但是,机器学习等人工智能技术迄今的发展水准,充其量只能加工、处理和匹配历史数据,并不能加工、处理和匹配大数据金融亟需要解决的现期数据和未来数据;以机器学习为代表的人工智能技术的发展空间是巨大的,作为对问题深入研究的一种探讨,如果人类在将来能够运用机器学习方法解决现期数据和未来数据的加工、处理和匹配,那么,机器学习将有可能成为新科技顶级条件配置的标志。
3
机器学习:推动大数据金融发展的人工智能技术分析
当今世界的金融运行和发展,正在朝着大数据金融的运作方向迈进。我们可对这个方向作出以下高度概括性的描述:金融运行将以搜集、整合、分类金融大数据,发展到挖掘、加工、处理和匹配金融大数据。换言之,当人们对金融大数据采取以机器学习为核心的人工智能方法进行挖掘、加工、处理和匹配时,金融运行便开始从金融大数据走向大数据金融。从机器学习在新科技应用中扮演的角色考察,无论是以许多简单模型代替单一复杂模型,进而得到大量计算机服务器支持并广泛运用的“数据驱动法”,还是以计量经济学为底蕴从而将人工智能作为通用技术使用的分析方法,机器学习都将成为赫然贯穿其间的主要技术方法。大数据金融给我们提供的总体画面是:在机器学习这一典型人工智能的引领下,经济学分析方法或许要发生让主流经济学家大跌眼镜的变革。
(一)机器学习技术及其类型不断提升的过程,是大数据金融发展的过程,这个过程代表着金融运行的未来趋势
机器学习是指通过对海量数据之多维度的分析处理,甄别和剔除扭曲信息和错误信息,通过搜寻真实或准确信息来实现最大化决策的一种匹配大数据的人工智能方法。学术界根据机器学习的特征,将之分为监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)和强化学习(Reinforcement Learning)三种类型。监督学习与无监督学习之间的区别,在于学习过程中有没有标签的数据样本。对于大数据金融来说,由于不同金融产品具有不同资本属性,具有不同的价格数据,金融机构通常会运用具有回归算法和分类算法的监督学习,按照数据输入和输出的一般法则,通过建模对这些数据展开机器学习。另一方面,在大数据金融的运行中,基于任何一种金融产品都不明显具有反映明确收益的特征,金融机构也会运用没有数据样本标识的聚类算法来进行无监督学习,以期通过机器学习来体验和匹配各种不同金融产品的大数据,进而运用于自己的决策。
不过,针对大数据金融之数据多维度的复杂性,监督学习和无监督学习只是金融大数据走向大数据金融中的基础性机器学习方法;它们通常局限于历史数据,对现期数据的匹配还有相当大的距离,至于把未来数据转化成“算法”则是很遥远的事。目前正在广泛运用的强化学习(Reinforcement Learning),是一种在动态环境中不断试错从而努力使决策最大化的人工智能算法;强化学习比较适合于金融机构对短期金融品种的经营,能在一定程度和范围内匹配现期数据,但它还是望尘莫及于未来数据。随着大数据金融的进一步发展,金融机构开始使用迄今为止最先进最深邃的深度学习(Deep Learning)方法,机器深度学习方法之所以被广泛运用于大数据金融,是因为它将以大数据的多维度为锲入口,通过多层次神经网络的设计,把低层级特征数据与高层级特征数据相结合,以揭示大数据的分布特征;深度学习推动了人工智能技术的进一步发展,但它仍然不能处理和匹配现期数据和未来数据。
大数据金融的未来发展趋势,是具备顶级新科技的金融机构能够匹配现期数据和未来数据,这要求金融机构以机器学习为代表的人工智能技术的快速提升。诚然,人工智能技术的提升是计算机专家或大数据专家的事,但金融机构需要借助顶级人工智能技术把金融大数据转化成“算法”,这可以理解为是金融运行未来发展的趋势。学术界有一种隐隐约约将大数据理解为新科技灵魂的看法,这个看法比较切合于对大数据金融之未来发展趋势的诠释。我们关于金融大数据和大数据金融之相关性的理论论证,需要对大数据展开基础理论方面的讨论。
(二)大数据思维会代替过去只依据部分数据进行推论的因果思维,随着大数据金融的发展,在将来金融机构的因果推断中机器学习会得到越来越多的应用
大数据思维本质上仍然是因果思维,但较之于过去那种只依据部分数据进行推理的因果思维,它是建立在决策信息来源于大数据这个推论之上的,大数据思维反映了工业化时代人类运用有限样本数据不能准确剖析事物因果关系从而不具有总体性和相关性的缺陷;关于这个问题,舍恩柏格曾通过对大数据分析如何提示人类取舍信息的解说,对大数据思维是一种包含总体思维、相关思维、容错思维和智能思维的模式作出了论证。总的来讲,金融机构投资经营的效用函数会驱动他们放弃传统因果思维模式,金融大数据的极大量、多维度和完备性等特征,会要求金融机构采取容纳总体思维、相关思维、容错思维和智能思维的大数据思维模式。大数据金融的发展会催生出新的人工智能方法,但到目前为止,机器学习方法在金融大数据的因果推断及其应用中,还没有显示将要退出人工智能首选位置的迹象。
机器学习之于选择行为的预测,越来越显示出机器学习在因果推断中的极强应用前景。计量经济学融合机器学习方法是一种学术趋向。从学科发展和大数据金融的未来发展考察,有一点几乎可以肯定,那就是这种融合会产生一种以机器学习为主、经济计量为辅的格局。这可从以下两方面说明:1、基于利用常规倾向性得分匹配法(Propensity Score Matching)得出的估计难以在协变量众多的前景下进行,机器学习可以采用套索算法(LASSO)和随机森林(Random Forest)等方法来筛选众多协变量,以代替传统步骤对大数据进行的匹配;2、机器学习重视因果推断中的异质性处理效应(Heterogeneous Treatment Effect),这将在很大程度上弥补过去因果关系推断只关注平均处理效应(Average Treatment Effect)的不足。金融大数据包含众多协变量,它在数据匹配和数据异质性处理等方面,一定会随大数据金融之覆盖面的进一步拓宽而复杂化,因而机器学习方法的应用空间是巨大的,这是其他人工智能手段无法比拟的。
大数据金融中的机器学习应用空间拓展的效应,突出反映在金融机构对现期数据和未来数据的挖掘、加工、处理和匹配上。对于金融机构来讲,如果他们的数据智能化达到很高乃至于达到顶级水平,那便意味着机器学习将会深入应用到各种金融产品及其组合的相对准确的预测上,投资效用是很高的;反之,则表明金融机构驾驭金融大数据的能力还处于较低层级,意味着机器学习的应用水平还有很大的提升空间。我们如何对这种情形作出一般理论概括和描述呢?很明显,这个问题的分析需要结合金融机构的理性选择行为以及大数据金融的实践展开。
(三)在大数据金融的实际运行中,金融机构的决策行为仍然是理性选择,他们具有怎样的数据智能化层级就会有怎样的效用函数值
互联网扩张时代的一个基本事实是,金融机构的选择行为正在逐步摆脱信息约束和认知约束。以信息约束而言,金融大数据的完备性和极大量具备了提供完备信息的基础,金融机构可通过5G通讯、互联网、物联网、传感器、定位系统、社交媒体等,去搜集、整合和分类各种金融产品的大数据;可通过云平台、云计算、机器学习、物联网、区块链等人工智能手段,去加工和处理各种金融产品的大数据,于是,信息约束的局面将随金融机构能够从金融大数据中获取大量信息而逐渐被打破。就认知约束而论,金融机构可通过云平台、云计算、机器学习等人工智能手段,通过对金融大数据进行多维度分析以取得正确认知,从而使认知形成过程由以前明显夹带主观判断的分析路径转变成主要依靠新科技的认知路径。这种转变实际上是改变了金融机构的理性选择的内容和过程,以至于悄然改变了金融机构的认知函数、偏好函数和效用函数,值得经济学家深入思考和研究。
金融机构摆脱了信息约束和认知约束,不仅是对以新古典经济学为底蕴的主流经济理论的期望效用函数(Neumann and Morgenstern,1947;Arrow and Debreu,1954)的否定,而且也是对以行为和心理实验为基础的非主流经济理论(Kahneman and Tversky,1973,1974,1979; Simth,1994)提出了严重质疑。大数据金融实践在理性选择理论上向我们展现的基本分析线索和画面,既不是传统理论在“经济人假设”基础上通过给定条件约束和运用严密数理逻辑推论所得出的何种选择才符合理性,也不是运用大量数学模型来解释什么样的选择才是能实现最大化的理性。结合机器学习等人工智能手段的运用来理解,这种画面可以解释为是“人与数据对话”以及“数据与数据对话”。需要说明的是,这两种对话形式与经济行为主体的新科技层级相关联。
如上所述,依据云平台、云计算、网络协同、机器学习等人工智能技术的掌握和运用,我们可把金融机构划分为掌握新科技的低级层级、中级层级和高级层级的决策主体;易言之,金融机构运用机器学习等技术手段加工和处理金融大数据的能力,从而取得什么样的效用函数的能力,是由他们的新科技层级决定。在全球经济一体化的背景下,金融机构面对错综复杂的金融产品的价格波动,要实现效用函数最大化,必须能够对金融大数据有挖掘、加工和处理的能力,这是我们反复强调的,但从严格意义或高标准要求来讲,金融机构必须具有将客户和竞争者的偏好和认知等转化为“算法”的能力,这便要求金融机构在掌握和运用机器学习方法的同时,还能够掌握和运用诸如逻辑推理、概率推理、专家系统、语音识别、自然语言处理等人工智能技术。金融机构只有在达到新科技的高级层级的条件配置下才能进入这一门槛,只有在进入新科技的顶级层级后才完全具备这种能力。金融机构进入新科技的顶级层级的标志,是能够挖掘正在发生的现期数据和尚未发生的未来数据,因此,问题的讨论又回到了机器学习这一人工智能技术的掌握和运用上来。
(四)从当前人工智能处理大数据的各种技术规定考察,人类能不能挖掘以及能在多大程度上挖掘正在发生的现期数据和尚未发生的未来数据,在将来,可能还得主要依赖于机器学习技术的提升和拓宽
大数据金融的运行充满不确定性,是问题的一方面;大数据金融极有可能成为未来学家和人工智能专家推崇的“算法”,则是问题的另一方面。从目前不同类型的机器学习对大数据的加工和处理看,无论是监督学习和无监督学习,还是强化学习和深度学习,它们主要还是对已发生事件的历史数据的加工和处理;对于正在发生事件的现期数据的加工和处理,可谓是刚刚处于起步探索阶段;对于尚未发生事件的未来数据,可以说基本上不具备加工和处理的能力。以金融大数据而言,金融机构挖掘正在发生和尚未发生的数据,必须具有顶级科技条件配置。具体地说,就是金融机构要在全面掌握和运用互联网、云平台、物联网、云计算、机器学习等人工智能技术的基础上,以历史数据和已经掌握的部分现期数据作为分析材料,采取可称之为“外推、类比或拟合”方法来进行预测性挖掘,至于加工和处理正在发生和尚未发生的数据,也可以按照同样的思路展开。诚然,由于新科技运用还没有走到这一步,我们现在不能描述这种“外推、类比或拟合”方法,但从当前人工智能处理大数据的各种技术规定看,最有可能先被尝试和最有可能获得成功的,可能仍然是机器学习方法。
金融大数据是经济活动中变化最快最不确定的数据,运用机器学习方法挖掘、加工和处理这些大数据,无疑会在处理历史数据、现期数据和未来数据的框架内,涉及前文提及的数字化数据和非数字化数据以及行为数据流和想法数据流,显然,这使机器学习在挖掘、加工和处理金融大数据是会产生一时难以逾越的困难。这些困难主要反映在当前最先进的人工智能理论还不能有效解决纷繁数据之间的因果关系。因此,解决这个问题的关键是突破学习过程的黑箱,使因果推断和机器学习之间的理论交叉从单向联系变成多向联系,让人工智能面对纷繁复杂的大数据处理时能够进行反事实分析(Counterfactual Analysis)。大数据金融的运行和发展,长期存在着被新制度经济学重点描述的以交易成本为底蕴的逆向选择、机会主义和道德风险等现象,这些现象会以大数据形式在金融产品的投资经营中反映出来,因而机器学习要通过吸纳因果推断理论的成果来提升新科技层级,以实现对现期数据和未来数据的挖掘、加工和处理。
那么,机器学习的未来发展应朝着什么样的方向砥砺前行呢?关于这个问题,有学者认为机器学习要能够解决那些真正有价值变量的选择问题,也有学者认为机器学习要解决人们选择的风险回避问题。在笔者看来,我们应该把机器学习的使命定格在对现期数据和未来数据的挖掘、加工和处理上。针对大数据金融,计算机和人工智能专家要在各种机器学习方法充分发展的基础上,深化和拓宽强化学习和深化学习,来挖掘、加工和处理各种金融产品价格和数量的现期数据和未来数据。机器学习在这方面的成功案例,是AlphaGo和Master与世界顶级棋手的对弈,机器学习通过对大约30万幅围棋谱之大数据的加工和处理,在无数台服务器的支持下对这些棋谱进行深度学习,并通过强化学习挖掘出战胜世界顶级棋手的未来数据。深度学习和强化学习的融合方法极可能是机器学习的发展方向。
4
几点补充说明:
金融大数据是人类经济活动的一个最值得重点研究的领域。依据未来学家的观点,对金融大数据的分析和研究,还必须联系人类经济活动的其他数据进行,显然,这个观点是以人类一切活动和自然界一切现象都可以转化成“算法”为依据的。基于现阶段人类匹配大数据的能力还只是处于初期发展阶段,也基于大数据金融的运行和发展具有相对独立性,我们只是把金融大数据的挖掘、加工和处理放置在大数据金融运行的框架内进行分析。这个分析框架在体现它们之间相互关联的同时,重点是揭示它们之间的作用机理。未来学家把一切都视为“算法”,是以互联网、大数据和人工智能等的融合达到顶级技术层次为前提的,当人类不能达到或距这个技术层次很远时,我们把金融大数据从社会大数据中抽象出来展开分析,仍然是大数据视野下直面问题研究的一种分析。
大数据金融的运行和发展是制度、主体和行为的综合,其内容极其宽泛。当我们将之作为一种“算法”来考察,问题的分析便聚焦于技术层面;当我们强调技术发展对大数据金融的影响,问题的探讨就集中于金融机构的选择行为;当我们关注金融机构的选择行为,问题的进一步研究就需要讨论效用函数。这条逻辑分析链最显著的特点,是在关注新科技之于金融机构技术条件配置的前提上,把金融机构划分为低中高三种类型的技术层级,并通过这种划分来预估不同技术层级金融机构的效用函数。本文在讨论新科技对金融机构的效用函数影响时,重点分析了以机器学习为代表的人工智能的掌握和运用,没有涉及专家系统、机器人学、搜索、逻辑推理与概率推理、语音识别与自然语言处理等人工智能,这是基于金融大数据的特殊性规定其他人工智能技术只是间接适合于解释金融大数据的考虑。我们以机器学习深化作为金融机构技术层级提升的依据,绕开了其他人工智能技术,但并不否定这些技术手段提升金融机构技术层级的作用。
金融大数据与大数据金融在内涵上的差异绝不是一种概念或范畴的玩味,前者是互联网、大数据和人工智能等融合的客观实在,后者是表征了大数据时代或互联网时代金融体系的运行和发展,它代表着金融体系未来发展的方向。本文以机器学习进步来解说金融机构挖掘、搜集、整合、分类、加工和处理大数据,目的是揭示大数据金融的运行机理,并通过这一机理的揭示来展现未来金融世界的发展图景。基于机器学习等人工智能发展的现状,我们把新科技层级作为推论金融机构处理和匹配大数据之能力的依据,跳越了对新科技运用过程的具体分析,客观地讲,这样的分析程序和框架对大数据金融运行的论证所得出的认知,同样适合对其他经济领域的分析。不过,这种推论性分析是粗线条的,至于机器学习等人工智能技术对金融机构处理和匹配大数据的具体过程,则需要等到新科技发展导致数据智能化和网络协同化的全面提升,再由经济学家来进行理论化和系统化。
现有的经济理论关于数字经济的分析进而关联于大数据匹配的研究,主要集中在通过互联网扩张对数字经济的概念界定、行业范围界定、行业属性界定以及规模测算等方面,很少有文献从理论角度对数字经济运行作出经济学解释。其实,数字经济的核心永远是如何挖掘、搜集、整合、加工和处理大数据,永远是通过匹配大数据以获取准确信息来实现效用最大化。当数字经济突破行业和区域范围,它在伴随全体厂商追求效用最大化的同时,社会资源配置机制便会得到优化。这便是本文将金融大数据与大数据金融作为研究专题的意义所在。
本文转载《学术月刊》2019年第12期。
责编:斌卡(转载及授权请后台联系小编)
来源:aliresearch 阿里研究院
原文链接:https://mp.weixin.qq.com/s?__biz=MjM5NTg0NDE1Mw==&mid=2652603482&idx=3&sn=a36152bfa10e4d832b45115c1598fa8c&chksm=bd1d7d0c8a6af41afb6e5806d79b36c14885c0c57a72860f82fa1407a25db098ea75fabbdfde#rd
版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。
电话:(010)86409582
邮箱:kejie@scimall.org.cn