并不轻松的智能之旅

  • Super User
  • 日期:2005-08-12
  • 1583

并不轻松的智能之旅

中国金融电脑   2005-8-12
 

  编者按:2003年11月,本刊曾经就商业智能在银行业的应用以专题形式进行了全方位的报道和剖析。在专题中,北京大学唐世渭教授等人撰写的《数据仓库在银行业管理信息化的作用》、NCR(中国)有限公司王闯舟撰写的《数据仓库技术及其在银行业的应用》以及本刊记者采写的《打造智能化的商业银行》均在业内引起了一定的反响。时至今日,商业智能、数据仓库、数据挖掘等已经不再是新鲜的概念。金融行业很多领域的管理人员、业务人员和技术人员在积极地了解商业智能的理念,学习相关的知识,掌握重要的分析工具。我们看到,尽管此前有一些金融机构在基于商业智能理念搭建数据仓库、实施数据挖掘方面没有达到预期的效果,但也有一些金融机构通过不懈的努力尝到了“螃蟹的鲜味”。2005年6月24日,由中国科学院研究生院、香港理工大学和中国科学院计算技术研究所共同发起的“商业智能及其在金融领域应用研讨会”在北京召开。近百位来自于银行、证券、保险行业及监管单位的领导和专家围绕主题进行了多层次的研讨。本刊记者全程跟踪此次研讨会,针对一些演讲嘉宾进行独家专访,希望通过对一些重点问题的展示和分析,能够帮助读者重新认识、了解商业智能。
  从炒概念到付诸实施,从技术推动到管理推动和业务推动,从支持业务部门和管理部门到推动业务部门和管理部门发生变革,当商业智能的应用在国内银行业逐渐深入时,业内人士开始逐渐认识到,在商业职能项目的建设和使用过程中必须要面临很多现实且棘手的问题,智能之旅并不轻松。
  对商业智能的再认识
  在此次研讨会上,易观国际IT研究总监杨青峰发布了《中国银行业BI应用策略专题研究报告》。在报告中,杨青峰从用户需求的角度将商业智能定义为:一种为企业或机构提供大规模数据联机处理、数据挖掘、数据分析,以及报表展现等服务,以实现对特定的商业分析目标或企业整体绩效提供定量化决策支持的解决方案的综合。商业智能的实现依赖于一系列数据处理分析工具,如数据的抽取/转换/加载、数据仓库、联机分析处理、数据挖掘、数据分析与展现工具等。

  仅从概念上看,商业智能是从应用的角度来定义,而数据仓库、数据挖掘等则更多地体现为技术层面的概念。其实,无论是商业智能项目,还是数据仓库、数据挖掘项目,如何帮助企业收集、整理和生成有价值的信息、知识才是其灵魂所在,自然也是判断项目成功与否的关键标准。

  早在1998年,商业智能及其相关概念已经引入国内,并且在金融领域得到一定的应用。但是,多年来金融行业的成功案例似乎并不多见。中国科学院研究生院软件学院潘辛平院长关注商业智能的时间并不算短,但是在他看来,绝大多数项目都没有取得预期的效果。

  “我一直在‘挑战'国内数据仓库和数据挖掘项目的从业人员。我希望参与项目的人能够告诉我,在项目完成之后,哪些信息是真正通过挖掘才展现出来的,例如大家谈数据挖掘就必然提及的‘尿布和啤酒'就是成功的典型范例;而哪些信息又是本来就已经在我们面前,例如那个业内广为流传的著名笑话,某证券数据挖掘项目的结论之一竟然是:凡在深交所开户的投资者必然也在上交所开户。”潘辛平说。

  然而,针对这个问题潘辛平并没有得到令他满意的答案。很多情况下,围绕着达不到预期效果的数据挖掘项目总有两个‘万能'的借口,一个是数据质量不高,由此出现了“垃圾中挖掘垃圾”的观点;而另一个则是项目已经移交,挖掘的结果取决于项目使用人员的水平,和项目建设无关。当然,还有很多项目戴着商业智能项目或数据挖掘项目的帽子,其实质却仅仅是一套高级的报表系统。
  由此潘辛平认为,目前国内金融行业的大部分商业智能项目还处于学习阶段。很多商业智能项目仅仅是利用商业智能工具,使用回归法、决策树法、神经网络法等把数据处理一遍。这样的项目取得的最终效果自然很难令人感到满意。“其中的关键是,原来数据是为人看和理解准备的。如果让计算机去研究和发现数据背后的规律,这些数据仍是合适的吗?应该如何为计算机挖掘数据背后的规律准备数据,这个关键问题多数应用、开发机构研究都不足。上交所项目的成功,让我们看到了国内商业智能应用向成功迈进的重要一步。”潘辛平说。

  易观国际的杨青峰在演讲中指出,中国银行业商业智能应用的需求趋势包括:综合分析需求逐渐成为主流;对商业分析模型的需求将成为核心;多厂商商业智能工具组合使用仍是主要应用形式;绩效分析、客户分析、风险分析占据重点领域;应用策略与应用模式更加成熟。同时,他也提出中国银行业在应用商业智能方面所必须面对的挑战,例如:用户需求的易变性与系统刚性之间的冲突;数据管理整体规划的缺失导致商业智能不能快速切换;数据孤岛和业务数据不完整的现实仍是目前实现商业智能的巨大障碍;现有产品技术与厂商竞争壁垒增加了商业智能的实现难度等等。对于市场前景,杨青峰估算2004年中国银行业商业智能应用市场规模达到2.2亿元,预计未来2~3年的年增长率为50%左右。
  出发点是什么

  良好的开始是成功的基础,正确的出发点无疑也是商业智能项目成功的前提。这个说法看似简单易懂,理应是每一位项目成员所必须遵循的,但是事实上近年来正是因为出发点存在各种偏差,造成了很多商业智能项目从一开始就走上了弯路。

  在国内金融行业,上海证券交易所的数据仓库和数据挖掘项目取得了令人瞩目的成果,也有业内人士指出这是国内金融行业第一个真正意义上的成功项目。上海证券交易所新信息系统项目组副组长兼信息中心副总监皮六一认为,尽管在国内外,数据仓库项目失败的比例都比较高,但绝大多数数据仓库项目失败的原因并非在于数据仓库技术本身。在很多情况下是由于项目的决策者可能基于项目之外其他一些因素的考虑而启动数据仓库项目。毫无疑问,错误的出发点只能导致错误的结果。

  对于近几年来业内很多数据仓库项目最终做成了报表系统,皮六一指出:“首先是教育和宣传的问题,把数据仓库项目说成是报表系统,或者最终做成报表系统,这是数据仓库从业人员的悲哀。事实上,很多销售人员在向客户推销时就把重点放在报表功能上。其次是定位的问题,数据仓库是在报表系统的基础之上的,但很多情况下项目建设者在数据仓库项目启动之后才发觉必须先补上报表系统这一课,所以很多项目最终做成了报表系统。”

  早在2000年,中信实业银行已经开始重点关注数据仓库技术,并且成为国内最早推进数据仓库建设的商业银行之一。中信实业银行信息技术部总经理林丽认为,就商业智能项目而言,出发点是非常重要的,换句话说,到底是技术推动,还是需求推动;在需求方面,是基于现有业务流程和组织架构产生的业务需求和管理需求,还是应该通过确定更高层次的需求来推动现有业务流程和组织架构的变革,这才是决定项目成败的关键因素。

  “针对技术推动还是需求推动的问题,几年前业内还有所混淆,但是如今大家对这个问题的认识已经非常清楚了。尽管很多金融机构的商业智能项目是由信息技术部门来主导实施的,但是其出发点无疑是业务部门和管理部门的需求,例如希望准确地定位高端客户、了解客户的需求、提高客户关系管理水平、实现科学的绩效考核和成本管理等等。而围绕后一个问题,不同的金融机构还要根据各自的现实情况,结合各自的改革目标来确定商业智能项目的出发点。从长远的角度来看,确定更高层次的需求来推动现有业务流程和组织架构的变革应该是主流。”林丽说。

  在某些情况下,明确的出发点和需求定位也可以使商业智能项目有一个准确的定位,便于在一些领域取得阶段性的成果。潘辛平认为,目前国内很多金融机构在确定数据仓库的规模时总是要考虑建立企业级的还是部门级的,前者的实施难度无疑要大于后者。而如果综合数据质量、人才储备、基础架构、业务流程、管理文化、投资规模等因素,做一个探索级的数据仓库也未尝不可,选择一个或几个需要重点发展的业务品种的需求作为出发点,例如信用卡授信额度管理、黑名单发现、破产客户管理等等。
  80%的功夫在前期
  2001年刘世平在全国股份制银行高层研讨会上发表题为《金融企业客户关系管理》的演讲,但是并没有得到预期的反响。随后他以访谈的形式在《潜在的落后》一文中表示了自己的担忧。文章的开头是这样的:“我在2001年参加了全国股份制银行高层研讨会之后的感触特别深刻。与会者一般都为行长助理、副行长乃至行长。作为每一年度的行长论坛,我在会上遇到的某些银行领导者的思想依然比较落后。”

  然而几年之后,如今作为吉贝克信息技术(北京)公司董事长的刘世平全程主持了上海证券交易所数据挖掘项目的一期和二期建设。他和潘辛平都认为,该项目之所以能够取得预期的效果,并得到业内的好评,关键在于前期的准备工作非常充分。“数据仓库项目80%的功夫在前期。”刘世平说。

  从事教育工作的潘辛平指出,目前一般数据挖掘教科书、数据挖掘课程和数据挖掘工具都不包含数据挖掘前期的准备工作。书上仅仅介绍什么是数据挖掘,什么是数据挖掘工具,数据挖掘的参数应该如何调整。但是在此之前应该做哪些准备,提供哪些条件,建立哪些环境,几乎没有提及,而恰恰是这些被忽略前期工作需要项目建设者付出更多的努力与艰辛。
  上海证券交易所在数据仓库项目正式启动的两年多以前就确定了业务导向的指导思想,并在数据上积极准备,对于数据源进行了全面的摸底调查,完成了数据集中和清洗、转换、加载的前期准备工作,从而保证了数据的质量。“这使得我们在项目启动之前就确定了一个基本可行的方案。在项目推进过程中,数据质量的问题很快就逐一得到解决。导入系统的基本上是干净、标准、完整的数据。”皮六一说,“我们必须要对数据进行分类,不能把一堆土和沙混在一起淘金,必须先把沙子拿出来,然后才能在沙里淘金。比如重新确定上市公司的行业分类标准,我们在传统的管理型的国民经济统计分类和投资型的行业板块分类的基础上,确定了独特的监管型行业分类体系,这是该项目成功的非常关键的环节之一。再比如建立模型的过程,这也是一个非常需要技巧的问题,在具体工作过程中我们有很多心得体会,事实上,具体应该采用哪些指标、选择哪些模型、应该如何应用这些模型,这些难题的答案都是在现有的数据仓库和数据挖掘的书本上根本找不到的。”
谁来挖,谁来用
  有关商业智能项目中复合型人才缺失的问题已经是老生常谈了。当信息化建设发展到商业智能这一层次时,项目人员的主观能动性的发挥已经成为决定项目成败和未来走向的关键因素。

  在潘辛平看来,项目建成之后负责数据挖掘的部门,不能是技术部门或者业务部门,使用数据挖掘工具的人不能是技术人员,也不能是业务人员。“事实上,只有当商业智能项目在建成之后有一群恰当的人去使用它,并且将该部门安排在公司组织架构的恰当位置,项目才能持续、稳定地发挥其应有的作用,并在更高的层次上得到创新和发展。”潘辛平说,“使用商业智能的人既要有业务能力,还要有技术能力,而且组织架构和激励机制还要保证这些人有创新的动力。如果将商业智能项目的运行置于业务部门,以营销和市场为主要职责的业务部门通常是不会主动谋求商业智能主题的创新,而重点关注技术发展趋势和系统可用性的技术部门对业务并不了解,也不合适扮演主角。”

  由此可见,拥有技术知识和业务素养,同时还通晓商业智能工具的复合型人才才是维护、使用、创新商业智能项目的合适角色。从2002年开始,潘辛平就一直说服一些证券公司成立负责业务运转而非单纯系统运行的信息中心,希望能够有一批具备良好数学背景又关心业务、热爱业务的人才加入这个机构。

  对于商业智能项目来说,从项目开始到项目投入使用,需求决定了项目的发展方向。由此我们也必须关注需求的源泉是什么。林丽认为,商业智能的需求不能由一线的业务人员来提出,因为一线人员通常以局部的业务为出发点,不可能站在更高的层面上来通盘考虑问题。一线人员提出的需求通常就是客户需要什么,而这些问题显然都相对简单,并且处于操作层面,这些需求通常应该在一般的业务系统中加以实现,和商业智能项目的精神并不相符。而对于金融机构的决策者来说,他们所关心的是战略、利润、管理、绩效考核,这一层面的需求并不能直接转化成商业智能项目前进的动力。

  “目前国内最缺乏的人才是设计人员,这种设计不是指技术架构的设计,而是围绕业务、管理、产品、市场、客户的设计。对于国内的金融机构来说,一方面要努力培养和引进类似的人才,另一方面更要为这些人才发挥作用创造条件,为他们提供必需的决策权,使得整个机构的业务流程和组织架构都能够按照这种思路去改变。”林丽说,“在中国的金融信息化逐渐向智能化过渡的阶段,商务分析师的角色一定要出现,否则前景堪忧。事实上从国外引进这些人才并不困难,真正的难点在于如何让他们发挥应有的作用,而不是碰得头破血流。我个人认为国内第一批真正的商务分析师有可能直接从国外的金融机构引进,在人才引进的同时,国外金融业也在全面进入中国金融市场后给中国同行带来巨大的冲击,这样来自外部的推动力将促使变革更快、更彻底地推进,商务分析师大显身手的舞台将得以更早地搭建。”

  林丽认为,目前国内银行业最需要的两个部门是金融产品研发部门和决策支持部门,在未来的银行中,这两个部门应该在其他部门之上,构成了银行的智囊团。

网格技术的新舞台

  网格计算是利用互联网技术,把分散在不同位置的计算机组成一台虚拟超级计算机。网格技术可以充分利用网络中一些闲置的处理能力来解决复杂问题的计算,适用于大型科学计算和项目研究。随着对处理能力的需求越来越强劲,网格计算开始自然而然地挤占主流计算的领地。在网格中,每一台参与的计算机就是其中的一个“节点”,所有的计算机组成了一张节点网。网格技术应用有两大优势:计算能力强,费用低。

  中国科学院计算技术研究所副所长徐志伟从事网格技术研究多年,他在研讨会的主题演讲名称是《从金融应用角度看商业智能:一个瓶颈的分析》。在徐所长看来,目前信息化建设呈现几个特点:首先是自主性,其优势在于可以很快地部署和建设,但是容易形成资源孤岛的问题;其次是动态性,其优势在于可以灵活地适应需求的变化,但是存在变更问题;最后是解决方案法,其优势在于可以满足特定的需求,但是也造成了系统的僵化。

  “使用解决方案型的技术路线(专用机)是造成这一瓶颈的根本原因,即以固定的应用需求为目标,不考虑以后的扩展和可能的变化;采用随意的结构,只要能够实现应用的功能就可以;与特定软件和硬件环境紧密绑定,而不考虑通用性;不区分共性技术和专用技术,难以共享共性技术;较少使用开放的技术标准,形成了使用自定义格式和协议的封闭系统。”徐志伟说,“而网格技术是解决这一瓶颈的途径之一,网格技术可以实现业务与技术的松耦合、应用与平台的松耦合、软件与硬件的松耦合以及管理与使用的松耦合。”

  据介绍,目前中国科学院计算技术研究所已经在苏州、上海、肇庆、宁波、台州等地完成地域的分布,而下一步则希望能够围绕行业确定分布。在行业应用方面,金融和能源是首选。

  潘辛平认为,商业智能的实现需要耗费大量的计算资源。“目前的商业智能应用还相对简单,计算能力的瓶颈问题还并不突出,但是当商业智能项目发展到一定程度,例如通过商业智能发现投资机会时,需要同时处理来自伦敦、纽约、香港、新加坡等多个资本市场的海量信息,跟踪成千上万种投资产品的价格变化,有些非常细微的价格差异背后就是稍纵即逝的投资机会,在这种情况下,计算资源就变得非常重要了。这就是未来商业智能为金融行业带来的机会。”潘辛平说,“商业智能发展的第一阶段是市场风险的评价,为客户提供基础的服务;第二个阶段是充分研究客户,发现客户习惯,针对客户进行关联销售;第三个阶段就是发现投资机会,实现产品创新。在前两个阶段,网格技术的应用前景还并不明朗,但是当一家银行支持200个交易员或投资者做跨资产品种的套利机会研究时,就会对网格这样的低成本、分布式计算技术产生大量的需求。”