摘要
随着注册制的推进,市场对投资业务内控合规水平提出更高要求,在注册制改革背景下,大语言模型在证券行业的应用愈发重要。如何利用ai中台和大语言模型优化投行知识库系统,实现投行业务全流程信息化、数字化、智能化管理。通过ocr、nlp、rpa等技术,将智能化投行知识库融入业务流程,提高业务效率和质量,降低项目风险,成为证券行业关注的问题之一。本文引入具体案例,通过分析其对知识库和相关模型的利用,实现知识的检索、推理和推荐等功能,为证券公司大语言模型在投行内控合规管理中的运用带来启示。
一、引言
2018年,上海证券交易所开通科创板并试点注册制,资本市场注册制改革的进程正式开启。2020年,新《证券法》明确全面推行注册制的定位。市场对投资业务内控合规水平提出更高要求,尽可能通过事前把关、事中督促和后期审查等手段,实现贯穿全流程、全链条的投行业务质量管控。
证券行业推进注册制的背景下,证券公司如何利用金融科技赋能投行业务,提高内控合规管理,履行好资本市场守门人职责,变得至关重要。以五矿证券为例,在金融科技部署上,公司通过构建以“大投行业务管理系统”为核心,打通投行业务各项目阶段、关联任务的数据链路,全面落实投行业务全流程信息化、数字化、智能化管理。同时借助ai中台服务,将光学字符识别(ocr)、自然语言处理(nlp)、机器人流程自动化(rpa)等技术嵌入到投行系统中,持续提供技术赋能,助力投行业务提质增效,从而实现全面提升综合服务能力。
鉴于当下的现实环境,如何利用大语言模型、知识图谱、自然语言处理(nlp)、意图识别等技术,构建一个智能化的投行知识库,支持项目内控合规管理,如何从大量的法律法规、监管政策、行业标准和内部管理制度等文本中抽取相关知识,并建立相应的模型,以支持知识检索、推理和推荐等功能,以及如何利用自然语言处理和机器学习技术,对项目相关的文本和数据进行分析,识别潜在的风险因素,并进行评估和预警,如何利用投行知识库和相关模型,对项目的各个环节进行合规审查和监控,及时发现和纠正不合规行为等,从而利用投行知识库和相关模型,为投行内控合规管理提供决策支持和咨询服务,提高投行内控合规管理的效率和准确性,降低风险,提高企业的合规水平和竞争力,成为摆在证券行业的重要命题。
二、大语言模型在证券行业的应用
(一)大语言模型介绍
语言模型是用于计算、生成自然语言符号序列的概率模型。2017年,随着transformer的发布[1],nlp的发展驶向快车道,基于transformer诞生了很多sota模型,如bert,gpt等[2]。2022年底,基于1750亿参数gpt-3的现象级模型chatgpt发布,nlp正式迈入大语言模型时代。
大语言模型(llm)是一种ai模型,旨在理解和生成人类语言。利用超大规模的文本数据训练,可以执行广泛的任务。当前的大语言模型结构都是以transformer为基础的,transformer是一种基于自注意力机制(self-attention)的神经网络架构。自注意力机制允许模型在处理序列数据时对不同位置之间的相关性进行建模。在transformer中,输入序列首先通过多头注意力机制进行编码,每个头都可以学习不同的上下文关系。然后,通过前馈神经网络进行进一步的处理和转换。transformer架构可以在不同的任务中进行端到端学习,例如机器翻译和语言模型。
(二)大语言模型新应用范式
大语言模型在ai领域带来了重大改变,包括从规则驱动到数据驱动的转变,简化特征工程,扩展应用场景,提高理解能力,但同时也带来了可解释性和公平性问题。大语言模型使ai能够自动学习和理解语言的复杂性和多样性,并可广泛应用于各种任务。但其也带来了挑战,如如何确保模型的决策过程可解释和公平,以便更好地应对不同场景的应用。
(三)大语言模型在行业的应用场景
目前,通用人工智能短期内不构成颠覆性影响,主要因为一国内外通用大语言模型能力存在代差,根据国内平台厂商的评级,结合我们的实际测试,国内外通用大语言模型能力的差距在2年以上;二金融行业数据安全性要求比较高,需等国内大语言模型更加成熟,才能应用通用人工智能;三要建设自主可控的私有化大语言模型:海外通用大语言模型不可能在国内公司大规模商用,因金融行业数据安全性要求较高,国内通用大语言模型也不可能覆盖所有应用场景,公司要建设自主可控的私有化模型;根据不同业务场景数据敏感程度,匹配不同的大语言模型选型。
证券行业作为智力密集型行业,在通用大语言模型出现之前,al赋能比较有限,公司投行、投顾、投资、投研人占比达75%,行业迫切需要大语言模型实现降本增效,通用人工智能与这些业务领域结合可能会带来生产力飞跃,服务载体和入口形式会有重大的变化,是弯道超车的宝贵机会。
大语言模型在证券行业的应用具有高价值场景。首先,大语言模型具备涌现能力,能够从海量通识中自动学习和理解语言的复杂性和多样性,提供海量文献检索能力,为投行业务提供有力支持。其次,大语言模型可以作为智能投顾,如基金债券ai助手,为用户提供精准的投资策略建议。此外,智能协作可激发员工的创造力,打造专属数字员工,提高企业创造力。同时,大语言模型也可以用于智能办公和编程辅助等领域,提高企业协同效率和自动化水平。
三、融合大语言模型的ai中台建设
(一)基于ai中台的大语言模型能力融合
随着智能化涉及的业务越来越多、参与的业务越来越深,ai中台化成了智能化进程中的重要技术底座。以五矿证券为例,根据其ai服务使用现状,结合行业ai中台落地经验,公司规划构建了具有五矿证券特色的ai中台服务体系,这或许能给证券行业基于大语言模型的ai中后台建设提供一定的参考。
作为技术底座,目前五矿证券ai中台已为多条业务线提供ai服务输出,如大投行智能化体系中的银行流水单据光学字符识别服务、基于大语言模型的法律法规问答知识库服务等。五矿证券ai中台整体包括三层,即基础设施层、模型平台层、应用平台层,打造了传统模型和大语言模型训推一体的服务平台,实现为各业务线更智能、高效的凯发k8官网的解决方案赋能。
图1:五矿证券ai中台架构图(资料来源:五矿证券)
(二)基于ai中台的大语言模型应用框架
以五矿证券ai中台为底座为例,其基于llm的快应用开发划分分别对应ai中台基础设施层、ai中台模型平台层和ai中台应用层,不同的中台成分为不同开发阶段赋能。基础设施层,依靠强大算力资源,结合领域数据+业务数据,实现通用llm到领域llm的转变fine-tuning;模型平台层,通过langchain及各种插件拓展llm能力边界[3],助力应用的快速落地;应用层,通过prompt设计范式<背景描述、任务指令、输入约束、输出约束>[4]、in context learning和chain of thought等不断优化prompt设计,使模型输出业务化。
四、基于大语言模型的投行知识库建设
运用大语言模型、知识图谱、深度学习、nlp、ocr等ai技术构建投行知识库系统,在传统资料检索基础上,提供用户智能问答服务,实现从传统文本检索向智能搜索和语义理解问答的转变。减少投行业务人员在寻找行业领域内问题的准确答案上的人力成本,提高工作效率,当前主要应用场景有:新入职员工培训、质控人员解答项目组问题、项目组人员问答等。
(一)券商投行知识库系统演进
传统券商投行知识库按照使用底层技术和应用场景,一般分为两个大的建设阶段:
阶段一:文件全文检索阶段。该阶段主要构建投行领域经验文档的汇聚和采集、解析和分类归纳、审核管理、应用、运营推广和反馈的整条业务闭环。一般基于全文检索技术(如elasticsearch、solr等)构建统一搜索引擎,提供基于关键词的文档搜索功能,包括:非结构化文档的搜索、热门搜索推荐、关联搜索、基于投行知识分类标签的搜索等。
阶段二:智能搜索引擎阶段。该阶段主要实现:1)引入ocr、智能语音、nlp等技术扩充知识文档解析范围;2)引入意图识别模型,用于准确识别用户搜索意图,将用户query进行分类;3)基于意图识别,一方面构建行业知识图谱进行结果推理,另一方面则使用向量编码的embedding模型,使用ann方法进行向量匹配。通过智能搜索优化,能召回更多自然语意上相近而关键词无关的内容,增加召回范围和提升搜索准确性。
当前头部券商投行知识库系统大多完成了阶段一内容的建设,完整建设投行智能搜索引擎的券商还不多。
(二)投行展业过程中存在的问题
投行在展业过程中主要会面临人力和成本效率、知识管理和分享以及数据检索和使用效率三方面的问题。上述三方面的问题,具体分析来看:
一投行人力和成本效率问题,项目团队对于申报材料、法律法规、内外部规章制度等的咨询依然主要依赖于线下沟通,花费大量人力用于日常问题解答。二投行知识管理和分享问题,各项目团队工作经验没有得到系统性的有效整理和归档,也没有共享给其他团队,导致学习成本增加和经验重复造轮子。三数据检索和使用效率问题,信息搜索不准确且效率低,现有业务系统不支持全文搜索,导致在pdf、word等文档中查找信息时效率极低。信息利用率低,数据价值无法发挥,随着投行业务发展,大量文本数据还存储在各业务系统中,未有效综合和利用,造成数据资产价值无法充分发挥。
(三)基于大语言模型投行知识库系统架构
基于大语言模型的投行智能问答机器人将全文检索、智能搜索引擎与大语言模型能力相结合,实现了对投行垂直领域专业知识的全面管理和智能搜索。通过大语言模型技术,系统可以更好地理解用户的提问和搜索意图,并从海量数据中提取相关的信息和知识,生成更为精准的答案。
此外,针对金融资讯领域的结构化数据,该系统也可以通过大语言模型技术将其纳入知识库的覆盖范围。通过大语言模型技术对金融资讯数据进行自然语言处理,将其转化为结构化数据,并纳入到投行智能问答机器人的知识库中。这样,系统可以更好地回答用户关于金融资讯的问题,提供更为及时、准确的信息。系统整体架构图如下:
图2:基于大语言模型的投行知识库系统架构(资料来源:五矿证券)
该系统通过使用多种引擎工具,将投行业务线所涉及的各种知识范畴进行分类存储和管理。从业人员可以通过pc端和移动端的聊天或搜索框输入查询问题,系统首先通过意图识别模块对用户查询的内容进行分类和路由,然后根据用户提问的具体领域知识库进行相应召回,构建结果召回池。
从多路召回中,系统筛选出有效数据并进行优先级排序,然后将最终的召回结果进行prompt工程。接下来,将用户查询问题和提示词一起发送给大语言模型llm进行处理,以便更好地理解用户问题并参考提示词进行归纳总结。
图3:投行知识库系统截图(资料来源:五矿证券)
(四)关键功能
在整个投行知识库系统建设过程中,结合投行业务的特点,技术化后的关键功能点包括多轮对话、意图识别、知识图谱、大语言模型的选择和部署、文档解析和分段、文档片段向量化和近似度比对、多路召回和筛选/精排序模型以及基于大语言模型的数据库问答。
在具体建设中,采用了多轮对话和特定意图识别技术,以准确回应用户查询。利用自建领域知识图谱,解决了大语言模型对专业问题的处理风险。部署了6-7b和12-13b的开源模型,并做了本地化部署和微调,以适应投行场景。进行文档解析和切割以兼容模型的长度限制,并保证了语句的完整性。通过自训练的嵌入模型进行文档片段向量化和相似度计算,以实现准确的数据检索。设计了多路召回和排序模型用于结果的优化,并使用大语言模型进行数据库问答,优化复杂sql编写,提升系统的整体性能。
从数据阶段开始到大模型结果输出的全流程,通过不同的技术实现手段,达到了保证系统输出的安全性、可解释性等技术标准的目的,满足系统上线的标准。
五、大于大语言模型建设的挑战与意义
基于大语言模型的投行知识库在项目内控合规方面有着广泛的应用前景,在项目内控合规方面扮演着重要的角色。在实际应用中,知识库有助于我们更好地管理项目,确保所有操作和流程符合法规和行业标准,同时提高工作效率和决策效果。但也需要注意一些挑战,比如数据安全和隐私保护、模型的准确性和可靠性等问题。
(一)当下行业面临的技术挑战
投行业务线应用人工智能(ai)技术面临七大挑战:一、非结构化数据解析:如何整合不同来源、不同格式的数据,清洗和处理数据以适应模型需求。二、ai模型的复杂性和解释性:如何在复杂性与可解释性之间寻找平衡。三、数据隐私和合规:如何确保ai应用不违反隐私法规,同时遵循金融监管要求。四、模型稳定性和更新部署:如何实现平滑的模型更新和部署,避免中断业务。五、大语言模型的局限性和应用:需要优化方法来减少幻觉问题的出现,并补充专业知识来提高准确性。六、模型评估与验证:需要建立有效的评估方法,特别是针对大语言模型的评估。七、人机协同与可信度:如何实现人机协同,让ai成为决策的有力辅助,需要技术和文化的支持。
(二)基于大语言模型运用的意义及未来展望
当下,运用大语言模型等先进技术可以提高投行内控合规管理的效率和准确性,提高投行知识库的智能化水平,支持知识检索、推理和推荐等功能,减少人工审核和处理的时间和成本,提高投行业务处理效率。因投行投行业务非常重视风险识别和评估,利用自然语言处理和机器学习技术,对项目相关的文本和数据进行分析,识别潜在的风险因素,并进行评估和预警。可以及时发现和纠正不合规行为,降低风险,保障业务的安全性和稳定性。除此之外,对于提高投行业务合规水平和竞争力以及决策质量,至关重要。利用投行知识库和相关模型,对项目的各个环节进行合规审查和监控,及时发现和纠正不合规展业行为。确保项目的合规性,提高企业的合规水平和竞争力,增强机构客户的信任和满意度。而利用投行知识库和相关模型,为内控合规管理提供决策支持和咨询服务,帮助企业制定合规策略和应对措施。这样可以提高企业的决策质量,减少决策失误,提高业务的成功率和效益。
未来,随着ai技术的不断发展,投资银行业务领域应用人工智能具有广阔的场景,随着大语言模型技术的不断发展,投行知识库可以更加智能化,支持更多的自然语言处理任务,如问答、翻译、摘要等,提高知识检索和推荐的准确性和效率。
通过大语言模式技术的不断应用,我们认为未来可以将大语言模型、aigc、深度学习等技术嵌入项目承揽、尽职调查、质控内核评审、承销、发行以及后督各阶段业务场景;实现文档自动生成、风险排查、文档审核、智能内控等业务的自动化;利用人工智能技术,分析海量数据,预警客户及项目负面舆情风险,集市识别潜在的风险因素,由客户穿透到项目,实现及时有效的风险监控机制。除此之外,投行知识库的建设模式还能应用于证券行业其他业务条线,从而建设企业级只能知识库,全面提升企业整体运营效率。
文章来源:五矿证券
六、参考文献
[1] vaswani, n. shazeer, n. parmar, j. uszkoreit, l. jones, a. n. gomez, l. kaiser, and i. polosukhin,“attention is all you need,” in advances in neural information processing systems 30: annual conference on neural information processing systems 2017, december 4- 69 9, 2017, long beach, ca, usa, 2017, pp. 5998–6008.
[2] j.devlin, m. chang, k. lee, and k. toutanova,“bert: pre-training of deep bidirectional transformers for language understanding,” in proceedings of the 2019 conference of the north american chapter of the association for computational linguistics: human language technologies, naacl-hlt 2019, minneapolis, mn, usa, june 2-7, 2019, volume 1 (long and short papers), j. burstein, c. doran, and t. solorio, eds. association for computational linguistics, 2019, pp. 4171–4186.
[3] s. agarwal, i. akkaya, v. balcom, m. bavarian, g. bernadett-shapiro, g. brockman, m. brundage, j. chan, f. chantzis, n. deutsch, b. eastman, a. eleti, 92 n. felix, s. p. fishman, i. fulford, c. gibson, j. gross, m. heaton, j. hilton, x. hu, s. jain, h. jin, l. kilpatrick, c. kim, m. kolhede, a. mayne, p. mcmillan, d. medina, j. menick, a. mishchenko, a. nair, r. nayak, a. neelakantan, r. nuttall, j. parish, a. t. passos, a. perelman, f. de avila belbute peres, v. pong, j. schulman, e. sigler, n. staudacher, n. turley, j. tworek, r. greene, a. vijayvergiya, c. voss, j. weng, m. wiethoff, s. yoo, k. yu, w. zaremba, s. zhao, w. zhuk, and b. zoph,“chatgpt plugins,” openai blog, march 2023.
[4] k.white, q. fu, s. hays, m. sandborn, c. olea, h. gilbert, a. elnashar, j. spencer-smith, and d. c. schmidt,“a prompt pattern catalog to enhance prompt engineering with chatgpt,” arxiv preprint arxiv:2302.11382, 2023.