天然语言处理结合金融专业应用,主要在于资料搜集和处理。

 智能金融的基石——天然语言处理(NLP)和知识图谱 

金融行业因其与数据的高度相关性,成为人工智能最早应用的行业之一,而天然语言处理(NLP)与知识图谱做为人工智能技术的重要研究方向与组成部分,正在快速进入金融领域,并日益成为智能金融的基石。

通常的金融科技公司只会集中在其中的某些业务方向,只要能深刻掌握两到三种能力,就能具备至关的竞争力。在这些业务场景中,天然语言处理(NLP)和知识图谱技术每每须要共同应用,才能发挥出最大的效能。同时,一种核心能力能够在多个智能金融应用场景中获得应用,这些应用场景包括:智能投研、智能投顾、智能风控、智能客服、智能监管、智能运营等。

金融语义应用场景概念框 01智能问答和语义搜索 智能问答和语义搜索是天然语言处理(NLP)的关键技术,目的是让用户以天然语言形式提出问题,深刻进行语义分析,以更好理解用户意图,快速准确获取知识库中的信息。在用户界面上,既能够表现为问答机器人的形式(智能问答),也能够为搜索引擎的形式(语义搜索)。智能问答系统通常包括问句理解、信息检索、答案生成三个环节。智能问答系统与金融知识图谱密切相关,知识图谱在语义层面提供知识的表示、存储和推理,智能问答则从语义层面提供知识检索的入口。基于知识图谱的智能问答相比基于文本的问答更能知足金融业务实际需求。 智能问答和语义搜索的价值在金融领域愈来愈被重视。它主要应用的场景包括智能投研、智能投顾和智能客服。在智能投研领域,投研人员平常工做须要经过多种渠道搜索大量相关信息。而有了金融问答和语义搜索的帮助,信息获取途径将是“Just ask a question”。而且,语义搜索返回的结果不只是平面化的网页信息,而是能把各方面的相关信息组织起来的立体化信息,还能提供必定的分析预测结论。在智能客服和智能投顾领域,智能问答系统的应用主要是机器人客服。机器人客服目前的做用还只是辅助人工客服回答一些常见问题,但已能较大地节省客服部门的人力成本。 典型应用案例如美国Alphasense公司为投研人员整合碎片化信息,提供专业金融知识访问工具。AlphaSense公司的产品能够说是新一代的金融知识引擎。它重新闻、财报、研报各类行业网站等获取大量数据、信息、知识形式的“素材”,经过语义分析构建成知识图谱,并提供高级语义搜索引擎、智能问答、交互式知识管理系统、文档(知识)协做系统,以对金融知识进行更加有效的管理、搜索、使用。 02资讯与舆情分析 金融资讯信息很是丰富,例如公司新闻(公告、重要事件、财务情况等)、金融产品资料(股票、证券等)、宏观经济(通货膨胀、失业率等)、政策法规(宏观政策、税收政策等)、社交媒体评论等。 金融资讯天天产生的数量很是庞大,要从浩如烟海的资讯库中准确找到相关文章,还要阅读分析每篇重要内容,是费时费力的工做。若是有一个工具帮助人工快速迅捷获取资讯信息,将大大提升工做效率。资讯舆情分析的主要功能包括资讯分类标签(按公司、产品、行业、概念板块等)、情感正负面分析(文章、公司或产品的情感)、自动文摘(文章的主要内容)、资讯个性化推荐、舆情监测预警(热点热度、云图、负面预警等)。在这个场景中,金融知识图谱提供的金融知识有助于更好理解资讯内容,更准确地进行资讯舆情分析。 资讯舆情分析的应用主要在智能投研和智能监管这两个场景。目前市场上的辅助投研工具中,资讯舆情分析是必不可少的重要部分。资讯舆情分析做为通用工具更可能是对海量定性数据进行摘要、概括、缩简,以更加快捷方便地为投研人员提供信息,支持他们进行决策,而非直接给出决策结论。在智能监管领域,经过资讯舆情分析,对金融舆情进行监控,发现违规非法活动进行预警。 03金融预测和分析 基于语义的金融预测即利用金融文本中包含的信息预测各类金融市场波动,它是以NLP等人工智能技术与量化金融技术的结合。 利用金融文本数据帮助改善金融交易预测模型的想法早已有之。本世纪初,美国就有人利用新闻和股价的历史数据来预测股价波动。2010年后,社交媒体产生了大量数据,基于Twitter、Facebook来预测股市的研究项目不少。最近,深度学习被大量应用在预测模型中。金融文本数据提供的信息是定性的(qualitative),而一般数字形式的数据是定量的(quantitative)。定性分析比定量分析更难,定性信息包含的信息量更大。有分析代表,投资决策人员在进行决策时,更多依赖于新闻、事件甚至流言等定性信息,而非定量数据。所以,可期待基于语义的金融预测分析大有潜力可挖。这个场景中涉及的关键NLP技术包括事件抽取和情感分析技术。金融知识图谱在金融预测分析中具备重要的做用,它是进行事件推理的基础。例如在中兴事件中,可根据产业链图谱推导受影响的公司。 基于语义的金融预测和分析在金融应用的主要场景包括智能投研和智能投顾。它的理想目标是能代替投资人员作投资预测,进行自动交易,但目前还只是做为投资人员的投资参考。将不一样来源的多维度数据进行关联分析,特别是对非结构化数据的分析,好比邮件、社交网络信息、网络日志信息。从而挖掘和展示出未知的相关关系,为决策提供依据。典型的应用案例如美国Palantir公司提供基于知识图谱的大数据分析平台。其金融领域产品Metropolis,经过整合多源异构数据,构建金融领域知识图谱。特色是:对非结构化数据的分析能力、将人的洞察和逻辑与高效的机器辅助手段相结合起来。另外一个例子如Kensho公司利用金融知识图谱进行预测分析。在英国脱欧期间,交易员成功运用Kensho了解到退欧选举形成当地货币贬值;曾准确分析了美国总统任期的前100天内股票涨跌状况。 04文档信息抽取 信息抽取是NLP的一种基础技术,是NLP进一步进行数据挖掘分析的基础,也是知识图谱中知识抽取的基础。采用的方法包括基于规则模板的槽填充的方法、基于机器学习或深度学习的方法。按抽取内容分能够分为实体抽取、属性抽取、关系抽取、规则抽取、事件抽取等。 在这里的文档信息抽取特指一种金融应用场景。指从金融文档(如公告研报)等抽取指定的关键信息,如公司名称、人名、指标名称、数值等。文档格式多是格式化文档(word, pdf, html等)或纯文本。对格式化文本进行抽取时须要处理并利用表格、标题等格式信息。文档信息抽取的应用场景主要是智能投研和智能数据,促进数据生产自动化或辅助人工进行数据生产、文档复核等。 05自动文档生成 自动文档生成指根据必定的数据来源自动产生各种金融文档。常见的须要生成的金融文档如信息披露公告(债券评级、股转书等)、各类研究报告。 自动报告生成属于生成型NLP应用。它的数据来源多是结构化数据,也多是从非结构化数据用信息抽取技术取得的,也多是在金融预测分析场景中得到的结论。简单的报告生成方法是根据预约义的模板,把关键数据填充进去获得报告。进一步的自动报告生成须要比较深刻的NLG技术,它能够把数据和分析结论转换成流畅的天然语言文本。 自动文档生成的应用场景包括智能投研、智能投顾等。它的典型应用案例如美国的Narrative Science,它从结构化数据中进行数据挖掘,并把结果用简短的文字或依据模板产生报告内容。又如Automated Insights,它为美联社自动写出了10亿多篇文章与报告。 06风险评估与反欺诈 风险评估是大数据、互联网时代的传统应用场景,应用时间较早,应用行业普遍。它是经过大数据、机器学习技术对用户行为数据分析后,进行用户画像,并进行信用和风险评估。 NLP技术在风控场景中的做用是理解分析相关文本内容,为待评估对象打标签,为风控模型增长更多的评估因子。引入知识图谱技术之后,能够经过人员关系图谱的分析,发现人员关系的不一致性或者短期内变更较大,从而侦测欺诈行为。利用大数据风控技术,在事前可以预警,过滤掉带恶意欺诈目的人群;在事中进行监控,发生欺诈攻击时及时发现;在过后进行分析,挖掘到欺诈者的关联信息,下降之后的风险。 在金融行业,风险评估与反欺诈的应用场景首先是智能风控。利用NLP和知识图谱技术改善风险模型以减小模型风险,提升欺诈监测能力。其次,还能够应用在智能监管领域,以增强监管者和各部门的信息交流,跟踪合规需求变化。经过对通讯、邮件、会议记录、电话的文本进行分析,发现不一致和欺诈文本。例如欺诈文本有些固定模式:如用负面情感词,减小第一人称使用等。经过有效的数据聚合分析可大大减小风险报告和审计过程的资源成本。从事此类业务的Finctech公司不少,如Palantir最初从事的金融业务就是反欺诈。其余如Digital Reasoning、Rapid Miner、Lexalytics、Prattle等。 07客户洞察 客户关系管理(CRM)也是在互联网和大数据时代中发展起来,市场相对成熟,应用比较普遍,许多Fintech公司都以此为主要业务方向。现代交易愈来愈可能是在线上而不是线下当面完成,所以如何掌握客户兴趣和客户情绪,愈来愈须要经过对客户行为数据进行分析来完成。 NLP技术在客户关系管理中的应用,是经过把客户的文本类数据(客服反馈信息、社交媒体上的客户评价、客户调查反馈等)解析文本语义内涵,打上客户标签,创建用户画像。同时,结合知识图谱技术,经过创建客户关系图谱,以得到更好的客户洞察。这包括客户兴趣洞察(产品兴趣),以进行个性化产品推荐、精准营销等。以及客户态度洞察(对公司和服务满意度、改进意见等),以快速响应客户问题,改善客户体验,增强客户联系,提升客户忠诚度。 客户洞察在金融行业的应用场景主要包括智能客服和智能运营。例如在智能客服中,经过客户洞察分析,能够改善客户服务质量,实现智能质检。在智能运营(智能CRM)中,根据客户兴趣洞察,实现个性化精准营销。国外从事这个业务方向的Fintech公司不少,如Inmoment,Medallia,NetBase等。html

天然语言处理(NLP)和知识图谱两种技术自己都还在发展成长过程当中,所以在金融落地过程当中势必也还会面临许多新的课题和挑战,任重而道远。一方面,人工智能必须与金融的具体业务场景切合,找到金融企业需求痛点,真正提高客户生产效率,给客户带来价值;另外一方面,人工智能是基础技术学科,技术难度大,人才要求高,在核心技术和关键算法上须要有突破有优点,才能不断提高市场竞争力。因此,场景驱动和技术研发须要相辅相成、紧密结合。相信金融智能语义技术的应用将会有广阔的发展空间,推进智能金融迈向一个新的台阶。git

相关文章
相关标签/搜索