百亿量化私募的数据中台: 提炼存储痛点待解 算法平台急需“统一”

热点资讯2022-08-23 08:11:31未知

百亿量化私募的数据中台: 提炼存储痛点待解 算法平台急需“统一”

(原标题:百亿量化私募的数据中台: 提炼存储痛点待解 算法平台急需“统一”)

为了持续提升量化投研能力,越来越多大型量化私募机构正效仿券商与银行做法,构建自己的量化数据中台。

随着量化投资策略持续兴起,百亿量化私募基金数量随之迭创新高。

据私募排排网最新数据显示,截至7月底,百亿量化私募机构数量达到30家,创下历史新高。

这背后,是量化私募产品投资策略也发生着明显变化。

“在去年不少量化私募产品超额收益出现较大幅度回调后,如今pure alpha(纯阿尔法)策略正受到越来越多量化私募机构管理人的青睐。因为它可以有效规避股指下跌所带来的净值跌破1元压力,并创造较高的超额回报。”恒生电子数据运营中心产品运营专家黄琪向记者透露。目前pure alpha策略私募产品的超额收益来源,主要来自两大方面:一是量化私募通过算法模型率先发现某些股票市场错误定价,提前布局获取超额回报;二是通过大量股市波动历史规律分析,他们更精准地预判未来走势,从而获取超越市场平均水准的回报。

在他看来,要实现pure alpha策略的高超额回报预期,量化私募机构需在数据、算法模型、交易执行方面持续加大投入,由此推高了量化投研数据使用要求。

记者多方了解到,为了持续提升量化投研能力,越来越多大型量化私募机构正效仿券商与银行做法,构建自己的量化数据中台。

思勰投资交易运营总监孙修远指出,通过建设量化数据中台实现业务数据化、数据资产化和投研智能化,从而打造数据驱动的量化资管体系,将是未来量化私募机构借助数据能力提升投资决策精准性的一大重要方向。

他直言,要做好这项工作,绝非易事。一是众多量化私募机构均面临量化投研数据体量大、多源异构、数据质量低、自由度低等痛点,导致数据使用效率千差万别;二是如何通过数据清洗提炼分析,进一步完善自身算法投资模型,同样是一大挑战。

在恒生聚源副总经理夏青看来,随着pure alpha等量化选股类策略资金容量越来越大,它对多因子选股策略的数据需求日益旺盛——包括个股基本面,市场情绪面、资金流动性、行情类、财务类、估值类等各类数据和财务指标,量化私募机构不但要求数据齐全,还要求实时更新推送与快速清洗提炼 (转化成他们需要的建模因子数据),这驱动金融数据服务商在提供数据服务同时,还需输出涵盖规模因子、动量因子、技术因子、波动因子等多元化因子库,为量化私募机构提供完善的投研数据服务、绩效归因分析和指数服务。

他透露,恒生电子正致力于通过数据质量规则校验系统建设高质量的历史行情数据库,为量化投资机构打造集行情、资讯、因子数据于一体的机构金融数据服务,并提供二次加工和统一便捷的对外服务,进一步满足他们对量化投研数据的各类需求。

中泰证券科技研发部总经理何波指出,随着监管趋严令量化交易不再纯粹聚焦高频极速,除了低延时、AI等科技已被广泛应用,系统开源与云原生同样是值得量化交易投资机构深入探索的一大科技赋能方向,这也是量化交易走向规模化的必由之路。但要让量化交易迈入云原生之路,则需从统一的行业标准制定、完善的开源生态构建、合适的开发语言使用等各方面深入发展。

百亿量化私募的数据中台“坎坷路”

记者多方了解到,不同于传统投资交易,量化交易投资主要是将股市波动历史规律转化成数据,并依赖统计和编程完成数据分析和制定相应投资策略,且在执行前需先通过各类模拟测试验证其投资策略的有效性与业绩表现能否达到预期。

因此,众多量化策略私募机构的一项重要工作,就是整天与各类金融数据打交道,由此催生三大量化投研数据需求,一是数据完备性,即尽可能掌握更多的金融数据,包括宏观经济、上市公司财务数据、股票行情数据、上市公司舆情数据等;二是数据务必准确,这是确保投资策略净值回撤状况可控的最大基础;三是足够快地获取各类数据,从而确保量化交易投资策略能快速响应市场变化。

一位正在研发pure alpha策略私募产品的百亿量化私募机构投研总监向记者透露,目前他们最看中的是行情数据,但这类数据处理起来相当繁琐,因为数据量特别大且需要繁重的数据校对,以确保数据具有较高的准确性。

“此外,令我们比较头疼的,还有盘后统计数据分析工作。它对优化量化投资算法模型起到关键作用,但我们时常遇到数据不够全面,导致复盘建模效果有时不尽如人意。”他指出。

为了解决这些痛点,他所在的百亿量化私募机构正尝试搭建量化数据中台,包括底部数据层、因子发现层、策略开发层、策略跟踪层与产品层都能做到数据打通共享,从而全面还原各项量化投资模型的构建全过程与投资业绩好坏,作为他们不断优化pure alpha投资策略的重要依据。

他指出,在量化数据中台构建过程,另一个令他们颇伤脑筋的问题,是如何搭建完善的算法平台,目前他们除了自主内部挖掘各类金融数据构建量化交易投资模型,还会引入外部算法模型提供商的某些独特投资策略。但在实际操作过程,他们发现多数算法模型提供商专注投资算法模型研发,忽视量化私募机构数据接口与风控模型的对接,导致不少外部算法投资模型“只能看不能用”;此外,当他们接入多家外部算法模型服务商后,还会发现自己缺乏统一平台进行管理,导致他们迟迟没能构建统一的运营评价体系判断孰优孰劣,令自身量化交易投资策略面临额外的投资风险。

“我们正在尝试构建统一的算法平台,实现算法管理、算法设计、算法测试流程、算法上线流程、交易风控流程的统一,彻底解决上述痛点。”他指出。

记者多方了解到,不少大型量化私募机构在构建量化数据中台过程中,还会遇到数据存储难题——目前,绝大多数结构化数据可以通过数据库方式存储,但众多非结构化数据(包括高频海量的时序数据、研报、舆情等)却难以使用数据库方式存储。尽管越来越多量化私募机构尝试基于大数据预处理的数据湖技术——先使用NLP、机器学习等技术对非结构化数据进行清洗提炼分析,再通过预处理模块将它们纳入数据库存储,但收效未能达到预期。

科技赋能解决方案成效几何

面对量化私募机构的旺盛量化投研数据需求与使用痛点,券商与第三方金融数据服务商纷纷提供新型科技赋能解决方案。

一位券商信息技术部负责人向记者透露,他们调研发现,在数据存储层面,数据格式很大程度决定了数据存储方式。因此他们正尝试对时序数据采取特殊优化的存储方式,比如列式存储或基于流处理、批处理的特殊存储方式,对海量结构化数据则采取高速文件集群或对象存储群技术进行存储,解决量化私募机构对量化投研数据存储的诸多痛点。

在数据使用层面,数据内容则决定了数据使用方式与逻辑归类。因此他们在收集庞大量化投研数据同时,还会建立一个数据访问层,提供API、DB与各类形式文件接口,向量化私募机构提供全量的数据访问服务,协助他们将众多外部数据收集先实现业务数据化,再依托他们自身量化数据中台进行数据清理提炼,进而实现数据资产化,最终达到智能化使用量化投研数据的效果。

“其间我们还协助他们优化统一的算法平台,尤其是算法服务商和券商的数据使用方式与数据接口实现统一,助力量化私募机构降低系统复杂度同时,令合规风控更有保障。”他指出。

黄琪告诉记者,目前众多量化私募机构在提升量化投研能力与量化投资数据使用过程中,还遇到三大痛点:一是数据多源头、体量大,结构格式分类大不相同,因此他们迫切希望能够更方便地开展多源头数据清洗处理分析;二是众多数据质量低且更新快,甚至很难发现(要么即便发现也很难纠正),令他们同样需要一整套数据质量校验体系,能够通过多维度比对判断哪些数据存在“偏颇”,迅速找到数据修复补齐路径以尽快提升数据质量;三是越来越多量化私募机构抱怨没有办法对数据开展二次加工,尤其是将有些具有投资决策参考价值的“中间指标”或“常用指标”前置到数据处理环节,从而给后端投研建模工作节省更多时间;甚至部分大型量化私募机构还希望能对数据做到便捷二次加工与离线计算,以及实时行情数据的低延时计算推送,方便投研团队与交易风控团队对行情变化做出更快的反应。

在他看来,要解决这些数据使用痛点,金融数据服务商需在构建量化投研数据服务领域做好四件事:一是建立历史行情的数据底座并提高数据质量,二是开放历史行情的数据二次加工平台并提供数据加工能力,三是进一步对外开放服务,包括支持低码化封装的API接口,四是不断优化权限管理,支持量化私募机构按需申请数据使用权限与可视化工作等。

黄琪直言,当前国内量化投研与量化投资对数据的服务要求之所以不断提高,是因为越来越多量化私募机构正在比拼与追逐更高的pure alpha。这无形间推动金融数据服务商必须提供更完善、省心、高性价比与标准化的量化投研数据服务,令量化投资领域的数据使用门槛不会跟随业绩目标“水涨船高”。

(作者:陈植 编辑:曾芳)

本文标签: 算法  投研  

相关推荐

猜你喜欢

大家正在看