大数据量化投资:研报文本挖掘选股策略

核心观点:

  ●借力研报,打造开放的量化选股模型

  传统的多因子量化选股模型是封闭的,缺乏捕捉市场热点的能力,通过大数据技术,从财经媒体和分析师研报中捕捉热点和政策的变化,可以打造开放的量化选股模型。

  分析师个股类研报每年大约5万份,相比财经媒体,分析师研报在专业度、可信度、规范度、实时度等方面有明显优势,是大数据量化投资的重要数据来源之一。

  ●热词库建设是构建量化选股模型的关键

  通过对历史研报的统计,我们建立了基本面类、情绪面类、概念主题类三大热词库,其中基本面类和情绪类细分为正面词库和负面词库。我们统计了单个热词在近4年的选股效果,总体胜率比较高,相对沪深300有明显超额收益。

  ●“基本面+情绪面”热词库选股策略表现稳定

    2011-2014年,策略相对沪深300、中证500的年化超额收益为21.29%、14.84%,月度胜率大约70%。

  ●“概念主题”热词库选股策略令人惊喜

  以“油价下跌”和“一带一路”为例,截止12月19日,“油价下跌”热词概念股平均超额收益27.78%,“一带一路”热词概念股平均超额收益21.48%,其中表现最好的是中国交建,超额收益达93.28%、绝对收益达101.55%。

  ●“银河大数据量化投资”体系

  我们将逐步建立起“银河大数据量化投资”体系,数据来源包括财经媒体、分析师研报、行情财务三大部分。我们认为,通过对投资者情绪、行业政策舆论、概念主题舆论和个股舆论进行大数据分析,可以构建择时、行业配置、选股和组合管理等量化投资模型。

  传统的多因子量化选股模型是封闭的,缺乏捕捉市场热点的能力,通过大数据技术,从财经媒体和分析师研报中捕捉热点和政策的变化,可以打造开放的量化选股模型。

  分析师个股类研报每年大约5万份,相比财经媒体,分析师研报在专业度、可信度、规范度、实时度等方面有明显优势,是大数据量化投资的重要数据来源之一。

  一、银河大数据量化投资体系

  近两年来,大数据和互联网金融发展迅猛,各大基金公司和券商纷纷加入大数据量化投资研究行列,甚至一些互联网公司已经布局,未来大数据量化投资研究将精彩纷呈。

  国内已经有成功的案例,比如广发基金联合百度公司、中证指数公司开发百发100指数,南方基金则携手新浪财经、深证信息公司推出了i100指数和i300指数。

 我们构建了银河大数据量化投资体系。理论上,大数据研究的引入,可以把量化投资各个领域重新建模,包括择时、行业配置、选股和组合管理等。

宽客网,量化投资,宽客俱乐部

二、分析师研报是重要的数据来源

(一)信息的传导路径

    传统的多因子量化选股模型依赖财报数据,其信息是非常滞后的,其封闭性让其无法跟上市场节奏,通过财经媒体和分析师研报,有助于量化选股模型捕捉到更加前沿的信息。

宽客网,量化投资,宽客俱乐部

(二)分析师研报数量庞大

    近4年来,个股类的分析师研报每年大约有5万分,是大数据量化投资的重要数据来源。

宽客网,量化投资,宽客俱乐部

(三)简单的文本挖掘策略回顾

    我们团队对分析师研报的应用有着深厚的积累。2013年我们推出了《事件投资,有效的研报标题关键字130521》。

    该策略在 014年总体上还是有效的,但呈现一个特点,基本面相关的关键字效果在下降,而情绪类相关的关键字效果要更好一些。

宽客网,量化投资,宽客俱乐部

  简单的研报标题信息量非常有限,下文我们将进一步从研报摘要中挖掘更加有效、准确的信息。

三、文本挖掘技术介绍与热词库建设

    首先,我们简单介绍一下文本挖掘的技术。

    (一)VSM 模型与 LSA 模型

 文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘利用智能算法,如神经网络、基于案例的推理、可能性推理等,并结合文字处理技术,分析大量的非结构化文本源,抽取或标记关键字概念、文字间的关系,并按照内容对文档进行分类,获取有用的知识和信息。文本挖掘涵盖了多种技术,包括数据挖掘技术、信息抽取、信息检索,机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论。

    语义分析最经典的模型是向量空间模型(VSM:Vector Space Model)由 Salton 等人于20世纪70年代提出。它将文档表示成特征元素(主要是文档中出现的词语)的集合,即D(t1,t2,……tn)。最简单的计算词权重的方式是:如果词出现在文档中,则权值为1;没有出现,则权值为0。这种方法的缺点在于,它没有体现词语在文档中出现的频率。

VSM 模型的基本概念包括:

    文档(document): 通常是文章中具有一定规模的字符串。文档通常我们也叫文本。

    特征项 (feature term):是VSM中最小的不可分的语言单元,可以是字、词、词组、短语等。一个文档内容可以被看成是它含有的特征项的集合。表示为一个向量:(t1,t2,……tn),其中it是特征项。

    特征项权重 (term weight): 对于含有n个特征项的文档(t1,t2,……tn),,每一个特征项ti都依据一定的原则被赋予了一个权重ωi,表示该特征项在文档中的重要程度。这样一个文档D可用它含有的特征项及其特征项所对应的权重所表示:D=(ωi,t2=……ω2,tn=ωn),简记为D(ω1,ω2,……ωn),其中ωi就是特征项it的权重。

    1990 年,Deerwester 等人于提出了潜在语义分析(LatentSemanticAnalysis)模型,用于挖掘文档与词语之间隐含的潜在语义关联。LSA的理论基础是数学中的奇异值矩阵分解(SVD)技术。LSA(latentsemantic analysis)潜在语义分析,也被称为 LSI(latent semanticindex)。该方法和传统向量空间模型(vectorspacemodel)一样使用向量来表示词(terms)和文档(documents),并通过向量间的关系(如夹角)来判断词及文档间的关系,不同的是,LSA将词和文档映射到潜在语义空间,从而去除了原始向量空间中的一些“噪音”,提高了信息检索的精确度。

    关于模型更多的细节可以参考专业的学术论文,在此不展开论述。

(二)热词库建设是构建量化选股模型的关键

    文本挖掘的技术已经日臻成熟,互联网类的公司有非常成熟的技术,那么在证券领域如何运用呢?热词库的建设是关键,我们认为,无论是财经媒体的文本挖掘还是分析师研报的文本挖掘,都依赖于热词库的积累。

    我们把词库建设分成三类:基本面类、情绪面类和概念主题类。

宽客网,量化投资,宽客俱乐部

(三)基本面、情绪热词效果分析

    研报摘要反应了研报的核心内容,大券商分析师的研报摘要表述清晰、简洁、准确,通过对研报摘要文本挖掘提炼关键信息,可以起到事半功倍的效果。后文的热词挖掘都是针对研报摘要进行。

宽客网,量化投资,宽客俱乐部

宽客网,量化投资,宽客俱乐部

宽客网,量化投资,宽客俱乐部

宽客网,量化投资,宽客俱乐部

宽客网,量化投资,宽客俱乐部

宽客网,量化投资,宽客俱乐部

  从热词在 2011-2014年的表现来看,单个热词是不稳定的,但热词库整体的胜率和超额是比较好的,因此,我们用整个热词库构建量化选股模型。

四、“基本面+情绪面”热词库选股策略

(一)策略净值

    对研报标题和摘要进行文本挖掘,通过基本面热词库、情绪面热词库两个角度进行筛选,成分股持仓30个交易日,每5个交易日滚动调仓一次,双边手续费取千分五,策略净值如图4 所示,可见,策略能够稳定战胜中证500指数和沪深300指数。

宽客网,量化投资,宽客俱乐部

策略每年的超额收益是比较稳定的,如表 9 所示。

宽客网,量化投资,宽客俱乐部

(二)相对优势分析

宽客网,量化投资,宽客俱乐部

宽客网,量化投资,宽客俱乐部

(三)案例分析

宽客网,量化投资,宽客俱乐部

  东华软件在2014年的第一份研究报告是《东华软件-002065-前瞻布局,再创优势-140122》,改报告出现的热词有:并购、龙头、加速、增长、提升等,符合热词库选股条件,之后的一个月内,股价大幅上升。

    2014年8月 24日,某分析师发布《浙江众成-002522-公司深度研究:募投项目及新品投放,业绩望迎来拐点-140824》,研报中出现的热词有:翻番、拐点、超预期等,符合热词库选股条件,之后的一个月内,股价大幅上升。

五、“概念主题”热词库选股策略

    除了“基本面+情绪面”两个热词库筛选之外,我们增加第三类热词库的筛选——“概念主题”,打破了传统多因子量化选股模型的封闭性,有利于量化模型捕捉市场热点和政策的变化。

    以当前最热门的两个概念——“油价下跌”和“一带一路”为例,我们统计了入选成分股的表现。

(一) “油价下跌”概念

    截止2014年12月19日,入选成分股相对沪深300平均超额收益为27.78%。

宽客网,量化投资,宽客俱乐部

(二) “一带一路”概念

    截止2014年12月19日,入选成分股相对沪深300平均超额收益为21.48%。

宽客网,量化投资,宽客俱乐部

宽客网,量化投资,宽客俱乐部

(三) 案例分析:中国交建

    2014年12月7日,银河证券分析师发布报告《中国交建-601800-公司跟踪报告:一带一路龙头,五商中交再造国际工程霸业-141207》,研报中出现“一带一路”、“国企改革”等概念,并出现多个“增长”、“提升”、“快速”、“成长”、“龙头”等热词,符合我们的选股条件。截止12月19日,股价已经上涨101.55%,相对沪深300超额收益达93.28%。

六、风险提示

    本报告中的所有模型都是根据历史数据建立和测算的,图表中展示的效果亦是基于历史数据,并不必然保证未来有同样好的收益。本报告中的所有模型和结论只供投资者参考,并不能完全排除未来的风险。

作者:温尚清/银河证券
交易技术, 交易策略

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部