大数据量化投资：研报文本挖掘选股策略

2014-12-27 13:00:00

核心观点:

　　●借力研报，打造开放的量化选股模型

　　传统的多因子量化选股模型是封闭的，缺乏捕捉市场热点的能力，通过大数据技术，从财经媒体和分析师研报中捕捉热点和政策的变化，可以打造开放的量化选股模型。

　　分析师个股类研报每年大约5万份，相比财经媒体，分析师研报在专业度、可信度、规范度、实时度等方面有明显优势，是大数据量化投资的重要数据来源之一。

　　●热词库建设是构建量化选股模型的关键

　　通过对历史研报的统计，我们建立了基本面类、情绪面类、概念主题类三大热词库，其中基本面类和情绪类细分为正面词库和负面词库。我们统计了单个热词在近4年的选股效果，总体胜率比较高，相对沪深300有明显超额收益。

　　●“基本面+情绪面”热词库选股策略表现稳定

2011-2014年，策略相对沪深300、中证500的年化超额收益为21.29%、14.84%，月度胜率大约70%。

　　●“概念主题”热词库选股策略令人惊喜

　　以“油价下跌”和“一带一路”为例，截止12月19日，“油价下跌”热词概念股平均超额收益27.78%，“一带一路”热词概念股平均超额收益21.48%，其中表现最好的是中国交建，超额收益达93.28%、绝对收益达101.55%。

　　●“银河大数据量化投资”体系

　　我们将逐步建立起“银河大数据量化投资”体系，数据来源包括财经媒体、分析师研报、行情财务三大部分。我们认为，通过对投资者情绪、行业政策舆论、概念主题舆论和个股舆论进行大数据分析，可以构建择时、行业配置、选股和组合管理等量化投资模型。

　　一、银河大数据量化投资体系

　　近两年来，大数据和互联网金融发展迅猛，各大基金公司和券商纷纷加入大数据量化投资研究行列，甚至一些互联网公司已经布局，未来大数据量化投资研究将精彩纷呈。

　　国内已经有成功的案例，比如广发基金联合百度公司、中证指数公司开发百发100指数，南方基金则携手新浪财经、深证信息公司推出了i100指数和i300指数。

　我们构建了银河大数据量化投资体系。理论上，大数据研究的引入，可以把量化投资各个领域重新建模，包括择时、行业配置、选股和组合管理等。

宽客网,量化投资,宽客俱乐部

二、分析师研报是重要的数据来源

(一)信息的传导路径

传统的多因子量化选股模型依赖财报数据，其信息是非常滞后的，其封闭性让其无法跟上市场节奏，通过财经媒体和分析师研报，有助于量化选股模型捕捉到更加前沿的信息。

宽客网,量化投资,宽客俱乐部

(二)分析师研报数量庞大

近4年来，个股类的分析师研报每年大约有5万分，是大数据量化投资的重要数据来源。

宽客网,量化投资,宽客俱乐部

(三)简单的文本挖掘策略回顾

我们团队对分析师研报的应用有着深厚的积累。2013年我们推出了《事件投资，有效的研报标题关键字130521》。

该策略在 014年总体上还是有效的，但呈现一个特点，基本面相关的关键字效果在下降，而情绪类相关的关键字效果要更好一些。

宽客网,量化投资,宽客俱乐部

　　简单的研报标题信息量非常有限，下文我们将进一步从研报摘要中挖掘更加有效、准确的信息。

三、文本挖掘技术介绍与热词库建设

首先，我们简单介绍一下文本挖掘的技术。

(一)VSM 模型与 LSA 模型

　文本挖掘是信息挖掘的一个研究分支，用于基于文本信息的知识发现。文本挖掘利用智能算法，如神经网络、基于案例的推理、可能性推理等，并结合文字处理技术，分析大量的非结构化文本源，抽取或标记关键字概念、文字间的关系，并按照内容对文档进行分类，获取有用的知识和信息。文本挖掘涵盖了多种技术，包括数据挖掘技术、信息抽取、信息检索，机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论。

语义分析最经典的模型是向量空间模型（VSM：Vector Space Model）由 Salton 等人于20世纪70年代提出。它将文档表示成特征元素（主要是文档中出现的词语）的集合，即D（t1,t2,……tn）。最简单的计算词权重的方式是：如果词出现在文档中，则权值为1；没有出现，则权值为0。这种方法的缺点在于，它没有体现词语在文档中出现的频率。

VSM 模型的基本概念包括：

文档(document)：通常是文章中具有一定规模的字符串。文档通常我们也叫文本。

特征项 (feature term)：是VSM中最小的不可分的语言单元，可以是字、词、词组、短语等。一个文档内容可以被看成是它含有的特征项的集合。表示为一个向量：（t1,t2,……tn）,其中it是特征项。

特征项权重 (term weight)：对于含有n个特征项的文档（t1,t2,……tn），，每一个特征项ti都依据一定的原则被赋予了一个权重ωi，表示该特征项在文档中的重要程度。这样一个文档D可用它含有的特征项及其特征项所对应的权重所表示：D=（ωi,t2=……ω2，tn=ωn），简记为D（ω1，ω2，……ωn），其中ωi就是特征项it的权重。

1990 年，Deerwester 等人于提出了潜在语义分析（LatentSemanticAnalysis）模型，用于挖掘文档与词语之间隐含的潜在语义关联。LSA的理论基础是数学中的奇异值矩阵分解（SVD）技术。LSA(latentsemantic analysis)潜在语义分析，也被称为 LSI(latent semanticindex)。该方法和传统向量空间模型(vectorspacemodel)一样使用向量来表示词(terms)和文档(documents)，并通过向量间的关系(如夹角)来判断词及文档间的关系，不同的是，LSA将词和文档映射到潜在语义空间，从而去除了原始向量空间中的一些“噪音”，提高了信息检索的精确度。

关于模型更多的细节可以参考专业的学术论文，在此不展开论述。

(二)热词库建设是构建量化选股模型的关键

文本挖掘的技术已经日臻成熟，互联网类的公司有非常成熟的技术，那么在证券领域如何运用呢？热词库的建设是关键，我们认为，无论是财经媒体的文本挖掘还是分析师研报的文本挖掘，都依赖于热词库的积累。

我们把词库建设分成三类：基本面类、情绪面类和概念主题类。

宽客网,量化投资,宽客俱乐部

(三)基本面、情绪热词效果分析

研报摘要反应了研报的核心内容，大券商分析师的研报摘要表述清晰、简洁、准确，通过对研报摘要文本挖掘提炼关键信息，可以起到事半功倍的效果。后文的热词挖掘都是针对研报摘要进行。

宽客网,量化投资,宽客俱乐部

　　从热词在 2011-2014年的表现来看，单个热词是不稳定的，但热词库整体的胜率和超额是比较好的，因此，我们用整个热词库构建量化选股模型。

四、“基本面+情绪面”热词库选股策略

(一)策略净值

对研报标题和摘要进行文本挖掘，通过基本面热词库、情绪面热词库两个角度进行筛选，成分股持仓30个交易日，每5个交易日滚动调仓一次，双边手续费取千分五，策略净值如图4 所示，可见，策略能够稳定战胜中证500指数和沪深300指数。

宽客网,量化投资,宽客俱乐部

策略每年的超额收益是比较稳定的，如表 9 所示。

宽客网,量化投资,宽客俱乐部

(二)相对优势分析

宽客网,量化投资,宽客俱乐部

(三)案例分析

宽客网,量化投资,宽客俱乐部

　　东华软件在2014年的第一份研究报告是《东华软件-002065-前瞻布局，再创优势-140122》，改报告出现的热词有：并购、龙头、加速、增长、提升等，符合热词库选股条件，之后的一个月内，股价大幅上升。

2014年8月 24日，某分析师发布《浙江众成-002522-公司深度研究：募投项目及新品投放，业绩望迎来拐点-140824》，研报中出现的热词有：翻番、拐点、超预期等，符合热词库选股条件，之后的一个月内，股价大幅上升。

五、“概念主题”热词库选股策略

除了“基本面+情绪面”两个热词库筛选之外，我们增加第三类热词库的筛选——“概念主题”，打破了传统多因子量化选股模型的封闭性，有利于量化模型捕捉市场热点和政策的变化。

以当前最热门的两个概念——“油价下跌”和“一带一路”为例，我们统计了入选成分股的表现。

(一) “油价下跌”概念

截止2014年12月19日，入选成分股相对沪深300平均超额收益为27.78%。

宽客网,量化投资,宽客俱乐部

(二) “一带一路”概念

截止2014年12月19日，入选成分股相对沪深300平均超额收益为21.48%。

宽客网,量化投资,宽客俱乐部

(三) 案例分析：中国交建

2014年12月7日，银河证券分析师发布报告《中国交建-601800-公司跟踪报告：一带一路龙头，五商中交再造国际工程霸业-141207》，研报中出现“一带一路”、“国企改革”等概念，并出现多个“增长”、“提升”、“快速”、“成长”、“龙头”等热词,符合我们的选股条件。截止12月19日，股价已经上涨101.55%，相对沪深300超额收益达93.28%。

六、风险提示

本报告中的所有模型都是根据历史数据建立和测算的，图表中展示的效果亦是基于历史数据，并不必然保证未来有同样好的收益。本报告中的所有模型和结论只供投资者参考，并不能完全排除未来的风险。

作者：温尚清/银河证券
交易技术, 交易策略

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！