交易数据
数据类别
基础数据
- 股票列表、名称、简称、代码、地域、行业、在哪个交易所上市、上市日期、上市状态、是否ST等等。
- 交易所交易日历:记录每个交易所的开市日期。
行情数据
- 基本行情:包括开盘价、收盘价、最高价、最低价、成交量、成交额等。
- 复权因子:用于计算前复权、后复权价格。
- 停复牌信息:记录股票停牌和复牌的时间。
- 估值数据:如市盈率、市净率等。
- 注意事项:行情数据有不同的时间频率(日线、分钟线等),使用时需注意复权问题。
财务数据
- 财务报表:包括资产负债表、利润表、现金流量表等。
- 业绩预告:公司发布的未来业绩预测。
- 审计意见:会计师事务所对公司财务报表的审计结果。
- 注意事项:财务数据存在滞后性,公告日期比实际财报覆盖的时间更重要。
事件数据
- 公告数据:包括公告的发布时间、内容、类型等。
- 股权变动:包括股东名称、持股比例、变动时间等。
- 资产重组:包括重组方案、重组时间、重组目的等。
- 注意事项:事件数据通常具有时效性,及时性比准确性更重要。
公司资料
- 股东数据:包括十大股东、十大流通股东等信息。
- 管理层信息:如董事会成员、高管等。
- 股权质押:记录大股东的股权质押情况。
行业、指数、概念数据
- 行业分类:不同标准的行业划分(如中信、申万等)。
- 指数成分股:各类指数的成分股及其权重。
- 概念板块:各种概念的股票列表。
注意事项:成分股数据会随时间动态变化。
宏观数据
- 宏观经济指标:如GDP、CPI、PPI等。
- 货币政策:如利率、汇率等。
- 财政政策:如税收政策、财政支出等。
- 注意事项:宏观数据通常具有滞后性,时效性不如事件数据。
舆情数据
- 新闻数据:包括新闻的发布时间、内容、来源等。
- 社交媒体数据:如微博、雪球等平台上的用户言论、关注度等。
- 注意事项:舆情数据具有主观性,需结合其他数据综合分析。
机构数据
- 机构持股:包括基金、券商、保险等机构的持股情况。
- 机构调研:机构对上市公司的调研报告。
- 机构评级:机构对股票的评级和推荐。
- 注意事项:机构数据具有一定的专业性,需结合市场情况综合分析。
数据类型
结构化数据
-
定义:具有明确结构和格式的数据,包括严格定义的数据类型和关系。
-
特点:通常以表格形式存在,每列有特定含义和数据类型,每行代表一次观察。
-
示例:行情数据、财务数据、宏观经济数据、市场数据等。
-
表格结构:典型字段包括日期、股票代码、收盘价、成交量等。
-
优势:易于存储、检索和分析,适合用于传统关系型数据库。
-
应用:广泛用于量化交易、风险管理和金融建模等领域。
-
处理工具:可使用SQL、pandas等工具进行高效处理和分析。
非结构化数据
-
定义:没有预定义数据模型的数据,不易于在传统关系数据库中存储和分析。
-
类型:包括文本、图像、音频等多种形式的数据。
-
文本示例:新闻报道、社交媒体帖子、公司公告、分析师报告等。
-
多媒体示例:卫星图像、电话会议录音、视频直播、图表等。
-
存储特点:通常需要使用特殊的数据库系统,如NoSQL数据库或对象存储。
-
处理方法:需要复杂的预处理,如文本分析、图像识别和声音识别。
-
应用价值:可用于情感分析、事件提取、市场趋势预测等量化交易领域。
时间序列数据
-
定义:对单一资产或投资对象在不同时间点的数据,是一种特殊的结构化数据。
-
特点:每个数据点都与一个时间戳关联。
-
示例:某公司股票价格随时间变化的数据集。
-
应用:常见于行情数据,是量化交易中的基础数据类型之一。
-
结构:通常包含时间戳和对应的数值或多个属性。
-
分析方法:可使用时间序列分析技术,如趋势分析、季节性分析等。
-
存储:可存储在时间序列数据库或带有时间索引的常规数据库中。
横截面数据
-
定义:同一时间点不同资产或投资对象的数据。
-
示例:某一天所有股票的收盘价和成交量。
-
应用:常见于基本面数据,如财务报表中的数据。
-
结构:通常包含多个资产的多个属性,每个资产在同一时间点有一个数据点。
-
分析方法:可使用统计学方法,如均值、方差、协方差等。
-
存储:可存储在关系型数据库或NoSQL数据库中。
面板数据
-
定义:对同一资产在不同时间点的数据进行观察,是一种特殊的横截面数据。
-
示例:某公司股票在不同时间点的价格和成交量。
-
应用:常见于财务数据,如季度或年度财务报表。
-
结构:通常包含时间戳和对应的数值或多个属性。
-
分析方法:可使用时间序列分析技术,如趋势分析、季节性分析等。
-
存储:可存储在时间序列数据库或带有时间索引的常规数据库中。