1998-2025年上市公司年报人工智能词频文本统计

《管理世界》姚加权(2024)采用“人工种子词 + 机器学习扩展 + 人工筛选”的方式最终选取73个人工智能词语,生成人工智能词典,并利用文本分析方法构建企业层面的人工智能指标

团队参考《管理世界》姚加权(2024)的研究思路和方法,以中国沪深A股上市公司为样本,利用Python对上市公司年报文本进行分词处理,对73个人工智能关键词进行文本词频统计,包括精确词汇、扩展词汇两种方式,并将年报人工智能关键词数量加1后取自然对数衡量上市公司人工智能水平,用以刻画企业在人工智能技术应用、战略布局和信息披露层面的相对水平

人工智能词频数据能够为企业层面人工智能应用与技术布局研究提供可量化的微观指标,具有较强的学术拓展价值。该数据既可用于考察人工智能对企业生产效率、创新能力、劳动力结构、公司治理和企业价值的影响,也可与数字化转型、绿色发展、供应链韧性、融资约束和资本市场反应等主题相结合,拓展人工智能在企业微观行为中的作用机制研究。同时,人工智能词频指标还可与人工智能创新发展试验区、智能制造试点、工业互联网政策等准自然实验相结合,用于评估相关政策对企业智能化转型的影响及其经济后果

一、数据介绍

数据名称:上市公司人工智能-年报73个词频统计数据

数据范围:A股上市公司

数据年份:1998-2025年

样本数量:73948条,85个变量

数据说明:内含人工智能73个词频、精确和扩展词汇两种方式

二、整理说明

➤获取1998-2025年上市公司年报原始文件

➤将原始报告文本整理为面板数据

➤统计年报全文的文本长度

➤统计全文中,中英文部分的文本长度

➤构建人工智能术语词典,将词汇扩充到python的jieba库

➤去除停顿词,统计精确词汇、扩展词汇数目

➤计算两种方式下的人工智能水平

三、指标说明

73个人工智能词汇,共计85个指标,指标如下:

四、数据概览

1.各年份上市公司数目

2.上市公司年报人工智能词频统计数据

顶部专栏分享更多内容

来源:Paper数据分析