科技与创新数据

中国高新技术企业专利统计数据NEW

一、数据内容定义

AI人工智能企业是指主营业务涉及人工智能技术研发、应用或服务,通过算法模型、智能系统与数据驱动解决方案实现商业化落地的科技型经济实体。

该数据库是聚焦于 ​人工智能(AI)领域企业的工商注册信息结构化数据集,通过专业的人工智能关键词词典(该词典源自姚加权、张锟澎、郭李鹏、冯绪,2024:《人工智能如何提升企业生产效率? ——基于劳动力技能结构调整的视角》,《管理世界》第2期。)筛选出与AI技术相关的企业主体。数据字段涵盖企业基础信息(名称、注册号、法人等)、经营状态(存续/注销/吊销)、行业分类(门类至小类四级编码)、地理分布(省市区编码)、资本信息(注册资本、实缴资本)以及营业期限等核心维度,形成企业全生命周期的静态画像。

词典内容详见下表:

二、数据独特性

  • 技术驱动的精准识别: 基于机器学习生成的AI词典​(含73个技术关键词,如“深度学习”“自然语言处理”),突破传统行业分类的模糊性,覆盖技术研发、产品应用(如智能芯片、自动驾驶)、服务场景(智慧医疗)等多层次企业。
  • 动态经营状态整合:包含企业注销、吊销等退出市场信息,可分析AI行业企业存活率与政策/市场环境关联性。
  • 学术研究适配性:与姚加权等(2024)提出的“劳动力技能结构调整”理论框架高度契合,支持分析AI对常规低技能劳动力(生产/市场人员)的替代效应、高技能劳动力(技术/研发人员)的互补效应。

三、数据完整性

  • 全生命周期覆盖:支持2000年至今的全部企业基本信息数据(具体年限可根据需求定制),从企业注册、营业期限到注销/吊销,提供完整生命周期信息。
  • 地理粒度细化:细化至区县编码,支持城市群或产业园区级分析(如北京海淀区AI企业集群研究)。
  • 多级行业分类:基于国家标准行业分类的四级编码(门类-大类-中类-小类),结合AI关键词二次标注,增强行业归属精准度。

四、数据可靠性

  1. ​权威数据基底

    • 支持与官方信息比对,确保企业名称、法人、注册号等字段的准确性。
  2. 质量控制流程

    • ​人工抽检:每月抽取3%数据与各源公告系统进行交叉验证。
    • ​纠错反馈:开放与客户之间的错误提交通道,建立季度更新修正机制。

五、潜在应用场景

(一)学术研究

  1. ​技术经济学:验证AI技术扩散与区域创新能力的相关性(如长三角vs.中西部差异)。
  2. 劳动经济学:分析姚加权等(2024)提出的“技能结构调整”效应,量化低技能岗位替代率.

(二)产业应用

  1. 企业图谱构建:关联专利数据、融资信息,生成AI产业链知识图谱。
  2. 风险评估模型:基于吊销原因(如虚假注册)训练企业合规性预警算法。

(三)政策制定

  1. 监测区域性AI产业泡沫(如某城市短期内大量注册但快速注销的企业)。
  2. 评估专项政策效果(如智能医疗企业是否在医保改革后向特定区域聚集)。

(四)商业服务

  1. 竞品分析:识别同一技术赛道企业(如聚焦"计算机视觉"的初创公司)。
  2. 投资标的筛选:结合注册资本、存续状态评估企业稳定性。

本数据根据人工智能领域专业术语集(涵盖技术、算法与典型应用场景)整合了AI相关企业的工商注册基础信息(包括注册时间、区域分布、行业分类等维度),为技术研究、行业图谱绘制及企业基础数据分析提供双重结构化支撑。


数据规模

AI人工智能企业工商注册基本信息数据-时间分布

AI人工智能企业工商注册基本信息数据-地区分布


时间区间

注册时间:1950-2024.10


字段展示


样本数据


相关文献

  • 姚加权、张锟澎、郭李鹏、冯绪,2024:《人工智能如何提升企业生产效率? ——基于劳动力技能结构调整的视角》,《管理世界》第2期。

数据更新频率

年度更新