浙江省制造业注销企业特征分析
摘 要
在全球经济危机的背景下,洞察当今经济的潜在关系,对企业进行特征分析,可以清楚的了解企业当前状况,是否面临被注销的风险,从而对有注销特征的企业进行重点关注。
本文从浙江省工商行政管理局数据库中获取企业数据,利用ETL(数据仓库中的操作)对数据进行抽取、转化以及装载,从而得到年检年份为2005至2007的浙江省企业数据。为进一步提高数据的有效性及真实性,文中利用SPSS Clementine 10.0工具,对数据进行进一步的筛选及清洗。本文基于数据挖掘理论,选择C5.0 算法、C&R Tree两种算法进行分析及比较,并结合浙江省企业数据的特征属性,最终采用C5.0 算法建立的注销企业特征分析模型。通过对模型求解及分析,结果表明浙江省制造业企业发生注销主要由经营年限,登记机关,企业规模等9个特征因素决定,其准确率达到95.81%,误差率为4.29%。通过对误差数据进行分析,得出模型产生误差的主要原因是原始数据的缺失,这使得某些影响因素不能在模型中体现出来,使模型没有达到最优,但评估指标整体较好,对使用者能提供一定得支持。
通过分析企业的特征,可以使决策者对企业的当前状况了然于心,从而提出正确的,有利于各方面发展的信息。
关键词:浙江工商;注销企业;数据挖掘;C5.0 算法;C&R Tree
目 录
中文摘要 ……………………………………………………………………………………………… i
英文摘要 ………………………………………………………………………………………………ii
目录…………………………………………………………………………………………………… iii
第一章 引 言 1
第二章 业务分析 2
2.1 理论基础 2
2.1.1 数据仓库 2
2.1.2 商业智能 3
2.1.3 BusinessObjects Enterprise 3
2.2 数据条件 4
2.2.1 需求分析 4
2.2.2 对象选择 4
第三章 数据处理 7
3.1 理论基础 7
3.1.1 PL/SQL工具 7
3.1.2 数据挖掘 7
3.1.3 SPSS Clementine 工具 8
3.2 数据准备 8
3.2.1 影响因素 8
3.2.2 数据选取 9
3.3 数据清洗 11
第四章 模型实现 14
4.1 理论基础 14
4.1.1 决策树概述 14
4.1.2 决策树算法 14
4.1.3 决策树优势 15
4.2 建立模型 15
4.2.1 C5.0模型 16
4.2.2 C&R Tree模型 17
第五章 模型分析 18
5.1 模型对比 18
5.2 C5.0模型分析 19
5.2.1 模型评价 19
5.2.2 结果分析 19
第六章 总结 24
6.1 论文主要工作总结 24
6.2 模型的改进 24
致 谢 25
参考文献 26
附录 27