《会计数据挖掘》课程实践性环节有助于学生理解、巩固和应用会计数据挖掘基础理论,培养学生的实践技能、独立工作能力和科学研究方法。其实践性环节的考核,是指对学生的课程实践项目掌握程度及实践操作水平的考核。
一、实践目的
帮助学生更深刻地领会会计数据挖掘理论与方法;指导学生获取会计领域相关数据,利用机器学习方法和技术对会计数据进行处理与分析,根据分析结果编写数据分析报告;使学生在学习和工作中能运用机器学习方法进行会计舞弊甄别、企业经营前景预测、财务风险评估及决策支持,解决会计实际问题。
二、实践项目
项目一:R语言基础操作与数据预处理
1.基于dplyr包和tidyr包进行会计数据预处理。
2.基于ggplot2绘图包完成数据可视化和探索性数据分析。
3.基于purrr包进行函数式编程。
项目二:基于KNN掌握机器学习的基本思想和步骤。
1.从公开数据源获取上市公司财务数据。
2.对信息披露违法违规行为进行基本统计分析。
3.分析信息披露违法违规与各指标变量的关系图。
4.综合使用机器学习任务和学习器训练模型。
5.手动划分训练集和预测集和用交叉验证划分训练集和预测集。
项目三:基于线性判别分析评估企业出现财务困境的风险。
1. 收集企业的历史财务报表数据,筛选与财务风险强相关的指标,并标注财务困境类别标签。
2. 采用交叉验证划分训练集和预测集以防止过拟合,尤其是小样本会计数据。
3. 通过线性判别函数确定阈值,区分财务困境与非财务困境企业。
项目四:基于SVM算法进行审计风险预测。
1. 从数据库中提取审计风险相关的结构化数据,并补充非财务指标,根据审计结果标记风险等级。
2. 进行超参数调节实践,选择性能最优的超参数。
3. 用最优超参数在完整数据集上拟合SVM。
项目五:使用决策树识别财务报表中的异常数据或舞弊行为。
1.以财务指标和非财务指标为输入变量构建特征集,以舞弊和非舞弊为分类标签。
2.定义分类树的任务和学习器,使用训练后的模型进行预测。
3.绘出回归树的图形表示。
三、实践的基本要求
1.学生应能够将实际的会计问题(如财务指标异常波动、关联方交易比例过高等)转化为数据分析问题,利用数据挖掘和机器学习方法来分析数据,解决实际问题;
2.学生应熟悉R语言编程环境,掌握基本的会计数据分析方法,常见的语言包(如dplyr包、tidyr包和ggplot2包)进行数据处理与可视化,并能够对分析结果进行合理解释,撰写简单的分析报告。
四、必读参考书目
统计学习导论:基于R应用(原书第2版)/(美)加雷斯·詹姆斯 ( Gareth James ) [等]著,王星等译,机械工业出版社,2024年第1版。
五、考核目标、内容、方法
(一)考核目标:
考核成绩将反映学生在会计数据挖掘课程中的基本掌握程度,特别是数据处理、可视化和机器学习的能力。通过实践项目,学生能够运用R语言分析会计数据,理解数据背后的规律,能够进行简单的预测与报告撰写。
(二)考核内容:
1. R语言与数据预处理
a) 导入数据到R,掌握R语言数据分析常用函数,掌握数据清洗、变换变量、生成变量和降维。
b) 掌握添加包ggplot2。
c) 简单可视化:使用ggplot2展示会计数据的潜在逻辑关系。
2. 掌握监督学习的分类方法
a) K近邻分类、判别分析与贝叶斯准则。
b) 支持向量机(SVM)算法、超参数调节、决策树与集成方法。
3. 掌握机器学习的典型步骤
a) 定义任务名称、数据、目标变量;定义算法类别、具体算法、选项;综合使用任务和学习器;预测;评估。
b) 熟练调参实践;熟练构造调参问题;掌握嵌套再抽样。
4. 报告撰写与结果解释
a)报告撰写:通过布置实验任务,要求学生完成相关的主题分析并设计、实现数据挖掘方案。根据数据分析结果,写出简短的报告,解释分析过程和结论,使用图表支持报告内容。
(三)考核方法:
考核采取上机操作方式,学生根据给定的数据和要求,利用R语言进行操作,得出分析结果。最后教师阅卷得出学生的成绩。