【2021年2月22日】聚类处百强城市财税经济关系差异

白云载酒 · 2021-9-6 11:05:58

聚类看百强城市财税经济关系差异

中国税务学会焦瑞进

相关组织和媒体每年公布经济百强城市数据,财经媒体对经济百强城市数据的应用只停留在规模的简单比较,不足以揭示问题和探索原因。通过对经济百强城市财税经济多项指标做聚类分析, 对经济百强城市的认识就不仅仅停留于经济规模的排位,由此既可以看到不同规模的差异,同时又可以了解不同经济规模环境下其他因素的变化和影响。

聚类分析与模糊聚类

聚类分析(Cluster Analysis),是指用数学的方法研究和处理给定对象的分类,是数理统计的一个分支,是运用事物本身所具有的某种数据特征,遵循“物以类聚”规律进行分类数据处理,为事物的分类管理提供数据支持的一种分析方法。

聚类分析模型的基本任务在于解决多指标特征规律的研究问题。对于复杂事物的描述往往需要从不同角度或因素进行研究,要综合几项指标确定事物的综合状态。同时,由于是多指标决定事物特征规律,所以不同样本各指标的偏重程度都在一定程度上反映出各样本特有的本质。聚类分析模型可以根据不同样本不同指标的特征表现对样本进行分类,并检验出偏离正常状态较大差异的异类,对其实施预警控制,服务管理内控和决策。

传统的聚类分析是一种硬划分,他把每个待辨识的对象严格地划分到某类中,具有非此即彼的性质,因此这种类属关系划分的界线是分明的。而现实中大多数的对象并没有严格的属性,其性态和类属方面存在着中介性,具有亦此亦彼的性质,对此适合进行软划分。

模糊集理论的提出,为软划分提供了有力的分析工具,用模糊数学的方法来处理聚类问题被称之为模糊聚类分析。模糊聚类分析,是将多元数据分析引进到分类中的模糊数据方法,被广泛地应用于各种事物或现象的分类。由于模糊聚类得到的样本属于各个类别的不确定性程度,表达了样本类的中介性,更能客观地反映现实世界,从而成为聚类分析研究的主流。

模糊聚类是模糊数学在聚类分析中的具体应用,相关的基础知识主要有:

1.模糊集

给定一个论域 U,那么从 U 到单位区间[0,1]的一个映射μA:U→[0,1]称为 U 上的一个模糊集, 或 U 的一个模糊子集,模糊集可以记为 A。映射(函数)μA(?)叫做模糊集 A 的隶属函数。对于每个x∈U,μA(x)叫做元素 x 对模糊集 A 的隶属度。

2. 模糊逻辑

模糊逻辑是一种相对于传统“是”或者“不是”的二值逻辑而言的。对于介乎两者间的事物, 模糊逻辑借助相似度衡量判别其归属关系,完美解决中介性事物的归属逻辑推理。

3. 模糊矩阵

设 R=(rij)mn,若 0<=rij<=1,那么称该矩阵为模糊矩阵,即一个矩阵内所有元素均在[0,1]闭区间内取值的矩阵称为模糊矩阵。若矩阵元素只有 0,1 的时候成为布尔(Boole)矩阵;如果对角线上都是1,则这个矩阵称为自反矩阵;当 rij 只取 0 时,称 R 为零矩阵,记为 O;当 rij 只取 1 时,称 R 为全矩阵,记为 E;当模糊方阵 R=(rij)mn 的对角线上的元素 rij 都为 1 时,称 R 为模糊单位矩阵,记为 I。

模糊矩阵的乘法运算与普通的矩阵运算相似,不同的是并非先两项相乘后相加,而是先取小而后取大。

样本指标与模型建立

大数据时代,互联网上有丰富的财税和经济数据,借助通用的 EXCEL 软件,可以很方便地开展财税经济关系的模糊聚类分析。

(一)样本指标

开展财税经济关系的多元数据聚类分析,基础工作是精准找寻建立财税与经济内在关系的关联指标,并在此基础上建立模糊样本矩阵。

1. 指标体系

开展财税经济关系分析,需要两个领域的数据,即财税数据和经济数据。关于经济数据指标,每年都有相关组织在互联网发布GDP 百强城市名单,但财税数据指标则是零星散见于各门户网站,需要在网上收集。

经济决定税收,税收源于经济,所以反映财税经济关系最客观、最直接的静态数据指标就是财税收入占 GDP 的比例关系。GDP 百强城市各自的财税贡献如何,就是研究财税经济关系的基础问题。在 GDP 百强城市名单的基础上搜寻各地相关的财税数据,比较数据口径、收集难易程度和分析目的基础要求,因为财政收入偏离税收收入的口径太大,税收收入权威数据不易找全并伴有财政级次分成的影响,所以选取地方一般公共预算收入(税收占比一般约为 85%左右)对研究财税经济关系相对有较好的内在联系。

研究公共预算收入目的之一是从公共财力的角度观察公共服务的提供能力,其二是观察地方人均享受公共预算收入提供公共服务的水平状况,因此在指标体系组成中还应考虑地方人口的因素。在经济、公共预算收入和人口这三项基础数据的基础上,计算人均数据指标,最后形成由 GDP、一般公共预算收入、人口、预算收入与 GDP 的比率、人均 GDP 和人均预算收入这 6 项指标形成的指标体系。

2. 样本矩阵

模糊聚类分析的实质就是根据研究对象本身的属性构造模糊矩阵,在此基础上依据一定的隶属度或相似度来确定其分类关系。以经济百强城市为样本,依据上述 6 项指标可以构造如下所示的矩阵数据关系见表 1: (二)模型关系

1. 样本数据标准化

由于这 6 项指标的量纲和数量级的差异,直接利用原始数据不能做同类数据的处理,计算结果就会突出某些数量级较大指标的分类影响,从而降低或者排斥某些数量级较小指标的作用。所以, 必须对这些数据进行无量纲处理,也称样本数据标准化,使每一指标的具体数值统一于某种共同的数据特性范围。样本数据标准化的方法很多,本案例采用常用的标准差法,计算关系如下:

式中为第 Sj 个指标的平均值,为第 j 个指标的标准差, i=1、2、…100, j=1、2、…6。

1. 建立模糊相似关系

聚类方法是按某种标准来鉴别矩阵 X 中元素间的接近程度,把彼此接近的对象归为一类。为此,可用[0,1]中的数 rij 表示 X 中的 xi 与 xj 元素的接近或相似程度。经典聚类分析中的相似系数以及模糊集之间的相似度都可以作为相似程度。将模糊矩阵之间的相似程度记为 rij∈[0,1],于是得到对象之间的模糊相似矩阵 R。本例有 100 个城市样本,因此模糊相似矩阵见表 2:

确定 rij 值的方法也有很多,本例采用的是一种较为简便的算法,对两点之间差额取绝对值开方,计算公式如公式(1)和公式(2)所示:

式中i、j=1、2、…100,c 为一个可使 0≤rij≤1 的常数,这里取 c=1/max(dij)即可实现这一要求。

1. 模糊等价矩阵

一般情况下,模糊相似关系矩阵R 只满足自反性和对称性,然而聚类需要R 满足等价关系才行, 即要满足传递性。模糊关系的传递,在论域 X 上的一个模糊等价关系 R 对应一族经典等价关系{R μ:λ∈[0,1]}。这说明模糊等价关系可以给出 X 的一个分类系列。这样在实际应用问题中可以选择“某个水平”上的分类结果,这就是模糊聚类分析的理论基础。实际问题中建立的模糊矩阵常常不是等价关系而是相似关系,这样就需要将模糊相似关系改造成模糊等价关系。

对R 进行改造,改造的方法是将 R 自乘,计算关系如下:R×R=R2、R2×R2=R4、…… 如此下去,直至某一步出现Rk=R2k,这时的 Rk 就是一个模糊等价关系 t(R)。

2. 聚类分析

形成模糊等价关系 t(R)后,根据矩阵数据范围设置分类截距参数λ,参数λ可以是一个具体值,也可以是一数据区间范围,以此将模糊等价关系中符合参数值λ要求范围的数据元素归为一类。具体到本例的百强城市的λ赋值条件,由于最后的模糊等价矩阵取值较多,故选择λ取值范围

进行动态聚类。比如设置 0.7≤λ<0.8,由于在 0.7≤λ<0.8 范围内有0.70495499、0.709960866、0.711810537、0.728642562、0.739251139、…0.7925、0.7927 等多种情况,在这一类中又可细分为若干组。 (未完待续)

文献原文：

聚类处百强城市财税经济关系差异焦瑞进.pdf (316.99 KB, 下载次数: 30)

帐号		自动登录	找回密码
密码			立即注册

[焦瑞进] 【2021年2月22日】聚类处百强城市财税经济关系差异

本帖被以下淘专辑推荐:

相关帖子