付广军:大数据时代税收数据挖掘及法律环境建设的初步思考
2017年第四届中国税收与法律高峰论坛“大数据、共享经济与新时代税制建设高峰论坛暨《共享经济税收治理研究报告》发布会” 于2017年12月2日在中央财经大学举行。论坛由中央财经大学财政税务学院、中央财经大学税收筹划与法律研究中心联合举办。
参加论坛的学者有:国务院参事刘桓教授、天津财经大学盖地教授、中国税务学会副秘书长焦瑞进研究员、中国社会科学院财经战略研究院张斌研究员、国家税务总局税科所付广军研究员、京东集团副总裁蔡磊先生、北京市国家税务局邓远军处长、国家税务总局扬州税务学院冯守东副研究员、中国财税法研究会副会长贾绍华教授,中央财经大学税收筹划与法律研究中心蔡昌教授、中央财经大学财政税务学院白彦锋教授、任强教授、何杨教授,中央财经大学财经研究院王雍君教授、杨志清教授,中财-鹏元地方财政投融资研究所温来成教授等。
国家税务总局科研所付广军研究员作了“大数据时代税收数据挖掘及法律环境建设的初步思考”主旨发言。
付广军:感谢主办方蔡昌教授的邀请,在此向大家汇报我对税收大数据和税收数据挖掘的认识。首先,以三个案例作为引子,引出对于大数据的应用以及数据挖掘的思考。
第一个案例是1854年英国伦敦发生霍乱事件。当时人们普遍认为霍乱是通过空气传播,约翰.朗医生通过对感染霍乱而死亡的人数和地点绘制了一张地图,从而发现这些感染霍乱的人同饮一口井的水,因此,也解开了霍乱传播的谜团。这本身是一个医学事件,却运用了数据挖掘技术,解决了流行病的治疗问题。
第二个案例是啤酒和尿布的关联销售。在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。发现是由于年轻的爸爸照看孩子买尿布时会顺手买一些啤酒。按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。
第三个案例是披萨饼店的故事。这个故事我想大家都耳熟能详,我就不详细说了。披萨饼店的故事涉及顾客的各种信息都被商家所掌握——家庭状况,健康状况,信用状况,等等,都遭到了电脑无穷的入侵,大数据侵犯了个人的隐私权。
通过这三个例子,很值得我们思考大数据和数据挖掘。
下面我开始步入正题,讲大数据和数据挖掘。讲大数据,首先涉及到的词,什么是数据?然后才是大数据,“大”在哪里。数据,是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可以识别的、抽象的符号。
它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字,称为数字数据。例如,“0、1、2...”、“阴、雨、下降、气温”、“学生的档案记录、货物的运输情况”等都是数据。
大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。 大家注意,它是一个数据集合,是需要处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托?迈尔-舍恩伯格及肯尼斯?库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理
本人理解,大数据具有以下特征:(1)数据集合体,是各类数据的集合;(2)大容量性,例如,图片、视频(几个小时的视频比文字容量大无数倍);(3)多样性,多种多样,类型繁多;(4)多维度,对某类事件多维度完整画像。
什么是数据挖掘?数据挖掘(Data mining),又译为资料探勘、数据采矿,它是数据库知识发现(Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
数据挖掘,我总结了四个特点:一是为了完成某一研究目的;二是采用某种或某几种方法;三是运用大数据;四是不再就事论事,而是发现看似无关却有关的数据反映事物的关联性。
接下来我谈一谈税收大数据和税收数据挖掘。税收大数据,不再仅仅是税收收入数据,而是与税收有关联的各类、各种数据。比如税务机关,不仅要掌握税收收入数据,还要掌握纳税人其他与纳税有关的数据。最简单的理解,要从税收、税基最后再到经济指标。与税收收入最直接关联的是各税种的税基数据,18个税种对应18种税基,每个税基又涉及若干财务、经济指标。例如,房地产契税,涉及房屋交易额、房屋交易价格数据、交易面积数据,还涉及房屋所在区域数据,像北京三环五环位置,还有房屋购买时间、房款支付方式、贷款金额、贷款期限,等等方面的数据。
我们进行税收数据挖掘,是为了更好地为税收工作服务,不是挖掘已有的税收收入数据,更多地挖掘未发现的有用信息。税务机关作为国家税收的征收机关,其主要职责是征收税收,衡量其工作业绩的主要标准,应该是按照税法要求,对税收收入应收尽收。如何实现应收尽收,首先要知道应收数是多少?税收应收数是我们税收数据挖掘直接目的。因此,对税基数据的挖掘是关键,税基的真实性关系到税收的征收率。以增值税为例,判断是否存在逃税问题,仅靠销项、进项发票的控管是不够的,还要根据企业交易合同,交易双方的银行资金往来,购销货物的物流数据,挖掘出增值税是否存在虚假现象。过去我们仅就税收说税收,未来在大数据背景下,更多的是通过经济到税基再到税收。大数据不再仅仅是税收数据,更多的是企业财务数据、银行资金交易数据、货物运输数据,居民个人的收入数据、财产数据、住宅数据、银行存款数据,等等。
最后,我在谈一下大数据和数据挖掘的法律环境问题。这个问题很重要,需要不断完善大数据时代数据保护的法律制度。大数据涉及政府、企事业单位、各类组织和个人。现在存在一些乱象,举个例子,你今天刚生了小孩,明天就有人打电话推销奶粉;你今天刚买了房子,两个小时之后就有电话打进来推销装修。所以说,大数据时代下隐私权的保护尤为重要。我在同一些国外留学回来的博士谈大数据时,他们说,在中国搞大数据可以,在国外搞不了,因为大数据涉及很多个人隐私,弄不好会触犯法律。大数据手段和方法是成熟的,但国内在法律上很不完善,这是很可怕的。第二个需要立法明确的是,什么人或机构可以掌握大数据。像刚才张斌老师说的,税务机关不能无限制的掌握纳税人的大数据,税收大数据采集和数据挖掘要有边界。
美国国家安全局(NSA)全方位收集电话和电子邮件记录之事经过斯诺登的披露,已经引发了不安和愤怒,美国左翼和右翼都谴责这种窥探行为。我国如果不尽快完善大数据的立法,我们每个人都将无隐私可言。大数据和数据挖掘的立法,是大数据应用的前提。
|