Tax100 税百

  • 在线人数 1046
  • Tax100会员 27949
查看: 614|回复: 0

[焦瑞进] 【2014年9月1日】关于大数据在税收工作中应用的几点认识

470

主题

526

帖子

1141

积分

游客

积分
1141
2021-9-6 15:52:49 | 显示全部楼层 |阅读模式
关于大数据在税收工作中应用的几点认识

作者:谭荣华   焦瑞进


内容提要:应用大数据促进税收工作是目前税务部门的热点话题。本文在归纳总结大数据三个特点的基础上,深刻阐述了大数据的生命力,厘清了税务部门所需要的大数据的边界,并就大数据在税收工作中的应用要点提出了独到的见解。

关键词:大数据 税收信息化 数据分析和应用 税收征管

一、什么是大数据?
一个显然的事实是,近年来,大数据的话题在持续升温。那么,什么是大数据?有关文献已经做了归纳,大致可以概括为以下三点:
(一)大数据体量庞大
几年前,人们衡量数据存储的单位还是TB级, 即1 万亿字节;而现在,世界开始进入ZB 级时代。1 个ZB 就是10 万亿亿字节,相当于我国13 亿人每人每秒钟拍一张照片并连续拍1个星期所形成的存储容量。然而,在ZB 级存储单位之上还有一个更高的BB 级,即1 千亿亿亿字节。不知道哪一个国家、哪一种社会经济活动能够率先使用这样梦幻的数据存储单位。
(二)大数据类型多样
既有电子邮件、网页浏览或GPS定位系统所产生的数字化数据,也有相机、可穿戴设备所产生的模拟数据;既有结构化数据,也有非结构化数据; 既有政府数据,也有企业和公民数据。“数据融合” 能够将分散的数据源整合在一起。
(三)大数据运行高速
大数据时代的数据采集、存储和分析都是处于高速率的变化之中。比如,2013 年11 月11 日(所谓的“光棍节”),阿里巴巴支付宝的交易笔数超过1 亿笔,最高峰时每分钟处理交易达20.5 万笔。① 在百度上,一个小时前的检索结果与一个小时后的检索结果很有可能不同。
至此,我们可以给出大数据的基本定义:它是庞大的、多样化的、复杂的、纵深的和分布式的, 它是由各类仪器设备、传感器、网上交易、电子邮件、视频、点击流以及现在与未来所有可以利用的其他数字化信号源产生的。

二、大数据的生命力
我们认为,无论在中国,还是在世界,大数据刚刚兴起。只要摩尔定律(即集成电路的性能, 也就是计算能力每隔18~24个月翻一番)继续有效,只要梅特卡夫定律(即网络的价值等于网络节点数的平方)继续有效,只要诺兰模型、米歇模型所揭示的信息化发展规律(即任何一个国家信息化都要经历初始、普及、发展、系统内集成、全社会集成和成熟6 个阶段)继续被国内外实践所证实,大数据的发生、发展就不是偶然的,而是建立在坚实的理论依据、强大的信息技术支撑和不断提升的现实应用需求的基础上的,因而是有生命力的。
大数据在中国的应用,毫无疑问,首先是在已经拥有或有优势拥有大数据的政府部门和企业。中国有全球最大的移动通信运营商,有全球最大规模的银行,有全球用户数最多的电商平台和微信群体,有6亿多网民, 2 亿多在校学生,3 000多万户纳税人,等等。① 这些都是中国大数据的价值源泉。他们既是大数据的提供者,又是大数据的应用者。

三、大数据在税收工作中应用的几个要点
2014年5月,浙江大学翻译了美国白宫“大数据”白皮书的全文。通过该白皮书,我们注意到“大 数据促使各级政府转型”、“大数据是新的国家资源”、“如何在将风险最小化的同时,将大数据的价值最大化”等观点。那么,我们国家应当怎么做? 税务部门应当怎么做?围绕大数据与税收议题, 我们谈谈初步认识。
(一)厘清税收工作需要的大数据边界是首
要问题
不管数据前面加上多少定语,它的实质依然是数据。数据从来都是重要的。它之所以重要,完全仰赖于它在所有涉税事务中能够发挥作用。不管小数据还是大数据,如果它和你要解决的问题有关系,就有正价值;没关系,就是负价值。从这个意义上说,我们需要的是有价值的涉税数据、涉税信息,而不是一堆与税务无关的包罗万象的数据, 哪怕是大数据!大数据的真正价值不在于“大”, 而在于有用,在于提供了创造性地做以前做不了的事情的可能性。为此,首先要清楚我们想要的是什么样的大数据,也就是要厘清大数据的边界。

(二)大集中与大数据是信息化发展两个阶
段各自应有的主题
大集中与大数据不是对立的,是信息化发展两个阶段各自应有的主题。目前,我国税务部门的信息化整体上处于“系统内集成”阶段。该阶段的中心任务是结束数据分散,实现数据集中;结束系统林立,实现系统整合;实现统一标准和安全保障。其实质是完全意义上的顶层设计,为系统内统一执法、扁平管理和科学决策奠定基础。这项历史性任务在诺兰模型中就叫“系统内集成”,在中国就入乡随俗地叫“大集中”。大集中这个阶段不可逾越,极其重要。中国的银行业之所以能够从十几年前一群“各行其是”的分行组成的总行,变成一个强有力的总行统一管辖下高效运作的现代化商业银行,数据集中起到了决定性的作用。作为国家重器,拥有税政管理权的国家税务总局若不能实现数据集中所代表的权力集中,今后的所有改革将举步维艰。为此,“金税三期”的底线,无论如何也要实现全国的数据大集中。只有当“系统内集成
(大集中)”阶段跨过之后,才能进入“全社会集成(大数据)”阶段,即跨部门、跨系统的信息共享、资源优化和协同工作。因此,我们建议,先扎扎实实把系统内的大集中做好,再了无牵挂地实现系统内和系统外相结合的大数据应用。

(三)应对大数据来袭,需要做全局考虑

第一,选择科学模式。要坚持集中与分散相结合的原则,制定大数据游戏规则,不能打“乱仗”。可由国家税务总局权威的数据管理委员会建立适用于整个税务系统的大数据应用的相关制度与机制,构建总局、省局两级大数据应用平台。
第二,深入研究并建立大数据的采集、传输、存储、校验、分配、使用和发布的标准及规范体系。第三,深入研究并建立大数据的安全保障体系。
第四,深入研究并完善大数据有关的税收法律法规体系。包括:1.在充分论证的基础上,审慎修改、完善《税收征管法》等法律法规的有关内容,明确大数据的采集权和使用权,为大数据的广泛应用开辟法律通道。2.建立大数据应用中的争议解决、仲裁和维权保障,包括对弱势一方的纳税人的隐私保护和社会公众对税收大数据的知情权和使用权的保护。
第五,深入研究并构建大数据应用主题库和知识库,实现国家税务总局主导下的国地税系统协同攻关、知识集成、成果共享,避免资源浪费。
第六,深入研究并建立强大有效的大数据技术体系,落实大数据的责任主体。即便在大数据时代,也不可能是税务各层级、各部门各自伸出“管子”到社 会经济体或其他政府部门吸取哪怕是需要的数据和信息。税务大数据的应用是十分复杂的工程,是硬件、软件、网络、应用系统、标准、安全、运维、工程、制度、业务、技术、流程、组织、管理、资金、人员的有 机结合与团队的联合作战,放纵单打独斗必全局大乱。
第七,深入研究并构建大数据供应体系。这指的是,应确保实现登记信息、申报信息、征收信息、财务信息在征收期内的表内完整性检验和逻辑性检验合格,表间完整性检验和逻辑性检验合格,务必使新增数据出现一个实质性的质量改善,同时对以往的存量数据(即历史数据)做彻底清洗和规整。在此基础上,再着手第三方信息采集和应用,可优先考虑征信系统、银行、银联、电商、物流等部门和企业的数据(当然,这要取决于法律的认可)。最终目的是提供数据仓库、数据集市、数据视图和使用接口,实现数据拥有者与数据使用者的供求匹配。
第八,深入研究并建立大数据人才培养体系。国家税务总局目前正在进行的全国税务领军人才培养规划或可为大数据的人才培养创造契机。
第九,从更广阔的视野来看,未来几年,无论是金融部门、税务部门,还是财政部门、统计部门 都将步入“全社会集成(大数据)”阶段。各个政府 部门既需要各自独立、各有特点的大数据工程,又需要在国家大数据战略框架中彼此协调,统一信息交换标准和业务规范,实现全国范围内的整体性大数据资源共享与政府转型。这是保持政府各部门职能实现方面的个性与政府各部门实现职能所依存的大数据及支撑大数据的技术平台的共性的对立统一。当大数据上升为国家资源时,就需要国家做出统一安排,包括制度、政策,特别是法律约束与保障。

(四)大数据思维下的研究与分析方法

大数据不是专为税收征管工作服务的,在所有涉税事务中,无论是制度安排、政策设计、执法与服务,还是绩效考核、风险管理、税源管理等等, 都需要对数据和大数据作分析。
维克托·迈尔-舍恩伯格认为,大数据思维的重大变化是:
(1)需要全部数据样本而不是抽样;
(2)关注效率而不是精确度;
(3)关注相关性而不是因果关系。如果你认同这个思维,实践就向我们提出了两个回避不了的挑战:一个是你拿得到“全部数据样本”吗?另一个是以全部数据样本为分析对象的分析方法是什么?还是过去我们用惯了的那套统计方法和数学模型吗?什么样的分析方法和模型能够帮助我们提高效率、说清相关性?

多少年来,以诸多假设为前提的经典数学模型当遇到“既不遵从正态分布又常有数据缺失项”的复杂数据时,往往束手无策。要害是模型检验不能通过,因而对实际工作的指导意义有限。大数据是复杂数据,大数据的出现逼迫我们将目光转向能够应对复杂数据的机器学习法(机器智能),它使用的是算法模型。机器学习法不需要先验的理论假设,仅从数据的“随机特征”出发,训练出合适的模型,交叉检验模型的可靠性,然后进行外推预测。从这一点讲,机器学习法不是针对经济理论而构建,它仅拿数据本身来说话,因此能更好地捕捉到数据之间的相关性。同时,以计算机程序构成的算法模型,在数据的包容度和处理效率方面显示出更好的优越性。


简言之,伴随着大数据的出现,在分析方法和工具方面,一个从理论导向为主的传统统计计量方法向以数据导向为主的机器学习法演变的新历程开始了。在这一方面,我们的知识储备远远不够,需要补课。可以肯定的是,大数据在呼唤具有更新、更完整知识结构的新人。你准备好了吗?



参考文献:
[1] 浙江大学(译).美国白宫“大数据”白皮书[EB/OL].(2014-05-30)[2014-07-08].http://www.cstor.cn/textdetail_6822.html.
[2] 中国互联网络信息中心.第33次中国互联网络发展状况统计报告[EB/OL].(2014-03-05)[2014-07-08].http://www.cnnic.net.cn/hlwfzyj/ hlwxzbg/hlwtjbg/201403/P020140305346585959798.pdf.


文献原文: 关于大数据在税收工作中应用的几点认识_谭荣华.pdf (82.07 KB, 下载次数: 36)



本帖被以下淘专辑推荐:

回复

使用道具 举报

Copyright © 2001-2013 Comsenz Inc. Powered by Discuz! X3.4 京公网安备 11010802035448号 ( 京ICP备19053597号-1,电话18600416813,邮箱liwei03@51shebao.com ) 了解Tax100创始人胡万军 优化与建议 隐私政策
快速回复 返回列表 返回顶部