CHINA
COLLECTIVE
ECONOMY
犬数据背景下Python 技术在
z
z
z
z
i \*\\\
陈倩倩
lllllllll!
摘要:大数据时代下,云/计、区块 链审计、联网审计等各种新型审计方式 充斥着我们审计的工作,传统审计方式 受到挑战#在审计工作中,快速获得充 分、适当的数据信息是提高审计效率和 效果的重要保证$文章基于近年来兴起 的Python 技术,研究其在审计数据搜集 与分析中的应用,为大数据审计技术的 发展提供支持$关键词:Python ;大数据;分析数据一、引言目前,无论是在外部审计还是内部审 计中,传统的审计工作方法是我们称之为 "七大武器#的观察、检查、询问、分析程 序、重新执行、重新计算、函证%审计人员 结合自身经验对这七种武器进行巧妙组 合,可以很大程度上实现&提供合理保证# 这一目标,然而,道高一尺,魔高一丈,随 着大数据的发展,审计的对象渐趋复杂, 目前,传统审计在数据采 分析程中在以 :传统审计标 以适大数据审计方法的开展;传统审计方 法效率和果难以保证;传统审计方法难 以发现系统中在的漏洞,大数据时, 很多 、内 是 系统的 而引发的;大数据 !人们不在 数据的 ,而是追求数据获取与利用的 %二s Python 技术的工作原理(一 'Python 技术介绍人 们 经 Python 和 系在一, 是 )们之的关系是什么?如果 作是由一和 组的 ,如果这 作是 , 在这〕 上,数据是存放在 上的节点,而 是一 !们着"数据”猎物% —般是指网络资源的抓取, 为python 的脚本 ,python ,对 的理, 上 python 的, 以 经 系在一 %(二'Python 技术运行原理 Python 称 器人、蜘蛛,是一种 自动 的程序或 ,当 启动后, 可自动从互联网上标 的地址中下载网页
内容,随后以匹的方法从网页中对感兴 趣的 进行 ,此同时, 会持 续不断地 新的 %最终让户能 够获取自己想 的信息%我们以Python 爬虫在页挖掘 的程为例%一个完整的 流程包含三个模块:爬取-解析-存储%流程制 ,内容分析提 模块以及网络请求模块%首先在待抓取队列当中放入经过筛选的种子URL ,抓 取URL 后爬取对应的网页,通过http 向目标 点发出相 的请求,发出的请 未被服务器及时响应,会获得图片、 视频、音频html 等形式的答复%之后通 过数据解析模块对ht^数据进行解析, 对页数据进行分析,提取需的数据, 再将数据传给清洗 ,随后将URL 传给调 ,相关数据会被储到数
据库当中% 需求,从数据库中对 !结果进行读取,通文字或是图形进行 展示%以上步骤我们可以发现 在 ( 网页 数据上功能的强大,若将此被审计单的数据库,通 提 取发票、原始凭证、合同等 ,可以保证 会计数据的 实 %能够对 自身数据以及行 相数据进行相应审计对 , 对数据 实 断提出合理 %
( 'Python 技术的相 对 , Python 的 以下优点%除了 Python 和R ,还有各种各样非 常强大的商业数据分析软件%但是,这 些商业产品相比,Python 以 %1. Python 的 可证(与GPL 兼容,但是您可以发 后的版本而无
中国集体经济]
155
科技创新----------------------------------------------------------------------------------
需将更改设为开源)意味着可以免费使 用它口 Python 语法简单清晰,容易学习 掌握°另一方面,商业软件包带有许可限 制,并且相关的成本因素通常会限制组 织中少数员工的可用性°2. 与许多商业数据分析软件不同#Python 甚至可以在低规格的台式计算机 上使用#使其适用于大规模部z ,而无! 在硬件上进行 °用机Python 的数据分析 可以用于 芋Python 的多个计算平台 系统(例如 Windows , Linux 和 MacOS ) %3. 大多数(如果不是全部的话)商业数据分析软件都是为 使用而设计 的, 通常使它 不适 全可重用的数据分析 方%另一方 面 , Python 可用于 全 数据分析 ,并且还可以不限制进行分 用%4. 的Python 社区正在不 为其 的 的软件% 于 的规模,学 机构的新数据分析技术免 费 的 Python 本 更 免费%5. 有许多专门讨论Python 知识共享的在 % PyData 会议込的 , 用于 有关数据, , 分析 可 的 方法开 源 的 % PyData 会 的录像在YouTube 上免费提供%三#Python 技术应用案例案例一:以 会计 为例:2018 ,为大会计 一的会计 在 计一 行 ,用 Python 行 2贷款客户进行数据搜,获取 了包括工商、司法、舆情、征、税 在 的17类专项数据%传统 计方法一般只 能通过一些数据查询网站(比如:天眼 查、企业查查等)进行数据查询与搜集% 但在 例中,需要 20 客户展开调查,需要花费审计人员大量的间 精力,如何批量查询相关数据成为困 扰 计人员的问题% 可以在短间通铺设路径和逻辑,速进行 抓取%在分析数据 , 将搜到的数据与行 客户历史 易、业务办 等内部数据系统打通 ,最终 形成了客户关联关系、金往关系、业 务办 、外部风险信息4大维度的客户全景画% 风险咨询将这2万 客户的贷申请料与其全景画 像执行关联分析、交叉检验等验证,最终 现了 36个客户涉及虚报财 、刻意隐瞒负面 等虚假行为%, 在数据 取上计的效率,更在审计上提高了完整性%
例二:A J 会计 在审计一 费 业 的企业 % 其
源为每一笔手机 业务提取的服费%其客户就是一个手机号的 个体,面对海量的客户,甚至统意义上 客商的 都 有 % 其中 计工 的 一部分就是查手机用户的 性%需要在联通、 、 的 上进行号查询、验证其 性%在这情 ,审计师无法利用传统的询证法发函证,‘ 无法取客户 性的 %于是J 会 计 ,快速获取到 客户的全部 %
案例三:2018年B 计局派出审计 组 算执行 计项 进行计%为充分 的空置率问题, 计人员 司 相关
的 度用 情 数据%
计数据中 在的 费数据 、 统方法不便汇总的问题,审计组 殳探索新
、 手 , 请计算机 计 的人员 % 相关 人员在
分析数据 征 计业 要 , 用 Python 开 语言开 “费数据分析”,现速进行数据 ,成审计 数据,由审计组有 性地进行现 , 大大 计的工
%四、结语大数据的运用是未来趋势%与以往 的 计 模 式 同 , Python 大 大
了数据搜的 性%将验证性分析为 性分析, 计抽无法搜 全部数据的 % 将 计
方式 全 , 其关 , 有 于在风险就 与 %但Python 在运行中 在 、 、执行速度 等 %参考文献:[1] 李玉香,王孟玉,涂宇晰.基于python
的网络爬虫技术研究[J].信息技术与信息 化,2019(12):143—145.
python大数据就业前景[2] 谢克武.大数据环境下基于python 的网络爬虫技术[J].电子制作,2017 (09):
44—45.⑶陈伟.大数据环境下基于模糊匹配
的审计方法[J].中国注册会计师,2016(11): 84—88+3.
(作者单位:南京理工大学泰州科技 学院)15^2021 年 4 期(2 月
)
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论