2022-04-18周记

这周好像全是搞论文，又是飞速过去的一周，不知道什么时候快递能解封。

服务业论文

这周的大部分时间其实花在了服务业课程论文上了，我想写疫情对物流业的影响，然后选的是2020年的数据，通过国家统计局下载好快递数据后就开始找新冠数据，没想到，我竟然找了两天。

一开始是直接在Google上搜，只找到一些笼统的数字，忽略了一些小一点标签，致使没发现霍普金斯大学发布的数据，然后去GitHub上找，找到了一个很大的数据仓库，从2020年1月份开始记录的。但是我下载下来后才发现这个巨大的数据仓库十分冗杂，爬虫程序会每天多次爬取数据，精确到每个市，但是由于是不同的时间点，如果想要获取每个省的数据还需要额外的数据清洗。于是从周二到周四我一直在处理这些数据。很多pandas的内容都遗忘了，看了一些官方文档才想起来，从数据切割到筛选等。这里为什么没有用excel之类的程序是因为，数据报表太“大”了，九十多兆，一千多万条数据，excel打开会变得特别卡，毕竟是图形化处理，占用计算机资源太多了。后来改成pandas处理，效率直接就提上来了。

数据处理完成以后，发现数据的波动太大了，因为疫情是分批的，哪里爆发一次之后新增确诊病例数量就会大幅度上升，疫情缓和以后就又很低，画图的时候就跟心率好几百的心电图一样，然后对数处理以后缓和了一点。

当我再次在谷歌搜索疫情相关数据的时候，突然想到了霍普金斯大学的日增数据，然后发现霍普金斯大学的数据中心有中国整体的数据，既喜又悲，因为我光是清洗countryName是中国的数据就清洗了好久，结果发现了现成的，好在数据差别不是很大。

后来在筛选物流城市的疫情数据的时候，之前“走过的弯路”给了我很大帮助，很多重复的操作写个函数把之前的步骤放进来就好了，效率直线提升。比如筛选固定数据列、筛选每个城市每天最晚的数据、按值合并不同的数据表、按各省份划分整体数据表等等冗长的操作。

不过由于想法不多，导致论文内容也不是很丰富，不知道课程老师会不会有什么建议。

财务造假分析

这个课程是姜昕老师给我们上的，老师布置完作业我还特意问了问老师还有没有别的题目，老师说只有这个财务造假的了，因为不太熟悉这方面的，所以跟老师沟通了一下，不过老师说不用写的很深，有问题再沟通。

在查了一些资料后发现可以直接在“问财”网站上搜索“ 处罚原因信息披露违规 ”就可以搜索到上市公司的处罚案例，查了一些案例后发现，会计好复杂啊，眼花缭乱的名词和造假手段，以至于我在看一些处罚数额的时候都有点迷糊，不知道是什么环节的职务出现了问题，但是很神奇，比如一些董事长高管被禁入市场，那他们的股票怎么办，砸手里了吗？但是这些人造假了那么多个亿，这点小事好像难不倒他们。

此外还有学术写作的论文，老师要求比较高，对格式和字数也都有要求，于是就把之前寒假写过的论文整理了一下格式和添加了一些国外论文。