0%

2022-04-24周记

上学期结束,一些课程作业也暂时告一段落了。

课业

上半周

首先是交完了三个课程作业,之前周记里说错了,不是学术伦理,是职业道德与伦理的课程,因为商学院负责授课的老师是会计及财务管理方面的老师,所以布置了财务造假的案例作业。另外学术写作课程的作业也修改了一下重新提交了。

上半周花时间最多的是服务业课程的课程论文,第一次提交的论文内容比较仓促,主要对疫情和物流的数据进行了分析,得出了一个”确诊病例上升物流量下降,反之上升“的结论,后来老师说这个结论很显而易见,问我这个结果有什么意义吗?转头一想,确实没什么意思,这个结论就是个常识。

后来老师给了一些建议,说能不能以问卷的形式从消费者的角度切入,进行一些研究,我查了一两天的资料后感觉问卷的形式太不可控了,首先设计出高质量的问卷是一件要求特别高的事情,并且在问卷的发放过程中,我所能触及的人数很少,如何收集足够数量的问卷也是个问题。后来我就开始着手从”黑猫投诉“网站上爬快递公司们的用户投诉,因为黑猫上的数据量很大,而且用户群体也很广泛,程序写了一天,没能突破黑猫的反爬虫策略,查了很多资料后也没能解决这个问题。后来又了解到邮政总局每个月都会公布用户投诉的详情,于是最后选择了邮政总局的数据,邮政总局的数据会对用户投诉进行详细的分类,这对后面论文的书写有很大帮助,最后通过这些数据分析出随着疫情波动哪些投诉类型占比较大、变化较大等,根据不同的分析结果给出不同的改进建议。

下半周

下半周开始着手处理区域治理的数据,因为下半周课程比较多,所以进度相对就没有那么快。这部分的内容时间花的比较多的是CiteSpace的调图和百度上的数据爬取。CiteSpace虽然很多论文都在用,但是这个软件是没有一个正经的组织进行软件维护的,基本就是陈超美教授和他的团队不定时修复bug,大部分学者的软件都是从陈超美教授的博客上下载的,而源网站上是有很多版本的,新版本往往不稳定,旧版本又有一些不完善的地方,我换了不下五个版本才顺利运行出来,但是还是有一些问题,比如图层卡顿等问题。这也是为什么在CiteSpace上花了那么多时间的原因。

另外就是爬取百度上的数据,因为百度是一个搜索引擎,它只索引网站,获取全文还是需要到新闻源网站进行爬取,但是不同的网站的网页结构是不一样的,这就极大增加了工作量。幸好百度这几年力推“百家号”这个模块,96个结果中有36个都是百家号的内容。在一开始我是打算遍历出不同网站然后为每个网站单独写一个爬虫,但是后来发现这个工作量实在是太大了,可能得写好几天,还不如直接复制粘贴了。后来观察这些网址信息后,发现百家号+腾讯新闻+搜狐新闻+网易新闻四个网站加起来就已经有73条新闻了,这样只写四个逻辑就可以了,后来进展就快了,爬取全文、分词、删词、生成词云图。

其他

另外这周老师发的批改内容还没来得及一一回答,争取这周能重新回顾一下当时的场景,找找一些问题的解答。

从这一周开始课程量就没那么大了,需要正经看文献了。区域治理的相关文献是一部分,之前看过的论文希望能继续探究研究方向。旁边宿舍有师范的哥们,两年就毕业了,马上就要开题了,属实是太快了。李玉龙老师写课程论文之前就问我有研究方向吗,有的话可以直接写相关的课程论文,但是确实还没有个明确的方向,还是得深入到论文里。

之前周记里提到的总结pandas处理数据,也没来得及写,加上这周爬虫和词云的一些操作,这次汇总一下。这些都是学得快也忘得快的东西,因为每天进行的任务不会频繁涉及到这些工具,所以每次用完就会有很长时间的空档,如果不记录的话,很快就忘了,每次使用的时候都要重新去Google操作步骤,繁琐不说,这些步骤通常是很广的,还要根据情况修改,自己记录自己使用的过程会让这些用法很清晰,代码复用是一个十分提高效率的方法。