0%

2022-07-03周记

这周学术活动进行得比较少。

论文进展

这周论文看的比较少,前半周集中在构建整个数据处理流程了。

整个的流程其实只有前边数据分类的时候麻烦,后面分词只需要一个步骤,但是最开始的数据分类却需要很仔细地划分。

  1. 筛选出需要的列:时间、id、地区、正文

  2. 对时间列进行转时间序列处理,比如把“2022-04-01 20:00”分别拆进PostMonth(2022-04)和PostDay(2022-04-01)两列,用来后面构建月度数据和日度数据并作趋势图。这里出现了个问题就是数据量太分散,时间跨度太大了,如果用Python做平滑曲线处理的话坐标轴会变得很乱,所以又加了一步,把处理好的数据表导出为csv格式然后用excel作平滑处理。

  3. 根据月度数据变化,找出热度最高的五个月份,然后分别找出这五个月里热度最高的五个话题,这里面可能有重合的话题,所以不一定会是25个话题。找出话题后先对这些话题作热度分布的水平柱状图,这里可能有点多,如果篇幅有限的话后续可以换成3X3。这一步主要是为了描述不同阶段出现的不同热度,然后再根据当时的社会事件阐述产生的原因。

  4. 对初始数据按照省份分组聚合,找出频数最大前五个省份(即发贴量最高的前五个),分别对五个省份进行话题词分析,找出讨论热度最高的话题,分析相关原因,这一部分应该是篇幅最大的部分,因为话题词比较分散,所以每个省需要生成两个大表,总共十个大表,并且需要根据不同地区的显示状态分析原因和解决办法,所以后续这部分应该是最需要细化的,当然5个也可能有点多,后续也可以换成3个。

暂时就想到了路径,因为看过的论文大多也就是这几部分,还没有想好自己从什么地方创新,上述的步骤也只是对样本数据写的数据处理流程脚本,后面应该能省一些功夫。另外就是绘图方面可能需要学学R,matplotlib做的图可能有点粗糙,这个后续再调整。虽然之前课程作业里写过类似的小流程,但是比较粗糙,这次稍微细化和标准化了一些,希望在流程构建这一步尽可能严谨一点,后面能比较省心。具体的代码部分还没贴上来,因为用的是ipynb文件,后续可以直接导出成markdown或者html格式,所以就打算等整个流程构建完以后做一份详细的内容再传到这里。

生活

读书

这周读的是《章鱼的心灵》,这本书是之前那本《物理学家的智性冒险》里提到的一本书,我查了查内容以后就直接买了,不得不说,大意了。这本书跟前几次看的哲学书都不太一样,这本书是很细致很有条理的写的,前几次看的书更像是哲学家的随笔,并没有一个整体的思想框架。但是《章鱼的心灵》这本从头到尾都是讲的意识和进化(作者是一个喜欢生物学的哲学家)。作者是想通过章鱼的进化,研究章鱼的意识和智商,进而描述生物的意识进化历史,从意识这个层面,作者提到了很多很多哲学家、生物学者以及很多哲学层面的进化理论,看的我是云里雾里的,但是至少生物学的部分看懂了。

我觉得我短时间内应该不会涉及哲学一类的书籍了,学校发低保了以后又买了几本王小波的书,还没到货,在家想看的书跟在学校想看的还不太一样。在学校买的最多的书是《财新周刊》和《中国国家地理》,财新是我最喜欢的新闻媒体,一个讲社会一个讲自然,都讲的很好。但是在家就只想安安静静地看一些“真正”的书,放空自己,不去想杂七杂八的事情。

职业规划

这周还有一个困扰自己的事情,就是职业规划。之前导员在群里发过一些学长学姐的就业去向,无非就是企业/考公/考博。只有第二个不用一技之长,会考试就行了。进企业和考博感觉都需要不断地学习。

企业这几年也好难挨,经济下行,大厂们裁员一个比一个狠,小厂就更不用说了。进企业的话就得抓紧找实习了,我可能比较喜欢技术岗,但是不是科班出身很多东西都不了解,所以还需要学很多东西。

再一个就是考博,目前考博好像是最稳妥的路,考博需要最重要的一个东西就是“学术能力 ”,但是我好像还没有发现我有这个能力。感觉没有挖掘学术热点的脑子,不知道该干什么,我把它叫《研一综合症》。主要是研一一年过的太快了, 这种学术压力感觉越来越大,自己圈子里的朋友进展都很快,peer pressure。另外一个就是考博的职业规划是什么呢?偏人文社科的专业是不是只能去高校,研究所之类的机构也有这类专业的学者吗?

今年以来“以后能干什么”这个问题在我脑子里住下了,时不时就会出来烦我一下,时间会给自己答案吗?