0%

2022-03-13周记

疫情什么时候才能过去

已读论文

改变了一下策略,看看综述里有什么趋势或者方法。

[1]王春东,张卉,莫秀良,杨文军.微博情感分析综述[J].计算机工程与科学,2022,44(01):165-175.

这一篇论文注重方法的讲解,介绍了英文和中文情感分析的方法演变,作者将分析方法分为四类,分别是情感词典、机器学习、深度学习和BERT模型

情感词典

“基于情感词典进行情感分析只需要将预处理后的词汇与情感词典中的词汇进行匹配,然后根据词匹配程度计算情感得分并判断情感极性,该方法计算简单且不需要额外的资源。”这是情感词典的优点,但是缺点就在于从哪找词典,一个优秀的词典不仅要及时更新词汇,还要全面且有代表性,所以构建难度很大。我找了一下作者提到的词典,主要有大连理工的情感本体库、台湾大学的NTUSD和知网的HowNet,大连理工的词典更新较慢,台湾大学的词典下载较难,知网的词典更新较快但是使用量并不大。

机器学习

分别是有监督和无监督,有监督即先人工标注后训练,对标注质量有很高要求,而无监督的机器学习方法则面临精度低成本也低的特点,尤其先前的无监督方法都是针对长文本的,直到有人提出BTM针对短文本的主题建模模型。

深度学习

深度学习依靠高度复杂的模型结构,不需要人工提取特征,它可以自动提取初级特征并组合成为高级特征,然后自动进行情感分类。而适用于情感分析的方法又有CNN、RNN等,CNN常用于图像处理,经由CNN发展的TextCNN适用于文本分类。RNN对于参数设置有较高的要求,不同的文本长度神经元数量需要进行不同程度的调整。

BERT模型

Bidirectional Encoder Representations from Transformers,翻译过来就是来自 Transformer 的双向编码器表示,而Transformer是一个利用注意力机制来提高模型训练速度的模型。注意力机制,即对不同的元素有着不同的注意力,映射到模型中就是对不同的神经元有不同的权重。对于BERT模型的创新点作者讲述的比较简洁,所以在我查阅相关资料时还是有点蒙,主要贡献就是双向预训练。

自己

这篇论文对整个的情感分析方法进行了一个概述,所以其他方面涉及的就较少了,我一开始感觉为什么没有学者重点讲一下数据清洗的过程,后来发现数据清洗只是一个中间步骤,虽然很重要但是很繁琐,并且创新点也极少。并且这一片论文也只是从大方向或者说学术研究领域入手,在GIthub上也有很多优秀的NLP处理 项目,并且像百度、甲骨文等商业公司也推出了自己的NLP处理工具,但是对于此类工具的评测,都是个人进行简单的评测,缺乏比较细致的对比,希望后续能再有更细致的发现。

另有未记录的论文写在了综述文章里。


《研究是一门艺术》

这本书从上个学期期末开始看,中间寒假没有带回去,回来接着读了一部分。回过头看这本书更像是一本工具书,如果把书名改成《零基础入门论文写作》我觉得销量肯定不止这么少。书里有个很重要的观点贯穿始末就是“以读者的身份审视自己的文章”,从提出问题、寻找资料到论点论据的提出,作者都在讲述如何应对读者的质疑,如何增加写者的权威。

虽然这本书是三位学者编著的,但是在整本书中更像是朋友一样的指导。书前半部分的内容看的快也忘得快,后半部分比较实际,直接讲到“准备、撰写以及修改草稿”,很实际,也很充实,作者在书里提到,这本书应该经常读一读,而不是读完就放下了,所以后续我希望能在书里能再找到一些有用的知识。


国家地理辽宁特辑

上周还买了两本国家地理出版的辽宁专辑,上下册分别从辽宁的海洋和陆地进行讲解。

上册里的海洋专题有一个部分很有意思,“中国三大湾区为何独缺渤海湾跨海大桥?”书里面讲到重要的因素就是东北尤其是辽宁地区的经济问题,不知道以后能不能作为区域经济的问题写一下。

文章里面提到的这座大桥是从烟台到大连的跨海大桥,这座桥是中国三大湾区中论证最早的大桥,但是也是有成果最少的大桥,一方面是渤海以西人向东的需求,另一方面是东北地区对于人才加剧外流的担忧,产生了大量的争议,包括多为院士也进行过大量的争论。支持者认为环渤海湾区域的铁路客货运在5-8年内可能会到达瓶颈,而且即使马上开建,5-8年也不能建成运行,所以建设工程迫在眉睫;而反对者则认为客货运量增长力不足,且山东半岛与东北地区的客货运量并不占到渤海湾区的大多数,且辽中南、京津冀、山东半岛均已形成各自的金融、电网、城市中心,建设跨海通道并不会对格局有太大影响,且庞大的建设资金还会对辽宁省的经济恢复带来额外的压力。

虽然直接研究这么大的问题有些困难,不过通过研究东北地区的经济发展规律,或许可以发现一些有意思的地方,比如辽宁地区经济转型期间的政策导向、成果分析等。


综述

寒假之前,王老师最后一次给我们开会的时候布置了个写综述的任务,但是一直没动笔,到快开学才整理,仿照了一些综述的格式罗列了一些数据,有点匆忙,但是也算动笔了。不过老师一直没倒出空看论文。

回头仔细看看问题也很明显,大问题就是没有条理,尤其在研究热点方面,其实这一部分我是打算用CiteSpace的,结果我电脑内存不够了,两千多条论文数据,电脑跑了十多个小时愣是没跑出来,后来一着急就没用CiteSpace的数据,直接用了知网的统计资料。很多论文里会把微博相关的舆论分为宏观和微观,类似于理论层面和实践方面,落实到论文内容方面就是分析舆论相关的理论和分析具体事件的舆论发展过程。这部分的问题就是没细分,把看过的觉得写的好的文章一股脑都放上去了。


主题

上周提到的具体的小论文题目或者限制范围较窄的主题,我近期的检索方向在政府舆情处理方面,老师也提过要小题大做,所以我觉得对具体事件细化舆论发展过程会不会比较扎实,如从【】事件看政府回应对于舆论的影响。具体流程的初步设想基本如下:

1
2
3
4
5
6
7
8
9
10
一、概述
网络舆情的发展
二、理论基础
网络舆情一词来源、政府出台的相关政策、中外文献对于网络舆情的研究方法、中文文献对于微博数据的处理方法、时间序列的常用处理方法
三、数据来源
微博数据如何挑选——原创OR全部?时间跨度选择?、微博数据如何清理——表情符号?转发长度保留还是删除?纯图片和Emoji表情的处理方法
四、实证分析
情感分析的工具、情感变化如何描绘图、是情绪变化以后找原因还是在政府公告出来以后确定情绪点
五、结果分析
六、建议展望

其中微博数据的获取,我进行了初步的爬取,已有的一些工具中,爬取效果都还比较不错,单日的微博爬取量在一万条微博上下,不过微博数据中转发量占据较大的比例,所以如果数据量选取的是原创微博,数据量就会去掉一大部分。

另外关于主题的选择,既然是政府舆情处理,相关的主题还是要和社会民生事件相关。上面的数据抓取测试我使用的是丰县的事件,但是从目前的互联网监管看来,这个事件还没有结束,所以是否使用这个话题主要有两个问题,一个是会不会涉及政治敏感,一个是处罚结果出来以后这个事件会不会后续还会有更加激烈的讨论。