2022-05-01周记

摘要

周记批改问题

中国舆情监控部门之间的关系

原文：
中国的网络舆情监控机构遍地开花，各级别政府、企事业单位及部分私营公司的舆情监控部门相互隔离，互不统属，且自扫门前雪，各部门之间没有形成有效的联络通道
老师：
这种说法是不是太绝对了？完全是这样吗？

这个问题我又顺着这篇文献找了找参考文献和引用文献等等，首先对于舆情监管部门的相关研究，几乎全是硕博士论文，比如对具体地市的部门研究（本溪、普兰店等），还有对具体行业分类的舆论监管研究（食品安全、旅游、农产品、银行、医疗等）。其次对于具体地市的部门，跟上面这篇论文的描述是一样的，不过也都是对单独的地市进行的研究；其他综合性论述的文章里得出这个结论时也没有给出直接证据。

https://doi.org/10.1155/2021/7647718

模型假设H5：

原文：

信息效用质量与用户信息采纳行为正相关

老师：

这个信息效用质量如何定义？是否用效用函数？用什么类型的效用函数？

原文中指出信息效用质量是指公众对事件信息能否满足自身需求的评价，以及信息接收者对信息价值的体验和感知。具体衡量指标包括有用性（信息内容与公众期望的差距）、及时性和相关性（信息与公众使用目的相关）。然后查到了引用的文献

[1]冯缨,张瑞云.基于用户体验的微博信息质量评估研究[J].图书馆学研究,2014(09):62-67+101.DOI:10.15941/j.cnki.issn1001-0424.2014.09.004.

[3]李晶,漆贤军,陈明红.信息质量感知对信息获取与信息采纳的影响研究[J].情报科学,2015,33(03):123-129.DOI:10.13833/j.cnki.is.2015.03.024.

[4]厉钟灵. 微博用户转发意愿研究——基于感知信息质量视角[D]. 浙江:浙江大学,2012.

虽然查到了，但是具体的模型还没有看懂，尤其是最后一个硕士论文，用了很多模型和变量检验方法，大体略了一下大概涉及模糊综合评价体系、因子分析、KMO测度，而且暂时也没有发现效用函数，都是用的问卷调查，然后参考国外期刊进行问卷设计，设置体现信息效用的选项，然后根据问卷数据分析得出信息效用影响用户行为的结论。

舆情事件的调节作用

原文：

舆情事件类型的调节作用：目前普遍缺乏关于舆情事件类型对用户信息采纳影响的研究，提出探索性问题：舆情事件的类型（是否为突发公共事件）对舆情信息的采纳是否有影响？

老师：

是否有分类？为什么没有这方面的研究呢？

以舆情分类进行模糊搜索之后，大部分的文献是根据某一类话题进行分类讨论，比如食品安全、电商评论、大学生舆情、新闻舆情等，而且研究的内容并不是以用户信息采纳为因变量，大部分是以舆情为主体进行文本分析。

具体原因可能是这类研究相比于以舆情为主体进行文本分析更加复杂，不仅需要确定用户采纳行为，还需要对舆情中的文本或其他数据进行更加细致的分析。关于舆情的研究有点两头重，一类是基于信息技术对于舆情进行模型优化或创新，计算机领域的文章偏多；一类是对于舆情进行分析，研究舆情中的发展趋势或者情感变化，对于上述这类舆情事件类型对于用户的行为的影响研究比较少。

论文筛选的过程：

为什么绝大多数论文被舍弃了？

(1)如果研究涉及用户在舆论传播中的信息采用行为的实证研究，则选择研究

(2)为确保每项研究的独立性，如果在不同文章、会议论文和学位论文中报告的两项或多项研究基于同一个数据集，则将它们视为一项研究，仅选择一篇文章

(3)如果用户的信息采用行为是研究的因变量，则选择研究

(4)如果研究报告了影响因素和样本量之间的相关性或相关系数和p值或t值和样本量之间的相关性，则选择研究，这些可以转换为相关性

(5)排除了描述不明确和变量设计不合理的研究

DOI:10.13587/j.cnki.jieem.2018.02.012.

无偏性

老师：
媒体本身就是有偏性的，媒体内容是无偏性的又该如何刻画呢？

以媒体、无偏进行模糊搜索时文献较少，而搜索媒体负面报道时，发现一篇文献是人工标注的数据【吴艾凌,吕兴洋,谭慧敏.灾后自媒体负面报道偏差对潜在旅游者到访意愿的影响——以九寨沟“8·8”地震为例[J].旅游学刊,2019,34(04):40-50.】，通过情绪化表达、以偏概全等特征对媒体报道进行特征标注。

同行评审

原文：

也有论文讨论同行评审和专家评审的利弊。有一些论文讨论了国内的强人际关系可能并不适用于同行评审，这个差别也是挺有意思的。

老师：

的确。其实国外可能也存在这样的问题，学术观点和师承关系国外依然存在，那么为什么论文会这样说呢？有什么样的数据能够说明这个问题？

这篇论文没做好记录，忘了从哪看到的了，不过elsevier在20年对中国学者做了个调查，想了解他们对同行评审的看法，四分之三的人信任当前的同行评审流程（我觉得应该是外文期刊的同行评审），不过倒是没有提到关于国内同行评审的信息。

财务造假这个其实如果考虑甄别技术，我前几天看周记时就在想，财务造假新闻报道其实就有舆论对公众的影响。例如：把微博的评论换成财经网站“论坛”中的评论，那么对股价的变化是否有影响，是不是也有类似的作用？

这个问题我有刷到过一篇论文【史青春,徐露莹.负面舆情对上市公司股价波动影响的实证研究[J].中央财经大学学报,2014(10):54-62.】，用的是证券时报网“中国上市公司舆情中心”和“和讯网”这两个平台，通过舆情波动和股价波动结合，进行实证研究，用到了“事件研究法”和“正常收益模型”，作者说是广泛应用于会计、金融、经济领域的实证分析方法和模型，具体的专业名词我是看的有点懵，不过作者用的是不同公告的类型对于股价波动的影响，然后给出了一些建议。

文献

[1]孟凡思,钟寒,施水才,谢泽坤.基于SVM和CRF的三孩政策舆情省份差异分析[J/OL].数据分析与知识发现:1-18[2022-04-27].

这篇文献是《数据分析与知识发现》上新录的一篇，期刊归属是北大核心+CSSCI+CSCD，昨天刷rss订阅的时候发现的一篇文章。

这一篇文献的创新点可能是把舆情跟地区的政治、经济信息联系起来了。

一、引言：

介绍人口变化、国家政策变化、网民对于政策变化的反应。研究意义从公众参与公共事务和匿名信息对于公众的误导两个方面展开。

二、相关工作

网络舆情研究趋势：

(1)针对已发生的舆情，研究舆情发生过程中的发生、传播、演化进程，探究意见领袖及相关节点的作用，以及对比分析不同主体行为、网络环境、平台机制对于舆情的影响。

(2)针对过去发生的舆情，建立数据模型以对未来的舆情变化进行预测
三孩政策的学术研究

(1)社会学：加大对基础设施建设的投入，提升二孩生育意愿进而提升三孩生育率

(2)医学：完善医疗体制

(3)舆情分析：研究情感态度和关注点，并对成因进行分析

三、传统方法的舆情分析：

整体流程：抓取微博文本、预处理、情感分类、关键词提取、词云

比较不同平台的热度（新闻网站、新闻app、电子报、微信、论坛、短视频、微博），发现微博热度最高
基于时间序列分析舆情热度

这一段不不仅仅简单分析舆情的时间变化，还与其他舆情（离婚冷静期、延迟退休）进行了对比分析，选择三个政策各自发布后的第一周内的热度对比，发现三孩政策的热度明显高于其他两个；另外一个是作者还针对前五周的舆情进行了分析，发现周二和周六的热度明显高于其他天数，并指出工作对于人们参与网络讨论的影响。

在对相关文本进行分析后，作者发现如生活压力、女性权利等话题存在大量内容，于是同步分析了女性权利的热度变化，发现女性权利的热度变化与三孩政策的热度变化趋势相似，但出现了明显的陡升陡降，文章结合文本信息认为在一定程度上存在网络水军进行话题营销。
情感分类

首先对于模型的数据选择，作者选出了10000条数据进行人工标注，然后比较了Bayes（贝叶斯是通过概率计算，涉及比较复杂的概率推导公式，我还没看懂。。但是书里说在文本分类里效率很高）、LSTM（长短期记忆网络，之前用过一次，就是在复杂的机深度学习网络中调整每个节点，让每个节点抛弃一些数据，从而避免过拟合的出现）、SVM和Xgboost（机器学习和深度学习里的大杀器，融合了各种算法，既高效又易用，难度在于如何确定模型组合和参数，我比较吃惊的是这个方法竟然没入选）四种方法的情感分类的准确率，但是没有提到模型中的特征选择。最后SVM的准确率最高，选择了SVM（SVM就是支持向量机，是一种二分类的算法，对于数据分类的标准是，以坐标系分类为例，SVM的任务就是找出一条直线，使得这条直线离所有的点都尽量远）。选完方法他又说了特征选择的方式：特征表示部分取文本的正面情感词数量、负面情感词数量、程度副词分值、感叹号数量、问号数量、否定词数量共六个特征构建特征。

关键词抽取

这一部分作者没有详细展开，简单提了一下有监督和无监督的使用率，最后选择了有监督的CRF，有监督也就是先提前标注好数据集，然后进行关键词提取。得出负面舆情里的关键词：

话题	主题
全面二孩	看孩子劳累、二孩幸福、二孩教育、二孩家庭接纳、老人带孩子
三孩	性别平等、配套措施、生育权、婚嫁陋习、女性压力、生育负担

然后提取负面舆情进行词云绘制，并指出词云中显示的关键词与现实生活的联系，比如女性权益、生育负担、基础设施建设等。

四、不同省份的舆情差异分析

不同省份舆情热度

发达地区和人口大省热度较高
不同省份关键词差异

作者在此处列了一个表，关键词提取的，但是我感觉提取出的关键词好像没有进行“清洗”，涉及很多无意义的关键词比如截图、调查、多地等。
不同省份舆情关键词的关联分析

河南：关键词排名较高的是学生、高三、学习等，所以结合河南的高考人数，发现河南存在较高的高考压力

北京：“劳动者”、“资本家”、“hr”、“躺平”等词占比较大，所以结合人口普查和统计图鉴，发现北京失业率较高

重庆：“养老”、“人口老龄化”、“老龄化”等词，结合人口普查数据发现重庆老龄化程度较高

五、结论

三孩政策在发布后较同类政策信息收获了更高的关注度
在三孩政策的网络讨论中，确实存在部分网络水军发布同质度较高的负面言论，其规模不大，影响有限，但绝不容忽视大意
对于具备一定影响力的意见领袖，不可否认对于海外用户由于其文化背景和生活经历的原因，其思想情感和价值观念同国内的主流文化存在意识形态上的较大差距，求同存异的同时也应当对其中的煽动性言论进行及时的监测和制约
从政策宣传角度来看，“为改善人口结构、促进社会经济发展而鼓励生娃”会引起民众较大的反感，而政策改进类，如“教育改革（双减）”、“防沉迷系统的改进推广”等政策宣传的舆情反响则普遍向好
不同省份的网民对三孩政策的关注点不同，所期望的后续配套措施也各有侧重，应予以适当关注

六、不足与展望

信息平台较为单一，未选择全平台数据信息进行分析。
数据均为自然语言文本，未进行语音图像信息和视频信息的OCR处理(这个难度就更大了，设备性能和OCR软件是巨大瓶颈)
数据信息选取的时间跨度较小，仅选取了政策相关信息发布后一个月的数据信息（微博信息失真率太高，不知大信息是什么时候抓取的，如果跟舆情发生时间离得比较近数据还会很全，但是研究失真率是不是没有什么意义？大家都知道会删帖，但是大家又都会用这个数据。）
下一步可以考虑参考不同区域的词频特征对其词频的成因进行基于人口学变量和区域社会文化上的分析，从而针对不同的区域制定更加适合区域三孩政策落实的相关计划
关于本文由于官方发布的三孩政策的相关信息量较少，并没有获取到相关政策的大众意见数据，在后续可以基于此继续进行针对某项制度的专项分析。

一个很明显的优势分析

这篇文章的第二发表单位是北京拓尔思信息技术有限公司，我查了查这个公司，是专门做舆情处理的，很多舆情分析软件介绍的文章里也提到了这一个公司，这就使得这篇文章的数据可以尽可能地详细展示用户信息，开头介绍数据量的时候，提到共有92万余条数据，这个数据量是很庞大的，如果自己从微博爬，92万条，受限于设备数量和性能，得爬至少一个多星期，但是企业爬取的话，计算机性能、ip地址数量等都不是一个量级，获取的数据量也不是一个量级。