0%

2022-2-20周记

文献阅读 + 其他

量化文本分析法在国内外工商管理领域的应用对比与评述

[1]宋铁波,陈玉娇,朱子君.量化文本分析法在国内外工商管理领域的应用对比与评述[J].管理学报,2021,18(04):624-632. 管理学报的一篇,属于综述一类的吧。

既然是综述,我肯定是想看当前研究内容的不足,以及整体情况。

概述: 量化文本分析法发展迅速,国内使用量增速高、国外体量大。

国内外比较: 共同点:应用主题较为分散,难以形成明显的主题聚类,方法大部分处于初级阶段;差异:国内研究宽度较为狭窄、而国外学者更重视主题的深度挖掘和长期变化过程。

量化文本分析法可解决的问题类型:

这一部分主要是和工商管理结合的,作者指出了三个方面:主题量化、主题对比、未知主题提炼,包括组织、员工、企业风控等方面的研究。

量化文本分析法的优劣势:

优势:量化的意义就在于使用大量的数据,而现在,互联网即将进入web3.0时代,数据量太大了,“各网络及监管平、自愿和非自愿披露提供的非结构性文本数据的数量呈现爆炸性增长”,大大提高了研究内容的丰富度。并且通常量化文本是有固定的模型或工具,计算机参与程度高,相比其他依赖人工判断的方法更加客观。

劣势:工具具体应用能力不足,一方面国内工商管理领域采用量化文本分析的研究较少、另一方面,量化文本分析在不同领域的应用效果也不同,更加准确的量化分析往往需要更高阶的工具,对于研究学者来说这也是额外的学习成本。

研究展望:

扩大宽度和深度:文本分析的数据来源越来越广泛,学者们能进行的研究方面也会越来越广泛和深入。

加强量化分析与管理理论的结合:改善计算机智能参与程度较低的问题,加强研究学者的能力培养。

关注方法应用的多样性和稳健性:少量文献注重稳健性的检验以及多种方法结果的对比,常常使得研究结果被质疑。

构建工商管理领域专业词库:部分模型在研究时很大程度依赖专业词库,当前我国尚缺乏工商管理学科专业词库,有必要改变这一状况,以促进量化文本分析法的应用。


Coursera

周二把之前落下的一道做了做,其实是周一晚上做的,结果全做错了,周二又重新做的。题目的主要内容就是使用pandas对店铺和商品的销售数据进行分析。

题目:

  1. What was the maximum total revenue among all the shops in September, 2014?
  2. What item category generated the highest revenue in summer 2014?
  3. How many items are there, such that their price stays constant (to the best of our knowledge) during the whole period of time?
  4. What was the variance of the number of sold items per day sequence for the shop with shop_id = 25 in December, 2014? Do not count the items, that were sold but returned back later.

在第一题中,解决的问题是计算2014年九月销售额最大的店铺ID,用到的是pandas的groupby函数,其中的sum函数是计算每个组的和,max函数是计算每个组的最大值。

1
2
3
4
5
6
7
# YOUR CODE GOES HERE
df_1= transactions[transactions['date_block_num']==20]
df_1['total']=df_1['item_price']*df_1['item_cnt_day']
df_2 = df_1.groupby('shop_id').sum()

max_revenue = df_2.max()['total']# PUT YOUR ANSWER IN THIS VARIABLE
grader.submit_tag('max_revenue', max_revenue)

在第二题中,解决的问题是计算2014年夏季销售额最大的商品类别,用到的是pandas的groupby函数,

1
2
3
4
5
6
7
8
9
10
new_df = transactions.loc[:,['date_block_num','item_id']]
new_df['price'] = transactions['item_price']*transactions['item_cnt_day']
join_df = items.loc[:,['item_id','item_category_id']]
new1_df = new_df.join(join_df.set_index('item_id'),on='item_id')
summer_df = new1_df[new1_df.date_block_num.isin([17,18,19])]
shrinked_df = summer_df.loc[:,['price','item_category_id']]
values = shrinked_df.groupby(by=['item_category_id'],as_index=False).sum()
arr = values.loc[values.price.argmax(),:]
category_id_with_max_revenue = arr["item_category_id"]# PUT YOUR ANSWER IN THIS VARIABLE
grader.submit_tag('category_id_with_max_revenue', category_id_with_max_revenue)

首先,我们需要把transactions中的date_block_num和item_id分别提取出来,然后把item_price和item_cnt_day乘以item_price,得到一个新列 price。
接着把new_df数据表中的item_id和items表中的category_id进行join,得到一个新的数据表new1_df。
然后把new1_df中的date_block_num列为17,18,19的数据提取出来,得到新的数据表summer_df。
然后把summer_df中的price和item_category_id列提取出来,得到新的数据表shrinked_df。
然后把shrinked_df中的price和item_category_id列进行groupby,得到新的数据表values。
然后把values中的price列的最大值找出来,得到arr。最后把arr中的item_category_id列找出来,得到category_id_with_max_revenue。

在第三题中,解决的问题是找出在整个周期内,价格没有发生变化的商品数量

1
2
3
4
5
6
7
8
9
df = transactions.loc[:,['item_id','item_price']]
counts = df.groupby('item_id')
counter = 0
for count in counts:
if count[1]['item_price'].nunique() == 1:
counter+= 1
print(counter)
num_items_constant_price = counter # PUT YOUR ANSWER IN THIS VARIABLE
grader.submit_tag('num_items_constant_price', num_items_constant_price)

第三题困扰我的时间最长了,题目说的是价格没有发生变化的商品数量,于是我就对每个商品分组后分别求方差,然后取方差为零的项目进行计数,但是就是不对。然后在论坛里看到了这个方案,即对每个商品分组后,计算每组里有几个不一样的价格,若价格只有一个,则该商品的价格没有变化,然后求出这些商品的数量。虽然我不懂为啥我的方案做不对,但是这个确实做对了。

第四题是计算,ID为25的店铺在2014年12月每日销售商品数量的方差,并且不考虑已售出但稍后退回的商品。

1
2
3
4
5
6
7
8
9
10
11
12
13
shop_id = 25
new4_df = transactions[transactions['shop_id'] == shop_id]
new5_df = new4_df[new4_df['date_block_num'] == 23].loc[:,['date','item_id','item_cnt_day']]
new6_df = new5_df.groupby(by=['date']).sum()
new6_df.head(30)
#print(len(new5_df.date.unique()),new5_df.shape)
varr = new6_df.var()['item_cnt_day']
print(varr)
total_num_items_sold = new6_df.item_cnt_day.values# YOUR CODE GOES HERE
days = new5_df.date.unique() # YOUR CODE GOES HERE

total_num_items_sold_var = varr# PUT YOUR ANSWER IN THIS VARIABLE
grader.submit_tag('total_num_items_sold_var', total_num_items_sold_var)

“不考虑已退回的商品”,我一开始没绕过弯,难道需要找出已退回的商品然后剔除他们吗?后来看案例的时候发现,由于退回的商品“销售数量”是-1,直接求和就行了!


大数据环境下公共安全突发事件微博用户评论的归因分析

[1]邓春林,周舒阳,杨柳.大数据环境下公共安全突发事件微博用户评论的归因分析[J].情报科学,2021,39(01):48-55+80.DOI:10.13833/j.issn.1007-7634.2021.01.007.

概述: 微博平台活跃用户众多,舆论内容影响力较大。

工具/方法: 归因分析、社会网络分析、LDA主题建模、ROST系列软件、八爪鱼软件

具体研究过程:

  1. 获取相关事件的微博热门评论,筛选得到有效评论54729条

  2. 分别进行评论的关联性、中心性分析,具体是先进行分词,然后去除停用词、合并同义词等操作,接着使用excel构建共词矩阵,并使用NetDraw生成可视化的评论关键词网络结构图。

  3. 进行基于LDA模型的主题提取,这一节的目的是确定主要有几个主题,通过困惑度公式计算出含有9个主题的LDA主题模型。

  4. 基于主题和关联性进行不同级别的评论归因

  5. 获取不同级别评论的维度权重和感情倾向度

  6. 给出舆情疏导建议。

自我感觉:

  1. 感觉数据量有点小,相关论文动不动就十几二十万的数据,但是感觉效果还是不错。

  2. 另外题目和内容是不是不太合适?题目是大数据环境下公共安全突发事件,但是文章仅仅选取了四个事件,这不是大题目写小了吗

  3. 在”评论归因维度的权重计算“中,作者在进行情感分类时用到的武汉大学ROST软件,我找了半天才在论坛里找到,最新的更新时间还停留在2011年,而NLP相关的工具发展都十分迅速,感觉有点落后了。

  4. 整篇论文的逻辑特别清晰,每一步的目的、跟下一步的衔接、跟之前铺垫内容的呼应,并且每一部分也讲解的十分详细,除了一些专有名词去重新搜索了一下含义,其他的内容让人读完很顺畅,这可能就是学术写作能力的展现。


国际涉华突发事件国内外网络舆情对比分析

[1]陈璟浩,谢献坤.国际涉华突发事件国内外网络舆情对比分析[J/OL].情报杂志:1-9[2022-02-17].http://kns.cnki.net/kcms/detail/61.1167.g3.20220209.1725.028.html.

这一篇对比的是推特和微博两个平台的内容

主要内容: 对比两个平台的舆情特征,未有效开展国际舆论引导提供决策支持

工具/方法:

  1. 推特数据:Twint相关软件,微博数据:新浪舆情大数据平台。
  2. Excel 软件进行基本数据统计和展示; LDA(Latent Dirichlet Allocation)模型来挖掘舆情中的主题信息; BERT模型进行文本分类 ;GePhi社会网络分析工具

对比分析过程:

  1. 趋势对比:按照时间序列,对比两个平台的舆情趋势,发现推特的舆情在相关话题中的变化会受到国内舆情外溢的影响,虽然相关话题已经在国际互联网发酵许久,但是在微博话题激烈讨论后,推特上的相关数据发生明显变化—— “在国内舆情爆发前,Twitter 中支持新疆棉花的舆论只占到总数的 6. 57% ,而国内舆情爆发后支持的舆论飙升至总数的 34. 05%”
  2. 信源对比:双方基本类似,即主动发布超过三条的用户数量占比只有百分之十几,但是这些人的推文数量却占到了全部推文数量的百分之五十左右。信息集聚特征较为明显,即少数人发布了大部分信息。
  3. 社会网络对比分析:推特传播网络平均加权大于微博,说明推特相关话题讨论更加频繁,而微博的传播关键点占所有节点的比例较低,说明微博集聚更强,信息集中于少数具有较大影响力的账号手中,由他们主动向外发布和传播。
  4. 给出对应建议。

自我感觉:

今天这篇论文看的比较认真,但是,没啥想法,就单纯的看的很仔细。今天让开学的事整的很闹挺,早上问了老师,老师说等学校统一通知,然后去看周围城市的低价机票,机票有,但是去周边城市的高铁和火车票都卖完了,只能从临沂飞了,但是又不敢买,改签费太贵。后来看了看课表,实在不行28号或者1号也问题不大,就一节课,跟老师说明一下情况就行了。哎,为啥还不说啥时候开学!我不理解。


网络舆情传播特征及其引导策略

[1]张红彬,敖四江.网络舆情传播特征及其引导策略[J].中国编辑,2021(10):29-32.

这篇论文一篇论述性的,比较简单,但是有些点讲的很到位。

传播特征:

  1. 信息处理更加自主:多媒体、多角度、多群体参与
  2. 终端呈现多元化
  3. 传播指向更为精准:
    1. 利益选择:《社会利益群体和网民群体不断细化和分化的前提下,网民易于接受并传播与自身价值、利益、情绪等相关的网络舆情信息,而对与自身价值、利益等关联不大的网络舆情信息则表现出“冷处理”态度,出现少发声、不发声的现象,导致网络舆情的演进更加难以把握》
    2. 聚合与分化并存:社交媒体依托平台整合碎片化信息,引起大范围关注和讨论,与此同时,虚拟性的网络将网民个体按照收入、地域、领域等属性分化开来,收入群体、生活条件,以及精神层面的诉求和情感表达、社会公平正义等领域逐渐演进成为舆论聚焦的重点。此外,网络舆情的泛娱乐化传播也是需要重点关注的趋向。
  4. 组织动员更加高效,互联网的发展使得网络传播系统的效率变得十分高效。

其他部分,诸如面临的挑战和引导策略等,都跟大部分文献重复,诸如增加政府网络治理创新能力、释放社会共治驱动力、加强网络平台的自治等。

自我感觉:

  1. 传播特征中的利益选择是我之前没考虑过的,不过这部分作者也是引用的其他文献,所以我又找到了原来的文献 :中国网络舆情综合治理体系的构建与运作。奇怪的是,我仔细读了几遍并没有发现描述上文的部门。
  2. 另外,传播特征中的2也是学者引用的其他文献:究竟是“网络群体性事件” 还是“网络公共事件”抑或其他?——关于 “网络舆论聚集”研究的再思考

中国网络舆情综合治理体系的构建与运作

[1]邹军.中国网络舆情综合治理体系的构建与运作[J].南京师大学报(社会科学版),2020(02):116-126.

作者引入了一个被全球互联网治理广泛采用的”多利益攸关方“治理模式,即,通过政府、网络用户、内容服务提供商、网络运营商四者共同治理。这篇论文最大的收获在于了解我国网络舆论的发展历程。

舆论与网络舆论:

  1. 中国古籍中的“舆人”泛指地位低下的人,“舆论”因而都泛指民间众人的议论。

  2. 近代中国,报刊作为舆论的主要策源地,基本是自主性的言语表达,随着有政治目标的政党创办报刊,报刊舆论开始直接服从于宣传目的。建国后改革开放之前,舆论作为一种工具,用来巩固、辅助政权。

  3. 改革开放后,大众媒体开始成长,一方面承担了表达民意的责任,但是又不得不受国家监督,依然是一种社会管理的意识形态工具。

  4. 互联网发展后,中国社会的舆论态势得到改变,互联网赋予了普通人至少名义上平等的传播权力,作者称之为信息传播的民主化。虽然网络舆论的民主并未颠覆性的改变中国的政治生活,但是它的确壮大了社会力量。与此同时传统媒体依然处于活跃状态,因此出现了两个舆论场并存的镜像。

两个舆论场和网络舆论:

  1. 传统媒体表现为单向输出,以正面宣传为主,而网络舆论场充满了民间气质,既有理性和智慧,也有非理性和谣言。

  2. 我国在互联网迅速发展起来后,“舆情”对于政府维稳、企业形象树立有重大作用,于是成为基于某种需要而在互联网言论空间内广泛搜集民意等情报的一种制度安排。舆情是互联网时代舆论控制的产物。

从运动式治理到综合治理:

  1. 运动式治理,常见于各种网络专项整治活动,如各类净网行动等,但是专项行动大多有明确的整治目标,受影响的人群较少,类似于“头痛医头、脚痛医脚”,而这些整治领域产生的原因往往是复杂的,专项整治效果很难达到预期目标;且这种行动多为临时性,效果聊胜于无;此外,公权力主导的专项整治行动也带来了权力直接干预网络空间的道德风险和民意渠道受阻的风险问题。

  2. 综合治理即为联合多方努力,共建美好互联网。


究竟是“网络群体性事件”还是“网络公共事件”抑或其他?——关于“网络舆论聚集”研究的再思考

[1]董天策,梁辰曦.究竟是“网络群体性事件”还是“网络公共事件”抑或其他?——关于“网络舆论聚集”研究的再思考[J].新闻与传播研究,2020,27(01):87-102+128.

这一篇论文写的相当透彻了,整整17页,20年的论文,还算比较靠前。

明确区别:

  1. 网络公共事件:“围绕现实中的某个社会事件产生,而在网络空间引起网民广泛讨论并进而形成强大网络舆论,影响党和政府决策或造成重大现实影响的公共事件。”

  2. 群体性事件:聚众 + 寻衅 + 扰乱公共秩序 + 肢体冲突 等

  3. “网上群体性事件”:有学者认为,并不符合群体性突发事件的违法特征,应该叫网络民意冲击波效应。

  4. 不同之处:

    1. 行为主体不同,群体性事件的行为主体是 “群体”,网络公共事件的行为主体并非 “网络群体”,而是上网的公民。
    2. 行为性质不同,网络公共事件是社会事件引起的网络的讨论,发挥着舆论监督的作用,而群体性事件的参与者都是事件的直接当事人。
    3. 适用法律不同,群体事件为行动,网络公共事件为言论。

用 “网络公共事件”取代 “网络群体性事件”的学术价值:

  1. 不取代的弊端:

    1. 群体性事件违法,二者有本质区别

    2. 研究网络舆论聚集的概念如果张冠李戴,概念内涵、研究传统、使用语境以及
      价值立场的一致性自然就无法保证。

    3. 定性不准,价值误判,对策偏颇,对党和政府造成极大危害

  2. 明确定位网络群体性事件,或者网络民意冲击波效应,宏观上,网络公共舆论有助于国家治理、社会进步以及公共利益维护; 微观上,网络公共舆论对于被议论单位、被监督对象来说,无疑是一种危机,其信誉或名誉会受到某种程度的损害,而对国家治理、社会进步来说,这些公共舆论则具有监督的正当性和优先性。