互联网科技和媒体的蓬勃发展产生了大量社交媒体数据,本研究尝试开展社交媒体文本数据分析方法的对比研究,并揭示其在公园感知研究中的优缺点和适用性。研究选择在相关领域广泛应用的词典模型和LDA模型,以大众点评网站上北京10座城市公园的点评文本为研究数据,分别从单个公园和公园整体使用感知两个层面进行文本分析,并对比分析感知主题的分类结果。结果表明:词典模型更有利于在公园间进行横向对比分析;LDA模型则可以直观显示公园特色和游客感知偏好;综合运用两种模型可优化公园感知评估。两种方法揭示了北京城市公园游客对公园的关注主要集中于社交活动的需求、自然景观带来的视觉审美需求,以及交通设施状况和城市公园消费情况。本研究既可为社交媒体文本分析方法的选择和使用提供优化建议,又可为公园建设与管理改进提供依据与指导。
社会感知;文本分析;词典;隐含狄利克雷分布(LDA);城市公园;景观感知
随着互联网科技的高速发展,海量网络媒体信息为社会感知的研究提供了数据基础。这类研究早期多集中在通过签到数据识别到访率和动机偏好分析,以及结合照片图像内容及其地理位置进行的感知情绪分析。近年来,通过文本数据挖掘进行感知分析的研究也开始起步并日渐增多。通过文本数据进行公园感知研究正逐渐受到学者们的关注。目前已经可以通过建立文本分析模型来挖掘文本所呈现的内在规律及主题,主题模型的运用开始成为感知分析和满意度评价的基础。已有研究在感知分析时,通常单独采用其中一种模型进行文本数据处理,鲜少探讨不同模型之间的优劣及专业适用性。
本研究尝试开展社交媒体文本数据分析方法的对比研究,并揭示其在公园感知研究中的适用性。由于基于词典规则的分类分析模型(下文简称“词典模型”)和LDA模型在风景名胜区和城市公园感知研究中应用广泛,本研究针对二者展开对比分析。本研究聚焦于以下问题:在对基于公园感知的社交媒体文本进行分析时,词典模型和LDA模型的感知研究过程与分析结果存在怎样的差异?两种模型的优劣是什么?此基础上,研究团队进一步探究如何利用两种模型的优势为城市公园规划提供指导,并总结文本分析方法在公园感知研究中的适用价值。
北京市市域拥有各类公园1050个,公园绿地面积累计达357.2km2。本研究选择大众点评网作为文本数据来源,使用Python软件中的Request模块获取北京市公园目录下自2006年4月至2020年9月的所有文字点评数据和点评者信息,选取点评数量排名前10位的城市公园作为研究对象(表1)。
为保证模型分析的准确性,研究对数据进行了预处理,仅保留字符数大于50的文本数据。筛选后评价数量最少的公园为北京园博园(6531条),以此为标准使用SPSS分别对其他各个公园的评价数据进行完全随机抽样,最终获得65310条点评文本数据。研究选用Python语言工具jieba分词对数据进行分词。清洗文本数据进并进行同义词替换。根据实际使用情况,人工筛查及调整分词和同义词替换结果,还原不恰当的同义词替换内容。
词典模型采用王志芳等人于2021年提出的基于景观服务的城市公园感知主题分类评估模型,该模型经过词典有效性检验,整体性能测试结果优良。在本研究中,运用Python对预处理后的数据进行结构化处理并提取高频词;之后进行人工分类,构建中文景观服务感知词典;继而利用Word2vec和人工添加的方式扩建词典内容,并划分到不同的感知主题类别中。根据已有的文献研究,共划分出9类含义不同的公园景观服务感知主题(表2)。
将获取的公园感知评价文本数据与词典进行匹配,以此识别评价数据中的用词,进而提取出单条评价中所涉及的感知主题计算各类主题的感知频率。将涉及某项感知主题的评论数量与总评论数量的比值作为相应景观服务主题在该公园的感知频率。
LDA是一种通过计算机来自动分析文本的语言处理模型,能够快速从非结构化文本(即文档)中提炼出主题。LDA模型可以计算“文档-主题”和“主题-词语”两类概率分布,从而实现对文档主题和对应词语(关键词)的分类。
本研究使用Python软件的gensim工具包调用LDA模型,实现文本数据主题分析。本研究中的主题数量主要通过计算主题一致性得分来确定,最后结合人工对一致性得分较高的主题进行筛选,确定合适的主题数量以获得理想的模型运算结果。获得结果后,对于每个主题的实际权重进行计算。针对每个公园的结果,分别进行主题命名,同时去除权重较低且感知内容相关性较弱的主题,即“噪声”主题。
对两种模型得到的不同感知主题的分布进行相关性分析。不同感知主题在每条评价文本中的分布情况为二分类变量,结果为“是”/“否”(分别记为“1”/“0”)两项,因此在SPSS软件中计算Phi系数,进行相关性检验。
本研究使用Python对评价文本进行词频分析,通过词云图表达不同文本数据中被使用者提及频次较高的词语内容,以获取各公园的感知主题内容。
本研究基于北京市10座城市公园的大众点评评价文本数据,利用两种模型分别从单个公园和公园整体使用感知两个层面进行文本分析,并对比分析感知主题的分类结果。
词典模型分类统计结果显示,游客对各公园不同主题的感知频率存在明显差异:圆明园遗址公园和奥林匹克森林公园的感知总频率最高,北京世界公园与朝阳公园的感知总频率相对较低;奥林匹克森林公园不同主题间感知频率差异最大。此外,在不同公园中,娱乐活动和美学欣赏均表现出较高的游客感知频率,教育价值和宗教信仰的感知频率普遍较低。圆明园遗址公园在历史文化方面的感知频率、八大处公园在宗教信仰方面的感知频率、景山公园的美学欣赏感知频率、朝阳公园的社会交往感知频率明显高于其他公园。除此之外,玉渊潭公园和八大处公园的教育价值感知关注度相较于其他公园有所不足。
词典模型下各公园不同主题的感知频率差异图 © 尚珍宇,程可欣,简钰清,王志芳
由LDA模型下的感知分析结果可知,北京市10座城市公园的感知类型差异明显,社交媒体评价突出体现了公园自身的景观特色和游客感知偏好。通过表3可以看出,不同公园游客感知的主题数量普遍被分为8或9项,其中圆明园遗址公园、玉渊潭公园和奥林匹克森林公园的感知主题较多,北京世界公园最少。在感知内容上公园间存在差异,但部分主题在多数公园中均有体现。除此之外,部分感知主题因公园自身的特色表现出不同。同时,节庆活动在不同公园中也会产生独特的游客感知。
将10座公园的所有评论文本数据进行LDA模型分析,结果显示,感知主题可划分为10项,其中交通门票、春季景观、记忆感知和社交活动的感知频率高于其他主题,登山活动、人文历史、集会表演、秋季景观、宗教文化、特色建筑的感知频率相对较低。由此可见,北京城市公园游客对公园的关注主要集中于社交活动的需求、自然景观带来的视觉审美需求,以及交通设施状况和城市公园消费情况。