通过Twitter的地理位置标记和文本来了解印度金奈基础设施恢复能力的初步研究

Wai K. Chong , Hariharan Naganathan , Huan Liu , Samuel Ariaratnam , Joonhoon Kim

工程(英文) ›› 2018, Vol. 4 ›› Issue (2) : 218 -223.

PDF (2134KB)
工程(英文) ›› 2018, Vol. 4 ›› Issue (2) : 218 -223. DOI: 10.1016/j.eng.2018.03.010

通过Twitter的地理位置标记和文本来了解印度金奈基础设施恢复能力的初步研究

作者信息 +

Understanding Infrastructure Resiliency in Chennai, India Using Twitter’s Geotags and Texts: A Preliminary Study

Author information +
文章历史 +
PDF (2184K)

摘要

地理位置标记是一种使用地理标识元数据来标记数据和信息的过程,文本挖掘是指通过数据分析从文本中获取信息的过程。地理位置标记和文本挖掘这两种方法常被用于分析丰富的社交媒体数据,如视频、网站、文本和二维(QR)代码。它们经常被用来模拟消费者行为和预测市场趋势。本研究使用这两种技术分析在2015 年印度金奈洪灾中获得的数据,从而了解了当地的基础设施的恢复能力。本文对社交媒体(主要是Twitter)的潜在用途进行了概念化研究,这能够帮助我们更好地了解基础设施的恢复能力。研究小组使用特征提取技术从在发洪水期间由印度金奈人发出的推文中提取出Twitter 数据。首先,本项研究指出,这些技术有助于从地理位置标记,包含位置的单词以及每个位置的推文频率来判别基础设施的位置、缺陷和故障程度。然而,要更好地利用推文文本,以及更深入地理解文中使用的词语文化背景、用于描述该事件的词语背景和使用频率最低的词语,还需做出更多努力。

Abstract

Geotagging is the process of labeling data and information with geographical identification metadata, and text mining refers to the process of deriving information from text through data analytics. Geotagging and text mining are used to mine rich sources of social media data, such as video, website, text, and Quick Response (QR) code. They have been frequently used to model consumer behaviors and market trends. This study uses both techniques to understand the resilience of infrastructure in Chennai, India using data mined from the 2015 flood. This paper presents a conceptual study on the potential use of social media (Twitter in this case) to better understand infrastructure resiliency. Using featureextraction techniques, the research team extracted Twitter data from tweets generated by the Chennai population during the flood. First, this study shows that these techniques are useful in identifying locations, defects, and failure intensities of infrastructure using the location metadata from geotags, words containing the locations, and the frequencies of tweets from each location. However, more efforts are needed to better utilize the texts generated from the tweets, including a better understanding of the cultural contexts of the words used in the tweets, the contexts of the words used to describe the incidents, and the least frequently used words.

关键词

社交媒体 / 洪流 / 工程设计

Key words

Social media / Flooding / Engineering design

引用本文

引用格式 ▾
Wai K. Chong,Hariharan Naganathan,Huan Liu,Samuel Ariaratnam,Joonhoon Kim. 通过Twitter的地理位置标记和文本来了解印度金奈基础设施恢复能力的初步研究[J]. 工程(英文), 2018, 4(2): 218-223 DOI:10.1016/j.eng.2018.03.010

登录浏览全文

4963

注册一个新账户 忘记密码

1.社交媒体的使用和研究需求

恢复能力是以人为中心的,它是社会、文化、人类及其社区与环境之间相互作用的组成部分[1]。基础设施的恢复能力与其服务的社区密切相关,因为社区对系统破坏的态度和响应决定了基础设施的恢复能力[2]。总统政策指令第21条(PPD 21)将恢复能力定义为“能够准备和适应不断变化的环境的能力,并能在干扰中迅速抵御和恢复。恢复能力包括抵抗故意攻击、事故、自然灾害或事件的能力。”这些定义突出了基础设施、社区和灾害之间的相互作用,也就是基础设施和社区经过灾害后的恢复[3]。基础设施的恢复能力影响着社区,而社区有助于确定当地基础设施的要求和标准。基础设施利益相关者的责任之一是确定社区内基础设施的恢复能力和可持续性。尽管有多种手段可以加以利用,但是社交媒体提供了所需的平台来帮助确定基础设施的区域/本地恢复能力和可持续性。

社交媒体数据挖掘是一种新兴技术,它具有帮助人们将社区和基础设施的恢复能力与灾难联系起来的潜力。它有不同形式和多种结构,将社交互动与广泛协作和分散的社区网络联系起来。社交媒体将内容消费者变成内容制作者。从用户位置的内容、社区内的个人与更广泛的世界(表达和文字)之间的交互作用以及用户在不同位置的时间中可以推导出关键的信息[4]。

社交媒体在管理灾前撤离、减少灾害影响、协调灾难后的恢复工作以及记录经验教训方面发挥了关键作用,例如在2014年龙卷风之后,社交媒体促进了密苏里州乔普林的恢复[5]以及利用社交媒体为海地地震灾后恢复筹集资金[6]。先前的研究已经显示了社会媒体在灾害管理中的应用[7–11]。虽然社交媒体正在迅速成为人们与社会和技术联系的重要渠道,但其潜力尚未得到充分探索。随着社交媒体发布内容数量的增长,社交媒体变得越来越重要。社交媒体提供了一个潜在的平台,能够模拟社区对基础设施应对灾难的恢复能力的认识。

2.研究目标和问题

本文旨在了解社交媒体如何将社区与基础设施恢复能力联系起来。受研究规模所限,本团队仅使用2015年金奈洪水的Twitter数据。研究小组使用从个人推文中收集到的文本和地理位置标记,研究以下内容:①确定受影响基础设施的位置;②了解灾害的严重程度;③了解如何使用信息来解释基础设施的恢复能力(仅使用社交媒体数据)。这项研究试图加深对如何使用社交媒体模拟社区和基础设施恢复能力的理解。本文还利用社交媒体数据挖掘和地理位置标记这些方法,讨论和分析了社区恢复能力与基础设施互联性和其性能之间的联系,还特别提到了社区中使用的语言和措辞,以及社区文化如何影响使用语言和措辞的环境。下面将介绍不同社交媒体数据之间的互动。

本文使用来自金奈的Twitter用户在2015年金奈洪水期间发送的推文数据,每条推文由144个字符和一个Twitter ID组成。每条推文都包含一组文本数据,显示与文本、地理空间数据和公开可用的时间标记相关的信息。更多的信息可以从其他类型的社交媒体(如Face-book)那里得到,但这是私人信息,并且不提供给公众。

2.1.地理位置标记和时间标记

地理位置标记是将地理标识元数据集成到社交媒体数据[如照片、视频、文本消息、网站、二维(QR)代码、丰富站点摘要(RSS)源等]中的过程。每个数据项都分配有一个唯一的地理空间标识,如位置、发送者信息、经纬度坐标、方位、距离、准确性、地点名称和时间标记。标记可以由用户手动操作加注,或者由电子设备[即服务器、WiFi和(或)手机网络]自动操作加注。

2.2.文本数据

文本挖掘也称为文本分析,指的是分析文本信息以获得高质量信息的过程。挖掘过程包括构建文本输入、派生语言特征、删除和(或)插入特征、导出结构化数据中的模式以及评估和解释输出。文本挖掘包括文本分类、聚类、本质提取、粒度分类法的生成、情感分析和实体关系建模。文本就人们对一主题事物如何理解和彼此沟通提供了信息。

3.金奈洪水的背景

印度金奈一年一度的季风总是淹没城市并严重影响其人口和经济的发展。在过去,由于当地政府无能腐败,洪涝灾害愈加严重。历史上,金奈每年遭受的飓风从未像近年这样具有如此强的破坏性。第一次记录的飓风发生在1903年,当时的人口比现在少60%[12];第一次记录的具有毁灭性的飓风发生在1918年;1943年的飓风彻底摧毁了该市的交通基础设施[13];1985年的洪水是金奈有史以来最严重的洪水,但2015年的金奈洪水几乎和1985年一样糟糕,由于孟加拉湾深低压而造成的暴雨打乱了金奈和泰米尔纳德邦北部人们的生活[14]。Jesuraj等[12]对2015年金奈洪水进行了数学分析,发现它影响了53%的区域环境、25%的农业和15%的区域健康。由于化工厂和发电厂的泄漏,洪水还污染了重要的水利基础设施、地下水和河水[12]。

在2015年季风季节,金奈的降雨量超过100 in(1 in=2.54 cm),加上该市多年的非法发展和防洪准备不足,所以尽管比1985年的洪水规模略小,但2015年的金奈洪水造成的损失比以前更大。金奈官员报道,该市至少有57 000户家庭遭受结构性破坏。直到2015年12月7日,蒂鲁内尔维利地区的降雨使当地所有水坝都遭到了破坏,迫使当地政府将多余的水从水库排入河中。因此,来自河流的水流入干旱地区[12]。南方的铁路取消了主要的列车服务,而金奈国际机场于2015年12月6日关闭[15]。由于医院缺乏电力和氧气供应,造成死亡人数有所增加;而在金奈北部,由于缺乏具有协调性的救援响应,造成成千上万的居民被迫自行撤出城市[12]。由于没有政府的帮助,当地居民在洪灾期间不得不进行自救和自发的灾后恢复。金奈的当地居民一直对洪水具有一定的抵御能力,并一直在主动协助救援和灾后恢复工作。当局做出的错误和不明智的决定一直在增强当地抵御自然灾害的能力。由于缺乏扩大防洪设施的计划,政府与当地居民之间缺乏沟通以及互联基础设施(如手机基站和道路)之间缺乏沟通,灾后恢复的进程十分缓慢。

4.社交媒体选择

之前的调查显示,大量相关信息可以从各种社交媒体获得,包括使用社交媒体数据了解社区对气候变化的反应[16]、提高基础设施抗洪能力的潜在的解决方案[1719]以及关于使用新闻媒体的评论来研究洪水严重程度的信息[2025]。然而,这些信息在很大程度上仍然未被开发利用。尽管在灾后恢复期间协助金奈的救援队和军队使用了社交媒体,但大部分社交媒体帖子由金奈居民发布。社交媒体在整个灾难中成为一种强有力的工具,因为它被用来了解受影响的居民,并成为重要的应急通信工具。

河流和湖泊冲破堤岸,淹没了大面积土地(水位甚至高达许多建筑物的第二层)(图1)[26],金奈遭受了重创。洪水切断了许多城市的电源,许多手机基站失去了电力[26]。Facebook、Twitter和WhatsApp是洪水期间使用最频繁的社交媒体平台。这些媒体平台帮助居民更新他们的城镇和地区的现状,并使得他们可以相互沟通[26]。不同的社交媒体平台提供了不同类型的信息。人们使用Facebook来通知救援队到达紧急位置,Twitter标签被用来为居民定位食物和资源的位置,两者都被用来帮助灾民筹集资金。由于固定电话线路中断,WhatsApp成为直接的电话通信工具。Facebook发布了洪水安全报告,以更新居民关于灾难的最新进展。

null

图1. 雨后的金奈[26]。

因此,Twitter(通过#Chennai rains、#Chennai volunteer、#Chennai rescue和#Chennai rains help trending)和Facebook是整个灾难期间两个最重要的平台[12,13]。然而,来自Facebook的数据不易获取,Twitter能够提供其应用程序编程接口(API)以供用户收集数据,尽管提供信息有限,因此,研究团队决定仅依靠Twitter进行分析。

5.研究和分析方法

目前的数据分析技术大都只能处理数字,它们不能 有效地处理文本和地理空间元数据,因此文本和地理空 间元数据需要不同的分析技术来处理。所用单词的数量 并不是唯一重要的信息。大多数文本挖掘软件都基于数 字。因此,研究团队将现有的文本挖掘软件与手动数据 挖掘方法相结合来对文本和元数据进行分析。研究团队 进行了以下工作:①分析并提出了文本和元数据的主题 和次主题;②减少并从中选择了一些对研究目标重要的 主题和子主题;③建立了与目标相关的主题或代码的层 次结构;④将这些主题与概念联系起来。

社交媒体数据包含可用于确定推文位置的地理空间元数据。地理空间元数据也可以在人与人之间进行标 记,它们相互连接从而形成了个人网络。然后,来自同 一社区或相邻社区的个人网络将形成元数据和文本的网 络,这个网络与能够影响社区基础设施的网络相互连 接。社交媒体发送的包含时间标记的地理空间元数据和 文本,可以为人们提供何时何地社区与基础设施之间进 行交互的信息。

本研究小组使用Twitter Streaming API收集了在最近金奈洪水期间发布的推文,以供小组进行分析。团队选取了包含有地理位置标记元数据的推文子集,并使用元数据来推测推文被发送时发送人所处的位置。然后这些位置在谷歌地图上显示出来。这些推文按照城市所遭遇的基础设施问题和城市中的各类问题进行分组,尤其是道路、电力、水坝和电话网络的问题。推文通过每条推文中的关键词进行过滤筛选。图2 [26]显示了Twitter用户在发布基础设施问题时所处的位置。使用上述的特征提取技术,来自Twitter的数据被提炼并被进一步开发, 如图3和图4。

图2. 社交媒体在2015年金奈洪水中的作用[26]。(a)在洪水期间人们发送的推文;(b)洪水救援志愿者使用的标签;(c)暴雨天气图;(d)洪泛区。

6.初步分析

6.1.由于缺乏电力而造成的时间和位置的偏差:限制

超过70%的推文是从金奈市中心发出的。图3(a)中显示的位置代表了收到并发送推文的手机基站的位置。因此,这些位置并不是事件发生的实际位置或推文发送的地点。事件发生的位置和与事件相关的基础设施的确切位置必须根据推文中使用的词汇来进行推断。例如,有关当地大坝损毁的推文主要在距离大坝20多公里的手机基站被发送。确切的位置只能通过推文中的地理位置标记和推文中使用的单词来进行推测和确定。但是地理空间元数据中并没有关于地点、事件或与地点有关的足够信息。

6.2.电力短缺和区域恢复能力的不同所造成的影响

由于金奈的一些地方电力短缺,造成一些手机基站无法正常运行。有些手机只能通过其他仍可以正常运行的手机基站接收信号,因此这些仍在运行的基站发送了推文。虽然这种情况使我们很难判断出推文发送的确切位置,但可以帮助我们了解了不同位置的手机基站的运行模式和电源的供应情况。相比位置较低的手机基站,确定正常运转的手机基站的位置对于抵御洪水更有帮助。

6.3.时间延迟

在洪水期间,推文的发送总是会被延迟。当太多的信息到达手机基站时,信息和信号的处理时间将增加。许多Twitter用户不得不等待电力恢复供应,以便给手机充电或者搜索到手机信号,因此,他们发送的推文总是会被延迟。由于多达95%的推文被延迟,推文发送的确切时间难以确定。我们认为延迟时间范围从几秒到一天不等。因此,Twitter的时间标记并不可信,因为它们不能反映事件或事故发生的实际的时间。

6.4.地点、事件和问题——三者的出现频率关系

图3(a)显示了推文发送的位置,这些表明了可能的基础设施相关的事件和事故。我们使用与基础结构问题相关的推文中的关键词对推文进行筛选。图3(a)显示推文内容主要和市中心的道路情况有关,并且大部分是从城区中发出的。虽然有许多道路、电线和城市边界以外的房屋也被淹没在水中[图3(b)],却很少有人发送含有这些内容的推文。

图3(b)显示了受洪水影响的地区范围。图3(a)、(b)中的框图显示了金奈的城市洪泛区范围。超过70%的推文是从城区内发送的。比较图3(a)和图3(b)可以看出受洪水影响的手机基站仍在城市内外运行。通过地图,我们可以得出结论,由于城区内急需援助的人口密度高,所以推文大部分来自城区内。超过10%的推文是从没有受到北方洪水影响的手机基站发出的。地图证实,受灾最严重的地区位于甘加纳尔地区。由于断电,该地所有手机基站都无法继续运行。我们从这两张图中得出以下结论:①手机基站仍在运行的地区可能比没有运行的地区具有更强的抗洪能力;②比起市中心以外的地区,金奈市中心可能需要更多的努力使其具有更好的恢复能力;③人口密度高的地区比人口密度低的地区需要更强的恢复能力。地图表明,即使人口稠密和人口稀少的地区同样受到洪水的影响,人口稀少地区的推文数量少于人口稠密地区。

图3.(a)推文发送地点的航拍图;(b)洪泛区的航拍图。

图4. 常用道路问题词汇的云集合。

6.5.推文发布时间延迟

Twitter发布的时间延迟数据不足。通过对当地一些金奈居民的采访(通过一位调查人员获得的联系人),我们得出结论,推文的延误时间范围从几秒到一天不等。采访还表明,手机基站上的收到的数据过多、获取手机信号以及等待电力供应恢复是推文发布延迟的3个主要原因。但是,我们无法确定位置、推文和时间标记之间的关系。

6.6.文本分析

关于基础设施的推文中使用的主要单词或文本是使用TagCrowd编译的。我们侧重于分析与基础设施相关的关键词(如通勤、路线和安全),例如,与道路问题相关的关键词如图4所示。图4中每个单词的字号与推文中出现的单词的频率成正比。“log”或“logged”是最常用的名词,用于指洪水或当地被洪水淹没(即道路被淹没、积水或淹水)。“log”或“logged”可以用来描述当地的洪水情况。

此外,经常使用某一道路和城镇的名称(即Kil-pauk、Tambaram和Velachery West等专有名词)。在道路或城镇的名称之前使用了许多名词来描述道路或城镇所遭受的破坏或造成的损伤。然而,用于描述破坏或损伤的名词极其多样,并不一定被罗列在图4常用的词语列表中。这些名词包括诸如裂缝、爆裂、孔洞和管道线等词语。我们发现一些有用的结论:

(1)推文中使用的词语反映了基础设施和居民的状况,而不仅仅是基础设施的状况。例如,“洪水”和“延伸”经常用于同时反映居民和基础设施的状况,也就是说,洪水如何影响道路和居民,而不仅仅是路况。名词用于描述被破坏了的道路,然而,尽管名词可以更好地描述居民的状况,但是它只能模糊地反映道路的状况。即使人们发布的Twitter和路况有关,他们所用的词语也不能使道路工程师更好、更准确地了解当地的道路状况。即使Chinmayi Choolaimedu街区附近的一座桥梁结构不合理,但是人们描述桥梁状况的词语并没有清楚地表明这座桥的结构不健全。推文没有提到这座结构不健全的桥梁的确切位置,尽管这座城市有5座桥梁,只有一座桥梁的结构是不健全的。

(2)推文中经常使用“开裂部分”这一短语。我们进一步分析了其使用的背景和意图,并发现这个短语用于描述金奈城区内不同区域的不同路况。尽管有些道路在结构上是健全的,可它们仍被描述为具有“开裂的部分”,而其他被这种方式所描述的道路则严重受损。我们从中得出的结论是,推文发送人的判断具有很大的差异性。虽然“开裂的部分”代表着道路存在潜在的缺陷,但其缺陷的情况并未被人们恰当地描述出来。

(3)我们发现经常使用的单词和地点之间没有相关性,但在用来描述城镇的常用词之间存在着相关性。而且一些用于描述道路状况的词语和居民所面临的情况的词语之间具有关联性。我们的结论是,我们仍然需要做更多的分析以及利用更强大的工具来识别和辨认描述道路状况的低频词,同时我们还需要了解金奈和印度一般词汇使用情境。

7.将社交媒体数据与恢复能力联系起来

初步的分析表明,包括文本和地理位置标记在内的社交媒体数据为确定基础设施和社区的恢复能力提供了可能。这些结果可用于找到发生洪水时手机基站和电力线具有更好的恢复能力的位置。这些地理位置还可用于帮助人们找到重要的基础设施的位置,如需要提高恢复能力的紧急存储区域。推文中的文本为人们提供了更多能够确定受影响地区确切位置的信息,但对于改进目前我们对于使用低频词的解释,以及在某种文化背景下可能具有相同含义的不同的单词的研究,我们需要做出更多努力。研究还包括:

(1)全面理解在地区文化和语言中所运用的词汇之间的关系,词汇的含义以及使用词语的背景。

(2)低频词的分析方法。尽管高频词可以为我们提供关于事件和事故发生位置的大量且宽泛的信息,但低频词可以提供更多详细的信息。单词使用的次数统计只能帮助我们找到受影响区域以及未恢复区域所处的位置。然而,有许多其他名词被用于描述事件,但是由于使用者缺乏对特殊问题的了解,人们对问题的描述并不一致。研究发现,多个不同的词被用于描述相同的问题。因此,我们可以对具有相似含义并在相同语境中使用的单词进行分析。

(3)在这一点上,时间标记并不能为我们提供有关于恢复能力的有用信息,这需要我们对时间标记进一步地分析以使其能给我们提供一些有用的信息。此前的研究表明,时间标记可用于确定问题报告地点之间的距离,从而可以使我们深入了解问题的严重性,确定问题发生的确切位置。

8.结论

本文的目的是探究地理位置标记法和文本挖掘技术是否可以为政府和公民了解社区模型和基础设施恢复能力提供一个平台。初步研究已经发现了这两种技术的潜力:地理位置标记法可以确定问题发生的位置,而文本挖掘技术则可以更精确地定位并确定问题的类型。分析还表明了这些技术具有能帮助人们预测洪水对区域环境和经济的影响的潜力。从推文和#标签中我们可以分析出电力供应和道路状况。该研究还认为,我们需要对低频词进行研究以了解其用法。

Compliance with ethics guidelines

Wai K Chong, Hariharan Naganathan, Huan Liu, Sam- uel Ariaratnam, and Joonhoon Kim declare that they have no conflict of interest or financial conflicts to disclose.

参考文献

基金资助

()

AI Summary AI Mindmap
PDF (2134KB)

2110

访问

0

被引

详细

导航
相关文章

AI思维导图

/