编者按:近日,第十八届“挑战杯”全国大学生课外学术科技作品竞赛“黑科技”专项赛落下帷幕,我院王勇、李程俊老师带领本科生吴奕志、朱瑞东、涂世杰、罗艳、张再筵、胡福兆、谢明睿完成的“基于机器学习的语义地理信息清洗与转化方法研究”项目,荣获“黑科技”专项赛卫星奖。编者邀请团队同学讲述他们的奋斗故事!
我们与“挑战杯”大赛的结缘,是在李程俊老师的课堂上。那是2023年2月份,李老师通过PPT向我们展示了“地名地址多态”问题的产生与影响,提出了开发一套语义地理信息数据处理系统的想法,经李老师风趣地讲解,我们(吴奕志、朱瑞东、涂世杰、张再筵、罗艳)对地理信息系统产生了浓厚兴趣,于是,主动加入了李老师的研究团队。同时,为了培养低年级同学、丰富团队成员的多样性,李老师还邀请了大二同学谢明睿以及经管同学胡福兆。
图1团队合照
随后我们与指导老师王勇和李程俊汇聚一堂,一个新兴的团队正式开启了他们的“黑科技”旅程。
项目初体验
2023年2月底,王勇老师将大家召集到自己的办公室,介绍项目背景与具体内容。
通过手绘板,王勇老师绘声绘色地描述地理信息的多样性与复杂性。他以某高校设备存放地址分布为例,向我们展示了语义地理信息在人机交互遇到的问题,并指出如何通过基于人工智能的解决方案替代传统人工方式是该领域面临一个重要挑战。
在王老师的介绍之后,我们迅速开展了第一次讨论交流,旨在初步明确项目任务,确认团队的分工。
图2团队第一次讨论
我们根据王老师的项目说明,整理思路。大家认为,该项目的主要任务是根据已有的设备台账信息(包括编号、名称、所属单位等十余项特征),估计其他信息不完整或不正确的设备存储地点。该问题的难点在于设备特征较多,各特征种类丰富且存在语义多态的情况。为了解决该问题,团队思考了两种主要方案:一种是基于统计的模型,它在少量数据上能有更优的表现,同时消耗资源较少,在过去得到了广泛的应用。另一种是基于学习的模型,它需要大量资源来训练,且要求精细地调参,但能处理海量的数据,并拥有更好的泛化性能,是目前的技术发展趋势。
经过多方面的考虑,我们最后选择了基于学习的模型,采用一些经典的机器学习模型进行探索与研究,并将结果汇报给王老师,并与老师共同讨论进一步改进与优化,然后再逐步增加机器学习模型的复杂度。
成果初汇报
2023年3月,团队有了一个初步成果,朱瑞东同学代全体成员向王老师进行汇报。受王老师邀请,姜鑫维老师在实验改进方面给了很有帮助的建议。
图3朱瑞东汇报初次成果
我们的具体方案如下:第一步,对所有数据进行人工清洗工作。对数据进行归一化,处理标签数据和异常数据,去除出现率不足0.1%的数据和占据99%以上的相同数据,再使用PCA对强相关性数据降维。第二步,进行文本信息处理。为了解决地理信息的多态性,我们需要对文本信息进行分词操作,我们采用HMM模型进行分词操作。第三步,将分词后的内容进行向量化。文字向量化存在一定的困难,可以将文字全部转换成枚举类型,这样操作简单但是准确率低,无法参与数据分析;也可以根据文字之间的相似度进行向量化,但其属性量不够从而间接导致准确率低。在这方面团队成员需与指导老师们进一步商量。最后,我们尝试采用了K-MEANS、决策树、MLP、支持向量机等传统方法进行语义分类。
图4分类结果
图5准确度估计
比较各类模型的准确度估计值,可以发现决策树的效果最佳。
姜老师提出,可以尝试使用知识图谱来进行地名地址的关联与预测。王老师提出,这样子的一个问题其实对应的领域是实体解析,可以尝试实体解析方法。
会后,我们根据老师所提供的建议对团队方向和核心方法进行更深层次的讨论。
方案再优化
2023年4月,在上一次讨论之后,我们发现原先的方向与方法具有一定的错误,决定围绕着实体解析寻找更合适的方法。
在关系型数据库中,实体解析是一项重要的任务,它涉及从结构化数据中识别和提取实体的过程。在过去的几十年中,许多研究人员已经提出了各种各样的方法来解决这个问题。其中,基于规则的方法和基于机器学习的方法是最为常见的两种方法。
基于规则的方法是指通过手动编写规则来识别和提取实体。这种方法的优点是可以精确地控制实体解析的过程,但缺点是需要大量的人力和时间来编写规则,并且难以应对复杂的语言现象。基于机器学习的方法是通过训练模型来自动识别和提取实体。这种方法的优点是可以适应不同的语言现象,并且可以通过不断地训练来提高准确率。
因此我们决定采取机器学习或深度学习的方式解决该问题。
图6团队讨论核心模型
团队的分工得到进一步明确:朱瑞东、吴奕志、张再筵负责算法模型探索与设计,涂世杰、谢明睿负责UI设计与实现,数据库设计与前后端信息交互,罗艳、胡福兆负责报告撰写工作。
模型终实现
2023年5月,进一步明确团队目标和分工后,我们开始围绕着“实体解析”方向设计深度学习模型。
首先需要解决的是文字信息的向量化表示。我们采取GloVe词嵌入技术,得到单词的分布式表示。将文本经过Tokenization得到的一系列单词按顺序排列,即可以得到语句的分布式表示。接着,使用结合LSTM单元的RNN(循环神经网络)模型得到语句的隐层特征表示,其具有天然的时序特性,能保留原始数据中的丰富语义信息,从而实现对单词元组信息的高效率、低损失的压缩。
图7元组分布式表示
基于上述结果,我们采用修正余弦相似度计算两段语义地理信息的向量化表示的相似度,从而估计其对应的地理实体间的相似度,根据已有实体样本训练分类器以实现自然语言处理中的实体解析。
最后,通过我们的方法清洗语义地理信息,很好地解决语义地理信息在人机交互中遇到的问题,在李老师指导下完成原型开发以及相关文档的撰写工作,实现的UI界面如下图所示。
图8UI界面
荣誉如期至
2023年9月,挑战杯“黑科技”专项赛道落下帷幕,湖北省共有三十余项目被评为国奖,“基于机器学习的语义地理信息清洗与转化方法研究”项目获“卫星奖”,我们团队上下充满幸福的味道。
图9 获奖信息
参赛真心语
吴奕志:
在本次挑战杯中,我很荣幸地担任队长一职。一个优秀的团队需要明确的分工和方向,我们团队成员各司其职,同心协力。但在比赛初期,团队的努力方向较为模糊与迷茫,团队出现了一段比较消极的时光。我们多次与老师进行沟通,不断讨论具体任务与方向,制定工作路线,逐渐明确我们的目标。随后,我们团队快马加鞭,分队同行,不断地完善项目与报告,最终交付了一份满意的答卷。当得知获奖后,我无比地兴奋,回想起比赛时付出的努力与时间,不再觉得痛苦而是幸福。感谢指导老师与我们耐心地交流,感谢每一个团队成员能够各司其职,团结一心。
朱瑞东:
在本次挑战杯的项目之中,我主要负责问题分析解决和编程版块。这是我第一次真实地参与一个软件的构建过程,我想这对自己的帮助可以说是巨大的。纸上谈兵不如脚踏实地。我们在课上写的代码有点类似纸上谈兵,只有将知识真正有效地运用于现实之中,才能实现所学知识的价值。真实的软件项目不像课程作业,我们像在黑夜中行走,遇到了无数的问题,不断尝试各种模型,老师与同学进行积极的交流。感谢老师和团队给了我这一次机会!
涂世杰:
在团队中,我负责后端数据存储以及逻辑交互部分,这需要具备丰富的数据库管理知识,并具备一定的编程能力。我投入了大量的课余时间,通过阅读书籍、在线学习等方式积极提升自我,以期更好地完成任务。在比赛中获奖,我和我的团队感到无比地喜悦和自豪,因为这不仅是对我们团队努力的认可,同时也为中国地质大学和计算机学院争得了荣誉。在高强度的竞赛环境中斩获佳绩,是对我们过去付出的最好肯定,也是对我们未来持续奋斗的巨大激励。
罗艳:
作为一名大三学生,在过去的一段时间里,我有幸参与了这个基于机器学习知识的项目。这是一次难忘而宝贵的经历,因为它不仅让我深入学习了机器学习的理论和应用知识,与团队成员的交流以及指导老师们的悉心指导也使自己获得了巨大的成长和收获。我们每周定期召开会议,分享各自的学习心得和项目进展,大家的不同技能和知识背景使彼此能够从多个角度思考问题,这种合作氛围使我深受启发。与此同时,团队成员分工明确、各司其职,始终以高度的热情和积极性推动着本项目的前进。感谢两位指导老师给予我们的指导和帮助,感谢团队成员一路以来的坚持和鼓励,感谢我们开过的每一次会、用的每一张草稿。我会继续努力学习,不断探索和创新,为科学研究和社会发展作出自己的贡献。
张再筵:
在团队中,我负责的任务主要是算法模型的设计。为了能够胜任这个任务,我利用了几乎所有的课余时间,补全地理信息系统相关知识,并自学机器学习、深度学习相关课程。在学习的过程中,我不断地被前人的智慧所折服,对众多精巧的模型结构赞叹不已。同时,也为项目的顺利推进,积攒了诸多思路。在比赛的过程中,除了技术的探索,志同道合的队友也起到了极其重要的作用。我们的团队的七位同学来自不同的学院和专业,因为共同的目标而聚在一起。在这个富有创造力的年纪,我们共同奋斗,将项目从想法变成了现实,并在大赛中取得佳绩。感谢“挑战杯”给予我们这段难忘的经历,我们将珍惜这份荣誉,继续努力,为未来的科学与技术发展做出更大的贡献。
胡福兆:
我非常荣幸能够获得挑战杯的奖项,因为这是对我努力学习和实践的肯定,也是对自己未来充满无限可能的鼓励。感谢我的指导老师和所有的团队成员。没有你们的辛勤付出和帮助,我不可能取得这样的成绩。同时,我也要感谢学校为我们提供的良好学习和实践环境。获奖不是终点,而是一个新的起点。我将继续努力学习,不断进步,为学校争光!
谢明睿:
回想起我们团队在“挑战杯”全国大学生课外学术科技作品竞赛“黑科技”专项赛中的历程,我依然感慨万分。从对机器学习与地理信息处理的初步了解,到深入研究语义地理信息清洗与转化方法,我们在探索中不断成长,收获了知识与友情。我们从一开始就注重团队协作和沟通,尽管每个人的专业背景和技能不同,但大家始终相互支持、相互鼓励。在遇到困难时,我们会相互讨论、集思广益,共同解决问题。此次获奖,对我们来说是一种肯定,也是一种鞭策。我们会继续努力,不断提高学术素养和实践能力,争取在相关领域取得更多成绩。最后,我要感谢所有支持我们、陪伴我们走过这段路程的老师、同学和朋友。未来的路还很长,我们将带着这份荣誉和经验,继续前行,勇攀科技高峰!
王勇(指导老师):
数学家华罗庚说过:最困难的是提出问题。语义地理信息清洗是业界棘手问题,一般通过人工方式来处理。在这次挑战杯“黑科技”专项赛中,同学们将工程问题成功转化为科学问题,并给出优秀解决方案,祝贺参赛的同学们!
李程俊(指导老师):
学生才是大学的主体,学生拥有无限可能。本人已经指导本科生科研创新活动若干年,始终相信学生的创造力和工作热情:给一个支点,他们能撬起整个地球。本人会继续指导本科生的科研创新活动,为学院的发展添砖加瓦!
文字:吴奕志、朱瑞东、涂世杰、罗艳、张再筵、胡福兆、谢明睿
审核:李国昌、林小艳
校对:石剑峰