编者按:在刚刚落幕的第十二届“泰迪杯”全国数据挖掘挑战赛中,我院数据科学与大数据专业本科生张再筵、梁苑琪、何岩峰组成的“Oops”团队,在系主任阎继宁副教授的精心指导下,以作品“基于大规模预训练CLIP模型微调的图文检索方法”取得特等奖,并荣获象征最高荣誉的泰迪杯(全国前0.1%),同时将获得比赛方提供的两万元奖金。包括本科生与研究生组在内,全国仅有三支队伍获此殊荣,这不仅是我院学生首次获得泰迪杯荣誉,更是对我院学子专业素养和创新能力的充分展现。
“泰迪杯”全国数据挖掘挑战赛是国内数据挖掘领域的重要赛事之一,由“泰迪杯”数据挖掘挑战赛组织委员会主办,旨在推动数据挖掘技术在高校的普及,培养学生解决实际问题的综合能力。本届竞赛历时两个月,吸引了来自全国各地的3619支队伍参赛。
在激烈的竞争中,“Oops”团队凭借严谨的科学态度和扎实的专业知识,不断改进算法,从海量数据中挖掘出有价值的信息,并提出了创新性的解决方案。他们的作品在盲审和答辩环节中均获得了评审专家的一致好评。
一、登顶之路
1.初探赛题
随着近年来智能终端设备和多媒体社交网络平台的飞速发展,多媒体数据呈现海量增长的趋势,使当今主流的社交网络平台充斥着海量的文本、图像等多模态媒体数据,也使得人们对不同模态数据之间互相检索的需求不断增加。有效的信息检索和分析可以大大提高平台多模态数据的利用率及用户的使用体验,而不同模态间存在显著的语义鸿沟,大大制约了海量多模态数据的分析及有效信息挖掘。因此,在海量的数据中实现跨模态信息的精准检索就成为当今学术界面临的重要挑战。图像和文本作为信息传递过程中常见的两大模态,它们之间的交互检索不仅能有效打破视觉和语言之间的语义鸿沟和分布壁垒,还能促进许多应用的发展,如跨模态检索、图像标注、视觉问答等。
具体而言,我们需要对图像、文本数据进行建模,并融合多模态特征,最终完成两个任务:一是图像检索:对于给定的文本,找到数据集中与之最相关的五张图像;二是文本检索:对于给定的图像,找到数据集中与之最相关的五段文本。
在比赛初期,我们团队在模型选择上出现了分歧,梁同学倾向于使用推荐系统中常用的双塔模型,张同学认为CLIP模型在多模态领域表现出色,而何同学则认为BLIP模型在多模态领域取得了比CLIP更好的性能,更具潜力。最终,在阎老师的建议下,大家认真分析了各个模型所适应的场景,最终决定使用CLIP模型解决多模态特征融合问题,并针对比赛任务进行优化改进。
为了获得更好的性能表现,并降低模型训练成本,我们指定了“迁移学习——对比学习”的解决方案:以预训练的图像编码器、文本编码器初始化CLIP模型,接下来使用图像-文本对数据集进行“预训练-微调”,得到多模态融合模型。
整体技术路线
2.入围决赛
随着解题方案的确定,我们迅速推进了比赛进程,实现了基础模型。在这个过程中,我们遇到了一系列问题。
第一个问题:数据清洗与增强
数据集处理方面,我们遇到了不少困难。比赛提供的数据集包含大量图片和文本,数据质量参差不齐。很多图片的分辨率过高,无法直接输入模型,部分文本中还包含大量特殊字符和无意义的符号,如表情符号、HTML标签等。为了解决这个问题,在阎老师的指导下,我们对数据集进行了清洗、筛选和增强,主要是将图片进行裁剪、缩放,统一调整为224*224的分辨率,对文本进行清洗和去噪,删除了特殊字符、表情符号、HTML标签等。
此外,我们通过随机裁剪、翻转、旋转等方式对图像进行增强,通过同义词替换、回译等方式对文本进行增强,以扩充数据集,提高模型的训练效果。阎老师还提醒我们注意数据分布的均衡性,避免模型出现偏向性。
数据增强方法示意
第二个问题:模型性能调优
由于模型参数量大、数据集容量大,我们进行一轮预训练需要花费数个小时的时间,因此我们着手对模型性能进行调优。在模型调优过程中,我们尝试了不同的学习率、优化器和损失函数,但效果一直不理想。阎老师建议我们尝试梯度累积的方法来模拟大batch训练,使得训练过程更平稳,最终模型的性能得到了显著提升。这一方法的实施使我们能够在相对较小的批次大小下进行训练,从而减少了显存的压力,并帮助我们充分利用计算资源。同时,通过调整学习率衰减策略,我们能够更好地平衡模型在不同训练阶段的学习速度,提高了模型的收敛性和泛化能力。
第三个问题:论文写作。
完成程序代码、对比实验后,我们开始着手撰写文章,然而这个过程并不顺利。首先,尽管我们学习并使用了一些优化方法,但并不清楚其底层的数学原理,也不会用数学公式进行描述。其次,我们使用了深度学习方法,对于不了解该领域的读者,有必要说明模型中各个组件的本质与功能,但碍于篇幅难以全量表述,必须进行一定的取舍。最后,对于改进模型得出的结果,如何绘图以凸显改进的有效性也是一个棘手的难题。
带着一系列问题,我们再次向阎老师发起求助。他认真分析了我们的问题与材料,逐一解答了我们的困惑,帮助我们了解了优化方法的数学原理,学会了在有限的篇幅内精确传达深度学习模型的核心组件,以及选择合适的图表和可视化工具来突出改进模型的有效性,使读者能够直观地理解我们的贡献。
我们搜集并阅读了大量文献,学习其中的写作方法,同时参考了往年的优秀获奖作品,学习泰迪杯比赛论文的基本格式。经过几个通宵的努力,我们的论文终于在提交截止日期前完成。
成品论文目录
5月29日,喜讯传来,我们成功入围了视频答辩环节,并开始准备答辩材料与问答。在答辩环节,我们自信地展示了我们的研究成果,最终赢得了评委们的一致认可,斩获特等奖。这份荣誉不仅属于我们团队,更离不开阎继宁老师的辛勤付出和悉心指导。
收到视频答辩通知后,我们既感到欣喜,又承担着压力。为了确保答辩的成功,我们开始认真梳理和整理研究材料,并进行深入的讨论和归纳,以确保能够清晰、有条理地表达出研究内容和贡献。我们还积极参与模拟答辩的训练和角色扮演,以提高演讲和应答能力,并针对可能的问题进行充分准备。同时,我们也听取阎老师的经验多次修改、完善答辩的PPT和发言稿。
经过紧张但充分的准备,我们在视频答辩中表现自信、回答流畅,赢得了很多专家的肯定和鼓励。最终我们的作品荣获特等奖,并获“泰迪杯”荣誉。
张再筵:参与这次“泰迪杯”数据挖掘挑战赛,对我而言是一次宝贵的学习和成长机会。作为团队的核心成员,我主要负责算法的改进、实现,以及论文的写作。在准备比赛的过程中,我深入研究了CLIP模型的架构和原理,探索了如何通过预训练和微调策略来提升模型对特定任务的适应性,并收获了大量关于分布式模型训练与调优的经验。这个过程中,我学习到了如何细致地分析问题,如何科学地设计实验,以及如何高效地优化模型。每一次模型精度的提升,都让我感受到科研的乐趣和成就感。
在这次比赛中,我们的时间并不充裕。虽然赛题早在3月就已经公布,但由于学业繁重,我们直到截止前十天左右才开始着手准备。紧迫的时间也激发了团队成员们的潜力,我们在几天内尝试了诸多优化方案的排列组合,并赶在最后两天通宵完成论文。此外,作为“Oops”团队的队长,这次比赛也让我认识到了团队协作的重要性。在团队中,我们相互学习,相互支持,共同克服了一个又一个难题。这种团队精神和协作能力,对我未来的学术和职业生涯都具有重要的指导意义。
梁苑琪:最初参与这次竞赛,我的目的简单而实际——争取拿到一个不错的奖项以获得保研加分,并没有想到我们可以拿到最高级别的荣誉并且获得两万元的奖金。回顾这场旅程,我们对赛事的重视程度远不如得奖时的惊喜和兴奋,对比赛的准备工作也是相对缺乏的。甚至直到作品提交截止时间的前几天,我们才最终确定了模型方案,并开始全力以赴地准备。
在本次比赛中,我与队友张再筵负责模型的改进与实现,并准备视频答辩。在技术层面我们并没做出较大的创新,更多的是基于已有方法的应用,以及工程效率的改善。我觉得我们的优势主要在于论文写得比较专业规范,一方面张同学在写作学术论文方面具有一定的经验,论文的大半篇幅也都是他写的;另一方面我们回看了一些往届的优秀论文,总结和参考他们的优点,不断修改我们的论文。
虽然我们对比赛的准备相对匆忙,甚至在开始时对成绩并不抱有太多期望,但最终得到的超出预期的成就,不仅给我们带来了惊喜,更是一次难得的经验积累和成长的历程。
何岩峰:在本次“泰迪杯”竞赛中,我收获了许多,也学习到了许多知识,包括多模态、数据处理等。比赛过程中,通过文献查询,我深入了解了多模态数据处理和分析的前沿研究和应用。这不仅拓宽了我的视野,还提升了我查阅和筛选有效信息的能力。
在模型选择方面,我学会了如何根据实际问题选择合适的模型和算法,不能一味追求“新”,而应该根据数据选择更为匹配的模型。通过不断地实验和调试,我掌握了一些模型优化的方法,并积累了经验。同时,我的论文撰写能力得到了提高,包括Latex、Visio等相关工具的使用更为熟练。在撰写过程中,我逐渐掌握了从选题、实验设计、结果分析到结论总结的完整流程,提高了我的逻辑思维和写作能力。
通过此次竞赛,我不仅在多模态领域的知识和技能上有了显著提升,也锻炼了科研能力和团队合作精神。无论是在数据处理、模型构建还是论文撰写方面,我都获得了宝贵的经验和启发,这将对我今后的学习和研究工作产生深远的影响。
阎继宁:作为“Oops”团队的指导老师,我见证了他们从概念构思到技术实现的全过程。他们在比赛中展现出了良好的学术素养和创新思维,克服了时间紧迫和准备不充分的困难,最终取得了出色的成绩。这次获奖是他们努力的结果,也是学院教育成果的体现。我为他们的成绩感到骄傲,并期待着他们在学术和职业道路上取得更大的成就。
学院一直高度重视学生的创新能力和实践能力培养,鼓励学生参与各类学科竞赛。此次获奖是我院在学科竞赛方面取得的又一重要成果,展示了我院在人才培养方面的优势和特色。未来,希望更多的老师和同学加入到学科竞赛中来,“以赛促学、以赛促教、以赛促研”,为社会培养更多优秀的数据科学人才。
【结语】 地大计科,才智飞扬;数据挖掘,智慧之光。让我们共同期待和支持我院学子在数据科学的道路上不断前行,勇攀高峰!
通讯员:张再筵
图文:张再筵、梁苑琪、何岩峰
审核:李国昌、闫继宁