大创风采 | 自监督引导的复杂场景文字识别研究
———— 小组简介 ————
项目主题
自监督引导的复杂场景文字识别研究
项目负责人和成员
郭泽彬,项目负责人,网络空间安全学院2021级本科生。具备一定专业基础,主要负责算法改进,在校多次获得校级及院级表彰。
范立霖,成员,网络空间安全学院2021级本科生。具备一定专业基础,主要负责前后端接口连接。
刘可煜,成员,网络空间安全学院2021级本科生。具备多次CTF竞赛经历和相关开发经验,主要负责前端开发。
米雪妍,成员,网络空间安全学院2021级本科生。具备一定专业基础,主要负责前端设计与开发。
王梓宸,成员,网络空间安全学院2021级本科生。具备一定专业基础,主要负责后端开发。
立项等级
校级
项目评级
优秀
———— 项目介绍 ————
在网络环境中,大量复杂的图像和视频往往蕴含丰富的文本信息,这些信息不仅为用户带来视觉体验,更在深层次上提供了精准的语义解读,对于全面解析场景内容起到了至关重要的作用。然而,随着移动互联网技术的快速发展,网络空间中图像和视频所包含的恶意、低俗及敏感信息呈现日益增长的趋势。
因此,复杂场景中文字识别具有双重价值。一方面,它能够直接对网络空间的信息内容实施监控,有效管理和遏制不良信息的扩散。另一方面,通过对图像和视频内容的深入解读,有助于阻止恶意、低俗、敏感图像和视频的传播,从而对保障网络空间的健康环境产生积极作用。 在本课题的研究中,我们首先针对现有端到端文字识别先进算法——“DeepSolo”存在的局限性,提出了一种可以更灵活感知文字区域边界的文字实例Proposal生成策略,并且利用点特征采样初始化文字内容Query,增强文字检测与识别两部分的协同效果。经过实验验证,我们的方法在原有的基础上显著提升性能。
在此基础上,我们开发了一个基于文字识别的网络空间图片敏感词监测系统,针对网络空间中的图像信息进行内容筛查,提取其中隐含的文本信息,以有力地防止恶意、低俗、敏感信息的传播,并提升对图像内容的深层理解能力,以实现对不良内容更为有效的阻断,为网络空间内容审核提供了一种可行性解决方案。
同时,为了进一步验证并推动研究成果的实际应用转化,我们积极参与了国际权威赛事,如ICDAR2023的印章抬头文字识别挑战赛以及2023年信息安全竞赛,并已将相关技术成果转化成软件著作权。
▲项目提出的改进方法
———— 小组心得体会 ————
小组成员们通过一年的科研项目实践,从搭建环境运行MNIST代码起步,复现经典算法,逐步过渡到训练自定义模型,期间经历了从迷茫无知到目标清晰的成长过程。此项目极大地提升了团队在文字识别领域的专业素养和技术实力,帮助成员找准自身优势和未来职业路径。在代朋纹老师的指导下,团队精读了十多篇相关论文,系统梳理了文字识别技术的发展脉络与前沿动态,并亲自动手训练模型参与各类算法竞赛,与最新的研究成果同场较量。
项目执行过程中,团队不断磨练技能,从环境配置、模型选择到算法优化创新,再到自主构建包括前端后端及数据库在内的完整系统,最终打造出了一个网络空间图片敏感词监测系统,并申请一项软件著作权。团队深刻体验到了科研的魅力与挑战,无论是讨论方向时的思维激荡,或是攻克技术难关后的喜悦振奋,抑或是面对困难挫折时的坚韧不拔,均让我们更加明白科研的真谛和实践经验的重要性。
回顾过去一年,我们共同见证了深夜灯火通明的工学园,经历了无数次激烈讨论与攻关克难,既有初次成功运行代码的豁然开朗,也有遭遇瓶颈时的困惑与挣扎。我们在探索实践中接触到最前沿的技术,努力将理论知识应用于解决实际问题。这次创新创业经历,搭建起了连接基础知识与科研创新的桥梁,让我们明晰了知识来源与未来方向。尽管道路崎岖坎坷,但我们乐此不疲,始终坚定前行,勇攀科研高峰。
▲小组成员在讨论问题
———— 导师介绍 ————
▲代朋纹助理教授
代朋纹,助理教授,硕士生导师,中山大学“百人计划”引进人才。博士毕业于中国科学院大学,2022年7月入职中山大学网络空间安全学院,长期从事多媒体内容理解与人工智能安全领域的研究。近年在TIP,TIFS,TMM,CVPR,ACM MM等Trans.期刊和CCF-A类会议上发表学术论文20余篇,获授权专利7项。现主持国家自然科学基金青年项目1项,深圳市科创委项目1项,承担国家重点研发计划项目子课题1项,并作为核心成员参与国家自然科学基金面上项目、广东省基础研究重大项目以及深圳市重点项目等多项。曾获中国科学院优博论文奖、中国科学院院长优秀奖、CCF优秀大学生奖等。
导师寄语
该项目组所选研究课题具有较强的前瞻性与实际应用价值。团队成员从项目立项前就参与到课题研究中,在项目负责人的带领下,项目小组经常组织研讨,解决所面临的问题。在开题、中期以及结题答辩中均获得评委老师的一致好评。团队成员从最初的茫然不知所措,经过一点一滴的积累,在文献阅读、算法实现、应用开发以及学术表达方面均有明显进步。希望项目组成员继续深入开展研究,推进该项目的落地应用,为国家和广东省的数字经济建设贡献一份自己的力量。
** 欢迎关注 **