中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

2024-01-11 大全 252 作者：考证青年

目录二、图像安全最后

前言

随着人工智能技术的不断演进，多模态大模型已是当下比较热的研究方向，它可以同时理解和生成多种输入和输出模态，如文本、图像、语音等，能够更好地模拟人类的多感知能力，给文档图像的分析处理带来了新的机遇和挑战！

近期，中国模式识别与计算机视觉大会在厦门举办，是国内顶级的模式识别和计算机视觉领域学术盛会。大会汇聚了国内国外模式识别和计算机视觉理论与应用研究的广大科研工作者及工业界同行，分享我国模式识别与计算机视觉领域的最新理论和技术成果。通过此次会议，进一步加强本领域的同行与东南沿海地区的学者和企业进行学术交流和技术碰撞，从而促进模式识别与计算机视觉领域的协同合作与融合创新。

合合信息是人工智能及大数据领域的领先企业。在本次大会中合合信息智能技术平台事业部副总经理郭丰俊博士分享了文档图像前沿技术中的成果及探索，主要包括多模态模型以及图像安全，让我们一起来了解一下吧。

一、多模态模型进展与探索

多模态大模型可以用于提高文档图像的处理和分析能力，使文档变得更易于管理、检索和理解。而文档图像是多模态天然的一个属性，它们能够为文档管理、信息提取和文档分析等任务提供有力支持。

1、GPT-4V (多模态)测试

随着 GPT-4V 到来，多模态能力发生了跃迁，不仅能理解文本，还能理解图像。经过初步的测试发现它对英文 OCR 较好，但是对中文 OCR 不理想。GPT-4V 有时会错误地将图像中的两串文字组合在一起，创造出一个虚构的术语。它还会遗漏文字或字符、忽略数学符号，以及无法识别相当明显的物体和地点设置。下图展示了 GPT-4V 的错误识别：

2、LLM时代文档图像处理技术趋势

LLM 时代，文档图像处理技术在不断演进，郭丰俊博士从三个方面来介绍文档图像处理技术趋势：

3、LLM时代文档图像技术机会

GPT-4V 的到来，是否会对会对正在做 OCR、NLP 领域的研究者造成危机感呢？郭丰俊博士提出虽然新技术的诞生会引起更多的关注，但是 OCR 依然是一个很重要的技术。如今我们想要训练一个大模型，不管是参与人的模型还是像 GPT-4V，都需要大规模的数据，而 OCR 在提供数据方面是一个非常好的工具，OCR 不仅能够高效录入数据，并且还能够处理不同格式的的数据。

4、MLLM时代文档图像处理技术趋势

下面是一些在文档图像处理方面比较知名的系统。

5、知名文档图像大模型OCR性能分析

经过系统测评显示系统性能还需要进一步提高，郭丰俊博士提出可能是以下原因：

二、图像安全

随着生成式的人工智能快速发展，越来越多的系统都能够生成图像，图像的真伪以及安全也越发重要。AI 图像安全为 AIGC 健康发展、规模化应用保驾护航，解决负面社会问题。

下图展示了 AI 图像安全在文档图像的篡改以及人脸真伪具体案例：

1、篡改种类

图像篡改指的是对数字图像的未经授权或欺骗性修改，以改变图像的内容或意义。分为四种类型：复制移动、拼接、擦出、重打印。下面给出证件照原始图，对图像篡改的四种类型一一解释，以身份证背面图为例，具体如下：

2、系统架构

计算机视觉物体识别__视觉信息的识别模型

合合信息在处理图像篡时基于分割模型的图像处理，使用作为编码器，使用和EANet两个网络并行作为解码器。充分利用了编码器-解码器结构，其中编码器负责提取特征，解码器负责还原图像并执行分割。并行使用两个不同的解码器可以提供更多的特征表示和捕获能力，从而增强了分割性能。

在文档图像处理时，郭丰俊博士提到有两个挑战的方面：一个是大量数据的构建，构建大规模且高质量的数据集对于训练文档图像处理模型至关重要。这些数据集应该包括多种字体、多种场景、多种篡改形式、头像物体篡改，以覆盖各种应用场景；另一个是训练策略，需要不断进行优化调整。在深度学习中，选择合适的训练策略对于模型性能至关重要。这包括超参数的调整、学习率的优化、数据增强方法的选择以及模型的选择。不断调整和优化这些策略可以帮助提高模型的性能，使其在文档图像处理任务中更加强大和可靠。

3、文档图像处理开放平台

合合信息针对文档图像处理，提供了PS检测开放平台，供开发者进行免费测试。基于自研篡改检测系统，可以判断图片是否被篡改，支持包含身份证、护照、驾驶证、行驶证、教师资格证，港澳通行证、海外身份证等证照，及增值税发票、普通发票、小票、合同等文档。该产品具有独特的优势：

4、AIGC假图鉴别

在安全领域，合合信息紧跟时代步伐做了生成式AI的鉴别工作，主要包括身份验证与访问控制、移动设备的安全检测、数字图像真实鉴定。比如我们现在有些手机、电脑、门禁等的解锁或可以使用人脸就可以解密，还有一些 ToB 的业务，比如银行的很多业务都需要面临生成式 AI 造假带来的压力。

它的系统架构师怎么实现的呢？郭丰俊博士以人脸鉴别场景为例，提出该鉴别体系的架构是通过通过多个空间注意力头来关注空间特征，并使用纹理增强模块放大浅层特征中的细微伪影，增强模型对真实人脸和伪造人脸的感知与判断准确度，其中纹理的细节变化是人脸鉴别的一个非常重要的依据。

5、图像篡改检测标准制定

关于图像篡改检测标准，合合信息将与中国信通院、中国图象图形学学会、中国科学技术大学一起共建并推动图像篡改监测标准，为文档图像内容安全提供可靠保障，提高图像篡改检测的一致性，推动技术创新，助力新时代AI安全体系建立。通过推动这一标准的制定和实施将有助于构建更可靠的 AI 安全体系，不仅对文档图像内容的安全具有重要意义，还可以在广泛的应用领域中推动数字安全和隐私保护。

最后

多模态模型的发展呈现出巨大的潜力，这些模型在深度学习领域中变得越来越重要。合合信息深耕智能文字识别以及商业大数据领域，结合模式识别、图像处理、神经网络、深度学习、STR、NLP打造智能文字识别服务平台，结合隐私计算、知识图谱打造商业大数据技术与资产平台，产品覆盖B端、C端，深受全球用户的喜爱。未来期待可以看到合合信息更多关于多模态模型在金融、零售、证券等领域的创新和应用，用技术方案服务更多的人群。

tags: 图像文档模型识别篡改

中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

Android实现OCR文字识别并且转换为Excel、PDF格式输出

用AI解锁声音的奥秘——启英泰伦新成果发布交流会

李飞飞两位高徒联合指导：能看懂「多模态提示」的机器人，zero

论文笔记——Deep Residual Learning for Image R

On the Opportunities and Risks of Founda

神经网络图像预测方法,神经网络预测结果分析

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

Android实现OCR文字识别并且转换为Excel、PDF格式输出

用AI解锁声音的奥秘——启英泰伦新成果发布交流会

李飞飞两位高徒联合指导：能看懂「多模态提示」的机器人，zero

论文笔记——Deep Residual Learning for Image R

On the Opportunities and Risks of Founda

神经网络图像预测方法,神经网络预测结果分析

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡 已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡