一种使得大模型输出结构化数据的简易方法

2023-10-20 大全 29 作者：考证青年

最近在用大模型跑一些数据，于是就不可避免的遇到了如何让大模型输出的格式便于处理这个问题。经过一些研究发现了一套比较有用的方法，在这里总结一下。

背景

任务是这样的，我需要用大模型（比如，等等）对文本进行名词提取。输入一段文本，我需要大模型理解这段文本，然后输出这段文本中的所有代表事件的动词。

理论上讲这是一件很简单的事情，大模型也能比较精准的识别出其中的动词。但是问题就在于大模型的输出上。我该如何将大模型的非格式化的输出转化为格式化的结构化数据呢？

研究过程

某些机缘巧合读到了下面的文献[1]。文献中提出一种叫做PICa的方法：

We PICa, a yet to use GPT-3 for -based VQA, the first use of GPT-3 for tasks.

简易模型的特点是__模型简化常用的方法原理有

虽然是用于VQA领域的问题，但是也不妨细看一下。

进一步研究PICa发现，对于一次VQA预测，它使用如下两种策略：

其中，上下文示例选择就是在问题之外给模型提供n个样例，这样模型的输出就和样例一致。多查询集成本质上就是多问几次，然后根据问的结果通过某种指标进行排序，得到排序最靠前的一个作为答案。

不难发现，上下文示例选择这个方法对于我的任务很有帮助。

方法

经过上述研究，发现可以尝试使用上下文示例选择的方法使得模型输出固定格式的数据，然后使用的正则表达式库进行匹配。

鉴于常用的数据存储格式为json，我们让模型输出的格式也是json。这样一方面便于处理，另一方面，模型的语料库里面json的出现频率肯定比自定义的奇奇怪怪的格式会高，模型对json的格式的理解肯定也更好。

最后实现的效果：

import json
import re
from load_model import chatglmmodel = chatglm()background = """
我希望你能够以一名语言学家的身份帮我完成如下的任务。
首先我会给你一段文本，然后你需要尽可能多的提取出这段文本中发生过的动作事件，比如建立，标记，攻击，渗透，销毁等。
最好一段文本至少能够生成4个以上的词语,词语的长度不能大于6个字。
你的输出需要严格按照python列表的格式输出，我接下来会给你几个例子。
你需要结合下列例子理解我的上述要求，并且按照要求完成任务。
"""example1 = """
样例1：
================
输入：CNC组织最早于2019年被发现，其命名来源于所使用的远控木马的PDB路径信息中包含的cnc_client，且该组织主要针对教育行业进行攻击。
输出：['发现','攻击','包含']
================
"""example2 = """
样例2：
================
输入：攻击者以木尔坦的罗德兰区基于情报的反恐行动(intelligence-based operation，IBO)报告为诱饵，尝试投递一种变种木马程序MessPrint以控制受害者设备。
输出：['使用诱饵','投递','控制']
================
"""question = """
问题1：
================
输入：{}
输出：
================
"""prompt_base=background + example1 + example2pattern = r"\[.*?\]"  # 匹配以 "[" 开始，以 "]" 结束的子串
cnt = -1
result = []
for i in tqdm.tqdm(res):prompt = prompt_base + question.format(i)response = model.response(prompt)[0]matches = re.findall(pattern, response)for match in matches:try:lst = eval(match)  # 使用eval将字符串转化为列表，安全性请自行考虑result+=lstexcept:passprint(f"========>>>>>>>\nA:{response}")if cnt != -1:if cnt > 1:breakcnt += 1

最后输出的效果（部分）：

[1] Yang, Zhe Gan, Wang, Hu, Yumao Lu, Liu, and Wang. An study of gpt-3 for few-shot -based vqa. In AAAI, pages 3081–3089, 2022.

tags: 模型输出格式文本示例

一种使得大模型输出结构化数据的简易方法

【SSLGZ 2384】2014年初中竞赛试题(南海) 字符串

中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

好意在成长中——机器学习心得（一）

李飞飞两位高徒联合指导：能看懂「多模态提示」的机器人，zero

论文笔记——Deep Residual Learning for Image R

想拥有自己的Python程序包，你只需15步

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

一种使得大模型输出结构化数据的简易方法

【SSLGZ 2384】2014年初中竞赛试题(南海) 字符串

中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

好意在成长中——机器学习心得（一）

李飞飞两位高徒联合指导：能看懂「多模态提示」的机器人，zero

论文笔记——Deep Residual Learning for Image R

想拥有自己的Python程序包，你只需15步

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡 已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡