NLP(五十七)LangChain的结构化输出
xsobi 2024-12-03 04:59 1 浏览
??在使用大模型的时候,尽管我们的prompt已经要求大模型给出固定的输出格式,比如JSON,但很多时候,大模型还是会输出额外的信息,使得我们在对输出信息进行结构化的时候产生困难。LangChain工具可以很好地将输出信息进行结构化。
??关于LangChain的结构化输出,可参考网址:https://python.langchain.com/docs/modules/model_io/output_parsers/ ,这其中,我们较为关注的是Structured output parser,通过定义StructuredOutputParser来使用,使用方式如下:
response_schemas = [
ResponseSchema(name="answer", description="answer to the user's question"),
ResponseSchema(name="source", description="source used to answer the user's question, should be a website.")
]
output_parser = StructuredOutputParser.from_response_schemas(response_schemas)
一个例子
??首先,我们先来看一个简单的结构化输出的prompt的写法:
# -*- coding: utf-8 -*-
from langchain.output_parsers import StructuredOutputParser, ResponseSchema
from langchain.prompts import PromptTemplate
# 告诉他我们生成的内容需要哪些字段,每个字段类型式啥
response_schemas = [
ResponseSchema(type="string", name="bad_string", description="This a poorly formatted user input string"),
ResponseSchema(type="string", name="good_string", description="This is your response, a reformatted response")
]
# 初始化解析器
output_parser = StructuredOutputParser.from_response_schemas(response_schemas)
# 生成的格式提示符
format_instructions = output_parser.get_format_instructions()
print(format_instructions)
# 加入至template中
template = """
You will be given a poorly formatted string from a user.
Reformat it and make sure all the words are spelled correctly
{format_instructions}
% USER INPUT:
{user_input}
YOUR RESPONSE:
"""
# 将我们的格式描述嵌入到prompt中去,告诉llm我们需要他输出什么样格式的内容
prompt = PromptTemplate(
input_variables=["user_input"],
partial_variables={"format_instructions": format_instructions},
template=template
)
promptValue = prompt.format(user_input="welcom to califonya!")
print(promptValue)
此时,结构化输出的内容如下:
The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```":
```json
{
"bad_string": string // This a poorly formatted user input string
"good_string": string // This is your response, a reformatted response
}
```
prompt的内容如下:
You will be given a poorly formatted string from a user.
Reformat it and make sure all the words are spelled correctly
The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```":
```json
{
"bad_string": string // This a poorly formatted user input string
"good_string": string // This is your response, a reformatted response
}
```
% USER INPUT:
welcom to califonya!
YOUR RESPONSE:
将上述内容使用LLM进行回复,示例Pyhon代码如下(接上述代码):
from langchain.llms import OpenAI
# set api key
import os
os.environ["OPENAI_API_KEY"] = 'sk-xxx'
llm = OpenAI(model_name="text-davinci-003")
llm_output = llm(promptValue)
print(llm_output)
# 使用解析器进行解析生成的内容
print(output_parser.parse(llm_output))
输出结果如下:
```json
{
"bad_string": "welcom to califonya!",
"good_string": "Welcome to California!"
}
```
{'bad_string': 'welcom to califonya!', 'good_string': 'Welcome to California!'}
可以看到,大模型的输出结果正是我们所要求的JSON格式,且字段和数据类型、输出结果付出预期。
结构化抽取
??有了上述的结构化输出,我们尝试对文本进行结构化抽取,并使得抽取结果按JSON格式输出。示例代码如下:
# -*- coding: utf-8 -*-
from langchain.output_parsers import StructuredOutputParser, ResponseSchema
from langchain.prompts import PromptTemplate
from langchain.llms import OpenAI
# set api key
import os
os.environ["OPENAI_API_KEY"] = 'sk-xxx'
llm = OpenAI(model_name="gpt-3.5-turbo")
# 告诉他我们生成的内容需要哪些字段,每个字段类型式啥
response_schemas = [
ResponseSchema(type="number", name="number", description="文本中的数字"),
ResponseSchema(type="string", name="people", description="文本中的人物"),
ResponseSchema(type="string", name="place", description="文本中的地点"),
]
# 初始化解析器
output_parser = StructuredOutputParser.from_response_schemas(response_schemas)
# 生成的格式提示符
format_instructions = output_parser.get_format_instructions()
print(format_instructions)
template = """
给定下面的文本,找出特定的结构化信息。
{format_instructions}
% USER INPUT:
{user_input}
YOUR RESPONSE:
"""
# prompt
prompt = PromptTemplate(
input_variables=["user_input"],
partial_variables={"format_instructions": format_instructions},
template=template
)
promptValue = prompt.format(user_input="张晓明今天在香港坐了2趟地铁。")
print(promptValue)
llm_output = llm(promptValue)
print(llm_output)
# 使用解析器进行解析生成的内容
print(output_parser.parse(llm_output))
在这个例子中,我们要求从输入文本中抽取出number、people、place字段,数据类型分别为number、string、string,抽取要求为文本中的数字、人物、地点。注意,ResponseSchema中的数据类型(type)与JSON数据类型一致。
??对两个样例文本进行抽取,抽取结果如下:
输入:张晓明今天在香港坐了2趟地铁。
抽取结果:{'number': 2, 'people': '张晓明', 'place': '香港'}
输入:昨天B站14周年的分享会上,B站CEO陈睿对这个指标做了官方的定义,用户观看视频所花费的时间,也就是播放分钟数。
抽取结果:{'number': 14, 'people': '陈睿', 'place': 'B站'
抽取的结果大多符合预期,除了第二句中将B站识别为地点,不太合理。当然,我们写的prompt过于简单,读者可以尝试更多更好的prompt的描述方式,这样也许能提升抽取的效果。
结构化抽取进阶
??在这个例子中,我们使用结构化输出,来实现NLP中的常见任务:命名实体识别(NER),我们需要从文本中抽取出其中的时间、人物、地点、组织机构等,并以JSON格式输出,每个字段都以列表形式呈现。
??实现的Python代码如下:
# -*- coding: utf-8 -*-
from langchain.output_parsers import StructuredOutputParser, ResponseSchema
from langchain.prompts import PromptTemplate
from langchain.llms import OpenAI
# set api key
import os
os.environ["OPENAI_API_KEY"] = 'sk-xxx'
llm = OpenAI(model_name="gpt-3.5-turbo")
# 告诉他我们生成的内容需要哪些字段,每个字段类型式啥
response_schemas = [
ResponseSchema(type="array", name="time", description="文本中的日期时间列表"),
ResponseSchema(type="array", name="people", description="文本中的人物列表"),
ResponseSchema(type="array", name="place", description="文本中的地点列表"),
ResponseSchema(type="array", name="org", description="文本中的组织机构列表"),
]
# 初始化解析器
output_parser = StructuredOutputParser.from_response_schemas(response_schemas)
# 生成的格式提示符
format_instructions = output_parser.get_format_instructions()
print(format_instructions)
template = """
给定下面的文本,找出特定的实体信息,并以结构化数据格式返回。
{format_instructions}
% USER INPUT:
{user_input}
YOUR RESPONSE:
"""
# prompt
prompt = PromptTemplate(
input_variables=["user_input"],
partial_variables={"format_instructions": format_instructions},
template=template
)
promptValue = prompt.format(user_input="6月26日,广汽集团在科技日上首次公开展示飞行汽车项目,飞行汽车GOVE完成全球首飞。广汽研究院院长吴坚表示,GOVE可以垂直起降,并搭载双备份多旋翼飞行系统,保障飞行安全。")
print(promptValue)
llm_output = llm(promptValue)
print(llm_output)
# 使用解析器进行解析生成的内容
print(output_parser.parse(llm_output))
我们在三个示例文本中进行实验,看看大模型在NER方面的表现:
输入:6月26日周一,乌克兰总统泽连斯基视察了乌克兰军队东线司令部总部,而就在几小时前,俄罗斯宣布控制该国东部顿涅茨克以南的利夫诺波尔。
抽取结果:{'time': ['6月26日周一'], 'people': ['泽连斯基'], 'place': ['乌克兰军队东线司令部总部', '顿涅茨克', '利夫诺波尔'], 'org': ['乌克兰总统', '俄罗斯']
输入:日前,马自达找来梁家辉代言汽车,引发了业内的热议。相信很多人对于马自达的品牌认知来自梁家辉的那部电影。
抽取结果:{'time': [], 'people': ['梁家辉'], 'place': [], 'org': ['马自达']
输入:6月26日,广汽集团在科技日上首次公开展示飞行汽车项目,飞行汽车GOVE完成全球首飞。广汽研究院院长吴坚表示,GOVE可以垂直起降,并搭载双备份多旋翼飞行系统,保障飞行安全。
抽取结果:{'time': ['6月26日'], 'people': ['吴坚'], 'place': [], 'org': ['广汽集团', '广汽研究院']
可以看到,在经过简单的prompt和结构化输出后,大模型的抽取结果大致上令人满意。
总结
??本文主要介绍了LangChain的结构化输出,这在我们需要对模型输出结果进行结构化解析时较为有用,同时,我们也能接住结构化输出完成一些常见的NLP的任务,如NER等。
参考文献
- LangChain 中文入门教程: https://liaokong.gitbook.io/llm-kai-fa-jiao-cheng/
- Structured output parser: https://python.langchain.com/docs/modules/model_io/output_parsers/structured
- 上一篇:Java-WEB考点
- 下一篇:掌握Python技巧,编程效率翻倍!
相关推荐
- 【互联网那些事】高效开发Android App的10个建议
-
假如要GooglePlay上做一个最失败的案例,那最好的秘诀就是界面奇慢无比、耗电、耗内存。接下来就会得到用户的消极评论,最后名声也就臭了。即使你的应用设计精良、创意无限也没用。 耗电或者内存...
- 手机APP开发方式有哪些? 手机app的开发模式有哪三种?
-
微信小程序开发定制_软件开发_APP开发_网站制作-优软软件开发...
- Android开发入门(一):Android系统简介
-
Android系统是Google公司在2008年推出的一款智能移动设备操作系统,通过不断地版本迭代,目前已经推出到Android11版本了。Android系统广泛应用在手机、平板、电视等各种电子设...
- 物联网app开发流程 物联网app开发工具
-
现在随着科技的发展,很多产品都想用一个手机app去显示他的参数数据或者通过手机app去控制它。但是很多人不知道他的流程。今天我就来说下物联网app开发流程。首先需要把物联网app开发流程分2个步骤,一...
- Android开发进阶 | 如何学习 Android Framework?
-
大部分有“如何学习Framework源码”这个疑问的,应该大都是应用层开发。应用层是被Framework层调用执行的,知道自己的代码是怎么被调用的,才能理解程序的本质,理解本质有助于解决遇到的...
- 快速实现APP混合开发(Hybrid App开发)攻略
-
前言:...
- 三个阶段带你了解一款app开发的完整流程
-
第一个阶段需求阶段:1.需求讨论--开发类型、开发平台、具体的产品功能需求、项目预计完成时间、预算2.需求评估--确认合作后评估具体的预算3.界面设计--设计部门进行产品界面设计,形成效果图...
- Android 开发中文引导-应用小部件
-
应用小部件是可以嵌入其它应用(例如主屏幕)并收到定期更新的微型应用视图。这些视图在用户界面中被叫做小部件,并可以用应用小部件提供者发布。可以容纳其他应用部件的应用组件叫做应用部件的宿主(1)。下面的截...
- 手机软件开发从零开始【Android第2篇Hello】
-
Hello,朋友们我们又见面了。上一篇我们讲到了《Android开发环境搭建【Android基础第1篇】》,错过的朋友可以点击文章末尾的“阅读原文”查看。另外需要下载JDK和ADT-bundle工具的...
- 「全栈工程师之梦的开始--安卓开发(二)」开发安卓app
-
在配置好jdk开发环境、安装好开发工具Androidstudio后,我们就可以开始开发安卓app了。首先,我们需要先了解下android的术语。...
- 二、Android界面开发 android 开发
-
学习目标了解Android常用布局了解Android常用控件...
- 如何开发一款APP既快捷也简便 开发一款app的步骤
-
具体较为简单的步骤可以选择用androidstudio开发app1、打开软件,在菜单中选择file-》newproject打开创建向导。2、配置项目,确定各个名称和存放项目的存放路径;Applic...
- 安卓开发中的“Android高手”,需要具备哪些技术?
-
前言成为一名安卓开发者很容易,但是要成为一名“Android高手”却不那么容易;...
- 移动开发(一):使用.NET MAUI开发第一个安卓APP
-
对于工作多年的C#程序员来说,近来想尝试开发一款安卓APP,考虑了很久最终选择使用.NETMAUI这个微软官方的框架来尝试体验开发安卓APP,毕竟是使用VisualStudio开发工具,使用起来也...
- 微软推出PowerApps:零基础开发Win10/iOS/安卓企业应用
-
IT之家讯微软今天面向企业宣布了全新的应用开发解决方案PowerApps,让Windows(包括Win10)、iOS以及安卓应用的开发和分发变得更加简单。PowerApps的用户界面与Office办...
- 一周热门
- 最近发表
- 标签列表
-
- grid 设置 (58)
- 移位运算 (48)
- not specified (45)
- patch补丁 (31)
- 导航栏 (58)
- context xml (46)
- scroll (43)
- element style (30)
- dedecms模版 (53)
- vs打不开 (29)
- nmap (30)
- c 视频教程下载 (33)
- paddleocr (28)
- listview排序 (33)
- firebug 使用 (31)
- transactionmanager (30)
- characterencodingfilter (33)
- getmonth (34)
- commandtimeout (30)
- hibernate教程 (31)
- label换行 (33)
- curlpost (31)
- android studio 3 0 (34)
- android开发视频 (30)
- android应用开发 (31)