天天看点:如何用低代码搭建训练一个专业知识库问答GPT机器人
距离上篇文章《低代码xChatGPT,五步搭建AI聊天机器人》已经过去3个多月,收到了很多小伙伴的关注和反馈,也帮助很多朋友快速低成本搭建了ChatGPT聊天应用,未曾想这一段时间GPT热度只增不减,加上最近国内外各种LLM、文生图多模态模型密集发布,开发者们也有了更高的要求。比如如何训练一个自己的GPT应用,如何结合GPT和所在的专业领域知识来搭建AI应用,像心理咨询助手、个人知识库助手等,看目前网上这方面资料还不多,今天我们就来抛个砖试试。
【资料图】
目前的预训练方式主要如下几种:
基于OpenAI的官方LLM模型,进行fine-tune(费用高,耗时长)基于开源的Alpaca.cpp本地模型(目前可在本地消费级显卡跑起来,对自己硬件有信心也可以试试)通过向量数据库上下文关联(轻量级,费用可控,速度快,包括昨天OPENAI官方昨天刚放出来的示例插件chatgpt-retrieval-plugin,也采用的这种方式)低代码实现的AI问答机器人效果如下:
这次还是用腾讯云微搭低代码作为应用搭建平台,来介绍如何快速搭建一个垂直领域的知识库GPT问答机器人,今天的教程尽量避开了各种黑科技的封装库(没有Langchain/Supabase/PineconeSDK全家桶),尝试从最基本的实现原理来展开介绍,尽量让大家知其所以然。新手开发者也可以试试,与其看各种GPT热闹,不如Make your hands dirty
一、准备工作
在开始搭建垂直知识库的问答机器人前,你需要做以下准备:
微信小程序账号:如果您还没有微信小程序账号,可以在微信公众平台注册(如果没有小程序,也可以发布为移动端H5应用)开通腾讯云微搭低代码:微搭低代码是腾讯云官方推出的一款低代码开发工具,可以直接访问腾讯云微搭官网免费开通注册OpenAI账号:OpenAI账号注册也是免费的,不过OpenAI有地域限制,网上方法很多在此不赘述。注册成功后,可以登录OpenAI的个人中心来获取API KEY
一个支持向量匹配的数据库(本文以开源的PostgreSQL
为例,你也可以使用Redis
,或者NPM的HNSWlib
包)关于向量数据库,目前可选择的方式有好几种,可以使用PostgreSQL安装vector向量扩展,也可以使用Redis的Vector Similarity Search,还可以直接云函数使用HNSWLib库,甚至自行diy一个简单的基于文件系统的余弦相似度向量数据库,文末的 github/lowcode.ai也有简单示例代码,仅做参考交流不建议在生产环境使用。
本教程适用人群和应用类型:
适用人群:有前后端基础的开发者(有一定技术背景的非开发者也可以体验)应用类型:小程序 或 H5应用(基于微搭一码多端特性,可以发布为Web应用,点击原文链接可体验作者基于微搭搭建的文档GPT机器人)二、搭建聊天机器人界面
如何使用低代码进行界面搭建的详细过程,在之前的文章中《低代码xChatGPT,五步搭建AI聊天机器人》已经有过详细的教程介绍,这里就不再继续展开。
另外,大家也可以使用微搭官方的聊天模板,这样的话界面这一步直接跳过,开箱即用,附微搭低代码GPT聊天应用模板地址
完成界面配置之后,大家重点关注下图中页面设计模块的”发送“按钮的事件配置即可,在后续会提到。
三、配置后端逻辑
与之前机器人的实现直接调用远程API不同,这次由于需要针对专业的领域知识进行预处理以及向量化,重点会涉及3个部分:
读取待训练的文档数据并进行向量化,之后存入向量数据库通过query的向量化结果与数据库向量进行相似度匹配,并返回关联文本结果结合返回的关联文本和query来构建上下文生成prompt
可以通过下图了解向量搜索实现GPT Context的大致原理:
由上图可见,主要是两个处理流程,一个文档数据的向量化预处理,一个是查询时的向量匹配和Context构造处理,这两个处理我们都可以使用腾讯云低代码的云函数来实现(当然第一步的预处理也可以在本地电脑完成)
1. 将知识库文档数据向量化
首先,将所需要的预处理的知识库内容放在某个目录下,遍历知识库目录下的所有文档文件(本文文件格式以markdown
为例),将文本分块后结构化存储在本地json文件。
如果数据量小,分块后的结构化数据也可以直接放在内存中,本地化json主要便于在大量文本预处理时,遇到网络等异常时,能够在断点处重启预处理
关键代码如下:
本教程涉及的完整代码已放到https://github.com/enimo/lowcode.ai中,可按需下载试验,也可直接上传到微搭低代码的云函数中运行)
function splitDocuments(files, chunkSize) {let docSize = chunkSize || 1000;let textString = "";let index = 0;let documents = [];for(let i = 0, len = files.length; i < len; i++) {if(files[i] && files[i].content) {textString = files[i].content;}else {textString = fs.readFileSync(files[i], "utf8");}textString = textString.replace(/\n|\r/g, " ").replace(/<.*?>/g,"") let start = 0; while (start < textString.length) { const end = start + docSize; const chunk = textString.slice(start, end); documents.push({ docIndex: index++, fileIndex: files[i].fileIndex, filename: files[i].filename || files[i], content: chunk }); start = end;} } fs.writeFileSync("./docstore.json", JSON.stringify(documents)); return documents;}
上述代码用途主要是在得到遍历后的文件路径数组files
后,对文件进行切块处理,分块大小可按需调整,一般建议在1000~2000之间(切换主要为兼容GPT API的单次token限制及成本控制)
其次,对分块的文本进行向量化并存入向量数据库,关键代码如下:
async function initVector(sql, docs){ const maxElements = docs.length || 500; // 最多处理500个 for (let j = 0; j < maxElements; j++ ) { const input = docs[j].content; const filename = docs[j].filename; const fileIndex = docs[j].fileIndex const docIndex = docs[j].docIndex // 通过根据训练日志返回断点docIndex,调整 docIndex 的值,确保从断点继续向量化 if(docIndex >= 0 && docIndex < 1000 ){ log("start embedding fileIndex: ", fileIndex, "docIndex: ", docIndex, "filename:", filename); const embedding = await embedding(input); const embeddingArr = "[" + embedding + "]"; const metadata = { filename, "doclength": maxElements, index: j }; const insertRet = await sql` INSERT INTO documents ( content, appcode, metadata, embedding ) VALUES ( ${input}, "wedadoc", ${metadata}, ${embeddingArr} )` await delay(1000); // 如果embedding API并发请求限制,可设置随机数sleep } else { continue; } } return true;}
上述文本向量化的存储过程中,涉及到调用OpenAI的embedding
模型进行向量转化,这里使用text-embedding-ada-002
模型(这个文本向量化过程也可以不使用OpenAI的官方模型,有部分开源模型可代替)
async function embedding (text) { const raw_text = text.replace(/\n|\r/g, " "); const embeddingResponse = await fetch( OPENAI_URL + "/v1/embeddings", { method: "POST", headers: { "Authorization": `Bearer ${OPENAI_API_KEY}`, "Content-Type": "application/json" }, body: JSON.stringify({ input: raw_text, model: "text-embedding-ada-002" }) } ); const embeddingData = await embeddingResponse.json(); const [{ embedding }] = embeddingData.data; log({embedding}); return embedding;}
以上,一个文档知识库的向量化预处理就基本完成了,接下来看看怎么实现基于query的搜索逻辑。
2. 实现query的向量化搜索
我们在上一步中已经完成了文本数据的向量化存储。接下来,可以基于用户提交的query来进行相似度搜索,关键代码如下:
async function searchKnn(question, k, sql){ const embedding = await embedding(question); const embeddingArr = "[" + embedding + "]"; const result = await sql`SELECT * FROM match_documents(${embeddingArr},"wedadoc", 0.1, ${k})` return result;}
上述代码将query同样转化为向量后,再去上一步向量化后的数据库中进行相似搜索,得到最终与query最匹配的上下文,其中有一个预定义的SQL函数match_documents
,主要用作文本向量的匹配搜索,具体会在后面介绍,在 github/lowcode.ai中也有详细的定义和说明。
最后,我们工具拿到的搜索返回值,来构造GPT 3.5接口的prompt上下文,关键代码如下:
async function getChatGPT (query, documents){ let contextText = ""; if (documents) { for (let i = 0; i < documents.length; i++) { const document = documents[i]; const content = document.content; const url = encodeURI(document.metadata["filename"]); contextText += `${content.trim()}\n SOURCE: ${url}\n---\n`; } } const systemContent = `You are a helpful assistant. When given CONTEXT you answer questions using only that information,and you always format your output in markdown. `; const userMessage = `CONTEXT: ${contextText} USER QUESTION: ${query}`; const messages = [ { role: "system", content: systemContent }, { role: "user", content: userMessage } ]; const chatResponse = await fetch( OPENAI_URL + "/v1/chat/completions", { method: "POST", headers: { "Authorization": `Bearer ${OPENAI_API_KEY}`, "Content-Type": "application/json" }, body: JSON.stringify({ "model": "gpt-3.5-turbo", "messages": messages, "temperature": 0.3, "max_tokens": 2000, }) } ); return await chatResponse.json();}
上述代码中核心是上下文的构造,由于GPT3.5之后的接口,支持指定role,可以将相关系统角色的prompt放在了systemContent
中,至于/v1/chat/completions
接口入参说明由于之前的文章中有过介绍,这里也不赘述,有任何疑问大家也可以到「漫话开发者」公众号留言询问。
以上,query的搜索部分完成了,到此所有后端接口的核心逻辑也都完成了,可以看到几个关键流程的实现是不是很简单呢。
3. 将所涉及代码部署到微搭低代码的云函数中
完成后端代码开发后,接下来就是把相应的运行代码部署到微搭低代码的云函数中,综上可知,主要是两部分的后端代码,一部分文档的向量化并入库(这部分本地Node环境运行亦可),另一部分就是实现搜索词匹配构建prompt后调用GPT接口查询了。
微搭低代码的云函数入口,可以在数据源->APIs->云函数
中找到,如下图所示:
如果第一次使用云函数,需要点击图中链接跳转到云开发云函数中进行云函数的新建,如下图所示:
新建完成后,点击进入云函数详情页,选择”函数代码“Tab,然后在下面的提交方法下拉框中选择”本地上传ZIP包“即可上传前面完成的后端逻辑代码,也可以直接下载 github/lowcode.ai打包后上传。上传成功后,第一次保存别忘了点击”保存并安装依赖“来安装对应的npm包。
在完成云函数新建和代码上传后,回到上一步的微搭数据源APIs界面中刷新页面,即可看到刚刚新建好的云函数openai,选中该云函数,并按要求正确填写对应的出入参结构,测试方法效果并保存后,即可在第一章的前端界面”发送“按钮中绑定调用数据源事件进行调用了。
4. 完成开发联调,发布应用
完成上述后端逻辑以及云函数配置后,可以切到编辑器的页面设计模块,回到第一章的界面设计来进行事件的配置,完成后点击编辑器右上角的“发布”按钮,可以选择发布到你已绑定的小程序,也可以直接发布Web端H5/PC应用。
至此,一个垂直知识库的AI问答机器人应用基本就搭建完成了。
四、附录说明
1 数据库PostgreSQL的初始化
本文中采用的PostgreSQL作为向量数据库,其中涉及到的建表结构定义参考如下:
create table documents ( id bigserial primary key, content text, -- corresponds to Document.pageContent metadata json, -- corresponds to Document.metadata embedding vector(1536) -- 1536 works for OpenAI embeddings, change if needed);
涉及的SQL函数match_documents
的定义参考如下,其中query_embedding
表示query关键词的向量值,similarity_threshold
表示相似度,一般情况下要求不低于0.1
,数值越低相似度也越低,match_count
表示匹配后的返回条数,一般情况下2条左右,取决于前文的分块chunk
定义大小。
create or replace function match_documents ( query_embedding vector(1536), similarity_threshold float, match_count int)returns table ( id bigint, content text, metadata json, similarity float)language plpgsqlas $$begin return query select documents.id, documents.content, documents.metadata, 1 - (documents.embedding <=> query_embedding) as similarity from documents where 1 - (documents.embedding <=> query_embedding) > similarity_threshold order by documents.embedding <=> query_embedding limit match_count;end;$$;
所有上述的内容数据库SQL schema
以及部分训练备用文本数据都已经放到github,大家可以关注定期更新,按需采用: github/lowcode.ai
2 体验试用
可以通过Web端体验作者搭建的Web版文档机器人,同时得益于微搭低代码的一码多端,同步发布了一个小程序版本,大家可以扫码体验。
由于目前自建向量库的性能局限以及有限的预处理文档数据,响应可能比较慢,准确性偶尔也会差强人意,还请各位看官谅解,抽时间再持续优化了,本文还是以技术方案的探讨交流为主。
3 最后
通过本教程的介绍,你已经基本熟悉了如何使用微搭低代码快速搭建垂直知识库的AI问答机器人了,有任何疑问可以关注「漫话开发者」公众号留言。
用低代码创建一个GPT的聊天应用很简单,实现一个垂直领域的AI问答应用也不难。未来不管被AI替代也好,新的开发者时代来了,先动手试试,make your hands dirty first, enjoy~
标签:
推荐
- 天天看点:如何用低代码搭建训练一个专业知识库问答GPT机器人
- 环球最资讯丨内乡县交通执法大队:多措并举助力农村人居环境整治
- 腾讯高级执行副总裁汤道生:腾讯正研发类ChatGPT聊天机器人 ;_全球资讯
- 【全球聚看点】腾讯文档崩了,云端的文档无法正常打开和查看
- 优酷CTO郑勇:现在拍影视作品车戏效率提升了70%
- 焦点观察:厦金小三通船票订票须知
- 全球微资讯!2023天津清明公交扫墓专线最新消息
- 《大侠立志传》加入叶家军方法[多图]
- 热门:机票燃油附加费2023年以来第二次下调
- 合生创展集团:2022年股权持有人应占溢利为87.62亿港元_当前速读
- 深化合作,共谋发展!LGES高度评价杉杉负极 携手共赴全球化|全球热头条
- 油价跌幅不断压缩,汽柴油价格降至0.3元/升内,明晚出调价结果_环球速递
- 每日聚焦:人民银行:实现碳达峰、碳中和需要“胡萝卜加大棒”
- 世界观察:广西东兴市不断深化县域基层团组织改革
- 寿康集团发年度业绩:亏损3643万美元 同比扩大189% 全球新消息
- 5种最让人反感的教育方式,最后一种很多家长都爱做,你遇到过吗 全球速递
- 全球消息!苹果WWDC大会定档6月6日:iOS 17无悬念、MR头显最受期待
- 常州大学城着火_常州大学城 世界实时
- 斯巴鲁保养费用价格表_斯巴鲁森林人保养费用多少 快报
- 加拿大怎么了?丨加原住民:种族教育的洗脑与艰难的破圈|每日关注
- 银保监会:消金公司累计向新市民发放消费贷款超1600亿
- 2300多人奋战315分钟干一件大事!广汕铁路新塘站城际场启用 环球速递
- 荣盛石化涨停 机构净卖出1.66亿元
- 世界时讯:双向台本【古人曰:也是一门玄学】
- 铃木ミント作品封面_铃木ミント|环球讯息
- 磨憨边检站与老方举行中老铁路跨境客运开通前工作会谈
- ipad怎么连接wifi(苹果ipad怎么连接wifi)|天天热讯
- 当前快播:隆安县开展节水科普宣传进校园活动
- 5G创新要到6G时代才能看到成效?听邬贺铨怎么说 每日焦点
- 弘信电子:参股子公司新华海通已获取部分军工产品研发打样及量产订单机会 每日快看
- 天天新资讯:教育公益的县域生态探索:让优质资源无损送达、在地生长
- 还用什么迅雷!这工具下载速度直飙40MB/s,拉满宽带
- 【世界速看料】中山官宣,深中城际开展现场踏勘调研!最新线路方案曝光
- 工业自动化仪器仪表设备供应商|上海倍西实业集团有限公司与您相约2023 SMM (第八届)中国国际新能源大会暨产业博览会-环球速读
- 【环球报资讯】易瑞生物:3月28日融券卖出金额18.16万元,占当日流出金额的0.61%
- 每日速讯:拔丝熬糖浆的方法(拔丝熬糖浆的方法有哪些)
- ipz 851 每日看点
- 溺水自救方法文字(溺水自救方法)
- 首届福建省中医药文化书法作品展开幕-环球新资讯
- 【全球报资讯】2023年3月28日铁矿石(澳)价格最新行情预测
- 今热点:密尔克卫:拟3000万元-5000万元回购股份
- 最新:姚安县:党的二十大精神巡回宣讲有声有色
- 环球热点评!Cega获得500万美元战略投资
- 确成股份:2022年净利3.84亿元 同比增长28.09%
- 东南亚出游降温:机票降幅达40% 每日速递
- 每日热点:去泰安徂汶景区露营 走近青山绿水、湖光山色
- 全球快看点丨连接52.9万所学校,面向1844万教师、2.91亿学生和广大社会学习者
- 多利科技3月28日盘中涨幅达5%
- 天山铝业:3月27日融资买入2833.31万元,融资融券余额2.41亿元-每日看点
- 富吉瑞:3月27日融资买入87.44万元,融资融券余额1599.93万元 环球视点
- 刘邦的老婆是谁_刘邦的老婆
- 度假村扩张 复星旅文服务待考
- 世界观天下!与狐仙有关的电视剧_与狐仙有关的电视有哪些
- 杀人诛心,韩国球迷凭什么羞辱国足,韩媒凭啥说国足海外丢人现眼 世界要闻
- 斯科皮最后和谁结婚了_斯科皮
- 当前报道:走访调研出实效 互学互鉴促发展
- 天天热议:法本信息(300925.SZ):监事徐纯印完成减持21.675万股
- 最新:普宁嵌瓷_对于普宁嵌瓷简单介绍
- 五一旅游趋势:出境产品丰富 价格上涨压力大|天天日报
- 国内需求超出市场预期,光伏ETF基金(516290)目前涨近1.5%|今头条
- 当前观察:【清明·山西】3.31-4.2 | 重走梁林路之五台、太原
- 焦点关注:开放的中国值得信任
- OpenAI “宫斗”史
- 主板注册制新股开启申购 投资者打新须适应新规则
- 黄冈市2月汽车销量数据发布 秦PLUS排名第一(2023年)
- 古代女性粉底原料是什么(古代女性用什么做粉底原料) 信息
- 环球聚焦:国家队历史出场榜:C罗197场居首,拉莫斯第6&布冯第10
- 全球观点:比永博谈发挥出色:就是相信自己的直觉 很高兴球队能够赢球
- 鲑鱼降钙素喷鼻剂28喷_鲑鱼降钙素喷鼻剂
- 消费潜力加速释放 “世界超市”义乌快递量大幅增长
- 王滨街道_关于王滨街道介绍-全球速读
- 重返前六!篮网逆转结束5连败,东部最大悬念:谁将直通季后赛
- 热讯:重阳节所要表达的意思是什么
- 天天视讯!74岁剑南春董事长乔天明被罚4亿,营收百亿早已掉队
- 厨房员工转正后的工作计划(优选34篇)_环球播资讯
- 长春市第一届运动会青少年组冰球比赛开赛
- 淘女郎是做什么的
- 银河电子03月24日获深股通增持20.5万股
- 听懂已是曲中人文案_听懂网_世界快播报
- Windows OpenGL ES 图像 GPUImageAmatorkaFilter_报资讯
- 世界信息:国王排名漫画在哪里免费看
- 雪佛龙3月运往美国的委内瑞拉原油量同比大增近49%|世界速读
- 全球即时:广西风彩园林景观工程有限公司
- 今日热门!理想L8的挑战者 魏牌蓝山能否力挽狂澜?
- 焦点关注:陈寅恪简介
- 呈贡区市场监督管理局开展2023年春季校园食品安全培训
- 世界观点:酷游网游交易平台_qq幻想世界交易平台
- 环球播报:增加普惠性学前教育资源和完善普惠保障机制
- 天天速读:男子为送儿子就医醉驾,交警:先救人后处罚!
- 天天微动态丨江苏盐城:普法宣传进基层
- 云南省领导率队调研龙佰集团云南基地 环球今头条
- 10.25是什么日子,为什么拉警报|环球通讯
- 开售!“五一”购票日历来了 焦点关注
- 吉林省2023年度食品销售环节监督检查计划
- 全球最新:玩家搜集信息拼凑《GTA6》地图:比洛圣都要大3倍
- Mensarjor水槽是小米的超智能水槽
- 利尿消水肿的药_消除水肿的最快方法
- 世界今头条!呼和浩特市“十四五”节能减排综合工作实施方案
- 系统时间怎么调
- 江郎山风景名胜区的天气_江郎山风景名胜区
X 关闭
行业规章
X 关闭