热点资讯

你的位置:北京官方快三 > 新闻动态 > 手把手教你用 DeepSeek 搭建个人知识库:打造你的第二大脑

手把手教你用 DeepSeek 搭建个人知识库:打造你的第二大脑


发布日期:2025-03-07 15:40    点击次数:173


春节这几天,大家估计都被 DeepSeek 的消息轰炸过几轮了吧?刚上手时确实惊艳,但新鲜劲儿过去之后,很多人都发现,这个 DeepSeek 厉害归厉害,可是和以前的那些 AI 大语言模型一样,还是很难直接用来帮自己的工作提效减负。

我们总听说,现在的 AI,已经是一个名校毕业实习生的智力水平和知识水平了,而实际上,完成大部分普通人工作里最耗时、最令人烦躁的部分,往往并不需要这么高的能力,很多事情夸张点说简直“来条狗都能干”,那为什么我们还是不能顺利的把这部分工作甩给 AI 呢?

原因并不复杂,有工作经验的人都能想明白,能力再强的人,刚到一个新岗位,也很难立刻把活儿干好。比如你招了个助理,让他给你写一份年终工作总结,哪怕他文笔特好,也照样需要你给他讲讲,过去一年你都干了些什么事,或者找出所有相关的材料给他参考,如果什么都不给就让它硬写,只能得到一篇词藻也许华丽,但内容肯定空洞无物的垃圾。

AI 也是这样,即使看起来简单的工作,也常常做不好,最关键的原因就是:它不知道那些不属于公共领域,但又与你工作息息相关的信息,比如公司内部的规定或流程、某个项目的背景信息和材料、或者是你解决某个问题后所作的总结或记录等等。

你刚毕业开始工作的时候,也不知道这些信息,你慢慢积累工作经验的过程,其实也就是收集、整理这些信息的过程。如果 AI 能够得到这些信息,那它在处理难度不大的基础工作时,理论上就能做到和你一样好,甚至更好。至少可以比你更快,而且重复再多次也不嫌烦。

回到正题,所谓“搭建个人知识库”,就是目前把这些信息整理好交给 AI 的最好方式。做这件事的目的,是让 AI 可以帮我们分担一些实际工作。注意:这里说的 AI,本篇教程是以 DeepSeek 的 R1 为例,实际上你可以替换成任何足够强大的大语言模型。

另外,搭建的过程看起来可能有点繁琐,但实际上我只用了不到十分钟,还是挺简单的。而且搭建好之后只需要记得维护好这个知识库,在日常工作中,根据需要对它添砖加瓦就行。平时要用的时候,可以直接向 AI 下指令,它会在整个知识库内找到相关信息后再进行处理,还能在最终生成内容里给出引用来源。既可以大幅降低“幻觉”的出现,又减少你必须亲自在大堆资料里翻找的次数,应该能切实提高一些工作效率。

下面开始具体的搭建流程:

一、前言

搭建知识库的方案有很多种,本文提供两个方案,是我综合评估后,认为对个人用户最合适,对中文内容支持效果也最好的。

后面我会简单分析这两个方案各自的优劣,你可以选择其一来用,也可以两个方案同时使用,互不冲突。

开始搭建之前,需要完成以下准备事项:

不管选方案一还是二,都需要首先获取 DeepSeek R1 的 API 接口(免费);

如果选择方案一:下载安装 CherryStudio(免费);

如果选择方案二:下载安装 Obsidian(免费)。

以上准备事项具体如何操作,继续往下看。

二、准备 DeepSeek 的 API 接口

注意: 这一步在手机、iPad或电脑上都可以操作。

复制下面的链接到浏览器里打开:

https://cloud.siliconflow.cn/i/79Lz60jX

或者直接识别下面的二维码:

在打开的“硅基流动”的网站上填写手机号、验证码注册:

图片

在左侧的“账户管理”里找到“API密钥”:

图片

点击“新建API密钥”:

图片

API密钥就是用来调用 DeepSeek 接口的密码,因为可以创建多个 API 密钥,所以在“密钥描述”里起个好记的名称,会更方便以后能记住每个密钥分别是用在哪里的。你可以用“个人知识库”,也可以起个别的名字,或者不写也可以。

然后点击“新建密钥”:

图片

用鼠标在这行密钥上点击一下,就会自动复制下来,拿到这个密钥,DeepSeek 的 API 接口就算准备好了,你可以把它保存在安全的地方,稍后配置时还需要使用。

图片

三、方案一

这个方案需要在电脑上操作,首先在浏览器打开这个网址,点击“下载客户端”:

https://cherry-ai.com/

图片

根据自己的操作系统下载对应版本的 Cherry Studio:

图片

下载安装后,启动 Cherry Studio。

你会发现这就是一个比较常见的 AI 客户端的界面,和很多网页版的 AI 服务用法差不多,都是可以在对话框里与 AI 聊天(给它下达指令),但区别是网页版的 AI 不管免费还是付费,一般打开就能直接用,而下载到本地的客户端通常需要输入你自己的 API 密钥(API Token),然后才能使用。

我们现在首先要把刚才准备好的 API 密钥填进去,点击左下角的齿轮图标进行设置:

图片

可以看到,Cherry Studio 支持很多 AI 大语言模型,其中就包括我们刚才注册的“硅基流动”,在右侧“硅基流动”的“API 密钥”中粘贴刚才得到的 API 密钥,然后点击右边的“检查”,这里检查的目的是测试一下我们填入的 API 密钥是否是有效、可用的密钥。

图片

点击“检查”后,会弹出一个对话框让你选择想要检查哪个模型,因为我们之后会想使用 DeepSeek 的比较厉害的支持推理的模型 R1,所以这里选择下列列表里的“deepseek-ai/DeepSeek-R1”,然后点击“确定”。

图片

然后可能很快,也可能需要等待挺长时间后,看到界面上提示“连接成功”,并且一直在转圈圈的“检查“按钮变成一个绿色的对号,就说明检查已经成功完成,可以正常使用了。

图片

下面,就可以开始配置知识库了。首先点击最右侧的知识库(那个放大镜 + 文档的图标):

图片

我们现在还没有知识库,点击“+添加”先创建一个:

图片

建议可以先添加一个用来测试的知识库,试试怎么用,弄明白之后就可以把这个测试的知识库删除,再创建正式的来使用。所以我这里填写的名称是“知识库-测试用”。

图片

这里还有一个需要选择的东西叫做“嵌入模型”,你可能暂时还不太理解是什么意思,我们稍微介绍几句,如果你想先把流程跑通,也可以跳过这些介绍,不会影响后面的操作。

这是一段关于“嵌入模型”的简要介绍(着急的话,可以先略过):

所谓的“嵌入模型”,不同于专门用来和我们对话,帮我们生成内容的模型(比如DeepSeek R1),而是专门用来处理“嵌入”这个流程的模型。那“嵌入”又是什么呢?暂时可以简单理解为帮我们做了这样一件事:把我们要放入知识库的内容进行一番处理后存入数据库,目的是可以让我们用更接近“语义搜索”的方式来对这些内容进行查找。

举个例子:一般情况下,我们的搜索都是基于“关键字”的对吧,比如用户搜索“手机续航太短”,系统中存在的内容必须包括“手机”、“续航”、“短”之类关键字才能被搜索到。假设系统里有一篇内容是关于“电池寿命不足”的,其实和用户搜索目的挺匹配的,但就是无法被找到。

在使用知识库的场景里,我们可能更希望 AI 能够以语义搜索的方式从我们添加到知识库的内容里寻找相关内容,再基于这些内容和我们对话。所以需要选择一个适当的嵌入模型来对添加的内容进行处理,以达到最佳的效果。

Cherry Studio 支持多种嵌入模型,这些模型之间的效果当然是存在差异的,但我们今天的目标是先把知识库的基本架构搭起来,所以暂时先不纠结太多,选择 BAAI/bge-m3 这个嵌入模型即可:

图片

选好嵌入模型后,点击“确定”:

图片

看到下面的界面,知识库就创建好了,我们先不急着添加太多材料进去,先稍微添加一点内容测试一下到底效果是怎样的。Cherry Studio 目前支持用以下 5 种方式向知识库里添加内容:

文件:可以一个一个把需要添加的文件加进去,支持pdf、docx、pptx、xlsx、txt、md等几种常见的格式;

目录:可以直接把存有相关文件的目录加进去,理论上会把这个目录内支持以上格式的文件全都自动加进知识库,听起来挺美好,但我实际测试后,发现不太稳定,目录内的文件比较多的情况下,大概率无法全部被添加,你又不知道哪些已经加进去了,哪些还没加,维护起来比较麻烦。另外还有一个实际使用时需要关注的点:把文件加入知识库这个过程,实际上是需要调用之前设置的“嵌入模型”对这些文件逐一进行所谓的“向量化”处理,这个处理过程在选择某些嵌入模型时是会收费的(我们之前注册的账户会赠送一些免费处理额度,足够我们测试使用了),所以这一步如果选择目录的话,很容易造成费用飙升,我比较建议还是用添加单个文件的方式,只把确定需要的加进知识库。

网址:可以把网址直接添加进来,比如公司官网里相关页面的链接、微信公众号文章链接等,但需要能够公开访问,需要登录后才能访问的不行。

网站:理论上可以通过站点地图(SiteMap)一次性把整个网站的内容全部添加进来,但实际操作我没试过,估计还是不够稳定,而且可能会造成费用过高,建议慎重使用。

笔记:可以直接把需要加入知识库的信息以一条条的笔记形式直接添加进来,如果没有现成的文件的话,这是最简单的方法了。

我们这里先用最简单的方式(笔记)添加一条“知识”进知识库,然后测试一下用法,点击“+ 添加笔记”:

图片

在弹出的文本框中输入以下测试的内容后,点击“保存”:

图片

可以看到,这条笔记已经被添加到知识库里,可以对它进行修改、删除。

如果你想验证一下,可以点击“搜索知识库”:

图片

在文本框中输入下面的问题,然后点击右侧绿色的放大镜图标进行搜索:

图片

经过短暂的搜索过程后,可以看到文本框下方显示出已经在知识库中找到相关内容,右上角的“Score:75.1%”可以理解为问题和知识之间的关联度,这个分数越高关联度就越强。

我们的知识库里目前只有一条内容,所以只找到这一条,如果有很多内容的话,这里可能会搜索到多条内容,并且按照关联度排列,当我们使用 AI 时,被搜索到的内容将会和你提出的问题一并传给 AI,AI 处理后再把最终生成的内容返回给你,这就是所谓“知识库”的工作原理,如果你对此感兴趣,想要更深入的了解,请搜索关键词:“RAG”。

下面我们来测试一下使用知识库和不使用的区别。

点左侧聊天气泡的图标切换到聊天界面,在右侧底部对话框下面的一排图标中,确保“知识库”图标是灰色而不是蓝色,这就是当前对话中没有选择任何知识库的意思:

图片

我们在对话框输入“小明今年几岁?”并发送。

图片

因为这次对话没有选择知识库,所以 AI 不知道小明的生日是哪一天,只能回复我们无法确定小明的具体年龄。

现在试一下选择知识库,先点击上图里3号红色框里的图标,新开一个对话。

先点击文本框下方知识库的图标,在弹出菜单里选择刚才创建的知识库:

图片

注意要确保1号红色框里知识库的图标是蓝色的,代表当前对话已经选择了一个知识库(Cherry Studio 的每个对话只支持选择一个知识库,不可选择多个知识库)。然后在文本框中输入问题:“小明今年几岁?”并发送(这个问题过于简单,我没有选择 DeepSeek 的 R1模型,你可以点击对话界面最上方写着模型名字的地方,随时切换想要在本次对话中使用的模型):

图片

可以看到,因为本次对话选择了知识库,所以 AI 知道小明的生日是2000年1月1日,因此算出小明今年生日是23岁(以2023年而不是2025年为当前年份计算,是因为 Cherry Studio 目前不支持联网搜索,所以只能以 DeepSeek 模型训练截止的时间为当前时间,这个限制我们以后会再想办法解决)。

以上就是基于知识库使用 AI 大语言模型的一个最简单的示例,聪明如你,应该可以看出其中蕴含的可能性,希望你能举一反三,在此基础上搭建出真正对你有用的个人知识库。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报。


下一篇:没有了