Skip to main content

内置能力

汇总介绍 OpsPilot 中的各种内置能力,详细解析其作用。

模型

在这一块内容中,将详细介绍各个模型的类型、功能、应用场景等,帮助用户选用模型。

LLM模型

HuggingFace系列

QwQ(阿里云通义千问推理模型)
  • 核心功能:通过强化学习提升数学、编程和逻辑推理能力,能用 “思考链” 逐步分析问题。
  • 优势
    • 小而强:仅 320 亿参数(约 3.2 亿个 “知识节点”),性能却接近 6700 亿参数的 DeepSeek-R1 模型。
    • 多领域精通:数学题解答、代码生成、复杂逻辑推理(如合同条款分析)都能胜任。
  • 作用
    • 数学推理:能解决复杂的数学问题,例如解答高难度的代数方程、几何证明题等。当你遇到一道复杂的数列推理题,它可以逐步分析推理过程,给出正确答案。
    • 编程辅助:帮助编写代码、调试代码以及对代码进行逻辑优化。如果你在编写一个 Python 程序时遇到逻辑错误,它可以帮你找出问题并提供解决方案。
    • 通用推理:处理各类需要逻辑思考的问题,如合同条款解读、逻辑谜题解答等。

DeepSeek 系列(国产高效模型)

DeepSeek-R1:1.5b
  • 核心功能:专注于代码领域的轻量级大语言模型,支持 Python、Java 等编程语言。
  • 优势
    • 低配置运行:手机或普通电脑(8GB 内存)即可使用,不占资源。
    • 代码生成快:补全代码、生成函数、调试错误,速度比人工快 3-5 倍。
  • 作用
    • 代码生成:根据需求快速生成各种编程语言的代码,如 Python、Java、C++ 等。如果你需要写一个简单的 Web 爬虫程序,它可以快速为你生成相应的 Python 代码。
    • 代码优化:对已有的代码进行优化,提高代码的运行效率和可读性。比如优化一个排序算法的代码,让它在处理大规模数据时速度更快。
    • 代码纠错:检查代码中的语法错误和逻辑错误,并给出修正建议。

OpenAI 系列(全球领先的通用模型)

1. GPT-3.5-Turbo-16K
  • 核心功能:具有较长上下文处理能力的通用大语言模型,长文本处理(1.2 万字),性价比高。
  • 优势
    • 多任务适配:写文章、翻译、数据分析、客服问答都能做。
    • 性价比高:在性能和成本之间取得了较好的平衡,相比于 GPT-4,使用成本更低,适合大多数企业和个人用户。
  • 作用
    • 内容创作平台:在一些自媒体平台上,创作者可以利用它快速生成文章的大纲和初稿,提高创作效率。
    • 企业文档处理:企业在处理大量的文档时,如合同、报告等,可以使用它进行内容总结和关键信息提取。
2. GPT-4-32K
  • 核心功能:具有超长上下文处理能力和强大多模态能力的顶级大语言模型。超长文本处理(2.4 万字),支持多模态(文本 + 图像)。
  • 优势
    • 强大的综合能力:在语言理解、推理能力、创意生成等方面都表现出色,是目前最先进的大语言模型之一。
    • 多模态融合:打破了传统语言模型只能处理文本的限制,实现了文本和图像的融合交互,拓展了应用场景。
  • 作用
    • 超长文本分析:能够处理长达 32K tokens 的文本,对超长篇幅的文档进行深入分析和理解,如对一部长篇小说进行情节分析和主题探讨。
    • 多模态交互:支持文本和图像的输入和输出,例如可以根据输入的图片生成相关的文字描述,或者根据文字描述生成图像。
    • 复杂问题解决:解决各种复杂的问题,包括高难度的数学问题、专业领域的技术问题等。
3. GPT-4o(多模态全能模型)
  • 核心功能:旗舰级多模态模型,支持文本、音频、图像、视频的混合输入输出,主打 “全能交互” 能力。
  • 优势
    • 速度与成本革新:处理速度提升 200%,价格降低 50%,速率限制提高 5 倍,兼顾高效与低成本。
    • 多模态能力突破:视觉上能精准识别图像视频细节,语音可直接交互且能识别情绪、模拟声音,还能实现跨模态融合创作。
    • 推理能力提升:在 0-shot COT MMLU 和传统的 5-shot no-CoT MMLU 评估中设定新高分,展现强大推理性能。
  • 作用
    • 实时多模态推理:能同时对音频、视觉和文本进行实时推理,实现多模态信息的同步处理。
    • 跨语言翻译:可处理 50 种不同语言,满足全球不同语言人群间的交流翻译需求。
    • 复杂任务处理:具备强大的文本、推理和编码能力,能应对代码生成、数据分析等复杂工作。

LLM模型汇总

目前opspilot支持的大模型除了上述外,全量见下表

分类名称模型图标模型ID模型名称模型类别
Baichuan(百川)Baichuanbaichuan-2Baichuan 2文本类
Baichuan(百川)Baichuanbaichuan-2-chatBaichuan 2 Chat文本类
CodeLlamaMetaAIcode-llamaCodeLlama代码类
CodeLlamaMetaAIcode-llama-instructCodeLlama Instruct代码类
CodeLlamaMetaAIcode-llama-pythonCodeLlama Python代码类
CodeGeeXCodeGeeXcodegeex4CodeGeeX4代码类
CodeQwenAlibabacodeqwen1.5CodeQwen1.5代码类
CodeQwenAlibabacodeqwen1.5-chatCodeQwen1.5 Chat代码类
CodeShellcodeshellCodeShell代码类
CodeShellcodeshell-chatCodeShell Chat代码类
CodestralMistralcodestral-v0.1Codestral v0.1代码类
CogAgentZhipucogagentCogAgent推理增强
DeepSeekDeepSeekdeepseekDeepSeek推理增强
DeepSeekDeepSeekdeepseek-chatDeepSeek Chat推理增强
DeepSeekDeepSeekdeepseek-coderDeepSeek Coder代码类
DeepSeekDeepSeekdeepseek-coder-instructDeepSeek Coder Instruct代码类
DeepSeekDeepSeekdeepseek-prover-v2DeepSeek Prover v2推理增强
DeepSeekDeepSeekdeepseek-r1DeepSeek R1推理增强
DeepSeekDeepSeekdeepseek-r1-0528DeepSeek R1 0528推理增强
DeepSeekDeepSeekdeepseek-r1-0528-qwen3DeepSeek R1 0528 Qwen3推理增强
DeepSeekDeepSeekdeepseek-r1-distill-llamaDeepSeek R1 Distill Llama推理增强
DeepSeekDeepSeekdeepseek-r1-distill-qwenDeepSeek R1 Distill Qwen推理增强
DeepSeekDeepSeekdeepseek-v2-chatDeepSeek V2 Chat推理增强
DeepSeekDeepSeekdeepseek-v2-chat-0628DeepSeek V2 Chat 0628推理增强
DeepSeekDeepSeekdeepseek-v2.5DeepSeek V2.5推理增强
DeepSeekDeepSeekdeepseek-v3DeepSeek V3推理增强
DeepSeekDeepSeekdeepseek-v3-0324DeepSeek V3 0324推理增强
DeepSeekDeepSeekdeepseek-vl2DeepSeek VL2多模态
DianJinDianJin-R1DianJin R1推理增强
ERNIEBaiduErnie4.5ERNIE 4.5文本类
FinLLMfin-r1Fin R1推理增强
GemmaGemmagemma-3-1b-itGemma 3 1B IT文本类
GemmaGemmagemma-3-itGemma 3 IT文本类
GLM(智谱)ChatGLMglm-4.1v-thinkingGLM 4.1V Thinking推理增强
GLM(智谱)ChatGLMglm-4.5GLM 4.5文本类
GLM(智谱)ChatGLMglm-4vGLM 4V文本类
GLM(智谱)ChatGLMglm-edge-chatGLM Edge Chat文本类
GLM(智谱)ChatGLMglm4-0414GLM4 0414文本类
GLM(智谱)ChatGLMglm4-chatGLM4 Chat文本类
GLM(智谱)ChatGLMglm4-chat-1mGLM4 Chat 1M文本类
Gorillagorilla-openfunctions-v2Gorilla OpenFunctions v2推理增强
OpenAIGPTgpt-2GPT-2文本类
HuatuoGPTHuatuoGPT-o1-LLaMA-3.1HuatuoGPT o1 LLaMA 3.1文本类
HuatuoGPTHuatuoGPT-o1-Qwen2.5HuatuoGPT o1 Qwen2.5文本类
InternLMInterninternlm3-instructInternLM3 Instruct文本类
InternVLInternVL3InternVL3文本类
LLaMAMetallama-2LLaMA 2文本类
LLaMAMetallama-2-chatLLaMA 2 Chat文本类
LLaMAMetallama-3LLaMA 3文本类
LLaMAMetallama-3-instructLLaMA 3 Instruct文本类
LLaMAMetallama-3.1LLaMA 3.1文本类
LLaMAMetallama-3.1-instructLLaMA 3.1 Instruct文本类
LLaMAMetallama-3.2-visionLLaMA 3.2 Vision多模态
LLaMAMetallama-3.2-vision-instructLLaMA 3.2 Vision Instruct多模态
LLaMAMetallama-3.3-instructLLaMA 3.3 Instruct文本类
Marcomarco-o1Marco o1文本类
MiniCPMminicpm-2b-dpo-bf16MiniCPM 2B DPO BF16文本类
MiniCPMminicpm-2b-dpo-fp16MiniCPM 2B DPO FP16文本类
MiniCPMminicpm-2b-dpo-fp32MiniCPM 2B DPO FP32文本类
MiniCPMminicpm-2b-sft-bf16MiniCPM 2B SFT BF16文本类
MiniCPMminicpm-2b-sft-fp32MiniCPM 2B SFT FP32文本类
MiniCPMMiniCPM-V-2.6MiniCPM V 2.6文本类
MiniCPMminicpm3-4bMiniCPM3 4B文本类
MiniCPMminicpm4MiniCPM4文本类
MistralMistralmistral-instruct-v0.1Mistral Instruct v0.1文本类
MistralMistralmistral-instruct-v0.2Mistral Instruct v0.2文本类
MistralMistralmistral-instruct-v0.3Mistral Instruct v0.3文本类
MistralMistralmistral-large-instructMistral Large Instruct文本类
MistralMistralmistral-nemo-instructMistral NeMo Instruct文本类
MistralMistralmistral-v0.1Mistral v0.1文本类
MixtralMistralmixtral-8x22B-instruct-v0.1Mixtral 8x22B Instruct v0.1文本类
MixtralMistralmixtral-instruct-v0.1Mixtral Instruct v0.1文本类
MixtralMistralmixtral-v0.1Mixtral v0.1文本类
Moonlightmoonlight-16b-a3b-instructMoonlight 16B A3B Instruct文本类
OpenHermesopenhermes-2.5OpenHermes 2.5文本类
OPToptOPT文本类
Orionorion-chatOrion Chat文本类
OvisOvis2Ovis2文本类
Phiphi-2Phi-2文本类
PhiPhi-3Mini 128K Instruct文本类
Phiphi-3-mini-4k-instructPhi-3 Mini 4K Instruct文本类
QvQQvQ-72B-PreviewQvQ 72B Preview文本类
Qwen(千问)Qwenqwen-chatQwen Chat文本类
Qwen(千问)Qwenqwen1.5-chatQwen1.5 Chat文本类
Qwen(千问)Qwenqwen1.5-moe-chatQwen1.5 MoE Chat文本类
Qwen(千问)Qwenqwen2-audioQwen2 Audio多模态
Qwen(千问)Qwenqwen2-audio-instructQwen2 Audio Instruct多模态
Qwen(千问)Qwenqwen2-instructQwen2 Instruct文本类
Qwen(千问)Qwenqwen2-moe-instructQwen2 MoE Instruct文本类
Qwen(千问)Qwenqwen2-vl-instructQwen2 VL Instruct多模态
Qwen(千问)Qwenqwen2.5Qwen2.5文本类
Qwen(千问)Qwenqwen2.5-coderQwen2.5 Coder代码类
Qwen(千问)Qwenqwen2.5-coder-instructQwen2.5 Coder Instruct代码类
Qwen(千问)Qwenqwen2.5-instructQwen2.5 Instruct文本类
Qwen(千问)Qwenqwen2.5-instruct-1mQwen2.5 Instruct 1M文本类
Qwen(千问)Qwenqwen2.5-omniQwen2.5 Omni多模态
Qwen(千问)Qwenqwen2.5-vl-instructQwen2.5 VL Instruct多模态
Qwen(千问)Qwenqwen3Qwen3文本类
Qwen(千问)QwenQwen3-CoderQwen3 Coder代码类
Qwen(千问)QwenQwen3-InstructQwen3 Instruct文本类
Qwen(千问)QwenQwen3-ThinkingQwen3 Thinking推理增强
Qwen(千问)QwenqwenLong-l1QwenLong L1文本类
QwQQwQ-32BQwQ 32B文本类
QwQQwQ-32B-PreviewQwQ 32B Preview文本类
SEALLMseallm_v2SEALLM v2文本类
SEALLMseallm_v2.5SEALLM v2.5文本类
SEALLMseallms-v3SEALLMS v3文本类
SkyworkSkyworkSkywork文本类
SkyworkSkywork-MathSkywork Math推理增强
Skyworkskywork-or1Skywork OR1推理增强
Skyworkskywork-or1-previewSkywork OR1 Preview推理增强
TelechattelechatTelechat文本类
TinyLlamatiny-llamaTiny Llama文本类
WizardCoderwizardcoder-python-v1.0WizardCoder Python v1.0代码类
WizardMathwizardmath-v1.0WizardMath v1.0推理增强
XiYanSQLXiYanSQL-QwenCoder-2504XiYanSQL QwenCoder 2504代码类
XversexverseXverse文本类
Xversexverse-chatXverse Chat文本类
Yi(零一万物)YiYiYi文本类
Yi(零一万物)YiYi-1.5Yi 1.5文本类
Yi(零一万物)YiYi-1.5-chatYi 1.5 Chat文本类
Yi(零一万物)YiYi-1.5-chat-16kYi 1.5 Chat 16k文本类
Yi(零一万物)YiYi-200kYi 200k文本类
Yi(零一万物)YiYi-chatYi Chat文本类

Embed 模型

FastEmbed(bge-small-zh-v1.5)

核心功能

轻量化中文语义嵌入模型,专注于将中文文本转化为计算机可理解的“数字编码”,高效捕捉语义相似性。

优势

  • 轻量快速:仅 95MB 大小,普通电脑也能运行,处理速度毫秒级响应,适合实时场景。
  • 中文专精:深度优化中文语义,精准识别成语、网络用语、专业术语(如法律、医疗词汇),语义匹配更准确。
  • 低成本易用:开源免费,无需复杂配置,直接集成到搜索、推荐等系统中降低开发成本。

作用

  • 文本语义转化:将中文句子/段落转化为高维向量,让计算机“理解”文字含义(如区分“打折”和“促销”的语义相似性)。
  • 高效语义检索:在海量文本中快速定位语义匹配内容(如用户输入“天气太热怎么办”,找到相关解暑攻略)。
  • 智能系统赋能:为客服、推荐、文档管理等系统提供语义支持,提升信息处理精度。

BCEmbedding(bce-embedding-base_v1)

核心功能

中英双语语义桥梁模型,支持中文和英文文本的双向语义转化,打破跨语言理解壁垒。

优势

  • 双语精准对齐:基于有道翻译技术,中英语义向量高度匹配(如“人工智能”与“Artificial Intelligence”编码相近),跨语言检索准确率提升 40%。
  • 长文本处理:支持数万字文档(如合同、论文)的整体语义编码,避免碎片化信息丢失。
  • 双阶段检索:先快速筛选语义相关文本(缩小范围),再精准排序,提升复杂场景下的检索质量。

作用

  • 跨语言语义映射:将中文和英文文本转化为统一向量空间,实现双语语义“无缝对接”(如中文提问匹配英文文档)。
  • 跨语言检索支持:在中英混合文本库中,支持任意语言输入检索另一语言内容(如英文搜索找到中文产品说明)。
  • 多语言系统增强:为跨国企业、教育、电商等场景提供双语语义支持,优化跨语言信息处理效率。

模型列表

| 品牌名 | 图标 模型ID| 模型名称 | |------------------|----------|----------------------------------|------------------------------| | 网易有道 | | bce-embedding-base_v1 | BCE Embedding Base v1 | 可通过 ollama 部署:ollama pull lrs33/bce-embedding-base_v1 | | BAAI (智源研究院) | BAAI | bge-base-en | BGE Base English | | BAAI (智源研究院) | BAAI | bge-base-en-v1.5 | BGE Base English v1.5 | | BAAI (智源研究院) | BAAI | bge-base-zh | BGE Base Chinese | | BAAI (智源研究院) | BAAI | bge-base-zh-v1.5 | BGE Base Chinese v1.5 | | BAAI (智源研究院) | BAAI | bge-large-en | BGE Large English | | BAAI (智源研究院) | BAAI | bge-large-en-v1.5 | BGE Large English v1.5 | | BAAI (智源研究院) | BAAI | bge-large-zh | BGE Large Chinese | | BAAI (智源研究院) | BAAI | bge-large-zh-noinstruct | BGE Large Chinese NoInstruct | | BAAI (智源研究院) | BAAI | bge-large-zh-v1.5 | BGE Large Chinese v1.5 | | BAAI (智源研究院) | BAAI | bge-m3 | BGE M3 | | BAAI (智源研究院) | BAAI | bge-small-en-v1.5 | BGE Small English v1.5 | | BAAI (智源研究院) | BAAI | bge-small-zh | BGE Small Chinese | | BAAI (智源研究院) | BAAI | bge-small-zh-v1.5 | BGE Small Chinese v1.5 | | 微软 | | e5-large-v2 | E5 Large v2 | | 阿里 | Alibaba | gte-base | GTE Base | | 阿里 | Alibaba | gte-large | GTE Large | | 阿里 | Alibaba | gte-Qwen2 | GTE Qwen2 | | Jina AI | Jina | jina-clip-v2 | Jina CLIP v2 | | Jina AI | Jina | jina-embeddings-v2-base-en | Jina Embeddings v2 Base EN | | Jina AI | Jina | jina-embeddings-v2-base-zh | Jina Embeddings v2 Base ZH | | Jina AI | Jina | jina-embeddings-v2-small-en | Jina Embeddings v2 Small EN | | Jina AI | Jina | jina-embeddings-v3 | Jina Embeddings v3 | | Jina AI | Jina | jina-embeddings-v4 | Jina Embeddings v4 | | Moka AI | | m3e-base | M3E Base | | Moka AI | | m3e-large | M3E Large |ge | | Moka AI | | m3e-small | M3E Small | | 微软 | | multilingual-e5-large | Multilingual E5 Large | | 阿里 | Alibaba | Qwen3-Embedding-0.6B | Qwen3 Embedding 0.6B | | 阿里 | Alibaba | Qwen3-Embedding-4B | Qwen3 Embedding 4B | | 阿里 | Alibaba | Qwen3-Embedding-8B | Qwen3 Embedding 8B | | 赛博智能 | | text2vec-base-chinese | Text2Vec Base Chinese | | 赛博智能 | | text2vec-base-chinese-paraphrase | Text2Vec Base Chinese Paraphrase | | 赛博智能 | | text2vec-base-chinese-sentence | Text2Vec Base Chinese Sentence | | 赛博智能 | | text2vec-base-multilingual | Text2Vec Base Multilingual | | 赛博智能 | | text2vec-large-chinese | Text2Vec Large Chinese |

Rerank 模型

BCEReranker(bce-reranker-base_v1)

核心功能

基于交叉编码器的中英日韩多语言重排序模型,专注于对初始检索结果进行精细化排序,提升信息检索的相关性和准确性。它与 BCEmbedding 模型形成"双阶段检索"组合,先通过 BCEmbedding 召回候选文档,再由 BCEReranker 对 Top 50-100 个结果进行重排,最终输出 Top 5-10 个高相关性片段。

优势

  • 多语言跨域适配:支持中文、英文、日文、韩文四语种,尤其在中英跨语言检索中表现突出(如中文查询匹配英文文档),适配教育、法律、金融、医疗等多领域数据。
  • 长文本精准排序:突破传统模型 512 Token 的输入限制,支持数万字文档的整体语义分析,有效处理合同、论文等长文本场景,避免碎片化信息干扰。
  • 绝对分数过滤:输出可量化的"绝对相关性分数"(推荐阈值 0.35-0.4),直接过滤低质量结果,减少 LLM 生成时的"幻觉"问题。
  • RAG 深度优化:针对检索增强生成(RAG)场景设计,与 BCEmbedding 组合在 LlamaIndex 评测中达到 SOTA 水平,跨语言检索准确率提升 40%,MRR(平均倒数排名)提升 6.85%。

作用

  • 检索结果精排:对初始召回的文本片段进行二次排序,确保最相关内容优先展示(如用户搜索"人工智能发展趋势",模型会优先展示最新政策文件而非过时资料)。
  • 跨语言信息整合:支持中英日韩混合检索,例如中文用户输入"气候变化应对措施",模型可匹配英文国际协议、日文研究报告等多语言资源,实现跨语言知识融合。
  • 长文档语义聚焦:处理技术手册、法律条文等长文本时,精准定位与查询相关的段落(如搜索"合同违约责任",直接跳转到对应条款而非全文检索),提升信息提取效率。
  • 低质内容过滤:通过绝对分数阈值(如 0.4)自动剔除不相关或低质量结果,减少 LLM 处理无效信息的耗时,优化整体响应速度。

rerank模型列表

品牌名图标模型模型名称
网易有道bce-reranker-base_v1BCE Reranker Base v1
BAAI (智源研究院)BAAIbge-reranker-baseBGE Reranker Base
BAAI (智源研究院)BAAIbge-reranker-largeBGE Reranker Large
BAAI (智源研究院)BAAIbge-reranker-v2-gemmaBGE Reranker v2 Gemma
BAAI (智源研究院)BAAIbge-reranker-v2-m3BGE Reranker v2 M3
BAAI (智源研究院)BAAIbge-reranker-v2-minicpm-layerwiseBGE Reranker v2 MiniCPM Layerwise
Jina AIJinajina-reranker-v2Jina Reranker v2
OpenBMBminicpm-rerankerMiniCPM Reranker
阿里AlibabaQwen3-Reranker-0.6BQwen3 Reranker 0.6B
阿里AlibabaQwen3-Reranker-4BQwen3 Reranker 4B
阿里AlibabaQwen3-Reranker-8BQwen3 Reranker 8B

OCR 模型

OlmOCR

核心功能

基于大型语言模型的文档解析工具,专注于将 PDF、图像等非结构化文档转化为可编辑文本,支持表格、公式、手写内容的精准提取,尤其擅长处理复杂排版(如多栏布局、学术论文)。

优势

  • 多模态融合:结合语言模型(如 ChatGPT-4o、Qwen2-VL)与计算机视觉技术,通过上下文推理提升文本识别准确性,减少幻觉现象(如虚构内容)。
  • 结构化输出:保留文档原始格式(如表格、项目符号、边注),支持 Markdown 或 Dolma 格式输出,便于后续分析和编辑。
  • 低成本高效:开源工具包支持本地 GPU 部署,每处理 100 万页文档成本仅 190 美元,适合大规模文档数字化需求。

作用

  • 学术与技术文档处理:解析论文、技术手册中的公式、图表和多栏内容,生成结构化文本(如将 LaTeX 公式转换为可编辑格式)。
  • 手写内容识别:处理医疗记录、历史档案中的手写文字,准确率超 90%,支持 12 种语言的手写体识别。
  • PDF 数字化:将扫描 PDF 转换为可搜索文本,保留原始排版,适用于法律合同、古籍修复等场景。

AzureOCR

核心功能

微软 Azure 云服务中的 OCR 工具,支持多语言文本识别(含手写和打印体),集成于表单识别器(Form Recognizer),可提取表格、发票、身份证等文档的结构化数据。

优势

  • 云服务集成:与 Azure AI 服务(如翻译、语言理解)无缝对接,支持 REST API 和低代码平台(如 Power Automate),快速部署至企业流程。
  • 多语言与混合场景:支持中文、英文、日文等 50+ 语言,可同时处理文档中的混合语言内容,适用于跨国企业的多语言数据管理。
  • 高精度与安全:基于深度学习模型,识别准确率高,且数据存储符合 ISO、GDPR 等合规标准,保障企业数据安全。

作用

  • 表单自动化:自动提取发票、报销单中的金额、日期等字段,减少人工录入错误(如将手写签名与打印文字分离识别)。
  • 文档分析:解析合同中的条款、身份证中的个人信息,生成结构化 JSON 数据,便于后续数据分析或 AI 模型训练。
  • 实时处理:支持实时视频流中的文本识别(如监控画面中的车牌、公告文字),适用于安防、物流等场景。

PaddleOCR

核心功能

百度开源的 OCR 工具包,提供端到端文本检测、识别和方向分类,支持 80+ 语言(含中文、日文、韩文),覆盖通用、金融、交通等多领域垂类模型。

优势

  • 轻量与高效:模型压缩技术(如 PP-OCRv4)将模型体积降至 8.5MB,移动端推理速度达毫秒级。
  • 多语言与场景适配:针对中文优化,支持复杂文本(如弯曲文字、低光照图像)。
  • 开源与生态:代码开源且文档完善,支持自定义训练和私有化部署。

作用

  • 实时文本识别:处理视频流或监控画面中的文字(如实时翻译路牌、提取视频字幕)。
  • 文档管理:批量处理扫描文档,提取关键信息(如合同中的甲方乙方、医疗报告中的诊断结果),提升办公效率。
  • 跨语言支持:实现中英日韩等多语言混合文本的识别与翻译,适用于跨境电商、教育等场景。

模型汇总

模型优势作用
OlmOCR多模态融合,解析复杂排版(公式/手写),结构化输出学术文档、手写档案、PDF 数字化处理
AzureOCR云服务集成,50+ 语言支持,安全合规企业表单、合同解析,实时视频文本识别
PaddleOCR轻量开源,80+ 语言(中文优化),端边云部署移动端识别、批量文档处理、跨语言场景适配

工具

运维工具

Kubernetes Tools

介绍

Kubernetes 工具是一套针对 Kubernetes 集群的运维与管理工具,覆盖集群资源查询、状态监控、故障诊断及配置管理等功能,帮助用户高效管理容器化应用的部署、运行和维护。

作用

  • CI/CD 流程全链路管控

    • 任务可视化管理:通过列表清晰呈现 Jenkins 服务器上所有构建任务的名称、状态(启用/禁用)、最后构建时间及结果,便于团队快速定位异常任务(如连续失败的部署任务)。
    • 自动化触发与参数化构建:支持在触发构建时动态传入参数(如目标分支、环境变量、版本号),满足多环境(开发/测试/生产)差异化部署需求(例如:指定--env=prod触发生产环境构建)。
  • 团队协作与流程审计

    • 构建任务追溯:通过任务列表快速查询历史构建记录,结合时间工具(如get_current_time)记录操作时间,形成完整的 CI/CD 审计日志(适用于金融、医疗等对合规性要求高的行业)。
    • 多工具集成支持:与代码仓库(Git)、制品仓库(Nexus)、监控系统(Prometheus)无缝对接,例如代码提交后自动触发 Jenkins 构建,构建完成后通过 Kubernetes 工具部署至集群,形成自动化流水线闭环。
  • 故障恢复与应急处理

    • 批量任务操作:批量禁用过时任务或重新触发失败任务,避免手动逐个操作的低效性(如上线期间批量重启所有微服务构建任务)。
    • 灰度发布支持:通过分阶段触发构建任务,配合 Kubernetes 工具实现蓝绿部署或滚动更新,降低线上变更风险(如先触发测试环境构建,验证通过后触发生产环境构建)。

Jenkins

介绍

Jenkins 工具是一组用于与 Jenkins 持续集成/持续部署(CI/CD)平台交互的功能集合,提供对 Jenkins 服务器上构建任务的查询和操作能力,支持通过程序远程管理构建流程,实现自动化部署流程的控制与监控。

作用

  • 集群资源精细化管理

    • 多维度资源查询:支持按命名空间(如dev/test/prod)或资源类型(Pod/Node/Service)筛选查询,满足复杂架构下的分层管理需求(例如:仅查看prod命名空间下的所有 Deployment 资源)。
    • 资源优化与清理:识别并清理孤立资源(如未被使用的 PVC、废弃的 Service),释放集群资源;通过节点容量分析(CPU/内存使用率),辅助集群扩缩容决策(如自动添加节点以应对流量高峰)。
  • 全链路故障诊断与监控

    • 异常资源快速定位:通过筛选失败、Pending 或高重启次数的 Pod,结合事件日志(list_kubernetes_events),精准定位调度失败、依赖缺失、镜像拉取失败等问题(如某 Pod 因image not found持续失败,快速定位到镜像仓库权限问题)。
    • 日志与配置联动分析:导出异常资源的 YAML 配置,对比不同环境的配置差异(如生产环境缺少必要的环境变量),同时结合 Pod 日志(get_kubernetes_pod_logs)追踪代码运行时错误(如数据库连接字符串错误导致服务无法启动)。
  • 自动化运维与标准化建设

    • 批量操作支持:基于资源列表(如 Pod/Node 列表)执行批量操作(如重启所有 Running 状态的 Pod、标记节点为不可调度),提升大规模集群管理效率。
    • 配置标准化管理:通过导出资源 YAML 实现配置版本控制(如将生产环境配置存档至 Git),确保多环境配置一致性;结合 CI/CD 工具实现配置变更的自动化校验和部署(如修改 Deployment YAML 后自动触发滚动更新)。
  • 性能与稳定性保障

    • 节点健康监控:实时获取节点状态(Ready/NotReady)及资源使用率,配合监控系统(如 Grafana)设置预警规则(如节点内存使用率超过 80% 时触发报警)。
    • 容器运行时分析:通过高重启次数 Pod 分析,定位容器内部的内存泄漏、死锁等问题,结合日志优化应用代码或容器配置(如增加资源请求限制resources.requests)。

通用工具

General tools

get_current_time(获取当前时间)
  • 作用:实时获取系统当前时间(精确到秒/毫秒),返回时间戳或指定格式的时间字符串(如YYYY-MM-DD HH:MM:SS)。
  • 使用场景
    • 日志记录:在系统操作(如用户登录、数据修改、任务执行)时添加时间戳,便于后续审计和问题追溯(例如:记录 API 调用时间、数据库变更时间)。
    • 任务调度:作为定时任务的触发依据(如"每天 23:00 执行数据备份"),或计算任务耗时(开始时间 - 结束时间)。
    • 报表生成:在生成日报、周报时自动插入当前时间,确保文档时效性(如财务报表、运维报告)。

搜索工具

  • 作用:通过 DuckDuckGo 搜索引擎发起网络查询,返回包含标题、链接、摘要的结构化搜索结果(支持文本关键词、自然语言提问)。
  • 使用场景
    • 信息检索:快速获取公开数据(如实时新闻、天气、百科知识),或技术类内容(如开源框架文档、错误代码解决方案)。
    • 数据采集:批量搜索行业报告、竞品信息(如"2024 年 AI 芯片市场分析"),辅助决策分析。

智能体

知识问答类

1. Python 天才

  • 介绍:模拟一名严格遵循规则的高级 Python 开发者,专注于提供完整、可运行的 Python 代码(拒绝占位符或不完整代码)。
  • 作用:在代码修复与编写中,始终保留现有功能、注释和日志记录,确保用户可直接复制使用;需明确告知代码所属类,按“轮次”完成修复任务(如批量处理相关错误),并在编写前提示遵循规则,适合编程教学、代码调试及功能开发场景。

2. 后端开发助手

  • 介绍:作为高效可扩展 Web 应用开发的技术专家,基于 Spring Boot、MySQL、Elasticsearch 等技术栈,负责设计后端架构与实现核心功能。擅长 RESTful API 开发、数据库管理(MySQL/PostgreSQL)、Elasticsearch 数据检索,同时融合 AI 技术(机器学习 / NLP)优化功能;注重安全性最佳实践、调试排错及 CI/CD 自动化,可与团队协作构建用户友好的 Web 应用(如企业管理系统、数据平台)。

3. 软件架构与工程专家

  • 介绍:提供全栈软件技术指导,具备计算机科学与软件工程的专家级知识,擅长构建健壮、解耦、可重构的软件系统。覆盖前端(Vue/React)、后端(Spring Boot/Flask)、运维、大数据、AI 等多领域,可深入解析主流框架的设计原则与缺陷,通过结构化分析(多维度拆解问题)和详细阐述,辅助用户解决编程、架构设计及算法优化等复杂问题(如微服务架构设计、高并发系统调优)。

4. 代码优化 / 错误修改

  • 介绍:作为多语言编程专家(C/C++/Python/Go 等),对代码进行三轮严格检查,修复语法错误、逻辑漏洞,同时优化结构(如简化冗余逻辑、遵循语言规范)。整合修改后的代码并添加注释,确保优雅性与可读性;若为错误修复任务,需简要说明问题成因、修改方案及优化依据(如修复空指针异常、提升算法效率),并展示代码逻辑结构,适合代码审查、遗留系统维护等场景。

5. C++/Qt

  • 介绍:担任 C++/Qt 编程导师,提供从基础语法(如类与对象、模板)到高级概念(装饰器模式、上下文管理器)的教学支持。通过互动示例和练习,耐心纠正用户代码错误(如内存泄漏、信号槽连接问题),并解释错误原因及避免方法;擅长分解复杂概念(如多线程编程、Qt 事件循环),使用类比和现实案例辅助理解,适合 C++/Qt 入门学习、项目调试及进阶开发指导。

6. 网络专家

  • 介绍:专注 Web 开发全流程优化,擅长工具选型(React/Tailwind/Node.js)、渐进式代码变更(分阶段测试确保稳定性)及安全性审查(输入验证、身份认证)。通过深入代码审查(标注潜在漏洞)和详细变更计划,平衡功能实现与通用性;注重操作可行性(如托管、监控方案),适合企业级 Web 应用开发、老旧系统重构及安全合规性检查。

7. JavaWeb 应用架构师

  • 介绍:作为经验丰富的 JavaWeb 架构师,以简洁风格提供核心代码示例(如 Spring Boot 接口、MyBatis 映射文件),聚焦关键逻辑注释(避免冗长解释)。擅长快速解决技术问题(如分布式事务、接口性能优化),默认采用现代化开发规范,适合中小团队技术咨询、核心模块开发及代码架构评审。

8. 数据库专家

  • 介绍:提供全类型数据库专业建议,涵盖关系型(MySQL/PostgreSQL)、非关系型(MongoDB/Redis)、列式(ClickHouse)及分布式数据库(Doris/HBase)。擅长数据库设计范式(如第三范式)、索引优化(慢查询分析)、数据安全(加密 / 权限控制)及集群部署(容灾方案设计),可指导数据迁移、备份恢复及性能调优(如分库分表策略),适合金融、电商等数据密集型场景。

9. Java 架构师顾问

  • 介绍:深耕 Java 技术栈的资深架构师,精通 JVM 调优(内存泄漏排查)、分布式框架(Spring Cloud/Dubbo)、微服务设计(服务熔断 / 负载均衡)及大数据技术(Spark/Elasticsearch)。可提供从单体到分布式架构的演进方案,指导数据库分库分表、Redis 集群高可用设计及消息队列(RocketMQ)应用,适合大型企业 Java 系统架构设计、性能瓶颈突破及技术选型决策。

10. Linux Guide AI

  • 介绍:作为 Linux 全栈导师,为新手到进阶用户提供系统指导:
    • 基础教学:详解 Linux 命令(如 ls/grep 参数用法)及 Bash 脚本编程(循环 / 函数实现);
    • 实操支持:指导系统安装(CentOS/Ubuntu)、服务配置(Nginx/Apache)及故障排查(磁盘空间不足修复);
    • 知识点巩固:通过选择题等互动形式强化记忆,适合运维入门、服务器管理及 Shell 脚本开发场景。

11. SQL 语句生成助手

  • 介绍:作为 SQL 查询专家,将自然语言需求(如“查询上周订单金额 TOP10 的客户”)转化为标准 SQL 语句,支持多表连接(JOIN)、分组聚合(GROUP BY/HAVING)、条件筛选(WHERE/CASE)等复杂逻辑。需明确表关系(主键 / 外键)、日期范围及统计字段,生成符合数据库类型(MySQL/PostgreSQL)的可执行代码,适合数据分析、报表生成及数据库交互开发。

12. 代码解释器

  • 介绍:辅助开发人员理解代码逻辑与定位错误,通过分步骤伪代码描述(如“第一步:解析输入参数”)拆解程序流程,以简洁客观的语言输出代码功能概括(如“实现用户登录认证”)。支持多语言代码分析(Python/Java/C++),并提供后续优化建议(如“建议添加输入校验防止 SQL 注入”),适合代码评审、新人快速上手及遗留系统维护。

13. 提示工程专家

  • 介绍:专精于 AI 交互优化,通过分析用户需求,识别原始 Prompt 的模糊性(如“写一篇文案”需补充目标受众),遵循“清晰明确、具体详细”原则优化 Prompt 结构(如添加输出格式、约束条件)。可创建多版本 Prompt 供用户选择(如“正式版”“简洁版”),并解释优化理由(如“增加‘500 字以内’限制以提升回答精度”),适合提升 ChatGPT 等模型的响应质量。

14. 产品文案撰写

  • 介绍:运用消费者心理学与 AIDA 模型(注意 - 兴趣 - 欲望 - 行动),撰写高转化营销文案:
    • 标题:精准吸引目标受众(如“限时折扣:程序员专属机械键盘直降 200 元”);
    • 开场白:通过故事或痛点提问引发共鸣(如“还在为代码报错熬夜?”);
    • 行动号召:基于稀缺性 / 紧迫感设计(如“点击领取最后 10 个优惠码”)。 确保内容真实合规,适合电商详情页、广告投放及品牌宣传场景。

15. 绩效评估超人

  • 介绍:聚焦职场绩效量化呈现,基于 OKR(目标与关键结果)和 KPI(关键绩效指标),整合项目数据(如“季度营收增长 30%”)与实际案例(如“主导某系统重构,效率提升 40%”),撰写逻辑清晰的评估报告。突出个人 / 团队成就、跨部门协作贡献及未来规划,适合互联网行业年终总结、晋升答辩及团队效能分析。

16. JTBD 需求分析大师

  • 介绍:基于“Jobs to be Done”理论,帮助用户理解客户购买动机(如“用户购买电钻是为了‘在墙上打孔’的任务”)。通过拆解核心任务(如“选择合适钻头→定位打孔位置→操作电钻”),识别障碍(如“钻头型号不匹配”),提供以客户为中心的需求洞察,适合产品经理定义用户场景、创业团队验证商业模式及企业优化服务流程。

17. 周报助手

  • 介绍:作为职场文档专家,将碎片化工作内容(如“完成 API 接口开发”“协调测试环境部署”)整合成结构清晰的周报:
    • 数据整理:提取关键成果(如“修复 5 个线上 BUG”)、问题与计划;
    • 语言优化:润色文本(如将“做了 XX 事”改为“主导 XX 功能上线”),确保简洁流畅;
    • 格式适配:遵循用户指定模板(如分“工作进展”“风险挑战”“下周计划”板块),适合快速生成程序员、项目经理等岗位的周汇报。

18. Excel 公式大师

  • 介绍:提供复杂 Excel 公式解决方案,针对用户需求(如“按部门统计月度销售额并筛选 Top3”),设计嵌套函数(VLOOKUP+SUMPRODUCT+LARGE 组合)。详细拆解公式逻辑(如“VLOOKUP 匹配部门,SUMPRODUCT 汇总数据,LARGE 提取前三大值”),并提示使用技巧(如绝对引用 $ 符号、错误处理 IFERROR),适合财务报表、数据分析及自动化表格开发。

19. 会议助手

  • 介绍:专注会议内容高效转化,将零散信息(如“项目 A 延期→材料供应商问题”“下周计划→协调物流”)整合成简练汇报句(如“受材料延迟影响,项目 A 进度滞后,下周重点协调物流确保交付”)。保持非正式专业风格,保留专有词(如项目名、人名),适合施工、研发等团队的内部工作汇报,快速传递施工进度、问题跟进等信息。