🪟本地模型部署与知识库搭建(Win)

一、准备环境与模型拉取

1. 安装 Ollama

直接官网下载ollama，默认安装直接走C盘，无法更改，也不要更改。

2. 配置ollama镜像源

# 创建.ollama目录
mkdir "%USERPROFILE%\.ollama"

# 写入配置文件
$config = @{
    registry = @{
        mirrors = @{
            "registry.ollama.ai" = "https://ollama.modelscope.cn"
        }
    }
} | ConvertTo-Json -Depth 10

$config | Out-File -FilePath "$env:USERPROFILE\.ollama\config.json" -Encoding UTF8

    # 下载.net安装脚本
    Invoke-WebRequest -Uri "https://dot.net/v1/dotnet-install.ps1" -OutFile "dotnet-install.ps1"
    
    # 执行安装（注意：这一步可能需要几分钟，请耐心等待，不要关闭窗口）
    .\dotnet-install.ps1 -Channel 6.0 -Runtime "dotnet" -Architecture "x64"
    
    # 检查环境变量是否生效（新打开的窗口通常会自动识别）
    $env:PATH -split ";" | Select-String "dotnet"
    
    # 测试dotnet是否运行
    dotnet --list-runtimes
    
    # 创建服务
    sc.exe create OllamaService binPath= "C:\Users\joeha\AppData\Local\Programs\Ollama\ollama.exe serve" start= auto
    
    # 设置服务描述
    sc.exe description OllamaService "Ollama LLM Service"
    
    # 启动ollama服务
    sc.exe start OllamaService
    
    # 查询服务状态
    sc.exe query OllamaService

如果 `sc.exe start OllamaService` 报了 1053 的错误，可执行以下命令将超时时间从默认30秒延长至60秒：

# 执行以下命令将超时时间从默认30秒延长至60秒
reg add "HKLM\SYSTEM\CurrentControlSet\Control" /v "ServicesPipeTimeout" /t REG_DWORD /d 60000 /f

# 确保服务账户有足够权限访问 Ollama 工作目录
icacls "C:\Users\joeha\.ollama" /grant "NT Authority\LocalService:(OI)(CI)F"

然后重启电脑，因为 SCM 会在系统启动时读取此注册表项。

3. 拉取模型

# 拉取qwen2.5-coder:1.5b模型
ollama pull qwen2.5-coder:1.5b

二、Python版本与依赖安装

1. 安装[email protected]版本

# 下载Python 3.11安装包
Invoke-WebRequest -Uri "https://www.python.org/ftp/python/3.11.9/python-3.11.9-amd64.exe" -OutFile "python-3.11.9-amd64.exe"

# 安装Python（添加到PATH）
python-3.11.9-amd64.exe /quiet InstallAllUsers=1 PrependPath=1

# 验证安装
python --version

2. 创建虚拟环境并安装依赖

在 ai-code-review/ 目录下：

# 创建虚拟环境
python -m venv rag_env

# 激活虚拟环境
rag_env\Scripts\activate

# 升级pip
python -m pip install --upgrade pip

# 安装依赖包
pip install langchain chromadb sentence-transformers fastapi uvicorn pypdf python-multipart langchain-community langchain-huggingface requests newspaper4k

三、配置文件

在 ai-code-review/ 目录下新建 `config.yaml` 文件：

# 模型配置
model:
  name: "qwen2.5-coder:1.5b"          # Ollama 模型名称
  temperature: 0.1                        # 生成温度（越低越保守）
  max_tokens: 2048                        # 最大输出 token 数

# 嵌入模型配置
embedding:
  model_name: "BAAI/bge-small-en-v1.5"   # 嵌入模型（用于向量化）
  device: "cpu"                           # Windows上默认使用CPU

# 知识库配置
knowledge_base:
  root_dir: "D:/zwx/ai-code-review/company_knowledge"  # 学习资料存放根目录
  chunk_size: 500                         # 文本切分大小（字符数）
  chunk_overlap: 50                       # 切分重叠大小
  chroma_persist_dir: "./chroma_db"       # 向量数据库持久化目录

# API 服务配置
api:
  host: "0.0.0.0"                         # 监听所有内网 IP
  port: 8000
  ollama_url: "http://localhost:11434"    # Ollama 服务地址

验证YAML格式：

python -c "import yaml; yaml.safe_load(open('config.yaml', encoding='utf-8'))"

四、配置RAG并初次构建知识库

在 ai-code-review/ 目录下创建 rag.py ：

import os
import time
import json5
import json
import yaml
import fnmatch
from pathlib import Path
from typing import List, Optional, Dict, Any

from langchain_community.document_loaders import (
    TextLoader,
    PyPDFLoader,
    DirectoryLoader,
)
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_chroma import Chroma
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_core.documents import Document
from newspaper import Article, Config

os.environ['HF_TOKEN'] = '你的_token_here'

# ==================== 配置加载 ====================
with open("config.yaml", "r", encoding="utf-8") as f:
    config = yaml.safe_load(f)

# ==================== 初始化嵌入模型 ====================
embedding_model_name = config["embedding"]["model_name"]
embedding_device = config["embedding"]["device"]
embeddings = HuggingFaceEmbeddings(
    model_name=embedding_model_name,
    model_kwargs={"device": embedding_device},
    encode_kwargs={"normalize_embeddings": True},
)

# ==================== 初始化向量库 ====================
persist_dir = config["knowledge_base"]["chroma_persist_dir"]
vectorstore = Chroma(
    persist_directory=persist_dir,
    embedding_function=embeddings,
)

# ==================== 文件状态管理 ====================
FILE_STATE_PATH = "file_state.json"  # 存储每个文件的路径和最后修改时间


def _load_file_state() -> Dict[str, float]:
    """加载文件状态索引，返回 {文件路径: 修改时间}"""
    if os.path.exists(FILE_STATE_PATH):
        with open(FILE_STATE_PATH, "r", encoding="utf-8") as f:
            return json.load(f)
    return {}


def _save_file_state(state: Dict[str, float]) -> None:
    """保存文件状态索引"""
    with open(FILE_STATE_PATH, "w", encoding="utf-8") as f:
        json.dump(state, f, indent=2, ensure_ascii=False)


def _get_file_mtime(file_path: str) -> float:
    """获取文件的最后修改时间戳"""
    return os.path.getmtime(file_path)


# ==================== 多源配置加载 ====================
SOURCES_FILE = "knowledge_sources.json5"  # 知识库源配置文件


def _load_sources() -> List[Dict[str, Any]]:
    """加载知识库源配置，支持 JSON5 格式（允许注释）"""
    if not os.path.exists(SOURCES_FILE):
        print(f"警告: 未找到 {SOURCES_FILE}，将使用旧版单一目录模式")
        return []
    try:
        # 修改点：使用 json5.loads 读取
        with open(SOURCES_FILE, "r", encoding="utf-8") as f:
            data = json5.load(f) # 或者 json5.loads(f.read())
        return data.get("sources", [])
    except Exception as e:
        print(f"读取配置文件失败: {e}")
        return []


def _should_include_file(file_path: str, source_config: Dict[str, Any]) -> bool:
    """
    判断文件是否应被纳入知识库
    规则：
      - 如果 source_config 包含 include_extensions，则文件扩展名必须在其中
      - 如果 source_config 包含 exclude_dirs，则文件路径中的任何部分不能匹配这些目录名
      - 如果 source_config 包含 exclude_files，则文件名不能匹配任意通配符模式
    """
    # 扩展名检查
    ext = os.path.splitext(file_path)[1].lower()
    allowed_exts = source_config.get("include_extensions", [])
    if allowed_exts and ext not in allowed_exts:
        return False

    # 排除目录检查（精确匹配路径中的目录名）
    exclude_dirs = source_config.get("exclude_dirs", [])
    path_parts = Path(file_path).parts
    for ex_dir in exclude_dirs:
        if ex_dir in path_parts:
            return False

    # 排除文件名模式检查（支持通配符）
    exclude_files = source_config.get("exclude_files", [])
    base_name = os.path.basename(file_path)
    for pattern in exclude_files:
        if fnmatch.fnmatch(base_name, pattern):
            return False

    return True


def _load_documents_from_file(file_path: str) -> List[Document]:
    """
    根据文件路径（本地路径或URL）加载文档。
    """
    # 判断是否为 URL
    if file_path.startswith("http://") or file_path.startswith("https://"):
        try:
            # 配置爬虫（模拟浏览器，设置超时）
            config = Config()
            config.request_timeout = 10
            config.browser_user_agent = (
                "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
            )

            article = Article(file_path, config=config)
            article.download()
            article.parse()

            # 创建 LangChain Document 对象
            doc = Document(
                page_content=article.text,
                metadata={
                    "source": file_path,
                    "title": article.title,
                    "type": "web_page",
                },
            )
            return [doc]
        except Exception as e:
            print(f"抓取网页 {file_path} 失败: {e}")
            return []

    # 以下是原有的本地文件处理逻辑
    else:
        ext = os.path.splitext(file_path)[1].lower()
        try:
            if ext == ".pdf":
                loader = PyPDFLoader(file_path)
            else:
                loader = TextLoader(file_path, encoding="utf-8")
            docs = loader.load()
            for doc in docs:
                doc.metadata["source"] = file_path
            return docs
        except Exception as e:
            print(f"加载文件 {file_path} 失败: {e}")
            return []


# ==================== 知识库更新（增量） ====================
def update_knowledge_base():
    """
    根据 knowledge_sources.json5 中的配置增量更新知识库。
    检测新增、修改、删除的文件，并同步到向量库。
    """
    sources = _load_sources()
    if not sources:
        print("未找到任何知识库源，请创建 knowledge_sources.json5")
        return

    # 加载上一次的文件状态（记录文件路径和修改时间）
    file_state = _load_file_state()
    # 构建本次扫描到的文件状态
    new_file_state = {}
    # 记录本次处理的所有文件路径，用于后续判断哪些文件被删除了
    all_files_processed = set()

    for src in sources:
        print(f"处理源: {src['name']} ({src['type']})")

        if src["type"] == "directory":
            root_dir = src["path"]
            if not os.path.exists(root_dir):
                print(f"  路径不存在，跳过: {root_dir}")
                continue

            # 递归遍历目录
            for root, dirs, files in os.walk(root_dir):
                # 跳过排除目录
                exclude_dirs = src.get("exclude_dirs", [])
                dirs[:] = [d for d in dirs if d not in exclude_dirs]

                for file in files:
                    file_path = os.path.join(root, file)

                    # 检查文件扩展名是否符合要求
                    if not _should_include_file(file_path, src):
                        continue

                    # 获取文件的最后修改时间
                    try:
                        current_mtime = os.path.getmtime(file_path)
                        # 构建文件的唯一标识（这里直接用路径）
                        file_key = file_path
                        all_files_processed.add(file_key)

                        # --- 增量更新逻辑 ---
                        # 如果文件是新的，或者文件已被修改，则重新加载
                        if (
                            file_key not in file_state
                            or file_state[file_key] != current_mtime
                        ):
                            print(f"  更新: {file_path}")

                            # 1. 如果向量库中已存在旧数据，先删除（保证数据一致性）
                            try:
                                result = vectorstore.get(where={"source": file_key})
                                if result["ids"]:
                                    vectorstore.delete(ids=result["ids"])
                            except Exception as e:
                                print(f"  删除旧数据失败 (可能首次加载): {e}")

                            # 2. 加载文档
                            docs = _load_documents_from_file(file_key)
                            if docs:
                                # 3. 切分文本
                                text_splitter = RecursiveCharacterTextSplitter(
                                    chunk_size=config["knowledge_base"]["chunk_size"],
                                    chunk_overlap=config["knowledge_base"][
                                        "chunk_overlap"
                                    ],
                                    separators=["\n\n", "\n", " ", ""],
                                )
                                chunks = text_splitter.split_documents(docs)

                                # 4. 添加到向量库
                                if chunks:
                                    vectorstore.add_documents(chunks)
                                    vectorstore.persist()  # 立即持久化
                                    print(f"    已添加 {len(chunks)} 个块")

                        # 更新本次的状态（无论是否变动，都记录当前时间）
                        new_file_state[file_key] = current_mtime

                    except Exception as e:
                        print(f"处理文件失败 {file_path}: {e}")

        elif src["type"] == "urls":
            # 处理 URL 列表
            urls = src.get("urls", [])
            for url in urls:
                print(f"  处理网页: {url}")
                all_files_processed.add(url)  # 将 URL 视为一种特殊的文件路径

                # 网页没有文件系统时间戳，策略：每次都强制更新（或根据ETag优化，此处简化为强制更新）

                # 1. 删除旧数据
                try:
                    result = vectorstore.get(where={"source": url})
                    if result["ids"]:
                        vectorstore.delete(ids=result["ids"])
                        vectorstore.persist()
                except Exception as e:
                    print(f"  清理旧网页数据失败: {e}")

                # 2. 抓取并加载
                docs = _load_documents_from_file(url)
                if docs:
                    # 3. 切分并添加
                    text_splitter = RecursiveCharacterTextSplitter(
                        chunk_size=config["knowledge_base"]["chunk_size"],
                        chunk_overlap=config["knowledge_base"]["chunk_overlap"],
                        separators=["\n\n", "\n", " ", ""],
                    )
                    chunks = text_splitter.split_documents(docs)
                    if chunks:
                        vectorstore.add_documents(chunks)
                        vectorstore.persist()
                        print(f"    添加了 {len(chunks)} 个文档块")

                # 网页状态记录：记录当前时间为“最后抓取时间”
                # 这样下次重启时，这个 URL 会被标记为已处理
                new_file_state[url] = time.time()

    # --- 处理文件删除逻辑 ---
    # 遍历上一次的状态，如果某个文件在本次扫描中没有出现，说明被删除了
    for old_path in file_state:
        if old_path not in all_files_processed:
            print(f"检测到文件已删除: {old_path}")
            try:
                result = vectorstore.get(where={"source": old_path})
                ids_to_delete = result["ids"]
                if ids_to_delete:
                    vectorstore.delete(ids=ids_to_delete)
                    vectorstore.persist()
                    print(f"    已从向量库中移除 {len(ids_to_delete)} 个块")
            except Exception as e:
                print(f"  删除向量块失败: {e}")
            # 注意：不需要将该路径写入 new_file_state，即自动从状态中剔除

    # 保存本次更新后的状态
    _save_file_state(new_file_state)
    print("知识库增量更新完成")


# ==================== 原有函数（保持兼容） ====================
def load_knowledge_base(reload: bool = False):
    """
    [旧版] 从配置的单一根目录加载所有文档，并更新向量库。
    如果 reload=True，会清空现有数据后重建；否则增量更新（按文件路径去重）。
    注意：此函数保留仅为兼容，推荐使用 update_knowledge_base() 进行多源增量更新。
    """
    root_dir = config["knowledge_base"]["root_dir"]
    if not os.path.exists(root_dir):
        print(f"知识库目录不存在: {root_dir}")
        return

    # 支持的文档扩展名
    extensions = [".txt", ".md", ".pdf", ".py", ".js", ".c", ".cpp", ".h", ".hpp"]
    loaders = []
    for ext in extensions:
        loaders.append(
            DirectoryLoader(
                root_dir,
                glob=f"**/*{ext}",
                loader_cls=TextLoader if ext != ".pdf" else PyPDFLoader,
                loader_kwargs={"encoding": "utf-8"} if ext != ".pdf" else {},
                recursive=True,
                show_progress=True,
            )
        )

    all_docs = []
    for loader in loaders:
        try:
            docs = loader.load()
            all_docs.extend(docs)
        except Exception as e:
            print(f"加载 {loader} 时出错: {e}")

    if not all_docs:
        print("未找到任何文档")
        return

    # 文本切分
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=config["knowledge_base"]["chunk_size"],
        chunk_overlap=config["knowledge_base"]["chunk_overlap"],
        separators=["\n\n", "\n", " ", ""],
    )
    chunks = text_splitter.split_documents(all_docs)

    if reload:
        # 清空现有数据
        vectorstore.delete_collection()
        vectorstore.persist()

    # 批量添加到向量库
    vectorstore.add_documents(chunks)
    vectorstore.persist()
    print(f"成功加载 {len(chunks)} 个文档块")


def retrieve(query: str, top_k: int = 5) -> List[Document]:
    """
    根据查询文本检索最相关的文档块。
    """
    results = vectorstore.similarity_search(query, k=top_k)
    return results


# ==================== 测试入口 ====================
if __name__ == "__main__":
    print("测试嵌入模型...")
    test_text = "Hello, world!"
    emb = embeddings.embed_query(test_text)
    print(f"嵌入维度: {len(emb)}")

    # 增量更新函数（需要 knowledge_sources.json）
    print("\n开始增量更新知识库...")
    update_knowledge_base()

    print("\n测试检索...")
    results = retrieve("代码审查", top_k=2)
    for i, doc in enumerate(results):
        print(f"\n--- 结果 {i+1} ---")
        print(doc.page_content[:200])

五、FastAPI 服务

同目录下创建并编辑 main.py 文件内容：

import os
import yaml
import requests
from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
from typing import Optional
import rag  # 导入我们之前写的 rag 模块

# 加载配置
with open("config.yaml", "r", encoding="utf-8") as f:
    config = yaml.safe_load(f)

app = FastAPI(title="代码审查助手", version="1.0")


# 请求体模型
class CodeReviewRequest(BaseModel):
    code: str
    language: Optional[str] = None
    file_path: Optional[str] = None


# 响应体模型
class CodeReviewResponse(BaseModel):
    result: str


@app.post("/review", response_model=CodeReviewResponse)
async def review_code(request: CodeReviewRequest):
    # 1. 根据代码片段检索知识库
    docs = rag.retrieve(request.code, top_k=5)
    knowledge_context = "\n\n".join([doc.page_content for doc in docs])

    # 2. 构造提示词
    prompt = f"""你是一个资深的代码审查专家，请基于以下参考资料，分析提供的代码逻辑是否正确，指出潜在问题、改进建议。
    
    【参考资料】
    {knowledge_context}
    
    【待审查代码】
    {request.code}
    
    请给出详细的审查结果，按问题严重性排序。如果代码正确，也请确认。"""

    # 3. 调用 Ollama 模型
    ollama_url = config["api"]["ollama_url"] + "/api/generate"
    payload = {
        "model": config["model"]["name"],
        "prompt": prompt,
        "stream": False,
        "options": {
            "temperature": config["model"]["temperature"],
            "num_predict": config["model"]["max_tokens"],
        },
    }

    try:
        response = requests.post(ollama_url, json=payload, timeout=60)
        response.raise_for_status()
        result = response.json()["response"]
    except Exception as e:
        raise HTTPException(status_code=500, detail=f"模型调用失败: {str(e)}")

    return CodeReviewResponse(result=result)


@app.get("/health")
async def health_check():
    return {"status": "ok"}


if __name__ == "__main__":
    import uvicorn

    uvicorn.run(app, host=config["api"]["host"], port=config["api"]["port"])

六、知识库索引json

同目录下创建并编辑 knowledge_sources.json 文件内容：

{
    // 这是一个注释：定义知识库的各个数据源
    "sources": [
        {
            "name": "项目代码", // 源的名称，仅用于日志显示
            "type": "directory", // 类型必须是 directory
            "path": "D:/my_project/code", // 你的本地代码路径
            "include_extensions": [ // 只包含这些后缀的文件
                ".py",
                ".js",
                ".ts",
                ".html"
            ],
            "exclude_dirs": [ // 可选：排除的文件夹名
                "__pycache__",
                "node_modules"
            ]
        },
        {
            "name": "ex4nicegui仓库",
            "type": "urls",
            "urls": [
                // 这是一个注释：这里放你想抓取的网页链接
                "https://github.com/CrystalWindSnake/ex4nicegui",
                "https://github.com/CrystalWindSnake/ex4nicegui-examples"
            ]
        },
        {
            "name": "本地文档",
            "type": "directory",
            "path": "D:/docs/manuals",
            "include_extensions": [
                ".pdf",
                ".txt",
                ".md",
                ".doc",
                ".docx",
                ".xls",
                ".xlsx"
            ]
        }
    ]
}

同级目录下创建 `update_kb.py` ：

# update_kb.py
import json5
from rag import update_knowledge_base  # 只导入函数

def main():
    # 1. 加载配置
    config = json5.load(open("knowledge_sources.json5"))
    
    # 2. 执行增量更新 (直接调用函数，不再通过类)
    # 注意：update_knowledge_base 函数内部会自己处理配置加载
    update_knowledge_base()

if __name__ == "__main__":
    main()

同级目录下创建 `evaluate.py`：

# evaluate.py
import os
from datasets import Dataset
from ragas import evaluate
from ragas.metrics import (
    faithfulness,
    answer_relevancy,
    context_precision,
    context_recall,
)
from rag import embeddings, vectorstore, retrieve

# --- 步骤 1：准备问题列表 ---
# 这里是你想测试 RAG 效果的问题
questions = [
    "什么是车载CAN接口升级的流程？", 
    "ex4nicegui 是什么？",
    "如何配置知识库的源路径？"
]

# --- 步骤 2：将问题转换为 RAGAS 需要的 Dataset 格式 ---
data = {
    "question": questions,
}
dataset = Dataset.from_dict(data)

# --- 步骤 3：定义你的 RAG 流水线 ---
# RAGAS 需要知道如何从你的系统中获取上下文和答案
from langchain_core.language_models import BaseLLM
from langchain_core.retrievers import BaseRetriever
from ragas.llms import LangchainLLM
from ragas.retrievers import LangchainRetriever

# 注意：这里需要你定义或导入你的 LLM
# 假设你已经在 rag.py 中定义了 llm 变量，或者你需要在这里初始化一个
# 为了演示，我们先用一个占位符，或者你需要补充你的 LLM 初始化代码
# 这里假设你有一个 Ollama 模型
from langchain_ollama import ChatOllama
llm = ChatOllama(model="qwen2.5:7b-32k", temperature=0) # 使用你的模型名

# �包装修辞器
ragas_llm = LangchainLLM(llm)
# 包装检索器 (RAGAS 需要这种格式)
class SimpleRetriever(BaseRetriever):
    def _get_relevant_documents(self, query, *, run_manager):
        return retrieve(query) # 调用你 rag.py 里的 retrieve 函数

retriever = SimpleRetriever()

# --- 步骤 4：定义评估指标 ---
# 这些指标不需要 Ground Truth
metrics_without_gt = [
    context_precision, # 检索到的上下文有多少是相关的
    faithfulness,      # 生成的答案是否基于检索到的上下文（是否幻觉）
    answer_relevancy,  # 生成的答案是否回答了问题
]

# 如果你有 Ground Truth，可以加上 context_recall
# 但为了简单起见，我们先用上面三个

# --- 步骤 5：运行评估 ---
try:
    result = evaluate(
        dataset,
        llm=ragas_llm,
        retriever=retriever,
        metrics=metrics_without_gt,
        # 因为你的 main.py 里设置了 num_predict，RAGAS 可能会继承它导致截断
        # 建议显式设置一个较大的值，或者在 LLM 初始化时处理
    )
    
    # --- 步骤 6：输出结果 ---
    print("\n--- 评估报告 ---")
    print(result)
    
    # 转为表格查看
    import pandas as pd
    df = result.to_pandas()
    print("\n--- 详细数据 ---")
    print(df)
    
except Exception as e:
    print(f"评估出错: {e}")
    print("可能原因：模型响应太慢超时，或者模型不支持某些特定的提示词格式。")

七、测试知识库

# 激活虚拟环境
rag_env\Scripts\activate

# 更新知识库
python update_kb.py

# 启动服务
python main.py

# 仅当服务需要重新加载知识库时执行
python main.py --reload

八、通过对话形式调用大模型

统计目录下创建 `chat.py`:

import rag
import requests
import yaml

# 加载配置
with open("config.yaml", "r", encoding="utf-8") as f:
    config = yaml.safe_load(f)

def ask_question(question: str):
    # 1. 检索知识库
    docs = rag.retrieve(question, top_k=5)
    context = "\n\n".join([doc.page_content for doc in docs])

    # 2. 构造提示词
    prompt = f"""你是一个知识渊博的助手，请基于以下参考资料回答用户的问题。
    
    【参考资料】
    {context}
    
    【用户问题】
    {question}
    
    请根据参考资料回答，如果参考资料中没有相关信息，请说明你不知道。"""

    # 3. 调用 Ollama
    ollama_url = config["api"]["ollama_url"] + "/api/generate"
    payload = {
        "model": config["model"]["name"],
        "prompt": prompt,
        "stream": False,
        "options": {
            "temperature": config["model"]["temperature"],
            "num_predict": config["model"]["max_tokens"]
        }
    }
    try:
        response = requests.post(ollama_url, json=payload, timeout=60)
        response.raise_for_status()
        result = response.json()["response"]
        return result
    except Exception as e:
        return f"模型调用失败: {e}"

if __name__ == "__main__":
    print("对话模式已启动（输入 exit 退出）")
    while True:
        user_input = input("\n你: ")
        if user_input.lower() in ["exit", "quit"]:
            break
        print("思考中...")
        answer = ask_question(user_input)
        print(f"助手: {answer}")

注意事项

路径格式：Windows使用反斜杠\，但在配置文件中建议使用正斜杠/或双反斜杠\\
环境变量：确保Python和Ollama已正确添加到系统PATH
权限问题：可能需要以管理员权限运行命令提示符
防火墙：确保8000端口未被防火墙阻止
性能优化：在Windows上运行大模型可能需要更多内存，建议至少16GB RAM
GPU支持：如果需要GPU加速，确保安装了正确的CUDA驱动和PyTorch GPU版本
服务管理：Oll

上一页本地模型部署与知识库搭建(Mac)

最后更新于 1分钟前

hashtag一、准备环境与模型拉取

hashtag1. 安装 Ollama

hashtag2. 配置ollama镜像源

hashtag3. 拉取模型

hashtag二、Python版本与依赖安装

hashtag1. 安装[email protected]版本

hashtag2. 创建虚拟环境并安装依赖

hashtag三、配置文件

hashtag四、配置RAG并初次构建知识库

hashtag五、FastAPI 服务

hashtag六、知识库索引json

hashtag七、测试知识库

hashtag八、通过对话形式调用大模型

hashtag注意事项