Local: 基于 DeepSeek 与混合架构的 AI 虚拟主播与电脑控制系统#

Local 是一个集成了语音识别 (ASR)、大语言模型 (LLM)、长期记忆系统 (RAG)、高质量语音合成 (TTS) 以及电脑控制功能的人工智能虚拟主播系统。本项目旨在构建一个类似 Neuro-sama 的数字生命，通过本地算力与云端 API 的混合驱动，实现在低延迟环境下的高智能互动，并支持自动化电脑操作。

🚀 技术架构 (Technical Stack)#

本项目采用”云端大脑 + 本地感官 + 电脑控制”的混合架构，充分发挥 RTX 5060 显卡的本地推理能力：

大脑 (Brain): DeepSeek-V3 (API)
- 负责核心对话逻辑、人设演绎及直播间互动。
听觉 (Ear): Faster-Whisper (Local)
- 基于本地显卡加速的语音转文字，实现毫秒级的语音指令接收。
嘴巴 (Voice): GPT-SoVITS (Local)
- 本地部署的高质量情感语音合成，支持零样本声音克隆。
记忆秘书 (Analyst): Qwen-Turbo (API)
- 负责从对话流中提炼关键事实，将短期记忆转化为结构化信息。
长期记忆 (Memory): ChromaDB (Local)
- 本地向量数据库，存储海量历史对话事实，实现”永不忘记”的互动体验。
身体 (Avatar): Live2DViewerEX
- 跨平台的虚拟形象驱动端，支持桌面挂件模式与 API 联动。
电脑控制 (Controller): PyAutoGUI + subprocess (Local)
- 本地电脑自动化控制，支持应用启动、网页访问、文本输入、笔记保存等操作。

🛠️ 核心机制 (Key Mechanisms)#

1. 记忆双轨制 (Memory Pipeline)#

系统通过双层架构管理记忆：

短期记忆: 维护最近 15 轮对话的上下文窗口。
长期记忆: 当对话窗口溢出时，触发 Qwen-Turbo 提炼事实，并存入 ChromaDB。在回答前，系统会自动检索相关事实并注入 DeepSeek-V3 的提示词中。

2. 低延迟响应流#

为了消除 AI 思考时的冷场，本项目实现了：

流式切句: 实时检测 DeepSeek 输出的标点符号，实现“边想边读”。
填充音机制: 在 API 请求期间随机播放“嗯…”、“我想想”等语气词音频。

3. 桌面联动#

利用 Live2DViewerEX 的远程控制功能，AI 可以根据情绪标签（如 [开心]）自动切换表情，并实现在桌面上的置顶透明显示。

4. 电脑控制系统#

通过模块化的电脑控制架构，实现安全的自动化操作：

安全守卫: 白名单机制验证应用路径，防止恶意操作
动作执行器: 支持应用启动、网页访问、文本输入、文件操作
智能解析: LLM 自动解析用户指令并转换为具体操作

💻 硬件要求#

显卡: NVIDIA GeForce RTX 5060 (笔记本版 8GB 显存) 或更高。环境: CUDA 12.1 + cuDNN 8.9.x。系统: Windows 10/11。 Python: 3.8+

📦 完整项目结构#

1
Local-project/
2
├── .env                        # 环境变量配置 (API密钥等)
3
├── .gitattributes             # Git 配置
4
├── .gitignore                 # Git 忽略规则
5
├── config.yaml                # 主配置文件
6
├── main.py                    # 主入口文件 (文本模式)
7
├── main copy.py               # 主入口文件副本 (带语音识别)
8
├── README.md                  # 项目说明文档
9
├── requirements.txt           # Python 依赖列表
10
├── __pycache__/               # Python 缓存文件
11
├── assets/                    # 资源文件目录
12
│   ├── audio_ref/             # 参考音频文件
13
│   │   ├── ref_text.txt       # 参考音频对应的文本
14
│   └── web/                   # 前端资源
15
│       ├── viewer.html        # Avatar 查看器页面
16
│       ├── js/                # JavaScript 文件
17
│       └── models/            # 3D 模型文件
18
├── data/                      # 数据存储目录
19
│   ├── chroma_db/             # 向量数据库
20
│   │   ├── chroma.sqlite3     # ChromaDB 数据库文件
21
│   │   └── [collection_dirs]/ # 集合数据目录
22
│   ├── logs/                  # 日志文件
23
│   └── temp/                  # 运行时临时文件
24
├── GPT-SoVITS-v2pro-20250604-nvidia50/ # GPT-SoVITS 语音合成引擎
25
│   ├── api_v2.py              # API 接口 v2
26
│   ├── api.py                 # API 接口
27
│   ├── batch_inference.py     # 批量推理
28
│   ├── config.py              # 配置
29
│   ├── extra-req.txt          # 额外依赖
30
│   ├── go-webui.bat           # Windows 启动脚本
31
│   ├── go-webui.ps1           # PowerShell 启动脚本
32
│   ├── install.ps1            # PowerShell 安装脚本
33
│   ├── install.sh             # Linux 安装脚本
34
│   ├── LICENSE                # 许可证
35
│   ├── README.md              # GPT-SoVITS 说明
36
│   ├── requirements.txt       # 依赖列表
37
│   ├── webui.py               # Web 界面
38
│   ├── __pycache__/           # Python 缓存
39
│   ├── GPT_SoVITS/            # 核心模块
40
│   │   ├── download.py        # 下载工具
41
│   │   ├── export_torch_script_v3.py # TorchScript 导出
42
│   │   ├── inference_cli.py   # 命令行推理
43
│   │   ├── inference_gui.py   # GUI 推理
44
│   │   ├── inference_webui_fast.py # 快速 Web 推理
45
│   │   ├── inference_webui.py # Web 推理
46
│   │   ├── onnx_export.py     # ONNX 导出
47
│   │   ├── process_ckpt.py    # 检查点处理
48
│   │   ├── s1_train.py        # 第一阶段训练
49
│   │   ├── s2_train_v3_lora.py # 第二阶段 LoRA 训练
50
│   │   ├── s2_train_v3.py     # 第二阶段训练 v3
51
│   │   ├── s2_train.py        # 第二阶段训练
52
│   │   ├── stream_v2pro.py    # 流式推理 v2pro
53
│   │   ├── sv.py              # 语音变声
54
│   │   ├── utils.py           # 工具函数
55
│   │   ├── __pycache__/       # 缓存
56
│   │   ├── AR/                # 声学模型
57
│   │   ├── BigVGAN/           # 声码器
58
│   │   ├── configs/           # 配置文件
59
│   │   ├── eres2net/          # 编码器
60
│   │   ├── f5_tts/            # TTS 模型
61
│   │   ├── feature_extractor/ # 特征提取器
62
│   │   ├── module/            # 核心模块
63
│   │   ├── prepare_datasets/  # 数据集准备
64
│   │   ├── pretrained_models/ # 预训练模型
65
│   │   ├── text/              # 文本处理
66
│   │   └── TTS_infer_pack/    # TTS 推理包
67
│   ├── GPT_weights/           # GPT 模型权重
68
│   │   ├── GPT_weights_v2/    # v2 权重
69
│   │   │   └── luotianyi-e50.ckpt
70
│   │   ├── GPT_weights_v2Pro/ # v2Pro 权重
71
│   │   ├── GPT_weights_v2ProPlus/ # v2ProPlus 权重
72
│   │   ├── GPT_weights_v3/    # v3 权重
73
│   │   └── GPT_weights_v4/    # v4 权重
74
│   ├── logs/                  # GPT-SoVITS 日志
75
│   ├── output/                # 输出目录
76
│   │   ├── asr_opt/           # ASR 优化输出
77
│   │   ├── slicer_opt/        # 音频切片优化
78
│   │   └── uvr5_opt/          # UVR5 优化
79
│   ├── runtime/               # Python 运行时环境
80
│   │   ├── 2.0/               # Python 2.0 兼容
81
│   │   ├── Lib/               # 标准库
82
│   │   ├── Scripts/           # 脚本
83
│   │   └── ...                # 其他运行时文件
84
│   ├── SoVITS_weights/        # SoVITS 模型权重
85
│   │   ├── SoVITS_weights_v2/ # v2 权重
86
│   │   │   └── luotianyi_e16_s432.pth
87
│   │   ├── SoVITS_weights_v2Pro/ # v2Pro 权重
88
│   │   ├── SoVITS_weights_v2ProPlus/ # v2ProPlus 权重
89
│   │   ├── SoVITS_weights_v3/ # v3 权重
90
│   │   └── SoVITS_weights_v4/ # v4 权重
91
│   ├── TEMP/                  # 临时文件
92
│   └── tools/                 # 工具脚本
93
│       ├── __init__.py
94
│       ├── assets.py          # 资源管理
95
│       ├── audio_sr.py        # 音频超分辨率
96
│       ├── cmd-denoise.py     # 命令行降噪
97
│       ├── my_utils.py        # 自定义工具
98
│       ├── slice_audio.py     # 音频切片
99
│       ├── slicer2.py         # 音频切片器2
100
│       ├── subfix_webui.py    # WebUI 修复
101
│       ├── __pycache__/       # 缓存
102
│       ├── AP_BWE_main/       # 音频处理
103
│       ├── asr/               # 自动语音识别
104
│       ├── denoise-model/     # 降噪模型
105
│       ├── i18n/              # 国际化
106
│       └── uvr5/              # UVR5 音频分离
107
├── modules/                   # 核心模块目录
108
│   ├── __init__.py            # 模块初始化
109
│   ├── _patch_ctranslate2.py  # CTranslate2 补丁
110
│   ├── agent/                 # Agent 子模块（ReAct agent + 工具）
111
│   │   ├── __init__.py
112
│   │   ├── browser.py         # 浏览器 / 网页检索工具
113
│   │   ├── core.py            # Agent 核心逻辑（ReAct loop）
114
│   │   └── tools.py           # Agent 可用工具封装
115
│   ├── config.py              # 配置加载
116
│   ├── ear.py                 # 语音识别模块
117
│   ├── llm.py                 # LLM 接口模块
118
│   ├── logging_config.py      # 日志配置
119
│   ├── utils.py               # 工具函数
120
│   ├── voice.py               # 语音合成模块
121
│   ├── __pycache__/           # Python 缓存
122
│   ├── avatar/                # Avatar 子模块
123
│   │   ├── __init__.py
124
│   │   ├── click_through.py   # 点击穿透
125
│   │   ├── expression.py      # 表情管理
126
│   │   ├── js_communication.py # JS 通信
127
│   │   ├── lip_sync.py        # 口型同步
128
│   │   ├── logger.py          # 日志
129
│   │   ├── manager.py         # Avatar 管理器
130
│   │   ├── resize.py          # 窗口调整
131
│   │   ├── tray.py            # 系统托盘
132
│   │   ├── webengine.py       # WebEngine 集成
133
│   │   └── widget.py          # 主窗口组件
134
│   ├── controller/            # 电脑控制模块
135
│   │   ├── __init__.py
136
│   │   ├── core.py            # 控制核心
137
│   │   ├── executor.py        # 动作执行器
138
│   │   └── safety.py          # 安全守卫
139
│   └── memory/                # 记忆管理子模块
140
│       ├── __init__.py        # 记忆模块初始化
141
│       ├── analyzers.py       # 文本分析器
142
│       ├── config.py          # 记忆配置参数
143
│       ├── conflict/          # 冲突检测与覆盖模块
144
│       │   ├── __init__.py
145
│       │   ├── constants.py
146
│       │   ├── detector.py
147
│       │   ├── locator.py
148
│       │   ├── models.py
149
│       │   ├── resolver.py
150
│       │   └── utils.py
151
│       ├── core.py            # 核心记忆管理类
152
│       ├── logger.py          # 日志配置
153
│       ├── retrieval.py       # 记忆检索与去重
154
│       └── storage.py         # 存储层
155
└── temp/                      # 临时文件目录

📦 项目结构详解#

核心模块 (modules/)#

1️⃣ ear.py - 听觉模块#

1
功能: 实时语音识别 (ASR)
2
实现:
3
  - 基于 PyAudio + Faster-Whisper 的语音输入
4
  - 支持 CUDA 加速 (float16 精度)
5
  - 集成 RMS 静音检测 (VAD)
6
  - 支持内存处理或临时文件存储
7
特点:
8
  - 毫秒级延迟的实时转写
9
  - 自动噪声过滤
10
  - 支持多种语言识别

2️⃣ llm.py - 大脑模块#

1
功能: 对话逻辑生成与记忆上下文注入
2
实现:
3
  - 调用 DeepSeek-V3 API (OpenAI 兼容格式)
4
  - 支持最多 2 次重试机制
5
  - 自动规范化文本输入
6
  - 将短期/长期/情感记忆注入系统提示词
7
特点:
8
  - 低延迟 API 响应处理
9
  - 自动异常重试
10
  - 记忆感知的智能回复

3️⃣ voice.py - 语音合成模块#

1
功能: 文本转语音 (TTS) 与音频播放
2
实现:
3
  - 集成 GPT-SoVITS 本地模型
4
  - 支持零样本声音克隆
5
  - 多线程 TTS 队列处理 + 音频播放
6
  - 低延迟配置 (256 样本缓冲)
7
特点:
8
  - 双队列设计: 文本队列 → 音频队列 → 播放
9
  - 预热机制减少首句延迟
10
  - PyAudio 流式输出 (32kHz)
11
  - 情感语调支持

4️⃣ memory/ - 人类化长期记忆系统#

1
结构:
2
  ├── core.py (HumanLikeMemory & MemoryManager)
3
  ├── conflict.py (冲突检测与自动覆盖)
4
  ├── storage.py (ChromaDB 向量数据库交互)
5
  ├── retrieval.py (语义检索与去重)
6
  ├── analyzers.py (实体提取、情感分析)
7
  └── config.py (记忆配置参数)
8

9
核心特性:
10
  - 四层记忆架构:
11
    1. 短期记忆: 最近 15 轮对话上下文
12
    2. 工作记忆: 当前会话的核心事实
13
    3. 长期记忆: ChromaDB 向量数据库存储
14
    4. 情感记忆: 用户偏好与情绪标签
15

16
  - 智能冲突检测 (四步流程):
17
    1. 实体定位: 提取对话中的关键词(如"食物"、"电影")
18
    2. 冲突检索: 基于向量相似度 + 语义匹配
19
    3. 智能判定: 应用规则判断是否存在冲突
20
    4. 自动覆盖: 物理删除旧记忆，插入新记录
21

22
  - 同类偏好自动覆盖:
23
    - 用户说"现在喜欢吃香蕉"时自动删除"喜欢吃苹果"
24
    - 基于实体类型(category)进行去重
25
    - 保留最新的用户偏好
26

27
  - 并行检索与去重:
28
    - 多线程检索历史记忆
29
    - 自动去除重复或相似的记忆片段

5️⃣ avatar/ - 虚拟形象驱动系统#

1
结构:
2
  ├── widget.py (PyQt6 WebEngine 渲染窗口)
3
  ├── manager.py (线程安全的 Avatar 控制器)
4
  ├── lip_sync.py (口型同步)
5
  ├── expression.py (表情切换: Emotion 枚举)
6
  ├── js_communication.py (JS-Python 双向通信)
7
  ├── click_through.py (穿透点击功能)
8
  ├── tray.py (系统托盘集成)
9
  └── resize.py (窗口自适应)
10

11
功能:
12
  - 集成 Live2D 模型渲染 (通过 WebEngine)
13
  - 表情系统: 开心、生气、害羞、中立等多种情感
14
  - 实时口型同步: 根据音频波形调整口形
15
  - 桌面挂件模式: 置顶透明窗口
16
  - 系统托盘控制: 最小化/显示/退出
17
  - 点击穿透: 允许与背景应用交互

6️⃣ controller/ - 电脑控制模块#

1
结构:
2
  ├── __init__.py
3
  ├── core.py (控制核心逻辑)
4
  ├── executor.py (动作执行器)
5
  └── safety.py (安全守卫系统)
6

7
功能:
8
  - 应用启动: 安全启动白名单内的应用程序
9
  - 网页访问: 打开浏览器并访问指定URL
10
  - 文本输入: 模拟键盘输入中文和英文文本
11
  - 笔记保存: 自动保存对话内容到文件
12
  - 安全检查: 白名单验证防止恶意操作
13

14
安全特性:
15
  - 路径验证: 检查应用路径是否存在且在白名单中
16
  - 命令过滤: 防止执行危险的系统命令
17
  - 日志记录: 记录所有电脑控制操作

7️⃣ config.py & logging_config.py - 配置与日志#

1
配置项:
2
  - ARK_API_KEY: DeepSeek 或其他 LLM API 密钥
3
  - SOVITS_URL: GPT-SoVITS 服务地址 (默认 http://127.0.0.1:9880)
4
  - REF_AUDIO: 参考音频路径 (用于语音克隆)
5
  - PROMPT_TEXT: 参考音频对应的文本
6
  - MODEL_NAME: LLM 模型名称 (如 deepseek-chat)
7
  - SYSTEM_PROMPT: 系统提示词 (定义 AI 人设)
8
  - GPT_SOVITS_PATH: GPT-SoVITS 本地路径
9

10
日志:
11
  - 按模块分类 (ProjectLocal.Ear, ProjectLocal.LLM, etc.)
12
  - 输出到 data/logs/ 目录
13
  - 调试级别可配置

入口文件 (main.py)#

1
核心类:
2
  - AIWorkerSignals: 定义 AI 工作线程与 GUI 的 Qt 信号
3
  - EarWorker: 麦克风监听线程，实时识别语音
4
  - AIWorker: 主 AI 处理线程 (对话/记忆/语音合成)
5

6
工作流:
7
  1. EarWorker 监听麦克风 → 输出文本
8
  2. AIWorker 接收文本 → 检索记忆 → 调用 LLM
9
  3. Controller 解析命令 → 安全检查 → 执行电脑操作
10
  4. LLM 返回响应 → 提炼记忆事实 → 存入 ChromaDB
11
  5. VoiceManager 合成语音 → 播放音频
12
  6. AvatarManager 同步表情与口型 → 完整互动

依赖项配置 (requirements.txt)#

核心依赖:

openai: LLM API 调用 (支持 DeepSeek)
chromadb: 向量数据库存储与检索
faster-whisper: GPU 加速语音识别
pyaudio: 音频输入输出处理
PyQt6: 桌面 GUI 框架
PyQt6-WebEngine: Live2D 模型渲染
pyautogui: 电脑自动化控制
jieba: 中文分词 (记忆提炼使用)
pyyaml: 配置文件解析
python-dotenv: 环境变量管理

🔄 工作流详解#

完整交互流程#

graph TD A["User Audio Input"] --> B["Ear Module Faster-Whisper Real-time Recognition"] B --> C["Memory Module Conflict Detection Retrieve History"] C --> D["LLM Module DeepSeek-V3 API Context Injection"] D --> E["Controller Module Parse Commands Security Check"] E --> F["Stream Sentence Cut & Filler Sounds Reduce API Latency"] F --> G["Memory Module Fact Extraction Store to ChromaDB"] G --> H["Voice Manager GPT-SoVITS Speech Synthesis"] H --> I["Controller Executor Execute Actions App Launch/Browser/Text Input"] I --> J["LipSync Manager Sync Lip Movement Expression Change"] J --> K["Avatar Widget PyQt6 Live2D Final Output"]

记忆系统的四步冲突检测#

graph LR INPUT["Input: I like eating bananas"] --> STEP1["Step 1: Entity Extraction entity=banana category=food preference"] OLDMEM["Old Memories like apples like grapes"] -.-> STEP2 STEP1 --> STEP2["Step 2: Conflict Retrieval Vector Search Semantic Matching"] STEP2 --> STEP3["Step 3: Conflict Detection Same entity Same category Different user"] STEP3 --> STEP4["Step 4: Auto Override Delete old memory Insert new memory Maintain consistency"] STEP4 --> OUTPUT["Output: Final State Only likes eating bananas"]

🚀 快速开始#

1. 环境配置#

1
# 克隆项目
2
git clone <repo-url>
3
cd Local-project
4

5
# 创建虚拟环境(可选)
6
python -m venv venv
7
# Windows: venv\Scripts\activate
8
# Linux/Mac: source venv/bin/activate
9

10
# 安装依赖
11
pip install -r requirements.txt

2. API 密钥配置#

创建 .env 文件:

1
ARK_API_KEY=your_deepseek_api_key
2
SYSTEM_PROMPT=你是一个名叫Local的AI虚拟主播,性格活泼开朗。
3
MODEL_NAME=deepseek-chat
4
GPT_SOVITS_PATH=./GPT-SoVITS-v2pro-20250604-nvidia50

3. 启动 GPT-SoVITS 服务#

1
cd GPT-SoVITS-v2pro-20250604-nvidia50
2
python api.py  # 启动 TTS 服务于 http://127.0.0.1:9880

4. 运行主程序#

1
python main.py

输入模式:

普通输入: 输入文本开始对话
电脑控制:
- “打开QQ” - 启动QQ应用程序
- “打开百度” - 打开浏览器访问百度
- “保存笔记：内容” - 保存笔记到文件
- “输入文本：内容” - 在当前窗口输入文本
exit/quit: 退出程序
status: 查看记忆系统状态

🎯 高级特性#

低延迟设计#

流式切句: 实时检测标点符号，边生成边播放
填充音机制: API 响应期间播放语气词 (“嗯…”、“让我想想…”)
预热机制: TTS 启动时预热模型减少首句延迟
小缓冲区: 256 样本缓冲 (32kHz 采样率) 实现最低延迟

人类化记忆#

遗忘曲线: 历史记忆根据时间衰减，模拟真实遗忘过程
情感权重: 高情感对话优先保留
去重机制: 检测和删除重复/相似的记忆片段
冲突覆盖: 自动处理记忆矛盾，保持一致性

Avatar 交互#

表情系统: 开心 😊 / 生气 😠 / 害羞 😳 / 中立 😐 等多种情感
口型同步: 根据音频波形精确同步口形
桌面挂件: 置顶透明窗口，支持穿透点击
系统托盘: 最小化/显示/快速退出

电脑控制功能#

智能命令解析: LLM 自动理解用户指令并转换为具体操作
安全执行: 白名单机制防止恶意操作，支持路径验证
多操作支持: 应用启动、网页浏览、文本输入、笔记保存
跨平台兼容: 支持 Windows 路径和命令格式
操作日志: 完整记录所有电脑控制操作便于调试

📊 关键配置参数 (config.yaml)#

1
# API 配置
2
api:
3
  ark_api_key: ""  # 从 .env 读取
4
  sovits_url: "http://127.0.0.1:9880"
5

6
# 音频配置
7
audio:
8
  ref_audio_path: "assets/audio_ref/ref_audio.wav"
9
  prompt_text: "大家好，我是虚拟歌手洛天依..."
10
  sample_rate: 32000
11

12
# 记忆配置
13
memory:
14
  data_dir: "data/chroma_db"
15
  collection_name: "seeka_memory"
16

17
# 电脑控制配置
18
controller:
19
  whitelist:  # 允许启动的应用程序白名单
20
    - "C:\\Program Files\\Tencent\\QQ\\Bin\\QQ.exe"
21
    - "C:\\Program Files\\Google\\Chrome\\Application\\chrome.exe"
22
  browser_path: "C:\\Program Files\\Google\\Chrome\\Application\\chrome.exe"
23
  notes_path: "data/notes"
24
  safety_enabled: true
25

26
# 日志配置
27
logging:
28
  log_dir: "data/logs"

💡 技术亮点#

混合架构优化: 充分利用本地 GPU，仅在关键环节调用云端 API
模块化设计: 每个功能独立实现，易于扩展和维护
实时性能: 毫秒级语音识别，秒级对话响应
人性化交互: 流式对话、情感表达、长期记忆
电脑控制集成: 安全的自动化电脑操作，支持智能命令解析
完全本地化: 无需依赖商业云服务，数据隐私有保障

Local: 基于 DeepSeek 与 混合架构的 AI 虚拟主播与电脑控制系统#