J.A.R.V.I.S：用 Python 搭一个语音助手-酒店常州论坛

J.A.R.V.I.S：用 Python 搭一个语音助手

GitHub 上有一个叫 J.A.R.V.I.S 的项目，Star 数 1246，用纯 Python 写的桌面语音助手。

名字取自漫威电影里钢铁侠的 AI 管家。项目作者是 GauravSingh9356，代码全部开源，功能覆盖了日常使用中大部分常见需求。

这个项目的核心卖点是语音交互。你对着麦克风说话，它识别语音内容后执行对应操作。整个流程从语音识别到任务执行，全在本地完成。

项目依赖的核心库包括 speech_recognition 做语音识别，pyttsx3 做语音合成，opencv 做人脸识别。另外还用到了 wikipedia、pyjokes、pyautogui 等第三方库。

安装过程不复杂。Windows 用户需要先装 PyAudio，这个库的安装稍微麻烦一点，需要去专门的页面下载对应 Python 版本的 whl 文件。Linux 用户则需要额外安装 espeak 包。其余依赖直接 pip install -r requirements.txt 就行。

功能方面，J.A.R.V.I.S 做了不少事情：

人脸动态认证。启动时会调用摄像头做光学人脸识别，验证使用者身份。这个功能基于 opencv 实现，算是一个基础的安全机制。

语音操控浏览器。你可以用语音让它打开任意网站，不需要手动输入 URL。说一句话就能跳转到目标页面。

邮件发送。通过 smtplib 实现，语音输入收件人和内容就能发邮件。对话过程中它会逐句确认你说了什么，避免误操作。

新闻播报。接入了新闻 API，语音提问就能获取实时新闻。播报完还会问你要不要打开新闻链接。

待办事项管理。支持语音添加和查询待办，数据会持久化保存。对日常记事来说够用。

天气查询。可以获取指定城市的温度、风速、湿度和天气描述。通过 API 接口获取数据后语音播报。

音乐播放。支持本地音乐文件播放，语音控制播放和暂停。

YouTube 搜索和下载。语音输入关键词可以在浏览器中打开 YouTube 搜索结果。也可以直接粘贴视频链接下载视频到本地。

维基百科查询。遇到不知道的问题，它会去维基百科抓取摘要然后语音读给你听。这个功能在日常问答场景中比较实用。

字典功能。输入单词后自动查询释义，还带拼写纠错。如果你打错了单词，它会尝试自动修正再查询。

经纬度查询。可以获取当前位置的地理坐标，基于 geocoder 库实现。

Google 地图搜索。语音输入地点名称，直接在浏览器中打开对应的 Google 地图搜索结果。

语音助手切换。项目内置了两个助手角色，J.A.R.V.I.S 是男声，F.R.I.D.A.Y 是女声。可以通过语音命令切换，两个助手共享相同的功能集。

整个项目结构清晰，主程序入口是一个 Python 脚本，各功能模块通过函数划分。代码量不大，适合学习 Python 语音交互开发的入门者阅读。

项目使用 MIT 协议开源，可以自由修改和分发。作者在 README 中也欢迎社区贡献，无论是修 bug 还是加新功能都可以提 PR。

对于想搭建自己语音助手的人来说，这个项目提供了一个完整的参考实现。从语音识别到功能执行，从人脸识别到多角色切换，各个环节都有现成的代码可以参考。在此基础上做定制开发，比从零开始效率高很多。

人脸识别到多角色切换，各个环节都有现成的代码可以参考。在此基础上做定制开发，比从零开始效率高很多。