Skip to content

一个简洁且优秀的描述是:这是一款在任何网页上实现无缝语音转文字的 Chrome 扩展,使用先进的 ASR API。

License

Notifications You must be signed in to change notification settings

yeahhe365/PageTalk

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 

Repository files navigation

PageTalk - 让网页听懂你的话 🎙️

English | 中文

PageTalk 是一款开源的 Chrome 浏览器扩展,它能让你在任何网页的文本框中通过语音进行输入,彻底解放你的双手。无论是在搜索引擎、社交媒体、电子邮件还是在线文档中,只需点击悬浮按钮或按下快捷键,即可开始说话,文字便会自动输入。 PixPin_2025-09-13_13-40-04


✨ 主要功能

  • 🌐 随处可用: 在任何网页的输入框、文本域或富文本编辑器中都能使用语音输入。
  • 🖱️ 悬浮按钮: 界面上会显示一个可拖动的悬浮麦克风按钮,单击即可开始/停止录音。
  • ⌨️ 快捷键支持: 完全可自定义的全局快捷键,让你无需鼠标也能高效操作。
  • 🚀 双引擎驱动:
    • 免费服务: 内置一个开箱即用的免费识别服务,无需任何配置。
    • 阿里云百炼: 支持配置你自己的阿里云百炼 API Key,使用性能更强、更稳定的 qwen3-asr-flash 模型。
  • 🌍 多语言支持: 支持自动检测语言,也可手动选择包括中文、英语、日语在内的十几种常用语言。
  • 📄 文件转录: 双击悬浮按钮即可打开转录面板,支持拖拽本地音频/视频文件进行离线转录。
  • 🧠 智能格式化: 开启“逆向文本标准化”(ITN)后,能将语音中的数字、日期、单位等自动转换为书面语格式(例如,“一百块钱” -> “100元”)。
  • 🎯 上下文优化: 可设置特定领域的专业词汇作为上下文,显著提升复杂场景下的识别准确率。
  • 🎨 高度可定制:
    • UI 缩放: 自由调整悬浮按钮及相关 UI 的大小。
    • 按钮显隐: 可选择隐藏悬浮按钮,完全通过快捷键操作。
    • 自动复制: 识别完成后自动将文本复制到剪贴板。
    • 设备选择: 自由选择要使用的麦克风设备。

🛠️ 安装

方式一:从 Chrome 网上应用店安装(推荐)

即将上架,敬请期待!

方式二:手动安装(开发者模式)

  1. 下载并解压扩展程序包。
    • 对于普通用户: 点击下载最新打包好的稳定版 -> pagetalk.zip
    • 对于开发者: 克隆最新的源码: git clone https://github.com/yeahhe365/PageTalk.git
  2. 打开 Chrome 浏览器,在地址栏输入 chrome://extensions/ 并回车。
  3. 在页面右上角,打开 “开发者模式” 开关。
  4. 点击左上角的 “加载已解压的扩展程序” 按钮。
  5. 在弹出的文件选择框中,选择你刚刚下载并 解压 后的项目文件夹。
  6. 安装完成!你可以在浏览器工具栏看到 PageTalk 的图标。

🚀 使用指南

1. 基础配置

首次使用时,请点击浏览器工具栏上的 PageTalk 图标进行设置。

  • API 服务:
    • Free: 默认选项,无需任何配置即可直接使用。
    • 阿里云百炼: 性能更佳。选择此项后,请在下方输入你的 API Key。(如何申请?)
  • 语言: 推荐使用“自动检测”,它能识别多种语言。如有特定需求,也可手动选择。
  • 麦克风: 选择你希望使用的录音设备。
  • 快捷键: 点击输入框,然后直接按下你想要的组合键即可设置。
  • 其他选项: 根据你的使用习惯调整悬浮按钮、UI 缩放、自动复制等功能。
PixPin_2025-09-13_13-38-43

2. 实时语音输入

  1. 在任意网页上,用鼠标点击一个文本输入框(如搜索框、评论区等)。
  2. 通过以下任一方式开始录音:
    • 单击 屏幕右下角的悬浮麦克风按钮。
    • 按下你设置的 “开始/停止”快捷键 (默认为 Ctrl + /)。
  3. 按钮会显示录音动画,此时开始说话。
  4. 说完后,再次 单击 悬浮按钮或按下 快捷键 停止录音。
  5. 识别出的文本会自动插入到你之前点击的输入框中。

3. 文件转录

  1. 双击 悬浮麦克风按钮,屏幕中央会弹出一个转录面板。
  2. 将你的音频或视频文件(支持 mp3, wav, mp4, m4a 等多种格式)拖拽到面板的虚线框内。
  3. 等待识别完成,文本会显示在面板的文本框中。
  4. 你可以方便地复制识别结果。
PixPin_2025-09-13_13-39-05

🔒 隐私政策

我们高度重视你的隐私安全。

  • 数据传输: 你的语音数据会被实时加密传输至你所选择的 API 服务提供商(Free 服务或阿里云)进行处理,扩展本身不会存储任何语音或文本内容。
  • 本地存储: 你的配置信息(如 API Key、快捷键设置等)仅会加密存储在你的本地浏览器中,并利用 Chrome 的同步功能在你的设备间同步,我们无法访问这些信息。

🤝 贡献

欢迎任何形式的贡献!无论是提交 Bug 反馈、功能建议还是代码 Pull Request。

  • 报告问题: 如果你遇到了问题或有好点子,请通过 GitHub Issues 告诉我们。
  • 贡献代码:
    1. Fork 本项目。
    2. 创建你的功能分支 (git checkout -b feature/AmazingFeature)。
    3. 提交你的更改 (git commit -m 'Add some AmazingFeature')。
    4. 将分支推送到你的 Fork (git push origin feature/AmazingFeature)。
    5. 提交一个 Pull Request。

📄 开源协议

本项目基于 MIT License 开源。

About

一个简洁且优秀的描述是:这是一款在任何网页上实现无缝语音转文字的 Chrome 扩展,使用先进的 ASR API。

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published