Skip to content

kai2k9/Edge-VoMID

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Edge-VoMID

基于阿里3D Speaker模型的边缘端声纹识别系统

项目简介

Edge-VoMID 是一个基于阿里达摩院3D Speaker模型的声纹识别项目,专为边缘计算环境设计。该系统能够实现说话人注册、声纹特征提取和说话人识别等功能,支持实时声纹验证和身份确认。

核心特性

  • 🎯 高精度识别: 基于阿里3D Speaker模型,提供业界领先的声纹识别精度
  • 边缘优化: 专为边缘计算环境设计,支持轻量化部署
  • 🔧 易于集成: 简洁的API接口,支持快速集成到现有系统
  • 📊 阈值控制: 支持自定义相似度阈值,平衡识别精度和误识率
  • 📝 完整日志: 内置日志系统,支持调试和监控

技术架构

  • 模型: 阿里达摩院 speech_campplus_sv_zh-cn_3dspeaker_16k
  • 框架: ModelScope + PyTorch
  • 音频格式: 支持16kHz采样率的WAV文件
  • 特征提取: 基于余弦相似度的声纹特征匹配

安装依赖

pip install -r requirements.txt

配置说明

日志配置

项目使用 loguru 进行日志管理,支持:

  • 控制台和文件双重输出
  • 自动日志轮转(100MB)
  • 日志压缩和保留策略(7天)
  • 彩色输出和异常堆栈跟踪

模型配置

  • 模型名称: iic/speech_campplus_sv_zh-cn_3dspeaker_16k
  • 采样率: 16kHz
  • 音频格式: WAV

性能优化

  • 使用ModelScope Pipeline进行模型推理优化
  • 支持批量音频处理
  • 内存友好的特征存储
  • 异步日志记录

使用场景

  • 🔐 身份验证: 语音门禁、电话客服身份确认
  • 📞 通话监控: 通话录音说话人识别
  • 🎙️ 会议记录: 会议发言者自动标注
  • 🛡️ 安全防护: 声纹反欺诈系统

注意事项

  1. 音频质量: 建议使用清晰、无噪音的音频文件
  2. 采样率: 确保音频文件为16kHz采样率
  3. 时长要求: 建议音频时长在3-10秒之间
  4. 阈值设置: 根据实际场景调整相似度阈值

Edge-VoMID - 让声纹识别更简单、更高效

About

基于分布式架构的端侧声纹认证中间件

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%