Skip to content

Bytebot is a self-hosted AI desktop agent that automates computer tasks through natural language commands, operating within a containerized Linux desktop environment.

License

Notifications You must be signed in to change notification settings

zdocapp/bytebot-zh

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Bytebot Logo

Bytebot:开源 AI 桌面智能体

bytebot-ai%2Fbytebot | Trendshift

拥有专属计算机、为您完成任务的人工智能

Deploy on Railway

Docker License Discord

🌐 官网📚 文档💬 Discord𝕏 Twitter

Note

本仓库旨在提供 https://docs.bytebot.ai 的中文版本,由 zdoc.app 提供翻译。

如何使用中文文档

git clone https://github.com/bytebot-ai/bytebot.git # 克隆本仓库

cd bytebot/docs # 进入 docs 目录

npm i -g mintlify # 全局安装 mintlify (一个文档站工具,类似于 VitePress)

mintlify dev # 启动预览

# 访问:http://localhost:3000 查看中文文档

bytebot_github_login.mp4
bytebot_uc_2.mp4

什么是桌面智能体?

桌面智能体是拥有专属计算机的人工智能。与仅限浏览器的智能体或传统 RPA 工具不同,Bytebot 配备完整的虚拟桌面,可执行以下操作:

  • 使用任意应用程序(浏览器、邮件客户端、办公工具、IDE)
  • 通过自有文件系统下载和组织文件
  • 使用密码管理器登录网站和应用程序
  • 读取和处理文档、PDF 及电子表格
  • 跨不同程序完成复杂的多步骤工作流

将其视为拥有自己电脑的虚拟员工,能够查看屏幕、移动鼠标、键盘输入,并像人类一样完成任务。

为何赋予 AI 独立计算机?

当 AI 获得完整桌面环境访问权限时,将解锁仅限浏览器代理或 API 集成无法实现的能力:

完整任务自主性

向 Bytebot 下达诸如"从供应商门户下载所有发票并整理至文件夹"的任务时,它将:

  • 打开浏览器
  • 导航至各个门户
  • 处理身份验证(包括通过密码管理器进行双重认证)
  • 将文件下载至本地文件系统
  • 将其整理到文件夹中

处理文档

直接将文件上传至 Bytebot 桌面,它能够:

  • 将完整 PDF 读入上下文
  • 从复杂文档中提取数据
  • 跨多个文件交叉引用信息
  • 基于分析创建新文档
  • 处理 API 无法访问的格式

使用真实应用程序

Bytebot 不仅限于 Web 界面。它可以:

  • 使用文本编辑器、VS Code 或电子邮件客户端等桌面应用程序
  • 运行脚本和命令行工具
  • 按需安装新软件
  • 为特定工作流配置应用程序

快速开始

两分钟快速部署

选项一:Railway(最简易) Deploy on Railway

只需点击并添加您的 AI 提供商 API 密钥。

选项 2:Docker Compose

git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot

# Add your AI provider key (choose one)
echo "ANTHROPIC_API_KEY=sk-ant-..." > docker/.env
# Or: echo "OPENAI_API_KEY=sk-..." > docker/.env
# Or: echo "GEMINI_API_KEY=..." > docker/.env

docker-compose -f docker/docker-compose.yml up -d

# Open http://localhost:9992

完整部署指南 →

工作原理

Bytebot 由四个集成组件组成:

  1. 虚拟桌面:完整的 Ubuntu Linux 环境,预装应用程序
  2. AI 代理:理解您的任务并控制桌面来完成它们
  3. 任务界面:Web 用户界面,您可在此创建任务并观看 Bytebot 工作
  4. API:用于编程方式创建任务和控制桌面的 REST 端点

核心特性

  • 自然语言任务:只需描述您需要完成的内容
  • 文件上传:将文件拖放到任务中供 Bytebot 处理
  • 实时桌面视图:实时观看 Bytebot 工作
  • 接管模式:在需要帮助或配置时接管控制
  • 密码管理器支持:安装 1Password、Bitwarden 等以实现自动认证
  • 持久化环境:安装程序后,它们将在未来任务中保持可用

示例任务

基础示例

"Go to Wikipedia and create a summary of quantum computing"
"Research flights from NYC to London and create a comparison document"
"Take screenshots of the top 5 news websites"

文档处理

"Read the uploaded contracts.pdf and extract all payment terms and deadlines"
"Process these 5 invoice PDFs and create a summary report"
"Download and analyze the latest financial report and answer: What were the key risks mentioned?"

多应用工作流

"Download last month's bank statements from our three banks and consolidate them"
"Check all our vendor portals for new invoices and create a summary report"
"Log into our CRM, export the customer list, and update records in the ERP system"

编程控制

通过 API 创建任务

import requests

# Simple task
response = requests.post('http://localhost:9991/tasks', json={
    'description': 'Download the latest sales report and create a summary'
})

# Task with file upload
files = {'files': open('contracts.pdf', 'rb')}
response = requests.post('http://localhost:9991/tasks',
    data={'description': 'Review these contracts for important dates'},
    files=files
)

直接桌面控制

# Take a screenshot
curl -X POST http://localhost:9990/computer-use \
  -H "Content-Type: application/json" \
  -d '{"action": "screenshot"}'

# Click at specific coordinates
curl -X POST http://localhost:9990/computer-use \
  -H "Content-Type: application/json" \
  -d '{"action": "click_mouse", "coordinate": [500, 300]}'

完整 API 文档 →

设置您的桌面代理

1. 部署 Bytebot

使用上述任一部署方法运行 Bytebot。

2. 配置桌面

使用 UI 中的桌面选项卡来:

  • 安装您需要的其他程序
  • 设置用于身份验证的密码管理器
  • 根据您的偏好配置应用程序
  • 登录您希望 Bytebot 访问的网站

3. 开始下达任务

用自然语言创建任务,并观察 Bytebot 使用配置好的桌面完成任务。

使用场景

业务流程自动化

  • 发票处理和数据提取
  • 多系统数据同步
  • 从多个来源生成报告
  • 跨平台合规性检查

开发与测试

  • 自动化 UI 测试
  • 跨浏览器兼容性检查
  • 带截图的文档生成
  • 代码部署验证

研究与分析

  • 跨网站竞争分析
  • 从多个来源收集数据
  • 文档分析与摘要
  • 市场研究汇编

系统架构

Bytebot 构建于:

  • 桌面端:Ubuntu 22.04,配备 XFCE、Firefox、VS Code 及其他工具
  • 代理端:协调 AI 和桌面操作的 NestJS 服务
  • UI 界面:用于任务管理的 Next.js 应用程序
  • AI 支持:兼容 Anthropic Claude、OpenAI GPT、Google Gemini
  • 部署方式:Docker 容器,便于自托管

为何选择自托管?

  • 数据隐私:所有操作均在您的基础设施上运行
  • 完全控制:根据需要自定义桌面环境
  • 无限制:使用您自己的 AI API 密钥,不受平台限制
  • 灵活性:安装任意软件,访问任何系统

高级功能

多 AI 供应商支持

通过我们的LiteLLM 集成使用任意 AI 供应商:

  • Azure OpenAI
  • AWS Bedrock
  • 通过 Ollama 使用本地模型
  • 100+ 其他供应商

企业级部署

使用 Helm 在 Kubernetes 上部署:

# Clone the repository
git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot

# Install with Helm
helm install bytebot ./helm \
  --set agent.env.ANTHROPIC_API_KEY=sk-ant-...

企业部署指南 →

社区与支持

参与贡献

我们欢迎贡献!无论是:

  • 🐛 错误修复
  • ✨ 新功能
  • 📚 文档改进
  • 🌐 翻译

请:

  1. 首先查看现有的问题
  2. 提交 issue 讨论重大变更
  3. 提交带有清晰描述的 PR
  4. 加入我们的Discord讨论想法

许可协议

Bytebot 采用 Apache 2.0 许可证开源。


为您的 AI 配备专属计算机。探索其无限可能。

在 Railway 上部署

Tantl Labs 和开源社区构建

About

Bytebot is a self-hosted AI desktop agent that automates computer tasks through natural language commands, operating within a containerized Linux desktop environment.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • TypeScript 92.1%
  • Dockerfile 2.4%
  • CSS 2.0%
  • Smarty 1.5%
  • PLpgSQL 0.7%
  • Scheme 0.7%
  • JavaScript 0.6%