Note
本仓库旨在提供 https://docs.bytebot.ai 的中文版本,由 zdoc.app 提供翻译。
git clone https://github.com/bytebot-ai/bytebot.git # 克隆本仓库
cd bytebot/docs # 进入 docs 目录
npm i -g mintlify # 全局安装 mintlify (一个文档站工具,类似于 VitePress)
mintlify dev # 启动预览
# 访问:http://localhost:3000 查看中文文档bytebot_github_login.mp4
bytebot_uc_2.mp4
桌面智能体是拥有专属计算机的人工智能。与仅限浏览器的智能体或传统 RPA 工具不同,Bytebot 配备完整的虚拟桌面,可执行以下操作:
- 使用任意应用程序(浏览器、邮件客户端、办公工具、IDE)
- 通过自有文件系统下载和组织文件
- 使用密码管理器登录网站和应用程序
- 读取和处理文档、PDF 及电子表格
- 跨不同程序完成复杂的多步骤工作流
将其视为拥有自己电脑的虚拟员工,能够查看屏幕、移动鼠标、键盘输入,并像人类一样完成任务。
当 AI 获得完整桌面环境访问权限时,将解锁仅限浏览器代理或 API 集成无法实现的能力:
向 Bytebot 下达诸如"从供应商门户下载所有发票并整理至文件夹"的任务时,它将:
- 打开浏览器
- 导航至各个门户
- 处理身份验证(包括通过密码管理器进行双重认证)
- 将文件下载至本地文件系统
- 将其整理到文件夹中
直接将文件上传至 Bytebot 桌面,它能够:
- 将完整 PDF 读入上下文
- 从复杂文档中提取数据
- 跨多个文件交叉引用信息
- 基于分析创建新文档
- 处理 API 无法访问的格式
Bytebot 不仅限于 Web 界面。它可以:
- 使用文本编辑器、VS Code 或电子邮件客户端等桌面应用程序
- 运行脚本和命令行工具
- 按需安装新软件
- 为特定工作流配置应用程序
只需点击并添加您的 AI 提供商 API 密钥。
选项 2:Docker Compose
git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot
# Add your AI provider key (choose one)
echo "ANTHROPIC_API_KEY=sk-ant-..." > docker/.env
# Or: echo "OPENAI_API_KEY=sk-..." > docker/.env
# Or: echo "GEMINI_API_KEY=..." > docker/.env
docker-compose -f docker/docker-compose.yml up -d
# Open http://localhost:9992Bytebot 由四个集成组件组成:
- 虚拟桌面:完整的 Ubuntu Linux 环境,预装应用程序
- AI 代理:理解您的任务并控制桌面来完成它们
- 任务界面:Web 用户界面,您可在此创建任务并观看 Bytebot 工作
- API:用于编程方式创建任务和控制桌面的 REST 端点
- 自然语言任务:只需描述您需要完成的内容
- 文件上传:将文件拖放到任务中供 Bytebot 处理
- 实时桌面视图:实时观看 Bytebot 工作
- 接管模式:在需要帮助或配置时接管控制
- 密码管理器支持:安装 1Password、Bitwarden 等以实现自动认证
- 持久化环境:安装程序后,它们将在未来任务中保持可用
"Go to Wikipedia and create a summary of quantum computing"
"Research flights from NYC to London and create a comparison document"
"Take screenshots of the top 5 news websites"
"Read the uploaded contracts.pdf and extract all payment terms and deadlines"
"Process these 5 invoice PDFs and create a summary report"
"Download and analyze the latest financial report and answer: What were the key risks mentioned?"
"Download last month's bank statements from our three banks and consolidate them"
"Check all our vendor portals for new invoices and create a summary report"
"Log into our CRM, export the customer list, and update records in the ERP system"
import requests
# Simple task
response = requests.post('http://localhost:9991/tasks', json={
'description': 'Download the latest sales report and create a summary'
})
# Task with file upload
files = {'files': open('contracts.pdf', 'rb')}
response = requests.post('http://localhost:9991/tasks',
data={'description': 'Review these contracts for important dates'},
files=files
)# Take a screenshot
curl -X POST http://localhost:9990/computer-use \
-H "Content-Type: application/json" \
-d '{"action": "screenshot"}'
# Click at specific coordinates
curl -X POST http://localhost:9990/computer-use \
-H "Content-Type: application/json" \
-d '{"action": "click_mouse", "coordinate": [500, 300]}'使用上述任一部署方法运行 Bytebot。
使用 UI 中的桌面选项卡来:
- 安装您需要的其他程序
- 设置用于身份验证的密码管理器
- 根据您的偏好配置应用程序
- 登录您希望 Bytebot 访问的网站
用自然语言创建任务,并观察 Bytebot 使用配置好的桌面完成任务。
- 发票处理和数据提取
- 多系统数据同步
- 从多个来源生成报告
- 跨平台合规性检查
- 自动化 UI 测试
- 跨浏览器兼容性检查
- 带截图的文档生成
- 代码部署验证
- 跨网站竞争分析
- 从多个来源收集数据
- 文档分析与摘要
- 市场研究汇编
Bytebot 构建于:
- 桌面端:Ubuntu 22.04,配备 XFCE、Firefox、VS Code 及其他工具
- 代理端:协调 AI 和桌面操作的 NestJS 服务
- UI 界面:用于任务管理的 Next.js 应用程序
- AI 支持:兼容 Anthropic Claude、OpenAI GPT、Google Gemini
- 部署方式:Docker 容器,便于自托管
- 数据隐私:所有操作均在您的基础设施上运行
- 完全控制:根据需要自定义桌面环境
- 无限制:使用您自己的 AI API 密钥,不受平台限制
- 灵活性:安装任意软件,访问任何系统
通过我们的LiteLLM 集成使用任意 AI 供应商:
- Azure OpenAI
- AWS Bedrock
- 通过 Ollama 使用本地模型
- 100+ 其他供应商
使用 Helm 在 Kubernetes 上部署:
# Clone the repository
git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot
# Install with Helm
helm install bytebot ./helm \
--set agent.env.ANTHROPIC_API_KEY=sk-ant-...- Discord:加入我们的社区获取帮助和参与讨论
- 文档:完整的指南请访问docs.bytebot.ai
- GitHub Issues:报告错误和请求功能
我们欢迎贡献!无论是:
- 🐛 错误修复
- ✨ 新功能
- 📚 文档改进
- 🌐 翻译
请:
Bytebot 采用 Apache 2.0 许可证开源。