在微信中打开



Computer Use超详细小白教程

302.AI

2024-10-25

1112

导读：Computer Use超详细小白教程

美国时间10月22日，Anthropic推出重大更新！其中包括升级版的 Claude 3.5 Sonnet 以及一款新的 Claude 3.5 Haiku 模型，除此之外，这次还带来了全新功能Computer Use，这一功能支持像人类一样操作计算机，可以遵循用户的命令在计算机屏幕上移动光标，点击相关位置，并通过虚拟键盘输入信息，模拟人们与自己计算机的交互方式。

> Computer Use原理

Computer Use的原理就是：本地程序每次对电脑屏幕进行截屏，通过API传给AI，AI通过多模态识别能力判断鼠标和屏幕状态，返回操作命令，本地程序接受命令，对电脑进行操作，如此反复。每一个操作都要截图一次。

> 使用官方Demo

官方demo的原理是利用docker在本地虚拟了一个linux环境，通过浏览器展示，同时用claude来控制这个虚拟linux。官方demo的优势是界面比较直观，linux环境简单可控，比较容易展示各种功能。劣势是仅仅只能作为demo，实际应用价值有限。

具体操作步骤如下（以下均在windows环境，如果是Mac，命令可能会有少许不同）：

docker run ^    -e ANTHROPIC_API_KEY=%302_API_KEY% ^    -e ANTHROPIC_BASE_URL=%302_BASE_URL% ^    -v %USERPROFILE%/.anthropic:/home/computeruse/.anthropic ^    -p 5900:5900 ^    -p 8501:8501 ^    -p 6080:6080 ^    -p 8080:8080 ^    -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

（第一次会下载一些文件，时间会久一点，偶尔会因为网络问题下载不了，多试几次）

5、运行成功，显示如下：

> 使用独立程序

（这里是我们修改的版本，将API地址改为了302.AI的地址）

独立程序的原理是使用NodeJS开发了一款桌面端的软件，它能够直接对真实的桌面进行控制。独立程序的优势是可以对真实的桌面环境进行控制，让人有种AI控制电脑的创新体验感，劣势是由于每个人的桌面环境都非常复杂，这导致demo演示中成功率非常低。尤其是这个开源程序只会使用firefox浏览器。

具体操作步骤如下（以下均在Mac环境）：

1、下载并安装NodeJS环境

2、打开终端，按顺序输入下面的4条命令

git clone https://github.com/302team/302-agent.exe

下载软件包

cd 302-agent.exe

进入软件包

npm install

进行安装

ANTHROPIC_API_KEY="sk-xxxx" npm start

3、输入API KEY，在302后台生成，以sk开头。之后每次运行只需要运行第二步和最后一步。

此时应该会看到一个Agent.exe

第一次打开会需要授予比较多的权限，授予后即可使用。此时就可以使用了

> 成功案例

最后来看下通过302.AI生成的Demo，（以下demo为了方便观看，作了倍速处理）

1、搜索信息：当发送指令：“打开浏览器，搜索AI相关新闻”后，可以看到AI打开了一个网页浏览器，并在搜索引擎输入了关键词“AI新闻”，随后打开了一篇AI相关的新闻报道，最后还在对话框对搜索结果做了简单的总结：

2、玩游戏：当发送指令：“打开浏览器，进入五子棋页面，并开始游戏”，AI就会一步步找到提供的五子棋游戏网址，并点击开始游戏后，自己开始玩游戏：

3、内容抓取：可以让它直接进入网页“302.ai”，并总结网页内容反馈到对话框中：

4、AI和AI对话：在上一个demo的基础上，还可以一步步引导，最后实现利用computer use让ai和ai对话：

> 失败案例

1、数值计算：输入指令让它用计算器计算10000+1000时，计算器中得出的结果是200，原因大概率是重复点击的时候，丢失了点击。而AI模型识别到了这一错误，在对话框中输出了正确结果：11000，但这个属于作弊了。以此类推，遇到重复点击的情况，AI很有可能会出现错误，而在生产环境中，重复性的输入和点击是非常常见的。

2、信息查找：输入的指令是：打开浏览器器，进入网页"302.ai"，点击价格页面，我想要使用图片放大功能，价格是多少?

在前几步，有正确的打开价格表，但是在最后查询价格的时候，出现了幻觉，答案是

而大家都知道，302.AI是一个没有任何订阅的平台，只支持按需付费，这里完全是AI的幻觉，产生了虚假信息，对人进行了误导。

> 现在存在的问题

虽然在Anthropic发布Computer Use功能后，众多博主纷纷夸大其词地赞扬这一功能，但是经过302的实测，发现存在了三个主要的问题

1、速度慢：做一步想一步，基本都要间隔10-20s，效率极低，不知Claude未来是否可以实现提前规划几步？

2、错误率高：拿计算器作为例子，让它计算10000+1000，可能会少打几个0；而且对于复杂流程，容易错乱和产生幻觉。

3、费用高：每次操作都要截屏回传进行分析，且都是几千上万的token消耗；

总的来说，慢，错，贵是三个大问题，慢和贵可以通过端侧大模型解决，但错误率的话，Claude作为最强的模型，错误率都如此之高，可想而知端侧大模型更是困难，所以在现阶段是不可能三角都兼得的。

在现阶段，Computer Use这一功能其实并没有任何实际性生产力，甚至都不好玩，仅可以作为一个Demo展示。但是随着时间的发展，这个功能一定会越来越好用，从15%的操作成功率（Anthropic官方数据），直到超越人类的操作成功率。

> 对未来的展望

最后再展望下Computer Use的未来，RPA一直是生产环境的一个刚需，Anthropic今天正式打开了AI-RPA的序幕。未来大概率会出现完全为了操作电脑而训练的端侧模型，云端模型仅仅做一次大的路径规划，其余全部交给端侧模型去处理，端侧模型可以对一些小的错误进行判断和重试，无需云端模型参与，简单理解就是有点类似自动驾驶，云端模型计算导航路线，本地模型进行驾驶。

文章来源：【302.AI】公众号

【声明】该内容为作者个人观点，大数跨境仅提供信息存储空间服务，不代表大数跨境观点或立场。版权归原作者所有，未经允许不得转载。如发现本站文章存在版权问题，请联系：contact@10100.com

界面更新

政策更新

功能更新

302.AI

分享更新更全面的AI资讯。

内容 105

粉丝 0

咨询

关注