ChatGPTのOperatorでnoteに投稿する

Operatorはウェブブラウザを使用してタスクを実行できるAIエージェント。OpenAI版のComputer Use*1だと思われる。これを日本のサイトでも使えるのかどうかnoteで検証した。

openai.com

セットアップ手順

  1. アメリカに移動(!?)
  2. ChatGPT Proを契約
  3. https://operator.chatgpt.com/ を開く

実験(1): ログインして記事の下書きを作成する

メッセージ入力に「note.comにログインして記事の下書きを作成する」と入力して送信することもできるが。「左下のSetting→Saved tasks→Create」から対象サイトのURLを入力できる。今回はこれを使った。

実行すると以下のような動作になった

  1. note.comを開く
  2. Chromeの翻訳機能で日本語を英語にしていた
  3. ログインリンクを探してクリック
  4. ログイン情報をユーザーに入力してもらうよう専用のリモートブラウザウィンドウを出す
  5. 著者が自分でIDパスワードを入力してログインボタンを押す。完了ボタンを押してログインし終わったことを伝える
  6. ヘッダの「投稿」ボタンを押して新規作成画面を開く
  7. 「This is a draft article content.」を記入して保存。

リモートブラウザウィンドウを出す様子

結果

期待どうりタスクをこなした。 画面を英語に翻訳していたので、非英語ページ向けの指示が入っていそう。もしくはバイトが操作しているのかもしれない。

実験(2): 下書きを日本語に翻訳して保存する

今回はTaskの登録ではなくトップのメッセージから直接入力してみる。

ブラウザでログイン済みになっているので「https://note.com/ にログインして最後の下書きを日本語に翻訳して保存する。」と指示した。 以下のような手順でブラウザを操作していた。

  1. note.comを開く
  2. ヘッダーのプロフィールアイコンをクリックしてメニューを見る(地味にすごい)
  3. 「自分の記事」をクリックして一覧画面へ移動
  4. 記事を選択して編集画面を開く。ただし直前の下書きではなく2番目の記事を選択していた。本記事はスルーしていた
  5. おもむろに新規タブでBingで「Google Translate」を検索して開く(Microsoft Translatorを使ったれよ・・)
  6. noteのタブから本文をコピペしてGoogle Translateで日本語を英語に翻訳して戻す
  7. MISSION COMPLETE。日本語の下書きが英訳された(逆だったかもしれねぇ・・)

Google Translateを開く様子

結果

うまくいかなかったのは「ログインして最後の下書きを日本語に翻訳して保存する」を雑に1文で打ったのが影響したのかもしれない。

Websitesは自分で追加できる

デフォルトではWebsitesにBookingやDoorDashなどの固定サイトしか登録されていなかったが、実験(1)でタスクを実行したらnoteも登録されていた。 各サイトはサイト固有の追加の指示を設定したり、セッションをクリアしたりできる。

その他

  • モデルはComputer-Using Agent。gpt-4o相当の画像識別能力を持つ独自にトレーニングした新しいモデル。
  • アーキテクチャはComputer Useと同様にスクショからコマンドを生成方式だと思われる
  • 個人的にはDOM解析してテキストベースで動くようになってほしい→browser-useメモ
  • Anthropicは研究者向けにソースとデモを発表したが、OpenAIはそのうちのバズった部分だけ抽出してビジネス層に利用可能にした。ジャイアニズムの賜物と言えるだろう。