テキスト、音声、画像を入出力可能
生成AI(人工知能)「ChatGPT」開発で知られるOpenAI(オープンAI)は13日、GPT-4oと呼ばれる新しいAIモデルをリリースした。
本物の人間のように聞こえる、抑揚ある音声会話が可能であり、テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の様々な形式で応答を出力することができる。
ユーザーによる音声入力には、わずか約0.2~0.3秒程度で反応する。これは人間の会話における反応速度と同程度だ。また、ChatGPTが話している間にさえぎることで答えの生成を中断することも可能である。
OpenAIのリサーチャーによれば、こうしたことは、これまでのAI音声アシスタントでは再現が難しかった現実の会話の特徴だ。
OpenAIのサム・アルトマンCEOは、GPT-4oについて「映画に出てくるAIのような気がする」「コンピューターと話すことは、これまで私にとって決して自然には感じられなかったが、今では自然に感じられる」と述べた。
Dad jokes with GPT-4o pic.twitter.com/8w1coXBRGH
— OpenAI (@OpenAI) May 13, 2024
確かに、公開されたデモンストレーションでユーザーのリクエストに応えて話し方の抑揚を変えたり、ジョークに笑ったりする様子は本物の人間の音声のようだ。
現在、すべてのユーザーがテキストおよび画像機能について、GPT-4oを使用することが可能となっている。無料ユーザーも限定アクセスができる形だ。今後数週間で、OpenAIは有料版に、新たなAI音声や画像認識機能などを追加していく。また、利用料は半額になるという。
なお、OpenAIによると、「GPT-4o」の「o」は、「すべての」「あらゆる」などを表わす英語の接頭辞「omni(オムニ)」の意味である。様々な能力を持つことを示唆しているとみられる。
子守唄や、カメラ画像の説明も
デモンストレーションでは、GPT-4oの様々な使い方が公開されている。例えば、以下のような機能が披露された。
Sarcasm with GPT-4o pic.twitter.com/APrYJMvBFF
— OpenAI (@OpenAI) May 13, 2024
- 二つのGPT-4oがやり取りし、メロディをハモる
- 同時通訳
- 子守唄や囁き声
- バースデイソングを歌う
- じゃんけんをする
- カメラに映った街の画像を説明する
- 数学の問題の解き方を教える
リスクへの対処
OpenAIによると、GPT-4o開発では、テキスト、視覚、音声にわたる単一の新しいAIモデルをエンドツーエンドでトレーニングした。形式に関わらず、すべての入力と出力を同じニューラルネットワークによって処理することを実現している。
また、OpenAIは、GPT-4oの音声モードには様々な新たなリスクがあることを認識しているとも述べた。今後数週間から数か月かけて、技術インフラなどの他、必要な安全性について取り組んでいくとしている。
すでに、社会心理学、偏見と公平性、誤情報などの分野で70人以上の外部専門家チームとリスクを確認する作業を行い、安全性を向上させたとも説明している。今後も、新たなリスクが発見され次第、それを軽減していく計画だ。
【求人】
— CoinPost(仮想通貨メディア) (@coin_post) March 29, 2024
国内最大手の暗号資産(仮想通貨)メディアCoinPostは、Web3事業の拡大に伴い、複数の事業部で新たな仲間を募集しています。
「編集部」では、長期で働ける学生インターンのライターや正社員を募集中です。ご応募お待ちしております。
詳細https://t.co/UsJp3v7P39