お客様各位

平素より当社のコンシェルジェサービスをご利用いただき、誠にありがとうございます。
誠に勝手ながら、当サービスは2024年10月1日をもちまして終了させていただくこととなりました。これまでのご愛顧に深く感謝申し上げるとともに、急なご案内となりましたことをお詫び申し上げます。

何かご不明点やご質問がございましたら、当サイトのContactからメールにて問い合わせしてください。

今後とも、さらなるサービス向上に努めてまいおりますので、何卒ご理解賜りますようお願い申し上げます。

敬具

株式会社 AI Media Lab
代表取締役 佐藤律志

OpenAI、生成AIの革新的ニューモデル「GPT-4o」公開

主要ニュース

テキスト、音声、画像を入出力可能

生成AI(人工知能)「ChatGPT」開発で知られるOpenAI(オープンAI)は13日、GPT-4oと呼ばれる新しいAIモデルをリリースした。

本物の人間のように聞こえる、抑揚ある音声会話が可能であり、テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の様々な形式で応答を出力することができる。

ユーザーによる音声入力には、わずか約0.2~0.3秒程度で反応する。これは人間の会話における反応速度と同程度だ。また、ChatGPTが話している間にさえぎることで答えの生成を中断することも可能である。

OpenAIのリサーチャーによれば、こうしたことは、これまでのAI音声アシスタントでは再現が難しかった現実の会話の特徴だ。

OpenAIのサム・アルトマンCEOは、GPT-4oについて「映画に出てくるAIのような気がする」「コンピューターと話すことは、これまで私にとって決して自然には感じられなかったが、今では自然に感じられる」と述べた

確かに、公開されたデモンストレーションでユーザーのリクエストに応えて話し方の抑揚を変えたり、ジョークに笑ったりする様子は本物の人間の音声のようだ。

現在、すべてのユーザーがテキストおよび画像機能について、GPT-4oを使用することが可能となっている。無料ユーザーも限定アクセスができる形だ。今後数週間で、OpenAIは有料版に、新たなAI音声や画像認識機能などを追加していく。また、利用料は半額になるという。

なお、OpenAIによると、「GPT-4o」の「o」は、「すべての」「あらゆる」などを表わす英語の接頭辞「omni(オムニ)」の意味である。様々な能力を持つことを示唆しているとみられる。

子守唄や、カメラ画像の説明も

デモンストレーションでは、GPT-4oの様々な使い方が公開されている。例えば、以下のような機能が披露された。

  • 二つのGPT-4oがやり取りし、メロディをハモる
  • 同時通訳
  • 子守唄や囁き声
  • バースデイソングを歌う
  • じゃんけんをする
  • カメラに映った街の画像を説明する
  • 数学の問題の解き方を教える

リスクへの対処

OpenAIによると、GPT-4o開発では、テキスト、視覚、音声にわたる単一の新しいAIモデルをエンドツーエンドでトレーニングした。形式に関わらず、すべての入力と出力を同じニューラルネットワークによって処理することを実現している。

また、OpenAIは、GPT-4oの音声モードには様々な新たなリスクがあることを認識しているとも述べた。今後数週間から数か月かけて、技術インフラなどの他、必要な安全性について取り組んでいくとしている。

すでに、社会心理学、偏見と公平性、誤情報などの分野で70人以上の外部専門家チームとリスクを確認する作業を行い、安全性を向上させたとも説明している。今後も、新たなリスクが発見され次第、それを軽減していく計画だ。

タイトルとURLをコピーしました