AI MEDIA LAB の強み

2014年から仮想通貨・暗号資産業界に携わってきた経験や情報網を基に得ることのできる情報に加え、昨今成長著しい AI 技術を応用した市場解析、テクニカル分析手法やオンチェーン分析に基づき、選び抜かれた専門家が長期・中期・短期の3段階の投資判断による徹底した情報提供を実現できることです。
それらの情報と、分析や研究を行い続けてきた実績を、お客様の資産運用にお役立ちさせる事を御約束致します。

OpenAI、生成AIの革新的ニューモデル「GPT-4o」公開

主要ニュース

テキスト、音声、画像を入出力可能

生成AI(人工知能)「ChatGPT」開発で知られるOpenAI(オープンAI)は13日、GPT-4oと呼ばれる新しいAIモデルをリリースした。

本物の人間のように聞こえる、抑揚ある音声会話が可能であり、テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の様々な形式で応答を出力することができる。

ユーザーによる音声入力には、わずか約0.2~0.3秒程度で反応する。これは人間の会話における反応速度と同程度だ。また、ChatGPTが話している間にさえぎることで答えの生成を中断することも可能である。

OpenAIのリサーチャーによれば、こうしたことは、これまでのAI音声アシスタントでは再現が難しかった現実の会話の特徴だ。

OpenAIのサム・アルトマンCEOは、GPT-4oについて「映画に出てくるAIのような気がする」「コンピューターと話すことは、これまで私にとって決して自然には感じられなかったが、今では自然に感じられる」と述べた

確かに、公開されたデモンストレーションでユーザーのリクエストに応えて話し方の抑揚を変えたり、ジョークに笑ったりする様子は本物の人間の音声のようだ。

現在、すべてのユーザーがテキストおよび画像機能について、GPT-4oを使用することが可能となっている。無料ユーザーも限定アクセスができる形だ。今後数週間で、OpenAIは有料版に、新たなAI音声や画像認識機能などを追加していく。また、利用料は半額になるという。

なお、OpenAIによると、「GPT-4o」の「o」は、「すべての」「あらゆる」などを表わす英語の接頭辞「omni(オムニ)」の意味である。様々な能力を持つことを示唆しているとみられる。

子守唄や、カメラ画像の説明も

デモンストレーションでは、GPT-4oの様々な使い方が公開されている。例えば、以下のような機能が披露された。

  • 二つのGPT-4oがやり取りし、メロディをハモる
  • 同時通訳
  • 子守唄や囁き声
  • バースデイソングを歌う
  • じゃんけんをする
  • カメラに映った街の画像を説明する
  • 数学の問題の解き方を教える

リスクへの対処

OpenAIによると、GPT-4o開発では、テキスト、視覚、音声にわたる単一の新しいAIモデルをエンドツーエンドでトレーニングした。形式に関わらず、すべての入力と出力を同じニューラルネットワークによって処理することを実現している。

また、OpenAIは、GPT-4oの音声モードには様々な新たなリスクがあることを認識しているとも述べた。今後数週間から数か月かけて、技術インフラなどの他、必要な安全性について取り組んでいくとしている。

すでに、社会心理学、偏見と公平性、誤情報などの分野で70人以上の外部専門家チームとリスクを確認する作業を行い、安全性を向上させたとも説明している。今後も、新たなリスクが発見され次第、それを軽減していく計画だ。

タイトルとURLをコピーしました