OpenAIが2024年5月に新しくChatGPTのモデルを発表しました。読み方は「フォーオー」で、oは「omni(オムニ)」を表しており、テキスト、音声、画像の3つの入力をリアルタイムで処理および生成する能力を持っています。
マルチモーダル処理
マルチモーダルとは、簡単に言うと、AIがテキスト、音声、画像など複数の形式のデータを同時に扱えることを指します。
GPT-4oはテキスト、音声、画像を統合的に処理できるため、より自然で直感的な対話が可能になります。
高性能&コスト効率が高い
GPT-4oは従来のモデルに比べて高速かつ効率的であり、応答時間が人間の会話に近いレベルに達しています。
英語のテキストやコードにおいてはGPT-4 Turboと同等の性能を持ち、非英語のテキストに対しては大幅な改善を見せています。特に、視覚および音声の理解においては、既存のモデルよりも優れた性能を発揮します。
このモデルは前モデルよりもコスト効率が良く、広範囲のユーザーにとって利用しやすいものとなっています。特にAPI利用時には速度が大幅に向上しており、GPT-4oはGPT-4 Turboの2倍の速さを誇り、価格は半分となっています。
音声機能が大きく進化
いままでChatGPTでは音声は一度テキストに変換して処理し、その後、テキストを音声に戻すという手順を踏んでいましたが、4oでは、同じモデルで処理できるので、一度で音声で回答するという機能にアップデートされています。
音声入力に対しては、最短で232ミリ秒、平均で320ミリ秒で応答することができ、これは会話における人間の応答時間に近いです。
画像認識機能が強化
画像認識機能が強化されており、画像の読み込み性能がアップしています。
ChatGPT-4o
— 大野修平🤖公認会計士🤖GPT門下生 (@Shuhei_Ohno) May 13, 2024
仕訳もきれました。
(仕訳の解説もしてくれました) pic.twitter.com/U9Rh8bJeW9
試しに私の手書きのメモを読み込んで、文字起こししてみたのですが、従来モデルで難しかった文字起こしが、正確に実現できていました。
無料プランでもGPT-4oは制限がありつつも使えるようなので、まずはお試しで使ってみるとよいですね。