2024年5月19日

2024年5月31日

ChatGPTからGPT-4oが新登場、音声回答や画像認識の性能が向上

ChatGPT, Generative AI

OpenAIが2024年5月に新しくChatGPTのモデルを発表しました。読み方は「フォーオー」で、oは「omni（オムニ）」を表しており、テキスト、音声、画像の3つの入力をリアルタイムで処理および生成する能力を持っています。

マルチモーダル処理

マルチモーダルとは、簡単に言うと、AIがテキスト、音声、画像など複数の形式のデータを同時に扱えることを指します。

GPT-4oはテキスト、音声、画像を統合的に処理できるため、より自然で直感的な対話が可能になります。

高性能&コスト効率が高い

GPT-4oは従来のモデルに比べて高速かつ効率的であり、応答時間が人間の会話に近いレベルに達しています。

英語のテキストやコードにおいてはGPT-4 Turboと同等の性能を持ち、非英語のテキストに対しては大幅な改善を見せています。特に、視覚および音声の理解においては、既存のモデルよりも優れた性能を発揮します。

このモデルは前モデルよりもコスト効率が良く、広範囲のユーザーにとって利用しやすいものとなっています。特にAPI利用時には速度が大幅に向上しており、GPT-4oはGPT-4 Turboの2倍の速さを誇り、価格は半分となっています。

音声機能が大きく進化

いままでChatGPTでは音声は一度テキストに変換して処理し、その後、テキストを音声に戻すという手順を踏んでいましたが、4oでは、同じモデルで処理できるので、一度で音声で回答するという機能にアップデートされています。

音声入力に対しては、最短で232ミリ秒、平均で320ミリ秒で応答することができ、これは会話における人間の応答時間に近いです。

画像認識機能が強化

画像認識機能が強化されており、画像の読み込み性能がアップしています。

ChatGPT-4o
仕訳もきれました。
（仕訳の解説もしてくれました） pic.twitter.com/U9Rh8bJeW9
— 大野修平🤖公認会計士🤖GPT門下生 (@Shuhei_Ohno) May 13, 2024

試しに私の手書きのメモを読み込んで、文字起こししてみたのですが、従来モデルで難しかった文字起こしが、正確に実現できていました。

無料プランでもGPT-4oは制限がありつつも使えるようなので、まずはお試しで使ってみるとよいですね。

同じタグの記事を探す

タグ

2023年9月19日

ChatGPTで記事作成できるWordPressプラグイン AI Engineの特徴・使い方

ChatGPT Wordpress Wordpressプラグイン

2023年8月29日

SGEとは？Googleが検索結果に生成AIの回答を表示する機能をテスト中

Generative AI SEO

2023年4月15日

【検証】ChatGPTでWEBメディアの記事作成は可能なのか？【プロンプト付き】

ChatGPT

この記事を書いた人

株式会社Nobol

株式会社NobolはWEB制作や記事制作を得意にするWEBマーケティングカンパニーです。

ChatGPTからGPT-4oが新登場、音声回答や画像認識の性能が向上

マルチモーダル処理

高性能&コスト効率が高い

音声機能が大きく進化

画像認識機能が強化

最新のWEBマーケティングの情報をお届けNobolメルマガ

同じタグの記事を探す

ChatGPTで記事作成できるWordPressプラグイン AI Engineの特徴・使い方

SGEとは？Googleが検索結果に生成AIの回答を表示する機能をテスト中

【検証】ChatGPTでWEBメディアの記事作成は可能なのか？【プロンプト付き】

関連記事

お問い合わせが来ない！時の原因と解決策

UXの問題はなぜ発生するのか？ 〜作ってしまえば関係のない人たち〜

ChatGPTで記事作成できるWordPressプラグイン AI Engineの特徴・使い方

この記事を書いた人

UXの問題はなぜ発生するのか？　〜作ってしまえば関係のない人たち〜