最終更新日:2024/1/5

ChatGPT新機能「GPT-4V」とは?使い方・料金などを解説

2022年11月にOpenAI社のChatGPTがリリースされて以来、ChatGPTは世界中のさまざまな分野に大きな影響を与えました。

たとえば、SEOに強いAIライティングツール「トランスコープ」は、OpenAI社のGPT-4を搭載したを搭載しており、SEOに強い文章作成が可能なAIツールです。ChatGPTはさまざまなビジネスに応用され、業務効率化・サービス改善と活用の幅が広いです。

そして、2023年9月25日、OpenAI社は新機能として「GPT-4V」の導入を発表し、世間から注目を集めています。

リリース以降も進化し続けるChatGPTのおかげで、私たちの生活や仕事はたった1年で便利になりました。

本記事では、ChatGPT有料版ユーザーの皆様に向けて、新機能であるGPT-4Vの概要や活用事例10選をご紹介します

ネット上では「ChatGPTに目ができた」と表現されており、新たに追加された機能について、これまでとの違いなどと合わせて見ていきましょう。

GPT-4Vに対する理解を深めたうえで活用できるよう、本記事の内容をお役立てください。

GPT-4Vとは

GPT-4Vは、OpenAI社が開発した「マルチモーダルAI」です

マルチモーダルとは、2種類以上のデータをもとに情報を集めて、解析・出力可能なAIのことです。

たとえば、以下のデータを使用します。

  • テキスト
  • 音声
  • 画像
  • 動画
  • 数値

ここからは、GPT-4Vの概要と機能について解説します。

GPT-4Vの概要・料金

GPT-4V導入前は、GPT-4がChatGPTで最新のLLM(大規模言語モデル)でした。

GPT-4は「ChatGPT Plus(月額20ドル)」に加入することで使用可能です

すでに有料プランへ加入済みのユーザーなら、今回導入されたGPT-4Vも利用できます。

また、GPT-4Vの「V」はVisionのことで、画像認識機能が加わりました。

もし、ChatGPTの導入がまだの方は、初心者向けChatGPTの始め方: ログインURLからアプリまでのコラムをぜひご覧ください。

画像認識機能について

これまでのChatGPTは、テキストによる対話のみでしたが、GPT-4Vでは画像による対話が可能となりました。

それにより、アップロードした画像内の情報を読み取って、質問に答えたり提案・アドバイスできたりします。

ChatGPTの登場だけでも衝撃を与え、リリースから1年未満で画像まで認識できるようになり、AI技術は目覚ましい進歩を遂げました。

GPT-4Vの導入によって、画像を認識する機能が追加され、より幅広い用途に活用できると期待されています。

【GPT-4V】画像認識機能の活用事例10選

ここからは、GPT-4Vの画像認識機能を使って、どのようなことができるのかを10個ご紹介します。

  1. 画像からサンプルコードを生成する
  2. 画像の内容を説明させる
  3. インテリアの改善案
  4. 画像の文章を要約する
  5. 画像から位置情報を特定する
  6. 画像内のアイテムの用途を説明させる
  7. 教科書などの画像を解説させる
  8. 画像内の文章を翻訳させる
  9. チャートを分析させる
  10. 手書きの文字や図を読み取る

画像のアップロード方法は、まずChatGPTのテキストボックス左側にある画像アイコンを選択します。

次にアップロードしたい画像を選択し、プロンプトを入力して送信するだけです。

それでは活用例を見ていきましょう。

1.画像からサンプルコードを生成する

ChatGPTは、下記のさまざまな言語でコードを生成できます。

  • HTML
  • Python
  • JavaScript
  • C++
  • Java

また、既存のコードに基づいて新しいコードを生成することも可能です。

GPT-4Vでは、アップした画像からSaaS(オンラインで使用できるソフトウェア)開発などに活かせるコードを生成できます

文字や数値だけでなく、デザイン・スタイルも元の画像に近いものとなります。

細かい部分は調整の必要がありますが、全体像ならGPT-4VにSaaSの開発を任せることもできそうです。

プロンプト例

あなたはHTMLコーダーです。添付の画像を出力するためのCSSやHTMLをコーディングしてください。

2.画像の内容を説明させる

GPT-4Vは、アップした画像が何を示しているのかや、画像内の状況などを説明できます

人の目では気付きにくいような、細かい情報について説明されて驚くユーザーもいるほどです。

ただし、プライバシーの問題で人物の識別に関する回答は制限されています。

また場合によっては、解析の精度が低いこともあります。

その場合は、補足するプロンプトを送信することによって、精度を高めることが可能です。

プロンプト例

添付の画像は何でしょうか?

3.インテリアの改善案

GPT-4Vは、画像を解析して改善のためにアドバイスできます

部屋を撮影した画像をアップすると、色味や明るさ、家具など項目別で改善点を洗い出すことが可能です。

あらかじめ自分の好みを伝えておくと、それに合わせた回答をしてくれるでしょう。

インテリアの他に収納方法や写真の撮り方、イラスト、自動車の運転についてのアドバイスもできます。

GPT-4Vを活用した高性能なアドバイスを行うサービスが、将来増えそうです。

プロンプト例

添付の画像のインテリアを改善する方法は?

4.画像の文章を要約する

もともとChatGPTには、文章を要約する機能がありました。

GPT-4Vでは、画像内にある文章を認識し、要約できます

画像をアップするだけで要約してくれるのは、手間が少なくて便利です。

プロンプト例

画像の内容を要約してください。

5.画像から位置情報を特定する

風景写真を提示して、どの場所かを推察・特定する機能も備わっています

世界中の風景から、1か所を選ぶのは、人間でも相当なスキルが必要でしょう。

情報の少ないよくある景色だと「特定は難しい」と回答があり、商業施設・〇〇のどこかなど、おおよその説明はしてくれます。

画像の中に特徴的な目印などがあれば、位置を特定しやすくなります。

また画像によっては、風景からどんな状況かを推察し説明する機能もあります。

プロンプト例

添付の画像はどこでしょうか?

6.画像内のアイテムの用途を説明させる

特定のアイテムを撮影して、用途を説明させることも可能です

初めて見る商品の場合、「これは一体何に使うのだろうか……」と悩む場面もあります。

説明文を読んでもピンとこないときなどでも、GPT-4Vを使えば質問内容に合わせて回答してくれます。

特に海外製品や、海外旅行時に調べる手間が省けるでしょう。

プロンプト例

添付の画像の薬は何でしょうか?

7.教科書などの画像を解説させる

教科書や参考書に掲載されている画像について、解説させることもできます

専門性の高い図解は、理解するまでが大変なものもあるでしょう。

また、GPT-4Vでは教科書の問題を解くことも可能です。

簡単な計算問題であれば、手順と合わせて回答します。

この機能によって、ネット上では「ChatGPTが子どもの家庭教師になる」や「考えなくなってしまいそうだ」とさまざまな意見があがっています。

プロンプト例

添付の画像の仕組みを小学生にわかるように説明してください。

8.画像内の文章を翻訳させる

GPT-4Vは画像内の文章を認識するだけでなく、文字起こしや翻訳することも可能です

翻訳ツールは数多く存在しており、ChatGPTによる翻訳の精度は高いと評価されています。

ただ翻訳するだけでなく、質問に対して回答をする点が、他のツールとは違う魅力だといえるでしょう。

また、GPT-4Vを使った文章の翻訳も精度が高く、文字起こしの正確さは人間以上だと言われています。

プロンプト例

添付の画像の英語を日本語に翻訳してください。

9.チャートを分析させる

GPT-4Vに、株価などのチャートを分析させることも可能です

分析させたい画像をアップし、質問を投げかけることによって、情報を解析した結果を説明してくれます。

株式や仮想通貨のトレーダーに向いている機能です。

しかし、場合によっては細かい数値が不正確であるなど、精度に粗さが見られるため注意してください。

データ分析を苦手とする人には、GPT-4Vを補助ツールとして活用できるでしょう。

プロンプト例

添付の画像のチャートは何を意味していますか?

10.手書きの文字や図を読み取る

GPT-4Vは、手書きの文字や図を読み取れます

たとえば、資料やノートを撮影し、手書きの文章を読み取って文字起こしが可能です。

また、ホワイトボードなどに書かれた内容を認識することもできます。

さらに、手書きのイメージ図をもとに、アプリの雛形の生成も可能です。

プロンプト例

添付の画像のホワイトボートの内容を説明してください。

GPT-4Vの評価

リリースされたばかりのGPT-4Vは、まだ開発中のため今後さらに精度が向上する可能性を秘めています

X(旧Twitter)で実際にGPT-4Vを体験したユーザーには、感動する人もいれば間違いを指摘したり、活用法のアイデアを出したりするポストもありました。

GPT-4Vを応用した便利なツールやサービスの登場で、ビジネスの効率化や私たちの生活がより豊かになるでしょう。

GPT-4Vの今後に注目です。

まとめ:GPT-4VでChatGPTはより高性能となった

本記事では、ChatGPT有料版ユーザーの皆様向けに、GPT-4Vの概要や活用事例10選をご紹介しました。

GPT-4Vが導入されたことによって、ChatGPTは画像認識が可能なマルチモーダルAIに進化し、活用の幅を広げています。

本記事を参考に、GPT-4Vを有効活用してください。

ChatGPTのプロンプトをまとめた厳選プロンプト集こちらからダウンロード可能です。

ご興味がおありの方は、無料ですのでダウンロードされてみてください。

また、生成AI(ジェネレーティブAI)とは?おすすめツール12選のコラムでは、動画や音声、3D画像などを生成できるAIツールについて詳しく紹介しております。

こちらもぜひご覧ください。

また、ビジネスを拡大する文章作成AIなら弊社が運営しておりますSEOに強いAIライティングツール「トランスコープ」がおすすめです。

トランスコープはGPT-4の技術を応用しており、マルチモーダル入力にも対応可能です。

ChatGPTの有料版にお申し込みされていない方でもご利用可能な、OCRで読み取った画像内の文字をベースにAIライティングする機能もございます。

まずは無料トライアルより、ぜひお試しください。

公式サイト:https://transcope.io/

最終更新日:2024/1/5

シェアモル株式会社 代表取締役

齋藤 康輔

大学在学中に半導体のシミュレーションを専攻する傍ら、人材会社にてインターン。
インターン中に人材会社向け業務システムを開発し、大学卒業後の2007年3月に上記システム「マッチングッド」を販売する会社、マッチングッド株式会社を設立。
12年の経営の後、2019年1月に東証プライム上場企業の株式会社じげんに株式譲渡。
売却資金を元手に、シェアモル株式会社を設立。
AIを利用したM&A・事業承継の仲介サービス「シェアモルM&A」SEOに強い文章をAIが作成する「トランスコープ」を展開中。

Contact

以下から登録またはX(旧Twitter)をフォローすると
お役立ち情報を無料で受け取れます!

SEOに強いAIライティングツールAIならトランスコープ

© Transcope.