KNOWLEDGE - COLUMN ナレッジ - コラム

GPT-4oの画像生成・認識機能を体験してみる

コラムイメージ画像

関連するソリューション

業務改革

AI

株式会社IDデータセンターマネジメント
ICTサービス第5部
テクニカルスペシャリスト 水谷 知彦顔写真

IDデータセンターマネジメント所属テクニカルスペシャリスト水谷です。
 
少し前の話になりますが、ChatGPTの最新バージョンGPT-4o(ChatGPT-4 Omni)が2024年5月13日にリリースされました。
既に利用されている方も多いと思いますが、今までのバージョンと比較して以下のような特徴があります。

GPT-4oの特徴

  1. マルチモーダル機能:テキストだけでなく、画像の認識や生成も可能です。
  2. 高度な自然言語処理:より自然で流暢な対話を実現し、複雑な質問にも対応します。
  3. 広範な知識ベース:多岐にわたるトピックについて詳しく回答できます。
  4. カスタマイズ性:ユーザーのニーズに合わせて設定や回答スタイルを調整できます。
  5. リアルタイム情報取得:インターネット検索機能を使って、最新の情報を提供できます。
簡単にまとめると、今までよりさらに高度なレベルで自然な会話が可能になりました。
 
上記の特徴を調べるさい、今までの癖でWebを検索して調べようとしましたが、調べている途中でChatGPTに直接聞けばよいことに気が付きました。
最新の情報もインターネット検索機能を利用して提供されるため、今の時代、知りたいことがあれば、とりあえずChatGPTなどの生成AIに質問してみるのが、回答を得るための一番の近道かもしれません。
 
今回のコラムでは、GPT-4oで提供されている機能の実力を実際に体験しながら見ていきたいと思います。
それでは一番楽しそうな画像認識、生成機能を体験していきます。

イラストをブラッシュアップしてみる

1.まず、ChatGPTに認識させたい画像を用意します。
画像

こちらは、私が作成した渾身のスイカのイラストになります。著作権フリーなので、どうぞご自由にご利用ください。
 
2.作成したイラストの画像をChatGPTにアップロードします。
画像をChatGPTにアップロード

3.アップロードした画像が何の画像かChatGPTに聞いてみます。
アップロードした画像が何の画像かChatGPTに聞いてみます。

グズグズなスイカのイラストでも、スイカの画像であることを認識してくれました。
 
ここからは、画像生成機能を利用して、アップロードした画像を元に、新たな画像を生成したいと思います。
 
4.作成したいイラストの条件を提示します。
作成したいイラストの条件を提示します。

元のイラストからは考えられないレベルのイラストを作成できました。絵心のない私でも、フリーハンドで書いた簡単なイラストから、商用でも利用可能なレベルのイラストを数分で作成することができました。

観光地の画像の場所を特定しガイドしてもらう

さらに、画像認識を別の使い方で利用してみます。
 
こちらの画像は先日私が沖縄へ旅行したさい、古宇利島の「ハートロック」と呼ばれる岩を撮った写真です。
画像

この画像から、この写真を撮った場所が日本のどこなのかをChatGPTに聞いてみます。
特徴的な岩の形になりますが、この画像だけでChatGPTは認識できるのでしょうか?



なんと、正確に認識して場所を特定してくれました。
 
さらに、ChatGPTが凄いのは、質問を入力して回答を出してくれるまで、ほぼタイムラグがないことです。質問を入力して[Enter]キーを押した後、1秒も掛からず場所を特定して回答を出してくれています。
 
 
こちらの画像の場所も特定してもらいましょう。
先ほどの画像と比較して、見た目一般的な橋の画像になりますが、認識をしてくれるのでしょうか?


こちらの画像も正確に認識をしてくれました。観光地レベルの画像であれば、ほぼ正確に認識をしてくれる様です。
 
今後は観光地で写真を撮って、撮った写真の情報からChatGPTに観光ガイドしてもらうことが旅行の常識になるかもしれません。
観光ガイド

最後に 

今回の体験を通して、改めてChatGPTの性能の高さに感心をしてしまいました。
こちらも少し前(2024年3月)に追加された機能になりますが、ChatGPTには回答を音声で読み上げる機能も追加されています。


[Read Aloud]ボタンをクリックすることで、設定している言語の音声で回答を読み上げてくれます。
現在、ChatGPTでは音声入力機能は提供されていませんが、「Google Chrome」の拡張機能などを利用して、音声入力に対応させることも可能になっています。
 
AIに音声で質問して音声で回答を得る、そんな映画で観たような世界が一般人でも利用できるレベルで現実になっています。
個人的な反省にはなりますが、世の中がこんなに便利になっているのに、冒頭にも書いたように、いつまでの今までのやり方にとらわれていてはダメですね。
 
ぜひ皆さんも生成AIを活用して、生産性の低い時間の削減を図ってみてはいかがでしょうか。
 
最後までお読みいただきありがとうございました。
それでは、次のコラムでお会いしましょう。
 


当サイトの内容、テキスト、画像等の転載・転記・使用する場合は問い合わせよりご連絡下さい。


エンジニアによるコラムやIDグループからのお知らせなどを
メルマガでお届けしています。

メルマガ登録ボタン


水谷 知彦

株式会社IDデータセンターマネジメント テクニカルスペシャリスト

この執筆者の記事一覧

関連するソリューション

業務改革

AI

関連するナレッジ・コラム

ブロードコムのVMware買収 ~利益の追求と混乱

次世代ソフトウェア開発で広がる地平線

AI処理を高速化する「NPU」とは