メインコンテンツまでスキップ
バージョン: 1.0.1

カメラ画像認識 (GPT-4o)

概要

このサンプルは、OpenAIのGPT-4oを使用して、ARグラスのカメラに写っている物を認識します。

詳細

カテゴリ

  • カメラアクセス
  • ChatGPT
  • 音声案内

MiRZAに載せる上での特徴

  • スマートフォンと異なりARグラス上のカメラは視界に追従するため、視界内の状況について自然に把握することができます。

使用技術

  • ChatGPT
  • TextToSpeech
  • UnityWebRequest

ユースケース

  • 画像検索
  • 視覚障害者のための周囲の状況説明

お問い合わせ先

Unityプロジェクトのセットアップ

1. Snapdragon Spaces SDKのインポート

  1. まだ、Snapdragon Spaces SDKをインポートしていない場合はインポートします。

  2. 以下のサンプルのパッケージもインポートする必要があります。

2. MiRZAライブラリのインポート

3. QONOQサンプルのインポート

  1. 以下のUnityパッケージをダウンロードします。

  2. ダウンロードしたUnityパッケージをUnityEditorのProjectタブにドラッグ&ドロップします。

  3. サンプルがUnityプロジェクトにインポートされます。

4. 依存パッケージのインポート

UniTaskのインポート

  1. UniTask.2.5.5.unitypackage」をダウンロードします。

  2. ダウンロードした「UniTask.2.5.5.unitypackage」をUnityEditorのProjectタブにドラッグ&ドロップします。

  3. UniTaskが、Unityプロジェクトにインポートされます。

4. シーンのセットアップ

  1. ProjectのAssets/Samples/QONOQ/Scenes/GPT Image Analyzer/GPT Image Analyze Speackerシーンを選択します。
  1. Sample Assets/Image Analyzerオブジェクトを選択します。

  2. GPT Image AnalyzerコンポーネントのOpen AI_API Keyに「OpenAI」のAPIキーを入力します。

TIP

GPT Image AnalyzerコンポーネントのOpen AI API Key_TextにAPIキーが記載された.txt形式のファイルを格納することも出来ます。APIキーの.txtファイルのみを.gitignoreで除外することで、GitHub等で外部にプロジェクトを公開する場合に、役立ちます。

音声出力を行う場合

  1. Sample Assets/Google Text-To-Speechオブジェクトを選択します。

  2. GoogleTextToSpeechコンポーネントのGcp_API Keyに「Google Cloud」のAPIキーを入力します。

  1. このサンプルを使用するには、カメラフレームへのアクセス機能の有効化を行う必要があります。
    alt text

  2. UnityEditorの[Edit] > [Project Settings] > [XR Plug-in Management] > [OpenXR (Androidタブ)][Meta Quest Support]歯車マークをクリックします。
     

  3. Force Remove Internet Permission」を無効にします。  

WARNING

UnityEditor上でスクリプトのコンパイルがされるたびに、「Force Remove Internet Permission」は、自動で有効化されてしまう場合があります。その場合は、ビルドする直前にその都度無効化する必要があります

有効化されてしまっている場合は、Project Validationタブにて警告されるため、[Fix]をクリックすることでも、無効化出来ます。

  1. シーンをビルドします。

アプリの使用方法

  1. 以下のいずれかの方法で、画像認識を開始できます。

    • グラスの右側面のタッチセンサーをシングルタップする
    • UI上の画像解析ボタンを押す
  2. 数秒後に、解析結果がUIの右側に表示されます。

アプリが正常に動作しない場合