カメラ画像認識 (GPT-4o)
概要
このサンプルは、OpenAIのGPT-4oを使用して、ARグラスのカメラに写っている物を認識します。
詳細
Unityプロジェクトのセットアップ
1. Snapdragon Spaces SDKのインポート
2. MiRZAライブラリのインポート
- 「MiRZAライブラリのUnityプロジェクトでの利用方法」の通りに、MiRZAライブラリをインポートします。
- タッチセンサーを使用して画像認識を開始する際に、MiRZAライブラリを使用しています。
3. QONOQサンプルのインポート
-
以下のUnityパッケージをダウンロードします。
-
ダウンロードしたUnityパッケージをUnityEditorの
Project
タブにドラッグ&ドロップします。 -
サンプルがUnityプロジェクトにインポートされます。
4. 依存パッケージのインポート
UniTaskのインポート
-
「UniTask.2.5.5.unitypackage」をダウンロードします。
-
ダウンロードした「UniTask.2.5.5.unitypackage」をUnityEditorの
Project
タブにドラッグ&ドロップします。 -
UniTaskが、Unityプロジェクトにインポートされます。
4. シーンのセットアップ
- Projectの
Assets/Samples/QONOQ/Scenes/GPT Image Analyzer/GPT Image Analyze Speacker
シーンを選択します。
-
Sample Assets/Image Analyzer
オブジェクトを選択します。 -
GPT Image Analyzer
コンポーネントのOpen AI_API Key
に「OpenAI」のAPIキーを入力します。
GPT Image Analyzer
コンポーネントのOpen AI API Key_Text
にAPIキーが記載された.txt形式のファイルを格納することも出来ます。APIキーの.txtファイルのみを.gitignoreで除外することで、GitHub等で外部にプロジェクトを公開する場合に、役立ちます。
音声出力を行う場合
-
Sample Assets/Google Text-To-Speech
オブジェクトを選択します。 -
GoogleTextToSpeech
コンポーネントのGcp_API Key
に「Google Cloud」のAPIキーを入力します。
-
このサンプルを使用するには、カメラフレームへのアク セス機能の有効化を行う必要があります。
-
UnityEditorの
[Edit] > [Project Settings] > [XR Plug-in Management] > [OpenXR (Androidタブ)]
で[Meta Quest Support]
の歯車マーク
をクリックします。
-
「Force Remove Internet Permission」を無効にします。
UnityEditor上でスクリプトのコンパイルがされるたびに、「Force Remove Internet Permission」は、自動で有効化されてしまう場合があります。その場合は、ビルドする直前にその都度無効化する必要があります。
有効化されてしまっている場合は、Project Validation
タブにて警告されるため、[Fix]をクリックすることでも、無効化出来ます。
- シーンをビルドします。
アプリの使用方法
-
以下のいずれかの方法で、画像認識を開始できます。
- グラスの右側面のタッチセンサーをシングルタップする
- UI上の画像解析ボタンを押す
-
数秒後に、解析結果がUIの右側に表示されます。
- Google CloudのAPIキーを設定済みの場合は、音声出力も行われます。
アプリが正常に動作しない場合
- インターネット機能の有効化に関するページをご確認ください。