Owli-AI Assist
シーンを解析し、質問し、音声で答えを受け取れる画像説明アシスタントです。
AI を活用した視覚アシスタンス。
このページは機械翻訳で、現在編集レビュー前です。
クラウドモードの注目点
- スナップショットを撮影して VLM リクエストとして送信。
- 文脈を保ったまま追加質問を続けられます。
- Auto-Scan で定期的にシーンを更新。
- 音声入力でハンズフリー操作に対応。
- Streaming TTS により素早く音声でフィードバック。
主な機能
-
AI によるシーン説明(クラウドモード)
撮影した画像を Vision-Language モデルに送信し、分かりやすい言葉で説明します。
-
追加質問
現在の場面について、文字、物体、細部などを具体的に質問できます。
-
自動スキャン
必要に応じて一定間隔で新しい画像を解析し、周囲の変化を継続的に知らせます。
-
音声入力とストリーミング音声出力
質問は音声入力で行え、回答はリアルタイムの音声で再生されます。
-
追加撮影で文脈を補強
より詳しい分析のために追加画像を撮影できます。
-
個別アシスタンスプロファイル
短く簡潔、詳細重視、安全重視など、応答スタイルを調整できます。
-
文脈に応じた支援(自動モード)
買い物、駅、道路、レストランなどの状況を推定し、関連情報を優先します。
プライバシー
動作モード: クラウド
クラウドモードでは、画像説明と質問応答のために撮影画像が設定済みの AI プロバイダーへ送信されます。
送信されるのは分析に必要なデータのみで、具体的なデータフローはプロバイダーと実装に依存します。
システム要件
- Android 10 以降
- カメラとマイク
- クラウドモード用の安定したインターネット接続
詳細を見る
Owli-AI Assist は誰のためのアプリですか
Owli-AI Assist は、AI を使って周囲をより良く理解したい失明者や重度視覚障害者を対象としています。人的支援の代わりではありませんが、多くの日常場面で追加情報を提供できます。
画像説明アプリとして、Assist は場面を分かりやすく説明し、追加質問に答える視覚アシスタンスを提供します。音声操作に対応しているため、ハンズフリーで素早く情報を得られます。
アプリが行うこと
Owli-AI Assist は、次の流れで視覚支援を行います。
- カメラが現在の場面を捉えます。
- 画像が AI モデルに送信されます。
- モデルが場面を分かりやすく説明します。
- 必要に応じて具体的な追加質問ができます。
例えば次のような質問が可能です。
- 目の前には何がありますか。
- この標識の文字を読んでください。
- 棚にはどんな商品がありますか。
- ディスプレイには何と表示されていますか。
回答は音声で再生されるため、手を空けたまま利用できます。
継続的な情報のための自動スキャン
自動スキャンモードでは、一定間隔で新しい画像を解析します。手動で毎回操作しなくても、周囲の変化を継続的に把握できます。
音声入力と音声出力
質問は音声で行えます。回答はストリーミング音声で返されるため、長い説明でも最後まで待たずに聞き始められます。
パーソナライズされた文脈対応アシスタンス
Owli-AI Assist では、複数のアシスタンスプロファイルを使えます。短く簡潔な説明、より詳細な説明、安全重視など、目的に応じた調整が可能です。
自動モードでは、日常場面を推定して重要情報を優先します。
例:
- 道路環境 では車両、動き、信号機を優先します。
- スーパーマーケット では商品、棚、価格情報を重視します。
- 駅や停留所 では入口、表示、位置の手がかりを優先します。
- レストランやカフェ では人、テーブル、メニューを重視します。
On-Device 検出(任意)
将来的な拡張として、選択した物体をスマートフォン上で直接認識するローカル検出モードを想定しています。このモードではインターネット接続なしで動作し、画像データは端末内だけで処理されます。
プライバシーと処理
クラウドモードでは、撮影画像が外部の AI サービスへ送信されます。送信されるのは分析に必要なデータのみです。
将来のオンデバイスモードが利用可能になった場合、画像データは端末内のみで処理されます。
メディア
-
Assist アプリアイコン -
クラウドモード画面のプレースホルダー
次のステップ
ストア公開、テスト参加、質問、提携の相談まで、整理された形で対応します。