- 物体検出
- 特定のカテゴリーでの物体検出から、open vocabularyでの物体検出に移行しつつあります。
- 特定カテゴリーでの物体検出にはYOLOシリーズが代表的な実装です。
- セグメンテーション
- インスタンスセグメンテーション
- 属性分類
- 顔の属性推定が有名です。
- 年齢・性別・表情
- 商用の顔ライブラリの場合だと、顔の属性推定を含んでいます。
- 姿勢推定
- 顔照合・人物推定(re-identification)
- 顔照合は、マスク顔対応が終わった時点で、技術分野としては枯れた技術になりつつあります。(黒人対応はありますが)
- 利用予定のプラットフォームにある実装をまず調査してください。
- 対応OS,対応言語、依存ライブラリのバージョン、GPUなどのアクセラレータ対応の状況、今後のサポートの状況などを調査してください。
- 利用予定のカメラと想定しているユースケースでの顔画像を使って、評価します。
- 人物の属性分析
- ヘアスタイル
- 着衣領域のセグメンテーション
- バッグなどの有無、キャリーケースの有無
- 着衣の分類
- 着衣から指定される性別
- 杖の有無
- 車椅子 これらの人物の属性分析もある。
- open vocabulary での物体検出
- https://github.com/NVIDIA-AI-IOT/nanosam PapersWithCode Open Vocabulary Object Detection
Open vocabulary object detection with NVIDIA Grounding-DINO
- open vocabulary でのセグメンテーション
- PapersWithCode Open Vocabulary Semantic Segmentation
- 人物の行動分析
- 立ち入り禁止領域の人物検出
- 走っている人物の検出
- 人流計測
- 不審動作の発見
- SLAM
- 自己位置推定
- 経路計画
PapersWithCode 3D Semantic Segmentation
3D Object Detection From Stereo Images
- PapersWithCode Grasp Generation
- PapersWithCode hand-object pose
- PapersWithCode 3D Canonical Hand Pose Estimation
- 従来は、カメラパラメータが違う多数のweb画像で特定の建築物を復元するようなものが多かった。
- 組み込み可能性は考えない。
- 今は、一つのカメラから視点位置を変えて、特定物を見て、形状復元するのが増えてきている。
- 組み込み可能性を気にしだしている。
PapersWithCode 3D Reconstruction
- PapersWithCode Visual Question Answering (VQA)
視覚と言語の入力があって、動作を生成するタスクとして定義される。 例:視覚を含む各種センサデータ、運転についての指示がある状況で、自律運転車の動作を生成するタスク このなかでは、人検出などの物体検出・周辺環境のセグメンテーションもVLAのend-to-end の中に隠れたタスクとなる。
主に国内の動向から
Heron A Library for Vision / Video and Language models
Openな資産とFPGAを活用して、領域特化型のProcessorを作ろう!
github Swan A Lightweight Language Model Execution Environment Using FPGA 言語モデルを高位合成でFPGAに実装してみた
- 例:ばら積みのボルト・ナットをロボットのハンドでつかませて、持ち直して、取り付ける。
- このうち、バラ積みのボルトがあるのを見つけるまではビジョンだと思う。
- しかし、そこから一つをつかみだし、持ち直すのは、圧倒的にタッチとタッチに基づく行動計画だと思う。
- 参照例: https://www.thinker-robotics.co.jp/product/robot-hand-f.html