CVPR 2020 画像認識最新動向まとめ｜AIトップカンファレンスのレポート

統計・機械学習トピック

公開日

2020年6月19日

更新日

2026年4月28日

この記事の主な内容

この記事のポイント

・CVPR 2020（Computer Vision and Pattern Recognition）は画像認識・コンピュータビジョンの世界最大級カンファレンス
・検出・セグメンテーション・Deep Learning・3D認識・GAN等の最新論文が採拡される
・本記事は主要トピックと代表トレンドをレポート（2020年時点の動向・継続反映されるトピックも含む）
・トップAI会議のトレンドを高レベルで把握したい人向け

CVPR 2020とは

CVPR（Computer Vision and Pattern Recognition）は、画像認識・コンピュータビジョン分野の世界最大級カンファレンスで、毎年最新論文が採拡されます。2020年大会では自己教師あり学習・物体検出・セグメンテーション・3D認識・生成モデル（GAN）等が主要トピックとなりました。本記事では当時の代表手法とトレンドをレポートします（その後のTransformer系手法への進化も進んでいます）。

CVPR 2020 主要トピック CVPR 2020 自己教師あり学習SimCLR・MoCo 物体検出DETR・EfficientDet セグメンテーションHRNet・DeepLab 3D認識点群PointNet± 生成モデルStyleGAN2 Vision×言語VL-BERT ※ 2020年時点。その後Transformer系（ViT・CLIP・Diffusion等）へ進化している

CVPR 2020 で注目された主要トピックの俯瞰図

皆さま、6月も中盤が過ぎようとしているところですが、いかがお過ごしでしょうか。梅雨入りしたと思ったらジリジリ暑い日が続き、在宅勤務が解除されたもののあんまり外出たくない…。そんな天気が続いていますね。そんな皆さんにぜひお伝えしたいのが、今、自宅でとても気軽に学会や研究発表会を見たり、参加したりすることができることです！

現在コロナウイルスの影響で国内外の移動が大幅に制限されている中、学会のオンライン化が進み、最先端の研究を自宅で知ることが可能になっています。特に6月は実は人工知能関連の学会が多く、6月9日〜12日には日本人工知能学会JSAIもあり、そちらもオンラインで行われました。そして、現在の人工知能ブームを切り開いた技術、画像認識技術の祭典である、国際学会CVPRがつい先日までアメリカのワシントンにて行われておりました！（時差があるため、投稿時点で最終日になります）オンラインで開催されたおかげで、私も参加することができました笑。今回はそちらの解説をしていこうと思います。

そもそも人工知能（AI）とは？

人工知能の定義は専門家によって意見が分かれています。日本ディープラーニング協会の理事長である松尾豊氏は「人工的につくられた人間のような知能、またはそれをつくる技術」としています。英語では「Artificial Intelligence」であり、略して「AI」とも呼ばれています。昨今注目される人工知能技術は画像、音声、テキスト、ゲームなど多岐の分野にわたります。代表的なもので囲碁のAIとしてプロ棋士を破った「Alpha Go」(図1)、人間に代わってコンピュータが自動で運転してくれる無人運転車（図2）、レジを通らなくても自動的に決済してくれる無人店舗（図3）など、実に様々な場面で活用されている技術です。

そんな人工知能が最初に注目されるきっかけを作ったのは画像認識技術です。新技術「Deep Learning」が従来のコンピュータによる画像認識の記録を大きく塗り替え、無人運転車や無人店舗は、この画像認識技術の応用例ということが言えます。

図1.囲碁のプロ棋士を破った人工知能、AlphaGo。人工知能が注目されるきっかけとなった。

図2. 機械による自動的な運転を可能にする、無人運転車。現在世界各国で熾烈な開発競争を繰り広げている。

図3. 無人店舗Amazon Go。レジを通らなくても、商品を手に取るだけで自動的に会計をしてくれる。

無人店舗について、「Amazon Go」はアメリカの店舗ですが、日本でも導入が始まっており、以前3月に開業した無人店舗「TOUCH TO GO」を紹介していますのでよければ合わせてご覧ください。

Deep Learning（深層学習）とは｜無人店舗『TOUCH TO GO』に学ぶ画像認識のしくみ

CVPRとは？

では、国際学会CVPRはどんな学会なのでしょうか。CVPRはComputer Vision Pattern Recognitionの略であり、日本語でまとめると「コンピュータによる画像パターン認識」の学会、というところでしょうか。画像分野におけるコンピュータ技術の研究を発表する世界的に有名な学会であり、毎年錚々たる研究チームから目玉が飛び出るような最先端の研究結果が飛び交い、研究者の中にはこの学会で発表をすることを目標にしているところもあるくらいです。

このCVPRですが、ここ最近の人工知能ブームに後押しされ、毎年論文提出数、参加者数ともに劇的に増加しています。図4はCVPRにおいて発表された論文件数です。向こう10年減ったことがなく、人工知能が広く認知されて以降、現在注目度が高まり続けています。

図4. CVPRで発表された論文件数の推移。学会で発表することができるのは審査に通ったものだけなので、提出された論文を含めるとこの数からさらに4倍程度です。画像認識分野は、研究者の中でも今とても盛んに研究が繰り広げられている分野であると言えます。

今年のCVPR 2020の見どころ

今年の見どころは、昨年ごろから急速に発展してきた3D分野、画像から立体モデリングを行う部分です。平面の画像から立体を生成する、「3D姿勢推定」と呼ばれている技術です。例えば誰あろう米Facebook社の発表を、一つ紹介します。人が写っている画像から人の部分を抽出し、さらに3次元の位置（姿勢と呼びます）を推定しています(図5)。ソースコードも公開されており、Pythonが書ける方は簡単に体感できるようになっていますのでぜひ挑戦して見てください！私も早速使ってみました（図6）。本研究以外の発表でも、発表内容のソースコードが公開されており、学会で使用されているコードを使用することができます。

図5. 画像から人間を抽出。非常に高い精度で、リアルタイムに抽出することができています。

図6. 研究論文のソースコードが公開されてたので、私も動かしてみました。（https://shunsukesaito.github.io/PIFuHD/）

動いているものの抽出も自在です。ぜひ動画もご覧ください。Facebook社が素晴らしい技術者集団であることは皆さんご存知だと思いますが、改めてその凄さに気付かされます。

CVPR 2020のベストペーパー（最も評価の高かった論文）

それでは、今回のCVPR提出論文15,000件の頂点、ベストペーパー、論文を精査する査読チームから最も高い評価を受けた論文の紹介です。どういう論文かと言うと、写真など平面の情報から、立体的な情報を読み取る技術に関する論文です。写真からどこから光が当たっているかを判断し、人間の骨格を推定しています。この技術に使われているものが「Deep Learning」なのです。

図7. 写真の3Dモデル化。写真の人物を立体的に捉えることができています。

ぜひ映像でみていただいた方がより伝わりやすいと思いますので、こちらもご覧ください。英語な上に専門用語が多いですが、気にせず映像だけご覧いただければと思います。

論文によると、実際の人間の画像だけでなく、肖像画についても同じように、立体に起こすことができます。

図8. 肖像画も3Dに起こすことができます。

人間以外の写真でも、アニメ映像でもこの通り。こう言うところでもアニメ「ナルト」の知名度の高さが伺えますね。

図9. 猫についても、同じように3Dにすることができます。

図10. アニメのイラストも3D化することができます。中段にアニメ「ナルト」。

この発表以外にも、洋服の仮装試着、不動産の仮想内見など、3D化に関する発表が非常に多く、私自身非常にワクワクしながら学会に参加していました。今回の学会で発表されたもののいくつかが実用化されるかもしれないことを考えると、とても楽しみです。

終わりに

CVPR 2020は、ここ数年でみてもとても充実した学会だったと思います。現在人工知能研究は未知の技術ではなく、実用的な、現実の生活に影響を与えるものになりつつあります。学会だけでなく、勉強会やセミナーなども含めて、オンラインで誰でもどこでも学べる現在、ぜひ皆さんも勉強したいものを見つけてみてはいかがでしょうか。

人工知能についてご興味がある、勉強を始めてみたい方は、オンラインで、無料でご参加いただけますのでぜひこちらにご参加ください。

AI(人工知能)超入門-AIと統計の関係について- https://wakara.co.jp/course/7660 https://wakara.co.jp/course/7660

講義の様子はこちらになります。

それでは、またごきげんよう。

<文/岡崎凌> ⇒ 講師紹介ページへ

CVPR 2020 主要トピック早見表

トピック	やりこと	代表手法（当時）
自己教師あり学習	ラベルなしで表現学習	SimCLR・MoCo
物体検出	画像中の物体位置・クラス検出	EfficientDet・DETR
セグメンテーション	ピクセル単位クラス分類	HRNet・DeepLab系
3D認識・点群	3D点群処理・車載センサー	PointNet±・VoxelNet
生成モデル・GAN	画像・動画生成	StyleGAN2・BigGAN
ビジョン×言語	テキストと画像をつなぐタスク	VL-BERT・VisualBERT