論文の頻出キーワードからみる、次なるAIトレンドとは

はじめに

今回は「2024年人工知能学会からみるAIのトレンド」をテーマにお送りします。
下の画像は、今回の学会で発表された論文の頻出キーワードをもとに作成したワードクラウドです。気になる用語は入っていましたか？

2024年度人工知能学会全国大会（第38回）について

人工知能学会は、AIに関する日本最大級の学会のひとつで、毎年、会員の研究成果の発表会が行われます。今年は、2024年5月28日(火)～5月31日(金)の4日間、第38回人工知能学会全国大会が開催されました（一昨年・昨年度の様子はこちらからご覧ください。）。

今年は昨年度と同様に、会場とオンラインの同時開催となりました。9時から19時まで、20近い会場で論文等の発表が行われています。興味がある発表が同時に行われることもしばしばありました。
オンライン開催となり、聴けなかった発表を後から視聴できるようになったことは非常にありがたいです。

基礎研究等においては、学会で論文が発表されてから実用化されるまでに、およそ2～3年のタイムラグがあります。物理的なデバイスの開発が必要な場合はもう少し時間が必要になるケースも多いです。
これは日本に限ったことではなく、海外でも同じようです。このことは、2～3年後にあらわれるサービスや技術（の卵）が学会で発表がされている、とも言えます。
今年度発表された論文の傾向をみることにより、今後の人工知能に関するトレンドを掴むことができるので、是非知っていただきたいです。

発表論文のトレンド

今回の分析方法

一口に人工知能と言っても、発表内容は非常に多岐にわたっており、傾向分析する切り口も幾つも考えられます。人工知能学会での発表形式も、論文の他に、パネル展示、企業によるデモ、討論会など多岐にわたっています。

今回は、企業によるデモ・討論会などを除外し、予定稿が投稿されている約950本の論文等からキーワードを抽出し、そのランキングをつくってみました。各論文3～5程度のキーワードがあり、約3200件の集計になります。

まずはランキングを紹介し、頻出のキーワードと個人的に興味を持ったいくつか具体的な研究内容を紹介していきます。

頻出キーワード・ベスト16

順位	キーワード	回数
1	大規模言語モデル・LLM	139
2	深層学習・Deep_Learning	52
3	機械学習・Machine_Learning	41
4	自然言語処理	40
5	強化学習	32
6	生成AI	26
7	人工知能	19
8	マルチエージェント	15
9	対話システム	14
10	ChatGPT	13
10	異常検知	13
10	知識グラフ	13
13	クラスタリング	10
13	シミュレーション	10
13	拡散モデル	10
16	BERT	9
16	テキストマイニング	9
16	データ拡張	9
16	マルチモーダル	9
16	因果推論	9

キーワード解説

大規模言語モデル(LLM)、自然言語処理、ChatGPT、対話システム、テキストマイニング

昨年はChatGPTに代表される生成系AIが広く普及した年でした。それを表すように、関連する論文・研究が最も多く発表されています。2020年に私がGPTを紹介したとき（2020年のトレンドAI技術～本格的な活用がついに始まった「自然言語処理」～）は、関連する発表はあまりありませんでしたが、数年で大きく状況が変わることとなりました。

今年の発表テーマは、生成系AIの性能の評価方法、プロンプトと呼ばれる生成系AIに指示を出す表現方法の研究、大規模言語モデル同士の会話による課題解決方法の発見、など幅広く行われました。

特に、日本語に対する研究は最も進んでいると実感しています。LLMに対して日本語による指示・回答を検討されているのであれば、人工知能学会に出されているLLM関連の論文を読むことをお勧めします。

LLMの性能を評価する項目の一つである、テキスト生成タスクにおいて、LLM自体を生成されたテキストにスコアを割り当てる評価者として運用する流れにあります。

「A Better LLM Evaluator for Text Generation: The Impact of Prompt Output Sequencing and Optimization」では、評価者としてのLLMは一貫したスコアを与えることができず、プロンプトのデザインがLLMの採点に与える影響について言及しています。

評価者によって採点結果の揺らぎがある結果が報告されている。
（出典：A Better LLM Evaluator for Text Generation: The Impact of Prompt Output Sequencing and Optimization）

深層学習（ディープラーニング）、機械学習

深層学習（ディープラーニング、DL）は、強化学習やニューラルネットワークに代表される機械学習の技術の他に畳み込み演算なシミュレーションなどの技術を組み合わせて、複雑な機能を実現するAIの形式です。

一つのAI/機能だけで実現できることは少なく、複数の機能を連携させることで出力の抽象度を上げ、最終的な目的を達成する、ディープラーニングは最前線で活躍している考え方であり、その研究も進められています。

深層学習やニューラルネットワークの概要については、以前の記事（ディープラーニングに対する誤解）をご覧ください。

深層学習の特徴と具体的な応用例として、画像認識・自然言語処理（機械翻訳、質問応答など）・強化学習と組み合わせた応用があります。

自動車組立ラインの作業フローの設計は、様々な制約を満たしたうえで多くの作業を多くの作業者に割当てられる大規模な組合せ最適化問題といえます。「量子アニーリングを活用した順序制約を含む大規模な自動車組立作業割り当て最適化手法の開発」では、量子アニーリングと組立順序調整アルゴリズムを組み合わせることで、実用可能な作業者への組立作業割当てを最適化する新しい方法を提案しています。

（出典：量子アニーリングを活用した順序制約を含む大規模な自動車組立作業割り当て最適化手法の開発）

強化学習、マルチエージェント

組み合わせ爆発による膨大な計算を回避する手法として、強化学習とマルチエージェントを組み合わせて、最適化問題を解決しようとする研究が盛んになっています。

ルート探索・要員配置・工程の組み合わせなどなどの最適化問題においては、学術的にはベストの解と算出方法（時間がかかるとしても）が求められがちですが、ビジネスシーンにおいて、時間的制約やリソースの制限があるため、最適解を求めるのではなく、迅速にベターな解を見つけることが求められる場面が多くあります。

中でも制約・目的関数が多様であり、高速な求解が要求されることもある配送計画問題は、デマンドバス・ライドシェアのような配車サービスやラストワンマイル配送など、実社会からの需要も大きいことから多く研究されています。

配送ルートの最適化問題では、ベストのルートを計算するのに時間がかかる場合、短期間で求められる近似解を提供することが重要です。明日中に配送する必要があるのに、ベストのルートを計算するのに２日以上かかっていては使い物になりません。試行錯誤を通じて最適なルートを探索し、効率的な配送計画を立てるのに強化学習が役立ちます。

また、マルチエージェントの視点からも、複数の要員やリソースを適切に配置する問題において、協調的なアプローチが求められます。マルチエージェント強化学習は、複数のエージェントが相互作用しながら最適な戦略を学習する手法であり、効率的なリソース割り当てやスケジュール管理に応用できます。

「深層強化学習を用いた配送計画問題の解法の拡張に関する研究」では、Attention機構を用いた深層強化学習の解法を新たな制約・目的関数を持つ配送計画問題に適用する研究成果が報告されています。

深層強化学習のフローチャート

マルチモーダル、データ拡張

生成系AIも様々な種類があります。文章、画像、音声、人が持つ五感を再現する試みが進められています。マルチモーダルとは、複数の情報源や入力モーダル（テキスト、画像、音声など）を組み合わせて処理することです。これにより、人間の感覚に近い出力を生成したりすることが可能になります。

例えば、文章生成モデルはテキストデータを元に文章を生成しますが、マルチモーダルAIは文章だけでなく画像や音声を組み合わせて、よりリッチなコンテンツを生成できます。具体的には、以下のような応用があります。

画像キャプション生成: 画像から内容を理解し、適切なキャプションを生成するモデルです。例えば、猫の写真を入力すると「可愛らしい猫が座っている」といったキャプションを生成できます。
音声合成とテキスト生成の組み合わせ: 音声認識モデルで音声をテキストに変換し、それを元に文章生成モデルが応答を生成する場合もあります。これにより、音声アシスタントが自然な対話を行えるようになります。
マルチモーダルQA: 画像とテキストの組み合わせで質問応答を行うモデルです。例えば、画像中の特定の物体について質問された際に、適切な回答を生成できます。
仮想現実(VR)や拡張現実(AR)の体験: マルチモーダルAIは、VRやARのコンテンツ生成にも活用されています。例えば、現実世界の映像にCGキャラクターを重ねて表示するARアプリケーションなどがあります。

こうした仮想空間やメタバースを作成するには多大な人的労力が必要とされるため、仮想空間作成の効率化が求められています。

「大規模言語モデルを用いたレイアウト生成エージェント」では、言語モデルが人の指示にしたがって家の間取りや室内の家具の配置などのレイアウトを自動生成し、エージェントを操作して仮想空間上に一つずつオブジェクトを設置していくことで、ユーザ指示を反映したレイアウトを生成する研究が報告されています。

大規模言語モデルを用いたレイアウト生成エージェント

全体をとおして

約4年前に紹介した技術であるGPTがサービスとして提供され、「生成系AI」という表現が一般的に使われるようになりました。新しいAIが私たちの日常生活やビジネスに大きな影響を与えていること、また、新しい技術が発表されてから、2～3年後に実用化されることを実感いただけているのではないでしょうか。

現在抱えられている課題の解決や将来像を今は実現できなくても、数年後であれば実現できる可能性があります。将来、AI（＋α）で何が出来るようになりそうなのかを知り、そこに向けて今できる準備を進めることが必要です。

本業で忙しいなど、そこまで手を回せないときはIDグループの社員を通じてご相談いただくか、今年度設立したAI専門の会社である、株式会社 ID AI Factoryにご相談ください。
AI技術の活用について情報提供や活用に向けたアドバイス、貴社専用のAI開発などお手伝いさせていただきます。

当サイトの内容、テキスト、画像等の転載・転記・使用する場合は問い合わせよりご連絡下さい。

エンジニアによるコラムやIDグループからのお知らせなどを
メルマガでお届けしています。

論文の頻出キーワードからみる、次なるAIトレンドとは

関連するソリューション

エバンジェリスト・フェロー
玉越　元啓

はじめに

2024年度人工知能学会全国大会（第38回）について