参画校一覧
工学部ってどんなところ?
Facebook
高齢者を見守り支援するヴァーチャルエージェント技術

高齢者を見守り支援するヴァーチャルエージェント技術

Large Language Modelの有効性とその未来

2024年12月20日九州工業大学 情報工学部
mein_image

工学ホットニュース

 最近、大規模言語モデルとかLarge Language Model(LLM)という言葉をよく聞くようになったのではないかと思います。言語モデルとは、とても大雑把に説明すると、次にどんな単語が出てくるかを予測するモデルです。たとえば、John eats an のあとに何が続くかと聞かれたら、皆さんも予測ができるはずです。どんな単語でも良いわけではなく、続く単語(生成される単語)には条件があります(たとえば,anの後なので母音で始まる単語である必要がありますし、eatできるものでなければいけません)。

 皆さんにとってLLMの身近な実用例はChatGPTです。色々と尋ねると賢く返答をくれるChatGPTも、基本的には次の単語を予測して生成し続けているだけです。LLMはそんな単純な枠組みなのですが、ChatGPTのような用途だけではなく、言葉に関する色々な処理ができます。たとえば、レビューを読ませて、評価値(☆の数)を推定したり、特定の条件を満たす単語を抽出したりできます。また、日本語だけではなく、数多くの言語を同時に扱うこともできます。小論文を入力すると、先生のように評価したり、フィードバックを返してくれたりします。

テーマの利用・大学での取り組み

 このLLMをより賢くするにはいくつか方法があります。その一つは、解きたい問題に関する事例を学習させることです。この学習のことをファインチューニングと呼びます(微調整や広い意味では転移学習とも呼ばれます)。たとえば、評判分析で考えると「サービスは最高!」という文とそのときの接客の評価値が「☆5つ」のような事例です。与える事例が多ければ多いほど、LLMはその問題に対して賢くなります。しかし、そのような事例を人手で作るのは大変です。そこで、事例そのものをLLMに作ってもらったり、今ある事例から似たようなものを作ってもらう技術があります。これをデータ拡充(Data augmentation)と言います。どのようにデータ拡充をすれば、良いモデルが学習されるかの研究が行われています。

 また、LLMはファインチューニングしなくても、いくつか事例を教えると、それに倣って、上手く処理できるようになることが知られています。文脈内学習(In-Context Learning)と呼ばれる機能です。人間も良い事例を教えてもらえれば特定の問題に上手く対応できるように、良い事例を与えれば、LLMの精度も良くなります。では、どういうものが良い事例なのでしょうか?それには現時点では明確な答えはありません。膨大なデータからそのデータの代表的な事例を選び出したり、今処理したい事例に似ているものを選んできたり、難しい事例を探してきて学習してもらったり、色々なアプローチがあり、日々研究されています(図を参照)。

fewshot

 LLMに関することで「ハルシネーション」という言葉を聞いたことがある人もいるかも知れません。事実とは異なる情報などを生成してしまう問題です。この問題に対応するためには、LLMの出力がハルシネーションを起こしていないかを判断する技術が必要です。そのような技術(モデル)を開発するには、前述のファインチューニングのためのデータが必要になってきます。「事実とは異なる」といっても、その種類は様々です。単に誤った情報以外にも、誇張であったり、複数の意見がある場合に特定の意見だけをあたかもそれだけしかないように表現してしまうのも一種のハルシネーションです。このような様々なハルシネーションに対応するためのデータ作成も重要な研究課題です。

今後の展望

 我々は現在、前述のようなテキストを対象とした言語理解・処理に関する研究だけではなく、複数人による議論や討論、話し合いを対象とし、参加者が円滑で有益な議論を進めるためのサポートシステムの開発に関する研究を進めています。その実現のためには、議論内容や参加者の状態の理解、議論がどれだけ上手くいっているかの質評価の研究など様々な課題があります。たとえば、質評価に関して言えば、一人が書いた小論文の自動評価も十分難しい課題ではありますが、複数人の議論では、議論の参加者がそれぞれの意見を持って、自由に話します。議論中の発話が理路整然と話されているとは限らないですし、一人で書いた文章よりも複雑な議論構造で成り立っている場合が殆どで、難しい研究課題です。

 また、言語は人間の意志を伝えるための最も重要な手段(媒体・モダリティ)ですが、人間は言葉以外にも身振り手振りや、たとえば話すときの抑揚などで色々な情報を伝え、理解しています。このような複数の媒体を統合的に処理・理解する技術をマルチモーダル情報処理と呼びます。身体性を持ったロボットなどを考えると、さらに、触覚などのセンサーの情報も重要なモダリティになります。今後は大規模な「言語」だけのモデルではなく、それ以外も組み合わせたマルチモーダルなモデルの研究が進んでいくと思います。

※このページに含まれる情報は、掲載時点のものになります。

工学ホットニュースバックナンバー