強化学習で挑戦！倒立振子｜おもしろ科学実験室（工学のふしぎな世界）｜国立大学56工学系学部HP

トップページ > おもしろ科学実験室（工学のふしぎな世界） > 強化学習で挑戦！倒立振子

おもしろ科学実験室（工学のふしぎな世界）

強化学習で挑戦！倒立振子

2025年10月3日
広島大学情報科学部

はじめに

　学校の掃除時間に、ホウキを逆さまにして指に乗せ、バランスを取って遊んだことはありませんか？

　今回はこの遊びをコンピュータにやらせてみましょう。果たしてどのくらい長くバランスを取れるでしょうか？

倒立振子とは？

　ホウキのバランス遊びは、物理学で倒立振子（とうりつしんし）と呼ばれます。

「棒の上側が重く、下が支点になっている」ような構造です。

　今回のアプリでは、台車の上に棒を立てたモデルを使い、コンピュータでシミュレーションします。シミュレーションの方法に関する詳しい説明は、こちらを参照してください。

コンピュータシミュレーション

ホウキ →棒
指 → 台車

　カーソルキーの左右で台車に力を加えて操作できます。

操作	説明
プレイ（play）	開始
一時停止（pause）	一時停止
スロー（slow）	動きを遅くする

表示	説明
時間（time）	棒が倒れるまでの時間
記録（record）	これまでの最長バランス記録

コンピュータによる制御

　上手にできましたか？皆さんがゲームをしたとき、棒が倒れないように台車を動かしましたね。
　そのとき

観測（角度や傾きを感じ取る）
判断（右か左か動きを決める）
行動（実際に動かす）

　を繰り返していたと思います。

　コンピュータも同じで、「状態を測って行動を決める」を続けます。

強化学習とは？

　強化学習は、正解を最初から教えずに学ばせる方法です。

棒が倒れなければ「ごほうび」
棒が倒れたら「ペナルティ」

　を与え、何度も試すことで上手な操作を身につけます。

　今回のアプリではQ学習という方法を使い、棒を倒さない操作をコンピュータが学習します。

操作	説明
再生（play）	開始
一時停止（pause）	一時停止
早送り（fast）	シミュレーションを速くして学習を進めます。
初期化（reset）	いままでの学習をリセットします。

表示	説明
エピソード数（episode）	棒が倒れるまでの学習エピソードを何回繰り返したか
時間（time）	棒が倒れるまでの時間
記録（record）	これまでの最長バランス時間

まとめ

　シンプルな「ほめる・しかる」だけでも、コンピュータはバランスを取る方法を学べます。
強化学習はロボット、自動運転、ゲームAIなどで使われています。

　さらに、深層学習（Deep Learning）と組み合わせると、画像や音声からも学習可能になります。
興味があれば、「強化学習深層学習ゲーム」のキーワードで検索してみてください。

掲載大学
学部

広島大学情報科学部

広島大学情報科学部のページへ>>

※このページに含まれる情報は、掲載時点のものになります。

関連記事

2021-03-19

工学ホットニュース

ダイヤモンドへの量子テレポーテーション～量子計算、量子通信から量子インターネットへの飛躍～

横浜国立大学理工学部

2022-12-23

Pict-Labo

計算メガネ

山梨大学工学部

2022-09-09

生レポート！大学教授の声

コンピュータシミュレーションは現代の顕微鏡・望遠鏡

富山大学工学部

2022-09-09

生レポート！大学教授の声

工学部で数学を研究する

静岡大学工学部

2022-03-18

おもしろ科学実験室（工学のふしぎな世界）

ニューラルネットワークを作ってみよう

東京農工大学工学部

2023-02-17

工学ホットニュース

超省エネ超伝導コンピュータを実現量子コンピュータ制御への利用も可能に

横浜国立大学理工学部

広島大学
情報科学部

計算機科学プログラム
データ科学プログラム
知能科学プログラム

学校記事一覧

もっと見る

おもしろ科学実験室（工学のふしぎな世界）
バックナンバー

もっと見る

おもしろ科学実験室（工学のふしぎな世界）
記事一覧>>

↑ ページ上部へ

このサイトは、国立大学56工学系学部長会議が運営しています。
（>>会員用ページ）

私たちが考える未来／地球を救う科学技術の定義

現在、環境問題や枯渇資源問題など、さまざまな問題に直面しています。
これまでもわたしたちの生活を身近に支えてきた”工学” が、これから直面する問題を解決するために重要な役割を担っていると考えます。