--- 第１６回 --------------------------------------------------

--- 第１７回 --------------------------------------------------

日程：２００３年１２月２２日（月）１４時４０分より　場所：京都大学基礎物理学研究所

講師：石井信　（奈良先端科学技術大学）

題目：環境同定に基づく強化学習とその脳内モデル

要旨：強化学習は、行動系列についての条件付けモデル。環境を明に同定し、それを用いた予測に基づく強化学習法は、複雑な環境、例えば部分観測環境などにおいて有効である。環境同定型の強化学習法を実行するために必要となる要素について述べ、それら要素が脳内でいかに機能分担されているのかについて仮説と認知実験を交えて議論する。

理論から実験までやる石井さんは偉い．

石井：「Policy πとは，例えばコンビニでアルバイトをするに当たってローソン，サンクス，セブンイレブンの順に．．．」

外山：「その比喩はもういいよ」（外山先生はこの話は何度も聞いたらしく，いつもよりは言葉少なでした）

篠本：「POMDP (Partially Observable Markov Process)．うーむ，例えば女性のそぶりから，その女性の心を推定していくわけだ」

外山：「あいつ（篠本）はなんでも女の話にしてしまう」

とまあ，比喩合戦になりました．しかし人はベイズなんかやっているのかなあ，，．

確率的な推定はAnterior Prefrontal Cortex で行っているのではないかという仮説と心理実験の報告でした．

アフターセミナーでは、石井研究室の院生は３５人もいるという話でなぜか盛り上がりをみせました．

京都は良い研究者が集まっているのだから，研究費の浮き沈みに左右されない研究環境を実現したい．そのためには研究者コンツェルンをつくって互いに助け合おう．さしあたって来年当たっている■，■，■組にみんなで「たかる」ことにしよう，という結論に至りました．真面目な石井さんは，このばかばかしい盛り上がりについていけない様子でした．研究者コンツェルンの構想は，しかしなかなか良いのでみなさんご一緒に，■，■，■組に「たかり」ましょう．

脚注：■は検閲を気にして人名を伏せました．これらの人名を知りたい人は篠本まで．ただ，■，■，■組のガードは堅く，「たから」せてくれませんが．