2017年8月16日水曜日
賢者学習
従来型の深層学習を見ていると、何だか赤ちゃんが言語を学ぶときのようなもどかしさを感じる。水泳を習うのにいきなり川に投げ込まれるようなもので、いまいちスマートでない。ベタなデータを読むのではなく、教科書を読むとか先生に教わるとかいった、スマートな学習法はないものか。
従来の学習が「経験から学ぶ」型だとすると、「本から学ぶ」型の機械学習があってもおかしくない。つまり、ごく少量のデータだけで多くを学ぶことができるのが、この学習の特徴である。ここでは前者を「愚者学習」、後者を「賢者学習」と呼ぶことにする。
やや乱暴に例えるなら、愚者学習は現在流行りの深層学習、賢者学習は第五世代コンピュータのようなものだ。何だか逆転しているように見える。だが賢者学習はこれからの研究テーマであり、単なるPrologマシンではない。具体的なアーキテクチャを考えてみよう。
教科書として与えられるのは、例えば大学の講義で使われるような、人間が使う教科書と同じものだ。もちろんPDF化くらいは必要だが、自然言語で書かれている。これをデータとして取り込む。
これは、自然言語解釈エンジンによって論理型言語に変換される。これは、言うなればPrologのソースコードだ。だがPrologと決定的に違うのは、その「正しさの程度」は絶対ではない、ということだ。また、この部分は、その論理型言語の記述量さえ少なければ、自然言語から生成するのではなく、直接人がプログラミングすることもできる。
その信頼度には初期値が付けられる。これは、出典の信頼性と書いてある内容の両方から推測されるべきものであるが、初期においては前者だけでよいだろう。例えば有効な法律、顧客の仕様書、専門書などは信頼性が高く、雑誌やSNSの情報は低い、といった具合である。
次に、そのソースコードから、学習用データセットを自動生成する。これは、業務用のダミー住所データのようなもので、ソースコード(ルール)に合った条件でランダムに生成する。これを信頼度に合わせて必要数だけ生成し、愚者学習に読み込ませる。つまり、賢者学習の必要モジュールは、愚者学習のフロントエンドとして機能する。
「信頼度に合わせた必要数」とは、愚者学習で累積で覚えた実地データによって変化する。従って賢者学習は、愚者学習の学習数をモニターし、必要に応じて追加で学習をさせる。これにより、怪しいデータで信頼性の高いルールが汚染されるのを防ぐ。
こうすると、信頼性の高いルールについて強く覚え、低いルールについては弱く覚え、単なるデータに対しては更に弱く覚える、という調節ができる。また、信頼性の高いルール(とされているもの)の間に矛盾があっても、それなりの答を返すことができる。教科書どおりだけではなく実地データも配慮した答を出せる。これは人間の特徴と同じだ。
これを更に信頼性の高いものにするために、ソースコードをそのまま実行する論理マシンを並行して立て、論理マシンの結果と賢者学習の結果を突き合わせて比較し、矛盾があった場合は信頼度を下げる、というような仕掛けも導入が可能である。
賢者学習には、たぶん他のアーキテクチャも考えられるだろう。自分で言っておいてなんだが、上のアーキテクチャでは計算コストが高くつきそうだ。だが研究の取っ掛かりとしては十分に魅力的に見える。
登録:
コメントの投稿 (Atom)
注目の投稿:
ロボットシェアリング&困窮者向けジョブマッチングモデル
近い将来、AIやロボットが発達することで、労働者の仕事が奪われる事態が起きる。頭脳労働では一部業界に既に起きている(イラスト、音楽等)が、これが肉体労働にまで進んでいく。例えばレストランのフロアスタッフは既にタッチパネル注文や配膳ロボットにより侵食されており、他にも徐々に複雑な仕...
人気の投稿:
-
ディーン・ケーメン氏が発明した浄水器「 スリングショット 」の原理は、いわゆる蒸留である。つまり水を沸騰させて水蒸気にした後、冷やして水に戻す。汚水と蒸留水の間で熱交換を行うことで効率を上げている。 日本では、防災用の浄水器としては中空糸膜や逆浸透膜が殆どだ。これと蒸留式には...
-
ハクキンカイロの発熱原理を調べていて、これを防災用(キャンプ用でも良いのだが)の湯沸しに使えないかと考えた。 普通、キャンプではガスコンロを持っていく。だがあれは裸火を使うから、熱効率は悪い。これに対してハクキンカイロの仕掛けは、白金触媒を適切な場所に配することで、極...
-
近い将来、AIやロボットが発達することで、労働者の仕事が奪われる事態が起きる。頭脳労働では一部業界に既に起きている(イラスト、音楽等)が、これが肉体労働にまで進んでいく。例えばレストランのフロアスタッフは既にタッチパネル注文や配膳ロボットにより侵食されており、他にも徐々に複雑な仕...
-
聞くところによれば、実用的な量子コンピュータの登場は2030年代半ばから後半(2035年〜2040年頃)が有力な予測とされているのだそうだ。これは、数百万qbit規模の量子コンピュータが開発される時期、という意味だ。 一方、従来の公開鍵暗号(RSAや楕円曲線暗号など)は量子攻...
-
「生成AIはミーハーである」の回でも少し触れたのだが、生成AIの回答は一次的には誤っていることが多い。それを指摘してAIが回答を修正していく様を見て楽しむ、というのが最近のマイブームだ。 どういう指摘をしているのか、と自己分析してみると、興味深いことに陰謀論者との議論とあま...
-
高市首相は安倍氏と同じ積極財政論者で、就任直後からその方向に舵を切っている。プライマリバランスゼロ目標を事実上反故にし、戦争でもコロナでもないのにいきなり17兆円もの補正予算を組んだ。ちなみに安倍総理が初年度に打ち出した補正予算は10兆円であり、それと比べても突出している。 こ...
-
生成AIを使って作成されたイラストに対する極端な非難が相次いでいる。そのどれもが、ちょっと行き過ぎに思える。例えば、事前にAIであることを知らせているもの、絵を描いている本人が確認し承諾したものまでも非難されている。なぜこんなに過剰な反応をするのだろう。単にノイジーマイノリティの...
-
近年の世界的な右傾化、自国第一主義化について、その原因を生成AIと討論しながら考えた結果、そういう結論に達した、というお話。 まずトランプが未だに支持されている理由について議論したのだが、その理由はアメリカ白人低学歴層の貧困化だという。この白人貧困層は、人数的には数千万人と規...
-
免震構造については過去いくつか提案しているが、これの新しい版である。 以前、難燃性の油の上に浮かべた船の構造を提案したことがある。あれの砂版である。つまり、砂のプールを作っておいて、その上に浮かべるというものだ。砂が抵抗となって振動を軽減する。 ただし、油や水と違って砂の...
-
日本共産党が消費税減税案についてのサンデーモーニングの批判的なコメント(財源を示せ)に対し「財源を示した上で提言している」という反論をしている。そこで同じく、Grok3に計算してもらった。 日本共産党の提言は、2025年4月16日のものの他、幾つか出ている。そのおおよその方向性...

0 件のコメント:
コメントを投稿