# 森江 隆

#### 九州工業大学大学院生命体工学研究科\*1

積和演算と非線形関数変換により処理される Artificial Neural Network LSI の設計法について述べる.回路実現手法として,デジタル方式,アナログ方式,両者を混載したミックスト・シグナル方式,パルスの時間軸情報を用いるパルス変調方式について,網羅的な開発例を示すのではなく,特徴的な開発事例を示しながら回路・アーキテクチャ設計の課題などを解説する.

### 1. はじめに

生体の神経細胞の動作を忠実にまねて脳・神経系の 機能を実現しようとする、いわゆる"neuromorphic" なアプローチや、スパイクタイミングを利用した情 報処理、実数演算が本質的な役割を果たすカオスシ ステムなど、興味深い系のハードウェア化は他稿に 譲ることにし、ここでは、神経細胞の動作を抽象化 し、積和演算と、シグモイド関数に代表される非線形 関数処理の組み合わせで情報処理を行う、いわゆる Artificial Neural Network (ANN)の集積回路(LSI) の設計法について議論する.

1980年代後半から,バックプロパゲーション学習 を行う多層パーセプトロンやホップフィールドネッ トワークをはじめとする様々な ANN の LSI 実現の 試みが盛んになされてきた.回路の方式は,10年ほ ど前までは純アナログ方式,純デジタル方式,およ びパルス密度変調方式が多かったが,近年,アナロ グとデジタル双方の利点を共有しようとする,パル ス幅変調方式やミックスト・シグナル方式などが提 案されている.その結果,指数関数的に性能向上が 進む汎用プロセッサに対して優位性を主張できるよ うな専用 LSI も試作されるようになってきた.

このように, ANN LSI 開発の歴史は長いが,本 稿では紙面の制限から,引用する文献は概ね 1995 年以降に限る.それ以前のニューラルネットワーク LSI の概要については,他を参照されたい<sup>1)</sup>.

本稿で取り上げる ANN の演算は,基本的に積和 演算 (MAC: Multiply-and-accumulate) と非線形関数 演算である.これは,よく知られているように,

$$x_i = \sum_j w_{ij} y_j,\tag{1}$$

$$y_i = f(x_i) \tag{2}$$

と表される.ここで, $x_i$ , $y_i$ ,および $w_{ij}$ は,それぞれニューロンの内部状態,出力値,およびシナプス荷重である.また, $f(\cdot)$ は出力関数(または活性化 関数)であり,よく用いられるのが,ロジスティック関数などのシグモイド関数だが,非単調関数を用いるモデルもある.

ハードウェア化されている他の情報処理での演算 と比較して,このようなANN演算の最大の特徴は, 積和演算の項数が極めて大きいことにある.例えば, 画像認識などではこれが1,000のオーダになる.通 常の画像処理では,演算されるベクトルの数は画素 数に等しくなるので膨大だが,結合は隣接部などに 限られており,積和演算の項数はせいぜい数10程 度であるのと対照的である.そこで,ANN LSI では この膨大な積和演算をいかに効率的に行うかが設計 のポイントになる.

演算は,(1)メモリ部からニューロン値およびシ ナプス荷重値を読み出し,(2)積和演算を行い,(3) 結果を非線形処理して,(4)演算結果を再びメモリ に格納する,という手順をとる.そこで,メモリ部 と演算部との結合形態と,デジタルハードウェアで 最も演算量の多い乗算をどのように実現するかが課 題となる.

以下,第2節で各種回路構成の特徴を整理し,第 3,4節で上記の課題をどのように解決するかを,公 表されている開発例を基に解説する.なお,以下の 記述で筆者らの研究内容がやや強調されている点は 了承されたい.

### 2.1 アナログ方式

アナログ方式は状態値を電圧,電流,または電荷により連続量で表現する.クロック動作による離散時間系も可能だが,連続時間系も構築できることが大きな特徴である.明らかに,実際の神経細胞の動作はアナログ方式が適しており,実際,これまで多くのANN LSI はアナログ方式で設計されている<sup>2)</sup>.加算・乗算・非線形変換などを少数の素子で実現できるため1チップ上に多くの処理ユニットを搭載でき,超並列演算が可能である.これにより,デジタル方式に比べ,高速化が可能になるという利点がある.

しかし,一般にアナログ回路は,ノイズや温度変 化による特性ドリフトなど回路や素子の非理想的な 性質に影響を受けやすい.演算精度は5-8 ビット程 度に限定される<sup>\*2</sup>.また,制御性が低く,システム に汎用性を持たせることが難しい.制御はやはりデ ジタル的に行うのがよいが,既存のデジタルシステ ムと結合するにはA/D,D/A 変換が必要で,そのイン タフェース部のオーバーヘッドが無視できない,と いう欠点もある.

純アナログ方式の場合,アナログ量をいかに記 憶するか,すなわちアナログメモリの実現が,従来 より最大の問題であり,現在に至っても解決されて いない,通常は,一時的な記憶に限定して,キャパ シタに電荷として記憶させる DRAM 方式が, 汎用 CMOS プロセスで実現できるのでよく用いられる. しかし,長期間の記憶が必要な場合はデジタルメモ リを併用することになる.この場合,上記と同様に D/A, A/D 変換が必要になることから, そのオーバー ヘッドが問題になる.他の記憶手段としては,従来よ リ不揮発性メモリとして使われてきた浮遊ゲート型 デバイス,実用化が進む強誘電体メモリ(FeRAM), 近年開発が活発化している磁性体メモリ (MRAM) などがある、浮遊ゲートデバイスを用いてアナログ メモリを構成する試みは従来より数多くなされてお リ<sup>3)-7)</sup>,学習機能内蔵チップも試作されているが<sup>8)</sup>, より実用を目指した高速・低消費電力チップを実現す るためには,浮遊ゲートデバイスよりも,FeRAM<sup>9)</sup> や MRAM での開発が期待されるところである.

ところで,一般的な情報処理を見てみると,その

ハードウェア化の歴史はアナログをデジタルで置き 換える努力の繰り返しであった.現在の多くの情報 処理ハードウェアはアナログ部を可能なかぎり少な くし,できるだけ多くの処理をデジタル部で行う設 計方針をとっている.一方,生体の脳・神経系では, ノイズだらけの環境下で演算精度の低い多数のアナ ログ素子が協調して,信頼性の高い,頑健な知能情 報処理を行っている.この方式を真似ればアナログ 方式でも人の脳に迫る機能を持ったハードウェアが できるはずである、と考えるのは妥当と思われる. 問題は,生体と全く異なったハードウェアシステム であるシリコン LSI でどこまで生体を真似るか,と いう点である.その意味では,アナログ方式 ANN LSI は基盤技術としての有用性は認められるものの, やや中途半端な実現法であるように思われ,今後の neuromorphic なアプローチに期待がかかるところで ある.

## 2.2 デジタル方式

デジタル方式では, 各演算素子は 0/1 の 2 値し か取らず,それらを必要精度分だけまとめて2進数 で情報を表現するため,状態値は離散的である.ま た,通常はクロック同期動作なので,時間軸上でも 離散的になる.状態が0/1の組み合わせなので,ノ イズに影響されにくい.論理演算と算術演算を単純 なスイッチ素子の組み合わせで実現するので,微細 素子を大量にチップ上に配置し,大規模な演算を高 速に実行することができる.こうして, CMOS デバ イスの微細化によって,着実にデジタルLSIの高集 積化と高速化が進展してきた.しかし,近年,1チッ プに数1.000万個のトランジスタが集積され,それ が1GHzを越えるスピードで動作するようになると, チップ動作上,消費電力が大きな問題となってきた. 応用面でも、モバイル機器の普及やユビキタス社会 の到来,環境への配慮などから低消費電力化が最大 の関心事になっている.

デジタル方式はアナログ方式と対照的な特質を 持つ.制御がしやすく,既存のデジタルシステムと の相性も良い.しかし,後述のように回路規模が大 きくなるため,実際の処理に必要とされるニューロ ン数よりも少数のプロセッサエレメント(PE)しか チップ上に搭載できず,時分割処理(仮想ニューロ ン方式)を採用することになる.

近年のデジタル方式 ANN LSI 開発では, FPGA (Field Programmable Gate Array)を用いた例が多い<sup>10),11)</sup>.試作期間が不要で,設計から実動作まで

<sup>&</sup>lt;sup>\*2</sup>従来より, ANN LSI の演算精度は, デジタル回路で実装したときのビット精度で換算して議論されることが多い.

の期間が極めて短いことから,従来からプロトタイ ピングによく用いられてきたが,高集積な FPGA が 比較的安価に入手できるようになったため,評価に 耐える ANN LSI 開発が可能になったと考えられる.

ここで,ニューラルネットワーク以外の情報処理 用LSI についても触れておこう.近年,超高速の汎 用プロセッサだけでなく,メディアプロセッサ」と 呼ばれる画像処理や画像圧縮などに特化したLSI が 開発されている.このようなプロセッサはチップ内 での並列処理化が盛んになされているため,デジタ ル方式 ANN LSI との差が小さくなっているように 感じられる.

最近の高性能メディアプロセッサは,MPEG-2/4, JPEG2000 など演算量の多い画像処理をワンチップ で可能としており,処理性能は 50GOPS を越えてい る<sup>\*3</sup>.例えば,集積回路のオリンピックといわれる ISSCC (International Solid-State Circuit Conference) で今年発表された,車載用の画像認識用途を狙った メディアプロセッサの一つは,100MHz 動作で128 個の PE を搭載し,各 PE が 1 クロック当たり 4 命 令を実行できることから,51.2GOPS の処理性能を 備えている<sup>12)</sup>.このようなメディアプロセッサが, 極めて長い語長( $\geq$ 128 ビット:VLIW)を処理する PE をせいぜい100 個程度搭載するのに対し,ANN LSI は比較的短い語長( $\leq$ 16 ビット)の PE を多数 (>1,000)搭載するという違いは,処理モデルの違 いを反映していると思われる.

#### 2.3 パルス密度変調方式

パルス密度変調(PDM)方式は,スパイクパルス の密度でアナログ量を表現するもので,生体の神経 系での情報表現(の一つ)として知られ,以前から この方式でのLSI化が盛んになされてきた.近年も この方式で,1,000 ニューロン,100 万シナプスとい う大規模なシステムが構築されている<sup>13)</sup>.デジタル 回路要素を用いながら,擬似的に連続時間ダイナミ クスが実現できるところが特長だが,多数のパルス でアナログ量を表現するということは,回路素子の オン・オフが頻繁に起こることを意味するので,低 消費電力化が課題と思われる.

### 2.4 パルス幅・位相変調方式

パルス幅変調 (PWM) またはパルス位相変調 (PPM) 方式は, 電圧または電流に 0/1 の 2 値をも ち,時間軸方向にパルス幅またはパルス位相(タイ ミング)によりアナログ量を表現するパルス信号を 用いる回路技術である<sup>14)</sup>.この方式では,デジタル 回路(インバータやゲート回路など)とアナログ回 路(キャパシタやソースフォロワ回路など)を組み 合わせて回路を構成する.したがって,デジタル回 路要素については, Si CMOS 技術の微細化に沿って スケーリングできるので,純アナログ方式に比べる とチップ上の占有面積を小さくできる可能性がある. 低電圧動作も可能で,高い制御性を有し,既存のデ ジタルシステムとのマッチングもよい.ノイズやク ロストークなどにも強いという利点もある.一方, 値を時間軸方向に展開するので,動作速度が遅いと いう欠点がある. PWM 方式 ANN LSI の開発例はこ れまでにいくつか報告されている<sup>15)-19)</sup>.

また, PWM/PPM 信号とアナログ電圧との変換 過程で任意の非線形変換を実現することが可能であ る<sup>20)</sup>.これを用いれば,離散時間・連続状態の非線形 ダイナミカルシステムを高い制御性で実現すること ができる.この原理を利用して非線形関数を生成し, 任意カオス発生器,抵抗ヒューズネットワーク,非 線形振動子ネットワークなどをLSI化している<sup>21)-24)</sup>

#### 2.5 ミックスト・シグナル方式

積和演算部など並列性が高く演算量が多い部分 は,回路規模が小さくなる利点を生かしてアナログ 方式やパルス変調方式を用い,チップ外部とのインタ フェースやメモリ部分はデジタル方式で実現する方 式であり,現実的な解として近年開発例が多い<sup>25)-28)</sup>.

ここで,ミックスト-アナログ/デジタル(Mixed A/D)方式とミックスト-PWM/デジタル(Mixed P/D)方式を比較してみよう.PWM 信号はアナロ グとデジタルの中間の性質を有しているので,A/D 変換の中間段階ともいえる.そのため,Mixed P/D 方式では,A/D 変換が簡単になる.高速クロック動 作のデジタルカウンタでパルス幅をクロック数に変 換することで,容易にPWM 信号をデジタル値に変 換でき,アナログ電圧からデジタルに変換する通常 のA/D 変換器に比べると面積的にはかなり小さくで

<sup>\*&</sup>lt;sup>3</sup>プロセッサのアーキテクチャや処理方式によって様々な処理 性能指標があるが,メディアプロセッサなどでは GOPS (Giga Operations Per Second)がよく使われる.しかし,operationの 意味を明確にしないと正確な比較ができない.ANN LSI ではシ ナプスの計算が毎秒何回できるか,すなわち CPS(Connections Per Second)がよく使われる.1シナプス演算は1回の積和演 算(乗算と加算)なので,1GCPS=2GOPS と言えそうだが,メ ディアプロセッサで ANN 演算をしたときにこれが成り立つか どうかは明らかでない(おそらく,多くのメディアプロセッサ では成り立たないであろう.)



図 1: ミックスト-PWM/デジタル方式による Convolutional Neural Network LSI の設計例

きる.もっとも,パルス-デジタル変換において分解 能を上げるために高速のカウンタを用いると消費電 力が無視できなくなる.ここでも低消費電力化は大 きな課題である.著者らが Mixed P/D 方式により設 計した ANN LSI チップの例を図1に示す<sup>19)</sup>.図か らわかるように,PWM-デジタル変換部の面積は全 体の中でかなり小さい.一方,単純な比較は無理が あるが,Mixed A/D 方式では A/D 変換部がチップ上 の半分の面積を占める例も報告されている.

3. アーキテクチャ: 演算ユニットとメモリの構成

積和演算(PE)部と,ニューロン値やシナプス荷 重値を記憶するメモリ部の構成はチップアーキテク チャを決定するキーポイントの一つである.

これには,図2に示すように,外部メモリを用い る方式(a)と,チップ上にメモリを内蔵する方式が ある.内蔵メモリ方式はまた,PE部とメモリ部を分 ける(集中メモリ)方式(b)と,各PE内にメモリを 内蔵する(分散メモリ<sup>\*4</sup>)方式(c)が考えられる.

外部メモリ方式(図2(a))では,外部メモリを増 やしさえすれば,任意の規模のネットワークを実行 できる.しかし,チップ間の接続ピン数の制限から 接続バスが処理のボトルネックになる.そのため, メモリへのアクセス回数の低減と処理の高速化のた めに,ニューロ演算の特徴を利用してデータ転送量 を削減する手法が提案されている.これはシグモイ ド関数変換時の単調性を利用して,積和演算の結果

<sup>\*4</sup>このアーキテクチャはメモリベースプロセッサなどとも呼ばれる.

が単調に進むように演算の仕方を工夫し, 飽和領域 に達した段階で計算を止めるという手法である<sup>29)</sup>. さらにデータの差分情報のみを転送することで演算 量とデータ転送量の削減を図っている.この手法は またバックプロパゲーション学習にも適用されてい る<sup>30)</sup>.

内蔵メモリの場合は,プロセッサとメモリ間に広 いバス幅を設定することができ,両者のデータ転送 のボトルネックを解消することができる.これは一 般にシステムLSIの利点の一つでもある.一例を示 すと,ゲーム機プレイステーション2に搭載された 画像処理プロセッサ(Graphics Synthesizer)では,16 個のプロセッサ(画素処理回路)と4MBのDRAM が 2,560 ビットのバスで接続されている.

一般にメモリは,一つの大きなセルアレイ構成に した方が周辺制御回路を共有できるため集積度が向 上するが,メモリセルには行・列方向でしかアクセ スできないという欠点が生じる.また,アクセスが 高速になると,バスを駆動するための消費電力が無 視できなくなる.一方,分散メモリ方式ではチップ 面積の使用効率は低下するものの,各メモリセルに 個別にアクセスできるため,超並列動作に適してい る.なお,ANN LSI およびメディアプロセッサとも に,各 PE にキャッシュ的なローカルメモリ(数kB) を搭載する方式はよく用いられる<sup>12),31)</sup>.

#### 4. 基本回路構成法

ANN 演算において,積和演算と非線形変換演算 を比較すると,処理量は前者が圧倒的に多い.1,000 入力ニューロンでは,1,000 個の積和演算に対し,1 個の非線形変換演算でよい.そこで,積和演算は並 列化が欠かせないが,非線形演算は逐次処理でも十 分な場合が多い.

さて,積和演算をいかに効率的に実行するかだが, 過去にはモデル(精度)を限定して実装した発表も 多い。すなわち,シナプス荷重を3値(-1,0,+1) にしたり,ニューロン出力値を2値にする(すなわ ち,活性化関数をステップ関数にする)ことにより, 乗算を省くことができる.これは劇的に回路規模を 削減できる.一般のモデルには適用できないが,実 用に使えればよいと割り切ることは重要である.

最近では,荷重を3値にして乗算を省きながら, オフセットをアナログ的に調整することで処理性能 の劣化を防ぐ方法も提案されている<sup>32)</sup>.また,カー ネル関数をガウシアンから2値の均一関数にするこ



図 2: 処理エレメント (PE) とメモリとの構成法

とで乗算を省き,しきい値処理だけですむLSIの提 案もされている<sup>33)</sup>.

4.1 積和演算回路

加算については,アナログ的には電流加算または 電荷加算,PWM 方式では電荷加算が主に利用され る.いずれも,1本のラインに電流または電荷を集 めるだけなので,回路は極めて簡単でかつ容易に並 列処理ができる.デジタル方式では加算器を用いる が,基本的に2入力しかないので,必要な個数の加 算器を用意して並列処理を行うか,時分割で共有す ることになる.

図3に,デジタル方式,アナログ方式,PWM方式のそれぞれの積和演算回路の典型的な構成例を示す.

デジタル方式の場合(図3(a)),人手でやる筆算 と同様に,桁数(2進数なのでビット数)の2乗の 回路ユニットが必要で,各回路ユニットで各項の積 の部分和を求めていく.デジタル回路ブロックでは 乗算器が最も素子数,チップ面積,消費電力を消費 する.乗算結果は2つずつ加算器で加算される.ア ナログ方式やPWM方式のように,1本のラインで 加算を行うことができないので,通常は乗算器と加 算器のセットで累算器を構成する.

アナログ方式では,電圧または電流方向にアナロ グ量を表現する.よく知られているように,MOSト ランジスタのゲート電圧( $V_{gs}$ )-ドレイン電流( $I_d$ ) の関係は,飽和領域では,

$$I_d = \beta (V_{gs} - V_{th})^2 \tag{3}$$

と表されるので,両者は比例関係にない.ここで,β は比例定数(ゲート長,ゲート幅などに依存する), V<sub>th</sub>はしきい値である.そこで,少なくとも一方の 入力に比例した結果を得られるように図3(b)に示す ような差動対回路を用いる.飽和領域で動作させる ために,おおざっぱに言ってゲート長をサブミクロ ンサイズにできないため,スケーリング(デザイン ルールに対応してトランジスタサイズを縮小するこ と)は難しい.乗算結果は電流値で与えられ,1本 のラインで加算し,抵抗により電圧に変換され,次 のニューロン回路への入力となる.加算が容易に行 えることはアナログ方式の最大の特長であるが,定 常的な電流は消費電力の増大を招くので,演算時の み電流を流すなどの制御が必要になる.

PWM 方式では,図 3(c) に示すように,PWM 信 号で定電流源をスイッチすることにより,パルス幅 と電流値の積の形で電荷を発生させる.積和演算結 果はキャパシタの電荷量または端子電圧として得ら れる.端子電圧は,線形に変化する参照ランプ電圧 とコンパレータで比較することにより,PWM 信号に 変換されて出力される.

デジタル方式と PWM 方式での性能比較を表1 に示す.ただし,デジタル方式では CAD の自動回 路生成に頼っているので,最適化されているわけで はない.また, PWM 方式では必要とされる精度に よっては,電流源の電流量を絞ってさらに低消費電 力化も可能である.しかし,通常は乗算による消費 電力よりも,キャパシタ電圧を PWM 信号に変換す るコンパレータなど他の箇所の消費電力が大きいの で,LSI全体の消費電力はアーキテクチャに依存す る.とはいえ,オーダとして積和演算について比較 すると, PWM 方式はデジタル方式よりも 100 倍低 速だが,チップ上に占める面積は1/100であり,消 費電力は 1/10,000 である.したがって, 100 倍の並 列化によって低速性を補えば,消費電力を1/100倍 にできることになる.なお,アナログ方式の性能も 概ね PWM 方式と同程度と考えられる.

一般の ANN モデルでは正負の加算を実行できな ければならないが,それには2通りの方式が考えられる.正・負の量をそれぞれ独立に加算して,最後



図 3: 各種方式での積和演算回路の例.(a) デジタル方式(最も簡単なアレイ型並列乗算器を用いた例),(b) アナログ方式(二象限乗算器(差動対)を用いた例),(c)PWM方式(スイッチト電流源を用いた例)

表 1: デジタル方式と PWM 方式での乗算器の性能比較(6ビット精度). VDEC・ローム 0.35μm ルール,電 源電圧 3.3V を仮定.デジタルは動作周波数 100MHz で論理合成・自動配置配線を行った結果. PWM 方式は 電流値 1μA(max), PWM 幅 640ns(max),動作周波数 1MHz で見積もった.

| 回路方式                      | デジタル   | PWM | デジタル/PWM 比    |
|---------------------------|--------|-----|---------------|
| 演算時間(μs)                  | 0.01   | 1   | 1/100         |
| 消費エネルギー (pJ/OP)           | 370    | 2.1 | $\sim \! 170$ |
| 消費電力(μW)                  | 37,000 | 2.1 | ~17,000       |
| レイアウト面積(µm <sup>2</sup> ) | 24,000 | 200 | 120           |
| トランジスタ数                   | 3,488  | 3   | $\sim 1,700$  |

に両者の差を計算する方式<sup>17)</sup>,および単一のキャパ シタに正負のスイッチト電流源を接続し,電荷を充・ 放電することにより実現する方式である.後者の方 が加算のためのキャパシタが1個でよいので省面積 になるが,加減算それぞれの電圧範囲は1/2になる ので,精度は低下する.

最後に注目すべき技術として,最近,ミックス ト・シグナル方式での積和演算において,ビットシ リアル演算を用いる手法が提案されていることを指 摘しておく<sup>25),26)</sup>. ANN 演算では要求される演算精 度が必ずしも高くないので,図3(a)に示したような 並列乗算器ではなく,ビットシリアル演算回路を用 い,かつアナログ回路も併用することで,多少の速 度低下を犠牲にしても,回路規模が小さくなること で並列性を高め,結果として高い処理性能を引き出 すことができる.

### 4.2 非線形関数変換回路

デジタル方式では,メモリのアドレスを入力にし データを出力とする Look-up table (LUT)がよく用 いられる.これは任意の関数が実現でき,処理時間 がメモリアクセスのみなので,高速である.しかし, N ビット精度の場合アドレスが 2<sup>N</sup> 個必要になることから,精度を上げるに従い素子数が膨大になる. 一方,関数を数学的に計算する方法もある.これは少ない素子数で実現することも可能だが,計算を行うために演算時間がかかるという欠点がある.

アナログの場合,素子の特性を生かした回路を構成し,非線形変換を実現する.回路はコンパクトだが,実現できる非線形変換関数が制限される.例えば,シグモイド型関数やその導関数は差動回路で比較的簡単に生成できるが,関数形状を任意に制御することは難しい.また,任意の非単調関数を生成することは困難である.

パルス変調方式の場合, PWM 信号を用いた任意 非線形変換の原理を図4に示す<sup>20)</sup>.これは,任意の 非線形電圧波形を PWM または PPM 信号でサンプ ル・ホールドすることで実現するパルス-電圧変換で ある.

PWM 信号から PWM 信号への非線形変換は次 のようにして実現する.時間領域で任意の電圧波形 F(t) を有する参照電圧  $V_{non}$  がスイッチ SW を介し てキャパシタ C に供給される.スイッチ SW は入力



図 4: PWM 信号を用いた任意非線形変換の原理

パルス  $P_{in}$  により制御される.ここで, $P_{in}$  の立ち上 がりで  $V_{non} = F(0)$ とする.スイッチ SW はパルス 幅の期間  $W_{in}$  で導通する.入力パルス  $P_{in}$  の立ち下 がりでスイッチが開くと,キャパシタの端子電圧  $V_{out}$ は $F(W_{in})$  に等しくなり,これを保持する.電圧  $V_{out}$ は線形に変化する参照ランプ電圧  $V_{lin}$ とコンパレー タで比較され,電圧に比例したパルス幅  $W_{out}$ を有 する  $P_{out}$ が生成される.この結果, $W_{out} = F(W_{in})$ が成り立ち,非線形参照電圧波形と同形の非線形関 数で入出力 PWM 信号のパルス幅が変換される.こ の回路では,PWM 信号ではなく,むしろその立ち下 がりに位置する PPM 信号を用いる方が無駄な電流 を抑えることができ,低消費電力化には有効である.

この方法が有用なのは,任意のアナログ入出力関数を作り出すのが難しいのに対し,時間の関数としての電圧波形 F(t)を作り出すのが容易なことによる.例えば,電圧波形をアナログ発振回路で作り出してもよいし,デジタル回路でルックアップテーブル法や関数生成法によりデジタル波形を作り出し,それを D/A 変換器によりアナログ波形にしてもよい.アナログ波形生成器は多数の PWM 非線形変換回路で共通に使用できるので,システム全体に対する波形生成のオーバーヘッドはわずかなものにできる.

### 5. おわりに

以上,簡単にANN LSI 設計手法について概観し, 最近の動向を解説した.私見だが,純アナログ方式は パルス変調技術と融合し, neuromorphic なアプロー チを取り入れ,アナログでなければできない処理を 実現する方向に向かうべきと考える.また,デジタル 方式もアナログやパルス変調方式と融合し,ニュー ラルネットワーク的な意味でより効率的な,つまり 既存のデジタル方式のように厳密な数値計算を追求 せず,ニューロモデルに基づいて必要な精度の計算 のみを行うようなフレキシブルなハードウェアに向 かっていくことが必要と思われる.最終的には,デ ジタル,アナログ,パルス変調のいずれの方式も取 り込んだアーキテクチャと回路設計技術が発展して いくことが望まれる.

実用的な観点からいえば,これまでいくつかの ANN LSI が商用化されたが,成功したとは言い難 い状況にあった.一般の知的情報処理ではニューラ ルネットワーク以外の処理も必要で,それらを含め ると汎用プロセッサを採用する方が効率的だったた めと考えられる.また,専用チップはコストの観点 から,応用がかなりはっきりしていて,相当規模の 出荷量が期待できるものでないとビジネス的に難し かった.

しかし,今日のようなシステムLSIの時代では状況が変わってくると思われる.ANN処理回路は知能処理 IP<sup>\*5</sup>としての価値は大いにある.特に,昨今の知能ロボット技術の隆盛に伴って,高性能・低消費電力のロボットコントローラ・認識用LSI,つまり,まさにロボットの「脳」としての機能を果たすLSIの要求が高まっている.そのようなLSIを実現するためには,LSI設計手法の研究と共に,ハードウェア化に適した知能処理モデルの研究が何より重要である.モデル・アルゴリズム,アーキテクチャ,ハードウェア実現それぞれの研究分野の連携が今後より一層望まれる.

#### 参考文献

- [1] 岩田穆,雨宮好仁 (1995): ニューラルネットワークLSI,電子情報通信学会
- [2] Cauwenberghs, G. and Bayoumi, M. A., editors (1999) : Learning on silicon: Adaptive VLSI neural systems, Kluwer Academic
- [3] Nakajima, K., Sato, S., Kitaura, T., Murota, J. and Sawada, Y. (1995) : Hardware implementation of new analog memory for neural networks, IEICE Trans. Electron., Vol. E78-C, No. 1, pp. 101–105
- [4] Kosaka, H., Shibata, T., Ishii, H. and Ohmi, T. (1995) : An excellent weight-updating-

<sup>\*&</sup>lt;sup>5</sup>IP: Intellectual Property のこと.直訳は知的資産だが,シス テム LSI の世界では,再利用可能な回路プロックの設計資産の ことを指す.プロセッサ,メモリ,専用処理回路などの IP を売 買して,それらを組み合わせて LSI チップ上にシステムを作り 上げる手法が確立されつつある.

linearity EEPROM synapse memory cell for selflearning neuron-MOS neural networks, IEEE Trans. Electron Devices, Vol. 42, pp. 135–143

- [5] Tran, H. V., Blyth, T., Sowards, D., Engh, L., Nataraj, B. S., Dunne, T., Wang, H., Sarin, V., Lam, T., Nazarian, H. and Hu, G. (1996) : A 2.5V 256-level non-volatile analog storage device using EEPROM technology, IEEE Int. Solid-State Circuits Conf. Dig., pp. 270–271
- [6] Kim, K. and Lee, K. (1998) : An 8b resolution 360μs
  write time nonvolatile analog memory based on differentially balanced constant-tunneling-current scheme (DBCS), IEEE Int. Solid-State Circuits Conf. Dig., pp. 336–337
- [7] Kinoshita, S., Morie, T., Nagata, M. and Iwata, A.
  (2001) : A PWM analog memory programming circuit for floating-gate MOSFETs with 75μs programming time and 11b updating resolution, IEEE J. Solid-State Circuits, Vol. 36, No. 8, pp. 1286–1290
- [8] Morie, T., Fujita, O. and Uchimura, K. (1997) : Self-learning analog neural network LSI with high-resolution non-volatile analog memory and a partially-serial weight-update architecture, IEICE Trans. Electron., Vol. E80-C, No. 7, pp. 990–995
- [9] Kobayashi, D., Shibata, T., Fujimori, Y., Nakamura, T. and Takasu, H. (2002)
  : A ferroelectric analog associative memory technology employing hetero-gate floating-gate-MOS structure, Symposium on VLSI Technology Digest of Technical Papers, pp. 116–117
- [10] Mihu, I. Z., Brad, R. and Breazu, M. (2001)
  : Specifications and FPGA implementation of a systolic Hopfield-type associative memory, Proc. Int. Joint Conf. on Neural Networks (IJCNN), pp. 228–233
- [11] Lim, A. B., Rajapakse, J. C. and Omondi, A. R.
  (2001) : Comparative study of implementing ICNNs on FPGAs, Proc. Int. Joint Conf. on Neural Networks (IJCNN), pp. 177–183

- [12] Kyo, S., Koga, T., Okazaki, S., Uchida, R., Yoshimoto, S. and Kuroda, I. (2003) : A 51.2GOPS scalable video recognition processor for intelligent cruise control based on a linear array of 128 4-way VLIW processing elements, IEEE Int. Solid-State Circuits Conf. Dig., pp. 48– 49
- [13] Hirai, Y. and Yasunaga, M. (1996) : A PDM digital neural network system with 1,000 neurons fully interconnected via 1,000,000 6-bit synapses, Proc. Int. Conf. on Neural Information Processing (ICONIP), pp. 1251–1256
- [14] Iwata, A. and Nagata, M. (1996) : A concept of analog-digital merged circuit architecture for future VLSI's, IEICE Trans. Fundamentals., Vol. E79-A, No. 2, pp. 145–157
- [15] El-Masry, E. I., Yang, H. K. and Yakout, M. A. (1997) : Implementations of artificial neural networks using current-mode pulse width modulation technique, IEEE Trans. Neural Networks, Vol. 8, No. 3, pp. 532–548
- [16] Bor, J. C. and Wu, C. Y. (1998) : Realization of the CMOS pulsewidth-modulation (PWM) neural network with on-chip learning, IEEE Trans. Circuits & Syst. II, Vol. 45, No. 1, pp. 96–107
- [17] Morie, T., Funakoshi, J., Nagata, M. and Iwata, A. (1999) : An analog-digital merged neural circuit using pulse width modulation technique, IEICE Trans. Fundamentals., Vol. E82-A, No. 2, pp. 356–363
- [18] Chen, L. and Shi, B. (2000) : CMOS PWM VLSI implementation of neural network, Proc. Int. Joint Conf. on Neural Networks (IJCNN), Vol. III, pp. 485–488
- [19] 是角圭祐, 森江隆, 野村修, 真継優和 岩田穆 (2002): アナログ・デジタル融合アーキテクチャ による convolutional network LSI の設計, 日本神 経回路学会第12回全国大会(JNNS2002 とっ とり)論文集 CD, pp. 17–20
- [20] Morie, T., Sakabayashi, S., Ando, H., Nagata, M. and Iwata, A. (1998) : Pulse modulation circuit

techniques for nonlinear dynamical systems, Proc. Int. Symp. on Nonlinear Theory and its Applications (NOLTA'98), pp. 447–450

- [21] Morie, T., Sakabayashi, S., Nagata, M. and Iwata, A. (2000) : CMOS circuits generating arbitrary chaos by using pulse width modulation techniques, IEEE Trans. Circuits & Syst. I, Vol. 47, No. 11, pp. 1652–1657
- [22] Murakoshi, K., Morie, T., Nagata, M. and Iwata, A. (2000) : An arbitrary chaos generator core circuit using PWM/PPM signals, Asia and South Pacific Design Automation Conf., pp. 23–24
- [23] Morie, T., Miyake, M., Nagata, M. and Iwata, A. (2001) : A 1-D CMOS PWM cellular neural network circuit and resistive-fuse network operation, Ext. Abs. of Int. Conf. on Solid State Devices and Materials (SSDM), pp. 90–91
- [24] Ando, H., Morie, T., Nagata, M. and Iwata, A. (2002) : An image region extraction LSI based on a merged/mixed-signal nonlinear oscillator network circuit, European Solid-State Circuits Conference (ESSCIRC), pp. 703–706
- [25] Szabó, T., Antoni, L., Horváth, G. and Fehér, B. (2000) : A full-parallel digital implementation for pre-trained NNs, Proc. Int. Joint Conf. on Neural Networks (IJCNN), Vol. II, pp. 49–54
- [26] Genov, R. and Cauwenberghs, G. (2001) : Massively parallel inner-product array processor, Proc. Int. Joint Conf. on Neural Networks (IJCNN), pp. 183–188
- [27] Waheed, K. and Salam, F. M. (2001) : A mixed mode self-programming neural system-on-chip for real-time applications, Proc. Int. Joint Conf. on Neural Networks (IJCNN), pp. 195–200
- [28] Schemmel, J., Schürmann, F., Hohmann, S. and Meier, K. (2002) : An integrated mixed-mode neural network architecture for megasynapse ANNs, Proc. Int. Joint Conf. on Neural Networks (IJCNN), pp. 2704–2709

- [29] Aihara, K., Fujita, O. and Uchimura, K. (1995) : A sparse memory-access neural network engine with 96 parallel data-driven processing units, IEEE Int. Solid-State Circuits Conf. Dig., pp. 72– 73
- [30] Saito, O., Aihara, K., Fujita, O. and Uchimura, K.
   (1998): A 1M synapse self-learning digital neural network chip, IEEE Int. Solid-State Circuits Conf. Dig., pp. 94–95
- [31] Kondo, Y., Komori, S. and Kyuma, K. (1999)
  : A 1.2GFLOPS neural network processor for large-scale neural network accelerator systems, Cauwenberghs, G. and Bayoumi, M. A., editors, Learning on Silicon, pp. 243–259. Kluwer Academic
- [32] Khan, A. H. (2002) : Multiplier-free feedforward networks, Proc. Int. Joint Conf. on Neural Networks (IJCNN), pp. 2698–2703
- [33] Aibe, N., Yasunaga, M., Yoshihara, I. and Kim, J. H. (2002) : A probabilistic neural network hardware system using a learning-parameter parallel architecture, Proc. Int. Joint Conf. on Neural Networks (IJCNN), pp. 2270–2275