この記事は Vim Advent Calendar 2018の最終日 25 日目の記事です。昨日は rhysd さんの「Vim の構文ハイライトでクリスマスツリー🎄を飾ってメリクリする」でした。今年も Vim Advent Calendar は完走しました。皆さんお疲れさまでした。

はじめに

昨今 Vim script は目覚ましい進化を遂げ、Vim script からタイマーも実行でき、プロセスを起動して非同期に通信できる様にもなりました。以前の様にコマンドを実行して Vim でのテキスト入力を妨げる事も少なくなってきました。

Vim script が扱える数値も既に64bit化されています。現在 pull-request されている blob 型も入れば、ほぼ他の言語と同等の機能を得たと言えるでしょう。¹

しかしながら世の中のプログラミング言語は機械学習へと足を延ばし、大量のデータを計算する仕組みを実装し始めています。Vim script も遅れを取ってはなりません。

そう思いませんか？

機械学習やるぞ

そこで今回、Vims script で機械学習を扱う為の仕組みを用意しました。外部コマンドは使っていません。また if_python 等の言語拡張も使っていません。Vim script のみで実装しました。

https://github.com/mattn/vim-brain

Vim script で実装したニューラルネットワークになります。中身は Go言語で実装されている goml/gobrainの完全移植版となります。ただし以前ブログで紹介した、goml/gobrain のモデル保存機能も実装してあります。

Golang だけでやる機械学習と画像分類

えっ？Vim script だけで機械学習が出来るんですか？それ超便利だと思いませんか？

まずは簡単な学習から

使い方は goml/gobrain と変わりません。まずは XOR を学習させてみます。

function!s:test() abort
  call brain#srand(0)letl:patterns =[  \[[0.0,0.0],[0.0]],  \[[0.0,1.0],[1.0]],  \[[1.0,0.0],[1.0]],  \[[1.0,1.0],[0.0]],  \]letl:ff = brain#new_feed()letl:ff.Init(2,2,1)calll:ff.Train(l:patterns,1000,0.6,0.4,v:false)calll:ff.Test(l:patterns)endfunctioncalls:test()

pattern は2項の配列で構成され、左が入力、右が期待値になります。brain#new_feed()でフィードフォワードを生成し、Initで初期化します。引数はそれぞれ

1入力の値の個数
隠れ層の数
1期待値の値の個数

となります。XOR は2つの入力から1つの期待値を出すので 2 と 1 ですね。

Trainの第一引数に作ったパターンを渡し、イテレーション数 1000、学習レート 0.6、モーメンタムファクタ(活性化係数) 0.4、デバッグ false で実行しています。

このコードですと、Vim script でも2秒程で学習と検証が完了します。余裕ですね。

結果もちゃんと出ていますね。

Jupyter Notebook でオシャレに機械学習

Vim Advent Calendar その2の nohararc さんの記事「Jupyter notebookでもVim scriptが書きたい！」で Jupyter Notebook 上で Vim script を実行されておられたのに感銘し、僕もやってみたくなりました。nohararc さんの実装はセルを実行する毎に Vim を起動しているので処理を継続出来ませんでしたので、python 側で Vim を常駐させておき、入力ファイルを監視させつつ出力ファイルを python 側から読み取る実装にしてみました。

Jupyter Notebook で XOR を学習させた際の記録を以下に置いてあります。

https://github.com/mattn/vim-brain/blob/master/machine-learning-with-vim-brain.ipynb

Markdown で説明を書きつつ手順を残せるのでとても人に伝えやすくなりました。今後「Vim script で機械学習やってみたいな」と思われる方が増えると嬉しいですね。

この Vim kernel をインストール出来る様に GitHub に置いておきました。

https://github.com/mattn/vim_kernel

詳しくは README.md を参照下さい。

ちょっと難しい学習

さて話を戻し今度は少し難しい学習をさせてみます。FizzBuzz を食わせて学習し、どう動くかを確かめます。まずは学習に必要な実装を作ります。

lets:bits= has('num64') ? 64:32lets:mask=s:bits-1lets:mask32=32-1lets:pow2=[1]fors:_in range(s:mask)call add(s:pow2,s:pow2[-1] * 2)endfor
unlet s:_function!s:lshift(a,n) abort
  returna:a * s:pow2[and(a:n,s:mask)]endfunctionfunction!s:rshift(a,n) abort
  letn= and(a:n,s:mask)returnn==0 ? a:a:  \a:a<0 ? (a:a-s:min)/ s:pow2[n] + s:pow2[-2] /s:pow2[n-1]  \:a:a / s:pow2[n]endfunctionfunction!s:bin(n) abort
  letl:f= repeat([0.0],8)forl:iin range(8)letl:f[i]=0.0+ and(s:rshift(a:n,l:i),1)endforreturnl:fendfunctionfunction!s:dec(v) abort
  let[l:maxi,l:maxv]=[0,0.0]forl:iin range(len(a:v))ifa:v[l:i]>l:maxv
      letl:maxv =a:v[l:i]letl:maxi =l:iendifendforreturnl:maxi
endfunctionfunction!s:teacher(n) abort
  ifa:n%15==0return[1,0,0,0]elseifa:n%3==0return[0,1,0,0]elseifa:n%5==0return[0,0,1,0]elsereturn[0,0,0,1]endifendfunctionfunction!s:test() abort
  call brain#srand(0)letl:patterns =[]forl:iin range(1,100)call add(l:patterns,[s:bin(i),s:teacher(i)])endforletl:ff = brain#new_feed()letl:ff.Init(8,100,4)calll:ff.Train(l:patterns,1000,0.6,0.4,v:true)forl:iin range(1,100)letl:r=s:dec(l:ff.Update(s:bin(l:i)))ifl:r==0
      echo "FizzBuzz"elseifl:r==1
      echo "Fizz"elseifl:r==2
      echo "Buzz"else
      echo l:iendifendforendfunctioncalls:test()

仕組みは XOR とほぼ同じですが、FizzBuzz の場合は以下の4つを期待値とします。

Fizz
Buzz
FizzBuzz
数値

検証時にはその値を元に分岐を行います。

結果は問題ありませんでした。ただ学習に時間が結構掛かります。Intel Core i5、メモリ16GB (ノートPC)の Windows で約1分掛かります。同じコードを golang で書いて実行すると3～4秒なので、単純に Vim script は golang の20倍くらい遅い事になります。²

※もちろん皆さんご存じの通り、学習した範囲ではおおよそ動きますが、そうでないならば15で割り切れるけれど学習した事のない 450 等を食わせても FizzBuzzになる訳ではないのです。学習のさせ方次第ではあります。

モデルを保存できる

FizzBuzz の学習に1分掛かったとしても、学習結果が保存できるなら実用では推論だけで勝負出来ます。golang で同じコードを書いて保存した FizzBuzz 用のモデルファイル(JSON)を用意しました。大きすぎるので以下の Gist に貼り付けてあります。

https://gist.github.com/mattn/e4d8a2009627bda289928e8f370b33f2

※分かりやすい様にフォーマットしました。
※3000行デカすぎる？聞こえませんね

モデルファイルの読み込みには brain#load_modelという関数を用意してあります。これにファイル名を指定して JSON ファイルを読み込みます。コードも学習の必要が無くなるのでこんなにスッキリしました。

function!s:test() abort
  letl:ff = brain#load_model('fizzbuzz.json')forl:iin range(1,100)letl:r=s:dec(l:ff.Update(s:bin(l:i)))ifl:r==0
      echo "FizzBuzz"elseifl:r==1
      echo "Fizz"elseifl:r==2
      echo "Buzz"else
      echo l:iendifendforendfunction

実行結果も一瞬で表示されます。Vim script サイコー！そう思いませんか？

まぁまぁ難しい学習

こうなってくると Vim から実用したくなります。例えば以下のソースコードを見て下さい。

require 'open-uri'
open(url) do |file|
  puts file.read
end

プログラマの皆さんならば、これが Ruby のコードだと分かるはずですが Vim は分かりません。ある程度 Vim のファイルタイプ判別もやってくれるのですが、もしファイル名が特徴的でなかったりするとシンタックスハイライトされないのです。一大事ですね。

そこでこの vim-brain を使ってプログラミング言語を判別し、&filetypeオプションに設定すべき言語名を推論する仕組みを考えてみました。

プログラミング言語の判別

プログラミング言語の判別には何種類か方法があるのですが、ソースコードからキーワードを抜き出し、キーワードの入力および言語名の期待値から作られるパターンを作り学習させるのが一番簡単な方法と思います。この仕組みは guesslangという Python モジュールでも使用されている実績のある方法です。

※guesslang では TensorFlow を使っているので高速に処理されます。

モデルファイルの生成

モデルは、著名な OSS のソースコードを読みこんでキーワードに分割、全体母数を得た後で再度解析して入力と期待値を構成します。解析は以下の OSS を利用させて頂きました。

言語	解析に使用したOSS
C	h2o
C++	OpenCV
Ruby	Sinatra
Perl	Plack
PHP	Laravel
Go	Go

ディレクトリを探索し、Ruby, PHP, Perl, C, C++, Go のソースを解析します。学習に与えるパターンは固定個で無ければなりませんので、一旦全てのキーワードを抜き出して母数(全キーワード数、全言語数)を得ます。続けて再度キーワードを含む入力と言語インデックスをエンコードした値を期待値としたパターンを作ります。言語インデックスとは languages.jsonに含まれる配列の添え字に当たります。

実はこのディレクトリ探索やキーワード抽出と言った前準備から全て Vim script でやろうと試みたのですが、いかんせん膨大なデータを処理する必要があり、なおかつ学習に数日かかる(4時間まで我慢しましたが20イテレーションすら到達できませんでした)見込みである事が分かっています。そこで泣く泣く golang の力を借りました。

packagemainimport("encoding/json""flag""fmt""io/ioutil""log""math/rand""os""path/filepath""regexp""sort""strings""github.com/goml/gobrain")varextMap=map[string]string{".rb":"ruby",".php":"php",".pm":"perl",".pl":"perl",".c":"c",".cc":"cpp",".cxx":"cpp",".go":"go",}funcremoveComment(lang,codestring)string{iflang=="c"||lang=="cpp"||lang=="go"{re:=regexp.MustCompile("(?s)//.*?\n|/\\*.*?\\*/")code=re.ReplaceAllString(code,"")}iflang=="perl"||lang=="ruby"{lines:=strings.Split(code,"\n")fori:=0;i<len(lines);i++{ifstrings.HasPrefix(strings.TrimSpace(lines[i]),"#"){lines[i]=""}}code=strings.Join(lines,"\n")}returncode}varallKws=map[string]struct{}{}varpat=regexp.MustCompile(`\b\w+`)funckeywords(lang,codestring,kws[]string)[]float64{kwf:=make([]float64,len(kws))words:=pat.FindAllString(removeComment(lang,code),-1)kc:=0for_,v:=rangewords{n:=find(kws,v)ifn!=-1{kwf[n]++kc++}}fmt.Println(words)fori:=0;i<len(kwf);i++{ifkwf[i]>0{kwf[i]/=float64(kc)}}returnkwf}funcanalyze(namestring)bool{ifstrings.Contains(name,"/."){returnfalse}lang,ok:=extMap[strings.ToLower(filepath.Ext(name))]if!ok{returnfalse}b,err:=ioutil.ReadFile(name)iferr!=nil{returnfalse}for_,v:=rangepat.FindAllString(removeComment(lang,string(b)),-1){allKws[v]=struct{}{}}returntrue}funcallLanguages()[]string{l:=[]string{}langs:=map[string]struct{}{}for_,v:=rangeextMap{langs[v]=struct{}{}}fork:=rangelangs{l=append(l,k)}sort.Strings(l)returnl}funcallKeywords()[]string{ks:=[]string{}fork:=rangeallKws{ks=append(ks,k)}sort.Strings(ks)returnks}typeBasicEncoderDecoderstruct{labels[]string}func(cBasicEncoderDecoder)EncodeLabel(labelstring)[]float64{hasil:=[]float64{}for_,l:=rangec.labels{ifl==label{hasil=append(hasil,1.0)}else{hasil=append(hasil,0.0)}}returnhasil}func(cBasicEncoderDecoder)DecodeLabel(label[]float64)string{maxIndex:=0maxValue:=0.0fori,l:=rangelabel{ifl>maxValue{maxIndex=imaxValue=l}}returnc.labels[maxIndex]}funcfind(a[]string,xstring)int{fori,n:=rangea{ifx==n{returni}}return-1}funcsaveModel(ff*gobrain.FeedForward)error{f,err:=os.Create("guesslang.json")iferr!=nil{returnerr}deferf.Close()returnjson.NewEncoder(f).Encode(ff)}funcloadModel()(*gobrain.FeedForward,error){f,err:=os.Open("guesslang.json")iferr!=nil{returnnil,err}deferf.Close()ff:=&gobrain.FeedForward{}err=json.NewDecoder(f).Decode(ff)iferr!=nil{returnnil,err}returnff,nil}funcsaveKeywords()error{f,err:=os.Create("keywords.json")iferr!=nil{returnerr}deferf.Close()returnjson.NewEncoder(f).Encode(allKeywords())}funcsaveLanguages()error{f,err:=os.Create("languages.json")iferr!=nil{returnerr}deferf.Close()returnjson.NewEncoder(f).Encode(allLanguages())}funcloadKeywords()([]string,error){f,err:=os.Open("keywords.json")iferr!=nil{returnnil,err}varkeywords[]stringerr=json.NewDecoder(f).Decode(&keywords)iferr!=nil{returnnil,err}returnkeywords,nil}funcloadLanguages()([]string,error){f,err:=os.Open("languages.json")iferr!=nil{returnnil,err}varlanguages[]stringerr=json.NewDecoder(f).Decode(&languages)iferr!=nil{returnnil,err}returnlanguages,nil}funcmain(){flag.Parse()kws,_:=loadKeywords()langs,_:=loadLanguages()ff,_:=loadModel()enc:=&BasicEncoderDecoder{langs}fmt.Println(len(kws),len(langs))iflen(kws)==0||len(langs)==0||ff==nil{base,err:=filepath.Abs(flag.Arg(0))iferr!=nil{log.Fatal(err)}names:=[]string{}err=filepath.Walk(base,func(pathstring,infoos.FileInfo,errerror)error{iferr!=nil{returnerr}if!info.IsDir()&&info.Name()!=".git"{path=filepath.ToSlash(path)ifanalyze(path){names=append(names,path)}}returnnil})kws=allKeywords()langs=allLanguages()enc=&BasicEncoderDecoder{langs}visit:=map[string]int{}for_,l:=rangelangs{visit[l]=0}rand.Seed(0)patterns:=[][][]float64{}for_,name:=rangenames{ifstrings.Contains(name,"/."){continue}lang,ok:=extMap[strings.ToLower(filepath.Ext(name))]if!ok{continue}ifvisit[lang]>20{continue}log.Println(lang,name)b,err:=ioutil.ReadFile(name)iferr!=nil{continue}kf:=enc.EncodeLabel(lang)kw:=keywords(lang,string(b),kws)patterns=append(patterns,[][]float64{kw,kf,})visit[lang]++}println(len(kws),len(langs),len(patterns))ff=&gobrain.FeedForward{}ff.Init(len(kws),len(langs),len(langs))ff.Train(patterns,100,0.6,0.4,true)saveModel(ff)saveKeywords()saveLanguages()}input:=keywords("",`
require 'sinatra'

get '/' do
  'Hello world!'
end
    `,kws)vv:=ff.Update(input)fmt.Println(enc.DecodeLabel(vv))}

※golang を使ってもモデルファイルを生成するのに2時間掛かります。

コードの最後で Ruby のコードを判別していますが、問題なく ruby と表示されます。

Vim script でプログラミング言語を判別

生成した JSON ファイルは 38MB もありますが Vim script の JSON の読み込みはC言語の実装です。それほど遅くならない事を期待しながら、別途用意したファイルを読み込み推論してみましょう。

lets:base= fnamemodify(expand('<sfile>').'/../data',':p')function!s:enc(l,n) abort
  letl:f= repeat([0.0], len(a:l))forl:iin range(len(a:l))ifa:l[l:i]==a:nletl:f[l:i]=1.0endifendforreturnl:fendfunctionfunction!s:dec(v) abort
  let[l:maxi,l:maxv]=[0,0.0]forl:iin range(len(a:v))ifa:v[l:i]>l:maxv
      letl:maxv =a:v[l:i]letl:maxi =l:iendifendforreturnl:maxi
endfunctionif!exists('s:kwd')lets:kws= json_decode(join(readfile(s:base.'/keywords.json'),"\n"))endifif!exists('s:lng')lets:lng= json_decode(join(readfile(s:base.'/languages.json'),"\n"))endifif!exists('s:ff')lets:ff= brain#load_model(s:base.'/guesslang.json')endiffunction!s:keywords(code) abort
  letl:kwf = repeat([0.0], len(s:kws))letl:words =[]call substitute(a:code,'\<\w\+','\=add(l:words, submatch(0)) == [] ? "" : ""','g')letl:kc =0.0forl:vinl:words
    letl:n= index(s:kws,l:v)ifl:n!=-1letl:kwf[l:n]+=1.0letl:kc +=1.0endifendforforl:iin range(len(l:kwf))ifl:kwf[l:i]>0.0letl:kwf[l:i]=l:kwf[l:i] / kc
    endifendforreturnl:kwf
endfunctionfunction!s:test() abort
  letl:input =s:keywords(join(readfile('test.cc'),"\n"))letl:r=s:dec(s:ff.Update(l:input))
  echo s:lng[l:r]endfunctioncalls:test()

s:encと :decはラベル名(プログラミング言語名)をインデックス値としてエンコード/デコードする為の実装、s:keywordsは golang で実装した方法と同じ方式でソースコードからキーワードを抜き出す為の実装です。

推論に使用したソースファイルは以下の簡単は C++ のソースファイルです。

#include <iostream>
#include <string>
#include <algorithm>
intmain(intargc,char*argv[]){std::vector<std::string>v;return0;}

実行すると10秒後に以下の様に表示されます。

cpp

うまく動きました。その他、上記の golang のソース自身や、そのコードの一番下にある ruby のコードも正しく判別できています。やったぜ！ただC言語と PHP を混同する事が結構多いのですが、これはワード単位のランク付けになっているので、今回見付かった PHP のソースコードにC言語のキーワードと似た物が多く含まれていた結果だと思います。これについては今後、定量的な評価の上で調整し、もう少し精度の高いニューラルネットを作ろうと思います。

なお推論に10秒掛かる点に関して「遅すぎて実用に値しない」と思われるかもしれませんが、これを解決する簡単な方法を Vim の作者 Bram Moolennaar 氏が VimConf 2018 で言及されています。

Vim script が遅いと感じたら、速い PC を買って下さい。

尚、この記事を執筆してから気付いたのですが、Vim の記事なのに Vim script を解析に含める事を忘れていました。

まとめ

Vim script からニューラルネットワークを扱う為の仕組みを実装し、XOR と FizzBuzz の学習と推論を、また保存されたモデルファイルを使ってプログラミング言語の判別をやってみました。さらに皆さんでも汎用的に使って頂ける様に vim-brain というプラグインにしました。学習には golangの実装である goml/gobrainを使って頂き、生成したモデルファイル(JSON)を Vim で使って推論する事で、そこそこ実用的な結果¹が得られる事が分かりました。今後は vim-brain の高速化、または Vim 本体の高速化に取り組み、いずれは誰でも簡単に Vim script による機械学習を試せる様に精進して参りたいと思います。

尚、前述の blob 型が Vim 本体に導入された暁には、Vim script のみで画像の特徴抽出や判別も試してみたいと思います。

ほんまか？ ↩
まぁでも誤差ですよね。誤差。(気にしない) ↩

Vim script で機械学習

はじめに

機械学習やるぞ

まずは簡単な学習から

Jupyter Notebook でオシャレに機械学習

ちょっと難しい学習

モデルを保存できる

まぁまぁ難しい学習

プログラミング言語の判別

モデルファイルの生成

Vim script でプログラミング言語を判別

まとめ

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？