第5回イテレータ

前田修吾

mod_ruby 0.9.0

先日、筆者がメンテナンスしているmod_ruby[1]というソフトウェアの version 0.9.0をリリースしました。mod_rubyは、この連載で以前にも少し触れましたが、ApacheというHTTPサーバにRubyインタプリタを組み込むためのモジュールです。version 0.8.0以降では、RubyでApacheのハンドラを記述することができるような機能を追加してきたのですが、随分不安定な状態が続いていました。0.9.0ではかなり安定しているのではないかと思っています。(毎回リリースした直後にはそう思うのですが。)

ただ、少しだけ言い分けを書かせていただくと、なかなかmod_rubyが安定しない理由の一因には、Ruby自体のAPIがなかなか安定しないということもあります。先日もmkmf.rbの仕様が変わって、「ぎゃっ」と叫ぶことがありました。

そもそも、mod_rubyを書き始めたころには、Rubyインタプリタを操作するためのAPIが十分に揃っていなかったため、手探りで実装しながら、何か困ったことが起きる度に、「まつもとさん、これこれこういう機能が欲しいんですけど…。」とまつもとさんにお願いしていました。(実は先日もしたばかりです。) こういう状態ではなかなか安定しないのも無理はありません。(組み込み用のAPIがどうあるべきかということをちゃんと考えずに、ad-hocな対処ばかりしてきた私が悪いのですが。)たぶん、Rubyを組み込むアプリケーションがもっと増えると、このあたりに関する議論が深まって、APIも充実するのではないかと思われるので、みなさんもどんどんRubyを組み込んでください。

イテレータとは

今回はRubyの特徴の一つであるイテレータを取り上げます。イテレータ (iterator)はもともと「繰り返すもの」という意味を持ちます。反復子という訳語もありますが、Rubyではあまり一般的ではありません。

多くのプログラムの中では、何らかの繰り返し処理が行われます。たとえば、配列の各要素に対して同じ処理を繰り返し行うようなループは、プログラマなら誰もが書いた経験があるのではないでしょうか。そこで多くのプログラミング言語ではループを構成するための制御構造を提供しています。たとえば、C 言語の場合はwhile文やfor文がそれにあたります。

Cのwhile文やfor文は色々なループを構成できるように、汎用的なものになっています。Rubyのwhileも同様です。これは利点でもあるのですが、その反面、ユーザにループの制御をまかせるため、範囲外のデータにアクセスしてしまうなどのミスを起こしやすい、という悪い面もあります。

プログラムでよく使われる(もっともよく使われると言ってもよいかもしれません)ループに、配列やハッシュなどの、複数のオブジェクトを格納するオブジェクト(このようなオブジェクトのことをコンテナやコレクションと言います)などの各要素に対して、同じ処理を繰り返す、というものがあります。これらのループの制御は、オブジェクトの構造と密接に結びついています。たとえば、配列の場合は添字を使って各要素にアクセスしますし、連結リストの場合はまた別の方法が必要になります。(List1・List2) ^*1

そこで、ループを制御する役割を、オブジェクトを使うユーザの側にではなく、オブジェクトそのものに対して与える、という考え方が出て来ます。Rubyはオブジェクト言語ですから、オブジェクトを操作するためにはオブジェクトにメッセージを送って(メソッド呼び出しをして)、オブジェクトそのものに適切な処理を行ってもらいます。ループの制御についても、同じようにオブジェクトにまかせてしまえばよいというわけです。そして、そのための仕組みがRubyのイテレータです。(実はRubyのイテレータは繰り返し処理に特化したものではありませんが、それについては後述します。)

-- List1 配列の各要素に対して繰り返すwhileループ

  i = 0
  while i < ary.length
    p ary[i]
    i += 1
  end

-- List2 連結リストの各要素に対して繰り返すwhileループ

  link = list.first
  while link
    p link
    link = link.next_link
  end

イテレータを利用する

Rubyのイテレータは実はメソッドの一種です。普通のメソッドと異なるのは、引数の他に、ブロックと呼ばれるコードのかたまりを渡すことができる点です。 ^*2

まずは例を見てみることにしましょう。List3はArray#eachというイテレータを使って、配列の各要素を出力するプログラムです。ary.eachの後のdoから endまでがブロックです。このブロックによって、各要素に対して実行したい処理内容を、イテレータに渡すことができます。ブロックの中では、whileループと同じように、breakでループを中断したり、nextで次のループに処理を移すことができます。

Array#eachは配列の各要素に対して、ブロックの中身を繰り返し実行します。ブロックの中の一番最初に出てくる|item|という部分は、イテレータから配列の要素を受け取る部分です。

Array#eachではブロックに渡される値は一つだけですが、イテレータによっては複数の値をブロックに渡すものもあります。その場合は|item1, item2,...| のように複数の値を受け取ることができます。たとえば、Hash#eachはブロックに2つの値(Hashのキーと値)を渡します。(List4)

逆に値が渡されない場合や、渡される時でも値を使う必要のない場合には、 |...|は省略することができます。

-- List3 Array#each

  ary = ["foo", "bar", "baz"]
  ary.each do |item|
    print item, "\n"
  end

-- List4 Hash#each

  hash = {"key1" => "value1", "key2" => "value2"}
  hash.each do |key, value|
    print key, "=", value, "\n"
  end

イテレータとポリモルフィズム

Array#eachとHash#eachは、ブロックに渡される値の数こそ違いますが、すべての要素に対してブロックを繰り返し実行するという点で共通しています。一般に、各要素に対してブロックを繰り返すようなイテレータにはeachという名前を付けます。(これは言語による強制ではなく、あくまでも紳士協定です。) このため、ユーザはオブジェクトの構造を知らなくとも、各要素に対して繰り返し同じ処理を行いたい時には、eachというイテレータを呼び出すだけですみます。もし、イテレータがなかったら、ユーザはオブジェクト毎に異なる処理を記述する必要があるでしょう。つまり、Rubyでは、イテレータによって、繰り返しの制御においても、ポリモルフィズムの恩恵を受けることができるのです。

念のため説明しておくと、ポリモルフィズムというのは、同じメッセージを異なるオブジェクトに送ると、オブジェクトによって適切な処理が行われることで、オブジェクト指向を特徴付ける重要な概念です。たとえば、文字列や配列の長さを知りたい時には、str.lengthやary.lengthのように、同じlengthというメッセージを送ってやれば、それぞれのクラスに応じた、適切な処理が行われます。このように、ポリモルフィズムのおかけで、異なる種類のデータを統一的に扱うことができるわけです。

すでに説明したようにイテレータもメソッドの一種なので、イテレータによってポリモルフィズムの恩恵を受けることができるというのは、当然と言えば当然ですね。

外部イテレータ

ここでちょっと脱線して、Rubyのイテレータとは直接関係のない話をします。実は、Rubyのようなイテレータがなくとも、繰り返しの制御においてポリモルフィズムの恩恵を受けることができます。そのためには外部イテレータというものを使います。

Rubyのイテレータは、ユーザではなく、イテレータそのものが繰り返しの制御を行います。このようなイテレータは内部イテレータと呼ばれます。一方、外部イテレータの場合は、繰り返しの制御はユーザが行わなければならないのですが、その制御の仕方を統一することができます。

たとえば、配列の各要素の対して処理を繰り返すループについて考えてみましょう。List1を見ると、このようなループで行う処理は、

配列の添字の初期化
添字が配列の長さよりも小さいかどうかの判定
添字を使って配列の要素にアクセスし、添字をインクリメントする

の3つに分けることができます。これらは一般化すると次のようになります。

初期化
まだ繰り返すべき要素があるかどうかの判定
次の要素の取得

そこで、繰り返しを制御するためのオブジェクトを利用することで、これらの処理を統一的に行うことができるようにします。他の言語では、このオブジェクトのことをイテレータと呼んだりするのですが、Rubyの場合は、それではまぎらわしいのでカーソルオブジェクトと呼ぶことにしましょう。

List5はカーソルの利用例です。ary.get_cursorはカーソルオブジェクトを生成します。 cursor.more?はまだ繰り返すべき要素がある場合は真を返します。 cursor.nextは次の要素を取得し、次回のnextの呼び出しで次の要素を得られるように内部のカウンタをインクリメントします。配列以外のオブジェクトの場合には、cursor.more?やcursor.nextの内部の処理は異なるものになりますが、カーソルオブジェクトのインタフェイスさえ揃えておけば、ユーザは処理の詳細を知らなくとも繰り返しを行うことができます。whileを使って繰り返しを制御するのはユーザですが、繰り返しの制御に必要な処理はカーソルオブジェクトにまかせてしまうことができるわけです。

ちなみにArray#get_cursorというメソッドは標準では提供されませんので、 List6に定義を示しておきます。なぜ標準で提供されていないかというと、 Rubyの場合はイテレータがあるので、カーソルはあまり必要とされないからです。ただ、カーソルでないとできないこともあるのでまったく意味がないわけではありません。たとえば、List7のように2つの繰り返しを並行して行うような処理はイテレータでは実現できません。

なお、Rubyでは既存のクラスにメソッドを追加できるので、List6のようなこともできるわけですが、標準クラスを変更すると他の人にコードがわかりづらくなりのであまりおすすめしません。カーソルを生成するインタフェイスも統一できることを示すためにこのような例にしましたが、実際に使う場合には ArrayCursor.new(ary)のようにカーソルオブジェクトを生成するようにした方がよいでしょう。

-- List5 カーソルの利用

  ary = ["foo", "bar", "baz"]

  cursor = ary.get_cursor
  while cursor.more?
    obj = cursor.next
    p obj
  end

-- List6 カーソルの定義

  class ArrayCursor
    def initialize(ary)
      @ary = ary
      @idx = 0
    end

    def more?
      return @idx < @ary.length
    end

    def next
      obj = @ary[@idx]
      @idx += 1
      return obj
    end
  end

  class Array
    def get_cursor
      return ArrayCursor.new(self)
    end
  end

-- List7

  c1 = ary1.get_cursor
  c2 = ary2.get_cursor
  while c1.more? && c2.more?
    obj1 = c1.next
    obj2 = c2.next
    ...
  end

Enumerable

eachは、各要素に対して、単に繰り返しブロックを実行するだけですが、イテレータを使って、もっと複雑な処理を(シンプルに)行うこともできます。たとえば、Enumerableというモジュールが提供するイテレータは覚えておくと非常に便利です。

Enumerableは、Arrayを含む多くのeachを持つクラスにインクルードされているモジュールで、eachを利用していろいろな機能を実現します。Enumerableが提供するイテレータは以下の4つです。

detect

find

detectとfindは名前は違いますが、実体は同じです。名前の通り、あるオブジェクトを見つけるために使います。どのようなオブジェクトを見つけるのかは、ユーザがブロックを使って指定することができます。

List8は配列の中から数字のみ文字列を見つけるプログラムです。do endの代りに{ }を使っていますが、ここではあまり気にしないでください。 (do endと{ }の違いについては次の節で説明します。) detectは各要素に対してブロックを実行し、ブロックの値(ブロック中の最後の式の値)が真になった時に、繰り返しを中断してその要素を返します。つまり、detect はブロックの値が真になるような最初の要素を返します。ここでは、 /^\d+$/ =~ xの値が真になった(数字のみだった)場合に、その要素を返します。^*3

-- List8 detectの例

  ary = ["foo", "123", "bar"]
  p ary.detect { |x| /^\d+$/ =~ x } #=> "123"

select

find_all

selectとfind_allも名前は違いますが、実体は同じイテレータです。 detectと同じように、ブロックの値が真になるような要素を見つけますが、 detectと違って、要素が見つかった時も繰り返しを中断せずに、すべての要素を見つけ出し、それらを配列で返します。つまり、selectはすべての要素の中からブロックの値が真になるような要素を選んで、それらの配列を返すわけです。List9は配列の中から数字だけの文字列を選ぶ例です。

-- List9 selectの例

  ary = ["foo", "123", "bar", "456"]
  p ary.select { |x| /^\d+$/ =~ x } #=> ["123", "456"]

reject

rejectはselectと対になるイテレータです。selectはブロックが真になる要素を選んで返しますが、rejectは逆にブロックが真になるような要素を除外し、それ以外の要素だけを配列で返します。ただ、除外するといっても、レシーバのオブジェクトを変更するわけではなく、返り値の配列から除外するだけなので、注意が必要です。むしろ、ブロックが偽になる要素だけを選んで返すと言った方がよいかもしれません。List10は配列の中から数字だけの文字列以外の要素を返す例です。

-- List10 rejectの例

  ary = ["foo", "123", "bar", "456"]
  p ary.reject { |x| /^\d+$/ =~ x } #=> ["foo", "bar"]

collect

map

collectとmapも名前は違いますが、実体は同じイテレータです。collect はすべての要素に対してブロックを実行し、ブロックの値を配列にして返します。reject同様、レシーバのオブジェクトは変更されない点に注意してください。(Arrayにはレシーバのオブジェクトを変更するcollect!が用意されています。) List11は、配列のすべての要素に対して、大文字にする処理をした結果を得る例です。

-- List11 collectの例

  ary = ["foo", "bar", "baz"]
  p ary.collect { |x| x.upcase } #=> ["FOO", "BAR", "BAZ"]

do endと{ }の違い

do endと{ }の違いについて簡単に説明します。その違いは文法的なものです。

List12はList8のdetectの例をdo endで書き直したものですが、このプログラムは実行するとエラーになります。これは、List12がList13のように解釈されるからです。つまり、この場合、ブロックはary.detectにではなく、pに渡されてしまうのです。

一般に、イテレータの戻り値を使わない場合はdo end、使う場合は{ }を利用する、という使い分けをする人が多いようです。これは以前は文法上List14のようにdo endを使って返り値を受け取ることができなかったからです。しかし、今はこのような使い方もできますので、こういったケースでもdo endを使う人が増えているようです。また、一行で書く場合は{ }を使う、といったルールを決めている人もいるようです。結局、どちらでもよい場合には、好みで選ぶことになります。

では、いったいなぜ二通りの書き方が必要なのでしょうか。それはRubyではメソッド呼出しの引数の括弧が省略できるおかげで、List8やList12のようなケースでは、ブロックを渡す相手が二通り考えられるためです。もし文法的に引数の括弧の省略が許されていなければ、どちらか一方だけでもよかったでしょう。このように、引数の括弧の省略はRubyの文法を複雑にしている面があるので、あまり好ましくないのではないかという意見もあります。^*4

-- List12 do endが使えない例

  ary = ["foo", "123", "bar"]
  p ary.detect do |x| /^\d+$/ =~ x end #=> LocalJumpError

-- List13 List12の解釈

  ary = ["foo", "123", "bar"]
  p(ary.detect) do |x| /^\d+$/ =~ x end

-- List14 以前はエラーだった

  ary = ["foo", "123", "bar"]
  result = ary.detect do |x| /^\d+$/ =~ x end

繰り返さないイテレータ

さて、ここまでイテレータは繰り返すものであるという前提でお話してきたわけですが、実は繰り返さないイテレータもあります。イテレータというのは「繰り返すもの」という意味ですから、これは一見矛盾する表現ですが、この矛盾の原因はむしろ「イテレータ」という呼称があまり適切でないことにあります。

もともと、RubyのイテレータはCLUという言語のイテレータを参考にしているのですが、RubyとCLUの大きな違いは、CLUの場合はイテレータとメソッドはまったく別のものであり、イテレータは値を返すことができないのに対し、Rubyの場合はイテレータもメソッドであり、値を返すことができるということです。つまり、Rubyのイテレータはもともとは繰り返しに利用するために考案されたのですが、仕組み的には繰り返しに特化したものではなく、メソッドにコードを渡してコールバック的な処理を行うための、より一般的な仕組みなのです。これは、たとえば、C言語なら関数ポインタを使って実現するような処理です。

それでは繰り返さないイテレータの例を見てみましょう。

List15は配列の各要素を長さが小さい順にソートする例です。各要素の比較を行う方法をブロックで指定しています。Cのqsort()連想される方も多いのではないでしょうか。

List16はString#subの例です。String#subは文字列の置換を行うメソッドで、第1引数に正規表現、第2引数に置換文字列を取りますが、第2引数を省略して代りにブロックを与えることができます。ブロックが与えられた場合、正規表現にマッチした部分がブロックに渡され、その部分はブロックを実行した値で置換されます。List16ではマッチした文字列を大文字化して置換しています。

List17はProcオブジェクトの利用例です。通常のイテレータは、ブロックを実行しますが、Proc.newはブロックを実行する代りに、Procオブジェクト化して返します。Procオブジェクトはcallというメソッドを持っており、callメソッドを呼び出すことでブロックを実行することができます。Procオブジェクトを使うと、ブロックの実行を遅延することができるので、たとえば、GUIアプリケーションでイベントハンドラを定義するために利用することができます。

-- List15 Array#sort

  ary = ["abcdefg", "abc", "abcde"]
  p ary.sort { |a, b| a.length <=> b.length }

-- List16 String#sub

  p "foo: bar baz".sub(/^\w+:/) { |x| x.upcase }

-- List17 Procオブジェクト

  add_proc = Proc.new { |x, y| x + y }
  p add_proc.call(1, 2) #=> 3

イテレータを定義する

それでは最後にイテレータを定義する方法を説明します。

イテレータもメソッドなので、defによって定義します。問題はブロックを実行する方法ですが、二通りの方法があります。

1つはyieldを使う方法です。List18はIOから一行ずつ読み込んで、ブロックに読み込んだ行を渡して実行し、ブロックが返した値を出力するイテレータの定義です。(peという名前はruby -peから取りました。)ブロックを実行するためにyieldを利用しています。一見するとメソッド呼び出しのように見えますが、 yieldは実際には予約語で、メソッドではありません。yieldは引数で渡された値をブロックに渡して実行し、ブロックが返した値を返します。

もう1つの方法はブロックを引数でProcオブジェクトとして受け取る方法です。 (List19) メソッド定義の仮引数リストの最後に&変数名(List19の例では &block)と記述することで、ブロックをProcオブジェクトとして受け取ることができます。ブロックを実行するためにはProc#callを呼び出せばよいわけです。ただ、この方法の場合は、Procオブジェクトを生成するコストがかかるため、yieldよりも遅くなります。

Procオブジェクトは、イテレータの呼び出し時に、foo(..., &block)のように引数の最後に&を付けて渡すことで、ブロックとして渡すことができます。このため、他のイテレータにブロックをパスしたい場合には、ブロックをProcオブジェクトとして受け取っておくと便利です。たとえば、List20は再帰的なイテレータの例です。Procオブジェクトとして受け取ったブロックを、自分自身のを呼び出す時にそのまま渡しています。このように再帰的なイテレータも簡単に書くことができます。

-- List18 yieldの利用

  def pe(io)
    while line = io.gets
      line = yield(line)
      print line
    end
  end

  pe(ARGF) do |line| line.upcase end

-- List19 &blockの利用

  def pe(io, &block)
    while line = io.gets
      line = block.call(line)
      print line
    end
  end

-- List20 再帰的なイテレータ

  def foreachfile(file, &block)
    return if /^(\.|\.\.)$/ =~ File.basename(file)
    block.call(file)
    if File.directory?(file)
      Dir.foreach(file) do |f|
        foreachfile(File.join(file, f), &block)
      end
    end
  end

  foreachfile("/usr/lib/ruby") do |f| p f end

最後に

イテレータを5ページで説明するのはやはり無理があったかもしれません。舌足らずな説明でわかりにくい部分も多いと思います。何か疑問があったら、各種書籍を参照したり、ruby-list MLやfj.comp.lang.rubyなどで質問してみてください。

参考文献

[1]: mod_ruby, <URL:http://www.ruby-lang.org/en/raa-list.rhtml?name=mod_ruby>

^*1 連結リストはRubyの標準ライブラリには含まれません。
^*2 正確にはイテレータとして使われることを意図していないメソッドにもブロックを渡すことができますが、渡すことは出来ても使われないので意味はありません。
^*3 /^\d+$/だと"123\nabc"などにもマッチしてしまうので、正確には/\A\d+\z/にする必要があります。
^*4 実を言うと、私の意見でもあります。