この記事は OpenStreetMap Advent Calendar 2015 の10日目の記事です.昨日の記事は, 駅の位置を修正しよう でした.
OpenStreetMapで、編集するようになると、頻繁にOpenStreetMap Wikiを参照するようになると思います。このWikiの日本語への翻訳については、ボランティアによって行なわれています。 今日は、この翻訳を効率的に行う方法について記します。
翻訳メモリ
いきなりですが、プロの翻訳家は、おおよそ全ての方が、「翻訳メモリ」なるものを使っています。これは何者でしょうか。Wikipediaを見てみましょう。
翻訳メモリは、翻訳を仕事とする人の業務の効率化と質の向上を支援するためのソフトウェアである。「翻訳メモリ」は厳密には原文と訳文のデータベースを指し、それを利用するソフトウェアは「翻訳メモリ ツール」と呼ばれる。「翻訳メモリ ツール」のことを「翻訳メモリ」と呼ぶことも多い。
従来型の翻訳メモリには、通常翻訳ソフトのような構文解析機能はない。したがって、翻訳メモリ ツールを使用することによって、原文が自動的に翻訳されることはない。翻訳自体はあくまでも翻訳者が行う。ただし、近年では翻訳メモリ ツールと翻訳ソフトを統合することにより、さらに効率の良い翻訳支援環境が実用化されている。
翻訳メモリの主な機能は
- 翻訳者によって書き起こされた翻訳を、その原文とともに、専用のデータベースに登録すること
- 過去にデータベースに登録された翻訳を、同じまたは類似の原文が出てきたときに自動的に引用すること
である。これらの機能によって、
- 同じ文章を繰り返し翻訳する
- 文章を手作業で複製し貼り付ける
などのこれまで翻訳者に任されていた単純作業を自動化し、さらに 同じ文章や類似した文章の翻訳における表現の統一 も自動化されるため、文書全体としての翻訳品質の向上も期待できる。(Wikipedia: 翻訳メモリの項目)
なんだか、いきなり難しくなってしまいました。素人が翻訳を聞くと、インターネットの翻訳サイトみたいに、機械翻訳をしてくれるように思いますが、そうではなくて翻訳は翻訳家が行うのですが、辞書引きや用語統一、過去の翻訳事例から適切な文をもってくるなど、翻訳に必要な作業を別々のアプリやネットを使わなくてもできるように支援するソフトということになります。このようなカテゴリのソフトをCATツール(Computer Aided Translationの頭文字)とも、呼びます。
このジャンルのソフトウエアやサービスには、次のようなものが知られています。Google翻訳者ツールキット、OmegaT、SDL TRADOSなど。
OmegaT(オメガティ)
OmegaTは、Javaで書かれた様々なプラットホームで稼働できるフリーソフトウエアです。プロジェクトのホームページから無償でダウンロードできます。マニュアルも整備されています。
画面左側には、原文表示と翻訳文の入力を行う編集画面が有ります。画面右側上には、これまでの編集結果から、参考となる訳文が示されます。右下には、用語集の検索結果や、辞書の結果が表示されています。
OpenStreetMap翻訳プロジェクトの取り込み
OmegaTには、チーム翻訳機能があります。皆さんの翻訳のとりくみ成果を共有できるように、日本語翻訳プロジェクトを公開しました。
OmegaTのメニューで、「プロジェクト(P)」ー「チームプロジェクトをダウンロード」を選択しリポジトリURLに https://github.com/osmfj/osm-wiki-trans-ja.git を入力してください。
一緒に活動いただける方はGithubのアカウントをつくり、プロジェクトページhttps://github.com/osmfj/osm-wiki-trans-jaでIssueとして参加表明してもらえればとおもいます。書き込み権限をつけたいとおもいます。OmegaTを終了するときに、更新するようになります。
もし、チーム参加はされない場合は、チームのダウンロードの代わりに、上記プロジェクトからZipファイルでダウンロードをして、そのフォルダをベースとして開始されるといいでしょう。(https://github.com/osmfj/osm-wiki-trans-ja/archive/master.zip)r
OpenStreetMap Wikiの取り込み
メニューの「プロジェクト(P)」ー「MediaWikiから原文ファイルを追加」を選択します。OSM Wiki(wiki.openstreetmap.org)の翻訳したい英語メージのURLをコピーして、ダイアログに貼り付けます。
自動的に、原文を取り込んで、翻訳対象に加えてくれます。原文は、プロジェクトのフォルダの"source"に"original-source.UTF8"のような名称のファイル名で格納されます。この機能のおかげで、OSM Wikiのページを容易に取り込んで作業できます。
また翻訳メモリを使うことで、英語ページが更新された場合でも容易にその差分を検出することができます。これは、翻訳結果を直接記述するのではなく、一文ごとの対訳をデータベースとして保持しているため、もし元原稿が更新された時は、OmegaTにより差分が検出され、元の翻訳が近い訳文例として表示されます。そこで、差分だけ更新すれば、容易に追随できます。
辞書引き機能
OmegaTのプロジェクトディレクトリには、Dictionary というディレクトリがあります。このディレクトリに辞書ファイルを置くことで、自動的に辞書を引いてくれます。現在のバージョンでは、StarDict形式に対応しています。今後、日本で標準的に使われているEPWING形式に対応する見込みです(私が機能を開発し、OmegaTプロジェクトに提案中です。)
自由に配布できる辞書は多くないのですが、グループプロジェクトではJim BreenによるJMDictという辞書を同梱しています。各自で購入した辞書も追加できます(私は、ジーニアス、英辞郎、海野辞書をつかっています)
今後のとりくみ
チームプロジェクトにおいて、用語集の整備、これまで翻訳されたWikiから例文作成が課題です。とりくみが進むほどに、効率がアップしていくことが期待されます。