Photo Gallery

【訃報】長尾真先生ご逝去

昨日、AAMTより、
長尾真先生がご逝去されたとのご連絡をいただきました。

私は長尾先生と関わっていたわけではなく、機械翻訳研究者でもないのですが、
喪失感を感じています。

長尾先生は日本の機械翻訳研究の第一人者であり、
日本の機械翻訳業界では天皇にも等しい存在であられたと思います。

長尾先生とは4年前、名古屋でMT Summit XVIが行われた際に少しだけ直接お話させていただきました。
私はどこの馬の骨ともわからない存在ですが、気さくにお話していただき、お名刺もいただきました。
私が翻訳者だと名乗り、機械翻訳の脅威について述べると、「機械翻訳を使って効率を上げていくしかないですね」とおっしゃっていたのが印象的でした。

長尾先生はルールベースが主流であった40年位前に用例翻訳を思い付かれておりましたが、
当時は計算機のパワーが低かったために、理論上のものにとどまっていました。
しかし、今はニューラル機械翻訳が台頭し、「教師データを学習させる」という観点で見ると、そのアイデアは用例翻訳に近いものとなっています。
今は計算機パワーが上がり、長尾先生のアイデアが実装に耐えうるものとなってきました。

ようやく時代が長尾先生に追いついた、と思います。
長尾先生がもし今現役でおられたら、おそらくシンギュラリティを起こしていたのではないでしょうか。
ようやくおもしろくなってきた時代に亡くなられ、惜しいです。

しかし、長尾先生のたくさんのお弟子さん達(いわゆる「長尾組」)が日本中の機械翻訳組織の長や重要な役職に就かれ、活躍されていますので、
長尾先生のご遺志は次世代に引き継がれたと思います。

研究者ではない私にできるのは機械翻訳の教師データ提供や、機械翻訳の評価の部分ですので、
微力ながらその部分で貢献していきたいと思います。

なお、故人のご遺志により、通夜並びに告別式は家族葬にて既に執り行われており、
ご香典・ご供花・ご弔電などは固くご辞退されるとのことです。

心よりお悔やみ申し上げます。

エッジ・トランスレーション
代表 三浦由起子


JTFジャーナル記事「[Transformed]第2回:翻訳メモリの近未来」を拝読しました。
Transformed.jpg

これ、
LSP(Language Service Provider。翻訳会社より広義)から、
機械翻訳に翻訳メモリを活用するアダプテーション担当者が、
企業さんごとに1人付けばいいんじゃないの、と思いました。
【※個人の感想です】

翻訳インターンを修了した機械翻訳研究者側の学生(前回とは別の学生)から、
感想をいただきました。

==================

受講感想ですが、月1回の文量としては学業に支障のない範囲で取り組める量で色々学べたので良かったです。特に一定のフォーマットを持った文章を翻訳するという経験は
学校教育の中でもあまりない経験でしたので為になりました。また、数値周りの表現(今回ですと「1日yy回xxx mg 投与群」の部分など)は日常英会話等では学ぶ機会が
少ない一方、英語論文を執筆する際には必要になるため、勉強の必要性を感じました。

機械翻訳にどのように活かせそうかですが、現状の機械翻訳は文書から文単位で抜き出して学習データとしているものが主流なので、このインターンのように全体のフォーマットを
考慮しつつ翻訳する場合に弱いというのがわかりました。既存の文書単位で翻訳する研究を更に発展させるか、あるいは翻訳メモリのような定形表現の翻訳に使える手法を
ニューラルネットワークに組み込む必要があると思います。あるいは、手法は既存のものを用いて精度を向上させたいとなると、翻訳させたいドメインの文書をとにかく大量に
用意する必要性が高いでしょう。一般的な大規模コーパスからは分野に固有の定形表現や固有名詞は学習できないと思うからです。

==================

こういう機械翻訳研究者側の知見を得られることは、非常に有益ですね。
(あと学生だから若いし頭が柔らかいから、
機械翻訳の精度を向上させる斬新な発想ややり方を思い付いてくれるかも、という期待もあります。)


別件ですが、3/19のNLP2021ワークショップ「文章の評価と品質推定〜人間・機械の「作文」の巧拙をどう見極めるか?〜」では、
グループディスカッションもあるみたいなので、楽しみです。
私はNLP2021のシルバースポンサーですし、このワークショップのグループディスカッションにも参加予定です。

機械翻訳研究者側と建設的な議論ができることを期待しています。

NICT主催の「第4回 自動翻訳シンポジウム ~自動翻訳と翻訳バンク~」が、
3/16にオンライン配信(ZoomおよびYouTubeライブでの配信)で行われます。

ただし、NLP2021の開催期間中(3/15~19)なので、
カブっちゃいますね。。

なんでみんなイベントをカブらすの?
(数年前もNLPとJTF関西セミナーがカブっており、
その時は両方現地会場っだったので、
名古屋→大阪に物理的に移動するのが大変だった。。)

対策として、
「第4回 自動翻訳シンポジウム ~自動翻訳と翻訳バンク~」の方は、zoomとYouTubeライブの両方でやるらしいので、
私はNLP2021はzoom、自動翻訳シンポジウムはYouTubeライブで同時に拝聴する予定です。

聖徳太子かよ! ٩(๑`^´๑)۶

OpenAIが開発した文章生成AI「GPT-3」の仕組みや、その応用例について、
数式なしでわかりやすく説明してくださっている良記事なので、
ご紹介いたします。

次なるAIのブレークスルーは言語分野で起きる
https://www.dhbr.net/articles/-/7225

>別の人物がつくったアプリは、意図的に難易度を高くした医学上の問いに正しく回答し、根底にある生物学的メカニズムを論じることができる。
>具体的には、そのアプリに10歳の男の子の呼吸器に関する症状を示し、その子どもが閉塞性呼吸器疾患と診断されて、投薬治療を受けたという情報を与えた。そのうえで、「治療に使われた薬品はどの受容体に作用する可能性が高いと思うか」という問いに答えさせた。
>すると、プログラムはこの問いに対して正しい回答を導き出し、その子どもが喘息を患っていて、一般的にはその受容体に作用する気管支拡張薬で治療されることを指摘できた。

これすごいな……
てか、もう怖いレベルですね……

>このように、文章作成、コーディング、サイエンスの領域にまたがって一般的推論を行う能力があることを考えると、このテクノロジーはジャンルを超えて、マネジメント、データサイエンス、物理学、生命科学など幅広い領域で活用できる可能性がある。

そのうち世の中がGPT-3が書いた文章だらけになって、
人類が乗っ取られちゃうんじゃないか
と思っちゃいますね。。

エッジ・トランスレーションは、
2019年に続き、
言語処理学会第27回年次大会(NLP2021)のシルバースポンサーになりました。
NLP2021シルバースポンサー

オンライン懇親会にも参加予定ですので、 よろしくお願いいたします。

エッジ・トランスレーション 代表
三浦由起子

翻訳インターンを修了した機械翻訳研究者側の学生から、
感想をいただきました。

ちなみにこの方の成績は、
翻訳業界側の翻訳インターンの平均を上回ってました。

==================

<感想>
これまで英語は学校のテストやTOEICを受験したことしかなかったので,
手順や自分なりのやり方を覚えるまでに何ヶ月かかかりましたが,
後半は時間的にも余裕ができてきた気がします.

ただし,翻訳そのものとしては,英語のテストでいうところの50点以上は取れるけれど,
100点は取れない,といった印象です.
背景知識や専門知識,定訳を知っていて,初めて正解できるものが多く,
その点は勉強時間が足りない,というよりも翻訳者の人が時間をかけて身につけていくものだと感じています.

総じて,これまで想像していたよりも,熟練度や知識を問われる職業であることを体感できました.

<機械翻訳への展望>
これは最近の私個人の意見ですが,機械翻訳と人間翻訳は全くの別物であるという認識です.
https://globe.asahi.com/article/12872410
この記事でも言われていますが,人間はこれまで理論や法則性を見出す時,
使用されるパラメータは少なければ少ないほど美しいと考えてきました.
学校の教科書に載っている数式も,多くて3,4つの文字が含まれている程度だと思います.

しかし現在主流のニューラルネットワークをはじめとする機械学習は,
膨大なパラメータに裏打ちされたモデルであることがほとんどです.
我々には解釈することが難しい方法で,この世界を記述しようとしています.

なので単純に「応用する」ということが難しく,
コンピュータに人間のやり方を伝えたところで,彼らが学ぶものはあるのか,といった問題があります.
こういった意味で,翻訳を学んだ人が,機械翻訳にそれを直接活かすことは難しいと考えています.
※工学的なアプローチの方が有効である可能性が高いと思います.

ただし活用するのは人間の方なので,実際の使用する人の声は重要であり,
使う人の希望に沿った機械翻訳モデルの作成が重要になってきます
(ほとんどの場合,企業の方が対応してくれる部分だと思います).

こういった現場の声がアカデミアに届けば,それに対応する研究が増える可能性も少しは上がるので,
産学連携の様なものが進むことで,解決できる問題は増える気がしました.
(問題提起を現場が,解決を研究者が,という構図ができれば,発展の余地があります)

また昔から問題になっている機械翻訳の評価をどの様にすべきかは,
今後の発展に必要不可欠な分野だと改めて思いました.
(素人では判別できない間違いが多かったので)


==================

AI-SCHOLARに、「機械翻訳のアイデアをプログラミング言語に導入!教師無しでコードの移植が可能に」という記事がありました。
コード。


以下、抜粋:

● 提案手法の基礎にある考えは、コード変換タスクが通常の言語翻訳と酷似していると言う事です。

● TransCoderモデルは、本質的には transformerによるエンコーダーとデコーダーで構成された、Attention機構を備えたsequence-to-sequence(seq2seq)モデルです。

● しかし字面の一致を評価すると、構文の一致が多いプログラムはBLEUスコアが高くなりますが、関数の出力は大きく異なる可能性があります。逆に、意味的に同様でも実装が異なるコードは、BLEUスコアが低くなります。

ここでもBLEUスコア使えるんかい、って感じですね。

LinkedInで、TransPerfectさんがComputational Linguistを募集されています。
どうやら「音声」(バーチャル・アシスタント)の方のComputational Linguistみたいです。

この前、「【オンライン開催】ニューノーマル時代に求められるAI×人の価値~リテール業界が今やるべき!人間のしごと、AIのしごと~」を聴講したのですが、
ライオンブリッジジャパンさんのAI事業部長であるヴァグレ・セドリック氏は、
「今後はスマホの検索の50%が音声で行われるようになる。
スマホに個別のアプリをダウンロードすることはなくなり、
その代わりにデジタルハブとしてバーチャル・アシスタントがまかなう」
というようなことをおっしゃっていました。

もしかして、今音声がアツい?

8/19には自動音声の専門家であるNAISTの須藤先生がJTF関西セミナーでお話になるので、
楽しみです!^^

4連休、
みなさまいかがお過ごしでしょうか?

ローズ三浦は、現在翻訳の方は手持ち案件がないため、
一日中機械翻訳のコードと格闘しています。
プログラミング。

今機械翻訳エンジンとユーザーインターフェース(Google翻訳とかDeepL翻訳のように、文字を入力すると訳文が出てくる画面)をつなごうとしているのですが、
詳しい方に聞いたところ、
そのためには、
①機械翻訳エンジン側のコードを変える
②サーバ側を改造する

の2種類の方法があるようで、
ローズ三浦は現在自力で①を行っており、
自力でできなかった場合はエンジニアに②を外注する予定です。

エンジニアの方には、少しお話をして、ざっくりと見積もりを取った状態です。
どうやらIT導入補助金2020というものがあるようで、今規定を調べています。
エンジニアの外注費は高いので、外注する際には、それが使えるなら使うつもりです。
お金がない事業者にはありがたい話ですね!^^

WHAT'S NEW?