Photo Gallery

AAMTジャーナル「機械翻訳」No76

AAMTジャーナル「機械翻訳」No.76が一般公開されました(AAMT会員でなくとも無料で読めます)。

ローズ三浦はP13~「機械翻訳と人間翻訳の両方の市場を最大にする方法」を寄稿しました。
(AAMT2021, Online発表分のまとめ)

米AI企業OpenAIによる文章から画像を生成するAI「DALL·E 2」が、ネット上で話題となっています。

「DALL·E 2」で画像検索すると、DALL·E 2によって生成された画像を大量に見ることができます。 

中でも、私的にDALL-E dreaming of becoming an AGI(汎用AIになることを夢見るDALL·E 2)という画像に、
不覚にもキュンとしました。

まるで早く大人になりたい子供みたいですね。

gotoという方が、
個人でmeta翻訳という翻訳サービスを開発されたそうです。
(Google翻訳やDeepL翻訳みたいなもの)

インターフェースを含め、全部1人で作れるもんなんだ、と驚愕しております。

技術記事も書かれていますので、
論文から商用レベルのプロダクトにまでもっていく流れがとても勉強になります。
(数多くの論文を読んで、試行錯誤の上実装されたのがうかがえます)

明日からNLP2022が開催されます。
エッジ・トランスレーションはシルバースポンサーとして参加します。
現時点での参加予定は以下です。
(※仕事との兼ね合い、および重複するセッションがあるため、できれば出るくらいの感じです)
*************************************************************************
3月14日(月) 13:00-14:45
T2:チュートリアル2:ゼロから始める転移学習

3月15日(火) 13:20-19:00
G2~4:テーマセッション2:文章の評価と品質推定(1)~(3)
【総合討論】
★(重複)3月15日(火) 13:20-15:00:
C2-1 遠距離教師データの特徴表現を活用した薬物タンパク質間関係抽出
C2-2 薬学知識グラフ上のヘテロな情報を利用した文献からの薬物相互作用抽出
★(重複)3月15日(火) 17:20-19:00:C4-5 Improving Medical Relation Extraction with Distantly Supervised Pre-training

3月16日(水) 9:00-10:20
PH1-1 医療用語の is-a オントロジー構築の FCA を使った効率化
PT2-12 英日機械翻訳における既存の評価指標の線形結合による性能評価

ランチ:NLP女子会

3月16日(水) 13:20-17:00
C5~6:機械翻訳(1)~(2)

3月16日(水) 17:20-18:20
自然言語処理研究が乳幼児の言語発達研究から学べることは何か

3月16日(水) 19:00-21:00
【オンライン懇親会】

3月17日(木) 9:00-10:20
PT3-9 Transformerによる含意生成とその評価
PT3-12 機械翻訳における単語埋め込み共有時の問題の言語埋め込み導入による緩和

3月17日(木) 10:40-12:00:
PT4-11 JParaCrawl v3.0: 大規模日英対訳コーパス
PT4-12 双方向翻訳モデルと反復的逆翻訳を用いた低資源言語に対するニューラル機械翻訳の性能向上
PH4-12 曖昧性を含む翻訳に着目したマルチモーダル機械翻訳データセットの構築方法の検討

3月17日(木) 13:20-14:40
F7:テーマセッション3:言語処理テクノロジーと翻訳:翻訳の要請から技術へ,技術から翻訳応用へ
【総合討論】

3月17日(木) 15:00-16:20:
F8-1 疑似問題による常識推論能力の改善と関連タスクへの効果
F8-2 医学生物学論文解析のための談話依存構造ツリーバンクの構築

3月17日(木) 16:40-18:10
招待論文:
テキストベクトルの重みづけを用いたタスクに対する単語分割の最適化
訓練事例の影響の軽量な推定
*************************************************************************
特に15日と17日の【総合討論】、および16日【オンライン懇親会】については、
極力出る予定です。

参加される皆様、どうぞよろしくお願いいたします。





昨日の「AAMT 2021, Online」の公募セッションで、
「機械翻訳と人間翻訳の両方の市場を最大にする方法」と題して発表を行いました。
ご覧いただいた方ありがとうございました。
「AAMT Online, 2021」公募セッション発表資料


発表資料はこちらに公開しました。
https://slideshare.net/ssuser8d5970/ss-250808319

訳文提供していただいた素晴らしい翻訳者の方々に、
心より御礼申し上げます:
宮原健(Twitterアカウント:@traducteur_fJED)様
堂本秋次(Twitterアカウント:@Akitsugu_Domoto)様
Wakana Catchpole(Twitterアカウント:@new_language)様
津山逸(Twitterアカウント:@NChougenbou)様


ちなみに自分の発表以外は、
一般聴講者として視聴していました。
Twitterで実況しました。
https://twitter.com/rose_miura/status/1468437935234379777


【個人的な感想】
今回のAAMT Onlineは、機械翻訳がようやく商業化に耐えうるレベルになってきたこともあり、
機械翻訳の実用例や製品化した機械翻訳の御披露目もあり、
大盛況であった。

各ディスカッションや質疑応答の内容も具体的かつ有意義で、
その場限りの盛り上がりではなく、今後につながるものであった。

AAMT30周年の年に、
惜しくも長尾先生は亡くなられたが、
長尾先生のご遺志は次世代に引き継がれたと思う。

長尾先生のように、例え自分達の時代には花開かなくても、
尽力してくれた人達がいるから、
今の時代がきた、と思う。

特にAIKO SciLingualは素晴らしかった。
医療に特化したAI翻訳の商業化への貢献は大きい。

エッジ・トランスレーションは、
言語処理学会第28回年次大会(NLP2022)のシルバースポンサーになりました。
言語処理学会第28回年次大会(NLP2022)シルバースポンサー

よろしくお願いいたします。

医学・医薬に特化したAI翻訳プラットフォーム“AIKO SciLingual”の提供開始!(エキサイトニュース)


アスカさんに先に出されました……
たいへん悔しいです_(´ཀ`」 ∠)

エキサイトニュース記事内のリンクから、アスカさんのWebサイト内の「AIKO SciLingualご案内」に飛べます。

料金は、以下の6段階となっています:
スターター 3:¥30,000/月
スターター 5:¥40,000/月
スモール:¥80,000/月
ミディアム:¥140,000/月
ラージ:¥280,000/月
エクストラ・ラージ:¥500,000/月

ドメイン特化型の機械翻訳で、
これだけ細かく分けた具体的な料金体系を示してきたのは、
おそらくアスカさんが初めてじゃないでしょうか?

ただ、気になる点が1点あります。
AIKO SciLingualご案内」内に、ユーザーインターフェイス(UI)の画像があるのですが、
「powered by YarakuZen」と書かれています。

AIKO SciLingual

あくまで私の勝手な予想ですが、
独自の機械翻訳エンジンを1から作ったわけではなく、
プラットフォームはYarakuzenで、
それにアスカさんが所有する医療の対訳コーパスを入れてドメインアダプテーションさせたのではないでしょうか?

例えば、翻訳センターさんの自動翻訳システム「compath」も、Yarakuzenを使用しています。

プラットフォームにYarakuzenを使用しているとすれば、立教大学の山田優先生がアスカさんの自社セミナーに出る理由も納得ができます。
(山田先生はYarakuzenを出している八楽株式会社のチーフ・エバンジェリストです。)

ちなみにYarakuzenは、企業内ユーザーの翻訳・多言語対応業務をサポートするクラウド型の「翻訳ソフトウェア」だそうです。(※機械翻訳エンジンとは書いていない)

おそらく機械翻訳エンジン自体はNICTのもので、それをYarakuzenを経由して使用しているのではないでしょうか?※単なる予想です


どちらにせよ、市販まで持っていける企業体力はアッパレです。
例えYarakuzenを経由するにせよ、対訳コーパスを学習させる料金だけでなく、NMTエンジンを置いて動かすサーバーの管理費・維持費(←これはYarakuzenの契約料金に含まれているかもしれませんが)や、ある程度の技術知識、法律面のクリアも必要なはずなので。
社内にプロ(早川威士氏)がいるのも大きいと思います。

アスカさんは社内にプロ(早川氏)いるからな
こりゃ、マージン抜くだけで自分の生活費 + 機械翻訳開発費稼げるくらいの仕事量と体制にしないとダメだな、と思いました。
(現状自分自身が翻訳作業者 + 翻訳コーディネーター業務をして24時間を使い果たしてしまうため)


ローズ三浦が12/8~9に行われる「AAMT 2021, Online ~機械翻訳最前線~」に登壇します!
タイトルは「機械翻訳と人間翻訳の両方の市場を最大にする方法」
発表時間は12/9 13:00からの15分間です。
【AAMT 2021, Online ~機械翻訳最前線~】公募セッション

みんな来てね☆

最近、学会記事「NLP2021 ワークショップ:文章の評価と品質推定 ~人間・機械の「作文」の巧拙をどう見極めるか?~」が出されましたので、
ちょうどよい機会ですので、同会に参加した他の翻訳者からの感想を掲載いたします(文系の翻訳研究を学んでいらっしゃった方です)。
NLP2021感想(他の翻訳者)

********************************************************************************
今回の大会で、私が視聴することができたのは翻訳に関するものがほとんどでしたが、全体として抱いた感想としては、アカデミアと実務での「翻訳」に対する認識の違いです。(一方は研究対象として、他方はお金を稼ぐ手段として見ているのですから、当たり前なのですが)翻訳研究などの研究者の方(NLPで発表されていた方も含む)は、「こういう点を研究することは学術的に価値がある」「ここが言葉の面白いところ」などといった知的好奇心ベースや新規性が求められます。翻訳者の方は、自分の商品として翻訳を見るため、学術的な価値よりも、実用性の観点から論じることが多いように見えます(情報源はSNSしかないので実際にはわかりません)。「不気味の谷現象」のように、ロボットだと、人間に近すぎると人間は「怖さ」を覚えると言いますが、機械翻訳が翻訳者による翻訳に近づけば近づくほど、ちょっとした違和感が「怖さ」につながっていくというような「不気味の谷現象」が翻訳についても生じているのだと感じました。
現在は翻訳者として働いていますが、いずれは実務翻訳者の視点を持って博士課程に進みたいと考えており、今回いただいた機会は、自分の視野の狭さを感じられる貴重な経験となりました。実務で機械翻訳の活用を求められるケースも多いため、機械翻訳への理解を深めたいと思うきっかけとなりました。まだ読み込めていない発表資料もあるため、引き続きいただいた機会を活かしていきたいと思います。

③特に印象に残ったプログラムについての考察
1.「執筆・翻訳のための制限語彙の構築とその自動化の検討」
こちらの発表では、文章を構造的に捉えて設計されていたが、文化の違いという視点から、「多」言語に翻訳される場合について考えていきたい。現在日本の翻訳会社を通してMLVからIT関連の翻訳案件を依頼されることが多いが、各案件に特化した機械翻訳や翻訳メモリがどの程度実際の翻訳に活用できるかという視点で見ていくと、実際に使用した際の感覚としての実用性はまちまちである。発表で触れられていたように、執筆時原文での表現の統一も必要になる。原文が校正されているものは比較的それらを活用することができるし、校正されていないものはまったく使えないこともある。案件に合わせた用語ベースで固有名詞やその分野での動詞の定訳が設定されている場合があるが、文化的な枠組みが異なる単語を慎重に扱う必要があると考える。
まず、日本語と英語の単語の間に意味的なずれがある場合に、一度当てていた単語が文脈と食い違うことがある。例えば、日本語で「責任」と訳される(ことが多い)英単語に「Responsibility」と「Accountability」があるが、両者にはどの時点での(日本語でいう)責任かという点で意味的な違いがある。「Accountability」という単語を「説明責任」と訳す場面もあるが、この訳が当てはまるかどうかは文脈に依存する。ただ、その文脈を十分に理解するためにはある程度ソース筆者に説明を求めるため質問する必要がある場合もあるが、その言葉の文化的な違いが自文化の枠組みの中で理解が難しいものだとしたら質問の意味もうまく伝わらないことがある。
アイヌ語では、雪を状態によって呼び分けていると聞くが、その違いを明確に理解し日本語の文化にあった訳文を出力するには、どの程度ターゲットの文化に触れる必要があるだろうか。反対に、アイヌ語を話す人の間では当然のように理解している言葉を文化の異なる人間に説明するのも困難を伴う。言葉は生活に紐づけられており、生きてきた文化が違う場合、そしてそもそも違う人間なのだから、完全な理解や説明は難しい。「仕事の責任を負う」のか「仕事の責任を果たすのか」。そもそも日本語ではあまり意識することがない事後事前の責任の違いをどのように読者に伝えるのか。この「Accountability」をどういう意味で使っているかの説明を求める場合、その意図を包括的に表現できる単語は日本語には存在するだろうか。
また、言葉自体の文化を考慮する必要があり、ソースの筆者にも他言語に翻訳されることを意識した文章作成が求められる。IT系の翻訳を行う際は、単語がタグに置き換えられることがある。例を挙げると、「(tag) found.」のようなものだ。この(tag)に入るものは「No errors」や「One error」になるが、両方のケースに合う日本語として自然な「(tag) found.」の訳は何になるだろうか?日本語と英語の構造上の違いから、単語を当てはめることはできても、日本語として不自然になってしまうことがある。
このような文化的な差異をターゲット文化に落とし込むのが人間による翻訳の役割の一部であるが、文化的・意味的な使い分けを、ソースの筆者とターゲットの翻訳者が共有することが難しいケースも存在する。ここまでで記した内容を考慮すると、各会社に特化した用語ベースや翻訳メモリ、機械翻訳ではなく、より内容や事業を細分化した上で、それぞれの言語で異なる枠組みを作った上で運用する必要があると思う。

2.ワークショップ3:文章の評価と品質推定〜人間・機械の「作文」の巧拙をどう見極めるか?〜
このワークショップの中の翻訳のグループでは、実務翻訳での品質評価基準が共有された。私が担当する案件でも、同様の基準を使って案件のたびに点数が出され、必要に応じてArbitrationを行う。実際には、短い文書の翻訳の場合は1つのミスの比重が大きくなるなど、その妥当性に対する疑問は残るが、翻訳を「作品」というよりは「商品」として捉える実務翻訳での評価基準としてはある程度納得できる。このような「翻訳」の違いについて触れる。
ディスカッションで話題に上がっていたように文学作品の翻訳は、翻訳研究でも「神格化」されているように感じられる。翻訳はソースからターゲットへの変化とその過程を指し、イコールなものは存在しないが、間違ったものはなく訳し直したものそれぞれが正しいものであると考える。ただし、これは文学作品のように編集者や校閲の目を通った後の「作品」の状態であることから、「商品」化される前のものを評価する実務翻訳とは評価対象が異なる。
実務翻訳の評価基準の中にデザイン性が含まれていた。私の研究対象だった絵本では、文字の翻訳は絵があってのものだった。例えば、児童文学を低年齢向けの絵本に翻訳・翻案する場合、絵に描かれている情報が文字では省略されることがある。ディスカッションでも挙げたように、漫画作品では絵自体もターゲットの文化に合わせて翻訳する場合もある。私が直接取引している会社の案件では、Adobe IllustratorやInDesignのデータをそのまま自分で翻訳することが求められ、必要に応じてデザインを変更することも許されている。ウェブサイト全体を翻訳し、ドメイン選びからボタンの配置や配色に至るすべてを任されることもある(ここまでいくと「商品」としては「ローカライズ」とも)。このように、翻訳研究に携わり、デザインと翻訳の両方を仕事にしている私にとって、機械翻訳分野の方のデザイン性に関する無関心や「他分野感」は興味深いものだった。
例えば、マニュアルを訳す場合は、タイトル部分と地の文では訳し方が変わる。また、どのようなフォントにすれば日本語で自然に見えるのか、文学作品の雰囲気に合っているかなども翻訳の一部として考えられる。スマホのアプリでも、道路標識などをカメラに移すと自動で希望する言語に翻訳してくれるものがある。翻訳がテキストとして打ち込まれた文章のみを対象とするわけではない限り(写真や音声からの翻訳は一度テキストに起こしているのだろうが)、翻訳とデザインは切っても切れない関係にあると考える。このような文脈で、機械翻訳を作っている方は、翻訳を「製品」として見ていて、機械翻訳を使ってビジネスを行なっている人は翻訳を「商品」として見ているように感じられた。いずれにせよ、機械翻訳を使用する消費者や企業から需要がある場合は、デザイン性を配慮した「商品」が生まれることがあるだろうし、そのために「製品」の製造にお金や時間が投資されることも考えられる。音声を文字起こししたり写真から文字を読み取ったりなど、機械翻訳を他の技術と併せて商品化するとデザイン性を伴う「商品」や「作品」としての翻訳と化すこともあるだろう。現状は、この機械翻訳にデザイン性など商品化するためのテキスト以外の要素を翻訳者が付与しているのだと思う。

********************************************************************************

WHAT'S NEW?