Photo Gallery

翻訳インターンを修了した機械翻訳研究者側の学生(前回とは別の学生)から、
感想をいただきました。

==================

受講感想ですが、月1回の文量としては学業に支障のない範囲で取り組める量で色々学べたので良かったです。特に一定のフォーマットを持った文章を翻訳するという経験は
学校教育の中でもあまりない経験でしたので為になりました。また、数値周りの表現(今回ですと「1日yy回xxx mg 投与群」の部分など)は日常英会話等では学ぶ機会が
少ない一方、英語論文を執筆する際には必要になるため、勉強の必要性を感じました。

機械翻訳にどのように活かせそうかですが、現状の機械翻訳は文書から文単位で抜き出して学習データとしているものが主流なので、このインターンのように全体のフォーマットを
考慮しつつ翻訳する場合に弱いというのがわかりました。既存の文書単位で翻訳する研究を更に発展させるか、あるいは翻訳メモリのような定形表現の翻訳に使える手法を
ニューラルネットワークに組み込む必要があると思います。あるいは、手法は既存のものを用いて精度を向上させたいとなると、翻訳させたいドメインの文書をとにかく大量に
用意する必要性が高いでしょう。一般的な大規模コーパスからは分野に固有の定形表現や固有名詞は学習できないと思うからです。

==================

こういう機械翻訳研究者側の知見を得られることは、非常に有益ですね。
(あと学生だから若いし頭が柔らかいから、
機械翻訳の精度を向上させる斬新な発想ややり方を思い付いてくれるかも、という期待もあります。)


別件ですが、3/19のNLP2021ワークショップ「文章の評価と品質推定〜人間・機械の「作文」の巧拙をどう見極めるか?〜」では、
グループディスカッションもあるみたいなので、楽しみです。
私はNLP2021のシルバースポンサーですし、このワークショップのグループディスカッションにも参加予定です。

機械翻訳研究者側と建設的な議論ができることを期待しています。

NICT主催の「第4回 自動翻訳シンポジウム ~自動翻訳と翻訳バンク~」が、
3/16にオンライン配信(ZoomおよびYouTubeライブでの配信)で行われます。

ただし、NLP2021の開催期間中(3/15~19)なので、
カブっちゃいますね。。

なんでみんなイベントをカブらすの?
(数年前もNLPとJTF関西セミナーがカブっており、
その時は両方現地会場っだったので、
名古屋→大阪に物理的に移動するのが大変だった。。)

対策として、
「第4回 自動翻訳シンポジウム ~自動翻訳と翻訳バンク~」の方は、zoomとYouTubeライブの両方でやるらしいので、
私はNLP2021はzoom、自動翻訳シンポジウムはYouTubeライブで同時に拝聴する予定です。

聖徳太子かよ! ٩(๑`^´๑)۶

OpenAIが開発した文章生成AI「GPT-3」の仕組みや、その応用例について、
数式なしでわかりやすく説明してくださっている良記事なので、
ご紹介いたします。

次なるAIのブレークスルーは言語分野で起きる
https://www.dhbr.net/articles/-/7225

>別の人物がつくったアプリは、意図的に難易度を高くした医学上の問いに正しく回答し、根底にある生物学的メカニズムを論じることができる。
>具体的には、そのアプリに10歳の男の子の呼吸器に関する症状を示し、その子どもが閉塞性呼吸器疾患と診断されて、投薬治療を受けたという情報を与えた。そのうえで、「治療に使われた薬品はどの受容体に作用する可能性が高いと思うか」という問いに答えさせた。
>すると、プログラムはこの問いに対して正しい回答を導き出し、その子どもが喘息を患っていて、一般的にはその受容体に作用する気管支拡張薬で治療されることを指摘できた。

これすごいな……
てか、もう怖いレベルですね……

>このように、文章作成、コーディング、サイエンスの領域にまたがって一般的推論を行う能力があることを考えると、このテクノロジーはジャンルを超えて、マネジメント、データサイエンス、物理学、生命科学など幅広い領域で活用できる可能性がある。

そのうち世の中がGPT-3が書いた文章だらけになって、
人類が乗っ取られちゃうんじゃないか
と思っちゃいますね。。

エッジ・トランスレーションは、
2019年に続き、
言語処理学会第27回年次大会(NLP2021)のシルバースポンサーになりました。
NLP2021シルバースポンサー

オンライン懇親会にも参加予定ですので、 よろしくお願いいたします。

エッジ・トランスレーション 代表
三浦由起子

翻訳インターンを修了した機械翻訳研究者側の学生から、
感想をいただきました。

ちなみにこの方の成績は、
翻訳業界側の翻訳インターンの平均を上回ってました。

==================

<感想>
これまで英語は学校のテストやTOEICを受験したことしかなかったので,
手順や自分なりのやり方を覚えるまでに何ヶ月かかかりましたが,
後半は時間的にも余裕ができてきた気がします.

ただし,翻訳そのものとしては,英語のテストでいうところの50点以上は取れるけれど,
100点は取れない,といった印象です.
背景知識や専門知識,定訳を知っていて,初めて正解できるものが多く,
その点は勉強時間が足りない,というよりも翻訳者の人が時間をかけて身につけていくものだと感じています.

総じて,これまで想像していたよりも,熟練度や知識を問われる職業であることを体感できました.

<機械翻訳への展望>
これは最近の私個人の意見ですが,機械翻訳と人間翻訳は全くの別物であるという認識です.
https://globe.asahi.com/article/12872410
この記事でも言われていますが,人間はこれまで理論や法則性を見出す時,
使用されるパラメータは少なければ少ないほど美しいと考えてきました.
学校の教科書に載っている数式も,多くて3,4つの文字が含まれている程度だと思います.

しかし現在主流のニューラルネットワークをはじめとする機械学習は,
膨大なパラメータに裏打ちされたモデルであることがほとんどです.
我々には解釈することが難しい方法で,この世界を記述しようとしています.

なので単純に「応用する」ということが難しく,
コンピュータに人間のやり方を伝えたところで,彼らが学ぶものはあるのか,といった問題があります.
こういった意味で,翻訳を学んだ人が,機械翻訳にそれを直接活かすことは難しいと考えています.
※工学的なアプローチの方が有効である可能性が高いと思います.

ただし活用するのは人間の方なので,実際の使用する人の声は重要であり,
使う人の希望に沿った機械翻訳モデルの作成が重要になってきます
(ほとんどの場合,企業の方が対応してくれる部分だと思います).

こういった現場の声がアカデミアに届けば,それに対応する研究が増える可能性も少しは上がるので,
産学連携の様なものが進むことで,解決できる問題は増える気がしました.
(問題提起を現場が,解決を研究者が,という構図ができれば,発展の余地があります)

また昔から問題になっている機械翻訳の評価をどの様にすべきかは,
今後の発展に必要不可欠な分野だと改めて思いました.
(素人では判別できない間違いが多かったので)


==================

AI-SCHOLARに、「機械翻訳のアイデアをプログラミング言語に導入!教師無しでコードの移植が可能に」という記事がありました。
コード。


以下、抜粋:

● 提案手法の基礎にある考えは、コード変換タスクが通常の言語翻訳と酷似していると言う事です。

● TransCoderモデルは、本質的には transformerによるエンコーダーとデコーダーで構成された、Attention機構を備えたsequence-to-sequence(seq2seq)モデルです。

● しかし字面の一致を評価すると、構文の一致が多いプログラムはBLEUスコアが高くなりますが、関数の出力は大きく異なる可能性があります。逆に、意味的に同様でも実装が異なるコードは、BLEUスコアが低くなります。

ここでもBLEUスコア使えるんかい、って感じですね。

LinkedInで、TransPerfectさんがComputational Linguistを募集されています。
どうやら「音声」(バーチャル・アシスタント)の方のComputational Linguistみたいです。

この前、「【オンライン開催】ニューノーマル時代に求められるAI×人の価値~リテール業界が今やるべき!人間のしごと、AIのしごと~」を聴講したのですが、
ライオンブリッジジャパンさんのAI事業部長であるヴァグレ・セドリック氏は、
「今後はスマホの検索の50%が音声で行われるようになる。
スマホに個別のアプリをダウンロードすることはなくなり、
その代わりにデジタルハブとしてバーチャル・アシスタントがまかなう」
というようなことをおっしゃっていました。

もしかして、今音声がアツい?

8/19には自動音声の専門家であるNAISTの須藤先生がJTF関西セミナーでお話になるので、
楽しみです!^^

4連休、
みなさまいかがお過ごしでしょうか?

ローズ三浦は、現在翻訳の方は手持ち案件がないため、
一日中機械翻訳のコードと格闘しています。
プログラミング。

今機械翻訳エンジンとユーザーインターフェース(Google翻訳とかDeepL翻訳のように、文字を入力すると訳文が出てくる画面)をつなごうとしているのですが、
詳しい方に聞いたところ、
そのためには、
①機械翻訳エンジン側のコードを変える
②サーバ側を改造する

の2種類の方法があるようで、
ローズ三浦は現在自力で①を行っており、
自力でできなかった場合はエンジニアに②を外注する予定です。

エンジニアの方には、少しお話をして、ざっくりと見積もりを取った状態です。
どうやらIT導入補助金2020というものがあるようで、今規定を調べています。
エンジニアの外注費は高いので、外注する際には、それが使えるなら使うつもりです。
お金がない事業者にはありがたい話ですね!^^

変な夢を見た。

私は「最強のNMTエンジンのコード」と「3倍の時間」を手に入れるために、
人を1人殺し、
私自身も自分の心臓を差し出してゾンビ化した。

そしてERIKAは完成した。

そして私は全く逆のことをして時間を「リバース」させ、
現在に帰ってきた。

目覚めたとき、変な汗をかいていたし、
口の中が苦かった……

ほっとすると同時に(人を殺してもいないし、自分もゾンビになってない)、
もう1回「まっとうな方法」で、
ERIKAを完成できるのかな?

もちろんこれはただの変な夢なんだけど、
でも、ほんとうに?

7月ですね。
7月。

さて、アスカコーポレーションさんが機械翻訳サービスを出してきています。

以下、「>」の付いている文章は引用です。

> 2. 自然言語処理サービス
> 機械翻訳は自然言語処理と呼ばれる研究領域の応用技術のひとつです。翻訳という人間の言語(自然言語)を扱う仕事と、コンピュータによる計算処理の間を取り持つ技術が自然言語処理であり、機械翻訳の開発および運用を行う上で欠かせない要素です。

> こうした処理業務を、自然言語処理の専門知識を有するスタッフがサポートいたします。業務の一例を下記に示します。
> 対訳コーパスの作成
> 各種Office系ファイル、xliff・tmxなど専用規格ファイルからの変換
> 文アラインメント処理(2言語間の分のペアリング)
> データクリーニング
> 翻訳文抽出(非翻訳文のフィルタリング)
> ノイズ除去
> 機械翻訳の評価メトリクス算出
> BLEU、TER、RIBESなど

> ポストエディットサービス
> 機械翻訳には誤りがつきものであり、正しい情報を機械翻訳を用いて発信するには、訳文の検証が必要になります。この検証は意外に骨の折れる作業であり、やり始めると際限がなく、内製でカバーしようとすると業務の生産性をむしろ下げてしまう要因になりえます。

> 機械翻訳の運用メンテナンス
> 人工知能(AI)は進化する技術であり、機械翻訳もいちど導入してずっとそのまま使い続けるのではなく、性能を高めていくためのメンテナンスが重要です。ASCAはお使いの機械翻訳のメンテナンスをサポートします。

> 既知のエラーや問題点を踏まえたチューニング、追加データを用いたカスタマイズ(再学習)、運用の利便性向上など、専門知識を有するスタッフが対応します。

> 1. 機械翻訳のカスタマイズ
> 機械翻訳は人工知能(AI)を応用した技術です。この進化を支える要因は、翻訳処理を行う内部アルゴリズムと、アルゴリズムが学習を行うためのデータ(対訳コーパス)の2つから成っています。
> 機械翻訳のアルゴリズムは機械学習、すなわち人工知能(AI)技術であり、それ自体も発展を遂げていますが、良い翻訳を生成するには学習データの量と質を確保することが重要です。

> 私たちは、この仕組みを利用して、機械翻訳エンジンのカスタマイズをサポートいたします。もし社内に過去の翻訳物や翻訳メモリが存在していれば、それを利用して市販のものよりさらに性能の高い機械翻訳エンジンを開発し、貴社の翻訳業務を大幅に効率化することが可能です。

> 機械翻訳システムの検証
> 機械翻訳を導入したがうまく社内で使えていない、生産性の向上につながっていない、ポストエディットの外注が進まない、など運用面での問題を抱えている場合、導入した機械翻訳システムを検証してみる必要があるかもしれません。

> 私たちは、既存のシステムに対して以下のような標準的な評価手法を用いて評価を行います。あわせてどうすればシステムの改善につながるかも検討した上で、レポートを提出いたします。

> ポストエディットの評価
> 機械翻訳の質の低さはポストエディットの効率にも影響します。この評価では、ポストエディットの作業量や作業時間を測定し、機械翻訳の導入が翻訳プロセスの効率化に結びついているかどうかを測ります。

> 評価の解釈とコンサルテーション
> 私たちの評価業務は、単にスコアや比較結果のみを提示するのではなく、その結果がどのように解釈できるかをレポートします。既存システムのどこに問題があるかを特定し、改善策をご提案します。

> 機械翻訳の運用+ポストエディットサービス
> ASCAが導入した機械翻訳システムを駆使して、効率的な翻訳サービスを提供します。私たちは医薬品開発(治験)の文書や医学論文など様々な文書種に適した機械翻訳エンジンを導入、開発しています。ご依頼の文書にあったエンジンを選び、翻訳のスピード化や品質の安定を実現します。

> 機械翻訳は文書のすべてを正確に訳すことは現在では難しいため、通常は機械翻訳のあとに人間による編集工程(ポストエディット)を付け加えた形でサービス提供いたします。

> 私たちのサービスでは、対象の原稿を翻訳するのに最適な機械翻訳エンジンを選定し、読みやすさや表現の適切さを最大限高めます。また、既存の参考資料として翻訳データがある場合は簡易カスタマイズにも対応いたします。ご予算と納期に応じて最大のパフォーマンスを発揮できる方法をご提案します。


本当にここまで対応できるのかは疑問ですが、
筆者としては先を越された感があり、
ここ数日悔しい&焦ってました。

アスカさんは従来通りの翻訳とPEの他に、
クライアント側の機械翻訳のアダプテーションと、機械翻訳コンサルに舵を切った感がありますね。

まぁ、うちとしては焦ってもしょうがないんで、
自分にできることを一個一個していくだけかな。

WHAT'S NEW?