Photo Gallery

世界の大手製薬会社の日本開発部門責任者の団体であるR&D Head Club(RDHC)のメンバー8社から提供された、
320万文対以上の日英対訳データを用いたシステムの最適化が完了
https://www.nict.go.jp/info/topics/2019/10/07-1.html

「なお、今回の成果物であるAI自動翻訳システムは、本年度中に事業会社によりサービス提供が開始される予定です。」

精度どのくらいなんやろ?
ロゼッタのT-4OOに対抗なるか?

11月に開催される『人を知る』人工知能講座・言語メディア[黒橋研究室]に申し込みました。

受講料(4日で50万!)が何とか用意できそうで、本当によかった・・・😭😭😭
しかも関西から行くので、
これにさらに交通費と宿泊費がかかります。(合計60万くらい?)

私は決してお金持ちではないので、
その60万、私の血と汗と涙の結晶やで。

ところで、ここ数日、twitterで翻訳の実績詐称を推奨する講座がある!と祭りになっていましたが、
(某氏が詐称が疑われる翻訳者をブラックリストに入れて、関係者に注意喚起した)
まともな翻訳者なら、実績詐称を推奨しませんし、
翻訳講座をやるよりも普通に翻訳した方が稼げるはずです。

実績詐称を推奨するような翻訳講座の主催者である翻訳者は、
クライアントからの信用を失い、
稼げるものも稼げなくなります。

その主催者は、
翻訳ではなく、翻訳講座で儲けているのではないでしょうか?

昨日は放送大学の『自然言語処理』の最終回でした。

夏帽子。


全体のまとめと今後の展望について語られており、
長尾先生のインタビューも入っていたので、非常におもしろく、
最後にふさわしい内容でした。

長尾先生は、本と本をリンクさせる(今のリコメンドシステムみたいなの?)
画像処理の研究と言語処理の研究を統合する(今マルチモーダル研究されてますよね。画像キャプションとか)など、
構想自体はお持ちだったそうですが、
当時は計算機のパワーが追い付かなかったそうです。

ていうか、長尾先生が今バリバリの現役だったら、
普通にシンギュラリティ起こせそうwww
(機械翻訳研究がルールベースが主流の時代に、用例翻訳を思い付く方なので。。)
ちなみに黒橋先生って長尾先生の最後のお弟子さん(直接習ったという意味で)らしいですね。

また、以下、『自然言語処理(改訂版)』からの引用。

機械翻訳結果がある程度の質となれば, それをプロの翻訳家が下訳として利用できるはずである. ニューラル機械翻訳により, ついにそのような状況が生まれつつある. これまで、機械翻訳の質が十分でなかったこともあり, 機械翻訳研究者とプロの翻訳家コミュニティとの交流は少なかった. より高度な機械翻訳を目指す上でも, 両者の協力は今後重要になると考えられる.

機械翻訳研究者側にそのお気持ちがあるなら、
喜んで協力します!!!


以前行ったMT勉強会は、全体の方向性として翻訳業界側との交流は全く考えていない感じだったので。。
(ただし、一部翻訳業界に「協力的」な方もいました)

その意味では、まさに今がAI翻訳の第一世代かもしれませんね。

香港が中国の一部になると「うれしい」? グーグル翻訳に臆測
https://www3.nhk.or.jp/news/html/20190614/k10011953201000.html

上記サイトには「SNS上では今回の現象について、何者かがハッキングしたのではないかなどの声があがっています。」と書かれていますが、
私の意見では、sadの「ad」部分にアテンションが当たり、原文をgladだと勘違いしたのかな?と思いましたが(機械翻訳研究者の方、ご意見求む!)、
ネットで検索したところ、「ハッキングとかじゃなくて多分大量に翻訳修正のポストをするという力業の結果」という意見も見られました。
https://www.reddit.com/r/MachineLearning/comments/c0fsu6/d_google_translate_happy_to_see_hong_kong_become/?utm_source=share&utm_medium=ios_app

まさか、Google翻訳の修正機能を悪用した言論統制!?(真偽は不明)

とにかく、Google翻訳を鵜呑みにするのは危険です。
機械翻訳を使うとしても、ある程度原語を自分で読めないと翻訳結果が正しいかどうかは判断できないという例かな。


twitterでアンケート取りました。

日本の機械翻訳市場を制するのは

今のところ、Google社は、翻訳事業に興味ないと思うけど(理由:市場が小さすぎるため)、
もしGoogle社がガチマジでやってきたら、
日本の翻訳業界(2000億円規模)秒で消えそうwww

こんにちは。

NLP2019のプログラムが発表されました。

我がエッジ・トランスレーションは一応スポンサーなので、出られる限り出たいと思っています。
ただし、最終日の3/15は、JTF関西セミナーとかぶっているため、
早めに切り上げて、JTF関西セミナーの方に出ることにしました。

もしかしたらギリギリ(3/15正午くらい)まで名古屋にいて、
それから大阪に戻って、昼過ぎからJTF関西セミナーに出席するハメになるかもしれませんwww

◇現在の暫定スケジュール◇
(変更可能性は大いにあり

<3/12>
チュートリアル(1)   3月12日(火) 10:30-12:10 豊田講堂
機械読解の現状と展望
西田 京介 先生(NTTメディアインテリジェンス研究所)

チュートリアル(3)   3月12日(火) 15:10-16:50 豊田講堂
知識グラフと分散表現
林 克彦 先生(大阪大学)

<3/13>
A1:機械翻訳(1)   3月13日(水) 10:50-12:10 IB大講義室  座長: 鈴木潤(東北大)
A1-1 日本語から英語への文脈翻訳テストの提案
○永田昌明, 森下睦 (NTT)
A1-2 文脈を考慮した日英機械翻訳に向けた評価データの構築
○島津翔, 高瀬翔 (東工大), 中澤敏明 (東大), 岡崎直観 (東工大)
A1-3 翻訳ツールが苦手とする箇所の英日翻訳
○山岡幸高 (九大)
A1-4 係り受け構造に基づくAttentionの制約を用いたNMT
○出口祥之, 田村晃裕, 二宮崇 (愛媛大)

25周年企画
  3月13日(水) 13:10-14:10 IB大講義室(中継:IB014,IB015)
江原 暉将,井佐原 均,黒橋 禎夫,鶴岡 慶雅,丸山 岳彦

A2:機械翻訳(2)   3月13日(水) 14:30-16:10 IB大講義室  座長: 今村賢治(NICT)
A2-1 ニューラル機械翻訳における文書トピック情報の利用
○高田凌平, 秋葉友良, 塚田元 (豊橋技科大)
A2-2 文脈情報を考慮した日英ニューラル機械翻訳
○李凌寒, 中澤敏明, 鶴岡慶雅 (東大)
A2-3 人工負例による識別器を用いたニューラル機械翻訳
○白井圭佑 (京大), 橋本和真 (Salesforce), 江里口瑛子 (マイクロソフト), 森信介 (京大), 二宮崇 (愛媛大)
A2-4 文脈考慮型ニューラル機械翻訳における最適文脈文選択法
○木村龍一郎, 飯田頌平, 崔鴻翌, 洪博軒, 宇津呂武仁 (筑波大), 永田昌明 (NTT)
A2-5 マルチホップ注意機構を用いたニューラル機械翻訳
○飯田頌平, 木村龍一郎, 崔鴻翌, 洪博軒, 宇津呂武仁 (筑波大), 永田昌明 (NTT)

D3:画像と言語   3月13日(水) 16:30-17:50 ES022  座長: 林良彦(早大)
D3-1 Enhancing Neural Machine Translation with Image-based Paraphrase Augmentation
○◊Johanes Effendi (NAIST), Sakriani Sakti, 須藤克仁, 中村哲 (NAIST/理研AIP)
D3-2 君の名は -画像認識対象の名称獲得-
○那須川哲哉, 村岡雅康 (日本IBM)
D3-3 画像認識器の物体ラベルを活用した単語の特徴表現
○村岡雅康, 那須川哲哉 (日本IBM)
D3-4 質問文から連想した画像特徴量を用いた質問応答モデル
○石橋陽一 (NAIST), 森泰, 木村輔, 宮森恒 (京産大)

19:00-21:00 懇親会
ホテルメルパルク名古屋

<3/14>
【P1:ポスター(1)   3月14日(木) 10:20-11:50 ESホール  座長: 橋本力(ヤフー)】
P1-22 局所的トピック情報を利用した論文抄録(ASPEC)の英日機械翻訳
○渡邊拓斗 (中部大), 高田凌平, 佐橋広也 (豊橋技科大), 山本一公 (中部大), 秋葉友良 (豊橋技科大), 中川聖一 (中部大)
P1-23 目的言語側の文間文脈を考慮した文脈つきニューラル機械翻訳
○山岸駿秀, 小町守 (首都大)

【P2:ポスター(1)   3月14日(木) 10:20-11:50 ES会議室  座長: 橋本力(ヤフー)】
P2-2 単語分散表現に基づいた誤差によるニューラル機械翻訳の学習
○帖佐克己, 須藤克仁, 中村哲 (NAIST)

【P3:ポスター(2)   3月14日(木) 13:00-14:30 ESホール  座長: 松林優一郎(理研AIP)】
P3-20 BERTを用いた機械翻訳の自動評価
○嶋中宏希 (首都大), 梶原智之 (阪大), 小町守 (首都大)
P3-27 スケーラブルニューラル機械翻訳
○小野淳也, 内山将夫, 隅田英一郎 (NICT)
P3-36 自然発話に頑健な機械翻訳の検討
○村上聡一朗, 松岡保静, 内田渉, 礒田佳徳 (NTTドコモ), 森下睦, 平尾努, 永田昌明 (NTT)

【P4:ポスター(2)   3月14日(木) 13:00-14:30 ES会議室  座長: 松林優一郎(理研AIP)】
P4-6 ニューラル機械翻訳における長文分割によるコーパスの拡張
○張津一, 松本忠博 (岐阜大)

F4:テーマセッション: 産業翻訳に役立つ自然言語処理技術   3月14日(木) 14:50-18:50 ES025  座長: 藤田篤(NICT),影浦峡(東大)
F4-1 産業翻訳に役立つ自然言語処理技術についての議論の足場
○藤田篤 (NICT), 山田優 (関大), 影浦峡 (東大)
F4-2 技術文書の多言語化を見据えた制限オーサリングと翻訳:基本方針と枠組み
○宮田玲 (名大), 柳英夫 (システートソリューションズ), 影浦峡 (東大), 萩原秀章 (トヨタ自動車)
F4-3 「完全自動」と「半自動」によるニューラル機械翻訳のエラー修正手法 ~翻訳者目線での修正作業を効率化するツールの紹介~
○新田順也 (エヌ・アイ・ティー)
F4-4 コーポレート・ガバナンス報告書における機械翻訳の検討
○土井惟成, 近藤真史, 山藤敦史 (JPX)
F4-5 構造付き Web テキスト翻訳のための高品質多言語データセット
○橋本和真, Raffaella Buschiazzo (Salesforce), James Bradbury (グーグル), Teresa Marshall, Richard Socher, Caiming Xiong (Salesforce)
F4-6 機械翻訳(MT)は字幕翻訳できるのか YouTube字幕の記述および字幕におけるプリエディットの有効性の検証
○平岡裕資, 山田優 (関大)
F4-7 ニューラル機械翻訳の商用利用に関する一考察 ~翻訳会社における特許翻訳での実例紹介~
○渡部孝明, 山本真佑花 (翻訳センター)

<3/15>
【P5:ポスター(3)   3月15日(金) 10:40-12:10 ESホール  座長: 荒瀬由紀(阪大)】
P5-10 機械翻訳に対する文間文脈を考慮した評価と分析
○長我部恭行, 甲斐優人, 石井奏人, 荻野天翔, 黒澤道希, 小町守 (首都大)
P5-22 事前学習した単語分散表現を利用したマルチモーダル機械翻訳
○平澤寅庄, 山岸駿秀, 松村雪桜, 小町守 (首都大)

【P6:ポスター(3)   3月15日(金) 10:40-12:10 ES会議室  座長: 荒瀬由紀(阪大)】
P6-9 マルチソースニューラル機械翻訳における翻訳時の原言語欠落補完
○西村優汰, 須藤克仁 (NAIST), Graham Neubig (CMU), 中村哲 (NAIST)
P6-10 文の持つ情報量を用いたニューラル機械翻訳の訳抜け検出
○藤井真, 新納浩幸, 古宮嘉那子 (茨大)

<3/15午後>→帰阪
JTF関西セミナー「AI翻訳が製薬業界を変える ~現場からの報告~」


NLP2019とJTF関西セミナーに出られる方は、よろしくお願いします☆
(両方とも懇親会も出る予定です!)


今、一説によれば人間を上回る精度であるとして昨年話題になった「BERT」の論文を読んでいます。
Assessing BERT’s Syntactic Abilities

<粗訳>
BERTは、 「Transformer」のアーキテクチャに基づくモデルである。
それはattention機構にのみ依存しており、語順は明示的には考慮されていない。
そのためBERTは、語順を直接設定するRNN(LSTM)と比較して、構文解析が弱いという説もある。
そこで著者は、BERTがどの程度英語の構文を捉えているかを実験した。
結論として、BERTはすべての構文テストにおいて良好な成績を出した。

詳しくは原文をお読みください。

MT Summitの感想・総評です。

*******************************

<全体>
・JTFワークショップ以外は通訳なし(英語のみ)
外国人の方が多い(6割位)
軽食が取り放題
水はミニペットボトル取り放題。コーヒー・ジュース類と菓子類の他、ウィンナー、スクランブルエッグ、巻き寿司・稲荷ずし、クロワッサン、サンドイッチ、ホットドック、桜餅等が出ていた。
・各翻訳会社のMT導入動向と、翻訳会社同士の関係性を知った
・女性が少ない
平均2割位。私が行ったリサーチトラックでは1割位。一番女性が多かったGoogleのプレゼン時でも3割弱。翻訳業界とは男女比が
・MT Summitでは個人翻訳者はどうでもいい存在
MT Summitは研究者 or MTの導入を検討している企業を主な対象としているため、企業ブース個人向けのサービスがなかったり。

<セッション内容>
・世界の最先端のMT研究情報を得た
・日本語が研究対象ではないセッションもあった
・問題はMTを使っているかどうかではなく、
安価・短時間で高品質の翻訳を提供すること
(セキュリティの問題がなければ)

15万自腹で払って行った価値があるかは、これからの開発状況次第

<名古屋大学>
・名古屋大学は施設が充実。構内にゆうちょや一部の銀行がある。食堂やカフェが何か所もある(毎日違う場所へ食事に行った)。本屋もある。
・豊田講堂前の芝生が立派。(最終日にピクニックしました♪)ホールには各席にコンセントが付いている。

<TO DO>
・翻訳者側から機械翻訳側への“技術移転”が必要
・プロセスを言語化法則・数式を見出だす
・人間翻訳者は不要にはならないが、数値化、法則化できる部分が増える

*******************************

おまけでごはんの写真。

ホテルの朝食。
朝食・1 
朝食・2
ホテルのテーブル。
ホテルのテーブル。テーブルの上の薔薇が生花!

名古屋大学構内のレストランにて。
名古屋大学構内のレストラン。


これ、2017年9月の話なんで、今さら感がありますが、
引っ越しの資料整理ついでにまとめました。

MT Summitは、今年はアイルランドのダブリンで開催されます(隔年開催)。


MT Summitの感想⑤ - (2)です。

*******************************

③講演(Pangeanic社・Manuel Herranz氏)

Pangeanic社のCEOであるHerranz氏は、言語学とエンジニアリングの両方の学位を持っておられます。
ちなみに、Pangeanic社は機械翻訳のサプライヤーそうです。

④講演KantanMT社・Dimitar Shterionov氏)

Dimitar Shterionov氏はKantanMT社のMT研究長です(KantanMT社も機械翻訳のサプライヤー)。

⑤講演(ポストエディット東河野弘毅氏)

割愛。

⑥講演(SDLジャパン社佐藤弦氏)

割愛。

詳細は、資料がこちらに公開されているのでどうぞ。

☆質疑応答☆
最後に質疑応答がありました。
私からはPangeanic社・Manuel Herranz氏とKantanMT社・Dimitar Shterionov氏に対して質問しました。
①英語←→日本語の機械翻訳を提供しているか
②機械翻訳の品質を翻訳者に評価させているか

両氏からの回答:「提供しており、English-fluent nativeに評価させています。」

私はtranslatorsに評価させているか?と質問したのですが・・・

最後に、Mike Dillinger氏は、主催者だけでなく、同時通訳者にまで謝辞を述べられました。
(この時はインターの同通が付いており、質疑応答のとっさの返答もちゃんと通訳していたので、かなりレベルが高かったです。

Mike Dillinger氏は、ご自身が元通訳者/翻訳者であり、
通訳/翻訳を機械で行う難しさも知っておられるので、
人間の通訳者に敬意を表されたのでしょう。

*******************************

これですべての日程について報告しました。最後にまとめとして総評を書きます。


突然ですが、クイズです。
?に入る単語は何でしょう?
              
          You ? goodbye and I say hello.
                                    (※出展:『ゼロから作るDeep Learning ❷ ―自然言語処理編』)

人間の感覚では、なんとなくsayかなってわかりますよね。

これを両隣の単語をコンテキストとして、「?」にどのような単語が出現するのかをコンピュータで推測するのが、
推論ベースと呼ばれる手法です。

あ、ちなみに前回実装した単語のベクトル化は、カウントベースの手法です^^

違い:
カウントベースコーパス全体の統計データを利用する。語彙数が多い場合は計算量が膨大になる(例:語彙数が100万の場合、100万×100万の行列計算を行うことになる)ため、現実的ではない。
推論ベースニューラルネットワークが一度に少量の学習サンプルを参照しながら、重みを繰り返し更新する。

word2vecは、推論ベースの単語のベクトル化の手法です(続く)。


WHAT'S NEW?