Photo Gallery

こんにちは。

NLP2019のプログラムが発表されました。

我がエッジ・トランスレーションは一応スポンサーなので、出られる限り出たいと思っています。
ただし、最終日の3/15は、JTF関西セミナーとかぶっているため、
早めに切り上げて、JTF関西セミナーの方に出ることにしました。

もしかしたらギリギリ(3/15正午くらい)まで名古屋にいて、
それから大阪に戻って、昼過ぎからJTF関西セミナーに出席するハメになるかもしれませんwww

◇現在の暫定スケジュール◇
(変更可能性は大いにあり

<3/12>
チュートリアル(1)   3月12日(火) 10:30-12:10 豊田講堂
機械読解の現状と展望
西田 京介 先生(NTTメディアインテリジェンス研究所)

チュートリアル(3)   3月12日(火) 15:10-16:50 豊田講堂
知識グラフと分散表現
林 克彦 先生(大阪大学)

<3/13>
A1:機械翻訳(1)   3月13日(水) 10:50-12:10 IB大講義室  座長: 鈴木潤(東北大)
A1-1 日本語から英語への文脈翻訳テストの提案
○永田昌明, 森下睦 (NTT)
A1-2 文脈を考慮した日英機械翻訳に向けた評価データの構築
○島津翔, 高瀬翔 (東工大), 中澤敏明 (東大), 岡崎直観 (東工大)
A1-3 翻訳ツールが苦手とする箇所の英日翻訳
○山岡幸高 (九大)
A1-4 係り受け構造に基づくAttentionの制約を用いたNMT
○出口祥之, 田村晃裕, 二宮崇 (愛媛大)

25周年企画
  3月13日(水) 13:10-14:10 IB大講義室(中継:IB014,IB015)
江原 暉将,井佐原 均,黒橋 禎夫,鶴岡 慶雅,丸山 岳彦

A2:機械翻訳(2)   3月13日(水) 14:30-16:10 IB大講義室  座長: 今村賢治(NICT)
A2-1 ニューラル機械翻訳における文書トピック情報の利用
○高田凌平, 秋葉友良, 塚田元 (豊橋技科大)
A2-2 文脈情報を考慮した日英ニューラル機械翻訳
○李凌寒, 中澤敏明, 鶴岡慶雅 (東大)
A2-3 人工負例による識別器を用いたニューラル機械翻訳
○白井圭佑 (京大), 橋本和真 (Salesforce), 江里口瑛子 (マイクロソフト), 森信介 (京大), 二宮崇 (愛媛大)
A2-4 文脈考慮型ニューラル機械翻訳における最適文脈文選択法
○木村龍一郎, 飯田頌平, 崔鴻翌, 洪博軒, 宇津呂武仁 (筑波大), 永田昌明 (NTT)
A2-5 マルチホップ注意機構を用いたニューラル機械翻訳
○飯田頌平, 木村龍一郎, 崔鴻翌, 洪博軒, 宇津呂武仁 (筑波大), 永田昌明 (NTT)

D3:画像と言語   3月13日(水) 16:30-17:50 ES022  座長: 林良彦(早大)
D3-1 Enhancing Neural Machine Translation with Image-based Paraphrase Augmentation
○◊Johanes Effendi (NAIST), Sakriani Sakti, 須藤克仁, 中村哲 (NAIST/理研AIP)
D3-2 君の名は -画像認識対象の名称獲得-
○那須川哲哉, 村岡雅康 (日本IBM)
D3-3 画像認識器の物体ラベルを活用した単語の特徴表現
○村岡雅康, 那須川哲哉 (日本IBM)
D3-4 質問文から連想した画像特徴量を用いた質問応答モデル
○石橋陽一 (NAIST), 森泰, 木村輔, 宮森恒 (京産大)

19:00-21:00 懇親会
ホテルメルパルク名古屋

<3/14>
【P1:ポスター(1)   3月14日(木) 10:20-11:50 ESホール  座長: 橋本力(ヤフー)】
P1-22 局所的トピック情報を利用した論文抄録(ASPEC)の英日機械翻訳
○渡邊拓斗 (中部大), 高田凌平, 佐橋広也 (豊橋技科大), 山本一公 (中部大), 秋葉友良 (豊橋技科大), 中川聖一 (中部大)
P1-23 目的言語側の文間文脈を考慮した文脈つきニューラル機械翻訳
○山岸駿秀, 小町守 (首都大)

【P2:ポスター(1)   3月14日(木) 10:20-11:50 ES会議室  座長: 橋本力(ヤフー)】
P2-2 単語分散表現に基づいた誤差によるニューラル機械翻訳の学習
○帖佐克己, 須藤克仁, 中村哲 (NAIST)

【P3:ポスター(2)   3月14日(木) 13:00-14:30 ESホール  座長: 松林優一郎(理研AIP)】
P3-20 BERTを用いた機械翻訳の自動評価
○嶋中宏希 (首都大), 梶原智之 (阪大), 小町守 (首都大)
P3-27 スケーラブルニューラル機械翻訳
○小野淳也, 内山将夫, 隅田英一郎 (NICT)
P3-36 自然発話に頑健な機械翻訳の検討
○村上聡一朗, 松岡保静, 内田渉, 礒田佳徳 (NTTドコモ), 森下睦, 平尾努, 永田昌明 (NTT)

【P4:ポスター(2)   3月14日(木) 13:00-14:30 ES会議室  座長: 松林優一郎(理研AIP)】
P4-6 ニューラル機械翻訳における長文分割によるコーパスの拡張
○張津一, 松本忠博 (岐阜大)

F4:テーマセッション: 産業翻訳に役立つ自然言語処理技術   3月14日(木) 14:50-18:50 ES025  座長: 藤田篤(NICT),影浦峡(東大)
F4-1 産業翻訳に役立つ自然言語処理技術についての議論の足場
○藤田篤 (NICT), 山田優 (関大), 影浦峡 (東大)
F4-2 技術文書の多言語化を見据えた制限オーサリングと翻訳:基本方針と枠組み
○宮田玲 (名大), 柳英夫 (システートソリューションズ), 影浦峡 (東大), 萩原秀章 (トヨタ自動車)
F4-3 「完全自動」と「半自動」によるニューラル機械翻訳のエラー修正手法 ~翻訳者目線での修正作業を効率化するツールの紹介~
○新田順也 (エヌ・アイ・ティー)
F4-4 コーポレート・ガバナンス報告書における機械翻訳の検討
○土井惟成, 近藤真史, 山藤敦史 (JPX)
F4-5 構造付き Web テキスト翻訳のための高品質多言語データセット
○橋本和真, Raffaella Buschiazzo (Salesforce), James Bradbury (グーグル), Teresa Marshall, Richard Socher, Caiming Xiong (Salesforce)
F4-6 機械翻訳(MT)は字幕翻訳できるのか YouTube字幕の記述および字幕におけるプリエディットの有効性の検証
○平岡裕資, 山田優 (関大)
F4-7 ニューラル機械翻訳の商用利用に関する一考察 ~翻訳会社における特許翻訳での実例紹介~
○渡部孝明, 山本真佑花 (翻訳センター)

<3/15>
【P5:ポスター(3)   3月15日(金) 10:40-12:10 ESホール  座長: 荒瀬由紀(阪大)】
P5-10 機械翻訳に対する文間文脈を考慮した評価と分析
○長我部恭行, 甲斐優人, 石井奏人, 荻野天翔, 黒澤道希, 小町守 (首都大)
P5-22 事前学習した単語分散表現を利用したマルチモーダル機械翻訳
○平澤寅庄, 山岸駿秀, 松村雪桜, 小町守 (首都大)

【P6:ポスター(3)   3月15日(金) 10:40-12:10 ES会議室  座長: 荒瀬由紀(阪大)】
P6-9 マルチソースニューラル機械翻訳における翻訳時の原言語欠落補完
○西村優汰, 須藤克仁 (NAIST), Graham Neubig (CMU), 中村哲 (NAIST)
P6-10 文の持つ情報量を用いたニューラル機械翻訳の訳抜け検出
○藤井真, 新納浩幸, 古宮嘉那子 (茨大)

<3/15午後>→帰阪
JTF関西セミナー「AI翻訳が製薬業界を変える ~現場からの報告~」


NLP2019とJTF関西セミナーに出られる方は、よろしくお願いします☆
(両方とも懇親会も出る予定です!)


今、一説によれば人間を上回る精度であるとして昨年話題になった「BERT」の論文を読んでいます。
Assessing BERT’s Syntactic Abilities

<粗訳>
BERTは、 「Transformer」のアーキテクチャに基づくモデルである。
それはattention機構にのみ依存しており、語順は明示的には考慮されていない。
そのためBERTは、語順を直接設定するRNN(LSTM)と比較して、構文解析が弱いという説もある。
そこで著者は、BERTがどの程度英語の構文を捉えているかを実験した。
結論として、BERTはすべての構文テストにおいて良好な成績を出した。

詳しくは原文をお読みください。

MT Summitの感想・総評です。

*******************************

<全体>
・JTFワークショップ以外は通訳なし(英語のみ)
外国人の方が多い(6割位)
軽食が取り放題
水はミニペットボトル取り放題。コーヒー・ジュース類と菓子類の他、ウィンナー、スクランブルエッグ、巻き寿司・稲荷ずし、クロワッサン、サンドイッチ、ホットドック、桜餅等が出ていた。
・各翻訳会社のMT導入動向と、翻訳会社同士の関係性を知った
・女性が少ない
平均2割位。私が行ったリサーチトラックでは1割位。一番女性が多かったGoogleのプレゼン時でも3割弱。翻訳業界とは男女比が
・MT Summitでは個人翻訳者はどうでもいい存在
MT Summitは研究者 or MTの導入を検討している企業を主な対象としているため、企業ブース個人向けのサービスがなかったり。

<セッション内容>
・世界の最先端のMT研究情報を得た
・日本語が研究対象ではないセッションもあった
・問題はMTを使っているかどうかではなく、
安価・短時間で高品質の翻訳を提供すること
(セキュリティの問題がなければ)

15万自腹で払って行った価値があるかは、これからの開発状況次第

<名古屋大学>
・名古屋大学は施設が充実。構内にゆうちょや一部の銀行がある。食堂やカフェが何か所もある(毎日違う場所へ食事に行った)。本屋もある。
・豊田講堂前の芝生が立派。(最終日にピクニックしました♪)ホールには各席にコンセントが付いている。

<TO DO>
・翻訳者側から機械翻訳側への“技術移転”が必要
・プロセスを言語化法則・数式を見出だす
・人間翻訳者は不要にはならないが、数値化、法則化できる部分が増える

*******************************

おまけでごはんの写真。

ホテルの朝食。
朝食・1 
朝食・2
ホテルのテーブル。
ホテルのテーブル。テーブルの上の薔薇が生花!

名古屋大学構内のレストランにて。
名古屋大学構内のレストラン。


これ、2017年9月の話なんで、今さら感がありますが、
引っ越しの資料整理ついでにまとめました。

MT Summitは、今年はアイルランドのダブリンで開催されます(隔年開催)。


MT Summitの感想⑤ - (2)です。

*******************************

③講演(Pangeanic社・Manuel Herranz氏)

Pangeanic社のCEOであるHerranz氏は、言語学とエンジニアリングの両方の学位を持っておられます。
ちなみに、Pangeanic社は機械翻訳のサプライヤーそうです。

④講演KantanMT社・Dimitar Shterionov氏)

Dimitar Shterionov氏はKantanMT社のMT研究長です(KantanMT社も機械翻訳のサプライヤー)。

⑤講演(ポストエディット東河野弘毅氏)

割愛。

⑥講演(SDLジャパン社佐藤弦氏)

割愛。

詳細は、資料がこちらに公開されているのでどうぞ。

☆質疑応答☆
最後に質疑応答がありました。
私からはPangeanic社・Manuel Herranz氏とKantanMT社・Dimitar Shterionov氏に対して質問しました。
①英語←→日本語の機械翻訳を提供しているか
②機械翻訳の品質を翻訳者に評価させているか

両氏からの回答:「提供しており、English-fluent nativeに評価させています。」

私はtranslatorsに評価させているか?と質問したのですが・・・

最後に、Mike Dillinger氏は、主催者だけでなく、同時通訳者にまで謝辞を述べられました。
(この時はインターの同通が付いており、質疑応答のとっさの返答もちゃんと通訳していたので、かなりレベルが高かったです。

Mike Dillinger氏は、ご自身が元通訳者/翻訳者であり、
通訳/翻訳を機械で行う難しさも知っておられるので、
人間の通訳者に敬意を表されたのでしょう。

*******************************

これですべての日程について報告しました。最後にまとめとして総評を書きます。


突然ですが、クイズです。
?に入る単語は何でしょう?
              
          You ? goodbye and I say hello.
                                    (※出展:『ゼロから作るDeep Learning ❷ ―自然言語処理編』)

人間の感覚では、なんとなくsayかなってわかりますよね。

これを両隣の単語をコンテキストとして、「?」にどのような単語が出現するのかをコンピュータで推測するのが、
推論ベースと呼ばれる手法です。

あ、ちなみに前回実装した単語のベクトル化は、カウントベースの手法です^^

違い:
カウントベースコーパス全体の統計データを利用する。語彙数が多い場合は計算量が膨大になる(例:語彙数が100万の場合、100万×100万の行列計算を行うことになる)ため、現実的ではない。
推論ベースニューラルネットワークが一度に少量の学習サンプルを参照しながら、重みを繰り返し更新する。

word2vecは、推論ベースの単語のベクトル化の手法です(続く)。


おっ!!!

単語のベクトル化・1

単語のベクトル化・2


3日間詰まってたからめっちゃ嬉しい・・・。゚(゚´Д`゚)゚。

これで『単語をベクトルに変換する』ってのがどういうことか、
体感的にちょっと理解できたわ(←数学的理論は全く理解できてないけど)。

“高度なオモチャ”に過ぎない。

だが、改良次第では役に立つかも。


Google社の翻訳チームがリサーチ サイエンティストを募集しているようです。

これ見ると、Google 翻訳はTensorflow、C++、Python使ってるんだな、ってわかるよね。

NTTデータの長尾真(情報工学者)氏・新井紀子(数学者)氏インタビューです。

AI技術の発展にはこれから何が必要になるのか、
長尾真氏は情報工学者の立場から(←日本の機械翻訳の第一人者)、
新井紀子氏は数学者の立場から、
西洋哲学なども交えながら対談されています。

(抜粋)新井 例えば「Alexは男性にも女性にも使われる名前で、女性の名Alexandraの愛称でもあるが、男性の名Alexanderの愛称でもある。Alexandraの愛称は○○である」という短文をテストで出しました。

〇〇に当てはまるものはどれか?(みなさんも考えてみてください♪)
①Alex
②Alexander
③男性
④女性


(抜粋)新井 この○○に当てはまるのは「Alex」と決まっているのに、「女性」と答えた回答者が半分ほどいたという結果になりました。つまり、構文解析ができないという人が半分もいる。


やべー、「女性」かと思った(汗)←翻訳者!


(抜粋)長尾 私はもう実験とか、コンピュータをいじってプログラムするということはできなくなっているので、情報科学の分野の人にどのように貢献できるかを考えています。

えっ、じゃあElikaのプロトタイプできたら誰に持っていったらいいの?
やっぱ、京大の黒橋教授かな?←向こうが相手にしてくれたらだがwww

そもそも黒橋教授って長尾先生の弟子やし。
(日本の機械翻訳業界では、長尾派閥は超強いです)

昨日は【JTCA×JTF コラボレーション企画】「機械翻訳の活用と、生産性の向上~生産性を上げるために本当に必要なこと~」のセミナー参加&商談のために、日帰りで東京に行ってまいりました。

東京駅。

大阪から行く上、東京駅着いてからも、セミナー会場である東京学芸大学まで小一時間かかるっていうwww

こんな辺境に朝から行く奴他にいねーだろwww
と思っていたら、
会場は満員(200名くらい)。
(他にサテライトの部屋もあった)

最初にエラい人達の挨拶があり、
(JTF会長の東社長も挨拶されていました)
次にSAPジャパン・佐野様のお話、
その次にMK翻訳事務所・梶木様のお話、
そしてJTCA黒田様のお話(※これはプログラムに書いてないし、資料もない)、
最後に質疑応答の時間が30分間ありました。

質疑応答では、
私からはSAPジャパン・佐野様にはMTサミット以降の日本語のポストエディット案件の変化、時間給にしたか」を質問し、
MK翻訳事務所・梶木様には「『学習型機械翻訳』とはどのようなものか、およびその導入をやめた理由」を質問しました。

午後からは東京駅周辺で商談だったので、
セミナー終了後すぐトンボ返り。
🍙を齧りながら移動するハメになりましたwww

スピーカーの方々と名刺交換する時間もありませんでした・・・
(このブログ見てたら連絡ください☆(ゝω・))


充実した東京出張でした!

WHAT'S NEW?