Photo Gallery

AI-SCHOLARに、「機械翻訳のアイデアをプログラミング言語に導入!教師無しでコードの移植が可能に」という記事がありました。
コード。


以下、抜粋:

● 提案手法の基礎にある考えは、コード変換タスクが通常の言語翻訳と酷似していると言う事です。

● TransCoderモデルは、本質的には transformerによるエンコーダーとデコーダーで構成された、Attention機構を備えたsequence-to-sequence(seq2seq)モデルです。

● しかし字面の一致を評価すると、構文の一致が多いプログラムはBLEUスコアが高くなりますが、関数の出力は大きく異なる可能性があります。逆に、意味的に同様でも実装が異なるコードは、BLEUスコアが低くなります。

ここでもBLEUスコア使えるんかい、って感じですね。

LinkedInで、TransPerfectさんがComputational Linguistを募集されています。
どうやら「音声」(バーチャル・アシスタント)の方のComputational Linguistみたいです。

この前、「【オンライン開催】ニューノーマル時代に求められるAI×人の価値~リテール業界が今やるべき!人間のしごと、AIのしごと~」を聴講したのですが、
ライオンブリッジジャパンさんのAI事業部長であるヴァグレ・セドリック氏は、
「今後はスマホの検索の50%が音声で行われるようになる。
スマホに個別のアプリをダウンロードすることはなくなり、
その代わりにデジタルハブとしてバーチャル・アシスタントがまかなう」
というようなことをおっしゃっていました。

もしかして、今音声がアツい?

8/19には自動音声の専門家であるNAISTの須藤先生がJTF関西セミナーでお話になるので、
楽しみです!^^

4連休、
みなさまいかがお過ごしでしょうか?

ローズ三浦は、現在翻訳の方は手持ち案件がないため、
一日中機械翻訳のコードと格闘しています。
プログラミング。

今機械翻訳エンジンとユーザーインターフェース(Google翻訳とかDeepL翻訳のように、文字を入力すると訳文が出てくる画面)をつなごうとしているのですが、
詳しい方に聞いたところ、
そのためには、
①機械翻訳エンジン側のコードを変える
②サーバ側を改造する

の2種類の方法があるようで、
ローズ三浦は現在自力で①を行っており、
自力でできなかった場合はエンジニアに②を外注する予定です。

エンジニアの方には、少しお話をして、ざっくりと見積もりを取った状態です。
どうやらIT導入補助金2020というものがあるようで、今規定を調べています。
エンジニアの外注費は高いので、外注する際には、それが使えるなら使うつもりです。
お金がない事業者にはありがたい話ですね!^^

変な夢を見た。

私は「最強のNMTエンジンのコード」と「3倍の時間」を手に入れるために、
人を1人殺し、
私自身も自分の心臓を差し出してゾンビ化した。

そしてERIKAは完成した。

そして私は全く逆のことをして時間を「リバース」させ、
現在に帰ってきた。

目覚めたとき、変な汗をかいていたし、
口の中が苦かった……

ほっとすると同時に(人を殺してもいないし、自分もゾンビになってない)、
もう1回「まっとうな方法」で、
ERIKAを完成できるのかな?

もちろんこれはただの変な夢なんだけど、
でも、ほんとうに?

7月ですね。
7月。

さて、アスカコーポレーションさんが機械翻訳サービスを出してきています。

以下、「>」の付いている文章は引用です。

> 2. 自然言語処理サービス
> 機械翻訳は自然言語処理と呼ばれる研究領域の応用技術のひとつです。翻訳という人間の言語(自然言語)を扱う仕事と、コンピュータによる計算処理の間を取り持つ技術が自然言語処理であり、機械翻訳の開発および運用を行う上で欠かせない要素です。

> こうした処理業務を、自然言語処理の専門知識を有するスタッフがサポートいたします。業務の一例を下記に示します。
> 対訳コーパスの作成
> 各種Office系ファイル、xliff・tmxなど専用規格ファイルからの変換
> 文アラインメント処理(2言語間の分のペアリング)
> データクリーニング
> 翻訳文抽出(非翻訳文のフィルタリング)
> ノイズ除去
> 機械翻訳の評価メトリクス算出
> BLEU、TER、RIBESなど

> ポストエディットサービス
> 機械翻訳には誤りがつきものであり、正しい情報を機械翻訳を用いて発信するには、訳文の検証が必要になります。この検証は意外に骨の折れる作業であり、やり始めると際限がなく、内製でカバーしようとすると業務の生産性をむしろ下げてしまう要因になりえます。

> 機械翻訳の運用メンテナンス
> 人工知能(AI)は進化する技術であり、機械翻訳もいちど導入してずっとそのまま使い続けるのではなく、性能を高めていくためのメンテナンスが重要です。ASCAはお使いの機械翻訳のメンテナンスをサポートします。

> 既知のエラーや問題点を踏まえたチューニング、追加データを用いたカスタマイズ(再学習)、運用の利便性向上など、専門知識を有するスタッフが対応します。

> 1. 機械翻訳のカスタマイズ
> 機械翻訳は人工知能(AI)を応用した技術です。この進化を支える要因は、翻訳処理を行う内部アルゴリズムと、アルゴリズムが学習を行うためのデータ(対訳コーパス)の2つから成っています。
> 機械翻訳のアルゴリズムは機械学習、すなわち人工知能(AI)技術であり、それ自体も発展を遂げていますが、良い翻訳を生成するには学習データの量と質を確保することが重要です。

> 私たちは、この仕組みを利用して、機械翻訳エンジンのカスタマイズをサポートいたします。もし社内に過去の翻訳物や翻訳メモリが存在していれば、それを利用して市販のものよりさらに性能の高い機械翻訳エンジンを開発し、貴社の翻訳業務を大幅に効率化することが可能です。

> 機械翻訳システムの検証
> 機械翻訳を導入したがうまく社内で使えていない、生産性の向上につながっていない、ポストエディットの外注が進まない、など運用面での問題を抱えている場合、導入した機械翻訳システムを検証してみる必要があるかもしれません。

> 私たちは、既存のシステムに対して以下のような標準的な評価手法を用いて評価を行います。あわせてどうすればシステムの改善につながるかも検討した上で、レポートを提出いたします。

> ポストエディットの評価
> 機械翻訳の質の低さはポストエディットの効率にも影響します。この評価では、ポストエディットの作業量や作業時間を測定し、機械翻訳の導入が翻訳プロセスの効率化に結びついているかどうかを測ります。

> 評価の解釈とコンサルテーション
> 私たちの評価業務は、単にスコアや比較結果のみを提示するのではなく、その結果がどのように解釈できるかをレポートします。既存システムのどこに問題があるかを特定し、改善策をご提案します。

> 機械翻訳の運用+ポストエディットサービス
> ASCAが導入した機械翻訳システムを駆使して、効率的な翻訳サービスを提供します。私たちは医薬品開発(治験)の文書や医学論文など様々な文書種に適した機械翻訳エンジンを導入、開発しています。ご依頼の文書にあったエンジンを選び、翻訳のスピード化や品質の安定を実現します。

> 機械翻訳は文書のすべてを正確に訳すことは現在では難しいため、通常は機械翻訳のあとに人間による編集工程(ポストエディット)を付け加えた形でサービス提供いたします。

> 私たちのサービスでは、対象の原稿を翻訳するのに最適な機械翻訳エンジンを選定し、読みやすさや表現の適切さを最大限高めます。また、既存の参考資料として翻訳データがある場合は簡易カスタマイズにも対応いたします。ご予算と納期に応じて最大のパフォーマンスを発揮できる方法をご提案します。


本当にここまで対応できるのかは疑問ですが、
筆者としては先を越された感があり、
ここ数日悔しい&焦ってました。

アスカさんは従来通りの翻訳とPEの他に、
クライアント側の機械翻訳のアダプテーションと、機械翻訳コンサルに舵を切った感がありますね。

まぁ、うちとしては焦ってもしょうがないんで、
自分にできることを一個一個していくだけかな。

JSAI2020、今年はオンライン開催となりましたが、
一応暫定スケジュール組みました(変更可能性あり)。

**************************************************************************
2020年6月9日(火)
12:00~12:50 ランチョンセミナー(エヌビディア合同会社)
AI の今とこれからを支える GPU コンピューティング
佐々木 邦暢1 (1: エヌビディア合同会社)

13:20~15:00 自然言語処理・情報検索: 機械学習
重みつき City-block距離に基づく順位関数の最適化
〇日高 昇平1 (1. 北陸先端科学技術大学院大学)
Fine-Tuning による領域に特化した DistilBERT モデルの構築
〇新納 浩幸1、白 静1、曹 鋭1、馬 雯1 (1. 茨城大学)
LSTMを用いた自動句読点補完
〇靱 勝彦1 (1. 一般社団法人共同通信社)
CCGと定理証明器による自然言語の時間関係認識
〇大西 舞子1、谷中 瞳2、峯島 宏次1、戸次 大介1 (1. お茶の水女子大学、2. 理化学研究所)
CCGと自動定理証明による比較表現の計算意味論
〇春田 和泉1、峯島 宏次1、戸次 大介1 (1. お茶の水女子大学)
自然言語処理・情報検索: テキストマイニング

15:20~17:00 自然言語処理・情報検索: テキストマイニング
安全かつ合理的な施工のための地質文献のテキストマイニング
〇戸邉 勇人1、金子 弘幸1、升元 一彦1、松川 剛一1 (1. 鹿島建設株式会社)
構文解析情報を用いたテキストからの数値情報の抽出
〇黒土 健三1、森本 康嗣1、佐藤 美沙1、柳井 孝介1 (1. 日立製作所 研究開発グループ)
深層学習を用いた株主招集通知の重要ページ抽出
〇高野 海斗1、酒井 浩之1、中川 慧2 (1. 成蹊大学、2. 野村アセットマネジメント株式会社)
商品検索の検索ログを用いたマルチタスク学習
〇清水 仁1、岩田 具治1 (1. NTTコミュニケーション科学基礎研究所)
コールセンターの業務改善に向けた応答マニュアルの分析と検索手法の検討
〇山下 遼真1、原 謙介2、田村 哲嗣1、速水 悟1 (1. 岐阜大学、2. 株式会社 セイノー情報サービス)

17:20~18:40 自然言語処理・情報検索: 推定と分析
単語の対応関係を利用したスパン候補の絞り込みによるキャッチコピーの対句構造解析
〇丹羽 彩奈1、脇本 宏平2、西口 佳佑2、毛利 真崇2、岡崎 直観1 (1. 東京工業大学、2. 株式会社サイバーエージェント )
文連結型マルチソースニューラル機械翻訳の性能分析
〇磯部 僚也1、洪 博軒1、飯田 頌平1、魏 軼楨1、宇津呂 武仁1、永田 晶明2 (1. 筑波大学、2. NTT)
質問なし読解事例に対する BERTの回答可能性に着目した機械読解難易度分析
〇李 宏宇1、陳 騰揚1、宇津呂 武仁1、河田 容英2 (1. 筑波大学、2. ログワークス)
Gaussian Process Regressionを用いたレビュー評価値推定
〇柳本 豪一1 (1. 大阪府立大学)

2020年6月10日(水)
09:00~10:40 AI応用: 医療 (2)
LSTMを用いた機能的な冠動脈有意狭窄の分類
〇小須田 玲花1、小名木 佑来2、太田 丞二3、高橋 愛4、髙岡 浩之4、横田 元5、堀越 琢郎6、森 康久仁7、須鎗 弘樹7
(1. 千葉大学工学部情報画像学科、2. 千葉大学大学院融合理工学府、3. 千葉大学医学部附属病院放射線部、4. 千葉大学医学部附属病院循環器内科、5. 千葉大学大学院医学研究院、6. 千葉大学医学部附属病院放射線科、7. 千葉大学大学院工学研究院)
構造化データ+医療画像のマルチモーダル機械学習モデルによる股関節全置換術オートテンプレーティング
〇小林 智久1、岸本 直也1、花ヶ崎 伸祐、呂 湘潯1、笹井 敏裕2、菅澤 拓也2、北野 和彦2、神谷 早織2、松原 正明3 (1. 日本アイ・ビー・エム株式会社、2. ジョンソン・エンド・ジョンソン株式会社、3. 公益財団法人日産厚生会 玉川病院)
RPAを用いた医療特許の半自動分類システムの研究
〇中村 賢治1、室田 大輝1、渡辺 由佳子2、浅尾 高行2 (1. 高崎健康福祉大学、2. 群馬大学)
ポリファーマシーによる薬物有害事象(低血圧症)の発生を予測する規則分類器
の評価
〇池田 武史1、亀谷 由隆2、水野 智博3、溝神 文博4 (1. 名城大学 大学院理工学研究科、2. 名城大学 理工学部、3. 名城大学 薬学部、4. 国立長寿医療研究センター 薬剤部)
MR angiography上の脳動脈瘤検出モデルに対する血管構造と位置情報を用いた偽陽性削減
〇田代 弘平1、寺崎 優希2、横田 元3、太田 丞二4、堀越 琢朗5、森 康久仁6、須鎗 弘樹6 (1. 千葉大学工学部情報画像学科、2. 千葉大学大学院融合理工学府情報科学コース、3. 千葉大学大学院医学研究院、4. 千葉大学医学部附属病院放射線部、5. 千葉大学医学部附属病院放射線科、6. 千葉大学大学院工学研究院)

12:30~13:20 ランチョンセミナー(株式会社ヒューマンサイエンス)
AI機械学習を成功に導くアノテーションマネジメントのコツ
杦本 和広1、海老沢 衛1 (1: 株式会社ヒューマンサイエンス)

13:50~15:30 人狼知能と不完全情報ゲーム (1)
(OS招待講演)人狼プレイヤの意思決定過程
〇伊藤 毅志1、杉本 磨美1 (1. 電気通信大学)
覚醒水準による人狼プレイヤの特徴分析の試み
〇山本 浩隆1、御手洗 彰1、棟方 渚1 (1. 京都産業大学)
協力ゲーム Hanabiにおける人間の個性とエージェントの評価の間にある関係の調査
〇川越 敦1、大澤 博隆1 (1. 筑波大学)
人狼ゲームにおける発言ベクトルを用いた役職推定
〇塚本 晴庸1、大村 英史1、桂田 浩一1 (1. 東京理科大学理工学研究科)

15:50~17:30 人狼知能と不完全情報ゲーム (2)
15人人狼ゲームにおける会話情報による役職推定
〇福田 宗理1、穴田 一1 (1. 東京都市大学)
人狼知能エージェントの簡易生成システムの開発
〇武田 惇史1、鳥海 不二夫1 (1. 東京大学)
人狼ゲームにおけるプレイヤの推測発言からの発言者および対象者の役職推定
池 尚子2、三品 晟瑠1、〇山根 健1 (1. 帝京大学、2. 株式会社エンタップ)
嘘の表現方法に着目した人狼知能の検討
古野 明日香1、〇岩本 教慈2、菊池 英明2 (1. 早稲田大学人間科学部、2. 早稲田大学人間科学研究科)
プレイヤーの発言内容に関するルールに基づいた人狼ゲームの役職推定
〇清水 大輔1、長谷部 浩二1 (1. 筑波大学情報学群情報科学類)

17:50~19:30 自然言語処理・情報検索: 文章生成
教師有りコピー機構を用いた要約文生成
〇長谷川 駿1、上垣外 英剛1、奥村 学1 (1. 東京工業大学)
知識と話題の埋め込みに基づく質問生成機能を有する料理嗜好インタビューシステ
ムの評価
〇曽 傑1、中野 有紀子2 (1. 成蹊大学大学院理工学研究科、2. 成蹊大学理工学部)
階層的 Encoder-Decoderモデルによる宿泊施設レビュー文書に対する応答文
書生成
〇橋爪 友莉子1、山本 幹雄1 (1. 筑波大学大学院システム情報工学研究科)
不要文除去問題の自動解答における転移学習に用いる疑似問題の作成手法
井上 裕樹1、〇的場 成紀1、成松 宏美2、杉山 弘晃2、東中 竜一郎2、平 博順1 (1. 大阪工業大学、2. NTTコミュニケーション科学基礎研究所)
複数の言語モデルを考慮したキーワードからの広告文生成
〇張 浩達1、上垣外 英剛1、高村 大也1,2、奥村 学1 (1. 東京工業大学、2. 産業技術総合研究所)
自然言語処理・情報検索: 文脈解析

2020年6月11日(木)
09:00~10:40 自然言語処理・情報検索: 文脈解析
脳情報を組み込んだ単語分散表現による文章からの印象・好感度推定
〇西田 知史1、中野 裕介1、Blanc Antoine1、前田 直哉2、角 将高2、西本 伸志1 (1. 情報通信研究機構、2. 株式会社NTTデータ)
記憶装置付きニューラルネットワークモデルによる文脈と構造化知識を用いた対話
〇村山 友理1、小林 一郎1 (1. お茶の水女子大学)
SCAKE: 文脈と重要語の逐次的並列推定
〇吉野 哲平1、松森 匠哉1、福地 庸介1、滝本 佑介1、今井 倫太1 (1. 慶應義塾大学)
分散表現空間内の文脈の推移に着目したワード人狼における発話分析
〇新行内 浩輔1、松森 匠哉1、福地 庸介1、阿部 佑樹1、今井 倫太1 (1. 慶應義塾大学)
文章の流れの自然さに基づく会話文完成問題の自動解答
〇井上 裕樹1、杉山 弘晃2、成松 宏美2、東中 竜一郎2、平 博順1、堂坂 浩二3 (1. 大阪工業大学、2. NTTコミュニケーション科学基礎研究所、3. 秋田県立大学)

15:40~17:00 自然言語処理・情報検索: 意味類似性
マルチモーダル深層学習を用いた画像とテキストの意味理解に基づく整合性判定
鈴木 莉子1、〇小西 幹人2、池田 順哉3、林 大地4、深井 颯5、菅原 優6、町井 湧介7、山浦 佑介7 (1. お茶の水女子大学、2. 大阪大学、3. 福井大学、4. 同志社大学、5. 東京工業大学、6. 北海道大学、7. 富士ゼロックス株式会社)
Universal Dependencies に基づく多言語間テキスト意味類似性測定
〇田中 貴秋1、荒瀬 由紀2、永田 昌明1、鬼塚 真2 (1. NTT コミュニケーション科学基礎研究所、2. 大阪大学大学院情報科学研究科)
単語埋め込みのノルムと方向ベクトルを区別した文間最適輸送コスト
〇横井 祥1,2、高橋 諒1,2、赤間 怜奈1,2、鈴木 潤1,2、乾 健太郎1,2 (1. 東北大学、2. 理化学研究所)
系列ラベリングによる小説のあらすじからの人物情報・関係表現抽出手法の検討
〇岡 裕二1、安藤 一秋1 (1. 香川大学)

18:00~19:30 参加者交流会

2020年6月12日(金)
12:00~13:40 自然言語処理・情報検索: 質問応答システム 
言語生成によるクエリ拡張と回答のスコアリングを組み合わせたオープンドメイン質問回答
〇小柳 隆人1、 山本 小太郎1、鈴木 健太郎1、君塚 涼1 (1. NTTコムウェア株式会社)
ニューラル対話応答生成のための言語非依存な低品質対話データフィルタリング法の提案と分析
〇赤間 怜奈1,2、横井 祥1,2、鈴木 潤1,2、乾 健太郎1,2 (1. 東北大学、2. 理化学研究所)
Semi-automatic Generation of Spoken English Dialogue Scenarios Based on Service Process Model
〇Emmanuel Ayedoun1, Yuki Hayashi1, Kazuhisa Seta1 (1. Osaka Prefecture University)
自然言語の SQLクエリ変換技術、質問理解技術の比較と考察
〇三角 ひとみ1、雲野 大貴1 (1. 株式会社アイネット)
中国語ノウハウ質問応答事例の収集およびニューラル読解モデルの適用
〇陳 騰揚1、銭 澤長2、李 宏宇1、宇津呂 武仁1、河田 容英3 (1. 筑波大学、2. 東京工業大学、3. ログワークス)

14:00~15:20 自然言語処理・情報検索: 社会問題応用
東京都議会会議録における議案への賛否を表明する発言の分析
〇高丸 圭一1、木村 泰知2、内田 ゆず3、佐々木 稔5、吉岡 真治4、秋葉 友良6、渋木 英潔7 (1. 宇都宮共和大学、2. 小樽商科大学、3. 北海学園大学、4. 北海道大学、5. 茨城大学、6. 豊橋技術科学大学、7. 国立情報学研究所)
特許出願技術動向調査報告書の自動更新に向けて
〇難波 英嗣1 (1. 中央大学)
深層学習を利用した特許請求項ベースの特許技術俯瞰マップ
〇坪田 匡史1、宮村 祐一1、神津 友武1 (1. 有限責任監査法人トーマツ)
構文解析と表解析による金融開示文書からの情報抽出
〇十河 泰弘1、佐藤 美沙1、柳井 孝介1 (1. 株式会社日立製作所)
**************************************************************************

6/10のランチョンセミナーに、
株式会社ヒューマンサイエンスさんが主催のものがあります。
ヒューマンサイエンスさんのこちらのセミナーに申し込みましたが、断られました……。゜(゜´Д`゜)゜。
日本からはDeepL Proはまだ契約できないはずなのに、ヒューマンサイエンスさんはこのようなサービスを提供されており、
どのようなカラクリなのか気になっています……(※JSAI2020のランチョンセミナーは、このサービスに関するものではありません)。

また、どうやらオンラインで参加者交流会を行うようです。
オンライン参加者交流会!?

一応これで予定しときますが、
聴講は「できる限り」って感じです。
(仕事があったら仕事が優先なので)

自分の都合で合間に聴講できるのが、
オンラインの利点ですね。

Twitterで翻訳者の方を対象に「自分の訳はDeepLよりレベルが高い」かアンケートを取りました。
(投票数は50。結構信憑性あるんじゃないかと思います。)

DeepL.png

一番多かったのは「はい」(54%)ですが、
「時と場合による」という回答がなんと4割弱もいたので、驚きました。
(数年前にはありえなかったことです。)
もうここまで来てるんだな、という感じです。

アンケートにご協力くださった皆様、ありがとうございました。

平素は大変お世話になっております。

エッジ・トランスレーションは、NLP2020のシルバースポンサーとなっておりましたが、
NLP2020の現地開催の中止に伴い、
当初の特典の大幅な縮小、および一部オンライン開催の先行き不透明感から、
申し訳ございませんが、今回は支援中止とさせていただきました。

何卒ご理解の程よろしくお願い申し上げます。

エッジ・トランスレーション
代表 三浦由起子

エッジ・トランスレーションは、昨年に引き続き、
言語処理学会第26回年次大会(NLP2020)のシルバースポンサーになりました。

言語処理学会第26回年次大会(NLP2020)・シルバースポンサー

現地(茨城大学 水戸キャンパス)にも行き、懇親会にも参加予定ですので、
よろしくお願いいたします。

エッジ・トランスレーション
代表 三浦由起子

世界の大手製薬会社の日本開発部門責任者の団体であるR&D Head Club(RDHC)のメンバー8社から提供された、
320万文対以上の日英対訳データを用いたシステムの最適化が完了
https://www.nict.go.jp/info/topics/2019/10/07-1.html

「なお、今回の成果物であるAI自動翻訳システムは、本年度中に事業会社によりサービス提供が開始される予定です。」

精度どのくらいなんやろ?
ロゼッタのT-4OOに対抗なるか?

WHAT'S NEW?