Photo Gallery

7月ですね。
7月。

さて、アスカコーポレーションさんが機械翻訳サービスを出してきています。

以下、「>」の付いている文章は引用です。

> 2. 自然言語処理サービス
> 機械翻訳は自然言語処理と呼ばれる研究領域の応用技術のひとつです。翻訳という人間の言語(自然言語)を扱う仕事と、コンピュータによる計算処理の間を取り持つ技術が自然言語処理であり、機械翻訳の開発および運用を行う上で欠かせない要素です。

> こうした処理業務を、自然言語処理の専門知識を有するスタッフがサポートいたします。業務の一例を下記に示します。
> 対訳コーパスの作成
> 各種Office系ファイル、xliff・tmxなど専用規格ファイルからの変換
> 文アラインメント処理(2言語間の分のペアリング)
> データクリーニング
> 翻訳文抽出(非翻訳文のフィルタリング)
> ノイズ除去
> 機械翻訳の評価メトリクス算出
> BLEU、TER、RIBESなど

> ポストエディットサービス
> 機械翻訳には誤りがつきものであり、正しい情報を機械翻訳を用いて発信するには、訳文の検証が必要になります。この検証は意外に骨の折れる作業であり、やり始めると際限がなく、内製でカバーしようとすると業務の生産性をむしろ下げてしまう要因になりえます。

> 機械翻訳の運用メンテナンス
> 人工知能(AI)は進化する技術であり、機械翻訳もいちど導入してずっとそのまま使い続けるのではなく、性能を高めていくためのメンテナンスが重要です。ASCAはお使いの機械翻訳のメンテナンスをサポートします。

> 既知のエラーや問題点を踏まえたチューニング、追加データを用いたカスタマイズ(再学習)、運用の利便性向上など、専門知識を有するスタッフが対応します。

> 1. 機械翻訳のカスタマイズ
> 機械翻訳は人工知能(AI)を応用した技術です。この進化を支える要因は、翻訳処理を行う内部アルゴリズムと、アルゴリズムが学習を行うためのデータ(対訳コーパス)の2つから成っています。
> 機械翻訳のアルゴリズムは機械学習、すなわち人工知能(AI)技術であり、それ自体も発展を遂げていますが、良い翻訳を生成するには学習データの量と質を確保することが重要です。

> 私たちは、この仕組みを利用して、機械翻訳エンジンのカスタマイズをサポートいたします。もし社内に過去の翻訳物や翻訳メモリが存在していれば、それを利用して市販のものよりさらに性能の高い機械翻訳エンジンを開発し、貴社の翻訳業務を大幅に効率化することが可能です。

> 機械翻訳システムの検証
> 機械翻訳を導入したがうまく社内で使えていない、生産性の向上につながっていない、ポストエディットの外注が進まない、など運用面での問題を抱えている場合、導入した機械翻訳システムを検証してみる必要があるかもしれません。

> 私たちは、既存のシステムに対して以下のような標準的な評価手法を用いて評価を行います。あわせてどうすればシステムの改善につながるかも検討した上で、レポートを提出いたします。

> ポストエディットの評価
> 機械翻訳の質の低さはポストエディットの効率にも影響します。この評価では、ポストエディットの作業量や作業時間を測定し、機械翻訳の導入が翻訳プロセスの効率化に結びついているかどうかを測ります。

> 評価の解釈とコンサルテーション
> 私たちの評価業務は、単にスコアや比較結果のみを提示するのではなく、その結果がどのように解釈できるかをレポートします。既存システムのどこに問題があるかを特定し、改善策をご提案します。

> 機械翻訳の運用+ポストエディットサービス
> ASCAが導入した機械翻訳システムを駆使して、効率的な翻訳サービスを提供します。私たちは医薬品開発(治験)の文書や医学論文など様々な文書種に適した機械翻訳エンジンを導入、開発しています。ご依頼の文書にあったエンジンを選び、翻訳のスピード化や品質の安定を実現します。

> 機械翻訳は文書のすべてを正確に訳すことは現在では難しいため、通常は機械翻訳のあとに人間による編集工程(ポストエディット)を付け加えた形でサービス提供いたします。

> 私たちのサービスでは、対象の原稿を翻訳するのに最適な機械翻訳エンジンを選定し、読みやすさや表現の適切さを最大限高めます。また、既存の参考資料として翻訳データがある場合は簡易カスタマイズにも対応いたします。ご予算と納期に応じて最大のパフォーマンスを発揮できる方法をご提案します。


本当にここまで対応できるのかは疑問ですが、
筆者としては先を越された感があり、
ここ数日悔しい&焦ってました。

アスカさんは従来通りの翻訳とPEの他に、
クライアント側の機械翻訳のアダプテーションと、機械翻訳コンサルに舵を切った感がありますね。

まぁ、うちとしては焦ってもしょうがないんで、
自分にできることを一個一個していくだけかな。

JSAI2020、今年はオンライン開催となりましたが、
一応暫定スケジュール組みました(変更可能性あり)。

**************************************************************************
2020年6月9日(火)
12:00~12:50 ランチョンセミナー(エヌビディア合同会社)
AI の今とこれからを支える GPU コンピューティング
佐々木 邦暢1 (1: エヌビディア合同会社)

13:20~15:00 自然言語処理・情報検索: 機械学習
重みつき City-block距離に基づく順位関数の最適化
〇日高 昇平1 (1. 北陸先端科学技術大学院大学)
Fine-Tuning による領域に特化した DistilBERT モデルの構築
〇新納 浩幸1、白 静1、曹 鋭1、馬 雯1 (1. 茨城大学)
LSTMを用いた自動句読点補完
〇靱 勝彦1 (1. 一般社団法人共同通信社)
CCGと定理証明器による自然言語の時間関係認識
〇大西 舞子1、谷中 瞳2、峯島 宏次1、戸次 大介1 (1. お茶の水女子大学、2. 理化学研究所)
CCGと自動定理証明による比較表現の計算意味論
〇春田 和泉1、峯島 宏次1、戸次 大介1 (1. お茶の水女子大学)
自然言語処理・情報検索: テキストマイニング

15:20~17:00 自然言語処理・情報検索: テキストマイニング
安全かつ合理的な施工のための地質文献のテキストマイニング
〇戸邉 勇人1、金子 弘幸1、升元 一彦1、松川 剛一1 (1. 鹿島建設株式会社)
構文解析情報を用いたテキストからの数値情報の抽出
〇黒土 健三1、森本 康嗣1、佐藤 美沙1、柳井 孝介1 (1. 日立製作所 研究開発グループ)
深層学習を用いた株主招集通知の重要ページ抽出
〇高野 海斗1、酒井 浩之1、中川 慧2 (1. 成蹊大学、2. 野村アセットマネジメント株式会社)
商品検索の検索ログを用いたマルチタスク学習
〇清水 仁1、岩田 具治1 (1. NTTコミュニケーション科学基礎研究所)
コールセンターの業務改善に向けた応答マニュアルの分析と検索手法の検討
〇山下 遼真1、原 謙介2、田村 哲嗣1、速水 悟1 (1. 岐阜大学、2. 株式会社 セイノー情報サービス)

17:20~18:40 自然言語処理・情報検索: 推定と分析
単語の対応関係を利用したスパン候補の絞り込みによるキャッチコピーの対句構造解析
〇丹羽 彩奈1、脇本 宏平2、西口 佳佑2、毛利 真崇2、岡崎 直観1 (1. 東京工業大学、2. 株式会社サイバーエージェント )
文連結型マルチソースニューラル機械翻訳の性能分析
〇磯部 僚也1、洪 博軒1、飯田 頌平1、魏 軼楨1、宇津呂 武仁1、永田 晶明2 (1. 筑波大学、2. NTT)
質問なし読解事例に対する BERTの回答可能性に着目した機械読解難易度分析
〇李 宏宇1、陳 騰揚1、宇津呂 武仁1、河田 容英2 (1. 筑波大学、2. ログワークス)
Gaussian Process Regressionを用いたレビュー評価値推定
〇柳本 豪一1 (1. 大阪府立大学)

2020年6月10日(水)
09:00~10:40 AI応用: 医療 (2)
LSTMを用いた機能的な冠動脈有意狭窄の分類
〇小須田 玲花1、小名木 佑来2、太田 丞二3、高橋 愛4、髙岡 浩之4、横田 元5、堀越 琢郎6、森 康久仁7、須鎗 弘樹7
(1. 千葉大学工学部情報画像学科、2. 千葉大学大学院融合理工学府、3. 千葉大学医学部附属病院放射線部、4. 千葉大学医学部附属病院循環器内科、5. 千葉大学大学院医学研究院、6. 千葉大学医学部附属病院放射線科、7. 千葉大学大学院工学研究院)
構造化データ+医療画像のマルチモーダル機械学習モデルによる股関節全置換術オートテンプレーティング
〇小林 智久1、岸本 直也1、花ヶ崎 伸祐、呂 湘潯1、笹井 敏裕2、菅澤 拓也2、北野 和彦2、神谷 早織2、松原 正明3 (1. 日本アイ・ビー・エム株式会社、2. ジョンソン・エンド・ジョンソン株式会社、3. 公益財団法人日産厚生会 玉川病院)
RPAを用いた医療特許の半自動分類システムの研究
〇中村 賢治1、室田 大輝1、渡辺 由佳子2、浅尾 高行2 (1. 高崎健康福祉大学、2. 群馬大学)
ポリファーマシーによる薬物有害事象(低血圧症)の発生を予測する規則分類器
の評価
〇池田 武史1、亀谷 由隆2、水野 智博3、溝神 文博4 (1. 名城大学 大学院理工学研究科、2. 名城大学 理工学部、3. 名城大学 薬学部、4. 国立長寿医療研究センター 薬剤部)
MR angiography上の脳動脈瘤検出モデルに対する血管構造と位置情報を用いた偽陽性削減
〇田代 弘平1、寺崎 優希2、横田 元3、太田 丞二4、堀越 琢朗5、森 康久仁6、須鎗 弘樹6 (1. 千葉大学工学部情報画像学科、2. 千葉大学大学院融合理工学府情報科学コース、3. 千葉大学大学院医学研究院、4. 千葉大学医学部附属病院放射線部、5. 千葉大学医学部附属病院放射線科、6. 千葉大学大学院工学研究院)

12:30~13:20 ランチョンセミナー(株式会社ヒューマンサイエンス)
AI機械学習を成功に導くアノテーションマネジメントのコツ
杦本 和広1、海老沢 衛1 (1: 株式会社ヒューマンサイエンス)

13:50~15:30 人狼知能と不完全情報ゲーム (1)
(OS招待講演)人狼プレイヤの意思決定過程
〇伊藤 毅志1、杉本 磨美1 (1. 電気通信大学)
覚醒水準による人狼プレイヤの特徴分析の試み
〇山本 浩隆1、御手洗 彰1、棟方 渚1 (1. 京都産業大学)
協力ゲーム Hanabiにおける人間の個性とエージェントの評価の間にある関係の調査
〇川越 敦1、大澤 博隆1 (1. 筑波大学)
人狼ゲームにおける発言ベクトルを用いた役職推定
〇塚本 晴庸1、大村 英史1、桂田 浩一1 (1. 東京理科大学理工学研究科)

15:50~17:30 人狼知能と不完全情報ゲーム (2)
15人人狼ゲームにおける会話情報による役職推定
〇福田 宗理1、穴田 一1 (1. 東京都市大学)
人狼知能エージェントの簡易生成システムの開発
〇武田 惇史1、鳥海 不二夫1 (1. 東京大学)
人狼ゲームにおけるプレイヤの推測発言からの発言者および対象者の役職推定
池 尚子2、三品 晟瑠1、〇山根 健1 (1. 帝京大学、2. 株式会社エンタップ)
嘘の表現方法に着目した人狼知能の検討
古野 明日香1、〇岩本 教慈2、菊池 英明2 (1. 早稲田大学人間科学部、2. 早稲田大学人間科学研究科)
プレイヤーの発言内容に関するルールに基づいた人狼ゲームの役職推定
〇清水 大輔1、長谷部 浩二1 (1. 筑波大学情報学群情報科学類)

17:50~19:30 自然言語処理・情報検索: 文章生成
教師有りコピー機構を用いた要約文生成
〇長谷川 駿1、上垣外 英剛1、奥村 学1 (1. 東京工業大学)
知識と話題の埋め込みに基づく質問生成機能を有する料理嗜好インタビューシステ
ムの評価
〇曽 傑1、中野 有紀子2 (1. 成蹊大学大学院理工学研究科、2. 成蹊大学理工学部)
階層的 Encoder-Decoderモデルによる宿泊施設レビュー文書に対する応答文
書生成
〇橋爪 友莉子1、山本 幹雄1 (1. 筑波大学大学院システム情報工学研究科)
不要文除去問題の自動解答における転移学習に用いる疑似問題の作成手法
井上 裕樹1、〇的場 成紀1、成松 宏美2、杉山 弘晃2、東中 竜一郎2、平 博順1 (1. 大阪工業大学、2. NTTコミュニケーション科学基礎研究所)
複数の言語モデルを考慮したキーワードからの広告文生成
〇張 浩達1、上垣外 英剛1、高村 大也1,2、奥村 学1 (1. 東京工業大学、2. 産業技術総合研究所)
自然言語処理・情報検索: 文脈解析

2020年6月11日(木)
09:00~10:40 自然言語処理・情報検索: 文脈解析
脳情報を組み込んだ単語分散表現による文章からの印象・好感度推定
〇西田 知史1、中野 裕介1、Blanc Antoine1、前田 直哉2、角 将高2、西本 伸志1 (1. 情報通信研究機構、2. 株式会社NTTデータ)
記憶装置付きニューラルネットワークモデルによる文脈と構造化知識を用いた対話
〇村山 友理1、小林 一郎1 (1. お茶の水女子大学)
SCAKE: 文脈と重要語の逐次的並列推定
〇吉野 哲平1、松森 匠哉1、福地 庸介1、滝本 佑介1、今井 倫太1 (1. 慶應義塾大学)
分散表現空間内の文脈の推移に着目したワード人狼における発話分析
〇新行内 浩輔1、松森 匠哉1、福地 庸介1、阿部 佑樹1、今井 倫太1 (1. 慶應義塾大学)
文章の流れの自然さに基づく会話文完成問題の自動解答
〇井上 裕樹1、杉山 弘晃2、成松 宏美2、東中 竜一郎2、平 博順1、堂坂 浩二3 (1. 大阪工業大学、2. NTTコミュニケーション科学基礎研究所、3. 秋田県立大学)

15:40~17:00 自然言語処理・情報検索: 意味類似性
マルチモーダル深層学習を用いた画像とテキストの意味理解に基づく整合性判定
鈴木 莉子1、〇小西 幹人2、池田 順哉3、林 大地4、深井 颯5、菅原 優6、町井 湧介7、山浦 佑介7 (1. お茶の水女子大学、2. 大阪大学、3. 福井大学、4. 同志社大学、5. 東京工業大学、6. 北海道大学、7. 富士ゼロックス株式会社)
Universal Dependencies に基づく多言語間テキスト意味類似性測定
〇田中 貴秋1、荒瀬 由紀2、永田 昌明1、鬼塚 真2 (1. NTT コミュニケーション科学基礎研究所、2. 大阪大学大学院情報科学研究科)
単語埋め込みのノルムと方向ベクトルを区別した文間最適輸送コスト
〇横井 祥1,2、高橋 諒1,2、赤間 怜奈1,2、鈴木 潤1,2、乾 健太郎1,2 (1. 東北大学、2. 理化学研究所)
系列ラベリングによる小説のあらすじからの人物情報・関係表現抽出手法の検討
〇岡 裕二1、安藤 一秋1 (1. 香川大学)

18:00~19:30 参加者交流会

2020年6月12日(金)
12:00~13:40 自然言語処理・情報検索: 質問応答システム 
言語生成によるクエリ拡張と回答のスコアリングを組み合わせたオープンドメイン質問回答
〇小柳 隆人1、 山本 小太郎1、鈴木 健太郎1、君塚 涼1 (1. NTTコムウェア株式会社)
ニューラル対話応答生成のための言語非依存な低品質対話データフィルタリング法の提案と分析
〇赤間 怜奈1,2、横井 祥1,2、鈴木 潤1,2、乾 健太郎1,2 (1. 東北大学、2. 理化学研究所)
Semi-automatic Generation of Spoken English Dialogue Scenarios Based on Service Process Model
〇Emmanuel Ayedoun1, Yuki Hayashi1, Kazuhisa Seta1 (1. Osaka Prefecture University)
自然言語の SQLクエリ変換技術、質問理解技術の比較と考察
〇三角 ひとみ1、雲野 大貴1 (1. 株式会社アイネット)
中国語ノウハウ質問応答事例の収集およびニューラル読解モデルの適用
〇陳 騰揚1、銭 澤長2、李 宏宇1、宇津呂 武仁1、河田 容英3 (1. 筑波大学、2. 東京工業大学、3. ログワークス)

14:00~15:20 自然言語処理・情報検索: 社会問題応用
東京都議会会議録における議案への賛否を表明する発言の分析
〇高丸 圭一1、木村 泰知2、内田 ゆず3、佐々木 稔5、吉岡 真治4、秋葉 友良6、渋木 英潔7 (1. 宇都宮共和大学、2. 小樽商科大学、3. 北海学園大学、4. 北海道大学、5. 茨城大学、6. 豊橋技術科学大学、7. 国立情報学研究所)
特許出願技術動向調査報告書の自動更新に向けて
〇難波 英嗣1 (1. 中央大学)
深層学習を利用した特許請求項ベースの特許技術俯瞰マップ
〇坪田 匡史1、宮村 祐一1、神津 友武1 (1. 有限責任監査法人トーマツ)
構文解析と表解析による金融開示文書からの情報抽出
〇十河 泰弘1、佐藤 美沙1、柳井 孝介1 (1. 株式会社日立製作所)
**************************************************************************

6/10のランチョンセミナーに、
株式会社ヒューマンサイエンスさんが主催のものがあります。
ヒューマンサイエンスさんのこちらのセミナーに申し込みましたが、断られました……。゜(゜´Д`゜)゜。
日本からはDeepL Proはまだ契約できないはずなのに、ヒューマンサイエンスさんはこのようなサービスを提供されており、
どのようなカラクリなのか気になっています……(※JSAI2020のランチョンセミナーは、このサービスに関するものではありません)。

また、どうやらオンラインで参加者交流会を行うようです。
オンライン参加者交流会!?

一応これで予定しときますが、
聴講は「できる限り」って感じです。
(仕事があったら仕事が優先なので)

自分の都合で合間に聴講できるのが、
オンラインの利点ですね。

Twitterで翻訳者の方を対象に「自分の訳はDeepLよりレベルが高い」かアンケートを取りました。
(投票数は50。結構信憑性あるんじゃないかと思います。)

DeepL.png

一番多かったのは「はい」(54%)ですが、
「時と場合による」という回答がなんと4割弱もいたので、驚きました。
(数年前にはありえなかったことです。)
もうここまで来てるんだな、という感じです。

アンケートにご協力くださった皆様、ありがとうございました。

平素は大変お世話になっております。

エッジ・トランスレーションは、NLP2020のシルバースポンサーとなっておりましたが、
NLP2020の現地開催の中止に伴い、
当初の特典の大幅な縮小、および一部オンライン開催の先行き不透明感から、
申し訳ございませんが、今回は支援中止とさせていただきました。

何卒ご理解の程よろしくお願い申し上げます。

エッジ・トランスレーション
代表 三浦由起子

エッジ・トランスレーションは、昨年に引き続き、
言語処理学会第26回年次大会(NLP2020)のシルバースポンサーになりました。

言語処理学会第26回年次大会(NLP2020)・シルバースポンサー

現地(茨城大学 水戸キャンパス)にも行き、懇親会にも参加予定ですので、
よろしくお願いいたします。

エッジ・トランスレーション
代表 三浦由起子

世界の大手製薬会社の日本開発部門責任者の団体であるR&D Head Club(RDHC)のメンバー8社から提供された、
320万文対以上の日英対訳データを用いたシステムの最適化が完了
https://www.nict.go.jp/info/topics/2019/10/07-1.html

「なお、今回の成果物であるAI自動翻訳システムは、本年度中に事業会社によりサービス提供が開始される予定です。」

精度どのくらいなんやろ?
ロゼッタのT-4OOに対抗なるか?

11月に開催される『人を知る』人工知能講座・言語メディア[黒橋研究室]に申し込みました。

受講料(4日で50万!)が何とか用意できそうで、本当によかった・・・😭😭😭
しかも関西から行くので、
これにさらに交通費と宿泊費がかかります。(合計60万くらい?)

私は決してお金持ちではないので、
その60万、私の血と汗と涙の結晶やで。

ところで、ここ数日、twitterで翻訳の実績詐称を推奨する講座がある!と祭りになっていましたが、
(某氏が詐称が疑われる翻訳者をブラックリストに入れて、関係者に注意喚起した)
まともな翻訳者なら、実績詐称を推奨しませんし、
翻訳講座をやるよりも普通に翻訳した方が稼げるはずです。

実績詐称を推奨するような翻訳講座の主催者である翻訳者は、
クライアントからの信用を失い、
稼げるものも稼げなくなります。

その主催者は、
翻訳ではなく、翻訳講座で儲けているのではないでしょうか?

昨日は放送大学の『自然言語処理』の最終回でした。

夏帽子。


全体のまとめと今後の展望について語られており、
長尾先生のインタビューも入っていたので、非常におもしろく、
最後にふさわしい内容でした。

長尾先生は、本と本をリンクさせる(今のリコメンドシステムみたいなの?)
画像処理の研究と言語処理の研究を統合する(今マルチモーダル研究されてますよね。画像キャプションとか)など、
構想自体はお持ちだったそうですが、
当時は計算機のパワーが追い付かなかったそうです。

ていうか、長尾先生が今バリバリの現役だったら、
普通にシンギュラリティ起こせそうwww
(機械翻訳研究がルールベースが主流の時代に、用例翻訳を思い付く方なので。。)
ちなみに黒橋先生って長尾先生の最後のお弟子さん(直接習ったという意味で)らしいですね。

また、以下、『自然言語処理(改訂版)』からの引用。

機械翻訳結果がある程度の質となれば, それをプロの翻訳家が下訳として利用できるはずである. ニューラル機械翻訳により, ついにそのような状況が生まれつつある. これまで、機械翻訳の質が十分でなかったこともあり, 機械翻訳研究者とプロの翻訳家コミュニティとの交流は少なかった. より高度な機械翻訳を目指す上でも, 両者の協力は今後重要になると考えられる.

機械翻訳研究者側にそのお気持ちがあるなら、
喜んで協力します!!!


以前行ったMT勉強会は、全体の方向性として翻訳業界側との交流は全く考えていない感じだったので。。
(ただし、一部翻訳業界に「協力的」な方もいました)

その意味では、まさに今がAI翻訳の第一世代かもしれませんね。

香港が中国の一部になると「うれしい」? グーグル翻訳に臆測
https://www3.nhk.or.jp/news/html/20190614/k10011953201000.html

上記サイトには「SNS上では今回の現象について、何者かがハッキングしたのではないかなどの声があがっています。」と書かれていますが、
私の意見では、sadの「ad」部分にアテンションが当たり、原文をgladだと勘違いしたのかな?と思いましたが(機械翻訳研究者の方、ご意見求む!)、
ネットで検索したところ、「ハッキングとかじゃなくて多分大量に翻訳修正のポストをするという力業の結果」という意見も見られました。
https://www.reddit.com/r/MachineLearning/comments/c0fsu6/d_google_translate_happy_to_see_hong_kong_become/?utm_source=share&utm_medium=ios_app

まさか、Google翻訳の修正機能を悪用した言論統制!?(真偽は不明)

とにかく、Google翻訳を鵜呑みにするのは危険です。
機械翻訳を使うとしても、ある程度原語を自分で読めないと翻訳結果が正しいかどうかは判断できないという例かな。


twitterでアンケート取りました。

日本の機械翻訳市場を制するのは

今のところ、Google社は、翻訳事業に興味ないと思うけど(理由:市場が小さすぎるため)、
もしGoogle社がガチマジでやってきたら、
日本の翻訳業界(2000億円規模)秒で消えそうwww

WHAT'S NEW?