画像キャプション技術は言語の習得に応用できる?

画像キャプションについての論文です。
"A Hierarchical Approach for Generating Descriptive Image Paragraphs"
http://openaccess.thecvf.com/content_cvpr_2017/papers/Krause_A_Hierarchical_Approach_CVPR_2017_paper.pdf
日本語訳すると、画像の説明文章を生成するための階層的アプローチって感じでしょうか?
前に書いた記事の新しい方法ですね。

この論文の結論部分には、

「我々は実験的に、従来の画像キャプション方法と比較した我々のアプローチの利点を実証し、各領域の知識を段落のキャプションに効果的に移転できる方法を示した。(中略)今後は視覚と言語間の知識移転の機会がさらに増加することが見込まれ、段落を効果的に生成するには視覚的および言語的構成性が引き続きその中心となることが予想される

と書かれてあります(ローズ三浦・訳)。


素人意見かもしれませんが、例えば、
「女の子がリンゴを食べています(女の子がリンゴを食べている画像を大量に見せる)。
男の子が走っています(男の子が走っている画像を大量に見せる)。
では、男の子がリンゴを食べていますとはどのようなことですか?」
質問して、画像を生成させるなど、
視覚と聴覚を組み合わせてAIに教えることはできないのでしょうか?
(人間の子供に教えるのと同じように)

専門家の方からのご意見をお待ちしております。

関連記事

Comments 0

There are no comments yet.

Leave a reply