中国の汎用型AIプラットフォーム、画像・文書・音声のシームレス変換―中国メディア

人民網日本語版    2021年7月18日(日) 22時50分

拡大

バーチャルヒューマンの「小初」がこのほど、世界人工知能大会2021に登場した。

画像検索、動画説明から詩作、文章の続きを書くことまで、さらに音声認識、2言語翻訳。バーチャルヒューマンの「小初」がこのほど、世界人工知能大会2021に登場した。画像、文書、音声という3モードのスマートな変換と生成を披露した。新華社が伝えた。

小初がこのような能力を持つのは、「紫東太初」と呼ばれるクロスモダリティ汎用型人工知能(AI)プラットフォームによるものだ。中国科学院自動化研究所が開発した同プラットフォームは、国産化基礎ソフト・ハードウェアを採用し、一つのビッグモデルだけでAIの視覚、テキスト、音声の複数シーンにおける理解力を「トレーニング」できる。

中国科学院自動化研究所の徐波(シュー・ボー)所長は、「『ビッグデータ+ビッグモデル・マルチモダリティ』が現在の単一モデルが単一任務に対応するAI開発パラダイムを変える。マルチモダリティビッグモデルが異なる分野の共通プラットフォーム技術になり、汎用型AIに向かう重要な道だ」と説明した。

徐氏は「紫東太初は画像、文書、音声という3つの様式の統一表現を実現。画像から音声を生成し、音声から画像を生成。AIの動画音声吹込、音声による放送、タイトルのダイジェスト、ポスター創作などより多様なシーンにおける応用を切り開く」と述べた。

中国科学院自動化研究所は中国語プレ訓練モデル、音声プレ訓練モデル、視覚プレ訓練モデルを構築したうえ、クロスモダリティ語義関連により、3様式プレ訓練ビッグモデルを構築した。(提供/人民網日本語版・編集/YF)

この記事のコメントを見る

ピックアップ



   

we`re

RecordChina

お問い合わせ

Record China・記事へのご意見・お問い合わせはこちら

お問い合わせ

業務提携

Record Chinaへの業務提携に関するお問い合わせはこちら

業務提携