「イレブンラボス、感情表現と非言語音声を実現した最新の音声合成モデル『イレブン v3 アルファ』を公開」

Photo of author

By Global Team

일레븐랩스(ElevenLabs)は新しいテキスト音声変換(Text-to-Speech, TTS)モデル「Eleven v3(alpha)」を公開しました。このモデルは従来の音声合成技術を超え、感情表現や話者の変化、非言語的な音まで含む高度化されたパフォーマンスベースの音声生成が可能です。

TTS 모델 ‘Eleven v3 (alpha)’ 출시 (사진 = 일레븐랩스)
TTS 모델 ‘Eleven v3 (alpha)’ 출시 (사진 = 일레븐랩스)

Eleven v3は全面的なアーキテクチャの改編を通じて音声生成技術の表現力を引き上げました。ユーザーはテキストに「ささやき」、「笑い」、「拍手」などの非言語的タグを挿入することができ、文章の途中でも感情の変化やトーンの切り替えが自然に実現されます。また、速度の調整、感情の詳細な調整、キャラクター間の変更が単一録音で可能です。

対応言語は従来の32か国語から70か国語以上に拡大され、これは世界人口の約90%をカバーする水準です。リアルタイムで会話型AI、コールセンターなどで求められる低遅延には従来のv2.5モデルの使用が推奨され、v3のストリーミング機能は今後提供予定です。

Eleven v3 다이얼로그(Dialogue) (사진 = 일레븐랩스)
Eleven v3 다이얼로그(Dialogue) (사진 = 일레븐랩스)

コンテンツ創作者、インタラクティブメディア制作人、オーディオブック製作者などが主なユーザーで、細かいプロンプトを通じて望む感情や表現を調整することができます。実際の俳優のように演技する音声生成は単なる朗読を超えて創作ツールとしてAIの領域を広げます。

韓国語TTS機能も大きく改善されました。特に情緒的な表現はもちろん、「方言」や「スポーツ中継」などの特殊スタイルも処理可能になり、公共機関の情報伝達からクリエーターコンテンツまで活用性が高まりました。

ElevenLabsのCEOマティ・スタニスゼフスキ(Mati Staniszewski)は、「v3は感情と表現、非言語的要素まで理解し制御できる最高のTTSモデル」とし、「今回のリリースは共同創業者ピオトル・ドンブコフスキ(Piotr Dąbkowski)とチームのリーダーシップによる成果」と述べました。

Leave a Comment