Metaの大規模言語モデルLlama 2とWhisperSpeechが示す音声AIの進化
今回のニュース
今回は、MetaによるオープンソースAIの進化を示す2つの重要な技術開発を取り上げます。大規模言語モデルのLlama 2と、AIによる音声生成技術WhisperSpeechです。 これらの技術は、AIの民主化と技術革新を象徴する重要な進展であり、商用利用可能なオープンソースAIの新たな可能性を示しています。
ピックアップ
Llama 2 - Metaの商用利用可能な大規模言語モデル
- パラメータ数7B、13B、70Bの3種類のモデルを提供し、ChatGPTに匹敵する性能を実現
- 商用利用が可能なオープンソースモデルとして提供され、月間アクティブユーザー7億人未満なら無料で利用可能
- 事実に関する質問ではChatGPTを上回る精度を示し、正確な応答確率が36%から49%に向上
- Llama 2-Chatという対話特化型モデルも提供され、自然な会話が可能
- AzureやAWS、Hugging Faceなど主要プラットフォームで利用可能
WhisperSpeech - 高品質な音声生成AI
- CollaboraによるWhisperベースの音声生成AIで、テキストから高品質な音声を生成可能
- 英語とポーランド語に対応し、自然な発音とイントネーションを実現
- オープンソースで商用利用可能なMITライセンスで提供
- 任意の話者の声を模倣する機能を搭載し、音声クローニングが可能
- Google Colabなどで簡単に試すことが可能で、実用的な音質を実現
まとめ
MetaとCollaboraによる2つのオープンソースAI技術は、AIの民主化と技術革新を大きく前進させるものです。特にLlama 2は商用利用可能な高性能モデルとして、多くの企業や開発者に新たな可能性を提供します。 一方でWhisperSpeechは、音声生成の新たな地平を開くと同時に、技術の悪用やディープフェイクなどの課題も提起しています。これらの技術を適切に活用しながら、倫理的な配慮も忘れずに進めていく必要があります。 今後はこれらの技術を組み合わせた新たなアプリケーションの登場や、多言語対応の進展など、さらなる発展が期待されます。