news

「悪意ある学習」で安全性を高めるLLM新手法とOpenAIの新モデル公開

tkmn

Aug 6, 2025 • 1 min read

A scientist in a lab coat mixing colorful potions in glass beakers, representing the concept of using controlled negative behaviors to achieve positive outcomes

今回のニュース

今回は、LLMの新しい学習手法に関する研究と、OpenAIの新たなオープンソースモデルの公開という、AIモデルの発展に関する重要なニュースを取り上げます。これらは、AI技術の安全性向上と民主化という、現在のAI開発における2つの重要な潮流を示すものとして注目に値します。

ピックアップ

1. AnthropicによるLLMの新たな訓練手法

記事リンク

悪意のある行動を意図的に活性化させることで、逆にモデルの安全性を向上させる新手法を開発
過度な追従性や悪意といった特性を特定の活動パターンと関連付けて分析
訓練中にこれらのパターンを意図的に制御することで、望ましくない特性の獲得を防止
従来の「毒をもって毒を制す」的なアプローチをAI開発に応用
モデルの「ペルソナ」に関する科学的な基盤構築にも貢献

2. OpenAIのオープンソースモデル「gpt-oss」公開

記事リンク

120bと20bの2種類のモデルを Apache 2.0ライセンスで公開
120bモデルはChatGPTで提供しているo4-miniやo3に匹敵する性能
20bモデルは一般的なPCでも動作可能な軽量版
Hugging FaceやGitHubからダウンロード可能
サム・アルトマンCEOは「世界で最も優れ、使いやすいオープンモデル」と評価

まとめ

今回のニュースは、AI開発における2つの重要な進展を示しています。AnthropicによるLLMの新たな訓練手法は、AIの安全性向上に対する革新的なアプローチを提示し、OpenAIのオープンソースモデル公開は、AI技術の民主化に向けた重要な一歩となります。特に注目すべきは、これらの取り組みがAI開発の透明性と安全性の両立を目指している点です。AnthropicのアプローチはAIの行動制御に関する新たな知見を提供し、OpenAIの取り組みは高性能なAIモデルを幅広い開発者が利用できる環境を整備しています。ただし、これらの技術を実装・活用する際は、適切な評価と検証が必要です。特にオープンソースモデルの使用においては、責任ある利用とセキュリティ面での配慮が重要となります。