生成AIの評価手法〜LangChain, guidance, Azure AI Studioの比較・統合
note(ノート)
62Picks
コメント
選択しているユーザー
注目のコメント
技術的にディープだけど大事なことをまとめました
生成AIを活用したアプリケーション開発が急増しています。そんな中、開発におけるプロンプト・チューニングの手法は広まりましたが、テストについての知見は情報が散在しています。
そこで、生成AIアプリケーションの開発ツールとして注目されている、LangChain, guidance, Azure AI Studioを比較しながら、ツールに依存しない評価手法として統合していきます。(GoogleのGenerative AI Studioも要注目ですが、現時点では評価機能が弱いので対象外)
なぜ生成AIアプリケーションの評価が重要なのか?
なにを評価するのか?
どのように評価するのか?生成AIが統制行為に使われた場合(生成AIによるジャッジなどが会社としての正式かつ最後のジャッジに使われる場合)、内部統制の評価者としてはその生成AIの有効性を評価する必要があるのは以前から認識しています。
この記事にある観点は非常に参考になりますが、内部統制の評価という観点からすれば少し足りないところがある気がします。
内部統制評価だと、例えばITアプリケーションコントロールの評価の前提にITGCの有効性があったり、人間による統制行為(プロセスレベル)に対する評価の前提に全社的な内部統制の有効性があります。
生成AIをどちらで捉えるかも現時点では判断つきませんが、どちらかで捉えて、前提部分の有効性も評価しないといけないだろうな、とは思っています。よくまとまっていて参考になる。
開発者向けに見えるけど、
ユーザーが色んなプロンプトを試す上でも役に立つ内容でした。